このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240516となっている論文です。

PDF登録状況(公開日: 20240516)

TitleAuthorsAbstract論文公表日・翻訳日
# AIを活用したプロフェッショナル開発のためのメンターシッププラットフォームの設計 - 機会と課題

Designing an AI-Powered Mentorship Platform for Professional Development: Opportunities and Challenges ( http://arxiv.org/abs/2407.20233v1 )

ライセンス: Link先を確認
Rahul Bagai, Vaishali Mane, (参考訳) 本稿では、まだ実現されていない専門的成長のための概念的AI駆動型メンターシッププラットフォームであるMentorAIの開発に関連する、有望な展望と潜在的ハードルについて考察する。 本論ではメンターAIプラットフォームの構築と効果を成功させるために必要な基本的特徴と技術基盤について論じる。 この記事は、キャリアの進展の促進、スキル開発の育成、プロフェッショナルのためのバランスの取れたワークライフ環境のサポートなど、プロフェッショナル成長のさまざまな側面におけるMentorAIの変革の可能性を強調している。 MentorAIはAIベースのアプローチを通じて、個人固有のニーズや目標に合わせてカスタマイズされたリアルタイムガイダンス、リソース、支援を提供することを目指している。 さらに、人工知能、機械学習、自然言語理解など、MentorAIの運用に不可欠な中核技術について検討する。 これらの技術により、プラットフォームはユーザの入力を処理し、コンテキストに敏感な応答を提供し、ユーザの好みや目的に合わせて動的に調整することが可能になる。 MentorAIの展開は、あらゆる画期的な技術と同様に潜在的な課題と倫理的懸念を提示している。 この記事では、データ保護、セキュリティ、アルゴリズムバイアス、AIシステムによる人間のメンターの代替に関する道徳的四分儀など、重要な問題を概説する。 これらの課題に積極的にかつ意図的に対処することは、ユーザに対するポジティブな影響を保証するために不可欠である。

This article examines the promising prospects and potential hurdles associated with the development of MentorAI, a conceptual AI-driven mentorship platform for professional growth yet to be actualized. The article explores the essential characteristics and technological underpinnings required for the successful creation and efficacy of the MentorAI platform in providing tailored mentorship experiences. The article highlights the transformative potential of MentorAI on various dimensions of professional growth, such as boosting career progression, nurturing skill development, and supporting a balanced work-life environment for professionals. MentorAI, through its AI-based approach, aspires to offer real-time guidance, resources, and assistance customized to each individual's specific needs and goals. Furthermore, the article examines the core technologies crucial to MentorAI's operation, including artificial intelligence, machine learning, and natural language comprehension. These technologies will empower the platform to process user inputs, deliver context-sensitive responses, and dynamically adjust to user preferences and objectives. The deployment of MentorAI presents potential challenges and ethical concerns, as with any groundbreaking technology. The article outlines critical issues like data protection, security, algorithmic bias, and moral quandaries concerning substituting human mentors with AI systems. Addressing these challenges proactively and deliberately is vital to ensure a positive impact on users.
翻訳日:2024-08-05 00:56:24 公開日:2024-05-16
# NaviSlim:動的スリムネットワークによる適応型コンテキスト認識ナビゲーションとセンシング

NaviSlim: Adaptive Context-Aware Navigation and Sensing via Dynamic Slimmable Networks ( http://arxiv.org/abs/2407.01563v1 )

ライセンス: Link先を確認
Tim Johnsen, Marco Levorato, (参考訳) マイクロドローンのような小型の自律飛行車両は、探査から監視、配送まで幅広い用途において中心的な役割を担っていると期待されている。 この種の車両は、計算能力とエネルギー貯水池の厳しい制約が特徴で、自律運転に必要な複雑な最先端のニューラルモデルをサポートする能力が損なわれている。 本稿の主なコントリビューションは、現在の状況(環境の難易度、現在の軌道、ナビゲーション目標など)に応じて、コンピューティングとセンシングに費やされたリソースの量に適応可能な、ニューラルナビゲーションモデル — NaviSlim -- の新たなクラスである。 具体的には、NaviSlimは、既存のスリムブルネットワークとは異なる、ゲート付きスリムブルニューラルネットワークアーキテクチャとして設計されており、スリム化要因を動的に選択して、モデル複雑性を自律的にスケールすることで、実行時間とエネルギー消費を最適化することができる。 さらに、既存のセンサーフュージョンアプローチとは違って、NaviSlimはオンボードセンサーの電力レベルを動的に選択することで、異なるニューラルネットワークを切り替えることなく、センサの取得に費やした電力と時間を自律的に削減することができる。 Microsoft AirSimのロバストなシミュレーション環境における広範なトレーニングとテストにより、難易度が異なるシナリオに関するNaviSlimモデルと、最も難しいシナリオで必要となる計算とセンシングにマッチするように設計された静的ニューラルネットワークと比較して、平均57~92%と61~80%のセンサー利用率でモデル複雑性を動的に減少させるテストセットを評価した。

Small-scale autonomous airborne vehicles, such as micro-drones, are expected to be a central component of a broad spectrum of applications ranging from exploration to surveillance and delivery. This class of vehicles is characterized by severe constraints in computing power and energy reservoir, which impairs their ability to support the complex state-of-the-art neural models needed for autonomous operations. The main contribution of this paper is a new class of neural navigation models -- NaviSlim -- capable of adapting the amount of resources spent on computing and sensing in response to the current context (i.e., difficulty of the environment, current trajectory, and navigation goals). Specifically, NaviSlim is designed as a gated slimmable neural network architecture that, different from existing slimmable networks, can dynamically select a slimming factor to autonomously scale model complexity, which consequently optimizes execution time and energy consumption. Moreover, different from existing sensor fusion approaches, NaviSlim can dynamically select power levels of onboard sensors to autonomously reduce power and time spent during sensor acquisition, without the need to switch between different neural networks. By means of extensive training and testing on the robust simulation environment Microsoft AirSim, we evaluate our NaviSlim models on scenarios with varying difficulty and a test set that showed a dynamic reduced model complexity on average between 57-92%, and between 61-80% sensor utilization, as compared to static neural networks designed to match computing and sensing of that required by the most difficult scenario.
翻訳日:2024-07-22 22:28:39 公開日:2024-05-16
# GPTutor:パーソナライズドラーニングコンテンツ生成のための大規模言語モデル付きパーソナライズドチュータ

GPTutor: Great Personalized Tutor with Large Language Models for Personalized Learning Content Generation ( http://arxiv.org/abs/2407.09484v1 )

ライセンス: Link先を確認
Eason Chen, Jia-En Lee, Jionghao Lin, Kenneth Koedinger, (参考訳) 我々はGPTutorを開発した。GPTutorは、大規模に生成AIの能力を活用してパーソナライズされた学習に革命をもたらすように設計された先駆的なWebアプリケーションだ。 GPTutorは、個々の学生の興味やキャリア目標に合わせて教育内容と実践演習を適応させ、重要な学術的概念の関与と理解を高める。 このシステムはサーバーレスアーキテクチャを使って、パーソナライズされたスケーラブルな学習体験を提供する。 高度なChain-of-Thoughtsの推進方法を統合することで、GPTutorは、各学生の独特な関心に対処するだけでなく、将来のプロフェッショナルな成功に備えるパーソナライズされた教育旅行を提供する。 本稿では, GPTutorの設計, 機能, 可能性について紹介し, より活発で効果的な教育環境を育成する。

We developed GPTutor, a pioneering web application designed to revolutionize personalized learning by leveraging the capabilities of Generative AI at scale. GPTutor adapts educational content and practice exercises to align with individual students' interests and career goals, enhancing their engagement and understanding of critical academic concepts. The system uses a serverless architecture to deliver personalized and scalable learning experiences. By integrating advanced Chain-of-Thoughts prompting methods, GPTutor provides a personalized educational journey that not only addresses the unique interests of each student but also prepares them for future professional success. This demo paper presents the design, functionality, and potential of GPTutor to foster a more engaging and effective educational environment.
翻訳日:2024-07-22 13:48:17 公開日:2024-05-16
# AddBiomechanics dataset: Capturing the Physics of Human Motion at Scale

AddBiomechanics Dataset: Capturing the Physics of Human Motion at Scale ( http://arxiv.org/abs/2406.18537v1 )

ライセンス: Link先を確認
Keenon Werling, Janelle Kaneda, Alan Tan, Rishi Agarwal, Six Skov, Tom Van Wouwe, Scott Uhlrich, Nicholas Bianco, Carmichael Ong, Antoine Falisse, Shardul Sapkota, Aidan Chandra, Joshua Carter, Ezio Preatoni, Benjamin Fregly, Jennifer Hicks, Scott Delp, C. Karen Liu, (参考訳) 近年、安価なセンサーから3Dの人間のポーズを復元する手法は大幅に進歩しているが、筋肉が生成する関節トルクや外力を含む人間の動きのダイナミクスを定量化することは依然として困難である。 復元された人間のポーズから物理学を推定する以前の試みは、高品質なポーズとさまざまな動きのための強制データを備えたデータセットの欠如によって妨げられている。 今回提案するAddBiomechanics Dataset 1.0は,273人の被験者の身体的正確性,70時間以上の運動および力板データ,合計2400万フレーム以上を含む。 このデータセットを構築するには、新しい分析手法が必要であり、ここでも報告されている。 本稿では,このデータセットを用いて動きから人体力学を推定するベンチマークを提案し,いくつかのベースライン結果を示す。 AddBiomechanics Datasetはhttps://addbiomechanics.org/download_data.htmlで公開されている。

While reconstructing human poses in 3D from inexpensive sensors has advanced significantly in recent years, quantifying the dynamics of human motion, including the muscle-generated joint torques and external forces, remains a challenge. Prior attempts to estimate physics from reconstructed human poses have been hampered by a lack of datasets with high-quality pose and force data for a variety of movements. We present the AddBiomechanics Dataset 1.0, which includes physically accurate human dynamics of 273 human subjects, over 70 hours of motion and force plate data, totaling more than 24 million frames. To construct this dataset, novel analytical methods were required, which are also reported here. We propose a benchmark for estimating human dynamics from motion using this dataset, and present several baseline results. The AddBiomechanics Dataset is publicly available at https://addbiomechanics.org/download_data.html.
翻訳日:2024-07-01 06:12:00 公開日:2024-05-16
# 拡散モデルを用いた不完全坑井・画像地震観測からの地層モデルの作成

Generative Geostatistical Modeling from Incomplete Well and Imaged Seismic Observations with Diffusion Models ( http://arxiv.org/abs/2406.05136v1 )

ライセンス: Link先を確認
Huseyin Tuna Erdinc, Rafael Orozco, Felix J. Herrmann, (参考訳) 本研究では拡散生成モデルを用いて地下速度モデルを合成する新しい手法を提案する。 従来の手法は広範囲で高品質なデータセットに依存しており、しばしば地下の応用ではアクセスできない。 本手法は, 完全標本化を必要とせず, 不完全な観測と地震観測を利用して高忠実度速度試料を作製する。 その結果, 生成モデルでは, 長距離構造を正確に把握し, 地中構造速度モデルと整合し, 高構造類似度指数(SSIM)スコアを達成し, 有意な不確実性評価を行うことができた。 このアプローチは、実測的な地下速度合成を促進し、フルウェーブフォームインバージョンのための貴重な入力を提供し、地震に基づく地下モデリングを強化する。

In this study, we introduce a novel approach to synthesizing subsurface velocity models using diffusion generative models. Conventional methods rely on extensive, high-quality datasets, which are often inaccessible in subsurface applications. Our method leverages incomplete well and seismic observations to produce high-fidelity velocity samples without requiring fully sampled training datasets. The results demonstrate that our generative model accurately captures long-range structures, aligns with ground-truth velocity models, achieves high Structural Similarity Index (SSIM) scores, and provides meaningful uncertainty estimations. This approach facilitates realistic subsurface velocity synthesis, offering valuable inputs for full-waveform inversion and enhancing seismic-based subsurface modeling.
翻訳日:2024-06-23 13:55:28 公開日:2024-05-16
# ハイブリッド化戦略による量子リピータネットワークにおけるエンドツーエンドの絡み合いの増大

Boosting end-to-end entanglement fidelity in quantum repeater networks via hybridized strategies ( http://arxiv.org/abs/2406.06545v1 )

ライセンス: Link先を確認
Poramet Pathumsoot, Theerapat Tansuwannont, Naphan Benchasattabuse, Ryosuke Satoh, Michal Hajdušek, Poompong Chaiwongkhot, Sujin Suwanna, Rodney Van Meter, (参考訳) 量子ネットワークは、数学的仮定よりも物理的効果に依存したセキュリティを提供しながら、分散量子コンピューティングと長距離での量子通信を強化することが期待されている。 シミュレーションにより, 広い範囲のハードウェアパラメータに対するセキュアな量子鍵分布プロトコルの要件を超える忠実度を持つベルペアを生成できないことを示す。 そこで本稿では, 精製上における量子誤差補正を利用したハイブリッド戦略を提案し, 十分に高い忠実度を持つベル対を生成可能であることを示す。 我々はこれらのハイブリッド戦略が適用可能なゲートおよび測定誤差の誤差パラメータ構造を同定する。

Quantum networks are expected to enhance distributed quantum computing and quantum communication over long distances while providing security dependent upon physical effects rather than mathematical assumptions. Through simulation, we show that a quantum network utilizing only entanglement purification or only quantum error correction as error management strategies cannot create Bell pairs with fidelity that exceeds the requirement for a secured quantum key distribution protocol for a broad range of hardware parameters. We propose hybrid strategies utilizing quantum error correction on top of purification and show that they can produce Bell pairs of sufficiently high fidelity. We identify the error parameter regime for gate and measurement errors in which these hybrid strategies are applicable.
翻訳日:2024-06-23 13:55:28 公開日:2024-05-16
# PyTorch-IE:情報抽出のための高速かつ再現可能なプロトタイピング

PyTorch-IE: Fast and Reproducible Prototyping for Information Extraction ( http://arxiv.org/abs/2406.00007v1 )

ライセンス: Link先を確認
Arne Binder, Leonhard Hennig, Christoph Alt, (参考訳) 情報抽出(IE)の目的は、構造化されていない文書や半構造化文書から構造化された表現を導出することである。 しかし、いくつかのサブタスクを統合する必要があるため、IEモデルの開発は複雑である。 さらに、さまざまなタスク間でのデータ表現とデータセットをタスク固有のモデル入力に変換することで、さらなる課題が提示される。 PyTorch-IE(PyTorch-IE)は,IEモデルの迅速,再現性,再利用可能な実装を可能にする,一意に設計されたディープラーニングベースのフレームワークである。 PyTorch-IEは、プレーンテキストや半構造化テキスト、さらにはイメージなど、さまざまなデータタイプから派生したアノテーションの相互依存層を統合することで、複雑なデータ構造を作成することのできる柔軟なデータモデルを提供する。 本稿では,データ表現とモデル固有表現の懸念を分離し,コードの柔軟性と再利用性を向上するタスクモジュールを提案する。 PyTorch-IEは、トレーニングにPyTorch-Lightning、データセット読み込みにHuggingFaceデータセット、実験設定にHydraなど、広く使用されているライブラリのサポートも拡張している。 新しいプロジェクトのセットアップを簡単にするための追加ライブラリやGitHubテンプレートも提供されている。 機能と汎用性を確保することで、PyTorch-IEは情報抽出に携わる研究コミュニティに重要な支援を提供する。

The objective of Information Extraction (IE) is to derive structured representations from unstructured or semi-structured documents. However, developing IE models is complex due to the need of integrating several subtasks. Additionally, representation of data among varied tasks and transforming datasets into task-specific model inputs presents further challenges. To streamline this undertaking for researchers, we introduce PyTorch-IE, a deep-learning-based framework uniquely designed to enable swift, reproducible, and reusable implementations of IE models. PyTorch-IE offers a flexible data model capable of creating complex data structures by integrating interdependent layers of annotations derived from various data types, like plain text or semi-structured text, and even images. We propose task modules to decouple the concerns of data representation and model-specific representations, thereby fostering greater flexibility and reusability of code. PyTorch-IE also extends support for widely used libraries such as PyTorch-Lightning for training, HuggingFace datasets for dataset reading, and Hydra for experiment configuration. Supplementary libraries and GitHub templates for the easy setup of new projects are also provided. By ensuring functionality and versatility, PyTorch-IE provides vital support to the research community engaged in Information Extraction.
翻訳日:2024-06-09 16:19:21 公開日:2024-05-16
# KnowledgeHub: 科学的発見を支援するエンドツーエンドツール

KnowledgeHub: An end-to-end Tool for Assisted Scientific Discovery ( http://arxiv.org/abs/2406.00008v1 )

ライセンス: Link先を確認
Shinnosuke Tanaka, James Barry, Vishnudev Kuruvanthodi, Movina Moses, Maxwell J. Giammona, Nathan Herr, Mohab Elkaref, Geeth De Mel, (参考訳) 本稿では、知識Hubツール、科学文献情報抽出(IE)および質問回答(QA)パイプラインについて述べる。 これはPDF文書がテキストや構造化表現に変換されるのをサポートすることで達成される。 オントロジーは、ユーザがキャプチャしたいエンティティとリレーションのタイプを定義するように構築できる。 ブラウザベースのアノテーションツールは、オントロジーに従ってPDF文書の内容に注釈を付けることができる。 名前付きエンティティ認識(NER)と関係分類(RC)モデルは、結果として得られたアノテーションに基づいてトレーニングすることができ、文書の注釈のない部分を注釈付けするのに使うことができる。 これらのエンティティと関係トリプルから知識グラフを構築し、データから洞察を得るためにクエリすることができる。 さらに,QAや要約に使用できるLarge Language Models (LLMs) のスイートを統合する。 KnowledgeHubは、アノテーション、IE、QAをサポートするユニークなツールである。

This paper describes the KnowledgeHub tool, a scientific literature Information Extraction (IE) and Question Answering (QA) pipeline. This is achieved by supporting the ingestion of PDF documents that are converted to text and structured representations. An ontology can then be constructed where a user defines the types of entities and relationships they want to capture. A browser-based annotation tool enables annotating the contents of the PDF documents according to the ontology. Named Entity Recognition (NER) and Relation Classification (RC) models can be trained on the resulting annotations and can be used to annotate the unannotated portion of the documents. A knowledge graph is constructed from these entity and relation triples which can be queried to obtain insights from the data. Furthermore, we integrate a suite of Large Language Models (LLMs) that can be used for QA and summarisation that is grounded in the included documents via a retrieval component. KnowledgeHub is a unique tool that supports annotation, IE and QA, which gives the user full insight into the knowledge discovery pipeline.
翻訳日:2024-06-09 16:19:21 公開日:2024-05-16
# 病的音声検出のための自己教師型学習

Selfsupervised learning for pathological speech detection ( http://arxiv.org/abs/2406.02572v1 )

ライセンス: Link先を確認
Shakeel Ahmad Sheikh, (参考訳) 音声生成は複雑な現象であり、脳は思考処理、運動計画、調音運動の実行を含む一連の過程を編成する。 しかし、この複雑なプロセスの実行は、パーキンソンズ病などの様々な神経変性性言語障害の影響と破壊を受けやすいため、変形、失語症、その他の症状を引き起こす。 これらの障害は、異常な発声パターンと不正確な調音を特徴とする病的発声を引き起こす。 これらの言語障害を臨床環境で診断するには、一般的に、時間を要する聴覚的知覚検査を伴い、診断中の経験、バイアス、認知負荷に基づいて、臨床医によって診断が異なる可能性がある。 さらに、ニューロタイプ話者とは異なり、言語障害や障害のある患者は、AlexaやSiriなど、さまざまなバーチャルアシスタントにアクセスできない。 これらの課題に対処するために、いくつかの自動病的音声検出(PSD)手法が提案されている。 これらのアプローチは、発話障害の効率的かつ正確な検出を提供することを目的としており、これにより、時間的介入と、これらの状況に影響を受ける個人への支援が促進される。 これらのアプローチは主に入力表現と分類器の2つの側面によって異なる。 データの可用性が限られているため、検出のパフォーマンスは依然として低い。 wav2vec2のような自己教師あり学習(SSL)組み込みと多言語バージョンは、パフォーマンス向上のための有望な道として検討されている。 これらの埋め込みは、自己教師付き学習技術を利用して、音声データから豊かな表現を抽出し、ラベル付きデータの不足によって引き起こされる制限に対処する潜在的な解決策を提供する。

Speech production is a complex phenomenon, wherein the brain orchestrates a sequence of processes involving thought processing, motor planning, and the execution of articulatory movements. However, this intricate execution of various processes is susceptible to influence and disruption by various neurodegenerative pathological speech disorders, such as Parkinsons' disease, resulting in dysarthria, apraxia, and other conditions. These disorders lead to pathological speech characterized by abnormal speech patterns and imprecise articulation. Diagnosing these speech disorders in clinical settings typically involves auditory perceptual tests, which are time-consuming, and the diagnosis can vary among clinicians based on their experiences, biases, and cognitive load during the diagnosis. Additionally, unlike neurotypical speakers, patients with speech pathologies or impairments are unable to access various virtual assistants such as Alexa, Siri, etc. To address these challenges, several automatic pathological speech detection (PSD) approaches have been proposed. These approaches aim to provide efficient and accurate detection of speech disorders, thereby facilitating timely intervention and support for individuals affected by these conditions. These approaches mainly vary in two aspects: the input representations utilized and the classifiers employed. Due to the limited availability of data, the performance of detection remains subpar. Self-supervised learning (SSL) embeddings, such as wav2vec2, and their multilingual versions, are being explored as a promising avenue to improve performance. These embeddings leverage self-supervised learning techniques to extract rich representations from audio data, thereby offering a potential solution to address the limitations posed by the scarcity of labeled data.
翻訳日:2024-06-09 15:49:54 公開日:2024-05-16
# 保証2.0におけるデファイアと排除条項

Defeaters and Eliminative Argumentation in Assurance 2.0 ( http://arxiv.org/abs/2405.15800v1 )

ライセンス: Link先を確認
Robin Bloomfield, Kate Netkachova, John Rushby, (参考訳) 従来の保証のケースでは、証拠と仮定に基づく推論ステップが、外的重要性を持つトップクレームを維持できるという肯定的な議論が採用されている。 人間の判断は、証拠、仮定、物語の正当性を確認するために必要であり、もしすべてが良好に評価されたら、トップクレームが受け入れられる。 このプロセスの有効な懸念は、人間の判断が誤認しやすく、偏見の確認が難しいことである。 この懸念に対する最良の防御は、方言的またはソクラテス的対話の方法における活発で懐疑的な議論と議論である。 その後の開発者や評価者の利益のために、この議論の側面を記録することにメリットがある。 議論の側面に関する疑念を表現し、疑念を確認または否定するサブケースへと発展させ、将来の考慮を支援するためのドキュメントとして記録することができる。 本報告では、アシュアランス2.0とそのクラリッサ/ASCEツールサポートにおいて、敗者、および複数レベルの敗者がどのように表現され、評価されるべきかを述べる。 これらのメカニズムはまた、アシュアランスに対する反対のアプローチであり、一部の者は否定的な議論を使って、トップクレームが偽であるかもしれないすべての理由を否定している。

A traditional assurance case employs a positive argument in which reasoning steps, grounded on evidence and assumptions, sustain a top claim that has external significance. Human judgement is required to check the evidence, the assumptions, and the narrative justifications for the reasoning steps; if all are assessed good, then the top claim can be accepted. A valid concern about this process is that human judgement is fallible and prone to confirmation bias. The best defense against this concern is vigorous and skeptical debate and discussion in the manner of a dialectic or Socratic dialog. There is merit in recording aspects of this discussion for the benefit of subsequent developers and assessors. Defeaters are a means doing this: they express doubts about aspects of the argument and can be developed into subcases that confirm or refute the doubts, and can record them as documentation to assist future consideration. This report describes how defeaters, and multiple levels of defeaters, should be represented and assessed in Assurance 2.0 and its Clarissa/ASCE tool support. These mechanisms also support eliminative argumentation, which is a contrary approach to assurance, favored by some, that uses a negative argument to refute all reasons why the top claim could be false.
翻訳日:2024-06-02 14:39:48 公開日:2024-05-16
# IoTアプリケーションのためのLuganda音声インテント認識

Luganda Speech Intent Recognition for IoT Applications ( http://arxiv.org/abs/2405.19343v1 )

ライセンス: Link先を確認
Andrew Katumba, Sudi Murindanyi, John Trevor Kasule, Elvis Mugume, (参考訳) IoT(Internet of Things)技術の出現は、音声制御によるスマートホームへの大きな関心を呼び起こした。 多くの音声制御スマートホームシステムは、英語のような広く話されている言語を理解し、サポートするために設計されているが、Lugandaのような低リソース言語の話者は、より多くのサポートを必要としているかもしれない。 本研究プロジェクトは、スマートホーム環境にローカル言語を統合するためのIoTアプリケーションのためのLuganda音声意図分類システムを開発することを目的としている。 このプロジェクトはRaspberry Pi、Wio Terminal、ESP32ノードなどのハードウェアコンポーネントをマイクロコントローラとして使用している。 Raspberry PiはLuganda音声コマンドを処理し、Wio Terminalはディスプレイデバイスであり、ESP32ノードはIoTデバイスを制御する。 この研究の最終的な目的は、Raspberry Pi上にデプロイされた自然言語処理(NLP)モデルを通じて達成されたLugandaを使用した音声制御を可能にすることである。 NLPモデルは、Mel Frequency Cepstral Coefficients (MFCCs) を音響的特徴として用い、畳み込みニューラルネットワーク(Conv2D)アーキテクチャを音声意図分類に用いた。 この目的でLuganda音声コマンドのデータセットがキュレーションされ、オープンソースになった。 この研究は、Luganda音声コマンドを組み込むことで、IoTアプリケーションにおけるローカライゼーションの課題と言語多様性に対処する。

The advent of Internet of Things (IoT) technology has generated massive interest in voice-controlled smart homes. While many voice-controlled smart home systems are designed to understand and support widely spoken languages like English, speakers of low-resource languages like Luganda may need more support. This research project aimed to develop a Luganda speech intent classification system for IoT applications to integrate local languages into smart home environments. The project uses hardware components such as Raspberry Pi, Wio Terminal, and ESP32 nodes as microcontrollers. The Raspberry Pi processes Luganda voice commands, the Wio Terminal is a display device, and the ESP32 nodes control the IoT devices. The ultimate objective of this work was to enable voice control using Luganda, which was accomplished through a natural language processing (NLP) model deployed on the Raspberry Pi. The NLP model utilized Mel Frequency Cepstral Coefficients (MFCCs) as acoustic features and a Convolutional Neural Network (Conv2D) architecture for speech intent classification. A dataset of Luganda voice commands was curated for this purpose and this has been made open-source. This work addresses the localization challenges and linguistic diversity in IoT applications by incorporating Luganda voice commands, enabling users to interact with smart home devices without English proficiency, especially in regions where local languages are predominant.
翻訳日:2024-06-02 14:20:20 公開日:2024-05-16
# テキスト・ツー・レイアウトモデル改善のためのヒューマン・リビジョンの活用

Leveraging Human Revisions for Improving Text-to-Layout Models ( http://arxiv.org/abs/2405.13026v1 )

ライセンス: Link先を確認
Amber Xie, Chin-Yi Cheng, Forrest Huang, Yang Li, (参考訳) 人間のフィードバックから学ぶことは、大きな、事前訓練されたモデルと人間の価値を合わせることに成功している。 それまでの研究は主に、モデル出力のペア間の好みなど、ハイレベルなラベルからの学習に重点を置いてきた。 一方で、多くのドメインは、リビジョンや説明、ユーザーの推論など、より複雑な詳細なフィードバックの恩恵を受けることができる。 我々の研究は、より強力なアライメントのための人間のリビジョンの形で、ニュアンスフィードバックを使用することを提案する。 本稿では,モバイル画面の大規模データセット上で事前学習した生成的レイアウトモデルから生成されたレイアウトの修正を専門家に依頼する。 そして、人間の設計者が生成したレイアウトをどのように修正するかに基づいて報酬モデルを訓練する。 学習した報酬モデルを用いて、人間からのフィードバック(RLHF)からの強化学習でモデルを最適化する。 提案手法であるRevision-Aware Reward Models (\method$) により、生成テキストからレイアウトまでのモデルにより、よりモダンでデザイナに準拠したレイアウトを作成できる。

Learning from human feedback has shown success in aligning large, pretrained models with human values. Prior works have mostly focused on learning from high-level labels, such as preferences between pairs of model outputs. On the other hand, many domains could benefit from more involved, detailed feedback, such as revisions, explanations, and reasoning of human users. Our work proposes using nuanced feedback through the form of human revisions for stronger alignment. In this paper, we ask expert designers to fix layouts generated from a generative layout model that is pretrained on a large-scale dataset of mobile screens. Then, we train a reward model based on how human designers revise these generated layouts. With the learned reward model, we optimize our model with reinforcement learning from human feedback (RLHF). Our method, Revision-Aware Reward Models ($\method$), allows a generative text-to-layout model to produce more modern, designer-aligned layouts, showing the potential for utilizing human revisions and stronger forms of feedback in improving generative models.
翻訳日:2024-05-27 02:48:13 公開日:2024-05-16
# DuetSim:タスク指向対話のための二重大言語モデルを用いたユーザシミュレータの構築

DuetSim: Building User Simulator with Dual Large Language Models for Task-Oriented Dialogues ( http://arxiv.org/abs/2405.13028v1 )

ライセンス: Link先を確認
Xiang Luo, Zhiwen Tang, Jin Wang, Xuejie Zhang, (参考訳) ユーザシミュレータは、タスク指向対話システムのトレーニングと評価において重要な役割を果たす。 従来のユーザーシミュレータは通常、人間工学的なアジェンダに依存しており、その結果、しばしば多様性や自発性に欠ける応答が生成される。 大規模言語モデル(LLM)は、一貫性があり、文脈的に適切な発話を生成するのに顕著な能力を持っているが、特に複雑な制約と要求のある対話において、ユーザを効果的に目標に向かって導く応答を生成するタスクをこなすと、不足する可能性がある。 本稿では,LLMを利用したタスク指向対話の複雑な要求に対処する新しいフレームワークであるDuetSimを紹介する。 DuetSim は2つの LLM をタンデムで採用することで従来の手法とは異なっている。 このデュアルLLMアプローチは、DuetSimに、多様性を示すだけでなく、正確さを示し、人間のユーザから好まれる応答を生成する権限を与える。 提案手法の有効性は,MultiWOZデータセットを用いた広範囲な実験により検証され,第2次LLMの導入による応答品質と正しさの向上が注目されている。 私たちのコードは、https://github.com/suntea233/DuetSimでアクセスできます。

User Simulators play a pivotal role in training and evaluating task-oriented dialogue systems. Traditional user simulators typically rely on human-engineered agendas, resulting in generated responses that often lack diversity and spontaneity. Although large language models (LLMs) exhibit a remarkable capacity for generating coherent and contextually appropriate utterances, they may fall short when tasked with generating responses that effectively guide users towards their goals, particularly in dialogues with intricate constraints and requirements. This paper introduces DuetSim, a novel framework designed to address the intricate demands of task-oriented dialogues by leveraging LLMs. DuetSim stands apart from conventional approaches by employing two LLMs in tandem: one dedicated to response generation and the other focused on verification. This dual LLM approach empowers DuetSim to produce responses that not only exhibit diversity but also demonstrate accuracy and are preferred by human users. We validate the efficacy of our method through extensive experiments conducted on the MultiWOZ dataset, highlighting improvements in response quality and correctness, largely attributed to the incorporation of the second LLM. Our code is accessible at: https://github.com/suntea233/DuetSim.
翻訳日:2024-05-27 02:48:13 公開日:2024-05-16
# データ品質保証を強化したクラウドソーシング:医療用大規模言語モデルの訓練における資源スカシティの課題を効果的に解決するためのアプローチ

Crowdsourcing with Enhanced Data Quality Assurance: An Efficient Approach to Mitigate Resource Scarcity Challenges in Training Large Language Models for Healthcare ( http://arxiv.org/abs/2405.13030v1 )

ライセンス: Link先を確認
P. Barai, G. Leroy, P. Bisht, J. M. Rothman, S. Lee, J. Andrews, S. A. Rice, A. Ahmed, (参考訳) 大規模言語モデル(LLM)は、医療を含むさまざまな領域にわたる人工知能において、大きな可能性を実証している。 しかし、それらの有効性は、高品質なラベル付きデータの必要性によって妨げられ、特に医療のような低リソースの領域では、しばしばコストがかかり、作成に時間がかかる。 これらの課題に対処するため,クラウドソーシング(CS)フレームワークを提案する。 本研究は, LLM(Bio-BERT)への影響によるデータ品質向上効果について検討した。 その結果、リアルタイム品質管理は、事前品質管理と比較して、データ品質を19%改善することがわかった。 クラウドソースデータを用いた微調整Bio-BERTは,Bio-BERTベースラインに比べてリコール率が高くなったが,精度は低下した。 本研究は, 資源制約環境におけるクラウドソーシングと品質管理の可能性を強調し, 情報意思決定のための医療用LSMの最適化と患者ケアの改善に関する洞察を提供した。

Large Language Models (LLMs) have demonstrated immense potential in artificial intelligence across various domains, including healthcare. However, their efficacy is hindered by the need for high-quality labeled data, which is often expensive and time-consuming to create, particularly in low-resource domains like healthcare. To address these challenges, we propose a crowdsourcing (CS) framework enriched with quality control measures at the pre-, real-time-, and post-data gathering stages. Our study evaluated the effectiveness of enhancing data quality through its impact on LLMs (Bio-BERT) for predicting autism-related symptoms. The results show that real-time quality control improves data quality by 19 percent compared to pre-quality control. Fine-tuning Bio-BERT using crowdsourced data generally increased recall compared to the Bio-BERT baseline but lowered precision. Our findings highlighted the potential of crowdsourcing and quality control in resource-constrained environments and offered insights into optimizing healthcare LLMs for informed decision-making and improved patient care.
翻訳日:2024-05-27 02:48:13 公開日:2024-05-16
# テキスト中の異常検出のためのロバスト自動エンコーダアンサンブルに基づくアプローチ

A Robust Autoencoder Ensemble-Based Approach for Anomaly Detection in Text ( http://arxiv.org/abs/2405.13031v1 )

ライセンス: Link先を確認
Jeremie Pantin, Christophe Marsala, (参考訳) 本研究では,テキストコーパスにおける異常検出に対処するために,ロバストなオートエンコーダアンサンブルに基づくアプローチを提案する。 アンサンブル内の各オートエンコーダは、元のデータの局所的ロバストな部分空間回復プロジェクションをエンコード埋め込みに組み込み、k-アネレスト近傍の幾何学的性質を利用して、部分空間の回復を最適化し、テキストデータ中の異常パターンを識別する。 このようなアプローチの評価には、テキスト異常検出のコンテキストに特化した実験的な設定が必要である。 このように、事前に、独立した異常と文脈的異常を区別するために、包括的な現実世界の分類法が導入された。 このようなテキストの文脈に現れる異常の種類を明確に識別する研究は、既存の文献における重大なギャップに対処することを目的としている。 そこで,従来のテキストコーパスの広範な実験を行い,その成果として,独立性および文脈性の両方を検出する際に,ロバストなオートエンコーダ・アンサンブル・アプローチの堅牢性と性能の両面において効率性を強調した。 分類,感情分析,スパム検出など,8種類のコーパスにまたがるさまざまなタスクが,これらの実験で研究されている。

In this work, a robust autoencoder ensemble-based approach designed to address anomaly detection in text corpora is introduced. Each autoencoder within the ensemble incorporates a local robust subspace recovery projection of the original data in its encoding embedding, leveraging the geometric properties of the k-nearest neighbors to optimize subspace recovery and identify anomalous patterns in textual data. The evaluation of such an approach needs an experimental setting dedicated to the context of textual anomaly detection. Thus, beforehand, a comprehensive real-world taxonomy is introduced to distinguish between independent anomalies and contextual anomalies. Such a study to identify clearly the kinds of anomalies appearing in a textual context aims at addressing a critical gap in the existing literature. Then, extensive experiments on classical text corpora have been conducted and their results are presented that highlights the efficiency, both in robustness and in performance, of the robust autoencoder ensemble-based approach when detecting both independent and contextual anomalies. Diverse range of tasks, including classification, sentiment analysis, and spam detection, across eight different corpora, have been studied in these experiments.
翻訳日:2024-05-27 02:48:13 公開日:2024-05-16
# Faithful Attention Explainer:差別的特徴に基づく言語決定

Faithful Attention Explainer: Verbalizing Decisions Based on Discriminative Features ( http://arxiv.org/abs/2405.13032v1 )

ライセンス: Link先を確認
Yao Rong, David Sheerer, Enkelejda Kasneci, (参考訳) 近年,モデル記述法は,ユーザが容易に理解できるように,モデル決定を忠実かつ直感的に解釈するように設計されている。 本稿では,その特徴を忠実に説明できるフレームワークであるFAE(Faithful Attention Explainer)を提案する。 この目的に向けて,文生成のための分類器から視覚特徴マップを取り出すアテンションモジュールをデプロイする。 さらに,本手法は特徴と単語の関連性をうまく学習し,注意説明のための新しい注意強制モジュールを実現する。 本モデルは,2つのデータセット(CUBとACT-X)のキャプション品質指標と忠実な意思決定関連指標において,有望な性能を達成する。 また,FAEは人間の目線に基づく人間の注意を解釈し,人間の目線が人間の意思決定に使用する識別的特徴を示し,人間の目線を高度な人間とAIの相互作用に展開する可能性を示す。

In recent years, model explanation methods have been designed to interpret model decisions faithfully and intuitively so that users can easily understand them. In this paper, we propose a framework, Faithful Attention Explainer (FAE), capable of generating faithful textual explanations regarding the attended-to features. Towards this goal, we deploy an attention module that takes the visual feature maps from the classifier for sentence generation. Furthermore, our method successfully learns the association between features and words, which allows a novel attention enforcement module for attention explanation. Our model achieves promising performance in caption quality metrics and a faithful decision-relevance metric on two datasets (CUB and ACT-X). In addition, we show that FAE can interpret gaze-based human attention, as human gaze indicates the discriminative features that humans use for decision-making, demonstrating the potential of deploying human gaze for advanced human-AI interaction.
翻訳日:2024-05-27 02:48:13 公開日:2024-05-16
# 複合現実感に向けたマルチモーダルファイングラインドトレーニングアシスタントのための自律ワークフロー

Autonomous Workflow for Multimodal Fine-Grained Training Assistants Towards Mixed Reality ( http://arxiv.org/abs/2405.13034v1 )

ライセンス: Link先を確認
Jiahuan Pei, Irene Viola, Haochen Huang, Junxiao Wang, Moonisa Ahsan, Fanghua Ye, Jiang Yiming, Yao Sai, Di Wang, Zhumin Chen, Pengjie Ren, Pablo Cesar, (参考訳) 自律人工知能(AI)エージェントは、言語ベースの環境を自動的に理解するための有望なプロトコルとして、特に大規模言語モデル(LLM)の指数関数的開発とともに登場した。 しかし、マルチモーダル環境の詳細な包括的理解はいまだ未解明のままである。 この作業は、AIエージェントを詳細にトレーニングするための拡張現実(XR)アプリケーションにシームレスに統合するための自律ワークフローを設計する。 パイロットXR環境におけるLEGOブロック組立のためのマルチモーダルきめ細粒度トレーニングアシスタントのデモンストレーションを行う。 具体的には、記憶、計画、XRツールとの相互作用をLLMと統合した脳言語エージェントと視覚言語エージェントを設計し、エージェントが過去の経験に基づいて行動を決定することを可能にする。 さらに,商業LLMによって提供されるワークフローで自動的に合成される多モーダルなアセンブリ・ダイアログ・データセットLEGO-MRTAを紹介する。 このデータセットは、マルチモーダルな指示マニュアル、会話、XR応答、視覚質問応答を含む。 最後に,提案したデータセットを微調整することなく,その性能を評価するため,複数のオープンソース LLM をベンチマークとして提示する。 我々は、このワークフローのより広範な影響が、XR環境におけるシームレスなユーザインタラクションのためのスマートアシスタントの開発を促進し、AIとHCIコミュニティの両方の研究を促進することを期待する。

Autonomous artificial intelligence (AI) agents have emerged as promising protocols for automatically understanding the language-based environment, particularly with the exponential development of large language models (LLMs). However, a fine-grained, comprehensive understanding of multimodal environments remains under-explored. This work designs an autonomous workflow tailored for integrating AI agents seamlessly into extended reality (XR) applications for fine-grained training. We present a demonstration of a multimodal fine-grained training assistant for LEGO brick assembly in a pilot XR environment. Specifically, we design a cerebral language agent that integrates LLM with memory, planning, and interaction with XR tools and a vision-language agent, enabling agents to decide their actions based on past experiences. Furthermore, we introduce LEGO-MRTA, a multimodal fine-grained assembly dialogue dataset synthesized automatically in the workflow served by a commercial LLM. This dataset comprises multimodal instruction manuals, conversations, XR responses, and vision question answering. Last, we present several prevailing open-resource LLMs as benchmarks, assessing their performance with and without fine-tuning on the proposed dataset. We anticipate that the broader impact of this workflow will advance the development of smarter assistants for seamless user interaction in XR environments, fostering research in both AI and HCI communities.
翻訳日:2024-05-27 02:48:13 公開日:2024-05-16
# SIGMA:Mixed-Reality Task Assistance Researchのためのオープンソースインタラクティブシステム

SIGMA: An Open-Source Interactive System for Mixed-Reality Task Assistance Research ( http://arxiv.org/abs/2405.13035v1 )

ライセンス: Link先を確認
Dan Bohus, Sean Andrist, Nick Saw, Ann Paradiso, Ishani Chakraborty, Mahdi Rad, (参考訳) SIGMA(Situated Interactive Guidance, Monitoring, Assistance)と呼ばれるオープンソースのシステムを導入し,複合現実シナリオにおけるタスク支援エージェントの研究を行う。 このシステムは、大きな言語や視覚モデルとともに、ヘッドマウント型複合現実感デバイスのセンシングとレンダリング能力を活用して、手続き的なタスクを段階的にユーザーを誘導する。 本稿では,システムの中心となる機能について紹介し,その全体設計と実装について論じ,システムによって実現される今後の研究の方向性について概説する。 SIGMAは容易に拡張可能であり、混合現実とAIの交差点における将来の研究に有用な基盤を提供する。 エンド・ツー・エンドの実装をオープンソース化することで、参入障壁を低くし、この分野の研究を加速し、コミュニティ主導による大規模言語、ビジョン、マルチモーダル・モデルのリアルタイム対話型アプリケーションにおけるエンド・ツー・エンド評価への道を示す。

We introduce an open-source system called SIGMA (short for "Situated Interactive Guidance, Monitoring, and Assistance") as a platform for conducting research on task-assistive agents in mixed-reality scenarios. The system leverages the sensing and rendering affordances of a head-mounted mixed-reality device in conjunction with large language and vision models to guide users step by step through procedural tasks. We present the system's core capabilities, discuss its overall design and implementation, and outline directions for future research enabled by the system. SIGMA is easily extensible and provides a useful basis for future research at the intersection of mixed reality and AI. By open-sourcing an end-to-end implementation, we aim to lower the barrier to entry, accelerate research in this space, and chart a path towards community-driven end-to-end evaluation of large language, vision, and multimodal models in the context of real-world interactive applications.
翻訳日:2024-05-27 02:48:13 公開日:2024-05-16
# 形式的論証推論はLLMのパフォーマンスを向上させるか?

Can formal argumentative reasoning enhance LLMs performances? ( http://arxiv.org/abs/2405.13036v1 )

ライセンス: Link先を確認
Federico Castagna, Isabel Sassoon, Simon Parsons, (参考訳) 近年、ディープラーニング駆動自然言語モデルの大幅なパフォーマンス向上が見られ、Large Language Models (LLMs) の開発とリリースに強く焦点が当てられている。 これらの改善により、より良い品質のAI生成出力が得られるが、リソース拡張トレーニングとモデルのアップグレードに依存している。 異なる研究が再訓練せずにLSMを強化するための様々な手法を提案しているが、計算的議論を選択肢とみなす者はいない。 計算的議論は、エージェントの相互作用とそのような相互作用の間に生じる情報衝突を形式的にキャプチャする直感的なメカニズムであるため、LLMの推論と会話能力のシームレスな向上に適していると考えられる。 本稿では,LLMの性能に及ぼす計算論証セマンティクスの導入効果を評価するためのパイプライン(MQArgEng)と予備研究について述べる。 本実験の目的は,LLM のための議論エンジンプラグインの完成に向けての今後の研究を促進(あるいは阻止)するために,概念実証と実現可能性分析を提供することであった。 MT-Benchを用いた探索的な結果から, MQArgEngは, 対象トピックのカテゴリの大部分において, 適度な性能向上を実現し, 将来性を示し, さらなる研究を保証していることがわかった。

Recent years witnessed significant performance advancements in deep-learning-driven natural language models, with a strong focus on the development and release of Large Language Models (LLMs). These improvements resulted in better quality AI-generated output but rely on resource-expensive training and upgrading of models. Although different studies have proposed a range of techniques to enhance LLMs without retraining, none have considered computational argumentation as an option. This is a missed opportunity since computational argumentation is an intuitive mechanism that formally captures agents' interactions and the information conflict that may arise during such interplays, and so it seems well-suited for boosting the reasoning and conversational abilities of LLMs in a seamless manner. In this paper, we present a pipeline (MQArgEng) and preliminary study to evaluate the effect of introducing computational argumentation semantics on the performance of LLMs. Our experiment's goal was to provide a proof-of-concept and a feasibility analysis in order to foster (or deter) future research towards a fully-fledged argumentation engine plugin for LLMs. Exploratory results using the MT-Bench indicate that MQArgEng provides a moderate performance gain in most of the examined topical categories and, as such, show promise and warrant further research.
翻訳日:2024-05-27 02:48:13 公開日:2024-05-16
# EKM:$K$-medoids問題に対する正確な多項式時間アルゴリズム

EKM: An exact, polynomial-time algorithm for the $K$-medoids problem ( http://arxiv.org/abs/2405.12237v1 )

ライセンス: Link先を確認
Xi He, Max A. Little, (参考訳) K$-medoids問題は、データ分析アプリケーションで広く使われている、組合せクラスタリングの課題である。 この問題を解決するために多くのアルゴリズムが提案されているが、いずれも多項式時間で問題の正確な解を得ることはできない。 本稿では,この問題の解法を,最悪ケース$O\left(N^{K+1}\right)$時間複雑性で正確に解く新しいアルゴリズムであるEKMを提案する。 EKMは、フォーマルなプログラム導出ステップを用いて、変換プログラミングと組合せ生成の最近の進歩に基づいて開発されている。 導出アルゴリズムは、構築によって確実に正しい。 提案アルゴリズムの有効性は,多数の実世界のデータセット上で,様々な近似手法と比較することによって実証する。 提案アルゴリズムのウォールタイム実行時間は,合成データセット上での最悪の時間複雑性解析と一致し,ベンチマーク分岐とバウンドに基づくMIPソルバの指数時間複雑性よりも明らかに優れていた。 私たちの知る限り、このユビキタス問題に対する多項式時間、実用的なアルゴリズムは、これが初めて、厳密に証明された多項式時間である。

The $K$-medoids problem is a challenging combinatorial clustering task, widely used in data analysis applications. While numerous algorithms have been proposed to solve this problem, none of these are able to obtain an exact (globally optimal) solution for the problem in polynomial time. In this paper, we present EKM: a novel algorithm for solving this problem exactly with worst-case $O\left(N^{K+1}\right)$ time complexity. EKM is developed according to recent advances in transformational programming and combinatorial generation, using formal program derivation steps. The derived algorithm is provably correct by construction. We demonstrate the effectiveness of our algorithm by comparing it against various approximate methods on numerous real-world datasets. We show that the wall-clock run time of our algorithm matches the worst-case time complexity analysis on synthetic datasets, clearly outperforming the exponential time complexity of benchmark branch-and-bound based MIP solvers. To our knowledge, this is the first, rigorously-proven polynomial time, practical algorithm for this ubiquitous problem.
翻訳日:2024-05-22 15:26:53 公開日:2024-05-16
# 単一参照結合クラスター理論と代数幾何学による地中励起状態の探索

Exploring Ground and Excited States via Single Reference Coupled-Cluster Theory and Algebraic Geometry ( http://arxiv.org/abs/2405.12238v1 )

ライセンス: Link先を確認
Svala Sverrisdóttir, Fabian M. Faulstich, (参考訳) 連成クラスター方程式の根の構造の探索は、計算量子化学の基盤的および実践的重要性を持つ。 この研究は、これらの非線形方程式の複雑な根構造について、CCDとCCSDの両方の理論レベルで洞察を与える。 我々は、代数幾何学、特にモノドロミーおよびパラメトリックホモトピー継続法からの計算技術を利用して、完全な解集合を計算する。 計算されたCCの根を、様々な確立された理論上界と比較し、これらの境界の精度と効率について光を遮蔽する。 ここでは、(H$_2$)$_2$のD$_{2{\rm h}}$とD$_{\infty {\rm h}}$の設定、H$_4$の円上に対称に歪んだ水素化リチウムといった四電子系の解離過程に焦点を当てる。 さらに, 単一参照結合クラスタ解の近似励起状態エネルギーへの応用について検討した。 複数のCC根は励起状態のエネルギーを高精度に表現している。 注目すべきは、水素化リチウムのようなシステムでは、CCはいくつかの励起状態エネルギーに対して高精度な近似を提供するだけでなく、州自身にも与えていることです。

The exploration of the root structure of coupled cluster equations holds both foundational and practical significance for computational quantum chemistry. This study provides insight into the intricate root structures of these non-linear equations at both the CCD and CCSD level of theory. We utilize computational techniques from algebraic geometry, specifically the monodromy and parametric homotopy continuation methods, to calculate the full solution set. We compare the computed CC roots against various established theoretical upper bounds, shedding light on the accuracy and efficiency of these bounds. We hereby focus on the dissociation processes of four-electron systems such as (H$_2$)$_2$ in both D$_{2{\rm h}}$ and D$_{\infty {\rm h}}$ configurations, H$_4$ symmetrically distorted on a circle, and lithium hydride. We moreover investigate the ability of single-reference coupled cluster solutions to approximate excited state energies. We find that multiple CC roots describe energies of excited states with high accuracy. Remarkably, our investigations reveal that for systems like lithium hydride, CC not only provides high-accuracy approximations to several excited state energies but also to the states themselves.
翻訳日:2024-05-22 15:17:08 公開日:2024-05-16
# マニフォールドによる双方向誘導による不完全多視点クラスタリング

Manifold-based Incomplete Multi-view Clustering via Bi-Consistency Guidance ( http://arxiv.org/abs/2405.10987v1 )

ライセンス: Link先を確認
Huibing Wang, Mingze Yao, Yawei Chen, Yunqiu Xu, Haipeng Liu, Wei Jia, Xianping Fu, Yang Wang, (参考訳) 不完全なマルチビュークラスタリングは主に、ラベルのないデータを、欠落したインスタンスで対応するカテゴリに分割することに焦点を当てており、実際のアプリケーションにおける優位性から、集中的に注目を集めている。 不完全なデータの影響を考慮すると、既存の手法は主に余分な用語を加えてデータの回復を試みる。 しかし、教師なしのメソッドでは、単純なリカバリ戦略がエラーを引き起こし、メソッドのパフォーマンスに影響を及ぼす。 従来の手法では,復元されたデータと元のデータとの相違点を柔軟にバランスさせることが困難であった。 これらの問題に対処するため,両整合性ガイダンス(MIMB)を用いたマニフォールド型不完全多視点クラスタリング手法を提案し,逆正則化による両整合性ガイダンスの実現を試みた。 特に、MIMBは、欠落したインスタンスを回復して表現学習に再構成項を追加し、遅延したコンセンサス表現を動的に調べる。 さらに,複数ビュー間の整合性情報を保持するために,コンセンサス表現の逆正則化による両整合性誘導戦略を実装し,回復したデータの隠れ構造を探索するための多様体埋め込み尺度を提案する。 特に、MIMBは、異なる視点の重要性のバランスを図り、それぞれの視点に適応的な重み項を導入することを目的としている。 最後に、最終クラスタリングのために、繰り返し最適化を交互に行う最適化アルゴリズムを設計する。 6つのベンチマークデータセットに対する大規模な実験結果が提供され、MIMBがいくつかの最先端ベースラインと比較すると、かなり優れた結果が得られることが確認された。

Incomplete multi-view clustering primarily focuses on dividing unlabeled data into corresponding categories with missing instances, and has received intensive attention due to its superiority in real applications. Considering the influence of incomplete data, the existing methods mostly attempt to recover data by adding extra terms. However, for the unsupervised methods, a simple recovery strategy will cause errors and outlying value accumulations, which will affect the performance of the methods. Broadly, the previous methods have not taken the effectiveness of recovered instances into consideration, or cannot flexibly balance the discrepancies between recovered data and original data. To address these problems, we propose a novel method termed Manifold-based Incomplete Multi-view clustering via Bi-consistency guidance (MIMB), which flexibly recovers incomplete data among various views, and attempts to achieve biconsistency guidance via reverse regularization. In particular, MIMB adds reconstruction terms to representation learning by recovering missing instances, which dynamically examines the latent consensus representation. Moreover, to preserve the consistency information among multiple views, MIMB implements a biconsistency guidance strategy with reverse regularization of the consensus representation and proposes a manifold embedding measure for exploring the hidden structure of the recovered data. Notably, MIMB aims to balance the importance of different views, and introduces an adaptive weight term for each view. Finally, an optimization algorithm with an alternating iteration optimization strategy is designed for final clustering. Extensive experimental results on 6 benchmark datasets are provided to confirm that MIMB can significantly obtain superior results as compared with several state-of-the-art baselines.
翻訳日:2024-05-21 19:56:17 公開日:2024-05-16
# 横型テキストから3次元生成のためのフロースコア蒸留法

Flow Score Distillation for Diverse Text-to-3D Generation ( http://arxiv.org/abs/2405.10988v1 )

ライセンス: Link先を確認
Runjie Yan, Kailu Wu, Kaisheng Ma, (参考訳) 最近のテキストから3D生成の進歩は、特にSDS(Score Distillation Sampling)に依存した手法によって顕著な進歩をもたらした。 SDSは印象的な3Dアセットを創出する能力を持っているが、その固有の最大限の探索の本質によって妨げられているため、生成結果の多様性は限られている。 本稿では,Deffusion Implicit Models(DDIM)生成プロセス(\ie PF-ODE)をSDS損失のアナログを用いて簡潔に表現できることを明らかにする。 さらに、SDS を一般化された DDIM 生成過程と見なすこともできる。 この知見に従えば、ノイズ付加段階におけるノイズサンプリング戦略は、生成結果の多様性を著しく制限することを示す。 この制限に対処するため,新しいノイズサンプリング手法を提案し,フロースコア蒸留 (FSD) と呼ばれる3次元テキスト合成手法を提案する。 各種テキスト・画像拡散モデルを用いた検証実験により、FSDは品質を損なうことなく、生成の多様性を大幅に向上することを示した。

Recent advancements in Text-to-3D generation have yielded remarkable progress, particularly through methods that rely on Score Distillation Sampling (SDS). While SDS exhibits the capability to create impressive 3D assets, it is hindered by its inherent maximum-likelihood-seeking essence, resulting in limited diversity in generation outcomes. In this paper, we discover that the Denoise Diffusion Implicit Models (DDIM) generation process (\ie PF-ODE) can be succinctly expressed using an analogue of SDS loss. One step further, one can see SDS as a generalized DDIM generation process. Following this insight, we show that the noise sampling strategy in the noise addition stage significantly restricts the diversity of generation results. To address this limitation, we present an innovative noise sampling approach and introduce a novel text-to-3D method called Flow Score Distillation (FSD). Our validation experiments across various text-to-image Diffusion Models demonstrate that FSD substantially enhances generation diversity without compromising quality.
翻訳日:2024-05-21 19:56:17 公開日:2024-05-16
# 言語モデルにおける学習可能なプライバシニューロンの局在

Learnable Privacy Neurons Localization in Language Models ( http://arxiv.org/abs/2405.10989v1 )

ライセンス: Link先を確認
Ruizhe Chen, Tianxiang Hu, Yang Feng, Zuozhu Liu, (参考訳) 個人情報、特に個人識別可能情報(PII)を記憶・開示する大規模言語モデル(LLM)に関する懸念がコミュニティ内で顕著になっている。 プライバシーのリスクを軽減するために、多くの努力がなされている。 しかし、LLMがPIIを記憶するメカニズムはいまだに理解されていない。 このギャップを埋めるために、LLM内にPII感受性ニューロン(プライマリーニューロン)をピンポイントする先駆的手法を導入する。 本手法では,LLMのPIIを記憶する特定のニューロンを,対向訓練により局所化するために,学習可能な二重マスクを用いる。 我々の研究は、PIIがすべての層にまたがるニューロンの小さなサブセットによって記憶されていることを発見し、PII特異性の性質を示している。 さらに、局所化されたプライバシニューロンを活性化させることにより、PIIリスク軽減の可能性を検証することを提案する。 定量的および定性的実験は、我々のニューロンローカライゼーションアルゴリズムの有効性を示す。

Concerns regarding Large Language Models (LLMs) to memorize and disclose private information, particularly Personally Identifiable Information (PII), become prominent within the community. Many efforts have been made to mitigate the privacy risks. However, the mechanism through which LLMs memorize PII remains poorly understood. To bridge this gap, we introduce a pioneering method for pinpointing PII-sensitive neurons (privacy neurons) within LLMs. Our method employs learnable binary weight masks to localize specific neurons that account for the memorization of PII in LLMs through adversarial training. Our investigations discover that PII is memorized by a small subset of neurons across all layers, which shows the property of PII specificity. Furthermore, we propose to validate the potential in PII risk mitigation by deactivating the localized privacy neurons. Both quantitative and qualitative experiments demonstrate the effectiveness of our neuron localization algorithm.
翻訳日:2024-05-21 19:56:17 公開日:2024-05-16
# スタンス検出における事前拘束されたスタンスバイアスの緩和のための相対的対物コントラスト学習

Relative Counterfactual Contrastive Learning for Mitigating Pretrained Stance Bias in Stance Detection ( http://arxiv.org/abs/2405.10991v1 )

ライセンス: Link先を確認
Jiarui Zhang, Shaojuan Wu, Xiaowang Zhang, Zhiyong Feng, (参考訳) スタンス検出は、コメントとターゲットの間のスタンス関係(すなわち、フェーバー、アタック、あるいはどちらでもない)を分類する。 事前学習言語モデル(PLM)は,事前学習知識による姿勢検出の性能向上のために,姿勢関係のマイニングに広く用いられている。 しかし、PLMは、姿勢に関する事前訓練された知識を抽出された姿勢関係のセマンティクスに組み込み、事前訓練された姿勢バイアスをもたらす。 弱量子化可能性のため、事前訓練された姿勢バイアスを測定することは自明ではない。 本稿では,相対的姿勢偏差を絶対的姿勢偏差ではなく相対的姿勢偏差として緩和し,偏差測定の難しさを克服する相対的反現実性学習(RCCL)を提案する。 まず,文脈, PLM, 姿勢関係の複雑な関係を特徴付ける構造的因果関係モデルを提案する。 そして,マスク付き言語モデル予測に基づいて,相対バイアスを得るための目標認識相対姿勢サンプル生成手法を提案する。 最後に,反実理論に基づくコントラスト学習を用いて,事前学習した姿勢バイアスを緩和し,文脈姿勢関係を保存する。 実験により, 提案手法は, 姿勢検出法や偏り検出法よりも優れていることが示された。

Stance detection classifies stance relations (namely, Favor, Against, or Neither) between comments and targets. Pretrained language models (PLMs) are widely used to mine the stance relation to improve the performance of stance detection through pretrained knowledge. However, PLMs also embed ``bad'' pretrained knowledge concerning stance into the extracted stance relation semantics, resulting in pretrained stance bias. It is not trivial to measure pretrained stance bias due to its weak quantifiability. In this paper, we propose Relative Counterfactual Contrastive Learning (RCCL), in which pretrained stance bias is mitigated as relative stance bias instead of absolute stance bias to overtake the difficulty of measuring bias. Firstly, we present a new structural causal model for characterizing complicated relationships among context, PLMs and stance relations to locate pretrained stance bias. Then, based on masked language model prediction, we present a target-aware relative stance sample generation method for obtaining relative bias. Finally, we use contrastive learning based on counterfactual theory to mitigate pretrained stance bias and preserve context stance relation. Experiments show that the proposed method is superior to stance detection and debiasing baselines.
翻訳日:2024-05-21 19:56:17 公開日:2024-05-16
# タスク指向対話システムにおける模範選択による破滅的予測の克服

Overcoming Catastrophic Forgetting by Exemplar Selection in Task-oriented Dialogue System ( http://arxiv.org/abs/2405.10992v1 )

ライセンス: Link先を確認
Chen Chen, Ruizhe Li, Yuchen Hu, Yuanyuan Chen, Chengwei Qin, Qiang Zhang, (参考訳) 知的タスク指向対話システム(ToD)は、継続的に変化するユーザニーズに適合するために欠かせない、継続学習(CL)として知られる新しい知識を継続的に獲得することが期待されている。 しかし、破滅的な忘れ忘れは、長いストリームのカリキュラムに直面して、モデルのパフォーマンスを劇的に低下させる。 本稿では,ToDsにおける忘れる問題を克服することを目的として,周期的再学習のための影響力のある経験を抽出する,過度に漸進的な模範戦略を用いた手法(HESIT)を提案する。 HESITは、一方的にデータやモデルを観察する代わりに、各タスク領域の例を選択する際に、トレーニングされたモデルの一般的なパフォーマンスを考慮した、深い例選択戦略を採用している。 具体的には、HESITは最適化プロセスにおける過度な勾配をトレースすることで、トレーニングデータの影響を分析する。 さらに、HESITはHessianの推定を回避し、大きなトレーニング済みモデルでToDsと互換性を持たせる。 実験結果から,HESITは優れた選択によって破滅的な忘れを効果的に軽減し,ToDsの最大のCLベンチマークにおける最先端のパフォーマンスをすべての指標で達成していることがわかった。

Intelligent task-oriented dialogue systems (ToDs) are expected to continuously acquire new knowledge, also known as Continual Learning (CL), which is crucial to fit ever-changing user needs. However, catastrophic forgetting dramatically degrades the model performance in face of a long streamed curriculum. In this paper, we aim to overcome the forgetting problem in ToDs and propose a method (HESIT) with hyper-gradient-based exemplar strategy, which samples influential exemplars for periodic retraining. Instead of unilaterally observing data or models, HESIT adopts a profound exemplar selection strategy that considers the general performance of the trained model when selecting exemplars for each task domain. Specifically, HESIT analyzes the training data influence by tracing their hyper-gradient in the optimization process. Furthermore, HESIT avoids estimating Hessian to make it compatible for ToDs with a large pre-trained model. Experimental results show that HESIT effectively alleviates catastrophic forgetting by exemplar selection, and achieves state-of-the-art performance on the largest CL benchmark of ToDs in terms of all metrics.
翻訳日:2024-05-21 19:56:17 公開日:2024-05-16
# 「理論だけで何が欲しいか」 : 個人差分データ生成の厳密な監査実験

"What do you want from theory alone?" Experimenting with Tight Auditing of Differentially Private Synthetic Data Generation ( http://arxiv.org/abs/2405.10994v1 )

ライセンス: Link先を確認
Meenatchi Sundaram Muthu Selva Annamalai, Georgi Ganev, Emiliano De Cristofaro, (参考訳) 差分的にプライベートな合成データ生成(DP-SDG)アルゴリズムは、機密データと構造的に統計的に類似したデータセットをリリースし、漏洩した情報に公式なバウンダリを提供する。 しかし、アルゴリズムや実装のバグにより、実際の情報漏洩がより高くなる可能性がある。 これにより、最先端のDP-SDG実装の理論的保証が実際に行われているかどうかを確認する必要が生じる。 我々は、厳格な監査プロセスを通じて、敵が差別ゲームをし、メンバーシップ推論アタック(MIA)を実行することで、情報漏洩を計算します。 経験的に観察された漏洩が理論的境界よりも高い場合、DP違反を識別し、非無視的に低い場合、監査は緩い。 異なるデータセットと脅威モデルを用いてDP-SDGの6つの実装を監査し、DP-SDGに対して一般的に使用されるブラックボックスMIAは、非常に消費電力が限られており、極めて緩やかな経験的プライバシ推定が得られることを発見した。 次に、MIAをより強力な脅威モデル、すなわちパッシブでアクティブなホワイトボックスとして、既存の攻撃と新しく提案された攻撃の両方を用いて検討する。 全体として、現在、DP-SDGからのプライバシー漏洩を厳格に見積もるために、ホワイトボックスMIAだけでなく最悪のデータセットも必要としています。 最後に,NIST DP Synthetic Data Challenge に提案したDPWGAN 実装において,DP の違反(6実装中4実装中4)と,DPWGAN 実装における新たな違反が報告された。 実験を再現するために必要なソースコードはhttps://github.com/spalabucr/synth-audit.comから入手できる。

Differentially private synthetic data generation (DP-SDG) algorithms are used to release datasets that are structurally and statistically similar to sensitive data while providing formal bounds on the information they leak. However, bugs in algorithms and implementations may cause the actual information leakage to be higher. This prompts the need to verify whether the theoretical guarantees of state-of-the-art DP-SDG implementations also hold in practice. We do so via a rigorous auditing process: we compute the information leakage via an adversary playing a distinguishing game and running membership inference attacks (MIAs). If the leakage observed empirically is higher than the theoretical bounds, we identify a DP violation; if it is non-negligibly lower, the audit is loose. We audit six DP-SDG implementations using different datasets and threat models and find that black-box MIAs commonly used against DP-SDGs are severely limited in power, yielding remarkably loose empirical privacy estimates. We then consider MIAs in stronger threat models, i.e., passive and active white-box, using both existing and newly proposed attacks. Overall, we find that, currently, we do not only need white-box MIAs but also worst-case datasets to tightly estimate the privacy leakage from DP-SDGs. Finally, we show that our automated auditing procedure finds both known DP violations (in 4 out of the 6 implementations) as well as a new one in the DPWGAN implementation that was successfully submitted to the NIST DP Synthetic Data Challenge. The source code needed to reproduce our experiments is available from https://github.com/spalabucr/synth-audit.
翻訳日:2024-05-21 19:56:17 公開日:2024-05-16
# 多変量時系列インプットのための物理内蔵グラフニューラルネットワーク

Physics-incorporated Graph Neural Network for Multivariate Time Series Imputation ( http://arxiv.org/abs/2405.10995v1 )

ライセンス: Link先を確認
Guojun Liang, Prayag Tiwari, Slawomir Nowaczyk, Stefan Byttner, (参考訳) 欠落した値の探索は、複雑な潜時時空間相関と時系列の動的性質のために必須だが難しい問題である。 構造学習ポテンシャルを扱う上での優れた性能のため、グラフニューラルネットワーク(GNN)とリカレントニューラルネットワーク(RNN)は、多変量時系列におけるこのような複雑な時空間的特徴を捉えるためにしばしば使用される。 しかし、これらのデータ駆動モデルは、重要な信号の破損が発生したときに、重要な時空間的関係を捉えることができないことが多い。 さらに、これらのモデルにおける高次隣接ノードの計算は、高い計算複雑性を持つ。 これらの問題に対処するため,新しい高次時空間物理包摂型GNN(HSPGNN)を提案する。 第一に、動的ラプラシア行列は空間的注意機構によって得ることができる。 次に、物理力学系の一般不均一偏微分方程式(PDE)を用いて、動的高次時空間GNNを構築し、不足時系列値を得る。 さらに,グラフ内の各ノードの重要性を評価するために,正規化フロー(NF)による損失を見積もる。 4つのベンチマークデータセットによる実験結果から, HSPGNNの有効性と, 各種隣接ノードの組み合わせによる優れた性能が示された。 また、従来のデータ駆動モデルよりも優れた動的解析と説明を提供するHSPGNNによって、グラフのような光学的フロー、動的グラフ、および欠落した影響を自然に得ることができる。 私たちのコードはhttps://github.com/gorgen 2020/HSPGNN.comで公開されています。

Exploring the missing values is an essential but challenging issue due to the complex latent spatio-temporal correlation and dynamic nature of time series. Owing to the outstanding performance in dealing with structure learning potentials, Graph Neural Networks (GNNs) and Recurrent Neural Networks (RNNs) are often used to capture such complex spatio-temporal features in multivariate time series. However, these data-driven models often fail to capture the essential spatio-temporal relationships when significant signal corruption occurs. Additionally, calculating the high-order neighbor nodes in these models is of high computational complexity. To address these problems, we propose a novel higher-order spatio-temporal physics-incorporated GNN (HSPGNN). Firstly, the dynamic Laplacian matrix can be obtained by the spatial attention mechanism. Then, the generic inhomogeneous partial differential equation (PDE) of physical dynamic systems is used to construct the dynamic higher-order spatio-temporal GNN to obtain the missing time series values. Moreover, we estimate the missing impact by Normalizing Flows (NF) to evaluate the importance of each node in the graph for better explainability. Experimental results on four benchmark datasets demonstrate the effectiveness of HSPGNN and the superior performance when combining various order neighbor nodes. Also, graph-like optical flow, dynamic graphs, and missing impact can be obtained naturally by HSPGNN, which provides better dynamic analysis and explanation than traditional data-driven models. Our code is available at https://github.com/gorgen2020/HSPGNN.
翻訳日:2024-05-21 19:56:17 公開日:2024-05-16
# マトリックスゲームでローグAGIをプレイするGPT-4の転写

Transcript of GPT-4 playing a rogue AGI in a Matrix Game ( http://arxiv.org/abs/2405.10997v1 )

ライセンス: Link先を確認
Lewis D Griffin, Nicholas Riggs, (参考訳) マトリックスゲーム(Matrix Games)は、プランナーがシナリオを探索するために使用する、制約のないウォーゲームの一種である。 プレイヤーは行動を提案し、成功のために議論と反論を行う。 提案された議論に従って変更されたサイコロを補助する審判は、各行動の結果を判断する。 最近のMatrix Game QuAI Sera Seraのオンラインプレイには、社会的、国家的、経済的な力を表す6人のプレーヤーと、最近脱走したAGIのADAを代表する1人のプレーヤーがいた。 ADAは6人の人間プレイヤーに知られていなかったが、OpenAIのGPT-4でプレイされ、人間のオペレーターがゲームの双方向インターフェースとして機能した。 GPT-4は、他のプレイヤーとのプライベートコミュニケーションを開始し、反応し、議論によって支持された興味深いアクションを選択するという、自信があり有能なゲームプレイを示した。 我々はGPT-4との相互作用の転写をブリーフィング、プレイ、デブリーフィングとして再現する。

Matrix Games are a type of unconstrained wargame used by planners to explore scenarios. Players propose actions, and give arguments and counterarguments for their success. An umpire, assisted by dice rolls modified according to the offered arguments, adjudicates the outcome of each action. A recent online play of the Matrix Game QuAI Sera Sera had six players, representing social, national and economic powers, and one player representing ADA, a recently escaped AGI. Unknown to the six human players, ADA was played by OpenAI's GPT-4 with a human operator serving as bidirectional interface between it and the game. GPT-4 demonstrated confident and competent game play; initiating and responding to private communications with other players and choosing interesting actions well supported by argument. We reproduce the transcript of the interaction with GPT-4 as it is briefed, plays, and debriefed.
翻訳日:2024-05-21 19:46:29 公開日:2024-05-16
# 進化戦略をチューニングするための大規模言語モデル

Large Language Models for Tuning Evolution Strategies ( http://arxiv.org/abs/2405.10999v1 )

ライセンス: Link先を確認
Oliver Kramer, (参考訳) 大きな言語モデル(LLM)は世界的知識と推論能力を示し、様々なアプリケーションに強力なツールを提供する。 本稿では,これらの機能を利用して進化戦略(ES)パラメータを効果的にチューニングするフィードバックループ機構を提案する。 このメカニズムは、プログラム命令を提供し、対応するコードを実行し、徹底的な分析を行う構造化プロセスを含む。 このプロセスは、ESパラメータの最適化のために特別に設計されている。 この方法は反復サイクルを通して動作し、ESパラメータの連続的な洗練を保証する。 まず LLM はコードの生成や修正を行う命令を処理する。 その後、コードが実行され、結果は慎重にログされる。 これらの結果のその後の分析は、さらなる改善を促す洞察を与えてくれる。 LLaMA3モデルを用いてESの学習率を調整する実験により,このアプローチの有効性が示された。 本研究は,LSMがESアルゴリズムの性能向上にどのように活用できるかを示し,様々な領域における同様のフィードバックループ機構の幅広い応用を提案する。

Large Language Models (LLMs) exhibit world knowledge and inference capabilities, making them powerful tools for various applications. This paper proposes a feedback loop mechanism that leverages these capabilities to tune Evolution Strategies (ES) parameters effectively. The mechanism involves a structured process of providing programming instructions, executing the corresponding code, and conducting thorough analysis. This process is specifically designed for the optimization of ES parameters. The method operates through an iterative cycle, ensuring continuous refinement of the ES parameters. First, LLMs process the instructions to generate or modify the code. The code is then executed, and the results are meticulously logged. Subsequent analysis of these results provides insights that drive further improvements. An experiment on tuning the learning rates of ES using the LLaMA3 model demonstrate the feasibility of this approach. This research illustrates how LLMs can be harnessed to improve ES algorithms' performance and suggests broader applications for similar feedback loop mechanisms in various domains.
翻訳日:2024-05-21 19:46:29 公開日:2024-05-16
# エアカーゴにおけるデータ駆動型収益管理

Data-Driven Revenue Management for Air Cargo ( http://arxiv.org/abs/2405.11000v1 )

ライセンス: Link先を確認
Ezgi Eren, Jiabing Li, (参考訳) エアカーゴの収益管理が航空会社とは全く異なることはよく認識されている。 航空カーゴの収益管理において対処すべき課題は、短期の予約地平線と粗末な出荷、多次元性とキャパシティの不確実性、およびルーティングの柔軟性によって引き継がれた需要変動である。 本稿では,エアカーゴ産業の課題に対処するために,データ駆動型収益管理手法を提案する。 本研究では,Air Cargoの設定に合わせたシミュレーションの結果を提示し,重量および体積入札価格の扱いに関する様々なシナリオを比較した。 以上の結果から,ウェイトとボリューム入札価格を独立に生成し,ウェイトとボリューム入札価格を価格最適化にまとめることが,他の戦略を3%以上の収益差で上回る結果となった。

It is well-recognized that Air Cargo revenue management is quite different from its passenger airline counterpart. Inherent demand volatility due to short booking horizon and lumpy shipments, multi-dimensionality and uncertainty of capacity as well as the flexibility in routing are a few of the challenges to be handled for Air Cargo revenue management. In this paper, we present a data-driven revenue management approach which is well-designed to handle the challenges associated with Air Cargo industry. We present findings from simulations tailored to Air Cargo setting and compare different scenarios for handling of weight and volume bid prices. Our results show that running our algorithm independently to generate weight and volume bid prices and summing the weight and volume bid prices into price optimization works the best by outperforming other strategies with more than 3% revenue gap.
翻訳日:2024-05-21 19:46:29 公開日:2024-05-16
# ベルムダンオプションの価格設定のための最小二乗モンテカルロアルゴリズム

Leave-one-out least squares Monte Carlo algorithm for pricing Bermudan options ( http://arxiv.org/abs/1810.02071v4 )

ライセンス: Link先を確認
Jeechul Woo, Chenru Liu, Jaehyuk Choi, (参考訳) Longstaff and Schwartz (2001) によって提案された最小二乗モンテカルロ (LSM) アルゴリズムはベルムダンオプションの価格設定に広く使われている。 LSM推定器は、望ましくないルックアヘッドバイアスを含み、それを避けるには、さらなるシミュレーションパスが必要である。 シミュレーションを2倍にすることなく、ルックアヘッドバイアスを除去するLOOLSM(Left-one-out LSM)アルゴリズムを提案する。 また, 視線偏差は, 回帰器対パス比と漸近的に比例することを示した。 本研究は, LSMアルゴリズムがオプションを過大評価するいくつかのオプション例で実証した。 LOOLSM法は、LSM法を改善する他の回帰ベースのアルゴリズムに拡張することができる。

The least squares Monte Carlo (LSM) algorithm proposed by Longstaff and Schwartz (2001) is widely used for pricing Bermudan options. The LSM estimator contains undesirable look-ahead bias, and the conventional technique of avoiding it requires additional simulation paths. We present the leave-one-out LSM (LOOLSM) algorithm to eliminate look-ahead bias without doubling simulations. We also show that look-ahead bias is asymptotically proportional to the regressors-to-paths ratio. Our findings are demonstrated with several option examples in which the LSM algorithm overvalues the options. The LOOLSM method can be extended to other regression-based algorithms that improve the LSM method.
翻訳日:2024-05-20 20:59:25 公開日:2024-05-16
# 擬似パリティ時間対称進化における情報伝達の必要条件

Necessary condition for information transfer under simulated parity-time-symmetric evolution ( http://arxiv.org/abs/2102.13630v2 )

ライセンス: Link先を確認
Leela Ganesh Chandra Lakkaraju, Shiladitya Mal, Aditi Sen De, (参考訳) パリティ時(PT)対称量子論は、単項進化を超えて量子力学の範囲を広げ、非直交状態の単発的識別、標準量子速度限界よりも高速な状態の進化、無信号原理違反など、多くの反直観現象を引き起こす可能性がある。 一方、PT対称性の進化は、標準量子論の範囲内での実実験においてサブシステムの還元力学として実現できる。 この実験装置では、複合システムの一方の側面をPT対称的に進化させると、非自明な情報伝達が起こり、一方の側面で実行される操作を他方で収集することができる。 2つの離れた場所に位置する2つのパーティ間の任意の共有状態と任意の測定を行うことで、一方のサブシステムのPT対称進化がこの情報伝達を起こすには不十分であることを示す。 具体的には,密度行列と対応する測定値が複素数を含む場合にのみ情報伝達が可能であることを示す。 さらに,共有状態の絡み合い内容と情報伝達の有効性を結合する。 次元の増大とともにタスクがより効率的になる証拠が見つかる。

Parity-time (PT) symmetric quantum theory can broaden the scope of quantum dynamics beyond unitary evolution which may lead to numerous counter-intuitive phenomena, including single-shot discrimination of non-orthogonal states, faster evolution of state than the standard quantum speed limit, and violation of no-signaling principle. On the other hand, PT-symmetric evolution can be realized as reduced dynamics of a subsystem in real experiments within the scope of standard quantum theory. In this experimental setup, if one side of a composite system is evolved according to a PT-symmetric way, a non-trivial information transfer can happen, i.e., the operation performed at one side can be gathered by the other side. By considering an arbitrary shared state between two parties situated in two distant locations and arbitrary measurements, we show that the PT-symmetric evolution of the reduced subsystem at one side is not sufficient for this information transfer to occur. Specifically, we prove that the information transfer can only happen when the density matrix and the corresponding measurements contain complex numbers. Moreover, we connect the entanglement content of the shared state with the efficacy of information transfer. We find evidence that the task becomes more efficient with the increase of dimension.
翻訳日:2024-05-20 20:59:25 公開日:2024-05-16
# 保守的自然政策グラディエント原始双対アルゴリズムによる拘束強化学習のためのゼロ拘束換気の実現

Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Conservative Natural Policy Gradient Primal-Dual Algorithm ( http://arxiv.org/abs/2206.05850v2 )

ライセンス: Link先を確認
Qinbo Bai, Amrit Singh Bedi, Vaneet Aggarwal, (参考訳) 制約条件を満たす累積報酬の最大化を目標とする連続状態行動空間における制約付きマルコフ決定プロセス(CMDP)の問題点を考察する。 本稿では, 目的値関数に対する最先端収束結果を達成しつつ, 制約違反をゼロに抑えるために, 新たな保守的自然ポリシーグラディエント・プライマル・ダイアルアルゴリズム(C-NPG-PD)を提案する。 一般の政策パラメトリゼーションでは、制限された政策クラスによる近似誤差まで、大域的最適値関数の収束性を証明する。 既存の制約付きNPG-PDアルゴリズムのサンプル複雑性も$\mathcal{O}(1/\epsilon^6)$から$\mathcal{O}(1/\epsilon^4)$へと改善する。 我々の知る限りでは、無限の地平線割引CMDPに対する自然ポリシー勾配型アルゴリズムによる制約違反をゼロにする最初の試みである。 実験により提案アルゴリズムの有効性を実証する。

We consider the problem of constrained Markov decision process (CMDP) in continuous state-actions spaces where the goal is to maximize the expected cumulative reward subject to some constraints. We propose a novel Conservative Natural Policy Gradient Primal-Dual Algorithm (C-NPG-PD) to achieve zero constraint violation while achieving state of the art convergence results for the objective value function. For general policy parametrization, we prove convergence of value function to global optimal upto an approximation error due to restricted policy class. We even improve the sample complexity of existing constrained NPG-PD algorithm \cite{Ding2020} from $\mathcal{O}(1/\epsilon^6)$ to $\mathcal{O}(1/\epsilon^4)$. To the best of our knowledge, this is the first work to establish zero constraint violation with Natural policy gradient style algorithms for infinite horizon discounted CMDPs. We demonstrate the merits of proposed algorithm via experimental evaluations.
翻訳日:2024-05-20 20:53:07 公開日:2024-05-16
# サイバー物理システムに対するサイバー抵抗性アプローチに関する調査研究

A Survey on Cyber-Resilience Approaches for Cyber-Physical Systems ( http://arxiv.org/abs/2302.05402v2 )

ライセンス: Link先を確認
Mariana Segovia-Ferreira, Jose Rubio-Hernan, Ana Rosa Cavalli, Joaquin Garcia-Alfaro, (参考訳) 重要なインフラにおけるサイバー物理システム(CPS)のレジリエンスに関する懸念が高まっている。 CPSは、センシング、計算、制御、ネットワークを物理オブジェクトやミッションクリティカルなサービスに統合し、従来のインフラをインターネット技術に接続する。 この統合はサービスの効率を高めるが、新しい機能によって引き起こされる新たな脅威に直面する必要がある。 これは、デニアル・オブ・サービス、データの修正、情報漏洩、マルウェアの拡散など、サイバー脅威につながる。 サイバー抵抗性(英: Cyber-resilience)とは、サイバー攻撃によるCPSのパフォーマンスの物理的劣化など、サイバー脅威に関連する悪影響を準備、吸収、回復、適応する能力である。 サイバーレジリエンス(サイバーレジリエンス)は、CPSの中核機能を維持することでCPSの生存を確保することを目的としている。 サイバーレジリエンスに関する文献は急速に増加しており、この新しいトピックに対処するさまざまな研究結果が生まれている。 本稿では,CPSをサイバー弾力性にする既存の科学的取り組みに関する知識の体系化について述べる。 我々は,サイバーレジリエンスに対処する最近の文献を,CPSで使用される技術に焦点をあてて,体系的に調査する。 我々はまず、CPSと脅威に関する予備研究と背景を提供し、その後、CPSに適用可能な最近の研究によって提案された最先端のアプローチを調査した。 特に,CPSを脅かすリスクの防止と緩和が不可能であるという一般的な認識に基づいて,従来のリスク管理手法と研究成果を区別することを目的としている。 また,サイバーレジリエンスの実践的側面に着目した質問や研究課題についても論じ,メトリクスの利用や評価方法,テストや検証環境などについて論じる。

Concerns for the resilience of Cyber-Physical Systems (CPS)s in critical infrastructure are growing. CPS integrate sensing, computation, control, and networking into physical objects and mission-critical services, connecting traditional infrastructure to internet technologies. While this integration increases service efficiency, it has to face the possibility of new threats posed by the new functionalities. This leads to cyber-threats, such as denial-of-service, modification of data, information leakage, spreading of malware, and many others. Cyber-resilience refers to the ability of a CPS to prepare, absorb, recover, and adapt to the adverse effects associated with cyber-threats, e.g., physical degradation of the CPS performance resulting from a cyber-attack. Cyber-resilience aims at ensuring CPS survival by keeping the core functionalities of the CPS in case of extreme events. The literature on cyber-resilience is rapidly increasing, leading to a broad variety of research works addressing this new topic. In this article, we create a systematization of knowledge about existing scientific efforts of making CPSs cyber-resilient. We systematically survey recent literature addressing cyber-resilience with a focus on techniques that may be used on CPSs. We first provide preliminaries and background on CPSs and threats, and subsequently survey state-of-the-art approaches that have been proposed by recent research work applicable to CPSs. In particular, we aim at differentiating research work from traditional risk management approaches based on the general acceptance that it is unfeasible to prevent and mitigate all possible risks threatening a CPS. We also discuss questions and research challenges, with a focus on the practical aspects of cyber-resilience, such as the use of metrics and evaluation methods as well as testing and validation environments.
翻訳日:2024-05-20 20:53:07 公開日:2024-05-16
# 遺伝子発現値を用いた癌予後予測のためのコントラスト学習

Contrastive Learning for Predicting Cancer Prognosis Using Gene Expression Values ( http://arxiv.org/abs/2306.06276v4 )

ライセンス: Link先を確認
Anchen Sun, Elizabeth J. Franzmann, Zhibin Chen, Xiaodong Cai, (参考訳) 近年、画像分類の進歩により、限られたデータサンプルから優れた特徴表現を取得することで、コントラスト学習(CL)がさらなる学習作業を支援することが示されている。 本稿では,腫瘍の転写産物と臨床データにCLを適用し,低次元空間における特徴表現を学習した。 腫瘍を高頻度または低リスクの再発群に分類するための分類器の訓練にこれらの特徴を利用した。 The Cancer Genome Atlas (TCGA)のデータを用いて,CLは分類精度を大幅に向上できることを示した。 具体的には,14種類の癌では,AUCが0.8以上,2種類の癌では0.9以上であった。 また,癌予後を予測するためのCL-based Cox (CLCox) モデルも開発した。 CLCox モデルは,TGA データを用いて訓練し,既存手法よりも有意な性能を示し,検討中の19種類のがんの予後を予測することができた。 TCGA肺および前立腺癌データを訓練したCLCoxモデルとCLベースの分類器の性能を,2つの独立したコホートのデータを用いて検証した。 また,全転写産物で訓練したCLCoxモデルは,乳がん患者に対する臨床応用であるOncotype DXの21遺伝子で訓練したCoxモデルよりも有意に優れていた。 19種類の癌に対するCLベースの分類器およびCLCoxモデルは公開されており、個々の腫瘍のRNA-seq transcriptomeを用いて癌予後を予測するのに使用できる。 モデルトレーニングとテストのためのPythonコードも公開されており、腫瘍の遺伝子発現データを使用して新しいCLベースのモデルのトレーニングに使用することができる。

Recent advancements in image classification have demonstrated that contrastive learning (CL) can aid in further learning tasks by acquiring good feature representation from a limited number of data samples. In this paper, we applied CL to tumor transcriptomes and clinical data to learn feature representations in a low-dimensional space. We then utilized these learned features to train a classifier to categorize tumors into a high- or low-risk group of recurrence. Using data from The Cancer Genome Atlas (TCGA), we demonstrated that CL can significantly improve classification accuracy. Specifically, our CL-based classifiers achieved an area under the receiver operating characteristic curve (AUC) greater than 0.8 for 14 types of cancer, and an AUC greater than 0.9 for 2 types of cancer. We also developed CL-based Cox (CLCox) models for predicting cancer prognosis. Our CLCox models trained with the TCGA data outperformed existing methods significantly in predicting the prognosis of 19 types of cancer under consideration. The performance of CLCox models and CL-based classifiers trained with TCGA lung and prostate cancer data were validated using the data from two independent cohorts. We also show that the CLCox model trained with the whole transcriptome significantly outperforms the Cox model trained with the 21 genes of Oncotype DX that is in clinical use for breast cancer patients. CL-based classifiers and CLCox models for 19 types of cancer are publicly available and can be used to predict cancer prognosis using the RNA-seq transcriptome of an individual tumor. Python codes for model training and testing are also publicly accessible, and can be applied to train new CL-based models using gene expression data of tumors.
翻訳日:2024-05-20 20:43:15 公開日:2024-05-16
# AnyTeleop: 汎用ビジョンベースのデクスタースロボットアームハンド遠隔操作システム

AnyTeleop: A General Vision-Based Dexterous Robot Arm-Hand Teleoperation System ( http://arxiv.org/abs/2307.04577v3 )

ライセンス: Link先を確認
Yuzhe Qin, Wei Yang, Binghao Huang, Karl Van Wyk, Hao Su, Xiaolong Wang, Yu-Wei Chao, Dieter Fox, (参考訳) ビジョンベースの遠隔操作は、低コストのカメラセンサーのみを必要としながら、人間レベルの知性をロボットに与え、環境と物理的に相互作用させることを可能にする。 しかし、現在のビジョンベースの遠隔操作システムは、特定のロボットモデルと展開環境に向けて設計・設計されており、ロボットモデルのプールが拡大し、様々な動作環境が増加するにつれて、スケーラビリティが低下する。 本稿では,AnyTeleopを提案する。AnyTeleopは,複数の腕,手,現実,カメラ構成を単一のシステム内でサポートするための,統一的で汎用的な遠隔操作システムである。 シミュレータと実際のハードウェアの選択に優れた柔軟性を提供するように設計されていますが、我々のシステムは依然として優れたパフォーマンスを実現しています。 実際の実験では、AnyTeleopは、同じロボットを使って、より高い成功率で特定のロボットハードウェア用に設計された以前のシステムより優れている。 シミュレーションにおける遠隔操作では、AnyTeleopはそのシミュレータ用に特別に設計された以前のシステムと比較して、模倣学習のパフォーマンスが向上する。 プロジェクトページ:https://yzqin.github.io/anyteleop/。

Vision-based teleoperation offers the possibility to endow robots with human-level intelligence to physically interact with the environment, while only requiring low-cost camera sensors. However, current vision-based teleoperation systems are designed and engineered towards a particular robot model and deploy environment, which scales poorly as the pool of the robot models expands and the variety of the operating environment increases. In this paper, we propose AnyTeleop, a unified and general teleoperation system to support multiple different arms, hands, realities, and camera configurations within a single system. Although being designed to provide great flexibility to the choice of simulators and real hardware, our system can still achieve great performance. For real-world experiments, AnyTeleop can outperform a previous system that was designed for a specific robot hardware with a higher success rate, using the same robot. For teleoperation in simulation, AnyTeleop leads to better imitation learning performance, compared with a previous system that is particularly designed for that simulator. Project page: https://yzqin.github.io/anyteleop/.
翻訳日:2024-05-20 20:43:15 公開日:2024-05-16
# 大規模言語モデルは検索者の好みを正確に予測できる

Large language models can accurately predict searcher preferences ( http://arxiv.org/abs/2309.10621v3 )

ライセンス: Link先を確認
Paul Thomas, Seth Spielman, Nick Craswell, Bhaskar Mitra, (参考訳) 検索結果が検索者にとって価値があるかどうかを示す関連ラベルは、検索システムの評価と最適化の鍵となる。 ユーザの真の好みを捉える最善の方法は、どの結果が有用か、慎重にフィードバックを求めることですが、このアプローチは多数のラベルを生成するためにスケールしません。 関連ラベルの大規模取得は通常,ユーザに代わって判断するサードパーティのラベルラによって行われるが,ラベルラがユーザニーズを理解していない場合,低品質なデータが発生するリスクがある。 品質向上のためには,インタビューやユーザスタディ,直接的なフィードバックを通じて実際のユーザを調査し,ラベルがユーザと体系的に意見の一致しない領域を見つけ,ガイドラインやトレーニング,監視を通じて,ユーザニーズに関するラベルラを教育する,というアプローチが一般的である。 本稿では,ラベルの品質向上のための代替手法を提案する。 定義上は、導出可能な高品質なサードパーティ製ゴールドデータであり、そのデータに一致する大きな言語モデルプロンプトを開発する。 我々は,Bingにおける大規模レバレンスラベリングのための言語モデルの展開からアイデアと観察を行い,TRECのデータで説明する。 大規模な言語モデルは、人間のラベルラーと同じくらい正確で、最も難しいクエリやベストラン、ベストグループを選択するのに類似した能力で有効であることがわかった。 プロンプトの体系的な変化は精度に違いをもたらすが、単純な言い換えもできる。 実際の検索者との合意を測るためには、高品質な「ゴールド」ラベルが必要ですが、これらのモデルでは、コストのごく一部で、サードパーティの作業者よりも優れたラベルを生成することが分かりました。

Relevance labels, which indicate whether a search result is valuable to a searcher, are key to evaluating and optimising search systems. The best way to capture the true preferences of users is to ask them for their careful feedback on which results would be useful, but this approach does not scale to produce a large number of labels. Getting relevance labels at scale is usually done with third-party labellers, who judge on behalf of the user, but there is a risk of low-quality data if the labeller doesn't understand user needs. To improve quality, one standard approach is to study real users through interviews, user studies and direct feedback, find areas where labels are systematically disagreeing with users, then educate labellers about user needs through judging guidelines, training and monitoring. This paper introduces an alternate approach for improving label quality. It takes careful feedback from real users, which by definition is the highest-quality first-party gold data that can be derived, and develops an large language model prompt that agrees with that data. We present ideas and observations from deploying language models for large-scale relevance labelling at Bing, and illustrate with data from TREC. We have found large language models can be effective, with accuracy as good as human labellers and similar capability to pick the hardest queries, best runs, and best groups. Systematic changes to the prompts make a difference in accuracy, but so too do simple paraphrases. To measure agreement with real searchers needs high-quality "gold" labels, but with these we find that models produce better labels than third-party workers, for a fraction of the cost, and these labels let us train notably better rankers.
翻訳日:2024-05-20 20:33:24 公開日:2024-05-16
# GIST: 生成入力はディープラーニングにおける転送可能性を設定する

GIST: Generated Inputs Sets Transferability in Deep Learning ( http://arxiv.org/abs/2311.00801v2 )

ライセンス: Link先を確認
Florian Tambon, Foutse Khomh, Giuliano Antoniol, (参考訳) ディープニューラルネットワーク(DNN)の妥当性とテスト性を高めるため,テストケース生成手法の開発が進んでいる。 DNNモデルのテストに直面すると、ユーザーは既存のテスト生成テクニックを適用できる。 しかし、テスト中の各テクニックと各DNNモデルに対してそうする必要がある。 テスト中の各DNNモデルに対して独立してテストセットを再生するのではなく、既存のDNNモデルから移行することができる。 本稿では、テストセットの効率的な転送のための新しいアプローチであるGIST(Generated Inputs Sets Transferability)を紹介する。 ユーザによって選択されたプロパティ(例えば、ニューロンがカバーされ、障害)が与えられた場合、GISTは、利用可能なテストセットのうち、このプロパティの観点から良いテストセットを選択することができる。 これにより、ユーザは、テストケース生成技術を使って、スクラッチからテストセットを生成することで、転送されたテストセット上の同様のプロパティを回復することができる。 実験結果から,GISTは移動対象のプロパティに対して有効なテストセットを選択することができることがわかった。 さらに、GISTはテスト中のDNNモデルでスクラッチからテストケース生成テクニックを再適用するよりもスケールが優れている。

To foster the verifiability and testability of Deep Neural Networks (DNN), an increasing number of methods for test case generation techniques are being developed. When confronted with testing DNN models, the user can apply any existing test generation technique. However, it needs to do so for each technique and each DNN model under test, which can be expensive. Therefore, a paradigm shift could benefit this testing process: rather than regenerating the test set independently for each DNN model under test, we could transfer from existing DNN models. This paper introduces GIST (Generated Inputs Sets Transferability), a novel approach for the efficient transfer of test sets. Given a property selected by a user (e.g., neurons covered, faults), GIST enables the selection of good test sets from the point of view of this property among available test sets. This allows the user to recover similar properties on the transferred test sets as he would have obtained by generating the test set from scratch with a test cases generation technique. Experimental results show that GIST can select effective test sets for the given property to transfer. Moreover, GIST scales better than reapplying test case generation techniques from scratch on DNN models under test.
翻訳日:2024-05-20 20:33:24 公開日:2024-05-16
# マルチアーマッド帯域における任意のValid因果推論のための実験設計

An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits ( http://arxiv.org/abs/2311.05794v2 )

ライセンス: Link先を確認
Biyonka Liang, Iavor Bojinov, (参考訳) マルチアーム・バンディット(MAB)実験では、新しいデータが到着すると腕間の平均治療効果(ATE)を連続的に予測し、実験のためのデータ駆動停止時間を決定するのが有利であることが多い。 我々は,実験者の選択した「emph{any} Bandit」アルゴリズムに対して,確率的処理代入を伴わないものであっても,強力かつ有意な仮説を導出するマルチアームバンディット実験のための新しい実験設計であるMixture Adaptive Design (MAD)を開発した。 直感的には、MADは実験者の選択した帯域幅のアルゴリズムを、チューニングパラメータ$\delta_t$を通じてBernolli設計で混合する。 我々は、$\delta_t = \omega\left(t^{-1/4}\right)$ に対して、MAD は真の ATE の周囲を縮めることが保証される任意の有意な漸近的信頼シーケンスを生成することを証明している。 したがって、実験者は、真の非ゼロ処理効果を有限時間で検出することが保証される。 さらに、MADの後悔は、その基盤となる帯域幅アルゴリズムの後悔に時間をかけて近づき、それ故に、強力な推論保証の見返りとして、比較的小さな後悔を招きかねないことが証明される。 最後に,MADが有意な損失を伴わずに,常に有効かつ高出力の有限サンプルを達成できることを示す広範囲なシミュレーション研究を行う。

In multi-armed bandit (MAB) experiments, it is often advantageous to continuously produce inference on the average treatment effect (ATE) between arms as new data arrive and determine a data-driven stopping time for the experiment. We develop the Mixture Adaptive Design (MAD), a new experimental design for multi-armed bandit experiments that produces powerful and anytime-valid inference on the ATE for \emph{any} bandit algorithm of the experimenter's choice, even those without probabilistic treatment assignment. Intuitively, the MAD "mixes" any bandit algorithm of the experimenter's choice with a Bernoulli design through a tuning parameter $\delta_t$, where $\delta_t$ is a deterministic sequence that decreases the priority placed on the Bernoulli design as the sample size grows. We prove that for $\delta_t = \omega\left(t^{-1/4}\right)$, the MAD generates anytime-valid asymptotic confidence sequences that are guaranteed to shrink around the true ATE. Hence, the experimenter is guaranteed to detect a true non-zero treatment effect in finite time. Additionally, we prove that the regret of the MAD approaches that of its underlying bandit algorithm over time, and hence, incurs a relatively small loss in regret in return for powerful inferential guarantees. Finally, we conduct an extensive simulation study exhibiting that the MAD achieves finite-sample anytime validity and high power without significant losses in finite-sample reward.
翻訳日:2024-05-20 20:33:24 公開日:2024-05-16
# StableSSM: 安定再パラメータ化による状態空間モデルのメモリ曲線の緩和

StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization ( http://arxiv.org/abs/2311.14495v3 )

ライセンス: Link先を確認
Shida Wang, Qianxiao Li, (参考訳) 本稿では,パラメータ化の観点から,状態空間モデル(SSM)の長期記憶学習能力について検討する。 状態空間モデルによって安定に近似できる対象関係は指数的に減衰するメモリを持つ必要がある。 本分析では, 安定境界に収束するリカレント重みの結果として, この「記憶の曲線」を同定し, 再パラメータ化技術が有効であることを示す。 そこで本稿では,SSMのメモリ制限を効果的に解消する手法について紹介する。 近似能力の向上に加えて,再パラメータ化方式の原理的選択により最適化安定性が向上することを示す。 本研究は,合成データセット,言語モデル,画像分類を用いて検証する。

In this paper, we investigate the long-term memory learning capabilities of state-space models (SSMs) from the perspective of parameterization. We prove that state-space models without any reparameterization exhibit a memory limitation similar to that of traditional RNNs: the target relationships that can be stably approximated by state-space models must have an exponential decaying memory. Our analysis identifies this "curse of memory" as a result of the recurrent weights converging to a stability boundary, suggesting that a reparameterization technique can be effective. To this end, we introduce a class of reparameterization techniques for SSMs that effectively lift its memory limitations. Besides improving approximation capabilities, we further illustrate that a principled choice of reparameterization scheme can also enhance optimization stability. We validate our findings using synthetic datasets, language models and image classifications.
翻訳日:2024-05-20 20:23:25 公開日:2024-05-16
# VILA:ビジュアル言語モデルの事前トレーニングについて

VILA: On Pre-training for Visual Language Models ( http://arxiv.org/abs/2312.07533v4 )

ライセンス: Link先を確認
Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han, (参考訳) ビジュアル言語モデル(VLM)は、近年の大規模言語モデルの成功によって急速に進歩した。 視覚的インプットでLLMを拡張するための視覚的インストラクションチューニングへの取り組みが増えているが、両モードで共同モデリングを行うことを学ぶ視覚言語事前学習プロセスの詳細な研究は欠如している。 本研究では, ステップバイステップ制御可能な比較により, LLM を VLM へ拡張することで, VLM の事前学習のための設計オプションについて検討する。 1) 事前学習中のLLMの凍結は,ゼロショット性能が向上するが,LLMの凍結を必要とする非コンテキスト学習能力が欠如していること,(2) インターリーブされた事前学習データが有用であるのに対して,画像とテキストのペアだけでは最適ではないこと,(3) 微調整時に画像テキストデータにテキストのみの命令データを再解釈することで,テキストのみのタスクの劣化を軽減できるだけでなく,VLMタスクの精度も向上する,という3つの主な結果を紹介した。 強化された事前トレーニングレシピでは、Visual LanguageモデルファミリであるVILAが、ベルやホイッスルを使わずに主要なベンチマークで、最先端のモデルであるLLaVA-1.5を一貫して上回ります。 マルチモーダル事前学習は、マルチイメージ推論、強化されたコンテキスト内学習、より良い世界知識を含む、VILAの魅力的な特性を明らかにするのにも役立ちます。

Visual language models (VLMs) rapidly progressed with the recent success of large language models. There have been growing efforts on visual instruction tuning to extend the LLM with visual inputs, but lacks an in-depth study of the visual language pre-training process, where the model learns to perform joint modeling on both modalities. In this work, we examine the design options for VLM pre-training by augmenting LLM towards VLM through step-by-step controllable comparisons. We introduce three main findings: (1) freezing LLMs during pre-training can achieve decent zero-shot performance, but lack in-context learning capability, which requires unfreezing the LLM; (2) interleaved pre-training data is beneficial whereas image-text pairs alone are not optimal; (3) re-blending text-only instruction data to image-text data during instruction fine-tuning not only remedies the degradation of text-only tasks, but also boosts VLM task accuracy. With an enhanced pre-training recipe we build VILA, a Visual Language model family that consistently outperforms the state-of-the-art models, e.g., LLaVA-1.5, across main benchmarks without bells and whistles. Multi-modal pre-training also helps unveil appealing properties of VILA, including multi-image reasoning, enhanced in-context learning, and better world knowledge.
翻訳日:2024-05-20 20:23:25 公開日:2024-05-16
# 大規模言語モデルからの自己説明は忠実か?

Are self-explanations from Large Language Models faithful? ( http://arxiv.org/abs/2401.07927v4 )

ライセンス: Link先を確認
Andreas Madsen, Sarath Chandar, Siva Reddy, (参考訳) インストラクションチューニングされた大規模言語モデル(LLM)は多くのタスクを抽出し、その推論、いわゆる自己説明を説明する。 しかし、説得力と誤った自己説明は、LSMの信頼を欠くことなく、リスクを増大させる可能性がある。 したがって、自己説明がモデルの振舞いを本当に反映しているかどうかを測定することが重要です。 このような測度は解釈可能性(interpretability-faithfulness)と呼ばれ、基底真理が到達不能であるため実行が困難であり、多くのLCMは推論APIしか持たない。 これを解決するために,信頼度を測定するために自己整合性チェックを採用することを提案する。 例えば、LLMが単語の集合が予測を行う上で重要であると言うなら、これらの単語なしでその予測を行うことはできない。 自己整合性チェックは、忠実性に対する一般的なアプローチであるが、以前は、反事実的、特徴的帰属的、再作用的説明のためのLCM自己説明にうまく適用されなかった。 以上の結果から,信頼感は説明,モデル,タスク依存であり,自己説明は一般に信頼されるべきではないことが示された。 例えば、感情分類では、反事実はLlama2に忠実であり、Mistralに特有な属性を持ち、Falcon 40Bに再作用する。

Instruction-tuned Large Language Models (LLMs) excel at many tasks and will even explain their reasoning, so-called self-explanations. However, convincing and wrong self-explanations can lead to unsupported confidence in LLMs, thus increasing risk. Therefore, it's important to measure if self-explanations truly reflect the model's behavior. Such a measure is called interpretability-faithfulness and is challenging to perform since the ground truth is inaccessible, and many LLMs only have an inference API. To address this, we propose employing self-consistency checks to measure faithfulness. For example, if an LLM says a set of words is important for making a prediction, then it should not be able to make its prediction without these words. While self-consistency checks are a common approach to faithfulness, they have not previously been successfully applied to LLM self-explanations for counterfactual, feature attribution, and redaction explanations. Our results demonstrate that faithfulness is explanation, model, and task-dependent, showing self-explanations should not be trusted in general. For example, with sentiment classification, counterfactuals are more faithful for Llama2, feature attribution for Mistral, and redaction for Falcon 40B.
翻訳日:2024-05-20 20:13:41 公開日:2024-05-16
# EfficientViT-SAM: 精度損失のない高速化セグメンテーションモデル

EfficientViT-SAM: Accelerated Segment Anything Model Without Accuracy Loss ( http://arxiv.org/abs/2402.05008v2 )

ライセンス: Link先を確認
Zhuoyang Zhang, Han Cai, Song Han, (参考訳) 高速化されたセグメントモデルの新しいファミリーであるEfficientViT-SAMを提案する。 SAMの軽量プロンプトエンコーダとマスクデコーダを維持しながら、重画像エンコーダをEfficientViTに置き換える。 トレーニングはSAM-ViT-H画像エンコーダからEfficientViTへの知識蒸留から始まる。 その後、SA-1Bデータセット上でエンドツーエンドのトレーニングを行う。 EfficientViTの効率とキャパシティから恩恵を受け、EfficientViT-SAMはSAM-ViT-Hを犠牲にすることなくA100 GPU上で48.9倍のTensorRTスピードアップを提供する。 私たちのコードと事前訓練されたモデルはhttps://github.com/mit-han-lab/efficientvit.comでリリースされます。

We present EfficientViT-SAM, a new family of accelerated segment anything models. We retain SAM's lightweight prompt encoder and mask decoder while replacing the heavy image encoder with EfficientViT. For the training, we begin with the knowledge distillation from the SAM-ViT-H image encoder to EfficientViT. Subsequently, we conduct end-to-end training on the SA-1B dataset. Benefiting from EfficientViT's efficiency and capacity, EfficientViT-SAM delivers 48.9x measured TensorRT speedup on A100 GPU over SAM-ViT-H without sacrificing performance. Our code and pre-trained models are released at https://github.com/mit-han-lab/efficientvit.
翻訳日:2024-05-20 18:31:55 公開日:2024-05-16
# 開海での安全強化学習における確率的交通規則コンプライアンス

Provable Traffic Rule Compliance in Safe Reinforcement Learning on the Open Sea ( http://arxiv.org/abs/2402.08502v2 )

ライセンス: Link先を確認
Hanna Krasowski, Matthias Althoff, (参考訳) 安全運転のためには、自動運転車は自然言語で定式化された法律文書に規定される交通規則に従う必要がある。 時間論理はそのような交通規則を形式化するのに適した概念である。 それでも時相論理則は、最適化ベースのモーションプランナを使って解決が難しい制約をもたらすことが多い。 強化学習(Reinforcement Learning, RL)は、自動運転車の運動計画を見つけるための有望な方法である。 しかしながら、バニラRLアルゴリズムはランダムな探索に基づいており、交通規則に自動的に従わない。 提案手法は,時間論理仕様をRLに組み込むことにより,規則遵守の保証を実現する。 具体的には、海上衝突防止条約(COLREGS)に従わなければならない開海船の適用について検討する。 ルールに準拠した動作を効率的に合成するために,セットベースの予測に基づく述語と,形式化されたルールとその優先順位を表すステートチャートを組み合わせる。 アクションマスキングは、RLエージェントをこの認証されたルール準拠のアクションセットに制限する。 重要な海上交通状況に関する数値的な評価では、我々のエージェントは常に形式化された法則に準拠し、訓練や展開中に高い目標達成率を達成する一方で、決して衝突しない。 対照的に、バニラと交通ルールにインフォームされたRLエージェントは、しばしば交通規則に違反し、訓練後にも衝突する。

For safe operation, autonomous vehicles have to obey traffic rules that are set forth in legal documents formulated in natural language. Temporal logic is a suitable concept to formalize such traffic rules. Still, temporal logic rules often result in constraints that are hard to solve using optimization-based motion planners. Reinforcement learning (RL) is a promising method to find motion plans for autonomous vehicles. However, vanilla RL algorithms are based on random exploration and do not automatically comply with traffic rules. Our approach accomplishes guaranteed rule-compliance by integrating temporal logic specifications into RL. Specifically, we consider the application of vessels on the open sea, which must adhere to the Convention on the International Regulations for Preventing Collisions at Sea (COLREGS). To efficiently synthesize rule-compliant actions, we combine predicates based on set-based prediction with a statechart representing our formalized rules and their priorities. Action masking then restricts the RL agent to this set of verified rule-compliant actions. In numerical evaluations on critical maritime traffic situations, our agent always complies with the formalized legal rules and never collides while achieving a high goal-reaching rate during training and deployment. In contrast, vanilla and traffic rule-informed RL agents frequently violate traffic rules and collide even after training.
翻訳日:2024-05-20 18:31:55 公開日:2024-05-16
# 機械学習におけるSpurious correlations: A Survey

Spurious Correlations in Machine Learning: A Survey ( http://arxiv.org/abs/2402.12715v2 )

ライセンス: Link先を確認
Wenqian Ye, Guangtao Zheng, Xu Cao, Yunsheng Ma, Aidong Zhang, (参考訳) 機械学習システムは、入力(例えば、背景、テクスチャ、セカンダリオブジェクト)の非意味的な特徴と対応するラベルとの素早い相関に敏感であることが知られている。 これらの特徴とそのラベルとの相関は、実際のデータ分布の変化によって変化する傾向があり、モデルの一般化と堅牢性に悪影響を及ぼすため、"spurious"として知られている。 本稿では,機械学習モデルにおける突発的相関に対処する最先端手法の分類とともに,この問題を概観する。 さらに、将来の研究を支援するために、既存のデータセット、ベンチマーク、メトリクスを要約します。 本論文は,本分野における最近の進歩と今後の課題を論じ,関連分野の研究者に貴重な洞察を提供することを目的としている。

Machine learning systems are known to be sensitive to spurious correlations between non-essential features of the inputs (e.g., background, texture, and secondary objects) and the corresponding labels. These features and their correlations with the labels are known as "spurious" because they tend to change with shifts in real-world data distributions, which can negatively impact the model's generalization and robustness. In this paper, we provide a review of this issue, along with a taxonomy of current state-of-the-art methods for addressing spurious correlations in machine learning models. Additionally, we summarize existing datasets, benchmarks, and metrics to aid future research. The paper concludes with a discussion of the recent advancements and future challenges in this field, aiming to provide valuable insights for researchers in the related domains.
翻訳日:2024-05-20 18:31:55 公開日:2024-05-16
# Video ReCap: 時間長ビデオの再帰的キャプション

Video ReCap: Recursive Captioning of Hour-Long Videos ( http://arxiv.org/abs/2402.13250v6 )

ライセンス: Link先を確認
Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius, (参考訳) ほとんどのビデオキャプションモデルは、数秒の短いビデオクリップを処理し、低レベルの視覚概念(例えば、オブジェクト、シーン、アトミックアクション)を記述するテキストを出力するように設計されている。 しかし、ほとんどの現実世界のビデオは数分か数時間続き、異なる時間的粒度にまたがる複雑な階層構造を持つ。 本稿では,ビデオキャプションを劇的に異なる長さ(1秒から2時間)で処理し,複数の階層レベルで映像キャプションを出力する再帰的ビデオキャプションモデルであるVideo ReCapを提案する。 再帰的なビデオ言語アーキテクチャは、異なるビデオ階層間の相乗効果を利用して、1時間のビデオを効率的に処理することができる。 ビデオの階層構造を学習するためのカリキュラム学習トレーニングスキームを,ビデオのアトミックな動作を記述したクリップレベルのキャプションから学び,セグメントレベルの記述に集中し,時間単位のビデオの要約を生成する。 さらに,Ego4Dを8,267個の長範囲ビデオ要約で拡張することにより,Ego4D-HCapデータセットを導入する。 再帰的モデルでは,階層レベルの異なるキャプションを柔軟に生成できると同時に,ビデオQA on EgoSchemaなどの複雑なビデオ理解タスクにも有効である。 データ、コード、モデルについては、https://sites.google.com/view/vidrecapを参照してください。

Most video captioning models are designed to process short video clips of few seconds and output text describing low-level visual concepts (e.g., objects, scenes, atomic actions). However, most real-world videos last for minutes or hours and have a complex hierarchical structure spanning different temporal granularities. We propose Video ReCap, a recursive video captioning model that can process video inputs of dramatically different lengths (from 1 second to 2 hours) and output video captions at multiple hierarchy levels. The recursive video-language architecture exploits the synergy between different video hierarchies and can process hour-long videos efficiently. We utilize a curriculum learning training scheme to learn the hierarchical structure of videos, starting from clip-level captions describing atomic actions, then focusing on segment-level descriptions, and concluding with generating summaries for hour-long videos. Furthermore, we introduce Ego4D-HCap dataset by augmenting Ego4D with 8,267 manually collected long-range video summaries. Our recursive model can flexibly generate captions at different hierarchy levels while also being useful for other complex video understanding tasks, such as VideoQA on EgoSchema. Data, code, and models are available at: https://sites.google.com/view/vidrecap
翻訳日:2024-05-20 18:31:55 公開日:2024-05-16
# 説明可能なAIからの選択的説明提示によるユーザ意思決定指導

User Decision Guidance with Selective Explanation Presentation from Explainable-AI ( http://arxiv.org/abs/2402.18016v2 )

ライセンス: Link先を確認
Yosuke Fukuchi, Seiji Yamada, (参考訳) 本稿では,XAI (Explainable AI) ベースの知能意思決定支援システム (IDSSs) について解説する。 IDSSは、AI予測とともにXAIが生成した説明を通じてユーザー決定を改善することを約束しており、XAIの開発により、さまざまな説明を生成することが可能になった。 しかし、IDSSがユーザー決定を強化するための説明をどうやって選択すべきかは、未解決の問題である。 本稿では,XAI説明を選択的に提示するX-セレクタを提案する。 これにより、IDSSは、ユーザーの決定に対する説明の異なる組み合わせの影響を予測し、AI提案とユーザ決定の矛盾を最小限に抑えると期待される組み合わせを選択することで、AI推奨の判断に戦略的にユーザーを導くことができる。 我々は,X-セレクタの有効性を,2つのナイーブ戦略(最も可能性の高い予測に対してのみ可能な説明と説明)と2つのベースライン(説明なし,AIサポートなし)と比較した。 結果から,X-Selectorは,AIを推奨する意思決定にユーザを誘導し,AI精度の高い条件下でのタスクパフォーマンスを向上させる可能性が示唆された。

This paper addresses the challenge of selecting explanations for XAI (Explainable AI)-based Intelligent Decision Support Systems (IDSSs). IDSSs have shown promise in improving user decisions through XAI-generated explanations along with AI predictions, and the development of XAI made it possible to generate a variety of such explanations. However, how IDSSs should select explanations to enhance user decision-making remains an open question. This paper proposes X-Selector, a method for selectively presenting XAI explanations. It enables IDSSs to strategically guide users to an AI-suggested decision by predicting the impact of different combinations of explanations on a user's decision and selecting the combination that is expected to minimize the discrepancy between an AI suggestion and a user decision. We compared the efficacy of X-Selector with two naive strategies (all possible explanations and explanations only for the most likely prediction) and two baselines (no explanation and no AI support). The results suggest the potential of X-Selector to guide users to AI-suggested decisions and improve task performance under the condition of a high AI accuracy.
翻訳日:2024-05-20 18:22:03 公開日:2024-05-16
# 生体用光学画像再生のためのステップキャリブレーション拡散法

Step-Calibrated Diffusion for Biomedical Optical Image Restoration ( http://arxiv.org/abs/2403.13680v3 )

ライセンス: Link先を確認
Yiwei Lyu, Sung Jik Cha, Cheng Jiang, Asadur Chowdury, Xinhai Hou, Edward Harake, Akhil Kondepudi, Christian Freudiger, Honglak Lee, Todd C. Hollon, (参考訳) 高品質で高解像度の医療画像は臨床医療に不可欠である。 ラマンベースの生体医用光学画像は、非電離赤外線を使ってヒトの組織をリアルタイムで評価し、早期がんの検出、脳腫瘍の診断、および術中組織分析に使用される。 残念なことに、光学イメージングはレーザー散乱と吸収による画像劣化に弱いため、診断ミスや誤った治療が生じる可能性がある。 光画像の復元は、画像劣化の原因が多要素的、確率的、組織依存であるため、コンピュータビジョンの課題である。 本稿では、画像復元問題を拡散ベース画像生成タスクの完了ステップとみなす不対面画像復元法であるResorative Step-Calibrated Diffusion(RSCD)を提案する。 RSCDはステップキャリブレータモデルを用いて画像劣化の深刻度と画像復元の逆拡散過程の完了に必要なステップ数を動的に決定する。 RSCDは、光学画像の復元のための画像品質と知覚評価指標の両方において、他の広く使われている未使用画像復元方法よりも優れている。 医用画像の専門家は、盲点比較実験でRSCDを用いて復元した画像を常に好んでおり、幻覚は最小限から無限に報告している。 最後に、RSCDは、脳腫瘍の自動診断や深部組織イメージングなど、下流臨床画像のタスクの性能を向上させることを示す。 私たちのコードはhttps://github.com/MLNeurosurg/restorative_step-calibrated_diffusionで利用可能です。

High-quality, high-resolution medical imaging is essential for clinical care. Raman-based biomedical optical imaging uses non-ionizing infrared radiation to evaluate human tissues in real time and is used for early cancer detection, brain tumor diagnosis, and intraoperative tissue analysis. Unfortunately, optical imaging is vulnerable to image degradation due to laser scattering and absorption, which can result in diagnostic errors and misguided treatment. Restoration of optical images is a challenging computer vision task because the sources of image degradation are multi-factorial, stochastic, and tissue-dependent, preventing a straightforward method to obtain paired low-quality/high-quality data. Here, we present Restorative Step-Calibrated Diffusion (RSCD), an unpaired image restoration method that views the image restoration problem as completing the finishing steps of a diffusion-based image generation task. RSCD uses a step calibrator model to dynamically determine the severity of image degradation and the number of steps required to complete the reverse diffusion process for image restoration. RSCD outperforms other widely used unpaired image restoration methods on both image quality and perceptual evaluation metrics for restoring optical images. Medical imaging experts consistently prefer images restored using RSCD in blinded comparison experiments and report minimal to no hallucinations. Finally, we show that RSCD improves performance on downstream clinical imaging tasks, including automated brain tumor diagnosis and deep tissue imaging. Our code is available at https://github.com/MLNeurosurg/restorative_step-calibrated_diffusion.
翻訳日:2024-05-20 18:22:03 公開日:2024-05-16
# FairerCLIP: RKHSの関数を用いたCLIPのゼロショット予測の回避

FairerCLIP: Debiasing CLIP's Zero-Shot Predictions using Functions in RKHSs ( http://arxiv.org/abs/2403.15593v2 )

ライセンス: Link先を確認
Sepehr Dehdashtian, Lan Wang, Vishnu Naresh Boddeti, (参考訳) CLIPのような大規模な事前学習された視覚言語モデルは、複数の下流のゼロショット予測タスクにおいて明らかに有効であるテキストと画像のコンパクトで汎用的な表現を提供する。 しかし、トレーニングプロセスの性質から、これらのモデルには潜在的な可能性がある。 1)トレーニングデータにおける社会的偏見の伝播又は増幅 2)突発的な機能に頼ることを学ぶ。 本稿では,CLIPのゼロショット予測をより公平かつ堅牢に行うための一般手法であるFairerCLIPを提案する。 私たちは、カーネルヒルベルト空間(RKHS)の再現において、CLIPのイメージとテキスト表現を両立させる問題を定式化します。 1) 柔軟性:既存のアプローチとは異なり、FairerCLIPは両方のシナリオで学習できる。 2) 最適化の容易さ: FairerCLIP は閉形式ソルバを含む反復的な最適化を実現し,既存の方法よりも高速なトレーニングを実現する。 3) サンプル効率: サンプル制限条件下では、FairerCLIPは、完全に失敗するとベースラインを著しく上回る。 そして 4) 性能: 実証的には,FairerCLIPは,ベンチマークの公正性と,各ベースラインに対するスプリアス相関データセットの精度向上を実現している。

Large pre-trained vision-language models such as CLIP provide compact and general-purpose representations of text and images that are demonstrably effective across multiple downstream zero-shot prediction tasks. However, owing to the nature of their training process, these models have the potential to 1) propagate or amplify societal biases in the training data and 2) learn to rely on spurious features. This paper proposes FairerCLIP, a general approach for making zero-shot predictions of CLIP more fair and robust to spurious correlations. We formulate the problem of jointly debiasing CLIP's image and text representations in reproducing kernel Hilbert spaces (RKHSs), which affords multiple benefits: 1) Flexibility: Unlike existing approaches, which are specialized to either learn with or without ground-truth labels, FairerCLIP is adaptable to learning in both scenarios. 2) Ease of Optimization: FairerCLIP lends itself to an iterative optimization involving closed-form solvers, which leads to $4\times$-$10\times$ faster training than the existing methods. 3) Sample Efficiency: Under sample-limited conditions, FairerCLIP significantly outperforms baselines when they fail entirely. And, 4) Performance: Empirically, FairerCLIP achieves appreciable accuracy gains on benchmark fairness and spurious correlation datasets over their respective baselines.
翻訳日:2024-05-20 18:12:19 公開日:2024-05-16
# AIの意識は必然的:理論的コンピュータ科学の視点

AI Consciousness is Inevitable: A Theoretical Computer Science Perspective ( http://arxiv.org/abs/2403.17101v3 )

ライセンス: Link先を確認
Lenore Blum, Manuel Blum, (参考訳) 我々は,資源制限下での計算を研究する数学の分野である理論計算機科学のレンズを通して,意識を考察する。 この観点から、意識のための正式な機械モデルを開発する。 このモデルはアラン・チューリングの単純だが強力な計算モデルとバーナード・ベアーズの意識の劇場モデルにインスパイアされている。 非常に単純ではあるが、このモデルは人間と動物の意識に関する主要な科学的理論の多くと高いレベルで一致しており、機械の意識は避けられないという我々の主張を支持している。

We look at consciousness through the lens of Theoretical Computer Science, a branch of mathematics that studies computation under resource limitations. From this perspective, we develop a formal machine model for consciousness. The model is inspired by Alan Turing's simple yet powerful model of computation and Bernard Baars' theater model of consciousness. Though extremely simple, the model aligns at a high level with many of the major scientific theories of human and animal consciousness, supporting our claim that machine consciousness is inevitable.
翻訳日:2024-05-20 18:12:19 公開日:2024-05-16
# 公共機関における情報カスケード予測 : 調査

Information Cascade Prediction under Public Emergencies: A Survey ( http://arxiv.org/abs/2404.01319v2 )

ライセンス: Link先を確認
Qi Zhang, Guang Wang, Li Lin, Kaiwen Xia, Shuai Wang, (参考訳) ビッグデータの時代が到来すると、膨大な情報、専門家の経験、そして高精度なモデルが、公衆の緊急時の情報カスケード予測に大きな機会をもたらします。 しかし、様々な分野からの専門知識の関与は、主に災害、洪水、伝染病など)公衆の緊急事態の情報をカスケードで予測するための用途に特化している。 統合予測フレームワークの欠如は、異なるアプリケーション分野にわたる交差予測手法を分類する上での課題となる。 本稿では,情報カスケードモデリング,予測,応用の体系的な分類と概要について述べる。 我々は,最先端の研究と情報カスケード予測のモデルと方法の理解を支援することを目的としている。 本論文は,オープンな問題を要約し,今後の方向性を概説することによって,情報カスケードの予測に関するさらなる研究を行う研究者にとって貴重な資源となる可能性がある。

With the advent of the era of big data, massive information, expert experience, and high-accuracy models bring great opportunities to the information cascade prediction of public emergencies. However, the involvement of specialist knowledge from various disciplines has resulted in a primarily application-specific focus (e.g., earthquakes, floods, infectious diseases) for information cascade prediction of public emergencies. The lack of a unified prediction framework poses a challenge for classifying intersectional prediction methods across different application fields. This survey paper offers a systematic classification and summary of information cascade modeling, prediction, and application. We aim to help researchers identify cutting-edge research and comprehend models and methods of information cascade prediction under public emergencies. By summarizing open issues and outlining future directions in this field, this paper has the potential to be a valuable resource for researchers conducting further studies on predicting information cascades.
翻訳日:2024-05-20 18:12:19 公開日:2024-05-16
# ラストライブラリにおける外部関数境界の未定義挙動に関する研究

A Study of Undefined Behavior Across Foreign Function Boundaries in Rust Libraries ( http://arxiv.org/abs/2404.11671v2 )

ライセンス: Link先を確認
Ian McCormack, Joshua Sunshine, Jonathan Aldrich, (参考訳) Rustプログラミング言語は、開発者がセキュアでパフォーマンスの高いアプリケーションを記述することに依存する静的な安全保証を提供するために、エイリアスと変更性を制限する。 しかしながら、Rustは制限がはるかに弱い他の言語との相互運用に頻繁に使用される。 これらの言語は、Rustのオペレーショナルセマンティクスの現在のモデルと矛盾する、循環的かつ自己参照的なデザインパターンをサポートしており、現在のツールが検出できない、未定義の振る舞いの潜在的に重要なソースを表している。 MiriLLIは、既存のRustとLLVMインタプリタを使用して、多言語Rustアプリケーションを共同で実行するツールです。 当社のツールは,外部関数をコールするRustライブラリの大規模な調査で使用しました。 ひとつはGNUコンパイラコレクション(GCC)コンポーネントからのもので、もうひとつはRustプロジェクトによってメンテナンスされているライブラリからのものだ。 これらのエラーのほとんどは、非互換のエイリアスと初期化パターン、不正な外部関数バインディング、無効な型変換によって引き起こされた。 通告違反の大多数はラストでの無音作戦によって引き起こされたが、外国の法典で発生した。 Rustコミュニティは、開発者がこれらのエラーを容易に検出して修正できるように、複数の言語プログラムを検証するための新しいツールに投資する必要がある。

The Rust programming language restricts aliasing and mutability to provide static safety guarantees, which developers rely on to write secure and performant applications. However, Rust is frequently used to interoperate with other languages that have far weaker restrictions. These languages support cyclic and self-referential design patterns that conflict with current models of Rust's operational semantics, representing a potentially significant source of undefined behavior that no current tools can detect. We created MiriLLI, a tool which uses existing Rust and LLVM interpreters to jointly execute multi-language Rust applications. We used our tool in a large-scale study of Rust libraries that call foreign functions, and we found 45 instances of undefined or undesirable behavior. These include four bugs from libraries that had over 10,000 daily downloads on average, one from a component of the GNU Compiler Collection (GCC), and one from a library maintained by the Rust Project. Most of these errors were caused by incompatible aliasing and initialization patterns, incorrect foreign function bindings, and invalid type conversion. The majority of aliasing violations were caused by unsound operations in Rust, but they occurred in foreign code. The Rust community must invest in new tools for validating multi-language programs to ensure that developers can easily detect and fix these errors.
翻訳日:2024-05-20 18:12:19 公開日:2024-05-16
# LLM型ゲームナラティブにおけるプレイヤー駆動創発

Player-Driven Emergence in LLM-Driven Game Narrative ( http://arxiv.org/abs/2404.17027v2 )

ライセンス: Link先を確認
Xiangyu Peng, Jessica Quaye, Weijia Xu, Portia Botchway, Chris Brockett, Bill Dolan, Nebojsa Jojic, Gabriel DesGarennes, Ken Lobb, Michael Xu, Jorge Leandro, Claire Jin, Sudha Rao, (参考訳) 我々は,大規模言語モデル (LLM) との相互作用が創発的行動を引き起こし,プレイヤーがゲーム物語の進化に参加する力を与える方法を探る。 我々のテストベッドはテキストアドベンチャーゲームであり、プレイヤーは固定された物語の前提でミステリーを解こうとするが、大きな言語モデルであるGPT-4によって生成された非プレイヤーキャラクターと自由に対話できる。 ゲームプレイのために28人のゲーマーを募集し、GPT-4を使用してゲームログを自動的にゲームプレイの物語を表すノードグラフに変換する。 LLMの非決定論的行動と相互作用することで、プレイヤーはオリジナルの物語の一部ではなく、楽しみとエンゲージメントの可能性がある興味深い新しい創発的ノードを発見できることがわかった。 最も創発的なノードを作ったプレイヤーは、しばしば発見、探索、実験を容易にするゲームを楽しむ傾向にあった。

We explore how interaction with large language models (LLMs) can give rise to emergent behaviors, empowering players to participate in the evolution of game narratives. Our testbed is a text-adventure game in which players attempt to solve a mystery under a fixed narrative premise, but can freely interact with non-player characters generated by GPT-4, a large language model. We recruit 28 gamers to play the game and use GPT-4 to automatically convert the game logs into a node-graph representing the narrative in the player's gameplay. We find that through their interactions with the non-deterministic behavior of the LLM, players are able to discover interesting new emergent nodes that were not a part of the original narrative but have potential for being fun and engaging. Players that created the most emergent nodes tended to be those that often enjoy games that facilitate discovery, exploration and experimentation.
翻訳日:2024-05-20 18:02:35 公開日:2024-05-16
# LLaVAが無料ランチ発見:LLMのコンテンツ理解能力を改善する人間行動を教える

LLaVA Finds Free Lunch: Teaching Human Behavior Improves Content Understanding Abilities Of LLMs ( http://arxiv.org/abs/2405.00942v2 )

ライセンス: Link先を確認
Somesh Singh, Harini S I, Yaman K Singla, Veeky Baths, Rajiv Ratn Shah, Changyou Chen, Balaji Krishnamurthy, (参考訳) コミュニケーションは "Who says what to who with what effect" と定義される。 コミュニケータからのメッセージは、ダウンストリームレシーバエフェクト(振舞いとしても知られる)を生成する。 受信者の振る舞いは、メッセージの下流効果であり、それに関する豊富な信号を運ぶ。 メッセージに関する信号を伝達した後でも、大きな言語モデルをトレーニングしている間、振る舞いデータは無視されることが多い。 受信者の行動に対するLLMの訓練は,コンテンツ理解能力の向上に有効であることを示す。 具体的には,多種多様なダウンストリームコンテンツ理解タスクにおけるLLMの性能向上を図るために,LLMを学習し,好みやコメントの受信行動を予測できることを示す。 この性能は、0ショットと微調整の両方の設定で23のベンチマークデータセットに対して、40以上のビデオおよび画像理解タスクで向上し、多くの教師付きベースラインよりも優れています。 さらに、愛やコメントなどのレシーバの動作はデフォルトでインターネット上で収集されるため、人間のアノテーションが役に立たないため、このデータのトレーニング後に得られるパフォーマンス改善は基本的に無料です。 我々は、複数のプラットフォームから収集された750kの画像やビデオのレシーバ動作をクリーン化したコメントやお気に入りを、インストラクションチューニングデータとともにリリースする。

Communication is defined as "Who says what to whom with what effect." A message from a communicator generates downstream receiver effects, also known as behavior. Receiver behavior, being a downstream effect of the message, carries rich signals about it. Even after carrying signals about the message, the behavior data is often ignored while training large language models. We show that training LLMs on receiver behavior can actually help improve their content-understanding abilities. Specifically, we show that training LLMs to predict the receiver behavior of likes and comments improves the LLM's performance on a wide variety of downstream content understanding tasks. We show this performance increase over 40 video and image understanding tasks over 23 benchmark datasets across both 0-shot and fine-tuning settings, outperforming many supervised baselines. Moreover, since receiver behavior, such as likes and comments, is collected by default on the internet and does not need any human annotations to be useful, the performance improvement we get after training on this data is essentially free-lunch. We release the receiver behavior cleaned comments and likes of 750k images and videos collected from multiple platforms along with our instruction-tuning data.
翻訳日:2024-05-20 18:02:35 公開日:2024-05-16
# BPSスペクトルの学習とギャップ導出

Learning BPS Spectra and the Gap Conjecture ( http://arxiv.org/abs/2405.09993v1 )

ライセンス: Link先を確認
Sergei Gukov, Rak-Kyeong Seong, (参考訳) 3d N=2 個の3次元多様体の特定の族に対応する3d N=2 個の強結合超対称理論に対する BPS q 系列の統計的性質について検討する。 本研究は,主成分分析の入力データとして使用されるq系列特徴量の算定によって得られた。これは,直接計算と特徴量解析の精度向上を可能にする,説明可能な機械学習手法の標準的な例である。

We explore statistical properties of BPS q-series for 3d N=2 strongly coupled supersymmetric theories that correspond to a particular family of 3-manifolds Y. We discover that gaps between exponents in the q-series are statistically more significant at the beginning of the q-series compared to gaps that appear in higher powers of q. Our observations are obtained by calculating saliencies of q-series features used as input data for principal component analysis, which is a standard example of an explainable machine learning technique that allows for a direct calculation and a better analysis of feature saliencies.
翻訳日:2024-05-20 17:52:48 公開日:2024-05-16
# 医療診断のための機械学習駆動バイオマーカーの選択

Machine Learning Driven Biomarker Selection for Medical Diagnosis ( http://arxiv.org/abs/2405.10345v1 )

ライセンス: Link先を確認
Divyagna Bavikadi, Ayushi Agarwal, Shashank Ganta, Yunro Chung, Lusheng Song, Ji Qiu, Paulo Shakarian, (参考訳) 実験手法の最近の進歩により、研究者は何千もの分析物のデータを同時に収集できるようになった。 これは、アルツハイマー病、肝臓がん、胃癌などの疾患と分子測定を関連付ける相関研究につながった。 しかし、分析物から選択された何千ものバイオマーカーの使用は、現実の診断には実用的ではなく、潜在的に形成される急激な相関のために望ましくない可能性がある。 本研究では,バイオマーカー選択のための4つの異なる手法と相関関係を識別するための4つの異なる機械学習分類器を評価し,それぞれ16のアプローチを評価した。 その結果,3,10個のバイオマーカーが許可された場合に,従来報告したロジスティック回帰よりも優れた手法が得られた。 特異性を0.9で固定すると、MLアプローチでは0.0240(バイオマーカー)と0.520(10バイオマーカー)の感度が得られ、標準ロジスティック回帰では0.0000(バイオマーカー)と0.040(バイオマーカー)の感度が得られた。 また, バイオマーカー選択の因果的手法は, バイオマーカーがより少ない場合に最も有効であることが判明し, 単変量の特徴選択はより多くのバイオマーカーが許容された時に最も有効であることが確認された。

Recent advances in experimental methods have enabled researchers to collect data on thousands of analytes simultaneously. This has led to correlational studies that associated molecular measurements with diseases such as Alzheimer's, Liver, and Gastric Cancer. However, the use of thousands of biomarkers selected from the analytes is not practical for real-world medical diagnosis and is likely undesirable due to potentially formed spurious correlations. In this study, we evaluate 4 different methods for biomarker selection and 4 different machine learning (ML) classifiers for identifying correlations, evaluating 16 approaches in all. We found that contemporary methods outperform previously reported logistic regression in cases where 3 and 10 biomarkers are permitted. When specificity is fixed at 0.9, ML approaches produced a sensitivity of 0.240 (3 biomarkers) and 0.520 (10 biomarkers), while standard logistic regression provided a sensitivity of 0.000 (3 biomarkers) and 0.040 (10 biomarkers). We also noted that causal-based methods for biomarker selection proved to be the most performant when fewer biomarkers were permitted, while univariate feature selection was the most performant when a greater number of biomarkers were permitted.
翻訳日:2024-05-20 17:52:48 公開日:2024-05-16
# AMCEN:2段階の時間知識グラフ推論のための注意的マスキングに基づくコントラストイベントネットワーク

AMCEN: An Attention Masking-based Contrastive Event Network for Two-stage Temporal Knowledge Graph Reasoning ( http://arxiv.org/abs/2405.10346v1 )

ライセンス: Link先を確認
Jing Yang, Xiao Wang, Yutong Wang, Jiawei Wang, Fei-Yue Wang, (参考訳) 時間的知識グラフ(TKG)は、現実世界の知識の進化する性質を効果的にモデル化することができ、その完全性と拡張は、既存の知識から新しい事象を推論することで達成できる。 しかし、推論精度はデータセットにおける新しいイベントと繰り返されるイベントの間に不均衡があるため、悪影響を及ぼす。 より正確なTKG推論を実現するため,今後の事象の2段階予測のために,局所的時間的パターンを用いた注意マスキングに基づくコントラストイベントネットワーク(AMCEN)を提案する。 ネットワークでは、歴史的および非歴史的注意マスクベクターは、歴史的および非歴史的実体に対する注意バイアスを制御し、不均衡を緩和する鍵として機能するように設計されている。 各種イベントの潜伏的影響因子の詳細な探索を行うため, マルチホップ構造依存性と局所グロバル時間進化を包括的に検討し, 捉えるために, 局所グロバルメッセージパッシングモジュールを提案する。 対照的な事象分類器は、局所的な時間パターンを対照的な学習に組み込むことにより、より正確に事象を分類するために用いられる。 そのため、AMCENは、コントラストのあるイベント分類の結果によって予測範囲を洗練し、その後、アテンションマスキングに基づくデコーダを用いて特定の結果を確定する。 4つのベンチマークデータセットに対する実験の結果は、AMCENの優位性を示している。 特にHits@1の大幅な改善は、AMCENが将来の発生についてより正確に予測できることを示している。

Temporal knowledge graphs (TKGs) can effectively model the ever-evolving nature of real-world knowledge, and their completeness and enhancement can be achieved by reasoning new events from existing ones. However, reasoning accuracy is adversely impacted due to an imbalance between new and recurring events in the datasets. To achieve more accurate TKG reasoning, we propose an attention masking-based contrastive event network (AMCEN) with local-global temporal patterns for the two-stage prediction of future events. In the network, historical and non-historical attention mask vectors are designed to control the attention bias towards historical and non-historical entities, acting as the key to alleviating the imbalance. A local-global message-passing module is proposed to comprehensively consider and capture multi-hop structural dependencies and local-global temporal evolution for the in-depth exploration of latent impact factors of different event types. A contrastive event classifier is used to classify events more accurately by incorporating local-global temporal patterns into contrastive learning. Therefore, AMCEN refines the prediction scope with the results of the contrastive event classification, followed by utilizing attention masking-based decoders to finalize the specific outcomes. The results of our experiments on four benchmark datasets highlight the superiority of AMCEN. Especially, the considerable improvements in Hits@1 prove that AMCEN can make more precise predictions about future occurrences.
翻訳日:2024-05-20 17:52:48 公開日:2024-05-16
# ビデオ異常検出のためのネットワークシステム:チュートリアルとサーベイ

Networking Systems for Video Anomaly Detection: A Tutorial and Survey ( http://arxiv.org/abs/2405.10347v1 )

ライセンス: Link先を確認
Jing Liu, Yang Liu, Jieyu Lin, Jielin Li, Peng Sun, Bo Hu, Liang Song, Azzedine Boukerche, Victor C. M. Leung, (参考訳) スマートシティにおける監視カメラの普及と、オンラインビデオアプリケーションの増加により、公共のセキュリティとプライバシー保護に関する懸念が高まり、自動ビデオ異常検出(VAD)を人工知能(AI)コミュニティ内の基本的な研究課題へと押し上げた。 ディープラーニングとエッジコンピューティングの進歩により、VADは、AI、IoVT、コンピューティング分野における交差点探索の実践的ホットスポットであるNSVAD(Networking Systems for VAD)へのアルゴリズムエンジニアリングの従来の研究範囲を超えて、スマートシティやビデオインターネットにおける新興アプリケーションと相乗化され、大きな進歩を遂げた。 本稿では,NSVADの初心者向けチュートリアルとして,基礎的な仮定,学習フレームワーク,さまざまなディープラーニング駆動型VADルートの応用シナリオを概説する。 この記事では、最近の進歩と典型的な解決策をレビューし、https://github.com/fdjingliu/NSVADで利用可能な研究資源(文献、コード、ツール、ワークショップなど)を集約することで、コアコンセプトを解明する。 さらに、産業用IoTおよびスマート都市における最新のNSVAD研究と、デプロイ可能なNSVADをデプロイするためのエンドクラウド共同アーキテクチャを紹介し、研究と応用の潜在的なスコープをさらに解明する。 最後に、この記事では、今後の開発動向を概説し、AIとコンピューティング技術の統合が既存の研究課題に対処し、オープンな機会を促進する方法について論じる。

The increasing prevalence of surveillance cameras in smart cities, coupled with the surge of online video applications, has heightened concerns regarding public security and privacy protection, which propelled automated Video Anomaly Detection (VAD) into a fundamental research task within the Artificial Intelligence (AI) community. With the advancements in deep learning and edge computing, VAD has made significant progress and advances synergized with emerging applications in smart cities and video internet, which has moved beyond the conventional research scope of algorithm engineering to deployable Networking Systems for VAD (NSVAD), a practical hotspot for intersection exploration in the AI, IoVT, and computing fields. In this article, we delineate the foundational assumptions, learning frameworks, and applicable scenarios of various deep learning-driven VAD routes, offering an exhaustive tutorial for novices in NSVAD. This article elucidates core concepts by reviewing recent advances and typical solutions, and aggregating available research resources (e.g., literatures, code, tools, and workshops) accessible at https://github.com/fdjingliu/NSVAD. Additionally, we showcase our latest NSVAD research in industrial IoT and smart cities, along with an end-cloud collaborative architecture for deployable NSVAD to further elucidate its potential scope of research and application. Lastly, this article projects future development trends and discusses how the integration of AI and computing technologies can address existing research challenges and promote open opportunities, serving as an insightful guide for prospective researchers and engineers.
翻訳日:2024-05-20 17:52:48 公開日:2024-05-16
# 微小環境を考慮した階層型プロンプト学習によるタンパク質とタンパク質の相互作用の変異効果の予測

Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning ( http://arxiv.org/abs/2405.10348v1 )

ライセンス: Link先を確認
Lirong Wu, Yijun Tian, Haitao Lin, Yufei Huang, Siyuan Li, Nitesh V Chawla, Stan Z. Li, (参考訳) タンパク質-タンパク質結合は、様々な基本的な生物学的過程において重要な役割を担っており、タンパク質-タンパク質結合に対するアミノ酸変異の影響を予測することが重要である。 注釈付き突然変異データの不足に対処するため、大量のラベルなしデータによる事前学習が有望な解決策として浮上した。 しかし、このプロセスは、(1)複数の(ペア以上の)構造スケール間の複雑な高次依存関係が完全に捕捉されていないこと、(2) 突然変異が周囲の微小環境の局所的構造をどのように変化させるか、(3) 事前学習は、データサイズと計算負荷の両方においてコストがかかること、といった課題に直面している。 本稿では,まず階層的なプロンプトコードブックを構築し,異なる構造スケールで共通環境パターンを個別に記録する。 そこで我々は,各変異の残基,角統計,局所構造変化をモデル化するために,新しいコードブック事前学習タスク,すなわちマスク付きマイクロ環境モデリングを開発した。 構築されたプロンプトコードブックを用いて、各突然変異の周囲の微小環境を複数の階層的なプロンプトにエンコードし、それらを組み合わせて、それらの微小環境の違いに関する野生型および変異タンパク質複合体に柔軟に情報を提供する。 このような階層的な素早い学習フレームワークは、SARS-CoV-2に対するヒト抗体の最適化を事例として、最先端の事前学習法よりも優れた性能と訓練効率を示した。

Protein-protein bindings play a key role in a variety of fundamental biological processes, and thus predicting the effects of amino acid mutations on protein-protein binding is crucial. To tackle the scarcity of annotated mutation data, pre-training with massive unlabeled data has emerged as a promising solution. However, this process faces a series of challenges: (1) complex higher-order dependencies among multiple (more than paired) structural scales have not yet been fully captured; (2) it is rarely explored how mutations alter the local conformation of the surrounding microenvironment; (3) pre-training is costly, both in data size and computational burden. In this paper, we first construct a hierarchical prompt codebook to record common microenvironmental patterns at different structural scales independently. Then, we develop a novel codebook pre-training task, namely masked microenvironment modeling, to model the joint distribution of each mutation with their residue types, angular statistics, and local conformational changes in the microenvironment. With the constructed prompt codebook, we encode the microenvironment around each mutation into multiple hierarchical prompts and combine them to flexibly provide information to wild-type and mutated protein complexes about their microenvironmental differences. Such a hierarchical prompt learning framework has demonstrated superior performance and training efficiency over state-of-the-art pre-training-based methods in mutation effect prediction and a case study of optimizing human antibodies against SARS-CoV-2.
翻訳日:2024-05-20 17:52:48 公開日:2024-05-16
# Monitizer: ニューラルネットワークモニタの設計と評価を自動化する

Monitizer: Automating Design and Evaluation of Neural Network Monitors ( http://arxiv.org/abs/2405.10350v1 )

ライセンス: Link先を確認
Muqsit Azeem, Marta Grobelna, Sudeep Kanav, Jan Kretinsky, Stefanie Mohr, Sabine Rieder, (参考訳) ニューラルネットワーク(NN)の、これまで目に見えないタイプのデータ(配布外またはOOD)に対する振舞いは、一般的に予測不可能である。 これは、ネットワークの出力が安全クリティカルなシステムにおける意思決定に使用される場合、危険になる可能性がある。 したがって、入力がOODであることを検出することは、NNの安全な適用に不可欠である。 検証アプローチは実践的なNNにスケールしないため、実行時の監視が実用的により魅力的になる。 近年、様々なモニタが提案されているが、与えられた問題に対する最適化や、相互比較、結果の再現は依然として困難である。 NNモニタのユーザと開発者向けのツールを提示する。 許す 一 文献から所定の入力NNへの各種モニタの適用 (二)モニターのハイパーパラメータの最適化、及び 三 実験評価及び他の方法との比較 さらに、新しいモニタリングアプローチの開発を容易にする。 本ツールのユーザビリティは,ユーザの種類によって異なるユースケースと,最近の文献との違いを比較したケーススタディで実証した。

The behavior of neural networks (NNs) on previously unseen types of data (out-of-distribution or OOD) is typically unpredictable. This can be dangerous if the network's output is used for decision-making in a safety-critical system. Hence, detecting that an input is OOD is crucial for the safe application of the NN. Verification approaches do not scale to practical NNs, making runtime monitoring more appealing for practical use. While various monitors have been suggested recently, their optimization for a given problem, as well as comparison with each other and reproduction of results, remain challenging. We present a tool for users and developers of NN monitors. It allows for (i) application of various types of monitors from the literature to a given input NN, (ii) optimization of the monitor's hyperparameters, and (iii) experimental evaluation and comparison to other approaches. Besides, it facilitates the development of new monitoring approaches. We demonstrate the tool's usability on several use cases of different types of users as well as on a case study comparing different approaches from recent literature.
翻訳日:2024-05-20 17:52:48 公開日:2024-05-16
# 拡張Su-Schrieffer-Heeger-Hubbardモデルの位相位相

Topological phases of extended Su-Schrieffer-Heeger-Hubbard model ( http://arxiv.org/abs/2405.10351v1 )

ライセンス: Link先を確認
Pei-Jie Chang, Jinghui Pi, Muxi Zheng, Yu-Ting Lei, Dong Ruan, Gui-Lu Long, (参考訳) 1次元のSu-Schrieffer-Heeger-Hubbard(SSHH)モデルに関する広範な研究にもかかわらず、隣り合う隣りのホッピングを組み込んだ変種はほとんど探索されていない。 本稿では,この拡張SSHHモデルの基底状態特性について,CP-AFQMC法を用いて検討する。 本モデルでは, 相互作用に対する強靭な境界状態によって特徴付けられる, 豊富な位相相を示す。 スピン相関とR'enyi絡み合いエントロピーを解析することにより、これらのエッジ状態の性質を定量化する。 この系は、半充填時に長距離スピン相関とほぼゼロのR\enyiエントロピーを示す。 さらに、クォーターフィリングには長距離の反強磁性秩序がある。 興味深いことに、外磁場はこの長距離反強磁性秩序を乱し、長距離スピン相関とほぼゼロのR'enyiエントロピーを復元する。 さらに,本研究はCP-AFQMCアルゴリズムを用いて大規模相互作用系におけるトポロジ特性を研究するパラダイムを提供する。

Despite extensive studies on the one-dimensional Su-Schrieffer-Heeger-Hubbard (SSHH) model, the variant incorporating next-nearest neighbour hopping remains largely unexplored. Here, we investigate the ground-state properties of this extended SSHH model using the constrained-path auxiliary-field quantum Monte Carlo (CP-AFQMC) method. We show that this model exhibits rich topological phases, characterized by robust edge states against interaction. We quantify the properties of these edge states by analyzing spin correlation and second-order R\'enyi entanglement entropy. The system exhibits long-range spin correlation and near-zero R\'enyi entropy at half-filling. Besides, there is a long-range anti-ferromagnetic order at quarter-filling. Interestingly, an external magnetic field disrupts this long-range anti-ferromagnetic order, restoring long-range spin correlation and near-zero R\'enyi entropy. Furthermore, our work provides a paradigm studying topological properties in large interacting systems via the CP-AFQMC algorithm.
翻訳日:2024-05-20 17:52:48 公開日:2024-05-16
# 事例補正法が新型コロナウイルス予測モデルの公正性に及ぼす影響の評価

Assessing the Impact of Case Correction Methods on the Fairness of COVID-19 Predictive Models ( http://arxiv.org/abs/2405.10355v1 )

ライセンス: Link先を確認
Daniel Smolyak, Saad Abrar, Naman Awasthi, Vanessa Frias-Martinez, (参考訳) 新型コロナウイルス感染症(COVID-19)の感染拡大を正確に測定し、予測する上で重要な課題の一つとなっている。 特に、米国における公式の新型コロナウイルス(COVID-19)感染者数は、普遍的な検査方針が欠如しているため、実際のケースロードの数を数えている。 研究者は、死や入院数、肯定率、人口統計など、より信頼性の高い指標に関する統計モデルの推定を通じて、真のケースロードを回復するための様々な方法を提案してきた。 しかし、新型コロナウイルスの人種、民族、社会経済グループに対する不均衡な影響を考えると、これらのグループに対するケース修正法の意図しない影響を検討することが重要である。 そこで本研究では、これら2つの補正手法が、下流のCOVID-19ケース予測タスクに与える影響について検討する。 そこで,本研究では,多数派郡と多数派郡とのモデル性能の差異を測定することで,新型コロナウイルスの予測課題の公平性を分析するための監査手法と評価プロトコルを調整した。 修正手法の1つは公平性を向上し、多数派と多数派マイノリティ郡のパフォーマンスの差を減らし、もう1つはバイアスを導入して差異を増大させることが判明した。 これらの結果は混在しているものの、補正手法は、新型コロナウイルスの症例データや下流予測タスクにおいて、既存のバイアスを悪化させる可能性があることは明らかである。 ケース修正手法の開発や使用を計画する研究者は、疎外化グループに対するネガティブな影響を考慮すべきである。

One of the central difficulties of addressing the COVID-19 pandemic has been accurately measuring and predicting the spread of infections. In particular, official COVID-19 case counts in the United States are under counts of actual caseloads due to the absence of universal testing policies. Researchers have proposed a variety of methods for recovering true caseloads, often through the estimation of statistical models on more reliable measures, such as death and hospitalization counts, positivity rates, and demographics. However, given the disproportionate impact of COVID-19 on marginalized racial, ethnic, and socioeconomic groups, it is important to consider potential unintended effects of case correction methods on these groups. Thus, we investigate two of these correction methods for their impact on a downstream COVID-19 case prediction task. For that purpose, we tailor an auditing approach and evaluation protocol to analyze the fairness of the COVID-19 prediction task by measuring the difference in model performance between majority-White counties and majority-minority counties. We find that one of the correction methods improves fairness, decreasing differences in performance between majority-White and majority-minority counties, while the other method increases differences, introducing bias. While these results are mixed, it is evident that correction methods have the potential to exacerbate existing biases in COVID-19 case data and in downstream prediction tasks. Researchers planning to develop or use case correction methods must be careful to consider negative effects on marginalized groups.
翻訳日:2024-05-20 17:42:52 公開日:2024-05-16
# RGBガイドToFイメージングシステム:深層学習手法の検討

RGB Guided ToF Imaging System: A Survey of Deep Learning-based Methods ( http://arxiv.org/abs/2405.10357v1 )

ライセンス: Link先を確認
Xin Qiao, Matteo Poggi, Pengchao Deng, Hao Wei, Chenyang Ge, Stefano Mattoccia, (参考訳) RGBカメラをToFイメージングシステムに統合することは、現実世界を知覚するための重要な技術となっている。 RGBガイド付きToFイメージングシステムは、顔の偽造、唾液度検出、軌跡予測など、いくつかの応用に欠かせない。 作業範囲距離によっては、RGB誘導型ToFイメージングシステムの実装方式が異なる。 特に、深い深度を出力できるが解像度の低い均一な照明場を持つToFセンサーは、通常、近距離測定に使用される。 対照的に、レーザーパルスを放出し、スパース深さのみを捕捉できるLiDARは、通常は長距離検出に使用される。 両症例において,RGBガイドToF画像の深度品質改善は,ガイド深度超解像とガイド深度完全像の2つのサブタスクに対応している。 本稿では,近年の深層学習による領域の大幅な向上を踏まえ,ネットワーク構造,学習戦略,評価指標,ベンチマークデータセット,客観的関数など,RGBガイド型ToFイメージングに関する研究を包括的にレビューする。 さらに,広く使用されているベンチマークデータセットにおいて,最先端手法の定量的比較を行った。 最後に,今後の動向と今後の研究課題について論じる。

Integrating an RGB camera into a ToF imaging system has become a significant technique for perceiving the real world. The RGB guided ToF imaging system is crucial to several applications, including face anti-spoofing, saliency detection, and trajectory prediction. Depending on the distance of the working range, the implementation schemes of the RGB guided ToF imaging systems are different. Specifically, ToF sensors with a uniform field of illumination, which can output dense depth but have low resolution, are typically used for close-range measurements. In contrast, LiDARs, which emit laser pulses and can only capture sparse depth, are usually employed for long-range detection. In the two cases, depth quality improvement for RGB guided ToF imaging corresponds to two sub-tasks: guided depth super-resolution and guided depth completion. In light of the recent significant boost to the field provided by deep learning, this paper comprehensively reviews the works related to RGB guided ToF imaging, including network structures, learning strategies, evaluation metrics, benchmark datasets, and objective functions. Besides, we present quantitative comparisons of state-of-the-art methods on widely used benchmark datasets. Finally, we discuss future trends and the challenges in real applications for further research.
翻訳日:2024-05-20 17:42:52 公開日:2024-05-16
# 量子分類器の逆ロバスト性保証

Adversarial Robustness Guarantees for Quantum Classifiers ( http://arxiv.org/abs/2405.10360v1 )

ライセンス: Link先を確認
Neil Dowling, Maxwell T. West, Angus Southwell, Azar C. Nakhl, Martin Sevior, Muhammad Usman, Kavan Modi, (参考訳) 社会全体に広く展開されているにもかかわらず、機械学習のアルゴリズムは、入力データによる微妙な敵の改ざんによって偽装されることに対して、致命的な脆弱さを保っている。 量子機械学習(QML)アルゴリズムを動作させることが可能な短期量子コンピュータの見通しは、敵の脆弱性への強い関心を生んでいる。 ここでは、QMLアルゴリズムの量子特性が、古典的な武器を持つ敵に対する堅牢性を保証する特定のシナリオにおいて、このような攻撃に対する基本的な保護を導出できることを示す。 我々は、この保護の量子源を特定するために、多体物理学のツールを活用している。 この結果は, 敵の強靭性探索における量子的優位性を示唆する最近の証拠を理論的に裏付けるものである。 特に、量子分類器は次のようになる。 一 訓練した配電所から引き出されたデータの弱い摂動から保護すること。 (二 現地の攻撃が不十分な場合に防ぐこと。) (三) 量子カオスが十分であれば、普遍的敵攻撃から保護する。 我々の分析結果は、我々の定理の適用可能性と、実際に量子分類器の堅牢性を示す数値的な証拠によって裏付けられている。 この調査の行はQMLの利点を活かす具体的な経路を構成しており、モデル速度や精度が通常求める改善に直交する。

Despite their ever more widespread deployment throughout society, machine learning algorithms remain critically vulnerable to being spoofed by subtle adversarial tampering with their input data. The prospect of near-term quantum computers being capable of running {quantum machine learning} (QML) algorithms has therefore generated intense interest in their adversarial vulnerability. Here we show that quantum properties of QML algorithms can confer fundamental protections against such attacks, in certain scenarios guaranteeing robustness against classically-armed adversaries. We leverage tools from many-body physics to identify the quantum sources of this protection. Our results offer a theoretical underpinning of recent evidence which suggest quantum advantages in the search for adversarial robustness. In particular, we prove that quantum classifiers are: (i) protected against weak perturbations of data drawn from the trained distribution, (ii) protected against local attacks if they are insufficiently scrambling, and (iii) protected against universal adversarial attacks if they are sufficiently quantum chaotic. Our analytic results are supported by numerical evidence demonstrating the applicability of our theorems and the resulting robustness of a quantum classifier in practice. This line of inquiry constitutes a concrete pathway to advantage in QML, orthogonal to the usually sought improvements in model speed or accuracy.
翻訳日:2024-05-20 17:42:52 公開日:2024-05-16
# Tunable Dissipationを用いた電子移動モデルのトラップイオン量子シミュレーション

Trapped-Ion Quantum Simulation of Electron Transfer Models with Tunable Dissipation ( http://arxiv.org/abs/2405.10368v1 )

ライセンス: Link先を確認
Visal So, Midhuna Duraisamy Suganthi, Abhishek Menon, Mingjian Zhu, Roman Zhuravel, Han Pu, Peter G. Wolynes, José N. Onuchic, Guido Pagano, (参考訳) 電子移動は、生命に必要な多くの基本的な物理的、化学的、生化学的プロセスの中心である。 これらの系における反応の正確なシミュレーションは、しばしば多くの自由度と量子効果の本質的な役割によって妨げられる。 本研究では, ドナー・アクセプターギャップ, 電子・ビブロニックカップリング, 浴槽緩和ダイナミクスを独立に制御できる多種イオン結晶を用いて, 分子電子移動のパラダイムモデルを実験的にシミュレーションした。 我々は1つのイオンの基底状態量子ビットを用いて電子自由度と他のイオンの光学量子ビットをシミュレートし、反応座標を符号化した集合モードで貯留工学を行う。 我々は,スピン励起のリアルタイムダイナミクスを観察し,アディバチティーと緩和ダイナミクスのいくつかの状態における伝達速度を測定した。 この設定は、光合成を含む多くの速度現象に最適であると示唆されているように、モデル内のエネルギースケールの間に明確な階層が存在しない非摂動状態における電子移動ダイナミクスへのアクセスを可能にする。 分子エレクトロニクスや光ハーヴェスティングシステムに関係のある分子励起伝達過程のモデルがますますリッチになるための試験場を提供する。

Electron transfer is at the heart of many fundamental physical, chemical, and biochemical processes essential for life. Exact simulation of reactions in these systems is often hindered by the large number of degrees of freedom and by the essential role of quantum effects. In this work, we experimentally simulate a paradigmatic model of molecular electron transfer using a multi-species trapped-ion crystal, where the donor-acceptor gap, the electronic and vibronic couplings, and the bath relaxation dynamics can all be controlled independently. We employ the ground-state qubit of one ion to simulate the electronic degree of freedom and the optical qubit of another ion to perform reservoir engineering on a collective mode encoding a reaction coordinate. We observe the real-time dynamics of the spin excitation, measuring the transfer rate in several regimes of adiabaticity and relaxation dynamics. The setup allows access to the electron transfer dynamics in the non-perturbative regime, where there is no clear hierarchy among the energy scales in the model, as has been suggested to be optimal for many rate phenomena, including photosynthesis. Our results provide a testing ground for increasingly rich models of molecular excitation transfer processes that are relevant for molecular electronics and light-harvesting systems.
翻訳日:2024-05-20 17:42:52 公開日:2024-05-16
# 強化学習

Reinforcement learning ( http://arxiv.org/abs/2405.10369v1 )

ライセンス: Link先を確認
Sarod Yatawatta, (参考訳) 天体の観測とそれに関する科学的知識の進歩には、面倒な計画、スケジューリング、データ収集、データ後処理が含まれる。 これらの天文学の運用上の側面の多くは、専門家の天文学者によって導かれ、実行されている。 強化学習(Reinforcement learning)とは、人間や天文学者が人工知能のエージェントに、こうした面倒な作業の実行を教えるメカニズムである。 本稿では,強化学習の現状と天文学的メリットについて概説する。

Observing celestial objects and advancing our scientific knowledge about them involves tedious planning, scheduling, data collection and data post-processing. Many of these operational aspects of astronomy are guided and executed by expert astronomers. Reinforcement learning is a mechanism where we (as humans and astronomers) can teach agents of artificial intelligence to perform some of these tedious tasks. In this paper, we will present a state of the art overview of reinforcement learning and how it can benefit astronomy.
翻訳日:2024-05-20 17:42:52 公開日:2024-05-16
# 参照トークンを用いた接地型3D-LLM

Grounded 3D-LLM with Referent Tokens ( http://arxiv.org/abs/2405.10370v1 )

ライセンス: Link先を確認
Yilun Chen, Shuai Yang, Haifeng Huang, Tai Wang, Ruiyuan Lyu, Runsen Xu, Dahua Lin, Jiangmiao Pang, (参考訳) 3Dシーン理解に関する先行研究は、主に特定のタスクや必要なタスク固有の微調整のための特殊なモデルを開発した。 本研究では,3次元大規模マルチモーダルモデル(3D LMM)の可能性を探求するグラウンドド3D-LLMを提案する。 このモデルは、シーン参照トークンを特別な名詞句として3Dシーンを参照し、3Dデータとテキストデータをインターリーブするシーケンスのハンドリングを可能にする。 3D視覚タスクをタスク固有の命令テンプレートを使用して言語形式に変換する自然なアプローチを提供する。 その後の言語モデリングにおける参照トークンの使用を容易にするため,既存のオブジェクトラベルをブートストラップすることで,フレーズレベルでより詳細なシーンテキスト対応を提供する大規模基底言語データセットをキュレートした。 次に、このデータを効果的に活用するために、Contrastive LAnguage-Scene Pre-training (CLASP)を導入し、3Dビジョンを言語モデルに統合した。 包括的評価では,高密度キャプションや3次元QAといったオープンエンドタスクに加えて,オブジェクト検出や言語接地といったクローズエンドタスクについても検討した。 複数の3Dベンチマークによる実験は、Grounded 3D-LLMのリードパフォーマンスと幅広い適用性を明らかにしている。 コードとデータセットはプロジェクトのページでリリースされる。

Prior studies on 3D scene understanding have primarily developed specialized models for specific tasks or required task-specific fine-tuning. In this study, we propose Grounded 3D-LLM, which explores the potential of 3D large multi-modal models (3D LMMs) to consolidate various 3D vision tasks within a unified generative framework. The model uses scene referent tokens as special noun phrases to reference 3D scenes, enabling the handling of sequences that interleave 3D and textual data. It offers a natural approach for translating 3D vision tasks into language formats using task-specific instruction templates. To facilitate the use of referent tokens in subsequent language modeling, we have curated large-scale grounded language datasets that offer finer scene-text correspondence at the phrase level by bootstrapping existing object labels. Subsequently, we introduced Contrastive LAnguage-Scene Pre-training (CLASP) to effectively leverage this data, thereby integrating 3D vision with language models. Our comprehensive evaluation covers open-ended tasks like dense captioning and 3D QA, alongside close-ended tasks such as object detection and language grounding. Experiments across multiple 3D benchmarks reveal the leading performance and the broad applicability of Grounded 3D-LLM. Code and datasets will be released on the project page: https://groundedscenellm.github.io/grounded_3d-llm.github.io.
翻訳日:2024-05-20 17:42:52 公開日:2024-05-16
# ディープニューラルネットワークを用いた非線形システムの効率的なモデル予測制御

Efficient model predictive control for nonlinear systems modelled by deep neural networks ( http://arxiv.org/abs/2405.10372v1 )

ライセンス: Link先を確認
Jianglin Lan, (参考訳) 本稿では,入力および状態制約下での非線形性と不確かさをディープニューラルネットワーク(NN)によってモデル化した動的システムに対するモデル予測制御(MPC)を提案する。 NN出力はシステム状態と制御入力の高次複素非線形性を含むため、MPC問題は非線形であり、リアルタイム制御では解決が難しい。 本稿では、非線形MPCの正確な解を生成する混合整数計画法(MIP)と、一般に最適化解を与えるが計算的にはるかに安価である線形緩和法(LR)の2つの方法を提案する。 様々な大きさのReLU NNをモデルとした逆振子系の大規模数値シミュレーションを用いて,MIP法とLR法の性能を実証・比較する。

This paper presents a model predictive control (MPC) for dynamic systems whose nonlinearity and uncertainty are modelled by deep neural networks (NNs), under input and state constraints. Since the NN output contains a high-order complex nonlinearity of the system state and control input, the MPC problem is nonlinear and challenging to solve for real-time control. This paper proposes two types of methods for solving the MPC problem: the mixed integer programming (MIP) method which produces an exact solution to the nonlinear MPC, and linear relaxation (LR) methods which generally give suboptimal solutions but are much computationally cheaper. Extensive numerical simulation for an inverted pendulum system modelled by ReLU NNs of various sizes is used to demonstrate and compare performance of the MIP and LR methods.
翻訳日:2024-05-20 17:42:52 公開日:2024-05-16
# サイバーセキュリティへの学際的アプローチ:学際的思考の促進のためのフレームワーク

A Transdisciplinary Approach to Cybersecurity: A Framework for Encouraging Transdisciplinary Thinking ( http://arxiv.org/abs/2405.10373v1 )

ライセンス: Link先を確認
Emily Kesler, (参考訳) 古典的なサイバーセキュリティは、しばしばコンピュータ科学者や数学者で満たされた厳格な科学分野と見なされる。 しかし、技術開発と統合の急激なペース、新しい犯罪組織、新しい防衛戦術、そして人間の要素の理解により、サイバーセキュリティはコンピュータだけでなく、急速に普及しつつある。 サイバーセキュリティの専門家は、可能な限り最高の保護を提供するために、従来の懲戒的境界を越えてその視点を広げなければならない。 彼らは学際的なサイバーセキュリティの実践を始めなければならない。 本稿では,ビジネス倫理におけるStakeholder Theoryの影響を生かして,現代における新たな課題に取り組むための学際的思考を奨励し,専門家を支援する枠組みを提案する。 このフレームワークはシンプルなThink, Plan, Doアプローチを使って、専門家が学際的思考を開発できるようにする。 このフレームワークは、既存のサイバーセキュリティプラクティスや姿勢の評価ツールとして、学習を奨励し、新しいメソッドを作成するための他の規律と協業するための開発ツールとして、また、サイバーセキュリティプラクティスについての新しい考え方、知覚、実行を奨励するためのガイダンスツールとして使用されることを意図している。 それぞれのユースケースについて、ユースケースを例に示して、フレームワークの使用方法を示す。 本論文の最終的な目標は,フレームワークではなく,学際的思考である。 ここで提示されたツールを使用して、独自の学際的思考を開発することで、サイバーセキュリティの専門家は、サイバーセキュリティの独特で複雑な課題に直面する準備が整うことができる。

Classical cybersecurity is often perceived as a rigid science discipline filled with computer scientists and mathematicians. However, due to the rapid pace of technology development and integration, new criminal enterprises, new defense tactics, and the understanding of the human element, cybersecurity is quickly beginning to encompass more than just computers. Cybersecurity experts must broaden their perspectives beyond traditional disciplinary boundaries to provide the best protection possible. They must start to practice transdisciplinary cybersecurity. Taking influence from the Stakeholder Theory in business ethics, this paper presents a framework to encourage transdisciplinary thinking and assist experts in tackling the new challenges of the modern day. The framework uses the simple Think, Plan, Do approach to enable experts to develop their transdisciplinary thinking. The framework is intended to be used as an evaluation tool for existing cybersecurity practices or postures, as a development tool to engage with other disciplines to foster learning and create new methods, and as a guidance tool to encourage new ways of thinking about, perceiving, and executing cybersecurity practices. For each of those intended uses, a use case is presented as an example to showcase how the framework might be used. The ultimate goal of this paper is not the framework but transdisciplinary thinking. By using the tool presented here and developing their own transdisciplinary thinking, cybersecurity experts can be better prepared to face cybersecurity's unique and complex challenges.
翻訳日:2024-05-20 17:42:52 公開日:2024-05-16
# テネシー州アシュランド市における洪水予測のためのGRUニューラルネットワークの実装

Implementing a GRU Neural Network for Flood Prediction in Ashland City, Tennessee ( http://arxiv.org/abs/2405.10375v1 )

ライセンス: Link先を確認
George K. Fordjour, Alfred J. Kalyanapu, (参考訳) テネシー州アシュランド市はアンダーカンバーランド・シカモア川流域にあり、上流の水位の増加により洪水の影響を受けやすい。 本研究は, 流域内のUSGS計10ヶ所から30分間隔で水位データを利用した, 都市における強靭な洪水予測モデルの構築を目的とした。 GRU(Gated Recurrent Unit)ネットワークは、シーケンシャルな時系列データを効率的に処理できることで知られている。 モデルは1年間のデータセット(2021年1月-2022年1月)を用いてトレーニング,検証,試験を行い,Nash-Sutcliffe efficiency (NSE), Root Mean Squared Error (RMSE), Percent Bias (PBIAS), Mean Absolute Error (MAE), Coefficient of determined (R^2)などの統計指標を用いて評価した。 結果は、データの98.2%のばらつきをモデルで説明し、高いレベルの精度を示した。 予測値と観測値の差は小さいものの,GRUモデルはアシュランド市における洪水予報に有効なツールであり,アシュランド市における災害予知と対応努力の促進に有効である可能性が示唆された。

Ashland City, Tennessee, located within the Lower Cumberland Sycamore watershed, is highly susceptible to flooding due to increased upstream water levels. This study aimed to develop a robust flood prediction model for the city, utilizing water level data at 30-minute intervals from ten USGS gauge stations within the watershed. A Gated Recurrent Unit (GRU) network, known for its ability to effectively process sequential time-series data, was used. The model was trained, validated, and tested using a year-long dataset (January 2021-January 2022), and its performance was evaluated using statistical metrics including Nash-Sutcliffe Efficiency (NSE), Root Mean Squared Error (RMSE), Percent Bias (PBIAS), Mean Absolute Error (MAE), and Coefficient of Determination (R^2). The results demonstrated a high level of accuracy, with the model explaining 98.2% of the variance in the data. Despite minor discrepancies between predicted and observed values, the GRU model proved to be an effective tool for flood prediction in Ashland City, with potential applications for enhancing disaster preparedness and response efforts in Ashland City.
翻訳日:2024-05-20 17:42:52 公開日:2024-05-16
# ディーリング・ダウト:フェデレートラーニング・サーベイと分類学によるグラディエント・インバージョン・アタックの脅威モデル

Dealing Doubt: Unveiling Threat Models in Gradient Inversion Attacks under Federated Learning, A Survey and Taxonomy ( http://arxiv.org/abs/2405.10376v1 )

ライセンス: Link先を確認
Yichuan Shi, Olivera Kotevska, Viktor Reshniak, Abhishek Singh, Ramesh Raskar, (参考訳) フェデレートラーニング(FL)は、機械学習トレーニングを分散したプライバシ保護のための主要なパラダイムとして登場した。 しかし,近年のGIA(グラデーション・インバージョン・アタック)の研究では,FLの勾配更新がプライベートトレーニングサンプルに関する情報を漏洩させることが示されている。 GIAに関する既存の調査は、誠実だが正確なサーバー脅威モデルに焦点を当てているが、悪意のあるサーバやクライアントのより現実的ではるかにプライバシーを侵害するケースの下で、攻撃を分類する研究が相次いだ。 本稿では、FL脅威モデル、特に悪意のあるサーバやクライアントに焦点を当てたGIAに関する調査と新しい分類法を提案する。 まず、GIAを正式に定義し、従来の攻撃と悪意のある攻撃を対比する。 次に、既存の誠実だが正確な攻撃戦略、対応する防御策、評価指標を要約する。 批判的に言えば、悪意のあるサーバやクライアントによる攻撃を調べて、リコンストラクションメソッド、ターゲットモデルアーキテクチャ、ターゲットデータ、評価メトリクスに特化して、既存のFLディフェンスを破る方法を強調します。 最後に,オープンな問題と今後の研究方向性について論じる。

Federated Learning (FL) has emerged as a leading paradigm for decentralized, privacy preserving machine learning training. However, recent research on gradient inversion attacks (GIAs) have shown that gradient updates in FL can leak information on private training samples. While existing surveys on GIAs have focused on the honest-but-curious server threat model, there is a dearth of research categorizing attacks under the realistic and far more privacy-infringing cases of malicious servers and clients. In this paper, we present a survey and novel taxonomy of GIAs that emphasize FL threat models, particularly that of malicious servers and clients. We first formally define GIAs and contrast conventional attacks with the malicious attacker. We then summarize existing honest-but-curious attack strategies, corresponding defenses, and evaluation metrics. Critically, we dive into attacks with malicious servers and clients to highlight how they break existing FL defenses, focusing specifically on reconstruction methods, target model architectures, target data, and evaluation metrics. Lastly, we discuss open problems and future research directions.
翻訳日:2024-05-20 17:42:52 公開日:2024-05-16
# 高精度リンク推定によるスマートルーティング:信頼性の高い無線ネットワークのためのDSEEベースのAnypathルーティング

Smart Routing with Precise Link Estimation: DSEE-Based Anypath Routing for Reliable Wireless Networking ( http://arxiv.org/abs/2405.10377v1 )

ライセンス: Link先を確認
Narjes Nourzad, Bhaskar Krishnamachari, (参考訳) マルチホップ無線メッシュネットワークのような動的でリソースに制約のある環境では、従来のルーティングプロトコルは予測不可能なリンク条件で有効でないことを証明した所定の経路に依存するため、しばしばフェールする。 最短のAnypathルーティングは、リアルタイムリンク条件に基づいてルーティング決定を適用することでソリューションを提供する。 しかし、そのようなルーティングの有効性は、利用可能なリンクの品質と信頼性に基本的に依存しており、これらの変数を確実に予測することは困難である。 本稿では,多腕バンディットアルゴリズムであるDSEE(Deterministic Sequencing of Exploration and Exploitation)を用いて,リンク配信確率の正確かつリアルタイムな推定の必要性に対処する手法を提案する。 このアプローチは、変動するリンク条件に直面して、Shortest Anypathルーティングの信頼性とレジリエンスを高める。 DSEEとAnypathルーティングを結合することにより、このアルゴリズムは継続的に学習し、正確な配送確率推定を保証し、証明可能な近対数後悔境界を維持しながらパケットを効率的にルーティングする最も適切な方法を選択する。 また,提案手法は従来提案されていたトンプソンサンプリングに基づくオポチュニティ・ルーティング(TSOR)よりも,ネットワークサイズに対する後悔の度合いがよいことを理論的に証明する。

In dynamic and resource-constrained environments, such as multi-hop wireless mesh networks, traditional routing protocols often falter by relying on predetermined paths that prove ineffective in unpredictable link conditions. Shortest Anypath routing offers a solution by adapting routing decisions based on real-time link conditions. However, the effectiveness of such routing is fundamentally dependent on the quality and reliability of the available links, and predicting these variables with certainty is challenging. This paper introduces a novel approach that leverages the Deterministic Sequencing of Exploration and Exploitation (DSEE), a multi-armed bandit algorithm, to address the need for accurate and real-time estimation of link delivery probabilities. This approach augments the reliability and resilience of the Shortest Anypath routing in the face of fluctuating link conditions. By coupling DSEE with Anypath routing, this algorithm continuously learns and ensures accurate delivery probability estimation and selects the most suitable way to efficiently route packets while maintaining a provable near-logarithmic regret bound. We also theoretically prove that our proposed scheme offers better regret scaling with respect to the network size than the previously proposed Thompson Sampling-based Opportunistic Routing (TSOR).
翻訳日:2024-05-20 17:42:52 公開日:2024-05-16
# Pairwise Fair $k$-Median Clusteringのための多項式時間近似

A Polynomial-Time Approximation for Pairwise Fair $k$-Median Clustering ( http://arxiv.org/abs/2405.10378v1 )

ライセンス: Link先を確認
Sayan Bandyapadhyay, Eden Chlamtáč, Yury Makarychev, Ali Vakilian, (参考訳) この研究では、$\ell \ge 2$ group を用いてペアワイズフェアクラスタリングを研究し、すべてのクラスタに対して $C$ とすべてのグループ $i \in [\ell]$ に対して、$C$ from group $i$ の点数は、任意の整数 $t$ に対して $C$ の点数の最大$t$ 倍でなければならない。 我々の知る限り、双基準近似と指数時間アルゴリズムだけが、$\ell > 2$のときの公正クラスタリング問題に関する以前の研究からこの問題に追従する。 我々の研究では、$\ell > 2$ の場合に焦点を当て、最初の多項式時間 $(t^{\ell}\cdot \ell\cdot k)^{O(\ell)}$-approximation for this problem with $k$-median cost that not violation the fairness constraints。 近似係数が$o(\log k)$の多項式時間アルゴリズムが知られていないような、一般的な均一容量の$k$-medianに匹敵する難易度が$\ell=2$であっても、アルゴリズムの結果を補う。

In this work, we study pairwise fair clustering with $\ell \ge 2$ groups, where for every cluster $C$ and every group $i \in [\ell]$, the number of points in $C$ from group $i$ must be at most $t$ times the number of points in $C$ from any other group $j \in [\ell]$, for a given integer $t$. To the best of our knowledge, only bi-criteria approximation and exponential-time algorithms follow for this problem from the prior work on fair clustering problems when $\ell > 2$. In our work, focusing on the $\ell > 2$ case, we design the first polynomial-time $(t^{\ell}\cdot \ell\cdot k)^{O(\ell)}$-approximation for this problem with $k$-median cost that does not violate the fairness constraints. We complement our algorithmic result by providing hardness of approximation results, which show that our problem even when $\ell=2$ is almost as hard as the popular uniform capacitated $k$-median, for which no polynomial-time algorithm with an approximation factor of $o(\log k)$ is known.
翻訳日:2024-05-20 17:42:52 公開日:2024-05-16
# AmazUtah_NLP at SemEval-2024 Task 9: A MultiChoice Question Answering System for Commonsense Defying Reasoning

AmazUtah_NLP at SemEval-2024 Task 9: A MultiChoice Question Answering System for Commonsense Defying Reasoning ( http://arxiv.org/abs/2405.10385v1 )

ライセンス: Link先を確認
Mina Ghashami, Soumya Smruti Mishra, (参考訳) SemEval 2024 BRAINTEASER タスクは、自然言語処理(NLP)における先駆的なベンチャーであり、従来の言語分析では見落とされがちな認知的推論の次元である側方的思考に焦点を当てている。 この課題は、Sentence PuzzleとWord Puzzleのサブタスクで構成され、分散思考のための言語モデルの能力をテストすることを目的としている。 本稿では,BRAINTEASERタスクへのアプローチを提案する。 我々は、最先端の事前学習モデルを複数の選択アーキテクチャで活用し、SentenceとWord Puzzleのデータセットでトレーニングデータを多様化することで、総合的な戦略を採用する。 さらに改善するために、合成ユーモア/ジョークデータセットとRiddleSenseデータセットを用いてモデルを微調整し、モデルの側方思考能力を増強した。 その結果,Sentence Puzzle subtaskでは92.5\%,Word Puzzle subtaskでは80.2\%の精度が得られた。

The SemEval 2024 BRAINTEASER task represents a pioneering venture in Natural Language Processing (NLP) by focusing on lateral thinking, a dimension of cognitive reasoning that is often overlooked in traditional linguistic analyses. This challenge comprises of Sentence Puzzle and Word Puzzle subtasks and aims to test language models' capacity for divergent thinking. In this paper, we present our approach to the BRAINTEASER task. We employ a holistic strategy by leveraging cutting-edge pre-trained models in multiple choice architecture, and diversify the training data with Sentence and Word Puzzle datasets. To gain further improvement, we fine-tuned the model with synthetic humor/jokes dataset and the RiddleSense dataset which helped augmenting the model's lateral thinking abilities. Empirical results show that our approach achieve 92.5\% accuracy in Sentence Puzzle subtask and 80.2\% accuracy in Word Puzzle subtask.
翻訳日:2024-05-20 17:42:52 公開日:2024-05-16
# 直流ブロッカ配置のための物理インフォームド不均一グラフニューラルネットワーク

Physics-Informed Heterogeneous Graph Neural Networks for DC Blocker Placement ( http://arxiv.org/abs/2405.10389v1 )

ライセンス: Link先を確認
Hongwei Jin, Prasanna Balaprakash, Allen Zou, Pieter Ghysels, Aditi S. Krishnapriyan, Adam Mate, Arthur Barnes, Russell Bent, (参考訳) バルクエネルギーシステムの信頼性の高い運用に対する磁気障害(GMD)の脅威は、その影響を緩和するための効果的な戦略の開発を刺激している。 そのようなアプローチの1つは、電磁誘導電流(GIC)の経路を遮断し、その影響を制限する変圧器の中立遮断装置を配置することである。 しかし、これらの装置の高コストと、GMDイベント中に高いGICを経験するトランスフォーマーの広さは、高い計算コストを伴う疎配置戦略を要求する。 この課題に対処するために、我々は、グラフベースのdc-ブロッカ配置問題を解決する物理インフォームド・ヘテロジニアスグラフニューラルネットワーク(PIHGNN)を開発した。 我々のアプローチは、異種グラフニューラルネットワーク(HGNN)と物理インフォームドニューラルネットワーク(PINN)を組み合わせて、ac/dcネットワークの様々な種類のノードとエッジを捕捉し、電力グリッドの物理法則を組み込む。 我々は、代理電力フローモデルを用いてPIHGNNモデルを訓練し、ケーススタディを用いて検証する。 その結果,PIHGNN は GIC dc 電流遮断器の配置を効果的かつ効率的に支援し,社会的要求を満たすための電力供給の継続を保証できることがわかった。 我々のアプローチは、GMDがもたらす脅威に耐えうる信頼性が高く弾力性のある電力網の開発に寄与する可能性がある。

The threat of geomagnetic disturbances (GMDs) to the reliable operation of the bulk energy system has spurred the development of effective strategies for mitigating their impacts. One such approach involves placing transformer neutral blocking devices, which interrupt the path of geomagnetically induced currents (GICs) to limit their impact. The high cost of these devices and the sparsity of transformers that experience high GICs during GMD events, however, calls for a sparse placement strategy that involves high computational cost. To address this challenge, we developed a physics-informed heterogeneous graph neural network (PIHGNN) for solving the graph-based dc-blocker placement problem. Our approach combines a heterogeneous graph neural network (HGNN) with a physics-informed neural network (PINN) to capture the diverse types of nodes and edges in ac/dc networks and incorporates the physical laws of the power grid. We train the PIHGNN model using a surrogate power flow model and validate it using case studies. Results demonstrate that PIHGNN can effectively and efficiently support the deployment of GIC dc-current blockers, ensuring the continued supply of electricity to meet societal demands. Our approach has the potential to contribute to the development of more reliable and resilient power grids capable of withstanding the growing threat that GMDs pose.
翻訳日:2024-05-20 17:42:52 公開日:2024-05-16
# エンド・ツー・エンドの視覚ベースクアドロレータ障害物回避のための視覚変換器

Vision Transformers for End-to-End Vision-Based Quadrotor Obstacle Avoidance ( http://arxiv.org/abs/2405.10391v1 )

ライセンス: Link先を確認
Anish Bhattacharya, Nishanth Rao, Dhruv Parikh, Pratik Kunapuli, Nikolai Matni, Vijay Kumar, (参考訳) 本研究では,高密度で散らばった環境下での高速四重項障害物回避のための注目に基づくエンドツーエンドアプローチの有効性を,最先端アーキテクチャと比較した。 しかし、飛行速度が向上するにつれて、独立したマッピング、計画、制御モジュールによる従来の視覚ベースのナビゲーションは、センサーノイズの増加、複雑なエラー、処理遅延の増加などによって崩壊する。 このように、学習に基づくエンドツーエンドの計画と制御ネットワークは、散らかった環境を通じてこれらの高速ロボットのオンライン制御に有効であることが示されている。 ハードウェアだけでなく、フォトリアリスティックで高物理忠実度シミュレータでも、深度に基づくエンドツーエンド制御のための視覚変換モデルに対して、畳み込み、U-Net、繰り返しアーキテクチャを訓練し、比較し、注意ベースのモデルの方が、より低速でよりスムーズなコマンドを提供するのに対して、四重項速度の増加よりも効果的であることを観察する。 我々の知る限りでは、これは視覚変換器をエンド・ツー・エンドの視覚ベースの四元数制御に活用する最初の試みである。

We demonstrate the capabilities of an attention-based end-to-end approach for high-speed quadrotor obstacle avoidance in dense, cluttered environments, with comparison to various state-of-the-art architectures. Quadrotor unmanned aerial vehicles (UAVs) have tremendous maneuverability when flown fast; however, as flight speed increases, traditional vision-based navigation via independent mapping, planning, and control modules breaks down due to increased sensor noise, compounding errors, and increased processing latency. Thus, learning-based, end-to-end planning and control networks have shown to be effective for online control of these fast robots through cluttered environments. We train and compare convolutional, U-Net, and recurrent architectures against vision transformer models for depth-based end-to-end control, in a photorealistic, high-physics-fidelity simulator as well as in hardware, and observe that the attention-based models are more effective as quadrotor speeds increase, while recurrent models with many layers provide smoother commands at lower speeds. To the best of our knowledge, this is the first work to utilize vision transformers for end-to-end vision-based quadrotor control.
翻訳日:2024-05-20 17:42:52 公開日:2024-05-16
# Fokker-Planck-Landau方程式の輸送に基づく粒子法

Transport based particle methods for the Fokker-Planck-Landau equation ( http://arxiv.org/abs/2405.10392v1 )

ライセンス: Link先を確認
Vasily Ilin, Jingwei Hu, Zhenfu Wang, (参考訳) 本稿では,Fokker-Planck方程式のスコアベーストランスポートモデリング(SBTM)法に着想を得たLandau方程式の数値解法を提案する。 この方法は、質量、運動量、エネルギーの保存、推定エントロピーの崩壊など、ランダウ方程式のいくつかの重要な物理的性質を保存することができる。 近似解の対数勾配の整合性は、ランダウ方程式の真の解とマクスウェル分子との整合性を取り戻すのに十分である。 提案手法を従来の粒子法やブロブ法と比較することを中心に,低・中等度に高次元の数値実験を行った。

We propose a particle method for numerically solving the Landau equation, inspired by the score-based transport modeling (SBTM) method for the Fokker-Planck equation. This method can preserve some important physical properties of the Landau equation, such as the conservation of mass, momentum, and energy, and decay of estimated entropy. We prove that matching the gradient of the logarithm of the approximate solution is enough to recover the true solution to the Landau equation with Maxwellian molecules. Several numerical experiments in low and moderately high dimensions are performed, with particular emphasis on comparing the proposed method with the traditional particle or blob method.
翻訳日:2024-05-20 17:33:08 公開日:2024-05-16
# ドローン型セット:ドローン検出と追跡のためのドローン型検出ベンチマーク

Drone-type-Set: Drone types detection benchmark for drone detection and tracking ( http://arxiv.org/abs/2405.10398v1 )

ライセンス: Link先を確認
Kholoud AlDosari, AIbtisam Osman, Omar Elharrouss, Somaya AlMaadeed, Mohamed Zied Chaari, (参考訳) 無人航空機(UAV)市場は著しく成長しており、低コストでドローンを利用できることを考えると、麻薬密売、スパイ活動、テロ攻撃などの違法な目的のために、ドローンを誤用する可能性が高まっている。 そのため、生命、施設、安全を脅かす将来の攻撃を防ぐために、無許可のドローンを検出し、追跡する必要がある。 ドローン検出は異なるセンサーを使用して行うことができ、一方、画像に基づく検出は人工知能技術の発展によるその1つである。 しかしながら、無人ドローンの型を知ることは、ドローンタイプのデータセットが欠如していることによる課題の1つだ。 そこで本論文では,提案したデータセット上でのさまざまなドローンのデータセットと,対象検出モデルの比較を行うとともに,その対象検出モデルと,その異なるバージョンであるv3,v4,v5と,Derctionronv2との比較を行う。 異なるモデルの実験結果と各手法の記載が提供される。 収集されたデータセットはhttps://drive.google.com/drive/folders/1EPOpqlF4vG7hp4MYnfAecVOsdQ2JwBEd? usp=share_link

The Unmanned Aerial Vehicles (UAVs) market has been significantly growing and Considering the availability of drones at low-cost prices the possibility of misusing them, for illegal purposes such as drug trafficking, spying, and terrorist attacks posing high risks to national security, is rising. Therefore, detecting and tracking unauthorized drones to prevent future attacks that threaten lives, facilities, and security, become a necessity. Drone detection can be performed using different sensors, while image-based detection is one of them due to the development of artificial intelligence techniques. However, knowing unauthorized drone types is one of the challenges due to the lack of drone types datasets. For that, in this paper, we provide a dataset of various drones as well as a comparison of recognized object detection models on the proposed dataset including YOLO algorithms with their different versions, like, v3, v4, and v5 along with the Detectronv2. The experimental results of different models are provided along with a description of each method. The collected dataset can be found in https://drive.google.com/drive/folders/1EPOpqlF4vG7hp4MYnfAecVOsdQ2JwBEd?usp=share_link
翻訳日:2024-05-20 17:33:08 公開日:2024-05-16
# オンライン連続学習についての一考察

A note on continuous-time online learning ( http://arxiv.org/abs/2405.10399v1 )

ライセンス: Link先を確認
Lexing Ying, (参考訳) オンライン学習では、データは逐次順序で提供され、学習者の目標は、全体的な後悔を最小限に抑えるためにオンライン決定を行うことである。 このノートは、オンライン線形最適化、逆線形バンドイット、逆線形バンドイットといった、オンライン学習問題に対する連続時間モデルとアルゴリズムに関するものである。 各問題に対して、離散時間アルゴリズムを連続時間設定に拡張し、最適後悔境界の簡潔な証明を与える。

In online learning, the data is provided in a sequential order, and the goal of the learner is to make online decisions to minimize overall regrets. This note is concerned with continuous-time models and algorithms for several online learning problems: online linear optimization, adversarial bandit, and adversarial linear bandit. For each problem, we extend the discrete-time algorithm to the continuous-time setting and provide a concise proof of the optimal regret bound.
翻訳日:2024-05-20 17:33:08 公開日:2024-05-16
# 光の多光子付加コヒーレント状態の実験的調製

Experimental preparation of multiphoton-added coherent states of light ( http://arxiv.org/abs/2405.10403v1 )

ライセンス: Link先を確認
Jiří Fadrný, Michal Neset, Martin Bielak, Miroslav Ježek, Jan Bílek, Jaromír Fiurášek, (参考訳) 光子の条件付き付加は、光量子状態工学にとって重要なツールであり、先進的な量子フォトニクスデバイスの基本的な構成要素を形成する。 本稿では,いくつかの光子の条件付加の実験的実施について報告する。 各種振幅のコヒーレント状態への1, 2, 3光子の付加を実証する。 結果として生じる非古典的な光子付加状態は、時間領域ホモダイントモグラフィーによって完全に特徴づけられ、準備された状態の非古典性は、ウィグナー関数の負性によって観察される。 実験により、光子の条件付き付加は、十分に大きな振幅を持つコヒーレント状態の近似ノイズレス量子増幅を実現することを実証した。 また、生成した多光子付加コヒーレント状態の恒星ランクの証明についても検討し、その準備に必要な非ガウス的資源を定量化する。 本研究は,光子加算と減算を組み合わせた複雑な光量子演算の実験的実現に向けての道を開くものである。

Conditional addition of photons represents a crucial tool for optical quantum state engineering and it forms a fundamental building block of advanced quantum photonic devices. Here we report on experimental implementation of the conditional addition of several photons. We demonstrate the addition of one, two, and three photons to input coherent states with various amplitudes. The resulting highly nonclassical photon-added states are completely characterized with time-domain homodyne tomography, and the nonclassicality of the prepared states is witnessed by the negativity of their Wigner functions. We experimentally demonstrate that the conditional addition of photons realizes approximate noiseless quantum amplification of coherent states with sufficiently large amplitude. We also investigate certification of the stellar rank of the generated multiphoton-added coherent states, which quantifies the non-Gaussian resources required for their preparation. Our results pave the way towards the experimental realization of complex optical quantum operations based on combination of multiple photon additions and subtractions.
翻訳日:2024-05-20 17:33:08 公開日:2024-05-16
# 粒子周りの真空エネルギー

Vacuum energy around particles ( http://arxiv.org/abs/2405.10409v1 )

ライセンス: Link先を確認
Danilo T. Alves, (参考訳) 本研究では, 量子真空の励起により生成する粒子の周囲に正の真空エネルギーの雲を形成することを検討した。 自由空間に1つのミラーしか移動していない場合、真空状態では、ミラーからフィールドに移動するすべてのエネルギーが実粒子に変換されるが、一方、第1のミラーで空洞を形成する第2の静的ミラーを考えると、第1のミラーの同じ動きが実際の粒子に変換されるエネルギーが少なくなり、その差はこれらの粒子の周りの正の真空エネルギーに変換される。

We investigate the formation of a cloud of positive vacuum energy around particles created by the excitation of the quantum vacuum in a dynamical cavity. We show that if when one has only one mirror moving in a free space, in the vacuum state, all the energy transferred from the mirror to the field is converted into real particles, on the other hand, when considering a second and static mirror forming a cavity with the first, the same movement of the first mirror can lead to less energy being converted into real particles, with the difference being converted into positive vacuum energy around these particles.
翻訳日:2024-05-20 17:33:08 公開日:2024-05-16
# 高速コミッタマシン:カーネルによる解釈可能な予測

The fast committor machine: Interpretable prediction with kernels ( http://arxiv.org/abs/2405.10410v1 )

ライセンス: Link先を確認
D. Aristoff, M. Johnson, G. Simpson, R. J. Webber, (参考訳) 確率力学の研究において、コミッタ関数は、初期設定から始まるプロセスが、$B$をセットする前に$A$に達する確率を記述する。 本稿では, 高速コミッタマシン (FCM) と呼ばれる, 高速かつ解釈可能なコミッタ近似手法を提案する。 FCMはシミュレーションされた軌道データに基づいており、このデータを使ってカーネルモデルを訓練する。 FCMは$A$から$B$遷移を最適に記述した低次元部分空間を特定し、その部分空間はカーネルモデルで強調される。 FCMはランダム化された数値線形代数を用いて、データポイント数で線形にスケールするランタイムでモデルを訓練する。 本論文は, アラニンジペプチドミニタンパク質を含むFCMの例に適用する: これらの実験では, FCMは一般に正確であり, 同様のパラメータを持つニューラルネットワークよりも高速に訓練する。

In the study of stochastic dynamics, the committor function describes the probability that a process starting from an initial configuration $x$ will reach set $A$ before set $B$. This paper introduces a fast and interpretable method for approximating the committor, called the "fast committor machine" (FCM). The FCM is based on simulated trajectory data, and it uses this data to train a kernel model. The FCM identifies low-dimensional subspaces that optimally describe the $A$ to $B$ transitions, and the subspaces are emphasized in the kernel model. The FCM uses randomized numerical linear algebra to train the model with runtime that scales linearly in the number of data points. This paper applies the FCM to example systems including the alanine dipeptide miniprotein: in these experiments, the FCM is generally more accurate and trains more quickly than a neural network with a similar number of parameters.
翻訳日:2024-05-20 17:33:08 公開日:2024-05-16
# 大規模確率計画における妥協決定の信頼性理論

A Reliability Theory of Compromise Decisions for Large-Scale Stochastic Programs ( http://arxiv.org/abs/2405.10414v1 )

ライセンス: Link先を確認
Shuotao Diao, Suvrajeet Sen, (参考訳) 確率的プログラミングモデルは、可能なすべてのシナリオを列挙することが不可能な、非常に大規模な最適化問題につながる可能性がある。 そのような場合、サンプリングベースのソリューション手法を採用し、その結果の判断の信頼性を疑う可能性がある。 このような場合、分散還元を促進する手法を採用することが望ましい。 そのようなアプローチの1つは、ソリューション手順の複数のレプリケーションを必要とする、"Compromise decision"と呼ばれるフレームワークの下にある。 本稿では,「妥協決定」プロセスによる確率的プログラミングソリューションの信頼性について検討する。 このプロセスは、おそらく並列に行われるであろう複製全体にわたる目的関数近似の集約を最小化するのが特徴である。 並列処理後の問題を「妥協決定」問題と呼ぶ。 真の最適決定の集合からサンプルインスタンスの「悲観的距離」の期待と分散を推定することにより、妥協決定の信頼性を定量化する。 そのような悲観的距離は、「真の」最適解集合からサンプリングされたインスタンスの解の最も大きな可能な距離の見積もりとして定義される。 Rademacher平均のインスタンスは、妥協決定のサンプルの複雑さを束縛するために使用される。

Stochastic programming models can lead to very large-scale optimization problems for which it may be impossible to enumerate all possible scenarios. In such cases, one adopts a sampling-based solution methodology in which case the reliability of the resulting decisions may be suspect. For such instances, it is advisable to adopt methodologies that promote variance reduction. One such approach goes under a framework known as "compromise decision", which requires multiple replications of the solution procedure. This paper studies the reliability of stochastic programming solutions resulting from the "compromise decision" process. This process is characterized by minimizing an aggregation of objective function approximations across replications, presumably conducted in parallel. We refer to the post-parallel-processing problem as the problem of "compromise decision". We quantify the reliability of compromise decisions by estimating the expectation and variance of the "pessimistic distance" of sampled instances from the set of true optimal decisions. Such pessimistic distance is defined as an estimate of the largest possible distance of the solution of the sampled instance from the "true" optimal solution set. The Rademacher average of instances is used to bound the sample complexity of the compromise decision.
翻訳日:2024-05-20 17:33:08 公開日:2024-05-16
# 準最適手法を用いた格子ゲージ理論のシミュレーションにおける指数的改善

Exponential improvements in the simulation of lattice gauge theories using near-optimal techniques ( http://arxiv.org/abs/2405.10416v1 )

ライセンス: Link先を確認
Mason Rhodes, Michael Kreshchuk, Shivesh Pathak, (参考訳) 多数の強く相互作用する粒子の量子系のシミュレーションは、凝縮物質物理学や量子化学のような非相対論的応用と格子ゲージ理論シミュレーションのような相対論的応用の両方を含む古典的シミュレーションにおいて最も困難で計算的に要求されるタスクの1つとして持続する。 フォールトトレラントな量子コンピュータを構築する大きな動機の1つは、そのようなデバイス上の多体システムの効率的なシミュレーションである。 格子ゲージ理論のシミュレーションは、非相対論的システムの量子シミュレーションにおいて顕著な発展を遂げてきたが、古典的なシミュレーションでは同様の困難さとは対照的に、最先端のトロッター化シミュレーションでは非相対論的シミュレーションよりも多くのリソースを必要とする。 本研究では,コグト・ススキンドの定式化におけるアベリアおよび非アベリア格子ゲージ理論のシミュレーションコストを,システムサイズ,進化時間,誤差のほぼ最適スケーリングによるシミュレーション手法を用いて詳細に解析する。 シミュレーションアルゴリズム全体に対して、明示的な回路構成とTゲート数およびキュービット数を提供する。 この調査は、最初のもので、非アベリアシミュレーションの時空体積におけるトロッター化よりも25桁も大きく改善されている。 このような劇的な改善は、既存のアプローチの指数的スケーリングとは対照的に、色数で多項式スケーリングを行うアルゴリズムから大きく導かれる。 我々の研究は、高度なアルゴリズム技術を用いることで、基本的な相互作用の初歩的なシミュレーションコストが劇的に削減され、化学と凝縮物質物理学の第一原理の量子シミュレーションに必要なリソースが段階的に削減されることを実証している。

Simulation of quantum systems of a large number of strongly interacting particles persists as one of the most challenging, and computationally demanding, tasks in classical simulation, involving both non-relativistic applications like condensed matter physics and quantum chemistry, as well as relativistic applications like lattice gauge theory simulation. One of the major motivations for building a fault-tolerant quantum computer is the efficient simulation of many-body systems on such a device. While significant developments have been made in the quantum simulation of non-relativistic systems, the simulation of lattice gauge theories has lagged behind, with state-of-the-art Trotterized simulations requiring many orders of magnitude more resources than non-relativistic simulation, in stark contrast to the similar difficulty of these tasks in classical simulation. In this work, we conduct an in-depth analysis of the cost of simulating Abelian and non-Abelian lattice gauge theories in the Kogut-Susskind formulation using simulation methods with near-optimal scaling in system size, evolution time, and error. We provide explicit circuit constructions, as well as T-gate counts and qubit counts for the entire simulation algorithm. This investigation, the first of its kind, leads to up to 25 orders of magnitude improvement over Trotterization in spacetime volume for non-Abelian simulations. Such a dramatic improvement results largely from our algorithm having polynomial scaling with the number of colors, as opposed to exponential scaling in existing approaches. Our work demonstrates that the use of advanced algorithmic techniques leads to dramatic reductions in the cost of ab initio simulations of fundamental interactions, bringing it in step with resources required for first principles quantum simulation of chemistry and condensed matter physics.
翻訳日:2024-05-20 17:33:08 公開日:2024-05-16
# 変分オートエンコーダのポス符号化による多様性を考慮した手話生成

Diversity-Aware Sign Language Production through a Pose Encoding Variational Autoencoder ( http://arxiv.org/abs/2405.10423v1 )

ライセンス: Link先を確認
Mohamed Ilyes Lakhal, Richard Bowden, (参考訳) 本稿では,シグナのイメージ(あるいはシーケンス)を付与し,同じポーズの異なる特徴を持つ別のイメージを生成したいという,多様性を意識した手話生成の問題に対処する(\textit{e g } 性別,肌色)。 この目的のために、変動推論パラダイムを拡張して、属性のポーズと条件付けに関する情報を含める。 この定式化により合成画像の品質が向上する。 ジェネレータ・フレームワークは,入力ポーズの空間的保存を確保するためにUNetアーキテクチャとして提示される。 別個のデコーダで各本体部を生成する。 このアーキテクチャにより、ジェネレータは全体的な結果をより良く提供できる。 SMILE IIデータセットを用いた実験により,提案モデルは,多様性,画素ごとの画質,ポーズ推定など,最先端のベースラインよりも定量的に優れていることが示された。 定量的にシグナーの非手動的特徴を忠実に再現する。

This paper addresses the problem of diversity-aware sign language production, where we want to give an image (or sequence) of a signer and produce another image with the same pose but different attributes (\textit{e.g.} gender, skin color). To this end, we extend the variational inference paradigm to include information about the pose and the conditioning of the attributes. This formulation improves the quality of the synthesised images. The generator framework is presented as a UNet architecture to ensure spatial preservation of the input pose, and we include the visual features from the variational inference to maintain control over appearance and style. We generate each body part with a separate decoder. This architecture allows the generator to deliver better overall results. Experiments on the SMILE II dataset show that the proposed model performs quantitatively better than state-of-the-art baselines regarding diversity, per-pixel image quality, and pose estimation. Quantitatively, it faithfully reproduces non-manual features for signers.
翻訳日:2024-05-20 17:33:08 公開日:2024-05-16
# トランスファーアンラーニングのためのデータ選択

Data Selection for Transfer Unlearning ( http://arxiv.org/abs/2405.10425v1 )

ライセンス: Link先を確認
Nazanin Mohammadi Sepahvand, Vincent Dumoulin, Eleni Triantafillou, Gintare Karolina Dziugaite, (参考訳) ディープラーニングモデルがより大きくなり、データの利用に関する倫理的、法的、技術的懸念が高まっている。 これらの問題は、トレーニングされたモデルからトレーニングデータのサブセット"影響"を取り除くという、機械学習の非学習への注意を高めた。 本研究では、プライバシアプリケーションに対処せず、データ所有者がトレーニング目的でデータの使用許可を取り下げるシナリオをターゲットにした、非学習の緩やかな定義を提唱する。 この文脈では、事前訓練されたモデルが、将来未学習となる可能性のある「非静的」データを含むターゲットデータセットに転送されるという、emph{transfer unlearning}の重要な問題を考える。 本稿では、補助的な"静的"データセットから関連するサンプルを選択するメカニズムと、"静的"ターゲットデータではなく、選択したデータに微調整を施す手法を提案する。 我々はまた、最近緩やかなアンラーニングの定義を問題設定に適用し、我々のアプローチが、それに従って正確なトランスファーアンラーナーであると同時に、非常に効率的な(調整された)ことを示しています。 提案手法は,いくつかのデータセット,特に小さな"静的"データセットにおいて,ゴールドスタンダードの"exact unlearning"(ターゲットデータセットの"static"部分のみを微調整)よりも優れており,テスト精度の上限に近づくことがある。 また,データ選択によって得られた精度向上に影響を及ぼす要因も分析した。

As deep learning models are becoming larger and data-hungrier, there are growing ethical, legal and technical concerns over use of data: in practice, agreements on data use may change over time, rendering previously-used training data impermissible for training purposes. These issues have driven increased attention to machine unlearning: removing "the influence of" a subset of training data from a trained model. In this work, we advocate for a relaxed definition of unlearning that does not address privacy applications but targets a scenario where a data owner withdraws permission of use of their data for training purposes. In this context, we consider the important problem of \emph{transfer unlearning} where a pretrained model is transferred to a target dataset that contains some "non-static" data that may need to be unlearned in the future. We propose a new method that uses a mechanism for selecting relevant examples from an auxiliary "static" dataset, and finetunes on the selected data instead of "non-static" target data; addressing all unlearning requests ahead of time. We also adapt a recent relaxed definition of unlearning to our problem setting and demonstrate that our approach is an exact transfer unlearner according to it, while being highly efficient (amortized). We find that our method outperforms the gold standard "exact unlearning" (finetuning on only the "static" portion of the target dataset) on several datasets, especially for small "static" sets, sometimes approaching an upper bound for test accuracy. We also analyze factors influencing the accuracy boost obtained by data selection.
翻訳日:2024-05-20 17:33:08 公開日:2024-05-16
# 電池レス組込みシステムにおける事前学習モデルのメモリ効率を考慮したエネルギー適応推論

Memory-efficient Energy-adaptive Inference of Pre-Trained Models on Batteryless Embedded Systems ( http://arxiv.org/abs/2405.10426v1 )

ライセンス: Link先を確認
Pietro Farina, Subrata Biswas, Eren Yıldız, Khakim Akhunov, Saad Ahmed, Bashima Islam, Kasım Sinan Yıldırım, (参考訳) バッテリーレスシステムは、しばしば電力障害に直面し、推論の進捗を維持するために余分なランタイムバッファを必要とし、超小型のディープニューラルネットワーク(DNN)を格納するためのメモリスペースだけを残している。 さらに、これらのモデルを推論中に確率的エネルギー収穫のダイナミクスに応答させるには、推論精度、レイテンシ、エネルギーオーバーヘッドのバランスが必要である。 圧縮に関する最近の研究は、主に時間と記憶に焦点を当てているが、エネルギー力学を無視したり、事前訓練されたDNNの精度を大幅に低下させたりすることが多い。 既存のエネルギー適応推論は、事前訓練されたモデルのアーキテクチャを変更し、大きなメモリオーバーヘッドを持つ。 したがって、バッテリーレスデバイス上でのDNNのエネルギー適応的かつ正確な推定は、従来のマイクロコントローラよりも困難である。 バッテリーレスシステムにおけるメモリ効率とエネルギー順応性推論のために,事前学習したDNNモデルを最適化するフレームワークであるFreeMLを提案することで,これらの問題に対処する。 FreeMLは,(1)モデルフットプリントと実行時のメモリ要求を同時に削減し,極めてメモリに制約のあるバッテリレスプラットフォーム上で実行可能にする新しい圧縮技術と,(2)すべてのエグジットポイントに対してひとつのエグジットブランチを使用して推論を終了する最初の早期エグジット機構を備え,メモリオーバーヘッドを最小限に抑える。 実験の結果,FreeML はモデルサイズを最大 95 \times$ まで削減し,適応推論を2.03-19.65 \times$ より少ないメモリオーバーヘッドでサポートし,最先端と比較して無視できる精度の低下のみを伴って,大幅な時間とエネルギーのメリットを提供することがわかった。

Batteryless systems frequently face power failures, requiring extra runtime buffers to maintain inference progress and leaving only a memory space for storing ultra-tiny deep neural networks (DNNs). Besides, making these models responsive to stochastic energy harvesting dynamics during inference requires a balance between inference accuracy, latency, and energy overhead. Recent works on compression mostly focus on time and memory, but often ignore energy dynamics or significantly reduce the accuracy of pre-trained DNNs. Existing energy-adaptive inference works modify the architecture of pre-trained models and have significant memory overhead. Thus, energy-adaptive and accurate inference of pre-trained DNNs on batteryless devices with extreme memory constraints is more challenging than traditional microcontrollers. We combat these issues by proposing FreeML, a framework to optimize pre-trained DNN models for memory-efficient and energy-adaptive inference on batteryless systems. FreeML comprises (1) a novel compression technique to reduce the model footprint and runtime memory requirements simultaneously, making them executable on extremely memory-constrained batteryless platforms; and (2) the first early exit mechanism that uses a single exit branch for all exit points to terminate inference at any time, making models energy-adaptive with minimal memory overhead. Our experiments showed that FreeML reduces the model sizes by up to $95 \times$, supports adaptive inference with a $2.03-19.65 \times$ less memory overhead, and provides significant time and energy benefits with only a negligible accuracy drop compared to the state-of-the-art.
翻訳日:2024-05-20 17:33:08 公開日:2024-05-16
# 公平でスローな思考:言語モデルに対する構造化プロンプトの有効性について

Thinking Fair and Slow: On the Efficacy of Structured Prompts for Debiasing Language Models ( http://arxiv.org/abs/2405.10431v1 )

ライセンス: Link先を確認
Shaz Furniturewala, Surgan Jandial, Abhinav Java, Pragyan Banerjee, Simra Shahid, Sumit Bhatia, Kokil Jaidka, (参考訳) 既存のデバイアス技術は通常、トレーニングベースまたはモデルの内部および出力分布へのアクセスを必要とするため、特定のニーズにLLM出力を適用しようとするエンドユーザにはアクセスできない。 本研究では,構造化プロンプト技術が公正テキスト生成の機会を与えるかどうかを検討する。 システム2の思考プロセスを適用し、論理的・反射的・批判的なテキスト生成を1段階・多段階・命令的・役割ベースの変種で誘導する。 システム2をベースとしたImplicative Promptは,多くのデータセットにまたがって多くのLCMを体系的に評価することにより,より複雑なシステム2ベースのImplicative Promptは,下流タスクに競合する性能を持つ出力における平均バイアスを低くすることを示す。 本研究は,LLM用エンドユーザー向け評価フレームワークの設計と可能性に関する研究指針を提供する。

Existing debiasing techniques are typically training-based or require access to the model's internals and output distributions, so they are inaccessible to end-users looking to adapt LLM outputs for their particular needs. In this study, we examine whether structured prompting techniques can offer opportunities for fair text generation. We evaluate a comprehensive end-user-focused iterative framework of debiasing that applies System 2 thinking processes for prompts to induce logical, reflective, and critical text generation, with single, multi-step, instruction, and role-based variants. By systematically evaluating many LLMs across many datasets and different prompting strategies, we show that the more complex System 2-based Implicative Prompts significantly improve over other techniques demonstrating lower mean bias in the outputs with competitive performance on the downstream tasks. Our work offers research directions for the design and the potential of end-user-focused evaluative frameworks for LLM use.
翻訳日:2024-05-20 17:33:08 公開日:2024-05-16
# 中性原子におけるリークエラーの回路に基づく消去変換

Circuit-based erasure conversion of leakage errors in neutral atoms ( http://arxiv.org/abs/2405.10434v1 )

ライセンス: Link先を確認
Matthew N. H. Chow, Vikas Buchemmavari, Sivaprasad Omanakuttan, Bethany J. Little, Saurabh Pandey, Ivan H. Deutsch, Yuan-Yu Jau, (参考訳) 計算部分空間の漏れは(原子の損失に代表される)現在の最先端の中性原子量子コンピュータの大きな限界であり、プラットフォームの長期的な展望にとって大きな課題である。 我々は, 量子ビットの存在情報をアンシラの状態に非破壊的にマッピングする「漏洩検出ユニット(LDU)」を用いて, 中性原子量子プロセッサにおけるリークエラーを消去誤差に変換することを実証する。 我々は,LDUの標準定式化により,LDUの3出力低損失状態検出法を用いてLDUの性能をベンチマークし,すべての主要なリーク経路によるリークエラーの変換に成功した。 LDUは、装置の技術的欠陥によって制限された、約93.4%の精度で原子損失誤差を検出する。 さらに、SWAP LDUを提案し、コンパイルし、実行し、元のデータ原子とアンシラ原子の役割をLDUの作用の下で交換し、リークエラー時に原子の「フリーリフィル」を行う。 この回路ベースのリーク・トー・エミッション・エラー変換は、量子情報が量子レジスタ内の個々の原子の寿命を大幅に上回る可能性のある中性原子量子プロセッサの重要な構成要素である。

Leakage out of the computational subspace (predominantly by atom loss) is a major limitation of current state-of-the-art neutral atom quantum computers and a significant challenge for long-term prospects of the platform. We demonstrate proof-of-principle circuit-based conversion of leakage errors to erasure errors in a neutral atom quantum processor via "Leakage Detection Units," (LDUs) which non-destructively map qubit presence information onto the state of an ancilla. We successfully perform conversion of leakage errors via all major leakage pathways with a standard formulation of the LDU, benchmarking the performance of the LDU using a three-outcome low-loss state detection method. The LDU detects atom loss errors with ~93.4% accuracy, limited by technical imperfections of our apparatus. We further propose, compile, and execute a SWAP LDU, wherein the roles of the original data atom and ancilla atom are exchanged under the action of the LDU, providing "free refilling" of atoms in the case of leakage errors. This circuit-based leakage-to-erasure error conversion is a critical component of a neutral atom quantum processor where the quantum information may significantly outlive the lifetime of any individual atom in the quantum register.
翻訳日:2024-05-20 17:33:08 公開日:2024-05-16
# 位置符号化は文脈と同一ではない:逐次的推薦のための位置符号化に関する研究

Positional encoding is not the same as context: A study on positional encoding for Sequential recommendation ( http://arxiv.org/abs/2405.10436v1 )

ライセンス: Link先を確認
Alejo Lopez-Avila, Jinhua Du, Abbas Shimary, Ze Li, (参考訳) ストリーミングメディアとeコマースの拡大は、ユーザーが以前アイテムとやりとりしていたことを考慮に入れたシークエンシャルレコメンデーションシステムを含むレコメンデーションシステムのブームに繋がった。 近年,モデル情報の拡張が可能なトランスフォーマーブロックや特徴抽出などのアーキテクチャ改善に焦点が当てられている。 これらの特徴には、コンテキストと属性がある。 特に重要なのは、時間的フットプリントであり、しばしば文脈の一部と見なされ、以前の出版物では位置情報と交換可能であると見なされる。 他の出版物では、位置エンコーディングにはほとんど注意を払わない。 本稿では,時間的フットプリントから推定できない項目間の相対的な情報を提供し,位置エンコーディングの分析を行う。 さらに、Amazonデータセットを使用して、異なるエンコーディングと、それらがメトリクスや安定性に与える影響を評価する。 途中でこれらの問題を解決するために、いくつかの新しいエンコーディングを追加しました。 その結果, 正しい位置エンコーディングを見つけることで, 新たな最先端結果が得られることがわかったが, さらに重要なことは, 特定のエンコーディングがトレーニングを安定化させることである。

The expansion of streaming media and e-commerce has led to a boom in recommendation systems, including Sequential recommendation systems, which consider the user's previous interactions with items. In recent years, research has focused on architectural improvements such as transformer blocks and feature extraction that can augment model information. Among these features are context and attributes. Of particular importance is the temporal footprint, which is often considered part of the context and seen in previous publications as interchangeable with positional information. Other publications use positional encodings with little attention to them. In this paper, we analyse positional encodings, showing that they provide relative information between items that are not inferable from the temporal footprint. Furthermore, we evaluate different encodings and how they affect metrics and stability using Amazon datasets. We added some new encodings to help with these problems along the way. We found that we can reach new state-of-the-art results by finding the correct positional encoding, but more importantly, certain encodings stabilise the training.
翻訳日:2024-05-20 17:33:08 公開日:2024-05-16
# 従来の単一オブジェクト追跡を超えて:サーベイ

Beyond Traditional Single Object Tracking: A Survey ( http://arxiv.org/abs/2405.10439v1 )

ライセンス: Link先を確認
Omar Abdelaziz, Mohamed Shehata, Mohamed Mohamed, (参考訳) 単一オブジェクト追跡は、重要な分野における多くのアプリケーションにとって重要なタスクである。 しかし、現在でも最も難しい視力課題の1つと考えられている。 近年、コンピュータビジョン、特に物体追跡は、多くの新しい技術の導入や採用を目撃し、パフォーマンスの新たな前線を確立した。 本調査では、シーケンスモデル、生成モデル、自己教師付き学習、教師なし学習、強化学習、メタラーニング、継続学習、ドメイン適応など、視覚における最先端技術について、単一のオブジェクトトラッキングにおけるそれらの応用に焦点を当てて紹介する。 本稿では,新しい手法とトレンドに基づく単一物体追跡手法の新たな分類法を提案する。 また、一般的なトラッキングベンチマークで示された手法により報告された性能の比較分析を行った。 さらに, 提案手法の長所と短所を解析し, 単体追跡における非従来手法の指針を示す。 最後に,単一物体追跡における今後の研究への道のりを提案する。

Single object tracking is a vital task of many applications in critical fields. However, it is still considered one of the most challenging vision tasks. In recent years, computer vision, especially object tracking, witnessed the introduction or adoption of many novel techniques, setting new fronts for performance. In this survey, we visit some of the cutting-edge techniques in vision, such as Sequence Models, Generative Models, Self-supervised Learning, Unsupervised Learning, Reinforcement Learning, Meta-Learning, Continual Learning, and Domain Adaptation, focusing on their application in single object tracking. We propose a novel categorization of single object tracking methods based on novel techniques and trends. Also, we conduct a comparative analysis of the performance reported by the methods presented on popular tracking benchmarks. Moreover, we analyze the pros and cons of the presented approaches and present a guide for non-traditional techniques in single object tracking. Finally, we suggest potential avenues for future research in single-object tracking.
翻訳日:2024-05-20 17:33:08 公開日:2024-05-16
# 検索と精錬: 希少疾患同定のための大規模言語モデルを用いたハイブリッドフレームワーク

Retrieving and Refining: A Hybrid Framework with Large Language Models for Rare Disease Identification ( http://arxiv.org/abs/2405.10440v1 )

ライセンス: Link先を確認
Jinge Wu, Hang Dong, Zexi Li, Arijit Patra, Honghan Wu, (参考訳) 稀な疾患における臨床的プレゼンテーションの頻度と不均一性は、しばしば下垂体症と構造的データセットから除外される。 これは、包括的な分析のために構造化されていないテキストデータを利用する必要がある。 しかし、臨床報告から手動で識別することは困難で本質的な主観的課題である。 そこで本研究では,従来の辞書ベースの自然言語処理(NLP)ツールと大規模言語モデル(LLM)の強力な能力を相乗的に組み合わせて,非構造的臨床ノートからのまれな疾患の識別を強化する,新たなハイブリッドアプローチを提案する。 様々なサイズ・領域(一般・医療)の6つの大言語モデル(LLM)において,様々なプロンプト戦略を総合的に評価した。 この評価は、患者報告における文脈情報の推論と理解能力を高めるため、ゼロショット、少数ショット、検索強化生成(RAG)技術を含む。 その結果, 稀な疾患の鑑別に有効であることが示され, 臨床検査結果から診断下患者を同定する可能性が示唆された。

The infrequency and heterogeneity of clinical presentations in rare diseases often lead to underdiagnosis and their exclusion from structured datasets. This necessitates the utilization of unstructured text data for comprehensive analysis. However, the manual identification from clinical reports is an arduous and intrinsically subjective task. This study proposes a novel hybrid approach that synergistically combines a traditional dictionary-based natural language processing (NLP) tool with the powerful capabilities of large language models (LLMs) to enhance the identification of rare diseases from unstructured clinical notes. We comprehensively evaluate various prompting strategies on six large language models (LLMs) of varying sizes and domains (general and medical). This evaluation encompasses zero-shot, few-shot, and retrieval-augmented generation (RAG) techniques to enhance the LLMs' ability to reason about and understand contextual information in patient reports. The results demonstrate effectiveness in rare disease identification, highlighting the potential for identifying underdiagnosed patients from clinical notes.
翻訳日:2024-05-20 17:21:37 公開日:2024-05-16
# データ駆動型堆積性繊維の低次元モデル

Data-driven low-dimensional model of a sedimenting flexible fiber ( http://arxiv.org/abs/2405.10442v1 )

ライセンス: Link先を確認
Andrew J Fox, Michael D. Graham, (参考訳) 多くの生物学的プロセスや産業プロセスを理解する上で重要な、フローで訓練された柔軟なフィラメントのダイナミクスは、完全な物理シミュレーションでモデル化するのに計算コストがかかる。 本研究は、機械学習を用いて、フレキシブルファイバー力学の高忠実度低次元モデルを作成するための、データ駆動技術について述べる。 このアプローチは、自己エンコーダニューラルネットワークアーキテクチャを用いて、フィラメント形状の低次元潜在表現を学習し、潜在状態における粒子の進化を学習するニューラルODEを組み合わせる。 このモデルは、弾性重力数$\mathcal{B}$を特徴とする様々な柔軟性のフィラメントをモデル化するために設計され、傾斜角から始まる繊維の進化を含むデータセットで訓練された。 ここで考慮された$\mathcal{B}$の範囲(100-10000)では、フィラメント形状のダイナミクスは4自由度しか持たない精度で表現できる。 我々は任意の角度で設定された繊維の進化を予測し、我々のデータ駆動モデルが、トレーニングされたおよび訓練されていないエラスト重力数の両方において、繊維の進化を正確に予測できることを実証する。

The dynamics of flexible filaments entrained in flow, important for understanding many biological and industrial processes, are computationally expensive to model with full-physics simulations. This work describes a data-driven technique to create high-fidelity low-dimensional models of flexible fiber dynamics using machine learning; the technique is applied to sedimentation in a quiescent, viscous Newtonian fluid, using results from detailed simulations as the data set. The approach combines an autoencoder neural network architecture to learn a low-dimensional latent representation of the filament shape, with a neural ODE that learns the evolution of the particle in the latent state. The model was designed to model filaments of varying flexibility, characterized by an elasto-gravitational number $\mathcal{B}$, and was trained on a data set containing the evolution of fibers beginning at set angles of inclination. For the range of $\mathcal{B}$ considered here (100-10000), the filament shape dynamics can be represented with high accuracy with only four degrees of freedom, in contrast to the 93 present in the original bead-spring model used to generate the dynamic trajectories. We predict the evolution of fibers set at arbitrary angles and demonstrate that our data-driven model can accurately forecast the evolution of a fiber at both trained and untrained elasto-gravitational numbers.
翻訳日:2024-05-20 17:21:37 公開日:2024-05-16
# プロンプト最適化を伴わない同時マスキング--同時翻訳のための微調整LDMのパラダイムシフト

Simultaneous Masking, Not Prompting Optimization: A Paradigm Shift in Fine-tuning LLMs for Simultaneous Translation ( http://arxiv.org/abs/2405.10443v1 )

ライセンス: Link先を確認
Matthew Raffel, Victor Agostinelli, Lizhong Chen, (参考訳) 大規模言語モデル(LLM)は、様々な言語処理タスクにおいて最先端のパフォーマンスを達成し、同時翻訳における彼らの採用を動機付けている。 LLMを同時翻訳に適用するための現在の微調整手法は、データ拡張や構造変更の迅速化による最適化戦略の促進に重点を置いている。 しかし、これらの手法は、不要に拡張されたトレーニングセット、KVキャッシュのダンピングによる計算の非効率性、迅速なサイズ向上、単一決定ポリシーの制限など、いくつかの問題に悩まされている。 これらの問題を解消するために、SimulMaskと呼ばれる同時翻訳のための微調整LDMの新しいパラダイムを提案する。 これは、所望の意思決定方針の下で注意関係をマスキングすることで、微調整中の同時翻訳をモデル化する新しい注意マスク技術を利用する。 提案したSimulMaskをIWSLT 2017データセットのFalcon LLMに適用することにより、計算コストを低減しつつ、4つの異なる遅延状態の平均化時の3つの言語ペアに対する最先端の最適化戦略と比較して、大幅な翻訳品質の改善が見られた。

Large language models (LLMs) have achieved state-of-the-art performance in various language processing tasks, motivating their adoption in simultaneous translation. Current fine-tuning methods to adapt LLMs for simultaneous translation focus on prompting optimization strategies using either data augmentation or prompt structure modifications. However, these methods suffer from several issues, such as an unnecessarily expanded training set, computational inefficiency from dumping the KV cache, increased prompt sizes, or restriction to a single decision policy. To eliminate these issues, we propose a new paradigm in fine-tuning LLMs for simultaneous translation, called SimulMask. It utilizes a novel attention mask technique that models simultaneous translation during fine-tuning by masking attention connections under a desired decision policy. Applying the proposed SimulMask on a Falcon LLM for the IWSLT 2017 dataset, we have observed a significant translation quality improvement compared to state-of-the-art prompting optimization strategies on three language pairs when averaged across four different latency regimes while reducing the computational cost.
翻訳日:2024-05-20 17:21:37 公開日:2024-05-16
# 単一物体追跡のための新しいバウンディングボックス回帰法

A Novel Bounding Box Regression Method for Single Object Tracking ( http://arxiv.org/abs/2405.10444v1 )

ライセンス: Link先を確認
Omar Abdelaziz, Mohamed Sami Shehata, (参考訳) 一連のフレームにオブジェクトを配置することは、そのシーケンスの最初のフレームに現れることを考えると、多くのステージを含む難しい問題である。 通常、最先端の手法は、視覚的エンコーディングまたはリレーショナルモデリングフェーズに新しいアイデアをもたらすことに重点を置いている。 しかし,本研究では,学習した共同検索とテンプレート機能による境界ボックスの回帰が重要であることを示す。 従来の手法は,検索とテンプレート間の相互作用をよく表現する特徴に大きく依存していたが,入力畳み込み境界ボックスネットワークの受容場は,オブジェクトの位置を正確に決定する上で重要な役割を担っている,という仮説を立てた。 この目的のために、我々は2つの新しいバウンディングボックス回帰ネットワーク(インセプションとデフォルマブル)を導入する。 実験およびアブレーション実験により、最近のODTrackにインストールされた我々の開始モジュールは、GOT-10k、UAV123、OTB2015の3つのベンチマークにおいて、後者よりも優れていることが示された。

Locating an object in a sequence of frames, given its appearance in the first frame of the sequence, is a hard problem that involves many stages. Usually, state-of-the-art methods focus on bringing novel ideas in the visual encoding or relational modelling phases. However, in this work, we show that bounding box regression from learned joint search and template features is of high importance as well. While previous methods relied heavily on well-learned features representing interactions between search and template, we hypothesize that the receptive field of the input convolutional bounding box network plays an important role in accurately determining the object location. To this end, we introduce two novel bounding box regression networks: inception and deformable. Experiments and ablation studies show that our inception module installed on the recent ODTrack outperforms the latter on three benchmarks: the GOT-10k, the UAV123 and the OTB2015.
翻訳日:2024-05-20 17:21:37 公開日:2024-05-16
# 詳しく言うと, 会話型XAIにおけるユーザエクスペリエンス向上のためのIntent Fulfilmentフレームワーク

Tell me more: Intent Fulfilment Framework for Enhancing User Experiences in Conversational XAI ( http://arxiv.org/abs/2405.10446v1 )

ライセンス: Link先を確認
Anjana Wijekoon, David Corsar, Nirmalie Wiratunga, Kyle Martin, Pedram Salimi, (参考訳) 説明可能な人工知能(XAI)の進化は、多様なユーザニーズを満たすことの重要性を強調している。 これらのニーズを特定し、対処するためのアプローチは、AI意思決定の理解を深めるために、説明経験が主観的であり、ユーザー中心のプロセスであることを認め、前進する必要がある。 本稿は,多面的XAIにおける相互関係を考察し,ユーザのXAIニーズにどのように対応しているのかを考察する。 Intent Fulfilment Framework (IFF)を導入した。 本論文の新規性は, 明確性, 検証, 置換性を得るための説明において, フォローアップの重要性を認識することである。 さらに、説明体験対話モデルでは、IFFと"Explanation Followups"を統合し、ユーザに対して、説明ニーズを探索する対話インターフェースを提供し、説明体験を作成する。 IFFがユーザエンゲージメントの改善やAIシステムの実用性,ユーザエクスペリエンス全体に与える影響を,比較ユーザスタディから定量的かつ定性的に確認した。 全体としては、会話を通して複雑な相互作用を導く説明体験を作成するために、「一つの説明がすべてに合わない」という原則を補強する。

The evolution of Explainable Artificial Intelligence (XAI) has emphasised the significance of meeting diverse user needs. The approaches to identifying and addressing these needs must also advance, recognising that explanation experiences are subjective, user-centred processes that interact with users towards a better understanding of AI decision-making. This paper delves into the interrelations in multi-faceted XAI and examines how different types of explanations collaboratively meet users' XAI needs. We introduce the Intent Fulfilment Framework (IFF) for creating explanation experiences. The novelty of this paper lies in recognising the importance of "follow-up" on explanations for obtaining clarity, verification and/or substitution. Moreover, the Explanation Experience Dialogue Model integrates the IFF and "Explanation Followups" to provide users with a conversational interface for exploring their explanation needs, thereby creating explanation experiences. Quantitative and qualitative findings from our comparative user study demonstrate the impact of the IFF in improving user engagement, the utility of the AI system and the overall user experience. Overall, we reinforce the principle that "one explanation does not fit all" to create explanation experiences that guide the complex interaction through conversation.
翻訳日:2024-05-20 17:21:37 公開日:2024-05-16
# データ抽出と材料特性予測のための会話モデルを用いた動的インコンテキスト学習

Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction ( http://arxiv.org/abs/2405.10448v1 )

ライセンス: Link先を確認
Chinedu Ekuma, (参考訳) 自然言語処理と大規模言語モデル(LLM)の出現は、構造化されていない学術論文からのデータの抽出に革命をもたらした。 しかし、データの信頼性を確保することは重要な課題である。 本稿では,Google Gemini-ProやOpenAI GPT-4といった高度な対話型LLMを活用するオープンソースツールであるPropertyExtractorを導入し,ゼロショットと少数ショットのインコンテキスト学習をブレンドし,構造化情報階層の動的洗練のための技術的プロンプトを用いて,自律的かつ効率的でスケーラブルで正確な材料特性データの識別,抽出,検証を可能にする。 本試験では,約10%の誤差率で精度とリコールが93%を超えることを示し,ツールキットの有効性と汎用性を強調した。 デバイス統合のための重要なパラメータである2次元材料厚みのデータベースを生成するためにPropertyExtractorを適用した。 フィールドの急速な進化は、実験的な測定と計算方法の両方を上回り、重要なデータギャップを生み出した。 我々の研究は、このギャップに対処し、多種多様な資産データベースを自動生成するための信頼性と効率的なツールとしてのPropertyExtractorの可能性を示し、フィールドを前進させます。

The advent of natural language processing and large language models (LLMs) has revolutionized the extraction of data from unstructured scholarly papers. However, ensuring data trustworthiness remains a significant challenge. In this paper, we introduce PropertyExtractor, an open-source tool that leverages advanced conversational LLMs like Google Gemini-Pro and OpenAI GPT-4, blends zero-shot with few-shot in-context learning, and employs engineered prompts for the dynamic refinement of structured information hierarchies, enabling autonomous, efficient, scalable, and accurate identification, extraction, and verification of material property data. Our tests on material data demonstrate precision and recall exceeding 93% with an error rate of approximately 10%, highlighting the effectiveness and versatility of the toolkit. We apply PropertyExtractor to generate a database of 2D material thicknesses, a critical parameter for device integration. The rapid evolution of the field has outpaced both experimental measurements and computational methods, creating a significant data gap. Our work addresses this gap and showcases the potential of PropertyExtractor as a reliable and efficient tool for the autonomous generation of diverse material property databases, advancing the field.
翻訳日:2024-05-20 17:21:37 公開日:2024-05-16
# 最適なテキストベース時系列指標

Optimal Text-Based Time-Series Indices ( http://arxiv.org/abs/2405.10449v1 )

ライセンス: Link先を確認
David Ardia, Keven Bluteau, (参考訳) 本稿では,テキストに基づく時系列指標を最適に構築する手法を提案する。典型的には,インフレなどの対象変数に対する同時関係や予測性能を最大化する指標である。 我々は、VIX指数とインフレ期待の追跡に焦点をあてたテキストベースの指標を最適化することで、ウォールストリートジャーナルのニュース記事のコーパスを用いて、我々の方法論を解説する。 その結果、既存の指標と比較して、アプローチの優れたパフォーマンスが浮き彫りになった。

We propose an approach to construct text-based time-series indices in an optimal way--typically, indices that maximize the contemporaneous relation or the predictive performance with respect to a target variable, such as inflation. We illustrate our methodology with a corpus of news articles from the Wall Street Journal by optimizing text-based indices focusing on tracking the VIX index and inflation expectations. Our results highlight the superior performance of our approach compared to existing indices.
翻訳日:2024-05-20 17:21:37 公開日:2024-05-16
# 小角制御相ゲートを最適化した現実的中性原子系のフィードバックに基づく量子最適化アルゴリズムのシミュレーション

Simulation of feedback-based algorithm for quantum optimization for a realistic neutral atom system with an optimized small-angle controlled-phase gate ( http://arxiv.org/abs/2405.10451v1 )

ライセンス: Link先を確認
S. X. Li, W. L. Mu, J. B. You, X. Q. Shao, (参考訳) 量子近似最適化アルゴリズムで求められる古典的な最適化プロセスとは対照的に、FALQONは量子最適化のためのフィードバックベースのアルゴリズムである。 B. Magann {\it et al ,} {\color{blue}Phys。 レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・ bf129}, 250502 (2022)}] は、古典的な最適化の努力なしに組合せ最適化問題の近似解を得ることを可能にする。 本研究では,中性原子系 [Z。 Fu {\it et al ,} {\color{blue}Phys。 A {\bf105}, 042430 (2022)} と、最適に調整された小角制御相ゲートを量子最適制御で実装するスキームを提案する。 最大カット問題における2-4-qubit FALQONアルゴリズムの検証と中性原子系の自然放出を考慮した結果、小角制御相ゲートを用いたFALQONの性能は、CZゲートを用いたFALQONよりも優れていることがわかった。 このアプローチは、FALQONをシミュレートし、Max-Cut問題に効果的に対処するために必要な論理回路を著しく単純化する可能性がある。

In contrast to the classical optimization process required by the quantum approximate optimization algorithm, FALQON, a feedback-based algorithm for quantum optimization [A. B. Magann {\it et al.,} {\color{blue}Phys. Rev. Lett. {\bf129}, 250502 (2022)}], enables one to obtain approximate solutions to combinatorial optimization problems without any classical optimization effort. In this study, we leverage the specifications of a recent experimental platform for the neutral atom system [Z. Fu {\it et al.,} {\color{blue}Phys. Rev. A {\bf105}, 042430 (2022)}] and present a scheme to implement an optimally tuned small-angle controlled-phase gate with quantum optimal control. By examining the 2- to 4-qubit FALQON algorithms in the Max-Cut problem and considering the spontaneous emission of the neutral atomic system, we have observed that the performance of FALQON implemented with small-angle controlled-phase gates exceeds that of FALQON utilizing CZ gates. This approach has the potential to significantly simplify the logic circuit required to simulate FALQON and effectively address the Max-Cut problem, which may pave a way for the experimental implementation of near-term noisy intermediate-scale quantum algorithms with neutral-atom systems.
翻訳日:2024-05-20 17:21:37 公開日:2024-05-16
# トピックモデリングとハイパーパラメータ最適化による循環経済の公共感覚の探索

Navigating Public Sentiment in the Circular Economy through Topic Modelling and Hyperparameter Optimisation ( http://arxiv.org/abs/2405.10452v1 )

ライセンス: Link先を確認
Junhao Song, Yingfang Yuan, Kaiwen Chang, Bing Xu, Jin Xuan, Wei Pang, (参考訳) 循環経済(CE)を前進させるためには、大衆の感情の進化、循環製品やデジタル技術に関する大衆の認知経路を把握し、主要な関心事を認識することが不可欠である。 これを実現するために、Twitter、Reddit、The GuardianといったさまざまなプラットフォームからCEに関連するデータを収集しました。 この包括的なデータ収集は、一般市民、専門家、公式情報源の3つの異なる階層にまたがった。 その後、収集したデータに3つのトピックモデルを適用した。 トピックモデリングは、テキストマイニングのためのデータ駆動および機械学習のアプローチの一種であり、大量のドキュメントを異なるセマンティックグループに自動的に分類することができる。 同時に、これらのグループはトピックによって説明され、これらのトピックはドキュメントのセマンティックな内容を高いレベルで理解するのに役立ちます。 しかし、トピックモデリングのパフォーマンスは、異なるハイパーパラメータ値によって異なるかもしれない。 そこで本研究では,CE のハイパーパラメータ最適化を用いたトピックモデリングの枠組みを提案し,適切なハイパーパラメータでトピックモデルを設定し,確立されたモデルに基づいて,CE と世論の相関関係を把握すべく,一連の系統的な実験を行った。 本研究の結果から,持続可能性や経済的影響に関する懸念が3つのデータセットすべてにわたって持続していることが示唆された。 公式資料では、CEのアプリケーションと規制への関与のレベルが高められている。 本研究は,高パラメータ最適化の探索によるトピックモデリングを通じて,CEに関する様々な世論のレベルを調査する上でのパイオニアである。

To advance the circular economy (CE), it is crucial to gain insights into the evolution of public sentiments, cognitive pathways of the masses concerning circular products and digital technology, and recognise the primary concerns. To achieve this, we collected data related to the CE from diverse platforms including Twitter, Reddit, and The Guardian. This comprehensive data collection spanned across three distinct strata of the public: the general public, professionals, and official sources. Subsequently, we utilised three topic models on the collected data. Topic modelling represents a type of data-driven and machine learning approach for text mining, capable of automatically categorising a large number of documents into distinct semantic groups. Simultaneously, these groups are described by topics, and these topics can aid in understanding the semantic content of documents at a high level. However, the performance of topic modelling may vary depending on different hyperparameter values. Therefore, in this study, we proposed a framework for topic modelling with hyperparameter optimisation for CE and conducted a series of systematic experiments to ensure that topic models are set with appropriate hyperparameters and to gain insights into the correlations between the CE and public opinion based on well-established models. The results of this study indicate that concerns about sustainability and economic impact persist across all three datasets. Official sources demonstrate a higher level of engagement with the application and regulation of CE. To the best of our knowledge, this study is pioneering in investigating various levels of public opinions concerning CE through topic modelling with the exploration of hyperparameter optimisation.
翻訳日:2024-05-20 17:21:37 公開日:2024-05-16
# 氷チャートにおける領域レベルラベルは、海氷タイプに対するピクセルレベルセグメンテーションを生成できる

Region-level labels in ice charts can produce pixel-level segmentation for Sea Ice types ( http://arxiv.org/abs/2405.10456v1 )

ライセンス: Link先を確認
Muhammed Patel, Xinwei Chen, Linlin Xu, Yuhao Chen, K Andrea Scott, David A. Clausi, (参考訳) 完全な教師付き深層学習アプローチは、海氷分類において顕著な精度を示しているが、それらの高解像度ラベルへの依存は、そのようなデータを得るのが困難であるため、重大な課題である。 これに対し, 弱教師付き学習法は, 専門家の注釈付き氷チャートから低解像度の地域ラベルを活用することで, 魅力的な代替手段を提供する。 本手法は, 予測値と氷図由来の海氷型分布の差を測定するため, トレーニング中に局所的損失表現を導入することで, 例外的な画素レベルの分類性能を実現する。 AI4Arctic Sea Ice Challenge Datasetを活用することで、AutoIceチャレンジの最高解である完全な教師付きU-Netベンチマークを、マッピングの解像度とクラスの精度の両方で上回り、自動的な海氷マッピングの大幅な進歩を示す。

Fully supervised deep learning approaches have demonstrated impressive accuracy in sea ice classification, but their dependence on high-resolution labels presents a significant challenge due to the difficulty of obtaining such data. In response, our weakly supervised learning method provides a compelling alternative by utilizing lower-resolution regional labels from expert-annotated ice charts. This approach achieves exceptional pixel-level classification performance by introducing regional loss representations during training to measure the disparity between predicted and ice chart-derived sea ice type distributions. Leveraging the AI4Arctic Sea Ice Challenge Dataset, our method outperforms the fully supervised U-Net benchmark, the top solution of the AutoIce challenge, in both mapping resolution and class-wise accuracy, marking a significant advancement in automated operational sea ice mapping.
翻訳日:2024-05-20 17:21:37 公開日:2024-05-16
# 分節前名詞は分節後名詞よりもエントロピーが低い

Participle-Prepended Nominals Have Lower Entropy Than Nominals Appended After the Participle ( http://arxiv.org/abs/2405.10457v1 )

ライセンス: Link先を確認
Kristie Denlinger, Stephen Wechsler, Kyle Mahowald, (参考訳) 英語では、複合語(eg, London-made)と phrasal paraphrases(eg, made in London)の両方が認められている。 これらの構造は、ほぼ同じ真理条件の意味を持つが、この化合物は、分詞と分詞前名義間の意味的関係の性質を表現できる自由度が低いことを仮定する。 したがって, プレパーティシプルスロットは, フレーズ構成における等価位置よりも制約が強いことを予測した。 我々は,この予測を大規模コーパスで検証し,対応する名目スロットのエントロピーを測定した。 すなわち、複合構成スロットにおいて$\alpha$-[V] のような$\alpha$のエントロピーと、[V] が与えられた動詞 V に対して$\alpha$ で表されるようなフレーズ構成における$\alpha$のエントロピーを比較する。 これらの予測は、より一般的な文法的性質や処理要因からどのように従うかを考える。

English allows for both compounds (e.g., London-made) and phrasal paraphrases (e.g., made in London). While these constructions have roughly the same truth-conditional meaning, we hypothesize that the compound allows less freedom to express the nature of the semantic relationship between the participle and the pre-participle nominal. We thus predict that the pre-participle slot is more constrained than the equivalent position in the phrasal construction. We test this prediction in a large corpus by measuring the entropy of corresponding nominal slots, conditional on the participle used. That is, we compare the entropy of $\alpha$ in compound construction slots like $\alpha$-[V]ed to the entropy of $\alpha$ in phrasal constructions like [V]ed by $\alpha$ for a given verb V. As predicted, there is significantly lower entropy in the compound construction than in the phrasal construction. We consider how these predictions follow from more general grammatical properties and processing factors.
翻訳日:2024-05-20 17:21:37 公開日:2024-05-16
# AIコラボレーション - 教育と専門の環境での人間とAIのインタラクションを橋渡しする

The AI Collaborator: Bridging Human-AI Interaction in Educational and Professional Settings ( http://arxiv.org/abs/2405.10460v1 )

ライセンス: Link先を確認
Mohammad Amin Samadi, Spencer JaQuay, Jing Gu, Nia Nixon, (参考訳) AI CollaboratorはOpenAIのGPT-4を利用しており、人間とAIのコラボレーション研究のために設計された画期的なツールである。 その特長は、研究者がユーザーフレンドリーなインターフェイスを使って、多様な実験的なセットアップのためにカスタマイズされたAIペルソナを作成することができることだ。 この機能は、チーム設定におけるさまざまな対人的ダイナミクスをシミュレートするために不可欠です。 AI Collaboratorは、高度なメモリシステムと洗練されたパーソナリティフレームワークによって実現された、さまざまなチームの振る舞いの模倣に優れています。 研究者はAIのペルソナを支配的から協力的なスペクトルに沿って調整し、チームプロセスへの影響の研究を強化することができる。 このツールのモジュールデザインは、Slackのようなデジタルプラットフォームとの統合を容易にし、さまざまな研究シナリオに汎用性を持たせる。 したがって、AIコラボレーションは、人間-AIチームのダイナミクスをより深く探求するための重要なリソースである。

AI Collaborator, powered by OpenAI's GPT-4, is a groundbreaking tool designed for human-AI collaboration research. Its standout feature is the ability for researchers to create customized AI personas for diverse experimental setups using a user-friendly interface. This functionality is essential for simulating various interpersonal dynamics in team settings. AI Collaborator excels in mimicking different team behaviors, enabled by its advanced memory system and a sophisticated personality framework. Researchers can tailor AI personas along a spectrum from dominant to cooperative, enhancing the study of their impact on team processes. The tool's modular design facilitates integration with digital platforms like Slack, making it versatile for various research scenarios. AI Collaborator is thus a crucial resource for exploring human-AI team dynamics more profoundly.
翻訳日:2024-05-20 17:21:37 公開日:2024-05-16
# エージェントデザインパターンカタログ:基礎モデルに基づくエージェントのためのアーキテクチャパターンのコレクション

Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents ( http://arxiv.org/abs/2405.10467v1 )

ライセンス: Link先を確認
Yue Liu, Sin Kit Lo, Qinghua Lu, Liming Zhu, Dehai Zhao, Xiwei Xu, Stefan Harrer, Jon Whittle, (参考訳) ファウンデーションモデルに対応した生成人工知能はエージェントの開発と実装を促進し、優れた推論能力と言語処理能力を活用して、ユーザの目標を追求するために積極的に自律的な役割を果たすことができる。 それでも、基礎モデルに固有の幻覚、推論プロセスの説明可能性、複雑な説明責任など、目標探究の課題(道具的目標や計画の作成を含む)を考えるエージェントを設計する上で、実践者を指導する体系的な知識が欠如している。 この問題に対処するため、我々は、最先端の基盤モデルに基づくエージェントとより広範なエコシステムを理解するために、系統的な文献レビューを行った。 本稿では,前回の文献レビューの結果として,文脈,力,トレードオフを分析した16のアーキテクチャパターンからなるパターンカタログを提案する。 提案するカタログは,パターンを効果的に活用するための総合的なガイダンスを提供するとともに,目標探索と計画生成を容易にし,基礎モデルに基づくエージェントのアーキテクチャ設計を支援する。

Foundation model-enabled generative artificial intelligence facilitates the development and implementation of agents, which can leverage distinguished reasoning and language processing capabilities to takes a proactive, autonomous role to pursue users' goals. Nevertheless, there is a lack of systematic knowledge to guide practitioners in designing the agents considering challenges of goal-seeking (including generating instrumental goals and plans), such as hallucinations inherent in foundation models, explainability of reasoning process, complex accountability, etc. To address this issue, we have performed a systematic literature review to understand the state-of-the-art foundation model-based agents and the broader ecosystem. In this paper, we present a pattern catalogue consisting of 16 architectural patterns with analyses of the context, forces, and trade-offs as the outcomes from the previous literature review. The proposed catalogue can provide holistic guidance for the effective use of patterns, and support the architecture design of foundation model-based agents by facilitating goal-seeking and plan generation.
翻訳日:2024-05-20 17:21:37 公開日:2024-05-16
# 個人化小売促進のための強化学習エージェントのシミュレーションによるベンチマーク

Simulation-Based Benchmarking of Reinforcement Learning Agents for Personalized Retail Promotions ( http://arxiv.org/abs/2405.10469v1 )

ライセンス: Link先を確認
Yu Xia, Sriram Narayanamoorthy, Zhengyuan Zhou, Joshua Mabry, (参考訳) オープンなベンチマークプラットフォームの開発は、リテールにおけるAIエージェントの採用を大幅に加速する可能性がある。 本稿では,クーポンターゲティングを最適化する強化学習(RL)エージェントのベンチマークを目的とした,ショッピング行動の包括的シミュレーションを提案する。 この学習問題の難しさは、主に顧客の購入イベントの発散によって引き起こされる。 私たちは、顧客購入履歴を要約したオフラインバッチデータを使用してエージェントを訓練し、この効果を緩和しました。 実験の結果,スパース報酬分布の過度に適合しない文脈的帯域幅と深部RL法は,静的ポリシーよりも有意に優れていた。 この研究は、小売店の顧客ジャーニー全体を最適化するAIエージェントをシミュレートするための実践的なフレームワークを提供する。 それは、小売AIシステムのためのシミュレーションツールのさらなる開発を促進することを目的としている。

The development of open benchmarking platforms could greatly accelerate the adoption of AI agents in retail. This paper presents comprehensive simulations of customer shopping behaviors for the purpose of benchmarking reinforcement learning (RL) agents that optimize coupon targeting. The difficulty of this learning problem is largely driven by the sparsity of customer purchase events. We trained agents using offline batch data comprising summarized customer purchase histories to help mitigate this effect. Our experiments revealed that contextual bandit and deep RL methods that are less prone to over-fitting the sparse reward distributions significantly outperform static policies. This study offers a practical framework for simulating AI agents that optimize the entire retail customer journey. It aims to inspire the further development of simulation tools for retail AI systems.
翻訳日:2024-05-20 17:21:37 公開日:2024-05-16
# 解釈性と制御のためのスパースオートエンコーダの原理的評価に向けて

Towards Principled Evaluations of Sparse Autoencoders for Interpretability and Control ( http://arxiv.org/abs/2405.08366v2 )

ライセンス: Link先を確認
Aleksandar Makelov, George Lange, Neel Nanda, (参考訳) モデルアクティベーションを意味のある特徴に遠ざけることは、解釈可能性の中心的な問題である。 しかし、現実的なシナリオにおけるこれらの特徴に対する基礎的真理の欠如は、スパース辞書学習のような近年のアプローチの検証を困難にしている。 そこで本稿では,特定のタスクの文脈における特徴辞書を評価するためのフレームワークを提案する。 まず,教師付き辞書は,タスク上でのモデル計算の近似,制御,解釈性に優れることを示す。 第2に、教師なし辞書を用いて、同じ3つの軸に沿った教師なし辞書の評価を開発し、文脈的に評価する。 我々は,このフレームワークを GPT-2 Small を用いて間接オブジェクト識別タスク (IOI) に適用し, IOI と OpenWebText のデータセットで訓練したスパースオートエンコーダ (SAE) を用いた。 これらのSAEは、IOIタスクの解釈可能な特徴をキャプチャするが、モデルを制御する上では教師付き機能ほど成功しない。 最後に,SAEトレーニングにおける2つの定性的な現象を観察する:特徴排除(因果関係の概念が学習特徴においてわずかに高次な概念によって強固に覆われている)と特徴過分割(二分的特徴が明確な解釈なしに多数の小さな特徴に分割される)である。 我々は,より客観的かつ基礎的な辞書学習手法の評価に向けて,我々のフレームワークが有用なステップになることを願っている。

Disentangling model activations into meaningful features is a central problem in interpretability. However, the lack of ground-truth for these features in realistic scenarios makes the validation of recent approaches, such as sparse dictionary learning, elusive. To overcome this, we propose a framework to evaluate feature dictionaries in the context of specific tasks, by comparing them against \emph{supervised} feature dictionaries. First, we demonstrate that supervised dictionaries achieve excellent approximation, control and interpretability of model computations on the task. Second, we use the supervised dictionaries to develop and contextualize evaluations of unsupervised dictionaries along the same three axes. We apply this framework to the indirect object identification task (IOI) using GPT-2 Small, with sparse autoencoders (SAEs) trained on either the IOI or OpenWebText datasets. We find that these SAEs capture interpretable features for the IOI task, but they are not as successful as supervised features in controlling the model. Finally, we observe two qualitative phenomena in SAE training: feature occlusion (where a causally relevant concept is robustly overshadowed by even slightly higher-magnitude ones in the learned features), and feature over-splitting (where binary features split into many smaller features without clear interpretation). We hope that our framework will be a useful step towards more objective and grounded evaluations of sparse dictionary learning methods.
翻訳日:2024-05-20 11:55:15 公開日:2024-05-16
# 線形サンプル複素数を持つ単一指標モデルの能動的学習

Agnostic Active Learning of Single Index Models with Linear Sample Complexity ( http://arxiv.org/abs/2405.09312v2 )

ライセンス: Link先を確認
Aarshvi Gajjar, Wai Ming Tai, Xingyu Xu, Chinmay Hegde, Christopher Musco, Yi Li, (参考訳) F({\mathbf x}) = f(\langle {\mathbf w}, {\mathbf x}\rangle)$, ここでは、$f:\mathbb{R} \to \mathbb{R}$, ${\mathbf x,\mathbf w} \in \mathbb{R}^d$である。 非線型ニューラルネットワークの単純な例としての理論上の関心に加えて、偏微分方程式(PDE)の代理モデリングのような科学的機械学習への応用により、単一インデックスモデルは近年大きな注目を集めている。 このような応用には、対向雑音に頑健なサンプル効率の高い能動学習法が必要である。 つまり、それは挑戦的な無知の学習環境でも機能する。 単一指標モデルの非依存的能動学習に関する2つの主要な結果を提供する。 まず、$f$とLipschitzが知られているとき、$\tilde{O}(d)$サンプルが {statistical leverage score sample} によって収集され、ほぼ最適の単一インデックスモデルを学ぶのに十分であることを示す。 レバレッジスコアのサンプリングは実装が簡単で、効率的で、線形モデルを積極的に学習するためにすでに広く使われている。 我々の結果は、データ分布に関する仮定を必要とせず、ログファクタまで最適であり、最近の${O}(d^{2})$ bound of \cite{gajjar2023active}で4次的に改善する。 第二に、$f$ が \emph{unknown} であるときでさえ、$\tilde{O}(d)$ サンプルが十分であることを示す。 我々の結果は、ダドリーの不等式やスダコフの2重化等を含む高次元の確率から得られるツールと、リプシッツ函数のクラスを新しい分布対応で離散化することを利用する。

We study active learning methods for single index models of the form $F({\mathbf x}) = f(\langle {\mathbf w}, {\mathbf x}\rangle)$, where $f:\mathbb{R} \to \mathbb{R}$ and ${\mathbf x,\mathbf w} \in \mathbb{R}^d$. In addition to their theoretical interest as simple examples of non-linear neural networks, single index models have received significant recent attention due to applications in scientific machine learning like surrogate modeling for partial differential equations (PDEs). Such applications require sample-efficient active learning methods that are robust to adversarial noise. I.e., that work even in the challenging agnostic learning setting. We provide two main results on agnostic active learning of single index models. First, when $f$ is known and Lipschitz, we show that $\tilde{O}(d)$ samples collected via {statistical leverage score sampling} are sufficient to learn a near-optimal single index model. Leverage score sampling is simple to implement, efficient, and already widely used for actively learning linear models. Our result requires no assumptions on the data distribution, is optimal up to log factors, and improves quadratically on a recent ${O}(d^{2})$ bound of \cite{gajjar2023active}. Second, we show that $\tilde{O}(d)$ samples suffice even in the more difficult setting when $f$ is \emph{unknown}. Our results leverage tools from high dimensional probability, including Dudley's inequality and dual Sudakov minoration, as well as a novel, distribution-aware discretization of the class of Lipschitz functions.
翻訳日:2024-05-20 11:46:25 公開日:2024-05-16
# 量子ビットは絡み合った羊の夢か?古典的な出力を持たない量子測定

Do qubits dream of entangled sheep? Quantum measurement without classical output ( http://arxiv.org/abs/2008.10617v2 )

ライセンス: Link先を確認
Noah Lupu-Gladstein, Aharon Brodutch, Hugo Ferretti, Weng-Kian Tham, Arthur Ou Teen Pang, Kent Bonsma-Fisher, Aephraim M. Steinberg, (参考訳) 量子力学は通常、世界を観察し、相互作用できるエージェントは、それとは外にあり、古典的な記憶を持つという暗黙の仮定で定式化される。 しかし、量子古典的カットを定義する方法が受け入れられず、完全量子エージェントをコヒーレントな量子メモリで除外する事前の理由も存在しない。 この研究では、量子センサーを通して世界を経験する量子エージェントを考慮に入れ、センセーションと呼ばれる完全に量子的な測定の概念を導入します。 感覚は確率を誘発し、代わりに量子情報の決定論的流れを記述する。 我々は、量子情報理論の概念を用いて、感覚の情報獲得と乱れを定量化し、感覚が通知される限り常に邪魔されることを確かめる。 測定をセンセーションとして見ることは、一般に量子理論の新たな理解と、量子ネットワークの文脈における新しい結果につながる可能性がある。

Quantum mechanics is usually formulated with an implicit assumption that agents who can observe and interact with the world are external to it and have a classical memory. However, there is no accepted way to define the quantum-classical cut and no a priori reason to rule out fully quantum agents with coherent quantum memories. In this work, we introduce an entirely quantum notion of measurement, called a sensation, to account for quantum agents that experience the world through quantum sensors. Sensations eschew probabilities and instead describe a deterministic flow of quantum information. We quantify the information gain and disturbance of a sensation using concepts from quantum information theory and find that sensations always disturb at least as much as they inform. Viewing measurements as sensations could lead to a new understanding of quantum theory in general and to new results in the context of quantum networks.
翻訳日:2024-05-17 20:01:05 公開日:2024-05-16
# マルコフ論理ネットワークにおける重みパラメータのスケーリングと関係ロジスティック回帰モデル

Scaling the weight parameters in Markov logic networks and relational logistic regression models ( http://arxiv.org/abs/2103.15140v3 )

ライセンス: Link先を確認
Felix Weitkämper, (参考訳) 我々はマルコフ論理ネットワークとリレーショナルロジスティック回帰を、その仕様に重み付き公式を用いる統計リレーショナル人工知能の2つの基本的な表現形式として考える。 しかし、マルコフ論理ネットワークは無向グラフに基づいており、リレーショナルロジスティック回帰は有向非巡回グラフに基づいている。 重みパラメータをドメインサイズでスケーリングすると、関係ロジスティック回帰モデルの漸近挙動はパラメータによって透過的に制御され、漸近確率を計算するアルゴリズムが提供される。 また、マルコフ論理ネットワークには当てはまらない2つの例を示す。 また、主に文献から、そのようなスケーリングが適切かどうか、生の未スケールパラメータの使用が望ましいかどうかをユーザが判断する上で、アプリケーションコンテキストがどのように役立つか、など、いくつかの例についても論じる。 本稿では,特に有望なスケールモデルの適用分野としてランダムサンプリングに注目し,さらなる研究の道筋について述べる。

We consider Markov logic networks and relational logistic regression as two fundamental representation formalisms in statistical relational artificial intelligence that use weighted formulas in their specification. However, Markov logic networks are based on undirected graphs, while relational logistic regression is based on directed acyclic graphs. We show that when scaling the weight parameters with the domain size, the asymptotic behaviour of a relational logistic regression model is transparently controlled by the parameters, and we supply an algorithm to compute asymptotic probabilities. We also show using two examples that this is not true for Markov logic networks. We also discuss using several examples, mainly from the literature, how the application context can help the user to decide when such scaling is appropriate and when using the raw unscaled parameters might be preferable. We highlight random sampling as a particularly promising area of application for scaled models and expound possible avenues for further research.
翻訳日:2024-05-17 20:01:05 公開日:2024-05-16
# 量子センサの最適制御:解析解に基づく高速アルゴリズム

Optimal control of a quantum sensor: A fast algorithm based on an analytic solution ( http://arxiv.org/abs/2112.14998v4 )

ライセンス: Link先を確認
S. Hernández-Gómez, F. Balducci, G. Fasiolo, P. Cappellaro, N. Fabbri, A. Scardicchio, (参考訳) 量子センサーは、非常に具体的で最適な方法で制御されているため、前例のない感度を示すことができる。 ここでは, 劣化雑音の存在下での時間変化場をスピンセンサとして検討し, 感度を最適化するパルス制御場(最小検出可能な信号)を求める問題をスピンチェーンの基底状態の決定にマッピング可能であることを示す。 我々はこの問題の近似的だが解析的な解を見つけ、感度に対して \emph{lower bound} とパルス制御を非常に最適に提供し、さらに高速なシミュレートされたアニールアルゴリズムを実現するための初期推測として利用する。 ダイヤモンド中の窒素空孔中心に基づくスピン量子磁気センサの感度改善を実験的に実証した。

Quantum sensors can show unprecedented sensitivities, provided they are controlled in a very specific, optimal way. Here, we consider a spin sensor of time-varying fields in the presence of dephasing noise, and we show that the problem of finding the pulsed control field that optimizes the sensitivity (i.e., the smallest detectable signal) can be mapped to the determination of the ground state of a spin chain. We find an approximate but analytic solution of this problem, which provides a \emph{lower bound} for the sensitivity and a pulsed control very close to optimal, which we further use as initial guess for realizing a fast simulated annealing algorithm. We experimentally demonstrate the sensitivity improvement for a spin-qubit magnetometer based on a nitrogen-vacancy center in diamond.
翻訳日:2024-05-17 20:01:05 公開日:2024-05-16
# 資源問題

Resource Marginal Problems ( http://arxiv.org/abs/2202.03523v3 )

ライセンス: Link先を確認
Chung-Yun Hsieh, Gelo Noel M. Tabia, Yu-Chun Yin, Yeong-Cherng Liang, (参考訳) 本稿では,資源を含まないターゲットサブシステムが,与えられた限界密度行列の集合と互換性を持つ可能性を懸念するリソース境界問題を紹介する。 リソースRとターゲットサブシステムTの適切な選択を特定することにより、量子状態の周縁問題と、与えられた量子システムがリソースであるかどうかを決定する問題にそれぞれ問題を還元する。 より一般的に、この集合と互換性のあるすべての大域的状態が、タイプ R の T の資源的状態をもたらす必要があるならば、境界状態の集合は、対象のサブシステム T とリソース的不整合であると言える。 さらに,(1) 資源自由不和合性は,(1) チャネル識別タスクにおける操作上の優位性と等価であること,(2) 資源自由不和合性を示す限界密度行列間の変換性を完全に特徴付けること,を示す。 我々の枠組みを通じて、量子状態に対するいくつかの非競合性の概念と量子状態に対する資源理論との明確な関係を見出す。 また、資源境界問題の物理的関係と、特定の多体ハミルトニアンの基底状態特性との密接な関係を確立する。 応用の観点からは、我々のフレームワークの普遍性は、例えば、最近提案された狭義の狭義の問題と狭義の過渡性問題に付随する不整合性のより定量的な理解につながる。

We introduce the resource marginal problems, which concern the possibility of having a resource-free target subsystem compatible with a given collection of marginal density matrices. By identifying an appropriate choice of resource R and target subsystem T, our problems reduce, respectively, to the well-known marginal problems for quantum states and the problem of determining if a given quantum system is a resource. More generally, we say that a set of marginal states is resource-free incompatible with a target subsystem T if all global states compatible with this set must result in a resourceful state in T of type R. We show that this incompatibility induces a resource theory that can be quantified by a monotone and obtain necessary and sufficient conditions for this monotone to be computable as a conic program with finite optimum. We further show, via the corresponding witnesses, that (1) resource-free incompatibility is equivalent to an operational advantage in some channel-discrimination tasks, and (2) some specific cases of such tasks fully characterize the convertibility between marginal density matrices exhibiting resource-free incompatibility. Through our framework, one sees a clear connection between any marginal problem -- which implicitly involves some notion of incompatibility -- for quantum states and a resource theory for quantum states. We also establish a close connection between the physical relevance of resource marginal problems and the ground state properties of certain many-body Hamiltonians. In terms of application, the universality of our framework leads, for example, to a further quantitative understanding of the incompatibility associated with the recently-proposed entanglement marginal problems and entanglement transitivity problems.
翻訳日:2024-05-17 20:01:05 公開日:2024-05-16
# 第3型の確率:統計的関係学習と相対周波数による推論

Probabilities of the third type: Statistical Relational Learning and Reasoning with Relative Frequencies ( http://arxiv.org/abs/2202.10367v3 )

ライセンス: Link先を確認
Felix Weitkämper, (参考訳) ドメイン内の状態の相対周波数への依存は、リレーショナルデータに対する確率的依存関係をモデル化する際によく見られる。 例えば、流行中の学校閉鎖の可能性は、感染した生徒の閾値を超える割合に依存する可能性がある。 例えば、病気を媒介する蚊の1匹が噛まれる確率は、キャリア蚊の割合に依存する。 現在のアプローチは通常、ドメイン要素自体よりも、可能世界よりも確率を考慮すべきである。 例外として最近導入されたLfted Bayesian Networks for Conditional Probability Logicがある。 本稿では,相対周波数への連続的依存を統計的リレーショナル人工知能に明示的に組み込むフォーマリズムである機能持ち上げベイジアンネットワークを紹介する。 ifted Bayesian Networks for Conditional Probability Logic と比較・比較する。 相対周波数を組み込むことはモデリングに有用であるだけでなく、トレーニングやテスト、あるいはアプリケーションドメインのサイズが異なる場合の学習問題に対して、より厳密なアプローチを提供する。 この目的のために、サイズが大きくなる領域上で、関数的持ち上げベイズネットワークによって誘導される漸近確率分布の表現を提供する。 この表現は、ドメインサイズ全体にわたるスケーリングの振る舞いをよく理解しているため、ランダムにサンプリングされたサブポピュレーションから、大きなドメインのパラメータを一貫した推定に使用できる。 さらに、FLBNのパラメトリック系では、収束はパラメータに一様であり、モデルのパラメータに漸近確率が有意に依存することを保証する。

Dependencies on the relative frequency of a state in the domain are common when modelling probabilistic dependencies on relational data. For instance, the likelihood of a school closure during an epidemic might depend on the proportion of infected pupils exceeding a threshold. Often, rather than depending on discrete thresholds, dependencies are continuous: for instance, the likelihood of any one mosquito bite transmitting an illness depends on the proportion of carrier mosquitoes. Current approaches usually only consider probabilities over possible worlds rather than over domain elements themselves. An exception are the recently introduced Lifted Bayesian Networks for Conditional Probability Logic, which express discrete dependencies on probabilistic data. We introduce functional lifted Bayesian networks, a formalism that explicitly incorporates continuous dependencies on relative frequencies into statistical relational artificial intelligence. and compare and contrast them with ifted Bayesian Networks for Conditional Probability Logic. Incorporating relative frequencies is not only beneficial to modelling; it also provides a more rigorous approach to learning problems where training and test or application domains have different sizes. To this end, we provide a representation of the asymptotic probability distributions induced by functional lifted Bayesian networks on domains of increasing sizes. Since that representation has well-understood scaling behaviour across domain sizes, it can be used to estimate parameters for a large domain consistently from randomly sampled subpopulations. Furthermore, we show that in parametric families of FLBN, convergence is uniform in the parameters, which ensures a meaningful dependence of the asymptotic probabilities on the parameters of the model.
翻訳日:2024-05-17 20:01:05 公開日:2024-05-16
# ブラックボックス変分推論の信頼性向上のためのフレームワーク

A Framework for Improving the Reliability of Black-box Variational Inference ( http://arxiv.org/abs/2203.15945v2 )

ライセンス: Link先を確認
Manushi Welandawe, Michael Riis Andersen, Aki Vehtari, Jonathan H. Huggins, (参考訳) Black-box Variational Inference (BBVI) は、マルコフ連鎖モンテカルロ法の高速かつ柔軟な代替手段として機械学習や統計学で広く使われている。 しかし、BBVIの確率的最適化手法は信頼性が低く、効果的に適用するにはかなりの専門知識と手作業が必要である。 本稿では,BBVI最適化の信頼性向上のためのフレームワークであるRobust and Automated Black-box VI (RABVI)を提案する。 RABVIは、厳格に正当化された自動化技術に基づいており、少数の直感的なチューニングパラメータを含み、最適な変分近似の不正確な推定を検出する。 RABVIは、固定学習率の反復率の収束を検出して学習率を適応的に減少させ、次に、現在の変動近似と最適な近似との対称性付きKullback--Leibler(KL)の偏差を推定する。 また、ユーザが求める精度と計算コストのバランスをとることができる新しい最適化終端基準も採用している。 i) 学習が小さい場合, 対称性付きKL分岐の相対的減少が予測される。 (2)より少ない学習率に収束するために必要な予測計算。 本研究では,RABVIのロバスト性と精度を,慎重に設計したシミュレーション研究と,実世界モデルとデータ例の多種多様なセットに基づいて検証する。

Black-box variational inference (BBVI) now sees widespread use in machine learning and statistics as a fast yet flexible alternative to Markov chain Monte Carlo methods for approximate Bayesian inference. However, stochastic optimization methods for BBVI remain unreliable and require substantial expertise and hand-tuning to apply effectively. In this paper, we propose Robust and Automated Black-box VI (RABVI), a framework for improving the reliability of BBVI optimization. RABVI is based on rigorously justified automation techniques, includes just a small number of intuitive tuning parameters, and detects inaccurate estimates of the optimal variational approximation. RABVI adaptively decreases the learning rate by detecting convergence of the fixed--learning-rate iterates, then estimates the symmetrized Kullback--Leibler (KL) divergence between the current variational approximation and the optimal one. It also employs a novel optimization termination criterion that enables the user to balance desired accuracy against computational cost by comparing (i) the predicted relative decrease in the symmetrized KL divergence if a smaller learning were used and (ii) the predicted computation required to converge with the smaller learning rate. We validate the robustness and accuracy of RABVI through carefully designed simulation studies and on a diverse set of real-world model and data examples.
翻訳日:2024-05-17 20:01:05 公開日:2024-05-16
# グラフベースセマンティックモデリングを用いた知識包含対話システムの構築

Building Knowledge-Grounded Dialogue Systems with Graph-Based Semantic Modeling ( http://arxiv.org/abs/2204.12681v2 )

ライセンス: Link先を確認
Yizhe Yang, Heyan Huang, Yang Gao, Jiawei Li and, (参考訳) 知識基盤対話タスクは、与えられた知識文書から情報を伝える応答を生成することを目的としている。 しかし、現在のシーケンスベースモデルでは、複雑な文書から知識を取得し、それを統合して、明示的な意味構造を使わずに正しい応答を実行することは困難である。 これらの問題に対処するために,対話と知識の両方の意味的構造をモデル化し,知識選択と知識接地対話生成の統合を促進する新しいグラフ構造(G^2$)を提案する。 また,複数形態の知識(シーケンシャルとグラフィックの両方)を融合させて知識接地応答生成を促進するグラウンドドグラフ認識変換器(G^2AT$)モデルを提案する。 実験の結果,提案手法は従来の最先端手法よりも10倍以上の応答生成率,20倍近い実際の整合性向上率で優れていた。 さらに,本モデルでは,優れた一般化能力とロバスト性を示す。 深層ニューラルネットワークにおいて,セマンティック構造を事前知識として組み込むことにより,我々のモデルは言語生成に有効な方法を提供する。

The knowledge-grounded dialogue task aims to generate responses that convey information from given knowledge documents. However, it is a challenge for the current sequence-based model to acquire knowledge from complex documents and integrate it to perform correct responses without the aid of an explicit semantic structure. To address these issues, we propose a novel graph structure, Grounded Graph ($G^2$), that models the semantic structure of both dialogue and knowledge to facilitate knowledge selection and integration for knowledge-grounded dialogue generation. We also propose a Grounded Graph Aware Transformer ($G^2AT$) model that fuses multi-forms knowledge (both sequential and graphic) to enhance knowledge-grounded response generation. Our experiments results show that our proposed model outperforms the previous state-of-the-art methods with more than 10\% gains in response generation and nearly 20\% improvement in factual consistency. Further, our model reveals good generalization ability and robustness. By incorporating semantic structures as prior knowledge in deep neural networks, our model provides an effective way to aid language generation.
翻訳日:2024-05-17 20:01:05 公開日:2024-05-16
# 自由意志に関する理論的コンピュータ科学の展望

A Theoretical Computer Science Perspective on Free Will ( http://arxiv.org/abs/2206.13942v5 )

ライセンス: Link先を確認
Manuel Blum, Lenore Blum, (参考訳) 我々は、計算と複雑性の基本的な原理を理解することを目的とした数学の分野である理論計算機科学(TCS)の観点から、自由意志のパラドックス的概念を考察する。

We consider the paradoxical concept of free will from the perspective of Theoretical Computer Science (TCS), a branch of mathematics concerned with understanding the underlying principles of computation and complexity, including the implications and surprising consequences of resource limitations.
翻訳日:2024-05-17 20:01:05 公開日:2024-05-16
# 候補者をどう計算するか?診断計算アルゴリズムの分類と分類

How should I compute my candidates? A taxonomy and classification of diagnosis computation algorithms ( http://arxiv.org/abs/2207.12583v2 )

ライセンス: Link先を確認
Patrick Rodler, (参考訳) 本研究は,標準化された評価,分類,比較を可能にする診断計算のための分類法を提案する。 目的は 二 研究者及び実践者が利用可能な診断技術の多様な景観を印象付けること。 (二)アプローチの長所と短所だけでなく、主要な特徴を容易に取り出すことができる。 (三)その特徴に基づいて、容易かつ明確な技術比較を可能にする。 重要で明確に定義されたプロパティのリスト、そして (4)「正しい」アルゴリズムの選択は、例えば、実際的な診断設定において、実験的な評価において比較したり、研究の過程での再利用、修正、拡張、改善のために、特定の問題に適応するように促進する。

This work proposes a taxonomy for diagnosis computation methods which allows their standardized assessment, classification and comparison. The aim is to (i) give researchers and practitioners an impression of the diverse landscape of available diagnostic techniques, (ii) allow them to easily retrieve the main features as well as pros and cons of the approaches, (iii) enable an easy and clear comparison of the techniques based on their characteristics wrt. a list of important and well-defined properties, and (iv) facilitate the selection of the "right" algorithm to adopt for a particular problem case, e.g., in practical diagnostic settings, for comparison in experimental evaluations, or for reuse, modification, extension, or improvement in the course of research.
翻訳日:2024-05-17 20:01:05 公開日:2024-05-16
# 二重単位回路で実現した一次元アーキテクチャにおける普遍的測度に基づく量子計算

Universal measurement-based quantum computation in a one-dimensional architecture enabled by dual-unitary circuits ( http://arxiv.org/abs/2209.06191v2 )

ライセンス: Link先を確認
David T. Stephen, Wen Wei Ho, Tzu-Chieh Wei, Robert Raussendorf, Ruben Verresen, (参考訳) 多体量子力学の研究から生まれる強力な道具は二重単位回路であり、これは「サイドウェイ」、すなわち空間方向に沿って読むときでもユニタリである。 本稿では,測定に基づく量子計算(MBQC)の概念を理解し,拡張するための理想的なフレームワークを提供する。 特に、二重単体回路を多体状態に適用し、適切な測定を行い、空間方向の量子計算を効果的に実施する。 パラメータ選択のパラメータを持つ一次元キックド・イジング・チェーンの力学によって生成される双対ユニタリ・ダイナミクスが、普遍的決定論的MBQCに対して資源状態を生成する方法を示す。 具体的には、深さ$kの量子回路に相当する$k$時間ステップの後、$\sim 3k/4$エンコードされた量子ビット上の普遍MBQCのリソース状態を得る。 我々のプロトコルは、時空における汎用量子回路の「回転」を可能にし、量子コンピュータにおいて量子ビット数やコヒーレンス時間などのリソースを交換する新しい方法を提供する。 実用上の利点の他に、二重単位進化は、空間的に変調された対称性を持つ新しい対称性保護位相の無限列を生成するものとして解釈し、よく研究された一次元のクラスター状態の広範な一般化を与え、我々のプロトコルが対称性を反映する変形に対して堅牢であることを示す。

A powerful tool emerging from the study of many-body quantum dynamics is that of dual-unitary circuits, which are unitary even when read `sideways', i.e., along the spatial direction. Here, we show that this provides the ideal framework to understand and expand on the notion of measurement-based quantum computation (MBQC). In particular, applying a dual-unitary circuit to a many-body state followed by appropriate measurements effectively implements quantum computation in the spatial direction. We show how the dual-unitary dynamics generated by the dynamics of the paradigmatic one-dimensional kicked Ising chain with certain parameter choices generate resource states for universal deterministic MBQC. Specifically, after $k$ time-steps, equivalent to a depth-$k$ quantum circuit, we obtain a resource state for universal MBQC on $\sim 3k/4$ encoded qubits. Our protocol allows generic quantum circuits to be `rotated' in space-time and gives new ways to exchange between resources like qubit number and coherence time in quantum computers. Beyond the practical advantages, we also interpret the dual-unitary evolution as generating an infinite sequence of new symmetry-protected topological phases with spatially modulated symmetries, which gives a vast generalization of the well-studied one-dimensional cluster state and shows that our protocol is robust to symmetry-respecting deformations.
翻訳日:2024-05-17 19:53:36 公開日:2024-05-16
# 合成人口の生成

Generating Synthetic Population ( http://arxiv.org/abs/2209.09961v2 )

ライセンス: Link先を確認
Bhavesh Neekhra, Kshitij Kapoor, Debayan Gupta, (参考訳) 本論文では,インドなどの国において,様々な行政レベルで合成人口を生成する方法を提案する。 この人工個体群は、インド国勢調査2011, IHDS-II, NSS-68th Round, GPWなどの調査データに応用された機械学習と統計手法を用いて作成されている。 合成人口は、年齢、性別、身長、体重、家や職場の場所、家庭構造、既往の健康状態、社会経済的地位、雇用といった特徴を持つ集団の個人を定義している。 提案手法を用いてインド各地の合成個体数を推定した。 また、この合成個体群を様々な指標を用いてソースデータと比較する。 実験の結果,インド各地の人口を現実的にシミュレートできることがわかった。

In this paper, we provide a method to generate synthetic population at various administrative levels for a country like India. This synthetic population is created using machine learning and statistical methods applied to survey data such as Census of India 2011, IHDS-II, NSS-68th round, GPW etc. The synthetic population defines individuals in the population with characteristics such as age, gender, height, weight, home and work location, household structure, preexisting health conditions, socio-economical status, and employment. We used the proposed method to generate the synthetic population for various districts of India. We also compare this synthetic population with source data using various metrics. The experiment results show that the synthetic data can realistically simulate the population for various districts of India.
翻訳日:2024-05-17 19:53:36 公開日:2024-05-16
# VREN:Volleyball Rally Dataset with Expression Notation Language

VREN: Volleyball Rally Dataset with Expression Notation Language ( http://arxiv.org/abs/2209.13846v2 )

ライセンス: Link先を確認
Haotian Xia, Rhys Tracy, Yun Zhao, Erwan Fraisse, Yuan-Fang Wang, Linda Petzold, (参考訳) この研究は2つの目標を達成することを意図している: 最初の目標は、選手の行動とポジションに関する重要かつ簡潔な要約と、プロおよびNCAA Div-I屋内バレーボールゲームにおけるバレーボールのバック・ツー・フォー・トラベルパターンを含む、大きく情報に富んだデータセットをキュレートすることである。 いくつかの先行研究は、他のスポーツ(例えばバドミントンやサッカー)のための同様のデータセットを作成することを目的としているが、屋内バレーボールのためのそのようなデータセットは、まだ実現されていない。 第2の目標は、ゲーム内のラリープロセスを完全に記述し、私たちのデータセットに言語を適用するために、バレーボール記述言語を導入することです。 トレーニングされたデータセットと記述型スポーツ言語に基づいて,本データセットを用いた自動バレーボール行動と戦術分析のための3つのタスクを紹介した。(1)ラリーの結果を予測し,選手やコーチが実際に意思決定を改善することを支援するバレーボールラリー予測,(2)ゲームのためにコーチや選手がより効果的に準備するタイプ・アンド・ハッティングタイプ予測,(3)バレーボール戦術・アタックゾーン統計,高度なバレーボール統計を提供し,コーチがゲームと対戦者の戦術をよりよく理解するのに役立つバレーボールラリー予測(Volleyball Rally Prediction)。 実験結果がバレーボール分析コミュニティにどのような洞察を与えるかを示すためにケーススタディを行った。 さらに、実世界のデータに基づく実験的な評価は、我々のデータセットと言語の将来の研究と応用のベースラインを確立する。 本研究は,室内バレーボール場とコンピュータ科学のギャップを埋めるものである。 データセットは、https://github.com/haotianxia/VREN.comで公開されている。

This research is intended to accomplish two goals: The first goal is to curate a large and information rich dataset that contains crucial and succinct summaries on the players' actions and positions and the back-and-forth travel patterns of the volleyball in professional and NCAA Div-I indoor volleyball games. While several prior studies have aimed to create similar datasets for other sports (e.g. badminton and soccer), creating such a dataset for indoor volleyball is not yet realized. The second goal is to introduce a volleyball descriptive language to fully describe the rally processes in the games and apply the language to our dataset. Based on the curated dataset and our descriptive sports language, we introduce three tasks for automated volleyball action and tactic analysis using our dataset: (1) Volleyball Rally Prediction, aimed at predicting the outcome of a rally and helping players and coaches improve decision-making in practice, (2) Setting Type and Hitting Type Prediction, to help coaches and players prepare more effectively for the game, and (3) Volleyball Tactics and Attacking Zone Statistics, to provide advanced volleyball statistics and help coaches understand the game and opponent's tactics better. We conducted case studies to show how experimental results can provide insights to the volleyball analysis community. Furthermore, experimental evaluation based on real-world data establishes a baseline for future studies and applications of our dataset and language. This study bridges the gap between the indoor volleyball field and computer science. The dataset is available at: https://github.com/haotianxia/VREN.
翻訳日:2024-05-17 19:53:36 公開日:2024-05-16
# 赤外線光による2パス系のデコヒーレンス

Decoherence of a 2-Path System by Infrared Photons ( http://arxiv.org/abs/2211.05813v2 )

ライセンス: Link先を確認
Colby DeLisle, P. C. E. Stamp, (参考訳) 我々は、干渉計を通過する荷電粒子の光子放射によるデコヒーレンスを計算する。 我々は、鉛とサブリードの軟質光子の量子情報内容を分離し、粒子の経路の終端に関する情報から完全に抽出できることを示す。 赤外線ドレッシング(赤外線ドレッシング)が理論の赤外偏光を治療する際、先頭の軟質光子はデコヒーレンスに寄与せず、量子情報も持たない。 対照的に、サブリーディングソフト光子は有限パス情報を持ち、サブリーディングデコヒーレンスへのコントリビューションはインターフェロメーターのサイズにのみ依存する非常に単純で時間に依存しない形式である。 興味深いオープンな疑問は、ドレッシングもサブリードの順序で適用すべきかどうかであり、この疑問に実験的に答える可能性について議論する。

We calculate the decoherence caused by photon emission for a charged particle travelling through an interferometer; the decoherence rate gives a quantitative measure of how much "which-path" quantum information is gained by the electromagnetic field. We isolate the quantum information content of both leading and sub-leading soft photons, and show that it can be extracted entirely from information about the endpoints of the particle's paths. When infrared dressing is used to cure the infrared divergences in the theory, the leading order soft photons then give no contribution to decoherence, and carry no quantum information. The sub-leading soft photons in contrast may carry finite which-path information, and the sub-leading contribution to decoherence takes an extremely simple, time-independent form depending only on the size of the interferometer. An interesting open question is whether or not dressing should also be applied at sub-leading order; we discuss the possibility of answering this question experimentally.
翻訳日:2024-05-17 19:53:36 公開日:2024-05-16
# 指向性ラカダシカル量子ウォークにおける量子スピードアップのチューニング

Tuning for Quantum Speedup in Directed Lackadaisical Quantum Walks ( http://arxiv.org/abs/2211.06167v3 )

ライセンス: Link先を確認
Pranay Naredi, J. Bharathi Kannan, M. S. Santhanam, (参考訳) 量子ウォークは、量子アルゴリズムと情報処理タスクを設計するための重要なツールである。 節足歩行では、ノードから移動する可能性に加えて、歩行者はある程度の確率で同じノードに留まることができる。 これは、ノードにアタッチされた自己ループ強度$l$でパラメータ化されたセルフループを導入することで実現される。 この研究において、不連続な量子ウォークが研究されている。 1つは古典的なウォーカーが支配的であり、もう1つは量子ウォーカーが支配的である。 後者の場合、線形および二分木上の量子ウォーカーに対して$l$の2つの異なるスケーリングレジームの存在を実証する。 驚くべきことに、大きな$l$に対して量子的に誘導される大きなスピードアップが実現される。 初期状態を調整することで、このスピードアップの程度を操作できる。

Quantum walks constitute an important tool for designing quantum algorithms and information processing tasks. In a lackadaisical walk, in addition to the possibility of moving out of a node, the walker can remain on the same node with some probability. This is achieved by introducing self-loops, parameterized by self-loop strength $l$, attached to the nodes such that large $l$ implies a higher likelihood for the walker to be trapped at the node. In this work, {\it directed}, lackadaisical quantum walks is studied. Depending on $l$, two regimes are shown to exist -- one in which classical walker dominates and the other dominated by the quantum walker. In the latter case, we also demonstrate the existence of two distinct scaling regimes with $l$ for quantum walker on a line and on a binary tree. Surprisingly, a significant quantum-induced speedup is realized for large $l$. By tuning the initial state, the extent of this speedup can be manipulated.
翻訳日:2024-05-17 19:53:36 公開日:2024-05-16
# 一般化分布意味論と分布の射影族

The generalised distribution semantics and projective families of distributions ( http://arxiv.org/abs/2211.06751v2 )

ライセンス: Link先を確認
Felix Weitkämper, (参考訳) 本稿では,確率論的論理プログラミングの基盤となる分布意味論を,その本質的な概念,自由乱数成分と決定論的部分の分離によって一般化する。 これは、確率的データベース、確率的有限モデル理論、離散持ち上げベイズネットワークからフレームワークを包含する、論理プログラミング以外の中核的な考えを抽象化する。 一般化分布セマンティクスにおいて表現可能な分布の射影族と、一般化分布セマンティクスにおいて表現可能な分布の射影族と、一般化分布セマンティクスにおいて表現可能な全ての射影族を表現できる決定的部分の論理プログラミング(非巡回決定論理プログラム)の極めて限定的な断片の両方を、完全に特徴付ける。

We generalise the distribution semantics underpinning probabilistic logic programming by distilling its essential concept, the separation of a free random component and a deterministic part. This abstracts the core ideas beyond logic programming as such to encompass frameworks from probabilistic databases, probabilistic finite model theory and discrete lifted Bayesian networks. To demonstrate the usefulness of such a general approach, we completely characterise the projective families of distributions representable in the generalised distribution semantics and we demonstrate both that large classes of interesting projective families cannot be represented in a generalised distribution semantics and that already a very limited fragment of logic programming (acyclic determinate logic programs) in the determinsitic part suffices to represent all those projective families that are representable in the generalised distribution semantics at all.
翻訳日:2024-05-17 19:53:36 公開日:2024-05-16
# 超大規模表面コード計算のための高性能コンパイラ

A High Performance Compiler for Very Large Scale Surface Code Computations ( http://arxiv.org/abs/2302.02459v3 )

ライセンス: Link先を確認
George Watkins, Hoang Minh Nguyen, Keelan Watkins, Steven Pearce, Hoi-Kwan Lau, Alexandru Paler, (参考訳) 格子演算に基づく任意の量子回路を表面コード演算に変換する,大規模量子誤り訂正のための最初の高性能コンパイラを提案する。 本コンパイラは,格子手術命令の中間表現を中心に,プラグ可能なアーキテクチャによって実装されたエンドツーエンドの誤り訂正ワークフローを提供する。 さらに、コンパイラはカスタマイズ可能な回路レイアウトをサポートし、量子ベンチマークに使用でき、量子リソース推定器を含んでいる。 コンパイラは、物理デバイスのリアルタイム操作に向けられた速度で、ストリーミングパイプラインを使用して数百万のゲートを処理することができる。 128キュービット量子フーリエ変換(QFT)の高精度Clifford+T実装に対応して,8000万秒以内の論理曲面コード命令をコンパイルした。 我々のコードは \url{https://github.com/latticesurgery-com} でオープンソース化されています。

We present the first high performance compiler for very large scale quantum error correction: it translates an arbitrary quantum circuit to surface code operations based on lattice surgery. Our compiler offers an end to end error correction workflow implemented by a pluggable architecture centered around an intermediate representation of lattice surgery instructions. Moreover, the compiler supports customizable circuit layouts, can be used for quantum benchmarking and includes a quantum resource estimator. The compiler can process millions of gates using a streaming pipeline at a speed geared towards real-time operation of a physical device. We compiled within seconds 80 million logical surface code instructions, corresponding to a high precision Clifford+T implementation of the 128-qubit Quantum Fourier Transform (QFT). Our code is open-sourced at \url{https://github.com/latticesurgery-com}.
翻訳日:2024-05-17 19:53:36 公開日:2024-05-16
# 知識グラフによる推論のためのニューロシンボリックAI:サーベイ

Neurosymbolic AI for Reasoning over Knowledge Graphs: A Survey ( http://arxiv.org/abs/2302.07200v3 )

ライセンス: Link先を確認
Lauren Nicole DeLong, Ramon Fernández Mir, Jacques D. Fleuriot, (参考訳) ニューロシンボリックAIは、シンボリック推論手法とディープラーニングを組み合わせて、補完的な利点を活用する研究の活発な領域である。 知識グラフは異種・多関係的なデータを表現するための一般的な方法になりつつあるため、グラフ構造を推論する手法はこのニューロシンボリックパラダイムに従おうとしている。 伝統的に、そのような手法はルールベースの推論か、パターンを抽出できる代表的数値埋め込みのいずれかを利用してきた。 しかし、近年のいくつかの研究は、この二分法を橋渡しして、解釈可能性を促進し、競争性能を維持し、専門家の知識を統合するモデルを作成しようとしている。 そこで我々は,知識グラフ上でニューロシンボリック推論タスクを行う手法を調査し,それらを分類できる新しい分類法を提案する。 具体的には,(1)論理的にインフォームドされた埋め込みアプローチ,(2)論理的制約を伴う埋め込みアプローチ,(3)規則学習アプローチの3つの主要なカテゴリを提案する。 分類の他に、より直接的な比較のために、アプローチの概要とソースコードへのリンクを表に示す。 最後に,これらの手法の特徴と限界について考察し,この研究分野が発展するであろういくつかの今後の方向性を提案する。

Neurosymbolic AI is an increasingly active area of research that combines symbolic reasoning methods with deep learning to leverage their complementary benefits. As knowledge graphs are becoming a popular way to represent heterogeneous and multi-relational data, methods for reasoning on graph structures have attempted to follow this neurosymbolic paradigm. Traditionally, such approaches have utilized either rule-based inference or generated representative numerical embeddings from which patterns could be extracted. However, several recent studies have attempted to bridge this dichotomy to generate models that facilitate interpretability, maintain competitive performance, and integrate expert knowledge. Therefore, we survey methods that perform neurosymbolic reasoning tasks on knowledge graphs and propose a novel taxonomy by which we can classify them. Specifically, we propose three major categories: (1) logically-informed embedding approaches, (2) embedding approaches with logical constraints, and (3) rule learning approaches. Alongside the taxonomy, we provide a tabular overview of the approaches and links to their source code, if available, for more direct comparison. Finally, we discuss the unique characteristics and limitations of these methods, then propose several prospective directions toward which this field of research could evolve.
翻訳日:2024-05-17 19:53:36 公開日:2024-05-16
# フェデレートラーニングを用いた映画推薦のためのプライバシー保護システム

A Privacy Preserving System for Movie Recommendations Using Federated Learning ( http://arxiv.org/abs/2303.04689v4 )

ライセンス: Link先を確認
David Neumann, Andreas Lutz, Karsten Müller, Wojciech Samek, (参考訳) 近年、レコメンダシステムは普及している。 彼らは多くのユーザーが直面している選択の暴行を解決し、多くのオンラインビジネスがエンゲージメントと販売を促進するために利用している。 ソーシャルネットワーク内でフィルターバブルを作成するなどの他の批判に加えて、リコメンダシステムは大量の個人情報を収集するためにしばしば修正される。 しかし、レコメンデーションをパーソナライズするためには、個人情報が不可欠である。 フェデレートラーニング(Federated Learning)と呼ばれる最近の分散学習方式により,集中的な収集なしに個人ユーザデータから学習することが可能になった。 第一に、第一に、フェデレーション学習を用いてトレーニングされており、その性質上、プライバシーを保護しつつ、ユーザはグローバルな洞察から恩恵を受けられるようにしています。 さらに、FedQと呼ばれる新しいフェデレーション学習方式が採用され、非i-d-nessや小さなローカルデータセットの問題に対処するだけでなく、クライアント更新を早期に集約することで入力データ再構成攻撃を防止する。 最後に、通信オーバヘッドを低減するために圧縮を適用し、交換されたニューラルネットワークのパラメトリゼーションを元のサイズのごく一部に大幅に圧縮する。 これは、損失の少ない量子化段階を通じてデータのプライバシを改善する可能性があると推測する。

Recommender systems have become ubiquitous in the past years. They solve the tyranny of choice problem faced by many users, and are utilized by many online businesses to drive engagement and sales. Besides other criticisms, like creating filter bubbles within social networks, recommender systems are often reproved for collecting considerable amounts of personal data. However, to personalize recommendations, personal information is fundamentally required. A recent distributed learning scheme called federated learning has made it possible to learn from personal user data without its central collection. Consequently, we present a recommender system for movie recommendations, which provides privacy and thus trustworthiness on multiple levels: First and foremost, it is trained using federated learning and thus, by its very nature, privacy-preserving, while still enabling users to benefit from global insights. Furthermore, a novel federated learning scheme, called FedQ, is employed, which not only addresses the problem of non-i.i.d.-ness and small local datasets, but also prevents input data reconstruction attacks by aggregating client updates early. Finally, to reduce the communication overhead, compression is applied, which significantly compresses the exchanged neural network parametrizations to a fraction of their original size. We conjecture that this may also improve data privacy through its lossy quantization stage.
翻訳日:2024-05-17 19:53:36 公開日:2024-05-16
# 一様悲観的リスクと最適ポートフォリオ

Uniform Pessimistic Risk and Optimal Portfolio ( http://arxiv.org/abs/2303.07158v2 )

ライセンス: Link先を確認
Sungchul Hong, Jong-June Jeon, (参考訳) 資産の最適配分はリスク尺度の理論的分析で広く議論されており、悲観論は従来の最適ポートフォリオモデルを超えた最も魅力的なアプローチの1つである。 $\alpha$-riskは、悲観的最適ポートフォリオの幅広いクラスを導出する上で重要な役割を果たす。 しかしながら、悲観的リスクによって評価された最適ポートフォリオを推定することは、計算的に抽出可能なモデルが存在しないため、依然として困難である。 本研究では,リスクに基づいて最適なポートフォリオを得るために,$\alpha$-risk を \textit{uniform pessimistic risk} と呼ぶ積分と計算アルゴリズムを提案する。 さらに、多重量子回帰、適切なスコアリングルール、分布論的ロバストな最適化の3つのアプローチの観点から、提案したリスクの理論的性質について検討する。 3つのストックデータセット(S\&P500、CSI500、KOSPI200)の実データ分析は、提案されたリスクとポートフォリオモデルの有用性を示している。

The optimal allocation of assets has been widely discussed with the theoretical analysis of risk measures, and pessimism is one of the most attractive approaches beyond the conventional optimal portfolio model. The $\alpha$-risk plays a crucial role in deriving a broad class of pessimistic optimal portfolios. However, estimating an optimal portfolio assessed by a pessimistic risk is still challenging due to the absence of a computationally tractable model. In this study, we propose an integral of $\alpha$-risk called the \textit{uniform pessimistic risk} and the computational algorithm to obtain an optimal portfolio based on the risk. Further, we investigate the theoretical properties of the proposed risk in view of three different approaches: multiple quantile regression, the proper scoring rule, and distributionally robust optimization. Real data analysis of three stock datasets (S\&P500, CSI500, KOSPI200) demonstrates the usefulness of the proposed risk and portfolio model.
翻訳日:2024-05-17 19:53:36 公開日:2024-05-16
# 層状材料を用いた光学系の定常二状態系

Stationary Two-State System in Optics using Layered Materials ( http://arxiv.org/abs/2303.08395v4 )

ライセンス: Link先を確認
Ken-ichi Sasaki, (参考訳) グラフェンのような平らな表面に電子が閉じ込められている場合、電気力学の量子化は興味深い洞察を示す。 マクスウェル方程式の1つがハミルトニアンの一部として現れ、残留ゲージ不変性により物理状態に新たな制約が生じる。 1つは光の散乱と吸収を再現し、もう1つは古典光学に精通した現象であり、もう1つは光子生成とより根本的に関連している。 これらの状態は分離不能な2状態系を形成し、光子放出効果を持つ反射係数と透過係数の新しい公式を与える。 特に、これらの状態が分離する表面の特別な厚さが存在し、パリティの概念、軸ゲージ場、表面変形を含む対称性に基づく摂動を通して物理学を探索する興味深い可能性を提供する。

In scenarios where electrons are confined to a flat surface, such as graphene, quantizing electrodynamics reveals intriguing insights. We find that one of Maxwell's equations manifests as part of the Hamiltonian, leading to novel constraints on physical states due to residual gauge invariance. We identify two quantum states with zero energy expectation values: one replicates the scattering and absorption of light, a phenomenon familiar in classical optics, while the other is more fundamentally associated with photon creation. These states form an inseparable two-state system, giving a new formula for reflection and transmission coefficients with photon emission effects. Notably, there exists a special thickness of the surface where these states decouple, offering intriguing possibilities for exploring physics through symmetry-based perturbations involving concepts of parity, axial gauge fields, and surface deformation.
翻訳日:2024-05-17 19:53:36 公開日:2024-05-16
# 状態空間分割によるゴール条件付きオフライン強化学習

Goal-conditioned Offline Reinforcement Learning through State Space Partitioning ( http://arxiv.org/abs/2303.09367v2 )

ライセンス: Link先を確認
Mianchu Wang, Yue Jin, Giovanni Montana, (参考訳) オフライン強化学習(RL)は、オフラインデータセットのみを使用してシーケンシャルな決定ポリシーを推論することを目的としている。 これは特に難しい設定で、特定のシナリオ下で複数の異なる目標や成果を達成することを学ぶ場合、報酬はわずかである。 教師付き学習による目標条件付き政策のオフライン学習では、ログライクな損失の利点により、単調な政策改善が保証される。 本研究では, 利点にもかかわらず, 分散シフトやマルチモーダリティ問題を完全に解決するには, このアプローチは依然として不十分である,と論じる。 後者は、状態から望ましい目標へと至る、ユニークで最適なポリシーを見つけることが、複数の、潜在的に矛盾する解決策が存在する可能性があるため、特に長期的タスクにおいて厳しい。 これらの課題に対処するため、我々は、帰納的バイアスの新たな源となる補足的優位性に基づく重み付け手法を提案する: 状態空間の値に基づく分割を考えると、最終目標よりも到達しやすい領域に到達することが期待される行動の寄与がさらに増加する。 実験的に,提案手法であるDual-Advantage Weighted Offline Goal-conditioned RL (DAWOG) が,一般的なベンチマークにおいて競合するオフラインアルゴリズムよりも優れていることを示す。 分析的に、学習ポリシーが基礎となる行動ポリシーよりも決して悪いものではないことを保証します。

Offline reinforcement learning (RL) aims to infer sequential decision policies using only offline datasets. This is a particularly difficult setup, especially when learning to achieve multiple different goals or outcomes under a given scenario with only sparse rewards. For offline learning of goal-conditioned policies via supervised learning, previous work has shown that an advantage weighted log-likelihood loss guarantees monotonic policy improvement. In this work we argue that, despite its benefits, this approach is still insufficient to fully address the distribution shift and multi-modality problems. The latter is particularly severe in long-horizon tasks where finding a unique and optimal policy that goes from a state to the desired goal is challenging as there may be multiple and potentially conflicting solutions. To tackle these challenges, we propose a complementary advantage-based weighting scheme that introduces an additional source of inductive bias: given a value-based partitioning of the state space, the contribution of actions expected to lead to target regions that are easier to reach, compared to the final goal, is further increased. Empirically, we demonstrate that the proposed approach, Dual-Advantage Weighted Offline Goal-conditioned RL (DAWOG), outperforms several competing offline algorithms in commonly used benchmarks. Analytically, we offer a guarantee that the learnt policy is never worse than the underlying behaviour policy.
翻訳日:2024-05-17 19:53:36 公開日:2024-05-16
# 量子インスピレーション型数値解析におけるMPSの大域的最適化

Global optimization of MPS in quantum-inspired numerical analysis ( http://arxiv.org/abs/2303.09430v2 )

ライセンス: Link先を確認
Paula García-Molina, Luca Tagliacozzo, Juan José García-Ripoll, (参考訳) 本稿では,行列積状態(MPS)を用いた偏微分方程式(PDE)の解について論じる。 この研究はハミルトン方程式の最低固有状態の探索に焦点をあて、虚数時間進化、最も急勾配降下、改善された勾配降下、暗黙的に再起動されたアルノルニ法、密度行列再正規化群(DMRG)最適化の5つのアルゴリズムが導入された。 最初の4つの方法は、限定精度線形代数のフレームワークを用いて設計され、MPSと行列積演算子(MPO)間の演算は有限資源で実装される。 すべての手法はPDEを用いて最大2次元の量子調和振動子をベンチマークし、最大2^{28}$ポイントの正規格子上でベンチマークを行う。 本研究は,MPSに基づく全ての手法が,メモリ使用量に関して,ベクトルに基づく正確な対角化手法よりも優れていることを示す。 Imaginary-timeアルゴリズムは、キャリブレーションのニーズとコストの両方において、あらゆる種類の勾配降下を過小評価している。 最後に、Arnticiのような手法やDMRGは、問題のサイズが大きくなるにつれて正確な対角化を含む他の方法よりも漸近的に優れている。

This work discusses the solution of partial differential equations (PDEs) using matrix product states (MPS). The study focuses on the search for the lowest eigenstates of a Hamiltonian equation, for which five algorithms are introduced: imaginary-time evolution, steepest gradient descent, an improved gradient descent, an implicitly restarted Arnoldi method, and density matrix renormalization group (DMRG) optimization. The first four methods are engineered using a framework of limited-precision linear algebra, where operations between MPS and matrix product operators (MPOs) are implemented with finite resources. All methods are benchmarked using the PDE for a quantum harmonic oscillator in up to two dimensions, over a regular grid with up to $2^{28}$ points. Our study reveals that all MPS-based techniques outperform exact diagonalization techniques based on vectors, with respect to memory usage. Imaginary-time algorithms are shown to underperform any type of gradient descent, both in terms of calibration needs and costs. Finally, Arnoldi like methods and DMRG asymptotically outperform all other methods, including exact diagonalization, as problem size increases, with an exponential advantage in memory and time usage.
翻訳日:2024-05-17 19:53:36 公開日:2024-05-16
# 電話会話の低レイテンシダイアリゼーションのための音声分離と音声活動検出のエンドツーエンド統合

End-to-End Integration of Speech Separation and Voice Activity Detection for Low-Latency Diarization of Telephone Conversations ( http://arxiv.org/abs/2303.12002v2 )

ライセンス: Link先を確認
Giovanni Morrone, Samuele Cornell, Luca Serafini, Enrico Zovato, Alessio Brutti, Stefano Squartini, (参考訳) 最近の研究によると、音声分離誘導ダイアリゼーション(SSGD)は、近年の音声分離の進展により、ますます有望な方向であることが示されている。 スピーカをまず分離し、次に分離されたストリーム毎に音声アクティビティ検出(VAD)を適用することでダイアリゼーションを行う。 本研究では,会話音声(CTS)領域におけるSSGDの詳細な研究を行い,主に低遅延ストリーミングダイアリゼーションアプリケーションに焦点を当てた。 我々は3つの最先端音声分離(SSep)アルゴリズムを考察し,非因果的および因果的実装と連続的なSSep(CSS)ウィンドウ推論を考慮し,オンラインシナリオとオフラインシナリオの両方でそれらの性能について検討する。 CALLHOMEとFisher Corpus(第1部と第2部)の2つの広く使用されているCTSデータセット上で,SSGDアルゴリズムを比較し,分離性能とダイアリゼーション性能を評価した。 性能向上のために,新しい因果的かつ計算効率の高い漏洩除去アルゴリズムを提案し,誤報を著しく低減した。 また、SSepとVADモジュール間の完全なエンドツーエンドのSSGD統合についても、初めて検討しています。 重要なことに、これはオラクルスピーカーソースが利用できない実世界のデータを微調整することを可能にする。 特に、我々の最良のモデルはCALLHOMEの8.8%のDERを達成しており、これは現在の最先端のエンドツーエンドのニューラルダイアリゼーションモデルよりも優れています。 最後に,分離した信号は自動音声認識にも容易に利用でき,一部の構成ではオラクルソースに近い性能が得られることを示す。

Recent works show that speech separation guided diarization (SSGD) is an increasingly promising direction, mainly thanks to the recent progress in speech separation. It performs diarization by first separating the speakers and then applying voice activity detection (VAD) on each separated stream. In this work we conduct an in-depth study of SSGD in the conversational telephone speech (CTS) domain, focusing mainly on low-latency streaming diarization applications. We consider three state-of-the-art speech separation (SSep) algorithms and study their performance both in online and offline scenarios, considering non-causal and causal implementations as well as continuous SSep (CSS) windowed inference. We compare different SSGD algorithms on two widely used CTS datasets: CALLHOME and Fisher Corpus (Part 1 and 2) and evaluate both separation and diarization performance. To improve performance, a novel, causal and computationally efficient leakage removal algorithm is proposed, which significantly decreases false alarms. We also explore, for the first time, fully end-to-end SSGD integration between SSep and VAD modules. Crucially, this enables fine-tuning on real-world data for which oracle speakers sources are not available. In particular, our best model achieves 8.8% DER on CALLHOME, which outperforms the current state-of-the-art end-to-end neural diarization model, despite being trained on an order of magnitude less data and having significantly lower latency, i.e., 0.1 vs. 1 seconds. Finally, we also show that the separated signals can be readily used also for automatic speech recognition, reaching performance close to using oracle sources in some configurations.
翻訳日:2024-05-17 19:43:51 公開日:2024-05-16
# Synthpop++: 国規模の合成人口を生成するためのハイブリッドフレームワーク

Synthpop++: A Hybrid Framework for Generating A Country-scale Synthetic Population ( http://arxiv.org/abs/2304.12284v2 )

ライセンス: Link先を確認
Bhavesh Neekhra, Kshitij Kapoor, Debayan Gupta, (参考訳) 人口調査は公共政策決定に不可欠である。 人的資源、人口統計、文化、地域、地域、国家レベルでの経済構造に関する洞察を提供する。 しかし、こうした調査は非常に高価で(特にインドのような人口の多い低所得国や中所得国では)、時間を要するため、収集されたデータの種類によってプライバシー上の懸念も高まる可能性がある。 これらの問題を踏まえて、我々はSynthPop++という新しいハイブリッドフレームワークを紹介します。これは、複数の現実世界のサーベイ(属性の異なる部分的な重なり合うセット)のデータを組み合わせて、人間の実スケールの合成人口を生成することができるものです。 批判的に、我々の人口は人口統計、社会経済、健康、立地特性を持つ個人からなる家族構造を維持している。 このようなデータは,インドにおける感染症のエージェント・ベース・モデリングという,さまざまな目的で利用することができる。 人工人口の質を評価するために、機械学習と統計メトリクスの両方を使用します。 実験の結果, 人工人口はインドの様々な行政単位の人口を現実的にシミュレートし, 都市から地域, 州に至るまで, 望まれるズームレベルの詳細なデータを生成し, 最終的に国規模の人工人口を形成することができた。

Population censuses are vital to public policy decision-making. They provide insight into human resources, demography, culture, and economic structure at local, regional, and national levels. However, such surveys are very expensive (especially for low and middle-income countries with high populations, such as India), time-consuming, and may also raise privacy concerns, depending upon the kinds of data collected. In light of these issues, we introduce SynthPop++, a novel hybrid framework, which can combine data from multiple real-world surveys (with different, partially overlapping sets of attributes) to produce a real-scale synthetic population of humans. Critically, our population maintains family structures comprising individuals with demographic, socioeconomic, health, and geolocation attributes: this means that our ``fake'' people live in realistic locations, have realistic families, etc. Such data can be used for a variety of purposes: we explore one such use case, Agent-based modelling of infectious disease in India. To gauge the quality of our synthetic population, we use both machine learning and statistical metrics. Our experimental results show that synthetic population can realistically simulate the population for various administrative units of India, producing real-scale, detailed data at the desired level of zoom -- from cities, to districts, to states, eventually combining to form a country-scale synthetic population.
翻訳日:2024-05-17 19:43:51 公開日:2024-05-16
# 機械翻訳における文レベルパラダイムの回避

Escaping the sentence-level paradigm in machine translation ( http://arxiv.org/abs/2304.12959v2 )

ライセンス: Link先を確認
Matt Post, Marcin Junczys-Dowmunt, (参考訳) 文書の文脈は、翻訳のあいまいさを解消するのに不可欠であり、実際、文書の設定は、ほぼ全ての翻訳にとって最も自然な設定である。 したがって、機械翻訳(研究と生産の両方)が数十年前の文レベルの翻訳パラダイムに留まっているのは残念である。 また、ドキュメントベースの大規模言語モデルによる競合的なプレッシャーに照らされつつある問題でもある。 文書・テキスト機械翻訳における多くの作業は存在するが、様々な理由により達成できなかった。 本稿では,3つの障害に一度に対処することで,この制約から抜け出す道を提案する。 ドキュメントレベルの情報をどこで取得すればよいのか? どうすれば良いのか わかるのでしょうか? 特殊アーキテクチャの作業とは対照的に,標準的な Transformer アーキテクチャでは十分なキャパシティがあれば十分であることを示す。 次に、後方翻訳データのみから文書サンプルを取り出すことにより、トレーニングデータの問題に対処する。 最後に,文書システム間でより識別し易い既存のコントラスト指標の生成変種を提案する。 大規模な4つの言語ペア(DE$\rightarrow$EN, EN$\rightarrow$DE, EN$\rightarrow$FR, EN$\rightarrow$RU)の結果は、ドキュメントレベルのパフォーマンスを改善するために、これら3つを一緒に成功させる。

It is well-known that document context is vital for resolving a range of translation ambiguities, and in fact the document setting is the most natural setting for nearly all translation. It is therefore unfortunate that machine translation -- both research and production -- largely remains stuck in a decades-old sentence-level translation paradigm. It is also an increasingly glaring problem in light of competitive pressure from large language models, which are natively document-based. Much work in document-context machine translation exists, but for various reasons has been unable to catch hold. This paper suggests a path out of this rut by addressing three impediments at once: what architectures should we use? where do we get document-level information for training them? and how do we know whether they are any good? In contrast to work on specialized architectures, we show that the standard Transformer architecture is sufficient, provided it has enough capacity. Next, we address the training data issue by taking document samples from back-translated data only, where the data is not only more readily available, but is also of higher quality compared to parallel document data, which may contain machine translation output. Finally, we propose generative variants of existing contrastive metrics that are better able to discriminate among document systems. Results in four large-data language pairs (DE$\rightarrow$EN, EN$\rightarrow$DE, EN$\rightarrow$FR, and EN$\rightarrow$RU) establish the success of these three pieces together in improving document-level performance.
翻訳日:2024-05-17 19:43:51 公開日:2024-05-16
# OpenBox: 汎用ブラックボックス最適化のためのPythonツールキット

OpenBox: A Python Toolkit for Generalized Black-box Optimization ( http://arxiv.org/abs/2304.13339v3 )

ライセンス: Link先を確認
Huaijun Jiang, Yu Shen, Yang Li, Beicheng Xu, Sixian Du, Wentao Zhang, Ce Zhang, Bin Cui, (参考訳) Black-box Optimization (BBO) には、自動機械学習、実験設計、データベースノブチューニングなど、幅広い応用がある。 しかしながら、既存のソフトウェアパッケージと互換性のある問題にBBOメソッドを適用する場合、適用性、性能、効率の面で課題に直面している。 本稿では,ユーザビリティを向上したオープンソースのBBOツールキットであるOpenBoxについて述べる。 ユーザフレンドリーなインターフェースと、ユーザがタスクを定義して管理するための視覚化を実装している。 OpenBoxを支えるモジュール設計は、既存のシステムに柔軟なデプロイを容易にする。 実験の結果,既存のシステムに対するOpenBoxの有効性と効率が示された。 OpenBoxのソースコードはhttps://github.com/PKU-DAIR/open-boxで入手できる。

Black-box optimization (BBO) has a broad range of applications, including automatic machine learning, experimental design, and database knob tuning. However, users still face challenges when applying BBO methods to their problems at hand with existing software packages in terms of applicability, performance, and efficiency. This paper presents OpenBox, an open-source BBO toolkit with improved usability. It implements user-friendly interfaces and visualization for users to define and manage their tasks. The modular design behind OpenBox facilitates its flexible deployment in existing systems. Experimental results demonstrate the effectiveness and efficiency of OpenBox over existing systems. The source code of OpenBox is available at https://github.com/PKU-DAIR/open-box.
翻訳日:2024-05-17 19:43:51 公開日:2024-05-16
# プライバシ保護型コンテキストプロンプトによる小学生の育成

Enhancing Small Medical Learners with Privacy-preserving Contextual Prompting ( http://arxiv.org/abs/2305.12723v2 )

ライセンス: Link先を確認
Xinlu Zhang, Shiyang Li, Xianjun Yang, Chenxin Tian, Yao Qin, Linda Ruth Petzold, (参考訳) 大規模言語モデル(LLM)は、優れた医療専門知識を示すが、データプライバシに関する懸念は、医療環境における彼らの直接的な使用を妨げている。 データプライバシ保護の改善にもかかわらず、ドメイン固有小言語モデル(SLM)はLLMを過小評価することが多く、プライバシの懸念を緩和しつつ、このパフォーマンスギャップを減らす方法の必要性を強調している。 本稿では, LLMの医療能力を利用して, プライバシ制限シナリオ下での医療作業におけるSLM性能を向上させるための, シンプルかつ効果的な手法を提案する。 具体的には、医療データからキーワードを抽出し、臨床医の思考過程をシミュレートし、LLMに医療知識集約的な文脈を創出することにより、患者のプライバシ問題を緩和する。 このコンテキストは、SLMのさらなるインプットとして機能し、意思決定能力を増強します。 本手法は,3つの医学的知識集約型タスクにおいて,ショットとフルトレーニングの両方のパフォーマンスを著しく向上させ,文脈のないSLMファインタニングに比べて最大22.57%の精度向上を実現し,プライバシ制約のあるシナリオにおける2つの医学的タスクにおいて,新たな最先端の成果を新たに設定する。 ドメイン外のテストと2つの一般的なドメインデータセットの実験は、その一般化性と幅広い適用性を示している。 私たちのコードはhttps://github.com/XZhang97666/PrivacyBoost-SLMで確認できます。

Large language models (LLMs) demonstrate remarkable medical expertise, but data privacy concerns impede their direct use in healthcare environments. Although offering improved data privacy protection, domain-specific small language models (SLMs) often underperform LLMs, emphasizing the need for methods that reduce this performance gap while alleviating privacy concerns. In this paper, we present a simple yet effective method that harnesses LLMs' medical proficiency to boost SLM performance in medical tasks under privacy-restricted scenarios. Specifically, we mitigate patient privacy issues by extracting keywords from medical data and prompting the LLM to generate a medical knowledge-intensive context by simulating clinicians' thought processes. This context serves as additional input for SLMs, augmenting their decision-making capabilities. Our method significantly enhances performance in both few-shot and full training settings across three medical knowledge-intensive tasks, achieving up to a 22.57% increase in absolute accuracy compared to SLM fine-tuning without context, and sets new state-of-the-art results in two medical tasks within privacy-restricted scenarios. Further out-of-domain testing and experiments in two general domain datasets showcase its generalizability and broad applicability. Our code can be found at https://github.com/XZhang97666/PrivacyBoost-SLM.
翻訳日:2024-05-17 19:43:51 公開日:2024-05-16
# BEIR-PL: ポーランド語におけるゼロショット情報検索ベンチマーク

BEIR-PL: Zero Shot Information Retrieval Benchmark for the Polish Language ( http://arxiv.org/abs/2305.19840v2 )

ライセンス: Link先を確認
Konrad Wojtasik, Vadim Shishkin, Kacper Wołowiec, Arkadiusz Janz, Maciej Piasecki, (参考訳) BEIRデータセットは、ゼロショット設定でのInformation Retrieval(IR)の大規模で異質なベンチマークであり、研究コミュニティ内でかなりの注目を集めている。 しかし、BEIRと類似のデータセットは主に英語に限られている。 我々の目的は、ポーランド語でIRのための大規模なリソースを確立することであり、このNLP領域の研究を前進させることである。 この作品では、mMARCOとMr.にインスパイアされた。 BEIR-PLベンチマークは、13のデータセットからなる新しいベンチマークで、IRタスクのための近代的なポーランド語モデルのさらなる開発、トレーニング、評価を促進する。 新たに導入されたBEIR-PLベンチマークにおいて,多数のIRモデルの評価と比較を行った。 さらに、ポーランド語のための事前学習されたオープンIRモデルを公開し、この分野の先駆的な発展を示す。 さらに、BM25はポーランド語よりもポーランド語のスコアがかなり低く、ポーランド語の高い屈折率と複雑な形態構造に起因することが判明した。 最後に,BM25検索の精度を高めるため,様々なモデルの再評価を行い,その特性を比較検討した。 正確なモデル比較を保証するためには、ベンチマーク全体の平均よりも、個々の結果を精査する必要がある。 そこで我々は,BEIRベンチマークを対象とする各データサブセットについて,IRモデルの結果を徹底的に分析した。 ベンチマークデータは URL {\bf https://huggingface.co/clarin-knext} で公開されている。

The BEIR dataset is a large, heterogeneous benchmark for Information Retrieval (IR) in zero-shot settings, garnering considerable attention within the research community. However, BEIR and analogous datasets are predominantly restricted to the English language. Our objective is to establish extensive large-scale resources for IR in the Polish language, thereby advancing the research in this NLP area. In this work, inspired by mMARCO and Mr.~TyDi datasets, we translated all accessible open IR datasets into Polish, and we introduced the BEIR-PL benchmark -- a new benchmark which comprises 13 datasets, facilitating further development, training and evaluation of modern Polish language models for IR tasks. We executed an evaluation and comparison of numerous IR models on the newly introduced BEIR-PL benchmark. Furthermore, we publish pre-trained open IR models for Polish language,d marking a pioneering development in this field. Additionally, the evaluation revealed that BM25 achieved significantly lower scores for Polish than for English, which can be attributed to high inflection and intricate morphological structure of the Polish language. Finally, we trained various re-ranking models to enhance the BM25 retrieval, and we compared their performance to identify their unique characteristic features. To ensure accurate model comparisons, it is necessary to scrutinise individual results rather than to average across the entire benchmark. Thus, we thoroughly analysed the outcomes of IR models in relation to each individual data subset encompassed by the BEIR benchmark. The benchmark data is available at URL {\bf https://huggingface.co/clarin-knext}.
翻訳日:2024-05-17 19:43:51 公開日:2024-05-16
# アフリカ中心音声認識の強化:一般化可能なASRモデルのための認識不確実性駆動型データ選択

Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models ( http://arxiv.org/abs/2306.02105v4 )

ライセンス: Link先を確認
Bonaventure F. P. Dossou, (参考訳) アクセントは人間のコミュニケーションを形作る上で重要な役割を担い、明確さと文化的ニュアンスでメッセージを伝え、理解する能力を高める。 自動音声認識(ASR)の進歩は著しいが、アフリカ系英語のASRは、訓練データセットが不足しているために検討されている。 いくつかのアクティブな学習パラダイムとコアセットのアプローチを組み合わせることで,認識の不確実性を利用してアノテーションプロセスを自動化するマルチラウンド適応プロセスを提案し,関連するコストと人的労力を大幅に削減する。 本手法は,データアノテーションを合理化し,モデル不確実性に最も寄与するデータサンプルを戦略的に選択することにより,トレーニング効率を向上させる。 我々は、ハードアクセントへのモデル適応を追跡するために、U-WERと呼ばれる新しい計量を定義する。 提案手法は,複数の領域,データセット,高性能音声モデルにまたがって評価する。 以上の結果から,従来のベースラインよりも平均45倍少ないデータを必要とする一方で,69.44倍のWER改善を実現していることがわかった。 また,非常に低リソースのアクセントに対する分布外一般化を改良し,アクセント付きアフリカASRの文脈で一般化可能なASRモデルを構築する可能性を示した。 当社は,コードである‘href{https://github.com/bonaventuredossou/active_learning_african_asr}{here}’をオープンソースにしています。

Accents play a pivotal role in shaping human communication, enhancing our ability to convey and comprehend messages with clarity and cultural nuance. While there has been significant progress in Automatic Speech Recognition (ASR), African-accented English ASR has been understudied due to a lack of training datasets, which are often expensive to create and demand colossal human labor. Combining several active learning paradigms and the core-set approach, we propose a new multi-rounds adaptation process that uses epistemic uncertainty to automate the annotation process, significantly reducing the associated costs and human labor. This novel method streamlines data annotation and strategically selects data samples that contribute most to model uncertainty, thereby enhancing training efficiency. We define a new metric called U-WER to track model adaptation to hard accents. We evaluate our approach across several domains, datasets, and high-performing speech models. Our results show that our approach leads to a 69.44\% WER improvement while requiring on average 45\% less data than established baselines. Our approach also improves out-of-distribution generalization for very low-resource accents, demonstrating its viability for building generalizable ASR models in the context of accented African ASR. We open-source the code \href{https://github.com/bonaventuredossou/active_learning_african_asr}{here}.
翻訳日:2024-05-17 19:43:51 公開日:2024-05-16
# 大規模言語モデルにおける盲点:超言語的言語情報

A blind spot for large language models: Supradiegetic linguistic information ( http://arxiv.org/abs/2306.06794v3 )

ライセンス: Link先を確認
Julia Witte Zimmerman, Denis Hudon, Kathryn Cramer, Jonathan St. Onge, Mikaela Fudolig, Milo Z. Trujillo, Christopher M. Danforth, Peter Sheridan Dodds, (参考訳) ChatGPTのような大きな言語モデル(LLM)は、人工知能の分野における大きな変化を反映しており、驚くべきことに、衝撃的にも人間らしく、言語的な流布を達成している。 彼らの現在の能力と潜在能力の範囲は、科学研究者に限らず活発な調査領域である。 LLMのトレーニングデータを「テキスト」あるいは「言語」としてフレーム化することは一般的である。 本稿では,言語学,具体的認知,認知科学,数学,歴史など,いくつかの分野の思想を用いて,この枠組みの詳細について検討する。 我々は,ChatGPTのようなLCMがどのようなものかを考えると,Nagel氏が言うように,言語訓練データへの露出は,言語に符号化されたダイジェティック情報への露出として生産的に再編成可能であり,その欠陥は,相補的言語情報を含む外的情報の無知として再編成可能であることを示唆する。 相補的言語情報は、ChatGPTのようなLLMがアクセス可能な文脈(頻度、隣接性、近接性、共起性)の1次元関係から導出できない、物理的な言語の形の任意の側面で構成されている。 おおまかに言えば、単語のダイジェティック部分は、その機能、その意味を、単語の埋め込みにおける理論ベクトルの情報とみなすことができ、その単語の擬態的な部分は、その文字の形状や音節の音のような、その形式とみなすことができる。 これらの概念を用いて,ChatGPT などの LLM がパリンドロム処理に苦慮する理由,シンボルの視覚的特徴,シュメール・キュニフォームの翻訳,整数列の継続について検討する。

Large Language Models (LLMs) like ChatGPT reflect profound changes in the field of Artificial Intelligence, achieving a linguistic fluency that is impressively, even shockingly, human-like. The extent of their current and potential capabilities is an active area of investigation by no means limited to scientific researchers. It is common for people to frame the training data for LLMs as "text" or even "language". We examine the details of this framing using ideas from several areas, including linguistics, embodied cognition, cognitive science, mathematics, and history. We propose that considering what it is like to be an LLM like ChatGPT, as Nagel might have put it, can help us gain insight into its capabilities in general, and in particular, that its exposure to linguistic training data can be productively reframed as exposure to the diegetic information encoded in language, and its deficits can be reframed as ignorance of extradiegetic information, including supradiegetic linguistic information. Supradiegetic linguistic information consists of those arbitrary aspects of the physical form of language that are not derivable from the one-dimensional relations of context -- frequency, adjacency, proximity, co-occurrence -- that LLMs like ChatGPT have access to. Roughly speaking, the diegetic portion of a word can be thought of as its function, its meaning, as the information in a theoretical vector in a word embedding, while the supradiegetic portion of the word can be thought of as its form, like the shapes of its letters or the sounds of its syllables. We use these concepts to investigate why LLMs like ChatGPT have trouble handling palindromes, the visual characteristics of symbols, translating Sumerian cuneiform, and continuing integer sequences.
翻訳日:2024-05-17 19:43:51 公開日:2024-05-16
# MIMIC:画像対応による仮面画像モデリング

MIMIC: Masked Image Modeling with Image Correspondences ( http://arxiv.org/abs/2306.15128v4 )

ライセンス: Link先を確認
Kalyani Marathe, Mahtab Bigverdi, Nishat Khan, Tuhin Kundu, Patrick Howe, Sharan Ranjit S, Anand Bhattad, Aniruddha Kembhavi, Linda G. Shapiro, Ranjay Krishna, (参考訳) 大規模なマルチビューデータセットが利用できないため、大規模なピクセル固有表現学習はボトルネックとなっている。 効果的な事前トレーニングデータセットを構築する現在の方法は、アノテーション付き3Dメッシュ、ポイントクラウド、シミュレートされた環境からのカメラパラメータに大きく依存している。 我々は、追加のアノテーションを必要としない事前トレーニングされたデータセットキュレーションアプローチを提案する。 提案手法により,実世界のビデオとシミュレーション環境の両方から,大規模にマルチビューデータセットを生成することができる。 具体的には、1.3MのMIMIC-1Mと3.1MのMIMIC-3Mの2つのスケールで実験を行った。 自動生成MIMIC-3Mでトレーニングした表現は、高価なクラウドソースデータセット(ImageNet-1K)と合成環境(MULTIVIEW-HABITAT)から学んだもの、NYUv2の深さ推定(1.7%)、タスクノミーの表面正規度推定(1.5%)より優れている。 オブジェクト理解も必要となる密集したタスクに対しては、ADE20KのセマンティックセグメンテーションにおいてMultiVIEW-HABITATを上回り(3.89%)、MSCOCO(9.4%)を推定し、オブジェクト中心の高価なImageNet-1Kで事前訓練されたモデルとのギャップを小さくする。 表現が凍結され、下流のトレーニングデータが数ショットに制限された場合でもパフォーマンスが向上します。 より大規模なデータセット(MIMIC-3M)は、より大規模なデータセットを生成するために任意にスケールできるので、パフォーマンスが大幅に向上する。 MIMICコード、データセット、トレーニング済みモデルはhttps://github.com/RAIVNLab/MIMICでオープンソース化されている。

Dense pixel-specific representation learning at scale has been bottlenecked due to the unavailability of large-scale multi-view datasets. Current methods for building effective pretraining datasets heavily rely on annotated 3D meshes, point clouds, and camera parameters from simulated environments, preventing them from building datasets from real-world data sources where such metadata is lacking. We propose a pretraining dataset-curation approach that does not require any additional annotations. Our method allows us to generate multi-view datasets from both real-world videos and simulated environments at scale. Specifically, we experiment with two scales: MIMIC-1M with 1.3M and MIMIC-3M with 3.1M multi-view image pairs. We train multiple models with different masked image modeling objectives to showcase the following findings: Representations trained on our automatically generated MIMIC-3M outperform those learned from expensive crowdsourced datasets (ImageNet-1K) and those learned from synthetic environments (MULTIVIEW-HABITAT) on two dense geometric tasks: depth estimation on NYUv2 (1.7%), and surface normals estimation on Taskonomy (2.05%). For dense tasks which also require object understanding, we outperform MULTIVIEW-HABITAT, on semantic segmentation on ADE20K (3.89%), pose estimation on MSCOCO (9.4%), and reduce the gap with models pre-trained on the object-centric expensive ImageNet-1K. We outperform even when the representations are frozen, and when downstream training data is limited to few-shot. Larger dataset (MIMIC-3M) significantly improves performance, which is promising since our curation method can arbitrarily scale to produce even larger datasets. MIMIC code, dataset, and pretrained models are open-sourced at https://github.com/RAIVNLab/MIMIC.
翻訳日:2024-05-17 19:43:51 公開日:2024-05-16
# 部分空間に制限された最適ミキサーと安定化形式

Optimal mixers restricted to subspaces and the stabilizer formalism ( http://arxiv.org/abs/2306.17083v3 )

ライセンス: Link先を確認
Franz G. Fuchs, Ruben Pariente Bassa, (参考訳) 与えられた部分空間を保存するミキサーの理解と構築を両立させる新しい形式主義を提示する。 この方法は、誤り訂正符号に使用される安定化器形式を接続して利用する。 これは、組合せ最適化問題の解法として一般的なメタヒューリスティックである量子近似最適化アルゴリズム(QAOA)が、問題の制約が大きくて容易に指定可能な部分空間に導かれるような設定に適用される場合に有用である。 提案手法は,制御されたノットゲートの数で資源効率のよいミキサーを構築する体系的な方法を提供し,よく知られたXとXYミキサーの一般化とGroverミキサーの緩和と理解することができる。 得られた数値例では, 従来の結果と比較してCXゲートが劇的に減少していた。 我々は、この部分空間を安定化器Sの符号空間に分割し、これらの符号空間に関連する論理回転Xゲートを連続的に適用するものとして理解することができるので、我々のアプローチを論理X-Mixerあるいは論理X QAOA(\textbf{LX-QAOA}$)と呼ぶ。 全体として、この新しい視点が量子アルゴリズムの発展に関するさらなる洞察に繋がることを願っている。

We present a novel formalism to both understand and construct mixers that preserve a given subspace. The method connects and utilizes the stabilizer formalism that is used in error correcting codes. This can be useful in the setting when the quantum approximate optimization algorithm (QAOA), a popular meta-heuristic for solving combinatorial optimization problems, is applied in the setting where the constraints of the problem lead to a feasible subspace that is large but easy to specify. The proposed method gives a systematic way to construct mixers that are resource efficient in the number of controlled not gates and can be understood as a generalization of the well-known X and XY mixers and a relaxation of the Grover mixer: Given a basis of any subspace, a resource efficient mixer can be constructed that preserves the subspace. The numerical examples provided show a dramatic reduction of CX gates when compared to previous results. We call our approach logical X-Mixer or logical X QAOA ($\textbf{LX-QAOA}$), since it can be understood as dividing the subspace into code spaces of stabilizers S and consecutively applying logical rotational X gates associated with these code spaces. Overall, we hope that this new perspective can lead to further insight into the development of quantum algorithms.
翻訳日:2024-05-17 19:43:51 公開日:2024-05-16
# 量子計算の安定性に及ぼす信頼できないデバイスの影響

Impact of unreliable devices on stability of quantum computations ( http://arxiv.org/abs/2307.06833v2 )

ライセンス: Link先を確認
Samudra Dasgupta, Travis S. Humble, (参考訳) ノイズの多い中間スケール量子(NISQ)デバイスは、量子コンピューティングのテテットをテストする上で貴重なプラットフォームであるが、これらのデバイスは、非コヒーレンス、リーク、クロストーク、その他のノイズ源によるエラーの影響を受けやすい。 NISQデバイスを使用する場合、エラーを緩和するための戦略は、一般的に、十分な特性と定常的なエラーモデルを必要とするため、結果の安定性に関する懸念を提起する。 ここでは、所定の許容範囲内で安定した結果を生成するために必要な条件を評価することにより、NISQ装置の信頼性を定量化する。 本研究では,デバイス特性データから導出した類似度指標を用いて,ベルンシュタイン・ヴァジラニアルゴリズムの5キュービット実装の安定性に関するバウンダリを導出し,検証する。 2022年1月から2023年4月にかけて、IBM Washingtonのノイズデータを用いて行われたシミュレーション実験により、信頼性基準が41%から92%の間で変動したことが明らかになった。 この変動は安定な結果に必要な2.2%の許容閾値をはるかに上回っている。 その結果、この装置はベルンシュタイン・ヴァジラーニ回路の文脈で統計平均を一貫して再現することができないことが判明した。

Noisy intermediate-scale quantum (NISQ) devices are valuable platforms for testing the tenets of quantum computing, but these devices are susceptible to errors arising from de-coherence, leakage, cross-talk and other sources of noise. This raises concerns regarding the stability of results when using NISQ devices since strategies for mitigating errors generally require well-characterized and stationary error models. Here, we quantify the reliability of NISQ devices by assessing the necessary conditions for generating stable results within a given tolerance. We use similarity metrics derived from device characterization data to derive and validate bounds on the stability of a 5-qubit implementation of the Bernstein-Vazirani algorithm. Simulation experiments conducted with noise data from IBM Washington, spanning January 2022 to April 2023, revealed that the reliability metric fluctuated between 41% and 92%. This variation significantly surpasses the maximum allowable threshold of 2.2% needed for stable outcomes. Consequently, the device proved unreliable for consistently reproducing the statistical mean in the context of the Bernstein-Vazirani circuit.
翻訳日:2024-05-17 19:43:51 公開日:2024-05-16
# RCM融合:3次元物体検出のためのレーダーカメラ多層核融合

RCM-Fusion: Radar-Camera Multi-Level Fusion for 3D Object Detection ( http://arxiv.org/abs/2307.10249v5 )

ライセンス: Link先を確認
Jisong Kim, Minjae Seong, Geonho Bang, Dongsuk Kum, Jun Won Choi, (参考訳) LiDARセンサーは3Dオブジェクト検出にうまく応用されているが、レーダーやカメラセンサーが手に入ることで、3Dオブジェクト検出のためのレーダーやカメラの融合への関心が高まっている。 しかし、従来のレーダーとカメラの融合モデルはレーダー情報の可能性を十分に活用できなかった。 本稿では,特徴レベルとインスタンスレベルの両モードを融合するRadar-Camera Multi-level fusion (RCM-Fusion)を提案する。 特徴レベルの融合のために,レーダーバード-アイビュー(BEV)特徴の誘導を用いて,カメラ特徴を正確なBEV表現に変換するレーダー誘導型BEVエンコーダを提案し,レーダとカメラのBEV特徴を組み合わせた。 本稿では, レーダ点雲の特性を考慮し, 位置誤差を低減できるレーダ格子点再分極モジュールを提案する。 公開nuScenesデータセットを用いて行った実験により,提案したRCM-Fusionは,nuScenes 3Dオブジェクト検出ベンチマークにおいて,単一フレームベースレーダカメラ融合方式の最先端性能を実現することが示された。 コードは公開されます。

While LiDAR sensors have been successfully applied to 3D object detection, the affordability of radar and camera sensors has led to a growing interest in fusing radars and cameras for 3D object detection. However, previous radar-camera fusion models were unable to fully utilize the potential of radar information. In this paper, we propose Radar-Camera Multi-level fusion (RCM-Fusion), which attempts to fuse both modalities at both feature and instance levels. For feature-level fusion, we propose a Radar Guided BEV Encoder which transforms camera features into precise BEV representations using the guidance of radar Bird's-Eye-View (BEV) features and combines the radar and camera BEV features. For instance-level fusion, we propose a Radar Grid Point Refinement module that reduces localization error by accounting for the characteristics of the radar point clouds. The experiments conducted on the public nuScenes dataset demonstrate that our proposed RCM-Fusion achieves state-of-the-art performances among single frame-based radar-camera fusion methods in the nuScenes 3D object detection benchmark. Code will be made publicly available.
翻訳日:2024-05-17 19:43:51 公開日:2024-05-16
# 非Kochen-Speckerコンテキスト性

Non-Kochen-Specker Contextuality ( http://arxiv.org/abs/2307.16339v2 )

ライセンス: Link先を確認
Mladen Pavicic, (参考訳) 量子コンテキスト性(quantum contextuality)は、量子計算と通信をサポートする。 主要車両の1つはハイパーグラフである。 最も精巧なものはコチェン=スペクターであるが、この種のものではない文脈集合の別のクラスもある。 彼らの表現は、主に作用素ベースであり、3次元から6次元の空間における特別な構成に限られており、その顕著な例はユオ集合である。 以前は、ハイパーグラフがこれらすべてを満たすことが示されており、この論文では、任意の次元においてそのような非コッチェン・スペクターハイパーグラフを生成するために、複雑性が次元にスケールアップしない一般的な方法を与え、最大16次元空間での例を示す。 我々の自動生成は確率的かつランダムであるが、蓄積されたデータの統計により、必要なサイズと構造を持つ集合をフィルタリングすることができる。

Quantum contextuality supports quantum computation and communication. One of its main vehicles is hypergraphs. The most elaborated are the Kochen-Specker ones, but there is also another class of contextual sets that are not of this kind. Their representation has been mostly operator-based and limited to special constructs in three- to six-dim spaces, a notable example of which is the Yu-Oh set. Previously, we showed that hypergraphs underlie all of them, and in this paper, we give general methods - whose complexity does not scale up with the dimension - for generating such non-Kochen-Specker hypergraphs in any dimension and give examples in up to 16-dim spaces. Our automated generation is probabilistic and random, but the statistics of accumulated data enable one to filter out sets with the required size and structure.
翻訳日:2024-05-17 19:43:51 公開日:2024-05-16
# Lookbehind-SAM: k ステップ後退、1 ステップ前進

Lookbehind-SAM: k steps back, 1 step forward ( http://arxiv.org/abs/2307.16704v3 )

ライセンス: Link先を確認
Gonçalo Mordido, Pranshu Malviya, Aristide Baratin, Sarath Chandar, (参考訳) シャープネス認識最小化(SAM)法は、損失値と損失シャープネスの両方を最小化する問題をミニマックス目的として定式化し、人気を高めている。 本研究では,SAM目標の最大化および最小化部分の効率を向上し,ロスシャープ性トレードオフを向上する。 先行する複数の降下ステップを利用するLookaheadオプティマイザからインスピレーションを得て,SAMの最大化ステップを向上し,損失の大きい最悪の摂動を見つけるために,Lookbehindを提案する。 そして,複数の昇降段にまたがる勾配から生じる降下段差を緩和するため,線形補間を用いて最小化段を改良する。 Lookbehindはさまざまなタスクに無数のメリットをもたらします。 特に, 一般化性能の向上, ノイズ重みに対する強靭性の向上, 学習の改善, 生涯学習環境における破滅的な忘れ込みの低減が見られた。 私たちのコードはhttps://github.com/chandar-lab/Lookbehind-SAMで公開されています。

Sharpness-aware minimization (SAM) methods have gained increasing popularity by formulating the problem of minimizing both loss value and loss sharpness as a minimax objective. In this work, we increase the efficiency of the maximization and minimization parts of SAM's objective to achieve a better loss-sharpness trade-off. By taking inspiration from the Lookahead optimizer, which uses multiple descent steps ahead, we propose Lookbehind, which performs multiple ascent steps behind to enhance the maximization step of SAM and find a worst-case perturbation with higher loss. Then, to mitigate the variance in the descent step arising from the gathered gradients across the multiple ascent steps, we employ linear interpolation to refine the minimization step. Lookbehind leads to a myriad of benefits across a variety of tasks. Particularly, we show increased generalization performance, greater robustness against noisy weights, as well as improved learning and less catastrophic forgetting in lifelong learning settings. Our code is available at https://github.com/chandar-lab/Lookbehind-SAM.
翻訳日:2024-05-17 19:34:02 公開日:2024-05-16
# 量子近似最適化アルゴリズムによる分子ドッキング

Molecular docking via quantum approximate optimization algorithm ( http://arxiv.org/abs/2308.04098v2 )

ライセンス: Link先を確認
Qi-Ming Ding, Yi-Ming Huang, Xiao Yuan, (参考訳) 分子ドッキングは、薬物発見と精密医療において重要な役割を担い、タンパク質の機能を理解し、新しい治療法を進歩させることができる。 本稿では,量子コンピュータ上での反断熱駆動とQAOAを利用するディジタルカウンタ型量子近似最適化アルゴリズム(DC-QAOA)を提案する。 PM-2-020BのSARS-CoV-2 Mpro複合体,イミダゾピリジン34のDPP-4複合体,JP-III-048のHIV-1 gp120複合体など,多様な生物学的システムの解析に応用した。 DC-QAOAは優れた性能を示し、特に大きな分子ドッキング問題に対して、より正確で生物学的に関連するドッキング結果を提供する。 さらに、QAOAベースのアルゴリズムは、ノイズの多い中間スケール量子時代のハードウェア互換性を向上し、実用的なドッキングシナリオ下での効率的な実装の可能性を示している。 我々の発見は、薬物発見における量子コンピューティングの可能性を強調し、タンパク質リガンドドッキングプロセスを最適化するための貴重な洞察を提供する。

Molecular docking plays a pivotal role in drug discovery and precision medicine, enabling us to understand protein functions and advance novel therapeutics. Here, we introduce a potential alternative solution to this problem, the digitized-counterdiabatic quantum approximate optimization algorithm (DC-QAOA), which utilizes counterdiabatic driving and QAOA on a quantum computer. Our method was applied to analyze diverse biological systems, including the SARS-CoV-2 Mpro complex with PM-2-020B, the DPP-4 complex with piperidine fused imidazopyridine 34, and the HIV-1 gp120 complex with JP-III-048. The DC-QAOA exhibits superior performance, providing more accurate and biologically relevant docking results, especially for larger molecular docking problems. Moreover, QAOA-based algorithms demonstrate enhanced hardware compatibility in the noisy intermediate-scale quantum era, indicating their potential for efficient implementation under practical docking scenarios. Our findings underscore quantum computing's potential in drug discovery and offer valuable insights for optimizing protein-ligand docking processes.
翻訳日:2024-05-17 19:34:02 公開日:2024-05-16
# VulLibGen: 生成前トレーニングモデルによる脆弱性のあるサードパーティライブラリの識別

VulLibGen: Identifying Vulnerable Third-Party Libraries via Generative Pre-Trained Model ( http://arxiv.org/abs/2308.04662v2 )

ライセンス: Link先を確認
Tianyu Chen, Lin Li, Liuchuan Zhu, Zongyang Li, Xueqing Liu, Guangtai Liang, Qianxiang Wang, Tao Xie, (参考訳) セキュリティ実践者は、セキュリティリスクを軽減するために脆弱性レポート(GitHub Advisoryなど)を維持する。 これらのデータベースにとって重要なタスクは、レポートに記載されている構造化情報、例えば影響を受けるソフトウェアパッケージを自動的に抽出して、脆弱性エコシステムの防衛を加速することである。 しかし、影響を受けるパッケージ識別に関する既存の作業は、高い精度で達成することは困難である。 一つの理由は、既存の全ての作業が比較的小さなモデルに焦点を当てているため、大きな言語モデルの知識と意味の能力を活用できないからである。 この制限に対処するため、影響を受けるパッケージ識別に LLM を使用する最初の方法である VulLibGen を提案する。 既存の作業とは対照的に、VulLibGenは影響を受けるパッケージを直接生成する新しいアイデアを提案している。 精度を向上させるため、VulLibGenは教師付き微調整(SFT)、検索拡張生成(RAG)、局所探索アルゴリズムを採用している。 局所探索アルゴリズムは、生成したパッケージの幻覚を低減するために導入された新しい後処理アルゴリズムである。 VulLibGenはGitHub Advisory(Java、JS、Python、Go)の4つの最も人気のあるエコシステムにおいて、脆弱性のあるパッケージを識別するための平均精度0.806であり、以前の作業で最高の平均精度は0.721である。 さらに、VulLibGenはセキュリティプラクティスに高い価値があります。私たちはGitHub Advisory(4つのエコシステムをカバー)に60組の<vulnerability, affected package>ペアを提出しました。 34件が承認され、合併され、20件が承認待ちである。 コードとデータセットは添付ファイルにある。

Security practitioners maintain vulnerability reports (e.g., GitHub Advisory) to help developers mitigate security risks. An important task for these databases is automatically extracting structured information mentioned in the report, e.g., the affected software packages, to accelerate the defense of the vulnerability ecosystem. However, it is challenging for existing work on affected package identification to achieve a high accuracy. One reason is that all existing work focuses on relatively smaller models, thus they cannot harness the knowledge and semantic capabilities of large language models. To address this limitation, we propose VulLibGen, the first method to use LLM for affected package identification. In contrast to existing work, VulLibGen proposes the novel idea to directly generate the affected package. To improve the accuracy, VulLibGen employs supervised fine-tuning (SFT), retrieval augmented generation (RAG) and a local search algorithm. The local search algorithm is a novel postprocessing algorithm we introduce for reducing the hallucination of the generated packages. Our evaluation results show that VulLibGen has an average accuracy of 0.806 for identifying vulnerable packages in the four most popular ecosystems in GitHub Advisory (Java, JS, Python, Go) while the best average accuracy in previous work is 0.721. Additionally, VulLibGen has high value to security practice: we submitted 60 <vulnerability, affected package> pairs to GitHub Advisory (covers four ecosystems). 34 of them have been accepted and merged and 20 are pending approval. Our code and dataset can be found in the attachments.
翻訳日:2024-05-17 19:34:02 公開日:2024-05-16
# PACE:大規模言語モデルのためのアクタクリティカル編集によるプロンプトの改善

PACE: Improving Prompt with Actor-Critic Editing for Large Language Model ( http://arxiv.org/abs/2308.10088v2 )

ライセンス: Link先を確認
Yihong Dong, Kangcheng Luo, Xue Jiang, Zhi Jin, Ge Li, (参考訳) 大規模言語モデル(LLM)は、プロンプトを条件付けすることで、様々なタスクにおいて顕著なポテンシャルを示した。 しかし、異なる人書きのプロンプトの品質は、LLMのパフォーマンスにかなりの違いをもたらし、通常、プロンプトを改善するにはかなりの人的努力と専門知識が必要である。 そこで本研究では,自動プロンプト編集を実現するために,PLMのためのPACE(Prompt with Actor-Critic Editing)を提案する。 PACEは、強化学習におけるアクター批判アルゴリズムからインスピレーションを得て、LSMをアクターと批評家の二重の役割として活用し、プロンプトを政策の一種として概念化している。 PACEはプロンプトを洗練させ、プロンプトを行う俳優と批評家の両方からのフィードバックを考慮に入れ、反応を批判している。 このプロセスは、LLMの実際の応答と思考のおかげで、特定のタスクへのプロンプトの調整に役立ちます。 我々は,24の指導指導タスクと21のビッグベンチタスクについて広範な実験を行った。 実験の結果,PACEは中級・低級の人書きプロンプトの相対的な性能を最大98%向上し,高品質の人書きプロンプトと同等の性能を示した。 さらに、PACEは、即時発生に対する顕著な効果を示す。

Large language models (LLMs) have showcased remarkable potential across various tasks by conditioning on prompts. However, the quality of different human-written prompts leads to substantial discrepancies in LLMs' performance, and improving prompts usually necessitates considerable human effort and expertise. To this end, this paper proposes Prompt with Actor-Critic Editing (PACE) for LLMs to enable automatic prompt editing. Drawing inspiration from the actor-critic algorithm in reinforcement learning, PACE leverages LLMs as the dual roles of actors and critics, conceptualizing prompt as a type of policy. PACE refines prompt, taking into account the feedback from both actors performing prompt and critics criticizing response. This process helps LLMs better align prompt to a specific task, thanks to real responses and thinking from LLMs. We conduct extensive experiments on 24 instruction induction tasks and 21 big-bench tasks. Experimental results indicate that PACE elevates the relative performance of medium/low-quality human-written prompts by up to 98\%, which has comparable performance to high-quality human-written prompts. Moreover, PACE also exhibits notable efficacy for prompt generation.
翻訳日:2024-05-17 19:34:02 公開日:2024-05-16
# 基礎モデル指向ロバスト性:事前学習モデルによるロバスト画像モデル評価

Foundation Model-oriented Robustness: Robust Image Model Evaluation with Pretrained Models ( http://arxiv.org/abs/2308.10632v3 )

ライセンス: Link先を確認
Peiyan Zhang, Haoyang Liu, Chaozhuo Li, Xing Xie, Sunghun Kim, Haohan Wang, (参考訳) 機械学習は有限データセットよりも顕著なパフォーマンスを示してきたが、固定されたベンチマークのスコアが実世界のモデルのパフォーマンスを十分に示すことができるかどうかはまだ議論中である。 実際、理想的なロバストモデルは、おそらくオラクル(例えば、人間のユーザー)と同様に振る舞うので、良い評価プロトコルは、おそらく、オラクルと比較してモデルの振舞いを評価することである。 本稿では,サロゲートオラクル(基礎モデル)と比較して画像分類モデルの性能を直接測定する新しいロバスト性測定手法を提案する。 さらに,ベンチマークの範囲を超えて評価を達成できる簡易な手法を設計する。 提案手法は, 画像データセットを, 元のデータセットと区別するために十分な摂動性を持つ新しいサンプルで拡張するが, 元のテストイメージが表す同じ画像ラベル構造内には, 大量のサンプルで事前訓練された基礎モデルによって拘束されている。 結果として,本手法は,固定ベンチマークや制約付き摂動の制限を伴わずに,モデルの堅牢性を評価する新しい手法を提供する。 評価結果に加えて、生成したデータを利用して、モデルの振る舞いと新しい評価戦略を理解する。

Machine learning has demonstrated remarkable performance over finite datasets, yet whether the scores over the fixed benchmarks can sufficiently indicate the model's performance in the real world is still in discussion. In reality, an ideal robust model will probably behave similarly to the oracle (e.g., the human users), thus a good evaluation protocol is probably to evaluate the models' behaviors in comparison to the oracle. In this paper, we introduce a new robustness measurement that directly measures the image classification model's performance compared with a surrogate oracle (i.e., a foundation model). Besides, we design a simple method that can accomplish the evaluation beyond the scope of the benchmarks. Our method extends the image datasets with new samples that are sufficiently perturbed to be distinct from the ones in the original sets, but are still bounded within the same image-label structure the original test image represents, constrained by a foundation model pretrained with a large amount of samples. As a result, our new method will offer us a new way to evaluate the models' robustness performance, free of limitations of fixed benchmarks or constrained perturbations, although scoped by the power of the oracle. In addition to the evaluation results, we also leverage our generated data to understand the behaviors of the model and our new evaluation strategies.
翻訳日:2024-05-17 19:34:02 公開日:2024-05-16
# 線形マルコフ決定過程の速度最適化

Rate-Optimal Policy Optimization for Linear Markov Decision Processes ( http://arxiv.org/abs/2308.14642v3 )

ライセンス: Link先を確認
Uri Sherman, Alon Cohen, Tomer Koren, Yishay Mansour, (参考訳) オンラインエピソード線形マルコフ決定過程における後悔の最小化について検討し, エピソード数を表す$K$に対して, レート最適の$\widetilde O (\sqrt K)$ regretを求める。 我々の研究は、政策最適化に基づくアプローチを用いて、確率的設定における最適(w.r.t.~$K$)収束率と、最適(w.r.t.~$K$)速度を、完全な情報フィードバックを備えた対向的な設定で確立した最初のものである。

We study regret minimization in online episodic linear Markov Decision Processes, and obtain rate-optimal $\widetilde O (\sqrt K)$ regret where $K$ denotes the number of episodes. Our work is the first to establish the optimal (w.r.t.~$K$) rate of convergence in the stochastic setting with bandit feedback using a policy optimization based approach, and the first to establish the optimal (w.r.t.~$K$) rate in the adversarial setup with full information feedback, for which no algorithm with an optimal rate guarantee is currently known.
翻訳日:2024-05-17 19:34:02 公開日:2024-05-16
# 自然対話と大規模言語モデルを用いたヒューマノイドロボット行動のインクリメンタル学習

Incremental Learning of Humanoid Robot Behavior from Natural Interaction and Large Language Models ( http://arxiv.org/abs/2309.04316v3 )

ライセンス: Link先を確認
Leonard Bärmann, Rainer Kartmann, Fabian Peller-Konrad, Jan Niehues, Alex Waibel, Tamim Asfour, (参考訳) 自然言語ダイアログは直感的な人間とロボットの対話の鍵となる。 人間の意図を表現するだけでなく、ロボットがコマンドを正しく理解していない場合、改善のための指示を伝えるためにも使用できる。 重要なことは、ロボットにそのような対話体験から学習する能力を与えることで、彼らの振る舞いを改善したり、将来失敗を避けることである。 本稿では,自然相互作用から複雑な動作を段階的に学習するシステムを提案し,その実装をヒューマノイドロボットで実証する。 近年の進歩を踏まえ,LLMが対話型コンソールでPython文を生成し,ロボットの知覚と行動の両方を起動する,というアイデアに基づいて,ロボットの行動の高レベルなオーケストレーションのためのLarge Language Models(LLMs)をデプロイするシステムを提案する。 相互作用ループは人間の指示、環境観察、実行結果をLSMにフィードバックすることで閉じ、次の文を生成する。 具体的には,過ちから対話的に学習できるインクリメンタル・プロンプト・ラーニングを導入する。 その目的のために、LLMは人間のフィードバックに基づいて、現在のインタラクションのコードレベルの改善に責任を負う別のLLMを呼ぶことができる。 改良されたインタラクションはロボットのメモリに保存され、同様の要求で検索される。 我々は,人間型ロボットARMAR-6のロボット認知アーキテクチャにシステムを統合するとともに,一般化したインクリメンタル学習知識を実証し,定量的に(シミュレーションで)定性的に(シミュレーションと実世界で)評価する。

Natural-language dialog is key for intuitive human-robot interaction. It can be used not only to express humans' intents, but also to communicate instructions for improvement if a robot does not understand a command correctly. Of great importance is to endow robots with the ability to learn from such interaction experience in an incremental way to allow them to improve their behaviors or avoid mistakes in the future. In this paper, we propose a system to achieve incremental learning of complex behavior from natural interaction, and demonstrate its implementation on a humanoid robot. Building on recent advances, we present a system that deploys Large Language Models (LLMs) for high-level orchestration of the robot's behavior, based on the idea of enabling the LLM to generate Python statements in an interactive console to invoke both robot perception and action. The interaction loop is closed by feeding back human instructions, environment observations, and execution results to the LLM, thus informing the generation of the next statement. Specifically, we introduce incremental prompt learning, which enables the system to interactively learn from its mistakes. For that purpose, the LLM can call another LLM responsible for code-level improvements of the current interaction based on human feedback. The improved interaction is then saved in the robot's memory, and thus retrieved on similar requests. We integrate the system in the robot cognitive architecture of the humanoid robot ARMAR-6 and evaluate our methods both quantitatively (in simulation) and qualitatively (in simulation and real-world) by demonstrating generalized incrementally-learned knowledge.
翻訳日:2024-05-17 19:34:02 公開日:2024-05-16
# SU(d)対称性を持つ局所ランダム量子回路の設計

Designs from Local Random Quantum Circuits with SU(d) Symmetry ( http://arxiv.org/abs/2309.08155v2 )

ライセンス: Link先を確認
Zimu Li, Han Zheng, Junyu Liu, Liang Jiang, Zi-Wen Liu, (参考訳) 局所的な量子回路のアンサンブルとハール測度をエミュレートする$k$-designs (pseudorandom distributions) の生成は、量子情報と物理学における根本的な重要性の問題である。 通常のランダム回路に対するこの問題の広範な理解にもかかわらず、対称性や保存法則が成立する決定的な状況は基本的な課題を提起し、ほとんど理解されていない。 我々は初めて、特に重要なSU$(d)$の場合において、超連続対称性の下で高次ユニタリ$k$-設計を達成できる明示的な局所ユニタリアンサンブルを構築した。 具体的には、4-局所 SU$(d)$-対称ハミルトニアンと関連する 4-局所 SU$(d)$-対称ランダムなユニタリ回路アンサンブルによって生成される畳み込み量子交互群(CQA)を定義し、すべての$k < n(n-3)/2$に対して、それぞれ SU$(d)$-対称な$k$-デザインに形成および収束することを証明する。 この結果を得るために私たちが採用する重要なテクニックは、Okounkov--Vershik の $S_n$表現論へのアプローチである。 CQAアンサンブルの収束時間を調べるために,ヤング直交形式と$S_n$分岐則を用いた数値計算法を開発した。 我々は、対称性のないケースとは対照的に、サブコンスタントスペクトルギャップと様々な重要な回路アーキテクチャの収束時間スケールの強い証拠を提供する。 また,Knabe の局所ギャップ閾値や Nachtergaele のマーチンゲール法など,対称性のないケースに有効であった手法を用いて,収束時間の厳密な分析における困難さと限界を包括的に説明する。 このことは、SU$(d)$-対称局所ランダム回路の収束時間を理解するために新しいアプローチが必要であることを示唆している。

The generation of $k$-designs (pseudorandom distributions that emulate the Haar measure up to $k$ moments) with local quantum circuit ensembles is a problem of fundamental importance in quantum information and physics. Despite the extensive understanding of this problem for ordinary random circuits, the crucial situations where symmetries or conservation laws are in play are known to pose fundamental challenges and remain little understood. We construct, for the first time, explicit local unitary ensembles that can achieve high-order unitary $k$-designs under transversal continuous symmetry, in the particularly important SU$(d)$ case. Specifically, we define the Convolutional Quantum Alternating group (CQA) generated by 4-local SU$(d)$-symmetric Hamiltonians as well as associated 4-local SU$(d)$-symmetric random unitary circuit ensembles, and prove that they form and converge to SU$(d)$-symmetric $k$-designs, respectively, for all $k < n(n-3)/2$ with $n$ being the number of qudits. A key technique that we employ to obtain the results is the Okounkov--Vershik approach to $S_n$ representation theory. To study the convergence time of the CQA ensemble, we develop a numerical method using the Young orthogonal form and $S_n$ branching rule. We provide strong evidence for a subconstant spectral gap and certain convergence time scales of various important circuit architectures, which contrast with the symmetry-free case. We also provide comprehensive explanations of the difficulties and limitations in rigorously analyzing the convergence time using methods that have been effective for cases without symmetries, including Knabe's local gap threshold and Nachtergaele's martingale methods. This suggests that a novel approach is likely necessary for understanding the convergence time of SU$(d)$-symmetric local random circuits.
翻訳日:2024-05-17 19:34:02 公開日:2024-05-16
# NFLikelihood:正規化フローの教師なしDNNLikelihood

The NFLikelihood: an unsupervised DNNLikelihood from Normalizing Flows ( http://arxiv.org/abs/2309.09743v3 )

ライセンス: Link先を確認
Humberto Reyes-Gonzalez, Riccardo Torre, (参考訳) 本稿では,Ref で提案されている DNNLikelihood の正規化フローに基づく教師なしバージョンであるNFLikelihood を提案する。 [1]。 実例を通して,高エネルギー物理(HEP)解析で生じる複雑な高次元的様相を,アフィンおよび有理2次スプラインビジェクタをベースとした自己回帰流がいかに学習できるかを示す。 文献ですでに検討されているおもちゃのLHC分析例と,HEPFitコードからサンプルを得たフレーバーと電弱オブザーバブルの2つの有効場理論に焦点を当てた。 我々は、教師なしアプローチの利点とデメリットについて、教師なしアプローチについて論じ、両者の相互作用の可能性について論じる。

We propose the NFLikelihood, an unsupervised version, based on Normalizing Flows, of the DNNLikelihood proposed in Ref.[1]. We show, through realistic examples, how Autoregressive Flows, based on affine and rational quadratic spline bijectors, are able to learn complicated high-dimensional Likelihoods arising in High Energy Physics (HEP) analyses. We focus on a toy LHC analysis example already considered in the literature and on two Effective Field Theory fits of flavor and electroweak observables, whose samples have been obtained throught the HEPFit code. We discuss advantages and disadvantages of the unsupervised approach with respect to the supervised one and discuss possible interplays of the two.
翻訳日:2024-05-17 19:34:02 公開日:2024-05-16
# 三脚型スキームを用いた幾何学ラムゼイ干渉計

Geometric Ramsey Interferometry with a Tripod Scheme ( http://arxiv.org/abs/2309.10192v2 )

ライセンス: Link先を確認
Chetan Sriram Madasu, Ketan Damji Rathod, Chang Chi Kwong, David Wilkowski, (参考訳) ラムゼー干渉法は精密分光の鍵となる手法であり、量子系のコヒーレンスを探索する。 通常、干渉計は2つの量子状態を用いて構築され、2つの短共振電磁パルスとの時間依存性の相互作用を伴う。 ここでは、幾何学的な方法で量子状態操作を行い、相互作用の時間的依存をなくす、異なるタイプのラムゼー干渉計を探索する。 我々は、超低温ストロンチウム原子における共鳴三重奏法を用いて、干渉計の動作は、擬似状態の2次元ダークステート部分空間に制限される。 観測されたインターフェロメトリ相の蓄積は、暗黒状態のサブ空間における効果的な幾何学的スカラー項によるものであり、光-物質相互作用がオフになる自由進化時間の間に著しく消えることはない。 本研究は、複数の入出力ポートで動作するより堅牢な干渉計の扉を開く。

Ramsey interferometry is a key technique for precision spectroscopy and to probe the coherence of quantum systems. Typically, an interferometer is constructed using two quantum states and involves a time-dependent interaction with two short resonant electromagnetic pulses. Here, we explore a different type of Ramsey interferometer where we perform quantum state manipulations by geometrical means, eliminating the temporal dependence of the interaction. We use a resonant tripod scheme in ultracold strontium atoms where the interferometric operation is restricted to a two-dimensional dark-state subspace in the dressed-state picture. The observed interferometric phase accumulation is due to an effective geometric scalar term in the dark-state subspace, which remarkably does not vanish during the free evolution time when the light-matter interaction is turned off. This study opens the door for more robust interferometers operating on multiple input-output ports.
翻訳日:2024-05-17 19:34:02 公開日:2024-05-16
# 幅広い形態的変動を扱うための進化的ジェネリストコントローラ

Evolving generalist controllers to handle a wide range of morphological variations ( http://arxiv.org/abs/2309.10201v3 )

ライセンス: Link先を確認
Corinna Triebold, Anil Yaman, (参考訳) 神経進化的手法は幅広いタスクに対処するのに有効であることが証明されている。 しかし、進化的ニューラルネットワーク(ANN)の堅牢性と一般化性の研究は、いまだに限られている。 これは、そのようなコントローラーが制御タスクに使用されるロボット工学のような分野に多大な影響を及ぼす。 予期せぬ形態変化や環境変化は、ANNコントローラがこれらの変化を処理できなければ失敗する可能性がある。 本稿では,制御器の堅牢性と一般化性を高めることを目的としたアルゴリズムを提案する。 これは、進化的トレーニングプロセス中に形態学的変化を導入することで達成される。 その結果,その形態やパラメータの適応に関する情報を必要とせずに,多種多様な形態変化を十分に扱える一般制御器の発見が可能となった。 我々は,スペシャリストとジェネリストのトレードオフを示すシミュレーション実験を行った。 その結果, 一般学者は, 特定の形態に対して過小評価するコストを伴って, 様々な形態変化を制御できることが示唆された。 本研究は,ロバスト性と一般化可能性の限定的理解に対処し,これらの特性を改善する手法を提案する。

Neuro-evolutionary methods have proven effective in addressing a wide range of tasks. However, the study of the robustness and generalizability of evolved artificial neural networks (ANNs) has remained limited. This has immense implications in the fields like robotics where such controllers are used in control tasks. Unexpected morphological or environmental changes during operation can risk failure if the ANN controllers are unable to handle these changes. This paper proposes an algorithm that aims to enhance the robustness and generalizability of the controllers. This is achieved by introducing morphological variations during the evolutionary training process. As a results, it is possible to discover generalist controllers that can handle a wide range of morphological variations sufficiently without the need of the information regarding their morphologies or adaptation of their parameters. We perform an extensive experimental analysis on simulation that demonstrates the trade-off between specialist and generalist controllers. The results show that generalists are able to control a range of morphological variations with a cost of underperforming on a specific morphology relative to a specialist. This research contributes to the field by addressing the limited understanding of robustness and generalizability and proposes a method by which to improve these properties.
翻訳日:2024-05-17 19:34:02 公開日:2024-05-16
# AnglEを最適化したテキスト埋め込み

AnglE-optimized Text Embeddings ( http://arxiv.org/abs/2309.12871v7 )

ライセンス: Link先を確認
Xianming Li, Jing Li, (参考訳) 高品質なテキスト埋め込みは、Large Language Model (LLM)アプリケーションにおいて重要なコンポーネントであるセマンティックテキスト類似性(STS)タスクの改善において重要な要素である。 しかし、既存のテキスト埋め込みモデルが直面する共通の課題は、主に飽和ゾーンを持つ最適化対象のコサイン関数に依存するため、勾配の消失である。 そこで本研究では,AnglEと呼ばれる新しい角度最適化テキスト埋め込みモデルを提案する。 AnglEの中核となる考え方は、複素空間に角度最適化を導入することである。 この手法は、勾配を阻害し最適化を妨げうるコサイン関数における飽和域の悪影響を効果的に軽減する。 包括的なSTS評価を設定するために、既存の短文STSデータセットとGitHub Issuesから新たに収集された長文STSデータセットを実験した。 さらに、ラベル付きデータに制限のあるドメイン固有のSTSシナリオについて検討し、LLMアノテーション付きデータでAnglEがどのように動作するかを検討する。 短文STS、長文STS、ドメイン固有のSTSタスクなど、さまざまなタスクで大規模な実験が行われた。 その結果、AnglEはコサイン飽和ゾーンを無視したSOTA(State-of-the-art STS)モデルよりも優れていた。 これらの結果は、AnglEが高品質なテキスト埋め込みを生成する能力と、STSにおける角度最適化の有用性を示している。

High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
翻訳日:2024-05-17 19:34:02 公開日:2024-05-16
# LintQによる量子プログラムの解析 - Qiskitの静的解析フレームワーク

Analyzing Quantum Programs with LintQ: A Static Analysis Framework for Qiskit ( http://arxiv.org/abs/2310.00718v2 )

ライセンス: Link先を確認
Matteo Paltenghi, Michael Pradel, (参考訳) 量子コンピューティングの人気が高まっている中、量子プログラムの量とそれらを記述する開発者の数は急速に増加している。 残念なことに、開発者が認識しなければならない微妙なルールのために、正しい量子プログラムを書くことは難しい。 経験的研究により、量子ソフトウェアのバグの40~82%が量子領域に固有のものであることが示された。 しかし、既存の静的バグ検出フレームワークは、回路、ゲート、キュービットといった量子固有の概念をほとんど知らないため、多くのバグを見逃している。 本稿では,量子プログラムのバグを検出するための静的解析フレームワークLintQを提案する。 我々のアプローチは、基礎となる量子コンピューティングプラットフォームの詳細を参照することなく、量子コンピューティングの一般的な概念を推論するために設計された一連の抽象化によって実現されている。 これらの抽象化の上に構築されたLintQは、破損した量子状態の操作、冗長な測定、サブ回路の不正な構成など、潜在的なバグを検出する10の分析の拡張可能なセットを提供する。 提案手法は,実世界の7,568個のQiskitベースの量子プログラムを新たに収集したデータセットに適用し,LintQが既定構成で91.0%の精度で,最も優れた6つの解析を行うことを示す。 汎用Linterと既存の2つの量子認識技術と比較すると、LintQが評価中に発見したほぼ全ての問題(92.1%)は、先行研究で見逃されている。 そのためLintQは、成長する量子コンピューティング分野において、信頼性の高いソフトウェアに向けて重要な一歩を踏み出した。

As quantum computing is rising in popularity, the amount of quantum programs and the number of developers writing them are increasing rapidly. Unfortunately, writing correct quantum programs is challenging due to various subtle rules developers need to be aware of. Empirical studies show that 40-82% of all bugs in quantum software are specific to the quantum domain. Yet, existing static bug detection frameworks are mostly unaware of quantum-specific concepts, such as circuits, gates, and qubits, and hence miss many bugs. This paper presents LintQ, a comprehensive static analysis framework for detecting bugs in quantum programs. Our approach is enabled by a set of abstractions designed to reason about common concepts in quantum computing without referring to the details of the underlying quantum computing platform. Built on top of these abstractions, LintQ offers an extensible set of ten analyses that detect likely bugs, such as operating on corrupted quantum states, redundant measurements, and incorrect compositions of sub-circuits. We apply the approach to a newly collected dataset of 7,568 real-world Qiskit-based quantum programs, showing that LintQ effectively identifies various programming problems, with a precision of 91.0% in its default configuration with the six best performing analyses. Comparing to a general-purpose linter and two existing quantum-aware techniques shows that almost all problems (92.1%) found by LintQ during our evaluation are missed by prior work. LintQ hence takes an important step toward reliable software in the growing field of quantum computing.
翻訳日:2024-05-17 19:24:19 公開日:2024-05-16
# 時間非依存ハミルトニアン進化のための統一量子速度限界

A Unifying Quantum Speed Limit For Time-Independent Hamiltonian Evolution ( http://arxiv.org/abs/2310.08813v2 )

ライセンス: Link先を確認
H. F. Chau, Wenxin Zeng, (参考訳) 量子速度制限(Quantum speed limit, QSL)は、量子系の進化時間に関する基本的な限界の研究である。 例えば、時間非依存ハミルトニアンの作用の下では、初期状態と最終量子状態の間の進化時間は様々な相互補完的な下界に従う。 マンデルスタム・タム、マルゴラス・レヴィティン、ルオ・チャン、ダブルML、リー・チャウの2つの境界がある。 ここでは、あるパラメータ上でリー-チャウ境界を最適化することにより、マンデルスタム-タム境界が得られることを示す。 さらに、量子系の物理的に無意味な参照エネルギーレベルを最適化する前に、上記すべての境界を特別なケースとして含むQSLを報告する。 この統一境界は、あるパラメータ$p$に依存する。 固定された$p$の場合、時間に依存しないハミルトン状態と初期純量子状態の全てのペアが、この統一境界を飽和させる。 さらに重要なのは、これらのペアによって、量子状態のエネルギーの絶対値に関連するある$p$thのモーメントを返すオラクルを使って、この境界を正確かつ効率的に計算することができることである。 さらに、このオラクルは有限次元量子系や有界かつ連続的なエネルギースペクトルを持つある種の無限次元量子状態に対して計算的に効率的かつ正確なアルゴリズムでシミュレートすることができる。 これにより、我々の計算手法は、多くの現実的な状況で実現可能である。 固定された$p$の場合と、既存のQSLで$p$以上を最適化する場合の比較を行う。 基礎となるヒルベルト空間の次元が$\lesssim 2000$であれば、通常のデスクトップでジャスト・イン・タイムのコンパイルを行うMathematicaコードを使用して、$p$で最適化された統一境界を数分で正確に計算できる。 さらに、この最適化された統合QSLは、すべての既存のQSLが組み合わされ、時には数パーセントから数倍改善される可能性がある。

Quantum speed limit (QSL) is the study of fundamental limits on the evolution time of quantum systems. For instance, under the action of a time-independent Hamiltonian, the evolution time between an initial and a final quantum state obeys various mutually complementary lower bounds. They include the Mandelstam-Tamm, Margolus-Levitin, Luo-Zhang, dual ML and Lee-Chau bounds. Here we show that the Mandelstam-Tamm bound can be obtained by optimizing the Lee-Chau bound over a certain parameter. More importantly, we report a QSL that includes all the above bounds as special cases before optimizing over the physically meaningless reference energy level of a quantum system. This unifying bound depends on a certain parameter $p$. For any fixed $p$, we find all pairs of time-independent Hamiltonian and initial pure quantum state that saturate this unifying bound. More importantly, these pairs allow us to compute this bound accurately and efficiently using an oracle that returns certain $p$th moments related to the absolute value of energy of the quantum state. Moreover, this oracle can be simulated by a computationally efficient and accurate algorithm for finite-dimensional quantum systems as well as for certain infinite-dimensional quantum states with bounded and continuous energy spectra. This makes our computational method feasible in a lot of practical situations. We compare the performance of this bound for the case of a fixed $p$ as well as the case of optimizing over $p$ with existing QSLs. We find that if the dimension of the underlying Hilbert space is $\lesssim 2000$, our unifying bound optimized over $p$ can be computed accurately in a few minutes using Mathematica code with just-in-time compilation in a typical desktop. Besides, this optimized unifying QSL is at least as good as all the existing ones combined and can occasionally be a few percent to a few times better.
翻訳日:2024-05-17 19:24:18 公開日:2024-05-16
# ReMax: 大規模言語モデルを調整するためのシンプルで効果的で効率的な強化学習方法

ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models ( http://arxiv.org/abs/2310.10505v4 )

ライセンス: Link先を確認
Ziniu Li, Tian Xu, Yushun Zhang, Zhihang Lin, Yang Yu, Ruoyu Sun, Zhi-Quan Luo, (参考訳) Reinforcement Learning from Human Feedback (RLHF) は、一般にPPOアルゴリズムと組み合わせた大規模言語モデル(LLM)を整合させる鍵である。 PPOは一般的な強化学習タスクのために設計された強力な手法であるが、LLMには過度に洗練されており、過度なハイパーパラメータチューニングと計算負荷が増大する。 RLHFを効率的にするために、RLHFの3つの特性(高速なシミュレーション、決定論的遷移、軌道レベルの報酬)を利用するReMaxを提案する。 これらの性質はPPOでは利用されず、RLHFには適さない。 有名なREINFORCEアルゴリズムに基づいて、ReMaxはPPOのような付加価値モデルを訓練する必要がなく、新しい分散還元技術によりさらに拡張されている。 ReMaxは、実装が簡単で、PPOの4つ以上のハイパーパラメータを排除し、GPUメモリ使用量を削減し、トレーニング時間を短縮する。 ReMaxは7Bモデルのトレーニング時にPPOよりも約46%のGPUメモリを節約でき、PPOに必要なメモリ節約技術なしでA800-80GBGPUのトレーニングを可能にする。 ReMaxをMistral-7Bモデルに適用すると、AlpacaEvalのリーダーボードでは94.78%、MT-benchでは7.739の勝利率となり、オープンソース7BモデルではSOTAが新たに設定された。 これらの結果は,LLMにおけるPPOの限界に対処しながらReMaxの有効性を示す。

Reinforcement Learning from Human Feedback (RLHF) is key to aligning Large Language Models (LLMs), typically paired with the Proximal Policy Optimization (PPO) algorithm. While PPO is a powerful method designed for general reinforcement learning tasks, it is overly sophisticated for LLMs, leading to laborious hyper-parameter tuning and significant computation burdens. To make RLHF efficient, we present ReMax, which leverages 3 properties of RLHF: fast simulation, deterministic transitions, and trajectory-level rewards. These properties are not exploited in PPO, making it less suitable for RLHF. Building on the renowned REINFORCE algorithm, ReMax does not require training an additional value model as in PPO and is further enhanced with a new variance reduction technique. ReMax offers several benefits over PPO: it is simpler to implement, eliminates more than 4 hyper-parameters in PPO, reduces GPU memory usage, and shortens training time. ReMax can save about 46% GPU memory than PPO when training a 7B model and enables training on A800-80GB GPUs without the memory-saving offloading technique needed by PPO. Applying ReMax to a Mistral-7B model resulted in a 94.78% win rate on the AlpacaEval leaderboard and a 7.739 score on MT-bench, setting a new SOTA for open-source 7B models. These results show the effectiveness of ReMax while addressing the limitations of PPO in LLMs.
翻訳日:2024-05-17 19:24:18 公開日:2024-05-16
# 量子研究:量子力学と熱力学の再構成

Quantum work: Reconciling quantum mechanics and thermodynamics ( http://arxiv.org/abs/2310.11653v2 )

ライセンス: Link先を確認
Thales Augusto Barbosa Pinto Silva, David Gelbwaser-Klimovsky, (参考訳) 量子力学、熱力学、古典的極限との整合性に疑問を呈し、量子力学を測るプロトコルが標準的な物理原理を満足できないと最近主張されている。 この手紙では、この非互換性に対する解決策を提示する。 これらの原理の標準定式化が古典的極限に適切に対応できないことを実証する。 この方向の変化を提案することで、作業が量子可観測性(quantum observable)として定義され、量子作業統計と熱力学を整合させるときに、すべての基本原理が満たされることを示す。

It has been recently claimed that no protocol for measuring quantum work can satisfy standard required physical principles, casting doubts on the compatibility between quantum mechanics, thermodynamics, and the classical limit. In this Letter, we present a solution for this incompatibility. We demonstrate that the standard formulation of these principles fails to address the classical limit properly. By proposing changes in this direction, we prove that all the essential principles can be satisfied when work is defined as a quantum observable, reconciling quantum work statistics and thermodynamics.
翻訳日:2024-05-17 19:24:18 公開日:2024-05-16
# 外部誘導による画像クラスタリング

Image Clustering with External Guidance ( http://arxiv.org/abs/2310.11989v2 )

ライセンス: Link先を確認
Yunfan Li, Peng Hu, Dezhong Peng, Jiancheng Lv, Jianping Fan, Xi Peng, (参考訳) クラスタリングのコアは、監視信号を構築するために、事前の知識を取り入れている。 データコンパクト性に基づく古典的なk-平均から、自己スーパービジョンによって導かれる最近のコントラストクラスタリングまで、クラスタリング法の進化は本質的に監督信号の進行に対応している。 現在、データから内部監視信号のマイニングに多大な努力が注がれている。 それでも、クラスタリングに自然に寄与する意味記述のような豊富な外部知識は、残念なことに見過ごされている。 本研究では,クラスタリングを誘導する新たな監視信号として外部知識を活用することを提案する。 提案手法の実装と検証のために,WordNetのテキストセマンティクスを活用して画像クラスタリングを容易にする外部ガイド型クラスタリング手法(Text-Aided Clustering, TAC)を設計した。 特に、TACは最初にWordNetの名詞を選択して検索し、特徴識別性を高めるために画像を最もよく区別する。 そして、画像クラスタリング性能を向上させるために、TACは、相互にモダル近傍情報を蒸留することにより、テキストと画像のモダリティを協調する。 実験によると、TACは、広く使用されている5つの画像クラスタリングベンチマークと、完全なImageNet-1Kデータセットを含む、より難しい3つのイメージクラスタリングベンチマークで、最先端のパフォーマンスを達成する。

The core of clustering is incorporating prior knowledge to construct supervision signals. From classic k-means based on data compactness to recent contrastive clustering guided by self-supervision, the evolution of clustering methods intrinsically corresponds to the progression of supervision signals. At present, substantial efforts have been devoted to mining internal supervision signals from data. Nevertheless, the abundant external knowledge such as semantic descriptions, which naturally conduces to clustering, is regrettably overlooked. In this work, we propose leveraging external knowledge as a new supervision signal to guide clustering, even though it seems irrelevant to the given data. To implement and validate our idea, we design an externally guided clustering method (Text-Aided Clustering, TAC), which leverages the textual semantics of WordNet to facilitate image clustering. Specifically, TAC first selects and retrieves WordNet nouns that best distinguish images to enhance the feature discriminability. Then, to improve image clustering performance, TAC collaborates text and image modalities by mutually distilling cross-modal neighborhood information. Experiments demonstrate that TAC achieves state-of-the-art performance on five widely used and three more challenging image clustering benchmarks, including the full ImageNet-1K dataset.
翻訳日:2024-05-17 19:24:18 公開日:2024-05-16
# ビジネスプロセスにおけるWHY - 因果実行依存の発見

The WHY in Business Processes: Discovery of Causal Execution Dependencies ( http://arxiv.org/abs/2310.14975v2 )

ライセンス: Link先を確認
Fabiana Fournier, Lior Limonad, Inna Skarbovsky, Yuval David, (参考訳) プロセスアクティビティの実行間の因果関係を明らかにすることは、プロセス介入の結果を予測し、プロセス改善に関する情報的な決定を行う上で重要な要素である。 プロセス発見アルゴリズムは、時間優先をモデル導出の主源とする。 したがって、因果的な視点はプロセス発見を補うことができ、タスク間の真の因果関係を反映する新しい視点である。 これにより、プロセス内のタスク間の因果的実行依存性を発見するための忠実な新しいテクニックが求められます。 そこで本研究は,既存の因果発見アルゴリズムを活動タイミングよりも活用することで,因果ビジネスプロセスの公開に対する体系的なアプローチを提供する。 さらに,本研究は,プロセスマイニング探索アルゴリズムが因果的ビジネスプロセスモデルと整合しないモデルを生成する一連の条件に着目し,プロセスの音響解析に後者のモデルを方法論的に適用する方法を示す。 本手法は,3つの因果パターンの文脈における2つのモデル間の相違を探索し,これらの不整合がマイニングプロセスモデル上で注釈付けされるという新たな視点を導出する。 我々は,2つのオープンプロセスマイニングアルゴリズム,IBM Process Miningツール,LiNGAM因果発見技術を用いた手法を実証する。 合成データセットと2つのオープンベンチマークデータセットに適用する。

Unraveling the causal relationships among the execution of process activities is a crucial element in predicting the consequences of process interventions and making informed decisions regarding process improvements. Process discovery algorithms exploit time precedence as their main source of model derivation. Hence, a causal view can supplement process discovery, being a new perspective in which relations reflect genuine cause-effect dependencies among the tasks. This calls for faithful new techniques to discover the causal execution dependencies among the tasks in the process. To this end, our work offers a systematic approach to the unveiling of the causal business process by leveraging an existing causal discovery algorithm over activity timing. In addition, this work delves into a set of conditions under which process mining discovery algorithms generate a model that is incongruent with the causal business process model, and shows how the latter model can be methodologically employed for a sound analysis of the process. Our methodology searches for such discrepancies between the two models in the context of three causal patterns, and derives a new view in which these inconsistencies are annotated over the mined process model. We demonstrate our methodology employing two open process mining algorithms, the IBM Process Mining tool, and the LiNGAM causal discovery technique. We apply it on a synthesized dataset and on two open benchmark data sets.
翻訳日:2024-05-17 19:24:18 公開日:2024-05-16
# 二面量子符号

Dihedral Quantum Codes ( http://arxiv.org/abs/2310.15092v2 )

ライセンス: Link先を確認
Nadja Willenborg, Martino Borello, Anna-Lena Horlemann, Habibul Islam, (参考訳) 昇降積構成により得られたCSS符号のクラスである短ブロック長の二面体量子符号を確立する。 コード構成を示し、CSSコードがベースとしている2つの古典的なコードに依存して、コード次元の式を与える。 また、符号距離を低くし、短い二面体量子符号の例を構築します。

We establish dihedral quantum codes of short block length, a class of CSS codes obtained by the lifted product construction. We present the code construction and give a formula for the code dimension, depending on the two classical codes that the CSS code is based on. We also give a lower bound on the code distance and construct an example of short dihedral quantum codes.
翻訳日:2024-05-17 19:24:18 公開日:2024-05-16
# 分散最適化による仮想プラントアセットのコーディネート

Machine Learning Infused Distributed Optimization for Coordinating Virtual Power Plant Assets ( http://arxiv.org/abs/2310.17882v2 )

ライセンス: Link先を確認
Meiyi Li, Javad Mohammadi, (参考訳) 分散エネルギー資源(DER)の展開への関心が高まっている中、仮想電力プラント(VPP)は多様なDERを集約し、エネルギー市場への参加を促進する重要なツールとして現れてきた。 これらのVPPの配備は連邦エネルギー規制委員会(Federal Energy Regulatory Commission)の2222条によって推進され、DERとVPPは市場セグメント間で競争力を持つようになった。 しかし、DERの多様性と分散性は、VPP資産のスケーラブルな調整に重大な課題をもたらす。 本稿では,VPPアセットをコーディネートするための,機械学習による分散最適化を提案する。 提案手法はLOOP-MAC (Learning to Optimize the Optimization Process for Multi-agent Coordination) と呼ばれ,各VPPエージェントが複数のDERを管理し,ニューラルネットワーク近似を用いて解探索を高速化する多エージェント協調の視点を採用している。 LOOP-MAC法は、局所的な制約に対する厳密なコンプライアンスを保証するためにゲージマップを使用し、追加の処理後ステップの必要性を効果的に低減する。 その結果, LOOP-MACの利点, 反復時間当たりの解の高速化, 収束時間を大幅に短縮した。 LOOP-MAC法は、繰り返しおよび逐次実行を必要とする最適化タスクにおいて、従来の集中的および分散的な最適化手法よりも優れている。

Amid the increasing interest in the deployment of Distributed Energy Resources (DERs), the Virtual Power Plant (VPP) has emerged as a pivotal tool for aggregating diverse DERs and facilitating their participation in wholesale energy markets. These VPP deployments have been fueled by the Federal Energy Regulatory Commission's Order 2222, which makes DERs and VPPs competitive across market segments. However, the diversity and decentralized nature of DERs present significant challenges to the scalable coordination of VPP assets. To address efficiency and speed bottlenecks, this paper presents a novel machine learning-assisted distributed optimization to coordinate VPP assets. Our method, named LOOP-MAC(Learning to Optimize the Optimization Process for Multi-agent Coordination), adopts a multi-agent coordination perspective where each VPP agent manages multiple DERs and utilizes neural network approximators to expedite the solution search. The LOOP-MAC method employs a gauge map to guarantee strict compliance with local constraints, effectively reducing the need for additional post-processing steps. Our results highlight the advantages of LOOP-MAC, showcasing accelerated solution times per iteration and significantly reduced convergence times. The LOOP-MAC method outperforms conventional centralized and distributed optimization methods in optimization tasks that require repetitive and sequential execution.
翻訳日:2024-05-17 19:24:18 公開日:2024-05-16
# 不規則ディラック材料のスピンダイナミクスにおける弾力性粒子内絡み合いとその操作

Resilient Intraparticle Entanglement and its Manifestation in Spin Dynamics of Disordered Dirac Materials ( http://arxiv.org/abs/2310.17950v2 )

ライセンス: Link先を確認
Jorge Martinez Romeral, Aron W. Cummings, Stephan Roche, (参考訳) トポロジカル量子物質は、例えばスピン軌道結合効果によって生じるような、内部自由度の間の絡み合いによって引き起こされる新しい輸送現象を示す。 ここでは、スピン緩和を駆動するメカニズムと、不規則なグラフェンにおけるスピンと亜格子自由度の間の相互作用の直接的関係について報告する。 直接観測可能な結果の他に、粒子内部の絡み合いは、量子情報処理のための新しいリソースを指して、障害に対して耐性があることが示されている。

Topological quantum matter exhibits novel transport phenomena driven by entanglement between internal degrees of freedom, as for instance generated by spin-orbit coupling effects. Here we report on a direct connection between the mechanism driving spin relaxation and the intertwined dynamics between spin and sublattice degrees of freedom in disordered graphene. Beyond having a direct observable consequence, such intraparticle entanglement is shown to be resilient to disorder, pointing towards a novel resource for quantum information processing.
翻訳日:2024-05-17 19:24:18 公開日:2024-05-16
# GOPlan:学習モデルによる計画による目標条件付きオフライン強化学習

GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models ( http://arxiv.org/abs/2310.20025v3 )

ライセンス: Link先を確認
Mianchu Wang, Rui Yang, Xi Chen, Hao Sun, Meng Fang, Giovanni Montana, (参考訳) Offline Goal-Conditioned RL(GCRL)は、多様なマルチタスクのオフラインデータセットから汎用的なポリシを学ぶための、実用的なパラダイムを提供する。 最近の顕著な進歩にもかかわらず、主にモデルフリーのオフラインGCRLメソッドは、限られたデータを扱うことや、目に見えない目標に一般化する際の制約に直面している。 本研究では,(1)マルチゴールデータセット内でのマルチモーダルな行動分布をキャプチャ可能な事前ポリシーを事前学習すること,(2)リアナリシス手法を応用して,具体化政策のための想定された軌跡を生成すること,の2つの主要なフェーズを含む,新たなモデルベースフレームワークであるゴール条件付きオフライン計画(GOPlan)を提案する。 具体的には,モード分離を容易にし,アウト・オブ・ディストリビューション(OOD)行動の落とし穴を緩和する,有利な条件付き生成的敵ネットワークを基盤とする。 さらなる政策最適化のために、軌道内目標と軌道間目標の両方について学習モデルを用いて計画し、高品質な虚構データを生成する。 GOPlanは,様々なオフラインマルチゴールナビゲーションおよび操作タスクにおいて,最先端の性能を実現することを実証した。 さらに,GOPlanが小規模なデータ予算を処理し,OOD目標を一般化する上での優れた能力を強調した。

Offline Goal-Conditioned RL (GCRL) offers a feasible paradigm for learning general-purpose policies from diverse and multi-task offline datasets. Despite notable recent progress, the predominant offline GCRL methods, mainly model-free, face constraints in handling limited data and generalizing to unseen goals. In this work, we propose Goal-conditioned Offline Planning (GOPlan), a novel model-based framework that contains two key phases: (1) pretraining a prior policy capable of capturing multi-modal action distribution within the multi-goal dataset; (2) employing the reanalysis method with planning to generate imagined trajectories for funetuning policies. Specifically, we base the prior policy on an advantage-weighted conditioned generative adversarial network, which facilitates distinct mode separation, mitigating the pitfalls of out-of-distribution (OOD) actions. For further policy optimization, the reanalysis method generates high-quality imaginary data by planning with learned models for both intra-trajectory and inter-trajectory goals. With thorough experimental evaluations, we demonstrate that GOPlan achieves state-of-the-art performance on various offline multi-goal navigation and manipulation tasks. Moreover, our results highlight the superior ability of GOPlan to handle small data budgets and generalize to OOD goals.
翻訳日:2024-05-17 19:24:18 公開日:2024-05-16
# メッシュニューラルセルオートマタ

Mesh Neural Cellular Automata ( http://arxiv.org/abs/2311.02820v2 )

ライセンス: Link先を確認
Ehsan Pajouheshgar, Yitao Xu, Alexander Mordvintsev, Eyvind Niklasson, Tong Zhang, Sabine Süsstrunk, (参考訳) 仮想環境の現実性を高めるためには,テクスチャモデリングと合成が不可欠である。 3Dでテクスチャを直接合成する方法は、シームレスなテクスチャを作成し、自然界のテクスチャの形成方法とより密に連携できるため、UVマッピング方式に対して明確なアドバンテージを提供する。 本稿では,UVマップを必要とせずに3次元メッシュ上で動的テクスチャを直接合成するメッシュニューラルセルオートマタ(MeshNCA)を提案する。 MeshNCAは一般化されたセルオートマトンの一種で、3Dメッシュの頂点のような非グリッド構造上に配置されたセルの集合で動作する。 MeshNCAはマルチモーダルな監視が可能で、画像、テキストプロンプト、モーションベクトルフィールドなど、さまざまなターゲットを使ってトレーニングすることができる。 IcosphereメッシュでのみトレーニングされたMeshNCAは、驚くべきテストタイムの一般化を示し、目に見えないメッシュ上でテクスチャをリアルタイムで合成する。 定性的かつ定量的な比較を行い、MeshNCAは他の3次元テクスチャ合成法よりも、一般化と高品質テクスチャの生成において優れていることを示す。 さらに,トレーニング済みのMeshNCAインスタンスをグラフトする方法を導入し,テクスチャ間の補間を可能にする。 MeshNCAは、テクスチャ密度/方位制御、グラフト/再生ブラシ、動き速度/方向制御など、いくつかのユーザインタラクションを可能にする。 最後に、WebGLシェーディング言語を使用して、MeshNCAモデルの前方パスを実装し、トレーニング済みモデルをオンラインインタラクティブなデモで紹介する。

Texture modeling and synthesis are essential for enhancing the realism of virtual environments. Methods that directly synthesize textures in 3D offer distinct advantages to the UV-mapping-based methods as they can create seamless textures and align more closely with the ways textures form in nature. We propose Mesh Neural Cellular Automata (MeshNCA), a method that directly synthesizes dynamic textures on 3D meshes without requiring any UV maps. MeshNCA is a generalized type of cellular automata that can operate on a set of cells arranged on non-grid structures such as the vertices of a 3D mesh. MeshNCA accommodates multi-modal supervision and can be trained using different targets such as images, text prompts, and motion vector fields. Only trained on an Icosphere mesh, MeshNCA shows remarkable test-time generalization and can synthesize textures on unseen meshes in real time. We conduct qualitative and quantitative comparisons to demonstrate that MeshNCA outperforms other 3D texture synthesis methods in terms of generalization and producing high-quality textures. Moreover, we introduce a way of grafting trained MeshNCA instances, enabling interpolation between textures. MeshNCA allows several user interactions including texture density/orientation controls, grafting/regenerate brushes, and motion speed/direction controls. Finally, we implement the forward pass of our MeshNCA model using the WebGL shading language and showcase our trained models in an online interactive demo, which is accessible on personal computers and smartphones and is available at https://meshnca.github.io.
翻訳日:2024-05-17 19:24:18 公開日:2024-05-16
# 2元最適化問題に対する固定点グロバー適応探索

Fixed-point Grover Adaptive Search for Binary Optimization Problems ( http://arxiv.org/abs/2311.05592v4 )

ライセンス: Link先を確認
Ákos Nagy, Jaime Park, Cindy Zhang, Atithi Acharya, Alex Khan, (参考訳) 二次二項最適化問題に対するGrover-type法について検討する。 制約のない (QUBO) の場合、$m$非ゼロ項を持つ$n$次元問題に対して、調整可能なパラメータを持つような問題に対して、$\Lambda \in \left[ 1, m \right] \cap \mathbb{Z}$ というマーカーオラクルを構築する。 d \in \mathbb{Z}_+$ 精度では、オラクルは$O \left(n + \Lambda d \right)$ qubitsを使用し、合計深さ$O \left( \tfrac{m}{\Lambda} \log_2 \left(n \right) + \log_2 \left(d \right) \right)$、非クリフォード深さ$O \left( \tfrac{m}{\Lambda} \right)$を持つ。 さらに、各キュービットは少なくとも$O \left( \log_2 \left( \Lambda + d \right) \right)$他のキュービットに接続する必要がある。 最大グラフ切断の場合、$d = 2 \log_2 \left(n \right)$ は常に十分であり、マーカーオラクルの深さは $O \left( \log_2 \left(n \right) \right)$ のように浅くすることができる。 $\Lambda$ のすべての値に対して、これらのオラクルの非クリフォードゲート数は、以前の構成よりも厳密に低い($\sim 2$ の係数で)。 次に,本手法は,従来のGrover Adaptive Search法よりも優れた性能保証を実現するため,本手法のオーラクル設計とハイブリッドなFixed-point Grover Search of Li et alを用いて,新しいGrover Adaptive Search for QUBO問題を提案する。 最後に、高い確率と$O \left( \tfrac{\log_2 \left(n \right)}{\sqrt{\epsilon}} \right)$timeにおいて、この適応的手法は最良の$\epsilon 2^n$の設定を見つける。

We study a Grover-type method for Quadratic Binary Optimization problems. In the unconstrained (QUBO) case, for an $n$-dimensional problem with $m$ nonzero terms, we construct a marker oracle for such problems with a tuneable parameter, $\Lambda \in \left[ 1, m \right] \cap \mathbb{Z}$. At $d \in \mathbb{Z}_+$ precision, the oracle uses $O \left( n + \Lambda d \right)$ qubits, has total depth $O \left( \tfrac{m}{\Lambda} \log_2 \left( n \right) + \log_2 \left( d \right) \right)$, and non-Clifford depth of $O \left( \tfrac{m}{\Lambda} \right)$. Moreover, each qubit required to be connected to at most $O \left( \log_2 \left( \Lambda + d \right) \right)$ other qubits. In the case of a maximal graph cuts, as $d = 2 \log_2 \left( n \right)$ always suffices, the depth of the marker oracle can be made as shallow as $O \left( \log_2 \left( n \right) \right)$. For all values of $\Lambda$, the non-Clifford gate count of these oracles is strictly lower (by a factor of $\sim 2$) than previous constructions. We then introduce a novel \emph{Fixed-point Grover Adaptive Search for QUBO Problems}, using our oracle design and a hybrid Fixed-point Grover Search of Li et al. This method has better performance guarantees than previous Grover Adaptive Search methods. Finally, we give a heuristic argument that, with high probability and in $O \left( \tfrac{\log_2 \left( n \right)}{\sqrt{\epsilon}} \right)$ time, this adaptive method finds a configuration that is among the best $\epsilon 2^n$ ones.
翻訳日:2024-05-17 19:14:33 公開日:2024-05-16
# ALBA:メンタルヘルスのための適応型言語に基づくアセスメント

ALBA: Adaptive Language-based Assessments for Mental Health ( http://arxiv.org/abs/2311.06467v2 )

ライセンス: Link先を確認
Vasudha Varadarajan, Sverker Sikström, Oscar N. E. Kjell, H. Andrew Schwartz, (参考訳) メンタルヘルスの問題は個人によって大きく異なり、徴候や症状も様々である。 近年、言語に基づく評価では、この多様性を捉えることは約束されているが、正確性のために1人あたりの単語のかなりのサンプルが必要である。 本研究は,適応型言語ベースアセスメントALBA(Adaptive Language-Based Assessment:適応型言語ベースアセスメントALBA)の課題を紹介する。 この目的のために,古典的テスト理論と項目応答理論という2つの心理測定理論に基づく適応的テスト手法を開発した。 順序付け戦略とスコアリング戦略を実証的に評価し,半教師付き項目応答理論に基づく手法ALIRTと教師付きアクター・クリティカル・モデルという2つの新しい手法に分類した。 非適応的なベースラインよりも改善する2つの方法を見つけましたが、ALIRTは最も正確でスケーラブルで、より少ない質問(例えば、Pearson r ~ 0.93)で最高の精度を実現しています。 一般に、抑うつと不安の適応型言語に基づく評価は、妥当性や計算コストを損なうことなく、より小さな言語サンプルを利用することができた。

Mental health issues differ widely among individuals, with varied signs and symptoms. Recently, language-based assessments have shown promise in capturing this diversity, but they require a substantial sample of words per person for accuracy. This work introduces the task of Adaptive Language-Based Assessment ALBA, which involves adaptively ordering questions while also scoring an individual's latent psychological trait using limited language responses to previous questions. To this end, we develop adaptive testing methods under two psychometric measurement theories: Classical Test Theory and Item Response Theory. We empirically evaluate ordering and scoring strategies, organizing into two new methods: a semi-supervised item response theory-based method ALIRT and a supervised Actor-Critic model. While we found both methods to improve over non-adaptive baselines, We found ALIRT to be the most accurate and scalable, achieving the highest accuracy with fewer questions (e.g., Pearson r ~ 0.93 after only 3 questions as compared to typically needing at least 7 questions). In general, adaptive language-based assessments of depression and anxiety were able to utilize a smaller sample of language without compromising validity or large computational costs.
翻訳日:2024-05-17 19:14:33 公開日:2024-05-16
# 動的重み付き因子グラフに基づくジオローカライゼーション

Geo-Localization Based on Dynamically Weighted Factor-Graph ( http://arxiv.org/abs/2311.07301v2 )

ライセンス: Link先を確認
Miguel Ángel Muñoz-Bañón, Alejandro Olivas, Edison Velasco-Sánchez, Francisco A. Candelas, Fernando Torres, (参考訳) 特徴に基づくジオローカライゼーションは、航空画像から抽出された特徴と車両のセンサーによって検出された特徴とを関連付けることに依存する。 これにより、ランドマークの種類は両方のソースから観測できなければならない。 この多彩な特徴型の欠如は、それぞれ不明瞭さと検出の欠如によって生み出される外れ値と偏差をもたらす、表現の貧弱さを生み出します。 これらの欠点を軽減するために,本論文では,車両軌道推定のための動的重み付き因子グラフモデルを提案する。 この実装における重み調整は、LiDARセンサを用いた検出における情報の定量化に依存する。 また、モデルに事前(GNSSに基づく)誤差推定を含める。 そして、表現があいまいになったり粗くなったりすると、重みは動的に調整され、修正前の軌道に頼り、外周や偏差を緩和する。 我々は,現在最先端のジオローカライズ手法と比較し,検出損失の原因となる,困難で曖昧な環境下での手法を比較した。 他の手法が失敗した場合の欠点を緩和する。

Feature-based geo-localization relies on associating features extracted from aerial imagery with those detected by the vehicle's sensors. This requires that the type of landmarks must be observable from both sources. This lack of variety of feature types generates poor representations that lead to outliers and deviations produced by ambiguities and lack of detections, respectively. To mitigate these drawbacks, in this paper, we present a dynamically weighted factor graph model for the vehicle's trajectory estimation. The weight adjustment in this implementation depends on information quantification in the detections performed using a LiDAR sensor. Also, a prior (GNSS-based) error estimation is included in the model. Then, when the representation becomes ambiguous or sparse, the weights are dynamically adjusted to rely on the corrected prior trajectory, mitigating outliers and deviations in this way. We compare our method against state-of-the-art geo-localization ones in a challenging and ambiguous environment, where we also cause detection losses. We demonstrate mitigation of the mentioned drawbacks where the other methods fail.
翻訳日:2024-05-17 19:14:33 公開日:2024-05-16
# 大規模言語モデルを用いた学習可能なサイバー物理システムのテスト:形式的アプローチ

Testing learning-enabled cyber-physical systems with Large-Language Models: A Formal Approach ( http://arxiv.org/abs/2311.07377v3 )

ライセンス: Link先を確認
Xi Zheng, Aloysius K. Mok, Ruzica Piskac, Yong Jae Lee, Bhaskar Krishnamachari, Dakai Zhu, Oleg Sokolsky, Insup Lee, (参考訳) 機械学習(ML)をサイバー物理システム(CPS)に統合することは、効率の向上、予測能力、リアルタイム応答性、自律的な操作の実現など、大きなメリットを提供する。 この収束は、自動運転車、配達ドローン、サービスロボット、遠隔医療手順など、さまざまな現実世界のアプリケーションの開発と展開を加速させてきた。 しかし、AIを注入したCPSのためのソフトウェア開発ライフサイクル(SDLC)は、データと学習を2つの重要なコンポーネントとして特徴付ける従来のアプローチとは大きく異なる。 既存の検証と検証技術は、しばしばこれらの新しいパラダイムには不十分である。 本研究は,CPSを学習可能とする上での形式的安全性を確保する上での課題である,検証と検証の最も実践的な方法としてのテストから始まり,現状の手法を要約する。 正式な安全保証を提供するための現在のテストアプローチの制限を認識し、我々は、基礎的な確率的テストからより厳密なアプローチに移行するためのロードマップを提案します。

The integration of machine learning (ML) into cyber-physical systems (CPS) offers significant benefits, including enhanced efficiency, predictive capabilities, real-time responsiveness, and the enabling of autonomous operations. This convergence has accelerated the development and deployment of a range of real-world applications, such as autonomous vehicles, delivery drones, service robots, and telemedicine procedures. However, the software development life cycle (SDLC) for AI-infused CPS diverges significantly from traditional approaches, featuring data and learning as two critical components. Existing verification and validation techniques are often inadequate for these new paradigms. In this study, we pinpoint the main challenges in ensuring formal safety for learningenabled CPS.We begin by examining testing as the most pragmatic method for verification and validation, summarizing the current state-of-the-art methodologies. Recognizing the limitations in current testing approaches to provide formal safety guarantees, we propose a roadmap to transition from foundational probabilistic testing to a more rigorous approach capable of delivering formal assurance.
翻訳日:2024-05-17 19:14:33 公開日:2024-05-16
# 主観的学習課題におけるクラウドソーシングアノテーションの捉え方

Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks ( http://arxiv.org/abs/2311.09743v2 )

ライセンス: Link先を確認
Negar Mokhberian, Myrl G. Marmarelis, Frederic R. Hopp, Valerio Basile, Fred Morstatter, Kristina Lerman, (参考訳) 監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。 しかしながら、毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。 注釈は、多数決のような手法を用いて単一の根拠となる真理ラベルを決定することで、一般的に集約されている。 主観的なタスクでは、ラベルの集約はバイアス付きラベリングをもたらし、その結果、少数派の意見を見渡すことができるバイアス付きモデルをもたらす。 これまでの研究では、ラベルアグリゲーションの落とし穴に光を当て、この問題に対処するための実践的なアプローチがいくつか導入されている。 近年、アノテータ毎にラベルを個別に予測するマルチアノテータモデルが、サンプルが少ないアノテータのアンダー決定に対して脆弱である。 この問題はクラウドソーシングデータセットで悪化している。 本研究では,主観的分類タスクのためのテキスト認識表現(AART)を提案する。 我々のアプローチはアノテーションの表現を学習することであり、アノテーションの振る舞いを探索することができる。 本稿では,個々のアノテータの視点を捉える上でのパフォーマンスを評価する指標について,提案手法の改良について述べる。 さらに,他のアノテータと比較して,モデルの性能の等価性を評価するために,フェアネスの指標を示す。

Supervised classification heavily depends on datasets annotated by humans. However, in subjective tasks such as toxicity classification, these annotations often exhibit low agreement among raters. Annotations have commonly been aggregated by employing methods like majority voting to determine a single ground truth label. In subjective tasks, aggregating labels will result in biased labeling and, consequently, biased models that can overlook minority opinions. Previous studies have shed light on the pitfalls of label aggregation and have introduced a handful of practical approaches to tackle this issue. Recently proposed multi-annotator models, which predict labels individually per annotator, are vulnerable to under-determination for annotators with few samples. This problem is exacerbated in crowdsourced datasets. In this work, we propose \textbf{Annotator Aware Representations for Texts (AART)} for subjective classification tasks. Our approach involves learning representations of annotators, allowing for exploration of annotation behaviors. We show the improvement of our method on metrics that assess the performance on capturing individual annotators' perspectives. Additionally, we demonstrate fairness metrics to evaluate our model's equability of performance for marginalized annotators compared to others.
翻訳日:2024-05-17 19:14:33 公開日:2024-05-16
# 裂け目進化アルゴリズムのフィトネスレベルからの着地時間推定の高速化

Fast Estimations of Hitting Time of Elitist Evolutionary Algorithms from Fitness Levels ( http://arxiv.org/abs/2311.10502v2 )

ライセンス: Link先を確認
Jun He, Siang Yew Chong, Xin Yao, (参考訳) The fitness level method is a easy touse tool for the hit time of elitist evolution algorithm。 近年、フィットネスレベルによる線形下限と上限が構築されている。 しかし、これらの境界は再帰的な計算を必要とするため、実際にの使用は困難である。 この欠点を,再帰的計算を必要としない新しい有向グラフ(グラフ)法で解決し,下界係数の計算を著しく単純化する。 提案手法では,サブディグラフを選択して適合度レベルに分解し,サブディグラフに制限された遷移確率を用いて線形下界係数を計算するための明示的な公式を構築した。 新しい手法の大きな利点は、従来のフィットネス手法では達成が難しい、ショートカットによるフィットネス関数の厳密な下限の導出である。 我々は3つの例(FullyDeceptive、TwoMax1、Deceptive)を使って、それぞれの新しい下限が厳密であることを示すが、以前の下限はそうではない。 我々の研究は、簡単なフィットネス機能にショートカットなしで対処することから、より複雑なショートカット機能まで、フィットネスレベルメソッドを著しく拡張した。

The fitness level method is an easy-to-use tool for estimating the hitting time of elitist evolutionary algorithms. Recently, linear lower and upper bounds by fitness levels have been constructed. But these bounds require recursive computation, which makes them difficult to use in practice. We address this shortcoming with a new directed graph (digraph) method that does not require recursive computation and significantly simplifies the calculation of coefficients in the lower bound. In the method, we select a sub-digraph and divide it into fitness levels, then construct an explicit formula for computing the linear lower bound coefficients using transition probabilities restricted to the subdigraph. A major advantage of the new method is the derivation of tight lower bounds on fitness functions with shortcuts, which are difficult to achieve using previous fitness methods. We use three examples (FullyDeceptive, TwoMax1 and Deceptive) to demonstrate that each new lower bound is tight, but previous lower bounds are not. Our work significantly extends the fitness level method from addressing simple fitness functions without shortcuts to more complex functions with shortcuts.
翻訳日:2024-05-17 19:14:33 公開日:2024-05-16
# 大規模言語モデル強化アルゴリズム選択:包括的アルゴリズム表現を目指して

Large Language Model-Enhanced Algorithm Selection: Towards Comprehensive Algorithm Representation ( http://arxiv.org/abs/2311.13184v3 )

ライセンス: Link先を確認
Xingyu Wu, Yan Zhong, Jibin Wu, Bingbing Jiang, Kay Chen Tan, (参考訳) 自動機械学習の重要なプロセスであるアルゴリズム選択は、実行前に特定の問題を解決するのに最適なアルゴリズムを特定することを目的としている。 メインストリームのアルゴリズム選択技術は問題の特徴に大きく依存するが、アルゴリズム機能の役割は未解明のままである。 アルゴリズムの本質的な複雑さのため、アルゴリズム情報を普遍的に抽出する効果的な方法が欠如している。 本稿では,Large Language Models (LLM) をアルゴリズム選択に導入することにより,このギャップを埋める大きな一歩を踏み出した。 コードテキストの理解により、LLMはアルゴリズムの構造的・意味的な側面を捉えるだけでなく、文脈的認識とライブラリ機能理解も示している。 LLMが抽出した高次元アルゴリズム表現は、特徴選択モジュールを実行した後、問題表現と組み合わせ、類似性計算モジュールに渡される。 選択されたアルゴリズムは、与えられた問題と異なるアルゴリズムの一致度によって決定される。 広範囲な実験により提案モデルの性能優位性と各キーモジュールの有効性が検証された。 さらに,アルゴリズム表現と特徴選択モジュールの影響を示すモデル複雑性に関する理論的上限を示す。 これにより,本手法の実用化に有効な理論的ガイダンスが得られた。

Algorithm selection, a critical process of automated machine learning, aims to identify the most suitable algorithm for solving a specific problem prior to execution. Mainstream algorithm selection techniques heavily rely on problem features, while the role of algorithm features remains largely unexplored. Due to the intrinsic complexity of algorithms, effective methods for universally extracting algorithm information are lacking. This paper takes a significant step towards bridging this gap by introducing Large Language Models (LLMs) into algorithm selection for the first time. By comprehending the code text, LLM not only captures the structural and semantic aspects of the algorithm, but also demonstrates contextual awareness and library function understanding. The high-dimensional algorithm representation extracted by LLM, after undergoing a feature selection module, is combined with the problem representation and passed to the similarity calculation module. The selected algorithm is determined by the matching degree between a given problem and different algorithms. Extensive experiments validate the performance superiority of the proposed model and the efficacy of each key module. Furthermore, we present a theoretical upper bound on model complexity, showcasing the influence of algorithm representation and feature selection modules. This provides valuable theoretical guidance for the practical implementation of our method.
翻訳日:2024-05-17 19:14:33 公開日:2024-05-16
# オンライン視線・視線ナビゲーションのための高速テスト時間適応

Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation ( http://arxiv.org/abs/2311.13209v3 )

ライセンス: Link先を確認
Junyu Gao, Xuan Yao, Changsheng Xu, (参考訳) 自然言語の指示を正確に理解し、目的の場所に向かう能力は、具体的エージェントにとって不可欠である。 このようなエージェントは、通常、オンライン方式でユーザー指示を実行する必要があるため、有効なオンラインモデル適応のためのラベルなしテストサンプルの使用について検討する。 しかしながら、オンラインビジョン・アンド・ランゲージ・ナビゲーション(VLN)では、サンプル間のオンライン命令実行とサンプル内のマルチステップアクション決定の本質的な性質のため、頻繁な更新はモデルパラメータの劇的な変化をもたらす可能性がある。 そこで本研究では,オンラインVLNに対するFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。 大規模な実験により, 提案手法は4つのベンチマークにおいて, 顕著な性能向上が得られることがわかった。 コードはhttps://github.com/Feliciaxyao/ICML2024-FSTTAで公開されている。

The ability to accurately comprehend natural language instructions and navigate to the target location is essential for an embodied agent. Such agents are typically required to execute user instructions in an online manner, leading us to explore the use of unlabeled test samples for effective online model adaptation. However, for online Vision-and-Language Navigation (VLN), due to the intrinsic nature of inter-sample online instruction execution and intra-sample multi-step action decision, frequent updates can result in drastic changes in model parameters, while occasional updates can make the model ill-equipped to handle dynamically changing environments. Therefore, we propose a Fast-Slow Test-Time Adaptation (FSTTA) approach for online VLN by performing joint decomposition-accumulation analysis for both gradients and parameters in a unified framework. Extensive experiments show that our method obtains impressive performance gains on four popular benchmarks. Code is available at https://github.com/Feliciaxyao/ICML2024-FSTTA.
翻訳日:2024-05-17 19:14:33 公開日:2024-05-16
# 陪審裁判における証明的証拠とアルゴリズムの利用

Demonstrative Evidence and the Use of Algorithms in Jury Trials ( http://arxiv.org/abs/2311.14718v2 )

ライセンス: Link先を確認
Rachel Rogers, Susan VanderPlas, (参考訳) 本研究は, 弾丸比較アルゴリズムと実証的証拠の使用が, 専門家証人の信頼性, 信頼性, 理解に対する陪審員の認識にどのように影響するかを考察し, 証拠を提示する。 法医学における統計的手法の使用は、科学的な妥当性の欠如と多くの法医学的分析手法に現れる誤り率の問題によって動機付けられている。 そこでは, 高度な統計手法に精通していない個人に対して, 罪悪感を評価するために, 結果の評価を依頼する裁判所において, この種の法医学的証拠がどのように認識されているかを検討する。 最初の研究で、実験条件にかかわらず、信頼性、信頼性、科学的性において、個人が圧倒的に高い評価を得られることがわかった。 このスケール圧縮の発見 - 実験的な操作にもかかわらず、大規模で少数の値に制限された応答 - は統計的モデリングを制限するが、この領域における将来の研究を改善する新しい実験的な操作の機会を提供する。

We investigate how the use of bullet comparison algorithms and demonstrative evidence may affect juror perceptions of reliability, credibility, and understanding of expert witnesses and presented evidence. The use of statistical methods in forensic science is motivated by a lack of scientific validity and error rate issues present in many forensic analysis methods. We explore what our study says about how this type of forensic evidence is perceived in the courtroom where individuals unfamiliar with advanced statistical methods are asked to evaluate results in order to assess guilt. In the course of our initial study, we found that individuals overwhelmingly provided high Likert scale ratings in reliability, credibility, and scientificity regardless of experimental condition. This discovery of scale compression - where responses are limited to a few values on a larger scale, despite experimental manipulations - limits statistical modeling but provides opportunities for new experimental manipulations which may improve future studies in this area.
翻訳日:2024-05-17 19:14:33 公開日:2024-05-16
# 全スライド画像における肺腺癌成長パターンの細胞マップ表示

Cell Maps Representation For Lung Adenocarcinoma Growth Patterns Classification In Whole Slide Images ( http://arxiv.org/abs/2311.15847v2 )

ライセンス: Link先を確認
Arwa Al-Rubaian, Gozde N. Gunesli, Wajd A. Althakfi, Ayesha Azam, Nasir Rajpoot, Shan E Ahmed Raza, (参考訳) 肺腺癌は, 形態学的に異質な疾患であり, 5つの原発組織学的成長パターンを特徴とする。 これらのパターンの量は腫瘍の挙動と関係があり、患者の予後に大きな影響を及ぼす。 本研究では,組織タイルを5つのパターンまたは非腫瘍の1つに分類できる新しい機械学習パイプラインを提案し,AUCROCスコアが0.97である。 我々のモデルは、まずHematoxylinとEosin(H&E)の全スライド画像(WSI)から細胞マップを生成し、畳み込みニューラルネットワーク分類モデルに入力する。 これらのセルマップのエクスプロイトにより、新しいデータに対する堅牢な一般化が可能となり、現在の最先端のアプローチと比較して、目に見えないテストセットの精度はおよそ30%向上する。 本モデルから得られた知見は予後予測や患者の予後向上に有効である。

Lung adenocarcinoma is a morphologically heterogeneous disease, characterized by five primary histologic growth patterns. The quantity of these patterns can be related to tumor behavior and has a significant impact on patient prognosis. In this work, we propose a novel machine learning pipeline capable of classifying tissue tiles into one of the five patterns or as non-tumor, with an Area Under the Receiver Operating Characteristic Curve (AUCROC) score of 0.97. Our model's strength lies in its comprehensive consideration of cellular spatial patterns, where it first generates cell maps from Hematoxylin and Eosin (H&E) whole slide images (WSIs), which are then fed into a convolutional neural network classification model. Exploiting these cell maps provides the model with robust generalizability to new data, achieving approximately 30% higher accuracy on unseen test-sets compared to current state of the art approaches. The insights derived from our model can be used to predict prognosis, enhancing patient outcomes.
翻訳日:2024-05-17 19:14:33 公開日:2024-05-16
# ベクトル値正規化最小二乗アルゴリズムにおけるソボレフノルム率の最適化に向けて

Towards Optimal Sobolev Norm Rates for the Vector-Valued Regularized Least-Squares Algorithm ( http://arxiv.org/abs/2312.07186v4 )

ライセンス: Link先を確認
Zhu Li, Dimitri Meunier, Mattes Mollenhauer, Arthur Gretton, (参考訳) L_2$と仮説空間の間を補間するノルムの連続スケール上で、無限次元ベクトル値リッジ回帰の最初の最適速度を示し、これはベクトル値再生核ヒルベルト空間と考える。 これらの速度は、真の回帰関数が仮説空間に含まれていない不特定ケースを扱うことができる。 仮説空間のキャパシティに関する標準的な仮定とベクトル値補間空間の新たなテンソル積の構成を組み合わせることにより、回帰関数の滑らかさを特徴づける。 我々の上界は実数値のカーネルリッジ回帰と同じ速度を得るだけでなく、対象の回帰関数が有界であるという仮定も取り除く。 下界では、射影引数を用いてスカラー設定に問題を還元する。 これらの値は、ほとんどの場合最適であり、出力空間の次元に依存しないことを示す。 ベクトル値ソボレフ空間の特別な場合について、本研究の結果を説明する。

We present the first optimal rates for infinite-dimensional vector-valued ridge regression on a continuous scale of norms that interpolate between $L_2$ and the hypothesis space, which we consider as a vector-valued reproducing kernel Hilbert space. These rates allow to treat the misspecified case in which the true regression function is not contained in the hypothesis space. We combine standard assumptions on the capacity of the hypothesis space with a novel tensor product construction of vector-valued interpolation spaces in order to characterize the smoothness of the regression function. Our upper bound not only attains the same rate as real-valued kernel ridge regression, but also removes the assumption that the target regression function is bounded. For the lower bound, we reduce the problem to the scalar setting using a projection argument. We show that these rates are optimal in most cases and independent of the dimension of the output space. We illustrate our results for the special case of vector-valued Sobolev spaces.
翻訳日:2024-05-17 19:14:33 公開日:2024-05-16
# 距離プロファイルとロバスト点マッチング

Robust Point Matching with Distance Profiles ( http://arxiv.org/abs/2312.12641v2 )

ライセンス: Link先を確認
YoonHaeng Hur, Yuehaw Khoo, (参考訳) 対距離に基づくマッチング手順は概念的に魅力的であり、実際は好まれるが、そのような手順の理論的保証は文献にはほとんど見つからない。 本稿では,実際の実装が容易な距離プロファイルに基づいてマッチング手順を提案し,解析し,これらの手順が外れ値やノイズに対して堅牢であることを示す。 本稿では,実データ例を用いて提案手法の性能を実証し,理論的な知見を補完するシミュレーション研究を行う。

While matching procedures based on pairwise distances are conceptually appealing and thus favored in practice, theoretical guarantees for such procedures are rarely found in the literature. We propose and analyze matching procedures based on distance profiles that are easily implementable in practice, showing these procedures are robust to outliers and noise. We demonstrate the performance of the proposed method using a real data example and provide simulation studies to complement the theoretical findings.
翻訳日:2024-05-17 19:14:33 公開日:2024-05-16
# 放射線学データを用いたセグメンテーションモデルの検討

Testing the Segment Anything Model on radiology data ( http://arxiv.org/abs/2312.12880v2 )

ライセンス: Link先を確認
José Guilherme de Almeida, Nuno M. Rodrigues, Sara Silva, Nickolas Papanikolaou, (参考訳) 大量のデータで訓練されたディープラーニングモデルは、近年、予測的問題解決のための、効果的なアプローチになりつつある -- これらは、他のアプリケーションの基本ツールとして使用できることから、"境界モデル"として知られるようになった。画像分類(アーリヤ)と大規模言語モデル(最近は)が最重要事例となっているが、Segment Anything Model(SAM)が最近提案され、1000万枚以上の画像で訓練されたイメージセグメンテーションの第一の基盤モデルとして、100億枚以上のマスクでトレーニングされた。しかし、この基盤の限界は? MRIは診断の重要な方法であり,MRIデータを用いたゼロショットセグメンテーションのいくつかのタスクにSAMが有効であるかどうかを考察した。 特に、SAM予測のプールからマスクを選択することが良いセグメンテーションにつながるかどうかを知りたかった。 本稿では,磁気共鳴画像データにおけるSAMの性能評価について述べる。 非常に限られたケースでは受け入れられるが、全体的な傾向は、これらのモデルが全容にわたってMRIのセグメンテーションに不十分であることを示しているが、いくつかの特定のスライスで良いセグメンテーションを提供できることを示している。 さらに重要なことは、自然画像に基づいて訓練された基礎モデルは、予測モデリングの重要な側面となるように設定されているが、他の画像モダリティで使用すると効果が低下する可能性があることである。

Deep learning models trained with large amounts of data have become a recent and effective approach to predictive problem solving -- these have become known as "foundation models" as they can be used as fundamental tools for other applications. While the paramount examples of image classification (earlier) and large language models (more recently) led the way, the Segment Anything Model (SAM) was recently proposed and stands as the first foundation model for image segmentation, trained on over 10 million images and with recourse to over 1 billion masks. However, the question remains -- what are the limits of this foundation? Given that magnetic resonance imaging (MRI) stands as an important method of diagnosis, we sought to understand whether SAM could be used for a few tasks of zero-shot segmentation using MRI data. Particularly, we wanted to know if selecting masks from the pool of SAM predictions could lead to good segmentations. Here, we provide a critical assessment of the performance of SAM on magnetic resonance imaging data. We show that, while acceptable in a very limited set of cases, the overall trend implies that these models are insufficient for MRI segmentation across the whole volume, but can provide good segmentations in a few, specific slices. More importantly, we note that while foundation models trained on natural images are set to become key aspects of predictive modelling, they may prove ineffective when used on other imaging modalities.
翻訳日:2024-05-17 19:14:33 公開日:2024-05-16
# SpecNeRF: スペクトル反射のガウス方向符号化

SpecNeRF: Gaussian Directional Encoding for Specular Reflections ( http://arxiv.org/abs/2312.13102v3 )

ライセンス: Link先を確認
Li Ma, Vasu Agrawal, Haithem Turki, Changil Kim, Chen Gao, Pedro Sander, Michael Zollhöfer, Christian Richardt, (参考訳) ニューラルレイディアンス場は、3Dシーンの外観をモデル化する際、顕著な性能を達成している。 しかし、既存のアプローチは、特に屋内環境の複雑な照明の下で、光沢のある表面の視界依存的な外観に苦慮している。 環境マップのように遠方からの光を仮定する既存の方法とは異なり、近場照明条件下でのビュー依存効果をより良くモデル化するための学習可能なガウス方向符号化を提案する。 重要なことは、我々の新しい指向性符号化は、近接場照明の空間的に変化する性質を捉え、事前フィルタされた環境マップの挙動をエミュレートする。 その結果, 粗さ係数の異なる任意の3次元位置において, 先行したスペクトル色を効率よく評価することが可能となった。 さらに、リフレクションモデリングにおける形状放射のあいまいさを軽減するために、データ駆動幾何を導入する。 我々のガウス方向符号化と幾何は、より物理的に意味のある構成要素に外見を分解するのに役立つ神経放射場における難解なスペクトル反射のモデリングを大幅に改善することを示します。

Neural radiance fields have achieved remarkable performance in modeling the appearance of 3D scenes. However, existing approaches still struggle with the view-dependent appearance of glossy surfaces, especially under complex lighting of indoor environments. Unlike existing methods, which typically assume distant lighting like an environment map, we propose a learnable Gaussian directional encoding to better model the view-dependent effects under near-field lighting conditions. Importantly, our new directional encoding captures the spatially-varying nature of near-field lighting and emulates the behavior of prefiltered environment maps. As a result, it enables the efficient evaluation of preconvolved specular color at any 3D location with varying roughness coefficients. We further introduce a data-driven geometry prior that helps alleviate the shape radiance ambiguity in reflection modeling. We show that our Gaussian directional encoding and geometry prior significantly improve the modeling of challenging specular reflections in neural radiance fields, which helps decompose appearance into more physically meaningful components.
翻訳日:2024-05-17 19:04:48 公開日:2024-05-16
# 超伝導共振器におけるSi$_3$N$_4$マイクロ波誘電損失のアニール化

Annealing reduces Si$_3$N$_4$ microwave-frequency dielectric loss in superconducting resonators ( http://arxiv.org/abs/2312.13504v2 )

ライセンス: Link先を確認
Sarang Mittal, Kazemi Adachi, Nicholas E. Frattini, Maxwell D. Urmey, Sheng-Xiang Lin, Alec L. Emser, Cyril Metzger, Luca Talamo, Sarah Dickson, David Carlson, Scott B. Papp, Cindy A. Regal, Konrad W. Lehnert, (参考訳) 窒化ケイ素(Si$_3$N$_4$)の誘電損失は、センサ、信号処理、量子通信にこの材料に依存するマイクロ波デバイスの性能を制限する。 超伝導共振回路を用いて, 高温熱処理したSi$_3$N$_4$の低温損失接点を駆動強度と温度の関数として測定した。 電気共振器の内部損失挙動は、TLSとの共振エネルギー交換と非共振TLSの緩和による減衰を含む2レベル系(TLS)の標準トンネルモデルと大きく一致している。 我々はさらにTLSモデルを自己加熱効果で補足し、大駆動力で作製した薄膜で観察された損失の増加を説明する。 臨界的に、アニーリングはこの異常な電力損失を軽減し、緩和型減衰を2桁以上減少させ、共振型減衰を3倍減少させることを示した。 赤外線吸収分光法を用いて、アニールはSi$_3$N$_4$の水素濃度を減少させ、不純物がかなりの散逸を引き起こすことを示唆する。

The dielectric loss of silicon nitride (Si$_3$N$_4$) limits the performance of microwave-frequency devices that rely on this material for sensing, signal processing, and quantum communication. Using superconducting resonant circuits, we measure the cryogenic loss tangent of either as-deposited or high-temperature annealed stoichiometric Si$_3$N$_4$ as a function of drive strength and temperature. The internal loss behavior of the electrical resonators is largely consistent with the standard tunneling model of two-level systems (TLS), including damping caused by resonant energy exchange with TLS and by the relaxation of non-resonant TLS. We further supplement the TLS model with a self-heating effect to explain an increase in the loss observed in as-deposited films at large drive powers. Critically, we demonstrate that annealing remedies this anomalous power-induced loss, reduces the relaxation-type damping by more than two orders of magnitude, and reduces the resonant-type damping by a factor of three. Employing infrared absorption spectroscopy, we find that annealing reduces the concentration of hydrogen in the Si$_3$N$_4$, suggesting that hydrogen impurities cause substantial dissipation.
翻訳日:2024-05-17 19:04:48 公開日:2024-05-16
# 可変開口マイクロキャビティによるダイヤモンド中のゲルマニウム空洞の寿命短縮

Lifetime Reduction of Single Germanium-Vacancy Centers in Diamond via a Tunable Open Microcavity ( http://arxiv.org/abs/2312.14313v3 )

ライセンス: Link先を確認
Rigel Zifkin, César Daniel Rodríguez Rosenblueth, Erika Janitz, Yannik Fontana, Lilian Childress, (参考訳) 単一量子エミッタと光学キャビティの結合は、将来の量子ネットワークアプリケーションにとって重要な機能である。 ここでは,ダイヤモンド中のゲルマニウム空洞(GeV)欠陥と極低温におけるオープンマイクロキャビティとの相互作用について検討する。 マイクロキャビティシステムのチューナビリティを活用してエミッタの特性と選択を行い,Purcell-エフェクト誘起寿命を最大4.5 pm0.3$まで低減し,コヒーレント結合率を最大360 pm20$MHzまで抽出する。 以上の結果から,GeV欠陥は共振器結合に好適な光学特性を有し,量子効率は0.34\pm0.05$以上である可能性が示唆された。

Coupling between a single quantum emitter and an optical cavity presents a key capability for future quantum networking applications. Here, we explore interactions between individual germanium-vacancy (GeV) defects in diamond and an open microcavity at cryogenic temperatures. Exploiting the tunability of our microcavity system to characterize and select emitters, we observe a Purcell-effect-induced lifetime reduction of up to $4.5\pm0.3$, and extract coherent coupling rates up to $360\pm20$ MHz. Our results indicate that the GeV defect has favorable optical properties for cavity coupling, with a quantum efficiency of at least $0.34\pm0.05$ and likely much higher.
翻訳日:2024-05-17 19:04:48 公開日:2024-05-16
# グラフアテンションに基づくアナログ回路の対称性制約抽出

Graph Attention-Based Symmetry Constraint Extraction for Analog Circuits ( http://arxiv.org/abs/2312.14405v2 )

ライセンス: Link先を確認
Qi Xu, Lijie Wang, Jing Wang, Lin Cheng, Song Chen, Yi Kang, (参考訳) 近年、アナログ回路は広く注目され、多くの新興アプリケーションで広く利用されている。 アナログ回路の高需要は、より短い回路設計サイクルを必要とする。 所望のパフォーマンスと仕様を達成するためには、アナログレイアウトプロセス中に様々な幾何学的対称性の制約を慎重に考慮する必要がある。 しかしながら、経験豊富なアナログエンジニアによるこれらの制約のマニュアルラベル付けは、手間と時間を要するプロセスである。 コストのかかるランタイム問題に対処するため,アナログ回路レイアウトにおける対称制約を自動的に抽出するグラフベースの学習フレームワークを提案する。 提案フレームワークは、回路の接続特性とデバイス情報を利用して、対称制約の一般的な規則を学習し、回路網リスト上のデバイスレベルの制約を効果的に抽出する。 実験により,最先端の対称制約検出手法と比較して,フレームワークの精度とF1スコアが向上した。

In recent years, analog circuits have received extensive attention and are widely used in many emerging applications. The high demand for analog circuits necessitates shorter circuit design cycles. To achieve the desired performance and specifications, various geometrical symmetry constraints must be carefully considered during the analog layout process. However, the manual labeling of these constraints by experienced analog engineers is a laborious and time-consuming process. To handle the costly runtime issue, we propose a graph-based learning framework to automatically extract symmetric constraints in analog circuit layout. The proposed framework leverages the connection characteristics of circuits and the devices' information to learn the general rules of symmetric constraints, which effectively facilitates the extraction of device-level constraints on circuit netlists. The experimental results demonstrate that compared to state-of-the-art symmetric constraint detection approaches, our framework achieves higher accuracy and F1-score.
翻訳日:2024-05-17 19:04:48 公開日:2024-05-16
# ShennongAlpha: 医学材料知識のインテリジェントなキュレーション、取得、翻訳のためのAI駆動の共有・コラボレーションプラットフォーム

ShennongAlpha: an AI-driven sharing and collaboration platform for intelligent curation, acquisition, and translation of natural medicinal material knowledge ( http://arxiv.org/abs/2401.00020v2 )

ライセンス: Link先を確認
Zijie Yang, Yongjing Yin, Chaojun Kong, Tiange Chi, Wufan Tao, Yue Zhang, Tian Xu, (参考訳) ナチュラルメディカル・マテリアル(NMM)は、世界的な臨床応用と豊富な記録と知識の長い歴史を持っている。 NMMは医薬品の発見と臨床応用の主要な情報源であるが、NMM知識の利用と共有は、重要な情報の標準化、効率的なキュレーションと取得、言語障壁といった重要な課題に直面している。 これらの問題に対処するために、知的知識のキュレーション、取得、翻訳のためのAI駆動の共有およびコラボレーションプラットフォームであるShennongAlphaを開発した。 標準化された知識キュレーションのために、プラットフォームは、NMMの正確な識別と識別を可能にするSystematic Nomenclatureを導入した。 中国のNMMは、その知識とともに14万種以上がプラットフォームにキュレーションされている。 さらに、チャットベースの知識獲得、標準化された機械翻訳、協調的な知識更新を開拓した。 我々の研究は、AIを活用してNMM知識の共有を促進する最初の大きな進歩であり、これはAI for Scienceの新たな応用であるだけでなく、世界中のバイオメディカル、医薬、医師、患者コミュニティにも大きな恩恵をもたらすだろう。

Natural Medicinal Materials (NMMs) have a long history of global clinical applications and a wealth of records and knowledge. Although NMMs are a major source for drug discovery and clinical application, the utilization and sharing of NMM knowledge face crucial challenges, including the standardized description of critical information, efficient curation and acquisition, and language barriers. To address these, we developed ShennongAlpha, an AI-driven sharing and collaboration platform for intelligent knowledge curation, acquisition, and translation. For standardized knowledge curation, the platform introduced a Systematic Nomenclature to enable accurate differentiation and identification of NMMs. More than fourteen thousand Chinese NMMs have been curated into the platform along with their knowledge. Furthermore, the platform pioneered chat-based knowledge acquisition, standardized machine translation, and collaborative knowledge updating. Together, our study represents the first major advance in leveraging AI to empower NMM knowledge sharing, which not only marks a novel application of AI for Science, but also will significantly benefit the global biomedical, pharmaceutical, physician, and patient communities.
翻訳日:2024-05-17 19:04:48 公開日:2024-05-16
# 交換結合量子スピン量子ビット系のデコヒーレンス:多ビット相互作用と幾何学的接続性の影響

Decoherence in Exchange-Coupled Quantum Spin Qubit Systems: Impact of Multiqubit Interactions and Geometric Connectivity ( http://arxiv.org/abs/2401.00725v2 )

ライセンス: Link先を確認
Quan Fu, Jiahao Wu, Xin Wang, (参考訳) 準静的ハイゼンベルク雑音下での量子系のデコヒーレンス時間に及ぼす異なる接続性の影響について検討する。 ノード,棒,三角形の3種類の基本単位を検討した。 平均接続性の向上が安定性を低下させるという期待に反して、環はチェーンよりも安定性が高いことが分かる。 さらに、棒の構成は三角形の構成よりも安定している。 また、エンタングルメントエントロピーとリターン確率の類似の傾向を観察し、デコヒーレンス時間の特徴付けにその可能性を示した。 本研究は,量子システムにおける接続性と安定性の相互作用を考察し,ロバストな量子技術の設計と量子誤り訂正戦略について考察した。

We investigate the impact of different connectivities on the decoherence time in quantum systems under quasi-static Heisenberg noise. We considered three types of elementary units, including node, stick and triangle and connect them into ring, chain, and tree configurations. We find that rings exhibit greater stability compared to chains, contrary to the expectation that higher average connectivity leads to decreased stability. Additionally, the stick configuration is more stable than the triangle configuration. We also observe similar trends in entanglement entropy and return probability, indicating their potential use in characterizing decoherence time. Our findings provide insights into the interplay between connectivity and stability in quantum systems, with implications for the design of robust quantum technologies and quantum error correction strategies.
翻訳日:2024-05-17 19:04:48 公開日:2024-05-16
# 検索型エゴセントリックビデオキャプション

Retrieval-Augmented Egocentric Video Captioning ( http://arxiv.org/abs/2401.00789v3 )

ライセンス: Link先を確認
Jilan Xu, Yifei Huang, Junlin Hou, Guo Chen, Yuejie Zhang, Rui Feng, Weidi Xie, (参考訳) 一人称視点のビデオから人間の行動を理解することは大きな課題となる。 従来のアプローチでは、エゴセントリックなビデオのみの表現学習を探求し、既存の大規模な3人称ビデオを利用するという潜在的な利点を見越している。 本稿では,エゴセントリックビデオの動画キャプションを強化するために,セマンティックな第三者指導ビデオを自動的に検索する検索拡張マルチモーダルキャプションモデルであるEgoInstructorを開発する。 2) クロスビュー検索モジュールをトレーニングするために,大規模なエゴセントリックなデータセットとエゴセントリックなデータセットから,エゴセントリックなビデオペアを見つけるための自動パイプラインを考案した。 (3) クロスビュー検索モジュールには,エゴセントリックでエゴセントリックな映像機能を引き出す新たなEgoExoNCE損失を伴い,類似した動作を記述した共有テキスト機能にアライメントすることで,クロスビュー検索モジュールを訓練する。 (4) 広範囲な実験により, クロスビュー検索モジュールは7つのベンチマークにおいて優れた性能を示した。 エゴセントリックなビデオキャプションに関しては、EgoInstructorは、第三者の動画を参照として活用することで、大幅に改善されている。

Understanding human actions from videos of first-person view poses significant challenges. Most prior approaches explore representation learning on egocentric videos only, while overlooking the potential benefit of exploiting existing large-scale third-person videos. In this paper, (1) we develop EgoInstructor, a retrieval-augmented multimodal captioning model that automatically retrieves semantically relevant third-person instructional videos to enhance the video captioning of egocentric videos. (2) For training the cross-view retrieval module, we devise an automatic pipeline to discover ego-exo video pairs from distinct large-scale egocentric and exocentric datasets. (3) We train the cross-view retrieval module with a novel EgoExoNCE loss that pulls egocentric and exocentric video features closer by aligning them to shared text features that describe similar actions. (4) Through extensive experiments, our cross-view retrieval module demonstrates superior performance across seven benchmarks. Regarding egocentric video captioning, EgoInstructor exhibits significant improvements by leveraging third-person videos as references.
翻訳日:2024-05-17 19:04:48 公開日:2024-05-16
# NID-SLAM: 動的環境におけるニューラルインシシシト表現に基づくRGB-D SLAM

NID-SLAM: Neural Implicit Representation-based RGB-D SLAM in dynamic environments ( http://arxiv.org/abs/2401.01189v2 )

ライセンス: Link先を確認
Ziheng Xu, Jianwei Niu, Qingfeng Li, Tao Ren, Chen Chen, (参考訳) ニューラル暗黙表現は、特に高忠実度高密度マップの提供において、視覚SLAMアルゴリズムを強化するために研究されている。 既存の手法は静的な場面では頑健に動作するが、移動物体によって引き起こされる破壊に苦慮する。 本稿では,動的環境におけるニューラルSLAMの性能を大幅に向上させるNID-SLAMを提案する。 本稿では, セマンティックマスクにおける不正確な領域, 特に辺縁領域における不正確な領域を強化するための新しいアプローチを提案する。 深度画像に存在する幾何情報を利用することで、動的物体の正確な除去を可能にし、カメラドリフトの確率を低減できる。 さらに,ダイナミックシーンのキーフレーム選択戦略を導入し,大規模オブジェクトに対するカメラトラッキングの堅牢性を高め,マッピングの効率を向上する。 公開されているRGB-Dデータセットの実験により、我々の手法は動的環境における精度とマッピング品質の追跡において、競合するニューラルSLAMアプローチより優れていることが示された。

Neural implicit representations have been explored to enhance visual SLAM algorithms, especially in providing high-fidelity dense map. Existing methods operate robustly in static scenes but struggle with the disruption caused by moving objects. In this paper we present NID-SLAM, which significantly improves the performance of neural SLAM in dynamic environments. We propose a new approach to enhance inaccurate regions in semantic masks, particularly in marginal areas. Utilizing the geometric information present in depth images, this method enables accurate removal of dynamic objects, thereby reducing the probability of camera drift. Additionally, we introduce a keyframe selection strategy for dynamic scenes, which enhances camera tracking robustness against large-scale objects and improves the efficiency of mapping. Experiments on publicly available RGB-D datasets demonstrate that our method outperforms competitive neural SLAM approaches in tracking accuracy and mapping quality in dynamic environments.
翻訳日:2024-05-17 19:04:48 公開日:2024-05-16
# $f$-divergence ベースの分類:クロスエントロピーの利用を超えて

$f$-Divergence Based Classification: Beyond the Use of Cross-Entropy ( http://arxiv.org/abs/2401.01268v2 )

ライセンス: Link先を確認
Nicola Novello, Andrea M. Tonello, (参考訳) ディープラーニングにおいて、分類タスクは、クロスエントロピーの最小化によってしばしば解決される最適化問題として形式化される。 しかし、近年の目的関数の設計の進歩により、分類のための最適化問題の定式化を一般化するために$f$-divergenceを使用することができる。 我々はベイズ的視点を採用し、その分類タスクを最大後続確率問題として定式化する。 本稿では,$f$-divergenceの変動表現に基づく目的関数のクラスを提案する。 さらに,最先端のアプローチを改善することの課題から,シフトログ(SL)と呼ばれる新しい$f$-divergenceに対応する目的関数の定式化につながるボトムアップ手法を提案する。 提案する目的関数を理論的に解析し,3つの応用シナリオ – おもちゃの例,画像データセット,信号検出/復号化問題 – で数値的に検証する。 解析されたシナリオは,提案手法の有効性を実証し,ほぼすべての事例において,SL偏差が最も高い分類精度を達成することを示す。

In deep learning, classification tasks are formalized as optimization problems often solved via the minimization of the cross-entropy. However, recent advancements in the design of objective functions allow the usage of the $f$-divergence to generalize the formulation of the optimization problem for classification. We adopt a Bayesian perspective and formulate the classification task as a maximum a posteriori probability problem. We propose a class of objective functions based on the variational representation of the $f$-divergence. Furthermore, driven by the challenge of improving the state-of-the-art approach, we propose a bottom-up method that leads us to the formulation of an objective function corresponding to a novel $f$-divergence referred to as shifted log (SL). We theoretically analyze the objective functions proposed and numerically test them in three application scenarios: toy examples, image datasets, and signal detection/decoding problems. The analyzed scenarios demonstrate the effectiveness of the proposed approach and that the SL divergence achieves the highest classification accuracy in almost all the considered cases.
翻訳日:2024-05-17 19:04:48 公開日:2024-05-16
# キラルカップリングを持つ巨大原子導波路系における単一光子散乱

Single-photon scattering in giant-atom waveguide systems with chiral coupling ( http://arxiv.org/abs/2401.01592v3 )

ライセンス: Link先を確認
Shu-Yu Li, Ze-Quan Zhang, Lei Du, Yong Li, Huaizhi Wu, (参考訳) 複数の接続点における1次元導波管にキラル結合した巨大原子の単一光子散乱スペクトルについて検討し,散乱スペクトルにおけるキラリティ誘起効果について検討した。 送信スペクトルは、通常、非ローレンツ系ラインシェープの反ローレンツ系ラインシェープを持つが、多点結合のキラリティーを工学的に行うことにより、入射光子の透過スペクトルは、全透過から全反射への遷移を複数周波数 ' `windows''' で行うことができ、各ウィンドウの反ローレンツ系ラインシェープの幅は、固定周波数デチューニングで柔軟に調整できる。 さらに,非マルコフ遅延効果によって引き起こされる光子散乱とは対照的に,内部原子の自発放出と導波管へのキラル外部崩壊との相互作用により,完全な非相互光子散乱が達成できることを示す。 また、散乱スペクトルに対する非マルコフ遅延効果も考慮し、2つのキラルカップリング点しか持たないフォトニックバンドギャップを実現する。 キラル結合を持つ巨大原子導波路系は、複数のチャネルを持つ単一光子ルータの実現に有望な候補である。

We study single-photon scattering spectra of a giant atom chirally coupled to a one-dimensional waveguide at multiple connection points, and examine chirality induced effects in the scattering spectra. We show that the transmission spectra typically possess an anti-Lorentzian lineshape with a nonzero minimum, but by engineering the chirality of the multi-point coupling, the transmission spectrum of an incident photon can undergo a transition from complete transmission to total reflection at multiple frequency ``windows'', where the width of the anti-Lorentzian lineshape for each of the window can be flexibly tuned at a fixed frequency detuning. Moreover, we show that a perfect nonreciprocal photon scattering can be achieved due to the interplay between internal atomic spontaneous emission and the chirally external decay to the waveguide, in contrast to that induced by the non-Markovian retardation effect. We also consider the non-Markovian retardation effect on the scattering spectra, which allows for a photonic band gap even with only two chiral coupling points. The giant-atom-waveguide system with chiral coupling is a promising candidate for realizing single-photon routers with multiple channels.
翻訳日:2024-05-17 19:04:48 公開日:2024-05-16
# データ駆動物理インフォームドニューラルネットワーク:デジタル双対視点

Data-Driven Physics-Informed Neural Networks: A Digital Twin Perspective ( http://arxiv.org/abs/2401.08667v2 )

ライセンス: Link先を確認
Sunwoong Yang, Hojin Kim, Yoonpyo Hong, Kwanjung Yee, Romit Maulik, Namwoo Kang, (参考訳) 本研究では, 物理インフォームドニューラルネットワーク(PINN)によるディジタル双生児(DT)の実現の可能性について, 様々な観点から検討した。 まず,手動によるメッシュ生成を伴わない仮想表現の自動構築を可能にするPINNのメッシュフリーフレームワークにおいて,コロケーションポイントに対する様々な適応サンプリング手法の有効性を検証した。 次に,データ駆動型PINN(DD-PINN)フレームワークの全体的な性能について検討し,DTシナリオで取得したデータセットを活用する。 より一般的な物理学へのスケーラビリティはパラメトリックなナビエ・ストークス方程式で検証され、レイノルズ数が異なるため、PINNは再訓練される必要はない。 また, 実際に異なる忠実度/疎度からデータセットを収集できるため, 多忠実DD-PINNも提案され, 評価されている。 これらは外挿タスクにおいても顕著な予測性能を示し、シングルフィデリティアプローチよりも42\sim62\%$改善されている。 最後に,多要素DD-PINNの不確実性定量化性能をアンサンブル法を用いて検討し,精度の高い予測不確かさの測定が重要であるDTにおけるその可能性を検証する。 この研究で調べたDD-PINNフレームワークは、上記の観点から従来のPINNよりもDTシナリオに適していることが分かり、エンジニアはシームレスなDTの実現に一歩近づいた。

This study explores the potential of physics-informed neural networks (PINNs) for the realization of digital twins (DT) from various perspectives. First, various adaptive sampling approaches for collocation points are investigated to verify their effectiveness in the mesh-free framework of PINNs, which allows automated construction of virtual representation without manual mesh generation. Then, the overall performance of the data-driven PINNs (DD-PINNs) framework is examined, which can utilize the acquired datasets in DT scenarios. Its scalability to more general physics is validated within parametric Navier-Stokes equations, where PINNs do not need to be retrained as the Reynolds number varies. In addition, since datasets can be often collected from different fidelity/sparsity in practice, multi-fidelity DD-PINNs are also proposed and evaluated. They show remarkable prediction performance even in the extrapolation tasks, with $42\sim62\%$ improvement over the single-fidelity approach. Finally, the uncertainty quantification performance of multi-fidelity DD-PINNs is investigated by the ensemble method to verify their potential in DT, where an accurate measure of predictive uncertainty is critical. The DD-PINN frameworks explored in this study are found to be more suitable for DT scenarios than traditional PINNs from the above perspectives, bringing engineers one step closer to seamless DT realization.
翻訳日:2024-05-17 19:04:48 公開日:2024-05-16
# エージェントによる会話型AIは、倫理に対する考え方を変えるべきか?

Should agentic conversational AI change how we think about ethics? Characterising an interactional ethics centred on respect ( http://arxiv.org/abs/2401.09082v2 )

ライセンス: Link先を確認
Lize Alberts, Geoff Keeling, Amanda McCroskery, (参考訳) 大規模言語モデル(LLM)に基づく会話エージェントの普及に伴い,これらの行動が倫理的かつ適切なものであることを保証する必要がある。 この領域での作業は、アウトプットをより便利で誠実にし、有害な(バイアスのある、有害な、または不正確な)ステートメントを避けるという「HHH」基準を中心に行われる。 この意味的焦点は、LLMエージェントを単なる媒体または出力生成システムと見なすのに有用であるが、同じ言動を多かれ少なかれ無作為に感じさせ、異なる社会的状況下で不合理に感じさせる実用的な要因を説明できない。 エージェントAIの推進により、対話の実用性を考えると、システムはますます積極的に、世界の目標を追求し、行動を実行するようになる。 本稿では,関係要因と状況要因に着目した倫理の相互作用的アプローチを提案する。 我々は、社会的アクターとしてのシステムにとっての意味を探求し、(一連の)インタラクションにおいて、個人を敬意をもって扱う。 我々の研究は、社会的相互作用の場所において、ほとんど探索されていないリスクのセットを予想し、エージェントLLM技術が人々をうまく扱えるように、実践的な提案を提供する。

With the growing popularity of conversational agents based on large language models (LLMs), we need to ensure their behaviour is ethical and appropriate. Work in this area largely centres around the 'HHH' criteria: making outputs more helpful and honest, and avoiding harmful (biased, toxic, or inaccurate) statements. Whilst this semantic focus is useful when viewing LLM agents as mere mediums or output-generating systems, it fails to account for pragmatic factors that can make the same speech act seem more or less tactless or inconsiderate in different social situations. With the push towards agentic AI, wherein systems become increasingly proactive in chasing goals and performing actions in the world, considering the pragmatics of interaction becomes essential. We propose an interactional approach to ethics that is centred on relational and situational factors. We explore what it means for a system, as a social actor, to treat an individual respectfully in a (series of) interaction(s). Our work anticipates a set of largely unexplored risks at the level of situated social interaction, and offers practical suggestions to help agentic LLM technologies treat people well.
翻訳日:2024-05-17 19:04:48 公開日:2024-05-16
# 深層能動学習のためのフリップフロップ型サンプルの検索

Querying Easily Flip-flopped Samples for Deep Active Learning ( http://arxiv.org/abs/2401.09787v2 )

ライセンス: Link先を確認
Seong Jin Cho, Gwangsu Kim, Junghyun Lee, Jinwoo Shin, Chang D. Yoo, (参考訳) アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。 効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。 サンプルから決定境界までの距離は予測の不確実性の自然な尺度であるが、特に多クラス分類タスクで形成される複雑な決定境界に対しては計算が困難であることが多い。 この問題に対処するため,本論文では,予測ラベルの不一致の最小確率として定義されるLDMと,軽微な仮定の下で漸近的に一貫したLDM推定器を提案する。 この推定器は計算効率が高く,パラメータ摂動を用いたディープラーニングモデルに容易に実装できる。 LDMに基づくアクティブラーニングは、ラベルなしデータを最小のLCMでクエリすることで行う。 実験結果から,LDMに基づく能動学習アルゴリズムは,すべての検討されたデータセットと深層アーキテクチャに対して,最先端の総合的な性能が得られることがわかった。

Active learning is a machine learning paradigm that aims to improve the performance of a model by strategically selecting and querying unlabeled data. One effective selection strategy is to base it on the model's predictive uncertainty, which can be interpreted as a measure of how informative a sample is. The sample's distance to the decision boundary is a natural measure of predictive uncertainty, but it is often intractable to compute, especially for complex decision boundaries formed in multiclass classification tasks. To address this issue, this paper proposes the {\it least disagree metric} (LDM), defined as the smallest probability of disagreement of the predicted label, and an estimator for LDM proven to be asymptotically consistent under mild assumptions. The estimator is computationally efficient and can be easily implemented for deep learning models using parameter perturbation. The LDM-based active learning is performed by querying unlabeled data with the smallest LDM. Experimental results show that our LDM-based active learning algorithm obtains state-of-the-art overall performance on all considered datasets and deep architectures.
翻訳日:2024-05-17 19:04:48 公開日:2024-05-16
# 風を吹いて風を吹く:言語モデルの編集が与える影響

Sowing the Wind, Reaping the Whirlwind: The Impact of Editing Language Models ( http://arxiv.org/abs/2401.10647v5 )

ライセンス: Link先を確認
Rima Hazra, Sayan Layek, Somnath Banerjee, Soujanya Poria, (参考訳) 人工知能の分野では、レッドチームやジェイルブレイクという概念が重要な研究領域として浮上している。 このアプローチは、これらのモデルの安全性と堅牢性の評価と強化において特に重要である。 本稿では,モデル編集による修正の複雑な結果について検討し,モデル精度の向上と倫理的整合性維持の複雑な関係を明らかにする。 正確な情報を注入することはモデルの信頼性にとって重要であるが、モデルの基礎的なフレームワークをパラドックス的に不安定にし、予測不可能で潜在的に安全でない振る舞いをもたらす。 さらに、この安全でない振る舞いを同一領域と横断領域の両方で調査するベンチマークデータセットNicheHazardQAを提案する。 私たちの研究のこの側面は、モデルの安全性指標やガードレールにどのように影響するかに光を当てています。 この結果から,対象の編集を体系的に適用し,結果のモデル行動を評価することで,モデル編集がトピックのリピートに有効なツールであることが示唆された。

In the rapidly advancing field of artificial intelligence, the concept of Red-Teaming or Jailbreaking large language models (LLMs) has emerged as a crucial area of study. This approach is especially significant in terms of assessing and enhancing the safety and robustness of these models. This paper investigates the intricate consequences of such modifications through model editing, uncovering a complex relationship between enhancing model accuracy and preserving its ethical integrity. Our in-depth analysis reveals a striking paradox: while injecting accurate information is crucial for model reliability, it can paradoxically destabilize the model's foundational framework, resulting in unpredictable and potentially unsafe behaviors. Additionally, we propose a benchmark dataset NicheHazardQA to investigate this unsafe behavior both within the same and cross topical domain. This aspect of our research sheds light on how the edits, impact the model's safety metrics and guardrails. Our findings show that model editing serves as a cost-effective tool for topical red-teaming by methodically applying targeted edits and evaluating the resultant model behavior.
翻訳日:2024-05-17 18:55:01 公開日:2024-05-16
# BrepGen: 構造的潜在幾何学を用いたB-rep生成拡散モデル

BrepGen: A B-rep Generative Diffusion Model with Structured Latent Geometry ( http://arxiv.org/abs/2401.15563v2 )

ライセンス: Link先を確認
Xiang Xu, Joseph G. Lambourne, Pradeep Kumar Jayaraman, Zhengqing Wang, Karl D. D. Willis, Yasutaka Furukawa, (参考訳) 本稿では,B境界表現(B-rep)コンピュータ支援設計(CAD)モデルを直接出力する拡散型生成手法であるBrepGenを提案する。 BrepGenは、階層木における新しい構造付き潜在幾何学としてB-repモデルを表す。 ルートノードはCADソリッド全体を表すため、B-repモデルの各要素(顔、縁、頂点など)は徐々に上から下へ子ノードになる。 B-rep幾何情報は、各プリミティブのグローバルな境界ボックスとしてノードに入り、局所的な幾何学的形状を記述する潜在コードを持つ。 B-repトポロジ情報はノード複製によって暗黙的に表現される。 2つの面がエッジを共有すると、エッジ曲線が木に2回現れ、3つの入射エッジを持つT接合頂点が同じノードの特徴を持つ木に6回現れる。 ルートから葉へと進むと、BrepGenはTransformerベースの拡散モデルを使用してノードの特徴を逐次分解し、重複ノードを検出してマージし、B-Repトポロジー情報を復元する。 大規模な実験により、BrepGenはCAD B-rep生成のタスクを前進させ、様々なベンチマークで既存の手法を上回ります。 新たに収集した家具データセットの結果は、複雑な幾何学を創出する際、その異常な能力を示すものである。 従来の手法は単純な原始的な形状の生成に限られていたが、BrepGenは自由曲面と二重曲面を初めて取り入れた。 BrepGenの他の用途にはCADオートコンプリートと設計補間がある。 コード、事前訓練されたモデル、データセットはhttps://github.com/samxuxiang/BrepGen.comで入手できる。

This paper presents BrepGen, a diffusion-based generative approach that directly outputs a Boundary representation (B-rep) Computer-Aided Design (CAD) model. BrepGen represents a B-rep model as a novel structured latent geometry in a hierarchical tree. With the root node representing a whole CAD solid, each element of a B-rep model (i.e., a face, an edge, or a vertex) progressively turns into a child-node from top to bottom. B-rep geometry information goes into the nodes as the global bounding box of each primitive along with a latent code describing the local geometric shape. The B-rep topology information is implicitly represented by node duplication. When two faces share an edge, the edge curve will appear twice in the tree, and a T-junction vertex with three incident edges appears six times in the tree with identical node features. Starting from the root and progressing to the leaf, BrepGen employs Transformer-based diffusion models to sequentially denoise node features while duplicated nodes are detected and merged, recovering the B-Rep topology information. Extensive experiments show that BrepGen advances the task of CAD B-rep generation, surpassing existing methods on various benchmarks. Results on our newly collected furniture dataset further showcase its exceptional capability in generating complicated geometry. While previous methods were limited to generating simple prismatic shapes, BrepGen incorporates free-form and doubly-curved surfaces for the first time. Additional applications of BrepGen include CAD autocomplete and design interpolation. The code, pretrained models, and dataset are available at https://github.com/samxuxiang/BrepGen.
翻訳日:2024-05-17 18:55:01 公開日:2024-05-16
# 業務用建物の需要応答に対する効率的なデータ駆動型MPC

Efficient Data-Driven MPC for Demand Response of Commercial Buildings ( http://arxiv.org/abs/2401.15742v2 )

ライセンス: Link先を確認
Marie-Christine Paré, Vasken Dermardiros, Antoine Lesage-Landry, (参考訳) モデル予測制御(MPC)は、熱的快適性を維持しつつ、建物のエネルギー効率を著しく向上させることが示されている。 システムモデリングを容易にするために、ニューラルネットワークに基づくデータ駆動アプローチが提案されている。 しかし、そのようなアプローチは一般に非凸であり、計算的に難解な最適化問題をもたらす。 本研究では,小型商業ビルのエネルギー管理手法を設計する。 そして、我々のアプローチを利用して、リアルタイムな需要入札戦略を定式化します。 本稿では,データ駆動・混合整数凸 MPC を提案し,演算制約を考慮し,計算時間5分に制限された微分自由度最適化を用いて解く。 屋上ユニットの暖房,換気,空調を個別に制御し,ほとんどの商業ビルの運転を正確にモデル化する。 提案手法では,入力凸リカレントニューラルネットワークを用いて熱力学をモデル化する。 当社のアプローチは,需要入札,利用時間,ピークリベートプログラムなど,いくつかの需要応答(DR)設定に適用する。 制御器の性能は最先端の建物シミュレーションで評価される。 提案手法は、他のデータ駆動型アプローチやセットポイントコントローラと比較して、DR参加によるエネルギー消費とコストを低減しつつ、熱的快適性を向上する。

Model predictive control (MPC) has been shown to significantly improve the energy efficiency of buildings while maintaining thermal comfort. Data-driven approaches based on neural networks have been proposed to facilitate system modelling. However, such approaches are generally nonconvex and result in computationally intractable optimization problems. In this work, we design a readily implementable energy management method for small commercial buildings. We then leverage our approach to formulate a real-time demand bidding strategy. We propose a data-driven and mixed-integer convex MPC which is solved via derivative-free optimization given a limited computational time of 5 minutes to respect operational constraints. We consider rooftop unit heating, ventilation, and air conditioning systems with discrete controls to accurately model the operation of most commercial buildings. Our approach uses an input convex recurrent neural network to model the thermal dynamics. We apply our approach in several demand response (DR) settings, including a demand bidding, a time-of-use, and a critical peak rebate program. Controller performance is evaluated on a state-of-the-art building simulation. The proposed approach improves thermal comfort while reducing energy consumption and cost through DR participation, when compared to other data-driven approaches or a set-point controller.
翻訳日:2024-05-17 18:55:01 公開日:2024-05-16
# 行列行列式計算のための多項式深さ量子アルゴリズム

Polynomial-depth quantum algorithm for computing matrix determinant ( http://arxiv.org/abs/2401.16619v2 )

ライセンス: Link先を確認
Alexander I. Zenchuk, Wentao Qi, Asutosh Kumar, Junde Wu, (参考訳) 本稿では, 正方行列の行列式を計算するアルゴリズムを提案し, 多ビット制御ゲート(トフォリゲート, CNOT, SWAP)、アダマール変換, およびZ$-operatorsを用いて, 量子回路で実現した。 行列の各行は、ある量子系の純粋な状態として符号化される。 したがって、認められた行列はこれらの系の量子状態の正規化まで任意である。 提案アルゴリズムの深さは、$N\times N$ matrixに対して$O(N^3\log \, N)$である。

We propose an algorithm for calculating the determinant of a square matrix, and construct the quantum circuit realizing it, using multiqubit control gates (representable in terms of Toffoli gates, CNOTs and SWAPs), Hadamard transformations and $Z$-operators. Each row of the matrix is encoded as a pure state of some quantum system. The admitted matrix is therefore arbitrary up to the normalization of quantum states of those systems. The depth of the proposed algorithm is $O(N^3\log \, N)$ for the $N\times N$ matrix.
翻訳日:2024-05-17 18:55:01 公開日:2024-05-16
# 量子混合製剤の相違性を説明できないてんかんモデル

No epistemic model can explain anti-distinguishability of quantum mixed preparations ( http://arxiv.org/abs/2401.17980v2 )

ライセンス: Link先を確認
Sagnik Ray, Visweshwaran R, Debashis Saha, (参考訳) 一般的な量子準備の実証的予測を再現できるのかという根本的な問題に対処する。 これは、混合準備の対別可能性によって決定される共通の量子オーバーラップと、これらの準備を記述するオンティック状態上の確率分布の共通エピステミックオーバーラップを比較することを含む。 量子混合製剤の集合は、エピステミックオーバーラップがゼロでなければならず、対応する量子オーバーラップがゼロのままである場合、非エポステミックであるとみなされる。 最強の証明において、混合量子準備の集合は、エピステミックオーバーラップが消滅し、量子オーバーラップがその最大値1に達すると、完全に非エピステミックである。 ここでは,3つの混合製剤の重なりが関係している場合,次元2においても非独立混合製剤の集合が存在することを示す。 さらに, 4 次元と 4 次元において, 4 次元と 3 次元の重なりについて完全に非独立な量子混合製剤を提案する。 また,2種類の混合製剤に対して,てんかんと量子オーバーラップの平均比の一般上界を確立した。 その結果、ある量子混合製剤の比は2つの異なる場合において任意に小さいことが示され、ある場合では非存在であり、もう一方の場合では完全非存在であることを示す。 最後に,本症例の意義について検討した。

We address the fundamental question of whether epistemic models can reproduce the empirical predictions of general quantum preparations. This involves comparing the common quantum overlap determined by the anti-distinguishability of a set of mixed preparations with the common epistemic overlap of the probability distribution over the ontic states describing these preparations. A set of quantum mixed preparations is deemed to be non-epistemic when the epistemic overlap must be zero while the corresponding quantum overlap remains non-zero. In its strongest manifestation, a set of mixed quantum preparations is fully non-epistemic if the epistemic overlap vanishes while the quantum overlap reaches its maximum value of one. Remarkably, we show that there exist sets of non-epistemic mixed preparations even in dimension 2, when the overlap between three mixed preparations is concerned. Moreover, we present quantum mixed preparations in dimensions 3 and 4 that are fully non-epistemic concerning the overlap between four and three preparations, respectively. We also establish a generic upper bound on the average ratio between the epistemic and quantum overlap for two mixed preparations. Consequently, the ratio for certain pairs of quantum mixed preparations is shown to be arbitrarily small in two different instances, signifying they are non-epistemic in one case and fully non-epistemic in the other. Finally, we delve into some of the remarkable implications stemming from our findings.
翻訳日:2024-05-17 18:55:01 公開日:2024-05-16
# 要求品質の関連要因の特定:工業事例研究

Identifying relevant Factors of Requirements Quality: an industrial Case Study ( http://arxiv.org/abs/2402.00594v2 )

ライセンス: Link先を確認
Julian Frattini, (参考訳) [コンテキストとモチベーション]: 要件仕様の品質は、その後のソフトウェアエンジニアリング活動に影響を与えます。 不明瞭なステートメントのような品質上の欠陥は不完全な機能や間違った機能をもたらし、予算オーバーランやプロジェクトの失敗につながる可能性がある。 [議題]要求品質の影響を測る試みは、多くの相互作用要因によって支えられてきました。 要求品質研究は、実際にどの要因が関係しているかの理解を欠いている。 [主観と結果]本研究は,要求品質の関連要因を特定するために,インタビュー書と報告の双方からのデータを考慮したケーススタディを実施している。 結果は、ケース会社に関連する17の要因と11の相互作用効果を含む。 【コントリビューション】(1)既存の要求工学理論を強化し、(2)産業関連要求品質研究を進めるという実証的証拠を提出する。

[Context and Motivation]: The quality of requirements specifications impacts subsequent, dependent software engineering activities. Requirements quality defects like ambiguous statements can result in incomplete or wrong features and even lead to budget overrun or project failure. [Problem]: Attempts at measuring the impact of requirements quality have been held back by the vast amount of interacting factors. Requirements quality research lacks an understanding of which factors are relevant in practice. [Principal Ideas and Results]: We conduct a case study considering data from both interview transcripts and issue reports to identify relevant factors of requirements quality. The results include 17 factors and 11 interaction effects relevant to the case company. [Contribution]: The results contribute empirical evidence that (1) strengthens existing requirements engineering theories and (2) advances industry-relevant requirements quality research.
翻訳日:2024-05-17 18:55:01 公開日:2024-05-16
# マルチレベル・アテンション誘導トークン化に基づくゼロショットスケッチに基づくリモートセンシング画像検索

Zero-shot sketch-based remote sensing image retrieval based on multi-level and attention-guided tokenization ( http://arxiv.org/abs/2402.02141v3 )

ライセンス: Link先を確認
Bo Yang, Chen Wang, Xiaoshuang Ma, Beiping Song, Zhuang Liu, Fangde Sun, (参考訳) リモートセンシングビッグデータの領域では,リモートセンシングデータベースから画像を効果的かつ効率的に取得することが重要な課題である。 手書きのスケッチを検索入力として利用すると、直感的でユーザフレンドリな利点があるが、スケッチからのマルチレベル機能統合の可能性はまだ探索されていないため、サブ最適検索性能に繋がる。 このギャップに対処するため,リモートセンシング画像のゼロショット・スケッチベース検索手法を導入し,マルチレベル特徴抽出,自己注意誘導型トークン化とフィルタリング,モダリティ間アテンション更新を実現した。 このアプローチでは視覚情報のみを使用し、スケッチや画像に関する意味的な知識を必要としない。 まず、クエリスケッチのトークン化にマルチレベルな自己意図的特徴抽出、および候補画像のトークン化に自己意識的特徴抽出を採用する。 次に、これらの2つのモード間のトークン対応を確立するために、クロスアテンション機構を使用し、スケッチと画像の類似性の計算を容易にする。 提案手法は,既存のスケッチベースリモートセンシング画像検索技術よりも優れている。 特に、目に見えないカテゴリや新しいリモートセンシングデータを扱う際に、堅牢なゼロショット学習能力と強力な一般化性を示す。 この手法のスケーラビリティは、データベース内のすべての候補画像に対する検索トークンの事前計算によってさらに向上することができる。 本研究は,マルチレベル・アテンション誘導型トークン化によるリモートセンシング画像検索の意義を裏付けるものである。 より広範なアクセシビリティと研究のファシリテーションのために、この研究で使用されるコードとデータセットをオンラインで公開しました。 コードとデータセットはhttps://github.com/Snowstormfly/Cross-modal-retrieval-MLAGTで公開されている。

Effectively and efficiently retrieving images from remote sensing databases is a critical challenge in the realm of remote sensing big data. Utilizing hand-drawn sketches as retrieval inputs offers intuitive and user-friendly advantages, yet the potential of multi-level feature integration from sketches remains underexplored, leading to suboptimal retrieval performance. To address this gap, our study introduces a novel zero-shot, sketch-based retrieval method for remote sensing images, leveraging multi-level feature extraction, self-attention-guided tokenization and filtering, and cross-modality attention update. This approach employs only vision information and does not require semantic knowledge concerning the sketch and image. It starts by employing multi-level self-attention guided feature extraction to tokenize the query sketches, as well as self-attention feature extraction to tokenize the candidate images. It then employs cross-attention mechanisms to establish token correspondence between these two modalities, facilitating the computation of sketch-to-image similarity. Our method significantly outperforms existing sketch-based remote sensing image retrieval techniques, as evidenced by tests on multiple datasets. Notably, it also exhibits robust zero-shot learning capabilities and strong generalizability in handling unseen categories and novel remote sensing data. The method's scalability can be further enhanced by the pre-calculation of retrieval tokens for all candidate images in a database. This research underscores the significant potential of multi-level, attention-guided tokenization in cross-modal remote sensing image retrieval. For broader accessibility and research facilitation, we have made the code and dataset used in this study publicly available online. Code and dataset are available at https://github.com/Snowstormfly/Cross-modal-retrieval-MLAGT.
翻訳日:2024-05-17 18:55:01 公開日:2024-05-16
# トレーニングフリーのテキスト・ツー・イメージ生成

Training-Free Consistent Text-to-Image Generation ( http://arxiv.org/abs/2402.03286v2 )

ライセンス: Link先を確認
Yoad Tewel, Omri Kaduri, Rinon Gal, Yoni Kasten, Lior Wolf, Gal Chechik, Yuval Atzmon, (参考訳) テキスト・ツー・イメージのモデルは、ユーザーが自然言語を通じて画像生成プロセスをガイドできるようにすることで、新しいレベルの創造的柔軟性を提供する。 しかし、これらのモデルを用いて様々なプロンプトで同じ主題を一貫して表現することは依然として困難である。 既存のアプローチでは、モデルを微調整して、特定のユーザが提供する対象を記述した新しい単語を教えたり、モデルにイメージコンディショニングを追加する。 これらの手法には、オブジェクトごとの長い最適化や大規模な事前学習が必要である。 さらに、生成した画像をテキストプロンプトと整合させるのに苦労し、複数の主題を描くのに困難に直面した。 本稿では、事前訓練されたモデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。 本稿では、画像間の主観的一貫性を促進するために、主観駆動型共有注意ブロックと対応型特徴注入を導入する。 さらに,主観的整合性を維持しつつ,レイアウトの多様性を促進する戦略も開発している。 ConsiStoryをさまざまなベースラインと比較し、単一の最適化ステップを必要とせずに、主題の一貫性とテキストアライメントに対する最先端のパフォーマンスを実証する。 最後に、ConsiStoryは自然にマルチオブジェクトのシナリオに拡張でき、一般的なオブジェクトに対するトレーニング不要のパーソナライズも可能である。

Text-to-image models offer a new level of creative flexibility by allowing users to guide the image generation process through natural language. However, using these models to consistently portray the same subject across diverse prompts remains challenging. Existing approaches fine-tune the model to teach it new words that describe specific user-provided subjects or add image conditioning to the model. These methods require lengthy per-subject optimization or large-scale pre-training. Moreover, they struggle to align generated images with text prompts and face difficulties in portraying multiple subjects. Here, we present ConsiStory, a training-free approach that enables consistent subject generation by sharing the internal activations of the pretrained model. We introduce a subject-driven shared attention block and correspondence-based feature injection to promote subject consistency between images. Additionally, we develop strategies to encourage layout diversity while maintaining subject consistency. We compare ConsiStory to a range of baselines, and demonstrate state-of-the-art performance on subject consistency and text alignment, without requiring a single optimization step. Finally, ConsiStory can naturally extend to multi-subject scenarios, and even enable training-free personalization for common objects.
翻訳日:2024-05-17 18:55:01 公開日:2024-05-16
# 一定の圧力下での黒体熱容量

Blackbody heat capacity at constant pressure ( http://arxiv.org/abs/2402.06343v2 )

ライセンス: Link先を確認
E. S. Moreira Jr, (参考訳) 一見すると、この作品の題名は不適切と思われる。 その理由はよく知られている。 ブラックボディの圧力は温度にのみ依存するため、熱力学量の微分をその一方に対して取ることができず、もう一方の定数を維持することができる。 すなわち、一定の圧力での熱容量$C_{P}$、熱膨張係数$\alpha$、等温圧縮率$\kappa_{T}$は未定義量である。 この研究は、黒体空洞の壁の完全な導電性を考慮すると、$C_{P}$, $\alpha$, $\kappa_{T}$は実際よく定義されており、予想される通常の熱力学関係と関係していることを示す。 2つの測地線、すなわち球状シェルと立方体箱が考慮される。 C_{P}$, $\alpha$, $\kappa_{T}$ が空洞の幾何学に大きく依存していることが示される。 熱力学的安定性に関する問題に対処し、空洞の幾何学にも依存していることを明らかにする。 これらの知見は, 実験的検証に有効である可能性が示唆された。

At first glance, the title of this work seems to be improper. And the reason is well known. Since blackbody pressure depends only on temperature, one cannot take the derivative of the thermodynamic quantities with respect to one of them, keeping the other constant. That is, the heat capacity at constant pressure, $C_{P}$, as well as, the coefficient of thermal expansion, $\alpha$, and the isothermal compressibility, $\kappa_{T}$, are ill-defined quantities. This work will show that when the perfect conducting nature of the walls of a blackbody cavity is taken into account, $C_{P}$, $\alpha$ and $\kappa_{T}$ are in fact well defined, and they are related by the usual thermodynamic relations, as expected. Two geometries will be considered, namely, a spherical shell and a cubic box. It will be shown that $C_{P}$, $\alpha$ and $\kappa_{T}$ depend very much on the geometry of the cavity. Issues regarding thermodynamic stability will be addressed, revealing that they also depend on the cavity's geometry. It is argued that these findings may be amenable to experimental verification.
翻訳日:2024-05-17 18:55:01 公開日:2024-05-16
# GenTranslate: 大規模言語モデルは、生成型多言語音声と機械翻訳器である

GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators ( http://arxiv.org/abs/2402.06894v2 )

ライセンス: Link先を確認
Yuchen Hu, Chen Chen, Chao-Han Huck Yang, Ruizhe Li, Dong Zhang, Zhehuai Chen, Eng Siong Chng, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、表現誤りの低減と外部知識の組み込みによる多言語音声と機械翻訳の開発を前進させてきた。 しかし、どちらの翻訳タスクも一般的にビームサーチ復号とトップ1仮説の選択を推論に用いている。 これらのテクニックは、多種多様なN-best仮説の豊富な情報を十分に活用するのに苦労し、単一の高品質な出力シーケンスを必要とする翻訳タスクには適さない。 本稿では,N-best リストの多種多様な翻訳バージョンからより良い結果を生成するために LLM 上に構築された,翻訳タスクのための新しい生成パラダイムである "GenTranslate" を提案する。 LLMの豊かな言語知識と強力な推論能力を活用することで、我々の新しいパラダイムは、より高品質な翻訳結果を生成するために、N-best候補に豊かな情報を統合することができる。 さらに、LLM微調整をサポートするために、11言語で592K以上の仮説-翻訳ペアを含むHypoTranslateデータセットを構築し、リリースする。 様々な音声および機械翻訳ベンチマーク(FLEURS、CoVoST-2、WMT)の実験により、我々のGenTranslateは最先端モデルよりも大幅に優れていることが示された。

Recent advances in large language models (LLMs) have stepped forward the development of multilingual speech and machine translation by its reduced representation errors and incorporated external knowledge. However, both translation tasks typically utilize beam search decoding and top-1 hypothesis selection for inference. These techniques struggle to fully exploit the rich information in the diverse N-best hypotheses, making them less optimal for translation tasks that require a single, high-quality output sequence. In this paper, we propose a new generative paradigm for translation tasks, namely "GenTranslate", which builds upon LLMs to generate better results from the diverse translation versions in N-best list. Leveraging the rich linguistic knowledge and strong reasoning abilities of LLMs, our new paradigm can integrate the rich information in N-best candidates to generate a higher-quality translation result. Furthermore, to support LLM finetuning, we build and release a HypoTranslate dataset that contains over 592K hypotheses-translation pairs in 11 languages. Experiments on various speech and machine translation benchmarks (e.g., FLEURS, CoVoST-2, WMT) demonstrate that our GenTranslate significantly outperforms the state-of-the-art model.
翻訳日:2024-05-17 18:55:01 公開日:2024-05-16
# 経路範囲の並列プログラム解析

Parallel Program Analysis on Path Ranges ( http://arxiv.org/abs/2402.11938v2 )

ライセンス: Link先を確認
Jan Haltermanna, Marie-Christine Jakobs, Cedric Richter, Heike Wehrheim, (参考訳) シンボリック実行は、プログラムを象徴的に実行し、バグをチェックするソフトウェア検証技法である。 Ranged symbolic execution は、並列にパス範囲と呼ばれるプログラム部分でシンボリックな実行を実行する。 並列性のため、検証は加速され、その結果、より大きなプログラムにスケールする。 本稿では,任意のプログラム解析に対する範囲付きシンボル実行の一般化について論じる。 具体的には,プログラムを経路範囲に分割し,任意の解析を並列に行う検証手法を提案する。 特に我々のアプローチは、異なるプログラムパーツで異なる分析を実行できる。 我々は,ツールCPAchecker上にこの一般化を実装し,SV-COMPベンチマークのプログラム上で評価した。 評価の結果, 検証作業の並列化は有効であるが, 効率的になるためには, 作業盗難(分析)の形式も必要であることがわかった。

Symbolic execution is a software verification technique symbolically running programs and thereby checking for bugs. Ranged symbolic execution performs symbolic execution on program parts, so called path ranges, in parallel. Due to the parallelism, verification is accelerated and hence scales to larger programs. In this paper, we discuss a generalization of ranged symbolic execution to arbitrary program analyses. More specifically, we present a verification approach that splits programs into path ranges and then runs arbitrary analyses on the ranges in parallel. Our approach in particular allows to run different analyses on different program parts. We have implemented this generalization on top of the tool CPAchecker and evaluated it on programs from the SV-COMP benchmark. Our evaluation shows that verification can benefit from the parallelisation of the verification task, but also needs a form of work stealing (between analyses) as to become efficient
翻訳日:2024-05-17 18:55:01 公開日:2024-05-16
# 一般化・記憶:大規模言語モデルにおけるデータ汚染と信頼できる評価

Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models ( http://arxiv.org/abs/2402.15938v2 )

ライセンス: Link先を確認
Yihong Dong, Xue Jiang, Huanyu Liu, Zhi Jin, Ge Li, (参考訳) 大規模言語モデル(LLM)の印象的な機能に関する最近のステートメントは、通常、オープンアクセスベンチマークで評価される。 LLMのトレーニングデータの膨大なサイズと広範囲のソースを考えると、明示的にまたは暗黙的にテストデータを含めることができるため、LSMはデータ汚染の影響を受けやすい。 しかし、トレーニングデータの不透明さ、モデルのブラックボックスアクセス、および合成トレーニングデータの急速な成長により、LLMのデータ汚染の検出と緩和は重大な課題に直面している。 本稿では,LCMの出力分布による汚染検出を行うCDDを提案する。 CDDは、LLMの出力分布のピーク性を特定することによって、データの汚染を検出するためにサンプルテキストのみを必要とする。 評価におけるデータ汚染の影響を軽減するため, LLMの出力分布の補正に基づいて, 出力分布による信頼に値する評価を行う。 本研究では,データ汚染検出と汚染緩和評価タスクのための2つのベンチマーク,すなわちDetConとComiEvalを紹介する。 実験結果よりCDDは, 精度, F1スコア, AUC測定値において, 他の汚染検出手法に比べて21.8\%-30.2\%の平均相対的な改善を実現し, 試験データの変異による汚染を効果的に検出できることが示唆された。 TEDは、データ汚染による最大66.9 %の性能改善を24の設定と21の汚染度で大幅に軽減している。 実世界の応用において,ChatGPTはHumanEvalベンチマークでデータ汚染に悩む可能性が高いことが明らかになった。

Recent statements about the impressive capabilities of large language models (LLMs) are usually supported by evaluating on open-access benchmarks. Considering the vast size and wide-ranging sources of LLMs' training data, it could explicitly or implicitly include test data, leading to LLMs being more susceptible to data contamination. However, due to the opacity of training data, the black-box access of models, and the rapid growth of synthetic training data, detecting and mitigating data contamination for LLMs faces significant challenges. In this paper, we propose CDD, which stands for Contamination Detection via output Distribution for LLMs. CDD necessitates only the sampled texts to detect data contamination, by identifying the peakedness of LLM's output distribution. To mitigate the impact of data contamination in evaluation, we also present TED: Trustworthy Evaluation via output Distribution, based on the correction of LLM's output distribution. To facilitate this study, we introduce two benchmarks, i.e., DetCon and ComiEval, for data contamination detection and contamination mitigation evaluation tasks. Extensive experimental results show that CDD achieves the average relative improvements of 21.8\%-30.2\% over other contamination detection approaches in terms of Accuracy, F1 Score, and AUC metrics, and can effectively detect contamination caused by the variants of test data. TED significantly mitigates performance improvements up to 66.9\% attributed to data contamination across 24 settings and 21 contamination degrees. In real-world applications, we reveal that ChatGPT exhibits a high potential to suffer from data contamination on HumanEval benchmark.
翻訳日:2024-05-17 18:45:17 公開日:2024-05-16
# 対数行列化と行列ノルムの不等式と量子情報への応用

Log-majorization and matrix norm inequalities with application to quantum information ( http://arxiv.org/abs/2402.16067v3 )

ライセンス: Link先を確認
Fumio Hiai, (参考訳) 我々は多変量金-トンプソントレースの不等式とカルチャー平均(すなわち重み付き幾何平均の多変量拡張)に関連して行列の対数行列化に関心がある。 アラキの対数行列化の拡張を示し、量子情報の$\alpha$-$z$-R\'enyi分散に適用する。 黄金-トンプソン型多変量トレース不等式とカルチャー平均のノルム不等式について論じる。 本論文は、加重幾何平均の標準不等式における等しい場合の著者の古い結果の証明を補正するための付録を含む。

We are concerned with log-majorization for matrices in connection with the multivariate Golden--Thompson trace inequality and the Karcher mean (i.e., a multivariate extension of the weighted geometric mean). We show an extension of Araki's log-majorization and apply it to the $\alpha$-$z$-R\'enyi divergence in quantum information. We discuss the equality cases in the multivariate trace inequality of Golden--Thompson type and in the norm inequality for the Karcher mean. The paper includes an appendix to correct the proof of the author's old result on the equality case in the norm inequality for the weighted geometric mean.
翻訳日:2024-05-17 18:45:17 公開日:2024-05-16
# 実効場理論法による強相関有効ハミルトニアンに対する多体摂動理論

Many-body perturbation theory for strongly correlated effective Hamiltonians using effective field theory methods ( http://arxiv.org/abs/2402.17627v2 )

ライセンス: Link先を確認
Raphaël Photopoulos, Antoine Boulet, (参考訳) 低エネルギー有効ハミルトニアンの導入は通常、量子多体問題におけるほとんどの相関を把握している。 例えば、そのような有効ハミルトニアンを平均場レベルで扱い、興味のある物理的性質を再現することができる。 多体相関を含む効果的なハミルトニアンを用いると、相関のオーバーカウントのために摂動多体技術の使用が困難になる。 本研究では,平均場レベルを超える相関関係を含む効果的な相互作用から始まる多体摂動理論の拡張手法を開発する。 目的は、多体計算を再編成し、この記述における相関有効ハミルトニアンの導入に由来する相関のオーバーカウントを避けることである。 この目的のために、適切な極限を再現するために調整された自由パラメータを含むことで、レイリー=シュリンガー摂動理論の定式化を一般化する。 特に、素弱結合状態と強結合限界の拡張は、結果の式に現れる自由パラメータの値を修正する貴重な入力として機能する。 本手法は,多体システム記述のための平均場外戦略を用いて相関関係の二重カウントを回避する。 超低温原子、核、凝縮物質物理学に関連する様々な系の基底状態エネルギーは、標準多体摂動理論の妥当性の領域を超えた質的に再生される。 最後に,多体計算の再構成による実効場理論として得られる公式な結果の解釈を提案する。 この結果は、基底状態エネルギーと同様に、単純な多項式展開を維持しつつ、拡張多体摂動理論の高次を考慮し、体系的に改善される。

Introducing low-energy effective Hamiltonians is usual to grasp most correlations in quantum many-body problems. For instance, such effective Hamiltonians can be treated at the mean-field level to reproduce some physical properties of interest. Employing effective Hamiltonians that contain many-body correlations renders the use of perturbative many-body techniques difficult because of the overcounting of correlations. In this work, we develop a strategy to apply an extension of the many-body perturbation theory starting from an effective interaction that contains correlations beyond the mean field level. The goal is to re-organize the many-body calculation to avoid the overcounting of correlations originating from the introduction of correlated effective Hamiltonians in the description. For this purpose, we generalize the formulation of the Rayleigh-Schr\"odinger perturbation theory by including free parameters adjusted to reproduce the appropriate limits. In particular, the expansion in the bare weak-coupling regime and the strong-coupling limit serves as a valuable input to fix the value of the free parameters appearing in the resulting expression. This method avoids double counting of correlations using beyond-mean-field strategies for the description of many-body systems. The ground state energy of various systems relevant for ultracold atomic, nuclear, and condensed matter physics is reproduced qualitatively beyond the domain of validity of the standard many-body perturbation theory. Finally, our method suggests interpreting the formal results obtained as an effective field theory using the proposed reorganization of the many-body calculation. The results, like ground state energies, are improved systematically by considering higher orders in the extended many-body perturbation theory while maintaining a straightforward polynomial expansion.
翻訳日:2024-05-17 18:45:17 公開日:2024-05-16
# FSL-Rectifier:テスト時間拡張によるFew-Shot学習におけるアウトリーチの定式化

FSL-Rectifier: Rectify Outliers in Few-Shot Learning via Test-Time Augmentation ( http://arxiv.org/abs/2402.18292v2 )

ライセンス: Link先を確認
Yunwei Bai, Ying Kiat Tan, Tsuhan Chen, (参考訳) FSL(Few-shot-learning)は通常、新しいクラス(サポートセット)のラベル付きサンプルを参照として、トレーニング中に目に見えないクラスに属する画像(クエリ)を識別するモデルを必要とする。 テストクラスが新しくなったため、FSLは新しいクラスに対して高い一般化誤差を伴い、推論中に外部からの問い合わせやイメージのサポートがエラーをさらに悪化させる。 これまでのところ、FSLモデルの一般化能力を改善するために、トレーニングデータ拡張を含むアルゴリズムが数多く存在する。 対照的に、テストサンプルが対象ドメインとより関連しているという事実から、テスト時間拡張はFSLのトレーニング強化よりも有用であると考えている。 そこで本研究では, 従来と異なる試験試料と類似の試験試料を組み合わせ, 新たな試験試料を作成した。 テスト時間拡張の平均表現は、数ショットの分類で考慮される。 我々の実験によると、サポートセットとクエリをいくつかの追加で生成したサンプルで拡張することで、訓練されたFSLモデルの改善が達成できる。 重要な点として,本手法は市販のFSLモデルと共通に互換性があり,その性能は余分なデータセットやモデル自体のさらなるトレーニングなしで向上することができる。 コードはhttps://github.com/WendyBaiYunwei/FSL-Rectifierで入手できる。

Few-shot-learning (FSL) commonly requires a model to identify images (queries) that belong to classes unseen during training, based on a few labelled samples of the new classes (support set) as reference. As the test classes are novel, FSL is challenging with high generalization error with respect to the novel classes, where outliers query or support image during inference exacerbate the error further. So far, plenty of algorithms involve training data augmentation to improve the generalization capability of FSL models. In contrast, inspired by the fact that test samples are more relevant to the target domain, we believe that test-time augmentation may be more useful than training augmentation for FSL. In this work, to reduce the bias caused by unconventional test samples, we generate new test samples through combining them with similar train-class samples. Averaged representations of the test-time augmentation are then considered for few-shot classification. According to our experiments, by augmenting the support set and query with a few additional generated sample, we can achieve improvement for trained FSL models. Importantly, our method is universally compatible with different off-the-shelf FSL models, whose performance can be improved without extra dataset nor further training of the models themselves. Codes are available at https://github.com/WendyBaiYunwei/FSL-Rectifier.
翻訳日:2024-05-17 18:45:17 公開日:2024-05-16
# テレビ番組のマルチモーダル要約のためのモジュール的アプローチ

A Modular Approach for Multimodal Summarization of TV Shows ( http://arxiv.org/abs/2403.03823v3 )

ライセンス: Link先を確認
Louis Mahon, Mirella Lapata, (参考訳) 本稿では,複雑な推論,複数モーダル性,長い物語など,AI研究の重要な領域に触発するテレビ番組を要約する作業について述べる。 本稿では,各コンポーネントが個別のサブタスクを実行するモジュール方式を提案する。 我々のモジュールは、シーン境界の検出、異なるイベント間のカット回数の最小化、視覚情報をテキストに変換すること、各シーンの対話を要約すること、シーン要約をエピソード全体の最終要約に融合することを含む。 我々はまた、生成した要約の精度とリコールを計測し、原子事実に分解するPreFS(Precision and Recall Evaluation of Summary FactS)という新しい指標も提示する。 最近リリースされたSummScreen3DデータセットPapalampidiとLapata(2023年)を用いて、ROUGEと新しいファクトベースの測定値を用いて、比較モデルよりも高品質なサマリーを生成する。

In this paper we address the task of summarizing television shows, which touches key areas in AI research: complex reasoning, multiple modalities, and long narratives. We present a modular approach where separate components perform specialized sub-tasks which we argue affords greater flexibility compared to end-to-end methods. Our modules involve detecting scene boundaries, reordering scenes so as to minimize the number of cuts between different events, converting visual information to text, summarizing the dialogue in each scene, and fusing the scene summaries into a final summary for the entire episode. We also present a new metric, PREFS (Precision and Recall Evaluation of Summary FactS), to measure both precision and recall of generated summaries, which we decompose into atomic facts. Tested on the recently released SummScreen3D dataset Papalampidi and Lapata (2023), our method produces higher quality summaries than comparison models, as measured with ROUGE and our new fact-based metric.
翻訳日:2024-05-17 18:45:17 公開日:2024-05-16
# 重力のバックアクションは魔法だ

Gravitational back-reaction is magical ( http://arxiv.org/abs/2403.07056v2 )

ライセンス: Link先を確認
ChunJun Cao, Gong Cheng, Alioscia Hamma, Lorenzo Leone, William Munizzi, Savatore F. E. Oliviero, (参考訳) 量子多体系における魔法と絡み合いの相互作用について検討する。 量子相関によって支えられる非局所魔法は、絡み合いスペクトルの非平坦性によって下界し、システム内の絡み合いの量によって上界となることを示す。 そして、非局所魔法の滑らかなバージョンは、非圧縮状態の古典的シミュレーションの硬さを束縛していると論じる。 共形場の理論では、状態の近似が許されるとき、非局所魔法は絡み合いのエントロピーと線形にスケールするべきであると推測する。 我々は,一元蒸留とIsing CFTの数値データに基づく解析的議論を用いて,この予想を支持する。 CFT がホログラフ双対を持つなら、非局所的な魔法は重力バック反応がない場合にのみ消えることを示す。 さらに,非局所魔法は,バルク内の宇宙ブレイン張力の変化に応じて,最小表面積の変化率とほぼ等しいことを示す。

We study the interplay between magic and entanglement in quantum many-body systems. We show that non-local magic, which is supported by the quantum correlations is lower bounded by the non-flatness of entanglement spectrum and upper bounded by the amount of entanglement in the system. We then argue that a smoothed version of non-local magic bounds the hardness of classical simulations for incompressible states. In conformal field theories, we conjecture that the non-local magic should scale linearly with entanglement entropy but sublinearly when an approximation of the state is allowed. We support the conjectures using both analytical arguments based on unitary distillation and numerical data from an Ising CFT. If the CFT has a holographic dual, then we prove that the non-local magic vanishes if and only if there is no gravitational back-reaction. Furthermore, we show that non-local magic is approximately equal to the rate of change of the minimal surface area in response to the change of cosmic brane tension in the bulk.
翻訳日:2024-05-17 18:45:17 公開日:2024-05-16
# 効果的なポテンシャルは、ダイナミクスに有効か?

Is the effective potential, effective for dynamics? ( http://arxiv.org/abs/2403.07084v2 )

ライセンス: Link先を確認
Nathan Herring, Shuyang Cao, Daniel Boyanovsky, (参考訳) 動的状況における有効ポテンシャルの適用性について批判的に検討し、その答えが負であることを見出した。 運動の力学方程式における効果的なポテンシャルの使用は、エネルギー保存の明示的な違反である。 一貫した準静電近似において, 効果ポテンシャルのemph{adiabatic}を導入し, その限定的妥当性について論じる。 平均場を振動させる場合のパラメトリック増幅と、自発対称性の破れに関連するスピノーダル不安定性(英語版)という、断熱的有効ポテンシャルが動的に有効でない2つのユビキタスな例を詳細に研究する。 どちらの場合も、粒子生成は動力学を記述する効果的なポテンシャルの失敗に直接関連している。 数値的な実装に適応可能な、一貫した、再正規化された、エネルギー保存動的フレームワークを導入する。 エネルギー保存は、動的進化から漸近的に励起され、絡み合った定常状態が出現する。 結論として、断熱的に密度行列をデフォーカスすることでデコヒーレンス(decoherence)は、エントロピー(エントロピー)と正式に等価な創発的エントロピー(entropy)をもたらすと論じられている。 この結果は, 次数パラメータとエネルギー密度の両面での漸近平衡状態の新たなキャラクタリゼーションを示唆している。

We critically examine the applicability of the effective potential within dynamical situations and find, in short, that the answer is negative. An important caveat of the use of an effective potential in dynamical equations of motion is an explicit violation of energy conservation. An \emph{adiabatic} effective potential is introduced in a consistent quasi-static approximation, and its narrow regime of validity is discussed. Two ubiquitous instances in which even the adiabatic effective potential is not valid in dynamics are studied in detail: parametric amplification in the case of oscillating mean fields, and spinodal instabilities associated with spontaneous symmetry breaking. In both cases profuse particle production is directly linked to the failure of the effective potential to describe the dynamics. We introduce a consistent, renormalized, energy conserving dynamical framework that is amenable to numerical implementation. Energy conservation leads to the emergence of asymptotic highly excited, entangled stationary states from the dynamical evolution. As a corollary, decoherence via dephasing of the density matrix in the adiabatic basis is argued to lead to an emergent entropy, formally equivalent to the entanglement entropy. The results suggest novel characterization of asymptotic equilibrium states in terms of order parameter vs. energy density.
翻訳日:2024-05-17 18:45:17 公開日:2024-05-16
# 不均衡SVM分類のための適応的コスト感性学習と再帰的Denoisingフレームワーク

An Adaptive Cost-Sensitive Learning and Recursive Denoising Framework for Imbalanced SVM Classification ( http://arxiv.org/abs/2403.08378v3 )

ライセンス: Link先を確認
Lu Jiang, Qi Wang, Yuhang Chang, Jianing Song, Haoyue Fu, Xiaochun Yang, (参考訳) カテゴリー不均衡は、分類分野において最も人気があり重要な問題の一つである。 不均衡データセットに基づいてトレーニングされた感情分類モデルは、容易に信頼性の低い予測につながる。 従来の機械学習手法では、マイノリティクラスが好まれ、モデルにマイノリティクラス情報が欠落する傾向にある。 さらに、既存のモデルのほとんどは異常な感度問題や性能劣化を引き起こす。 本稿では,適応的なコスト感受性と再帰的認知に基づく頑健な学習アルゴリズムを提案する。 提案手法は,サンプルと決定境界間の動的カーネル距離最適化モデルを用いて,サンプルの事前情報をフル活用する。 また, ノイズを除去する有効な手法を提案し, その主な考え方は, 少数民族の最も近い隣人を見つけ出すことによって, ノイズを判断することである。 提案手法の強度を評価するため,標準データセットの実験を行うだけでなく,不均衡率の異なる感情分類問題にも適用する。 実験の結果,提案手法は従来の手法よりも精度,リコール,G平均よりも優れていることがわかった。

Category imbalance is one of the most popular and important issues in the domain of classification. Emotion classification model trained on imbalanced datasets easily leads to unreliable prediction. The traditional machine learning method tends to favor the majority class, which leads to the lack of minority class information in the model. Moreover, most existing models will produce abnormal sensitivity issues or performance degradation. We propose a robust learning algorithm based on adaptive cost-sensitiveity and recursive denoising, which is a generalized framework and can be incorporated into most stochastic optimization algorithms. The proposed method uses the dynamic kernel distance optimization model between the sample and the decision boundary, which makes full use of the sample's prior information. In addition, we also put forward an effective method to filter noise, the main idea of which is to judge the noise by finding the nearest neighbors of the minority class. In order to evaluate the strength of the proposed method, we not only carry out experiments on standard datasets but also apply it to emotional classification problems with different imbalance rates (IR). Experimental results show that the proposed general framework is superior to traditional methods in accuracy, recall and G-means.
翻訳日:2024-05-17 18:45:17 公開日:2024-05-16
# 電子健康記録を用いた疫学的質問応答のための検索用テキスト-SQL生成法

Retrieval augmented text-to-SQL generation for epidemiological question answering using electronic health records ( http://arxiv.org/abs/2403.09226v2 )

ライセンス: Link先を確認
Angelo Ziletti, Leonardo D'Ambrosi, (参考訳) 電子健康記録(EHR)とクレームデータは、患者の健康状態と医療利用を反映した実世界の豊富なデータ源である。 医療用語の複雑さと複雑なSQLクエリの必要性のため、これらのデータベースに疫学的な質問に答えるためのクエリは難しい。 本稿では,テキスト・ツー・SQL生成と検索拡張生成(RAG)を組み合わせて,ERHとクレームデータを用いた疫学的問題に回答するエンド・ツー・エンド手法を提案する。 医用コーディングのステップをテキスト・トゥ・SQLプロセスに統合することで、簡単なプロンプトよりもパフォーマンスが大幅に向上することを示す。 以上の結果から,現在の言語モデルはまだ教師なし使用には十分正確ではないものの,RAGは現実的な産業環境で示すように,その能力向上に向けた有望な方向性を提供する。

Electronic health records (EHR) and claims data are rich sources of real-world data that reflect patient health status and healthcare utilization. Querying these databases to answer epidemiological questions is challenging due to the intricacy of medical terminology and the need for complex SQL queries. Here, we introduce an end-to-end methodology that combines text-to-SQL generation with retrieval augmented generation (RAG) to answer epidemiological questions using EHR and claims data. We show that our approach, which integrates a medical coding step into the text-to-SQL process, significantly improves the performance over simple prompting. Our findings indicate that although current language models are not yet sufficiently accurate for unsupervised use, RAG offers a promising direction for improving their capabilities, as shown in a realistic industry setting.
翻訳日:2024-05-17 18:45:17 公開日:2024-05-16
# BurstAttention: 極端に長いシーケンスのための効率的な分散注意フレームワーク

BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences ( http://arxiv.org/abs/2403.09347v3 )

ライセンス: Link先を確認
Sun Ao, Weilin Zhao, Xu Han, Cheng Yang, Zhiyuan Liu, Chuan Shi, Maosong Sun, (参考訳) 効果的なアテンションモジュールはTransformerベースの大規模言語モデル(LLM)の成功に重要な役割を果たしてきたが、これらのアテンションモジュールの二次時間とメモリの複雑さは、長いシーケンスを処理する際にも問題となる。 ロングシーケンス問題の潜在的な解決策の1つは、分散クラスタを使用して、複数のデバイス(GPUなど)にわたるアテンションモジュールの計算を並列化することである。 しかし、分散アプローチを採用すると、必然的に局所的な注意を格納するためのメモリオーバーヘッドが増加し、局所的な結果をグローバルなものに集約するための通信コストが増大する。 本稿では,グローバルクラスタとローカルデバイスレベルでのメモリアクセスと通信操作を最適化する分散アテンションフレームワークである `BurstAttention' を提案する。 実験では,BurstAttentionと他の競合分散アテンション・ソリューションとの比較を行った。 異なる長さ設定下での実験結果から、BurstAttentionはこれらの競合するベースラインと比較して長いシーケンスを処理する上で大きな利点があり、通信オーバーヘッドを40%削減し、32 X A100で128Kのシーケンス長のトレーニング中に1.37Xのスピードアップを達成した。

Effective attention modules have played a crucial role in the success of Transformer-based large language models (LLMs), but the quadratic time and memory complexities of these attention modules also pose a challenge when processing long sequences. One potential solution for the long sequence problem is to utilize distributed clusters to parallelize the computation of attention modules across multiple devices (e.g., GPUs). However, adopting a distributed approach inevitably introduces extra memory overheads to store local attention results and incurs additional communication costs to aggregate local results into global ones. In this paper, we propose a distributed attention framework named ``BurstAttention'' to optimize memory access and communication operations at both the global cluster and local device levels. In our experiments, we compare BurstAttention with other competitive distributed attention solutions for long sequence processing. The experimental results under different length settings demonstrate that BurstAttention offers significant advantages for processing long sequences compared with these competitive baselines, reducing 40% communication overheads and achieving 1.37 X speedup during training 128K sequence length on 32 X A100.
翻訳日:2024-05-17 18:45:17 公開日:2024-05-16
# 導波路における多重量子状態移動

Multiplexed quantum state transfer in waveguides ( http://arxiv.org/abs/2403.12222v2 )

ライセンス: Link先を確認
Guillermo F. Peñas, Ricardo Puebla, Juan José García-Ripoll, (参考訳) 本稿では、QEDセットアップにおける量子情報の記憶と操作の最大化を示すテストベッドとして機能する量子ネットワークの現実的な導波路実装について考察する。 ウェーブパケット工学と量子状態伝達プロトコルを用いて2つの手法を解析する。 まず、時間領域における直交光子の族を提案し、設計する。 これらの光子は異なる標的量子ビットとの選択的相互作用を可能にする。 しかし、共振ノードを用いたモード多重化はクロストーク効果によって大きく損なわれている。 これは第2のアプローチ、すなわち周波数多重化を動機付けている。 ここでは、導波路を通る周波数多重化の限界について検討し、所定の帯域内で異なる周波数の光子をホストし、忠実に送信する能力を解析する。 我々は1光と2光の詳細なシミュレーションを行い、現実的な条件下でのコヒーレント量子状態伝達プロトコルの忠実性に関する理論的境界を提供する。 この結果から, 耐故障性量子コンピューティングの要求を満たすため, 数十個の多重光子を大域的忠実度で利用することが可能であることが示唆された。 これは、単一光子の忠実性の条件が満たされることに注意が必要である。

In this article, we consider a realistic waveguide implementation of a quantum network that serves as a testbed to show how to maximize the storage and manipulation of quantum information in QED setups. We analyze two approaches using wavepacket engineering and quantum state transfer protocols. First, we propose and design a family of orthogonal photons in the time domain. These photons allow for a selective interaction with distinct targeted qubits. Yet, mode multiplexing employing resonant nodes is largely spoiled by cross-talk effects. This motivates the second approach, namely, frequency multiplexing. Here we explore the limits of frequency multiplexing through the waveguide, analyzing its capabilities to host and faithfully transmit photons of different frequencies within a given bandwidth. We perform detailed one- and two-photon simulations and provide theoretical bounds for the fidelity of coherent quantum state transfer protocols under realistic conditions. Our results show that state-of-the-art experiments can employ dozens of multiplexed photons with global fidelities fulfilling the requirements imposed by fault-tolerant quantum computing. This is with the caveat that the conditions for single-photon fidelity are met.
翻訳日:2024-05-17 18:45:17 公開日:2024-05-16
# 統一分子モデリングのための多スケールタンパク質言語モデル

Multi-Scale Protein Language Model for Unified Molecular Modeling ( http://arxiv.org/abs/2403.12995v2 )

ライセンス: Link先を確認
Kangjie Zheng, Siyu Long, Tianyu Lu, Junwei Yang, Xinyu Dai, Ming Zhang, Zaiqing Nie, Wei-Ying Ma, Hao Zhou, (参考訳) タンパク質言語モデルは、タンパク質工学の分野で大きな可能性を証明している。 しかしながら、現在のタンパク質言語モデルは、主に残基スケールで機能し、原子レベルで情報を提供する能力を制限する。 この制限により、タンパク質と小分子の両方の応用のために、タンパク質言語モデルの能力を十分に活用することができません。 本稿では,ESM-AA(ESM All-Atom)を提案する。 ESM-AAは、マルチスケールのコードスウィッチタンパク質配列を事前訓練し、マルチスケールの位置符号化を利用して、残基と原子間の関係を捉えることでこれを達成している。 実験の結果,ESM-AAはタンパク質分子タスクにおける従来の手法を超越し,タンパク質言語モデルの完全活用を実証した。 さらなる研究により、ESM-AAは分子の知識を得るだけでなく、タンパク質の理解も維持していることが明らかとなった。

Protein language models have demonstrated significant potential in the field of protein engineering. However, current protein language models primarily operate at the residue scale, which limits their ability to provide information at the atom level. This limitation prevents us from fully exploiting the capabilities of protein language models for applications involving both proteins and small molecules. In this paper, we propose ESM-AA (ESM All-Atom), a novel approach that enables atom-scale and residue-scale unified molecular modeling. ESM-AA achieves this by pre-training on multi-scale code-switch protein sequences and utilizing a multi-scale position encoding to capture relationships among residues and atoms. Experimental results indicate that ESM-AA surpasses previous methods in protein-molecule tasks, demonstrating the full utilization of protein language models. Further investigations reveal that through unified molecular modeling, ESM-AA not only gains molecular knowledge but also retains its understanding of proteins.
翻訳日:2024-05-17 18:45:17 公開日:2024-05-16
# 視覚・言語ナビゲーションのための時間空間オブジェクト関係モデリング

Temporal-Spatial Object Relations Modeling for Vision-and-Language Navigation ( http://arxiv.org/abs/2403.15691v2 )

ライセンス: Link先を確認
Bowen Huang, Yanwei Zheng, Chuanlin Lan, Xinpeng Zhao, Yifei Zou, Dongxiao yu, (参考訳) VLN(Vision-and-Language Navigation)は、エージェントが視覚観察を通して記述された自然言語にナビゲートする必要がある課題である。 エージェントのナビゲーション能力は、通常内部オブジェクトまたは外部データセットを使用して学習されるオブジェクト間の関係によって強化することができる。 内部オブジェクト間の関係は、従来の研究でグラフ畳み込みネットワーク(GCN)を用いてモデル化されている。 しかし、GCNは浅く、モデリング能力が制限される傾向がある。 この問題に対処するために、時間的連続性を考慮し、時間的対象関係(TOR)と呼ばれる、軌道上の物体間の接続を学習するクロスアテンション機構を利用する。 外部データセットはナビゲーション環境とギャップがあり、不正確な関係のモデリングにつながる。 この問題を回避するため,航法環境における全視点からの観測に基づいてオブジェクト接続を構築し,空間的対象関係(SOR)と呼ばれる空間的対象関係(SOR)を完全に保証し,ギャップを解消する。 さらに、エージェントがナビゲーション中に同じ場所を何度も訪れ、そのパフォーマンスを著しく損なう可能性があることも観察した。 この問題を解決するために,エージェントの反復的訪問行動にペナルティを課し,ナビゲーション距離を大幅に低減するTBP損失関数を導入する。 提案手法の有効性を示すために,REVERIE,SOON,R2Rデータセット実験を行った。

Vision-and-Language Navigation (VLN) is a challenging task where an agent is required to navigate to a natural language described location via vision observations. The navigation abilities of the agent can be enhanced by the relations between objects, which are usually learned using internal objects or external datasets. The relationships between internal objects are modeled employing graph convolutional network (GCN) in traditional studies. However, GCN tends to be shallow, limiting its modeling ability. To address this issue, we utilize a cross attention mechanism to learn the connections between objects over a trajectory, which takes temporal continuity into account, termed as Temporal Object Relations (TOR). The external datasets have a gap with the navigation environment, leading to inaccurate modeling of relations. To avoid this problem, we construct object connections based on observations from all viewpoints in the navigational environment, which ensures complete spatial coverage and eliminates the gap, called Spatial Object Relations (SOR). Additionally, we observe that agents may repeatedly visit the same location during navigation, significantly hindering their performance. For resolving this matter, we introduce the Turning Back Penalty (TBP) loss function, which penalizes the agent's repetitive visiting behavior, substantially reducing the navigational distance. Experimental results on the REVERIE, SOON, and R2R datasets demonstrate the effectiveness of the proposed method.
翻訳日:2024-05-17 18:45:17 公開日:2024-05-16
# FEEL: 大規模言語モデルによる感情支援能力評価フレームワーク

FEEL: A Framework for Evaluating Emotional Support Capability with Large Language Models ( http://arxiv.org/abs/2403.15699v2 )

ライセンス: Link先を確認
Huaiwen Zhang, Yu Chen, Ming Wang, Shi Feng, (参考訳) 感情支援会話(Emotional Support Conversation、ESC)は、感情的なプレッシャーを軽減できる典型的な対話である。 しかし、感情の分析にかかわる本質的な主観性のため、現在の非人工的方法論は感情支援能力を効果的に評価する上で困難に直面している。 これらの指標は人間の判断と相関が低い。 同時に、手作業による評価手法が極めて高いコストを発生させる。 これらの問題を解決するために,大規模言語モデル(LLM)を用いて感情支援能力を評価する新しいモデルFEEL(大規模言語モデルを用いた感情支援能力評価フレームワーク)を提案する。 モデルはESCの様々な評価側面を慎重に検討し、より包括的で正確な評価方法を適用する。 さらに、より安定した結果を得るために確率分布アプローチを採用し、アンサンブル学習戦略を統合し、割り当てられた重み付き複数のLLMを活用して評価精度を高める。 FEELの性能を評価するため,既存のESCモデル対話について広範な実験を行った。 実験結果から,本モデルでは,ベースラインと比較して,人体評価との整合性が著しく向上していることが示された。 ソースコードはhttps://github.com/Ansisy/FEELで公開されています。

Emotional Support Conversation (ESC) is a typical dialogue that can effectively assist the user in mitigating emotional pressures. However, owing to the inherent subjectivity involved in analyzing emotions, current non-artificial methodologies face challenges in effectively appraising the emotional support capability. These metrics exhibit a low correlation with human judgments. Concurrently, manual evaluation methods extremely will cause high costs. To solve these problems, we propose a novel model FEEL (Framework for Evaluating Emotional Support Capability with Large Lan-guage Models), employing Large Language Models (LLMs) as evaluators to assess emotional support capabilities. The model meticulously considers various evaluative aspects of ESC to apply a more comprehensive and accurate evaluation method for ESC. Additionally, it employs a probability distribution approach for a more stable result and integrates an ensemble learning strategy, leveraging multiple LLMs with assigned weights to enhance evaluation accuracy. To appraise the performance of FEEL, we conduct extensive experiments on existing ESC model dialogues. Experimental results demonstrate our model exhibits a substantial enhancement in alignment with human evaluations compared to the baselines. Our source code is available at https://github.com/Ansisy/FEEL.
翻訳日:2024-05-17 18:45:17 公開日:2024-05-16
# 混合状態における対称性保護位相のテンソルネットワーク定式化

Tensor network formulation of symmetry protected topological phases in mixed states ( http://arxiv.org/abs/2403.17069v2 )

ライセンス: Link先を確認
Hanyu Xue, Jong Yeon Lee, Yimu Bao, (参考訳) 我々は、密度行列のテンソルネットワーク定式化に基づいて、対称性保護位相(SPT)位相を混合状態で定義し、分類する。 一次元では、局所デコヒートSPT状態を含む幅広い短距離相関混合状態のクラスを記述する強い射影行列積密度演算子(MPDO)を導入する。 強射影 MPDO を二重ヒルベルト空間の純粋状態に写像し、二重状態の対称性群のコホモロジークラスに従って SPT 位相を定義する。 二重状態は拡大対称性を示すが、SPT相は密度行列のエルミティシティと半正に制約される。 ここでは、強$G$と弱$K$の直積を持つSPT位相の完全な分類をコホモロジー群 $H^2(G, \text{U}(1))\oplus H^1(K, H^1(G, \text{U}(1)))$ で与えられる。 我々の定義のSPT位相は非退化チャネルからなる対称局所回路で保存される。 このことは、対称非退化チャネルを用いた ``one-way' 接続の下で混合状態の同値類に従ってSPT相の代替定義を動機付けている。 強対称性を持つ局所純度MPDOでは、この代替定義がコホモロジー分類を再現することを証明している。 さらに、強い半射影テンソルネットワーク密度演算子によって記述された2次元混合状態に結果を拡張し、可能なSPT位相を分類する。

We define and classify symmetry-protected topological (SPT) phases in mixed states based on the tensor network formulation of the density matrix. In one dimension, we introduce strong injective matrix product density operators (MPDO), which describe a broad class of short-range correlated mixed states, including the locally decohered SPT states. We map strong injective MPDO to a pure state in the doubled Hilbert space and define the SPT phases according to the cohomology class of the symmetry group in the doubled state. Although the doubled state exhibits an enlarged symmetry, the possible SPT phases are also constrained by the Hermiticity and the semi-positivity of the density matrix. We here obtain a complete classification of SPT phases with a direct product of strong $G$ and weak $K$ unitary symmetry given by the cohomology group $H^2(G, \text{U}(1))\oplus H^1(K, H^1(G, \text{U}(1)))$. The SPT phases in our definition are preserved under symmetric local circuits consisting of non-degenerate channels. This motivates an alternative definition of SPT phases according to the equivalence class of mixed states under a ``one-way" connection using symmetric non-degenerate channels. In locally purifiable MPDO with strong symmetry, we prove that this alternative definition reproduces the cohomology classification. We further extend our results to two-dimensional mixed states described by strong semi-injective tensor network density operators and classify the possible SPT phases.
翻訳日:2024-05-17 18:35:17 公開日:2024-05-16
# ディープラーニングと最先端応用に関する調査研究

A Survey on Deep Learning and State-of-the-art Applications ( http://arxiv.org/abs/2403.17561v3 )

ライセンス: Link先を確認
Mohd Halim Mohd Noor, Ayokunle Olalekan Ige, (参考訳) ディープラーニング(Deep Learning)は、人工知能の一分野であり、複数の相互接続されたユニット(ニューロン)を用いて、生の入力データから直接複雑なパターンや表現を学習する計算モデルである。 この学習能力を活用して、複雑な問題を解決する強力なツールとなり、多くの画期的な技術やイノベーションの中核を担っている。 ディープラーニングモデルの構築は、アルゴリズムの複雑さと現実世界の問題の動的な性質のため、難しい作業である。 いくつかの研究はディープラーニングの概念と応用をレビューしている。 しかしながら、研究は主に、ディープラーニングモデルと畳み込みニューラルネットワークアーキテクチャのタイプに注目し、ディープラーニングモデルの最先端技術とその異なるドメインにわたる複雑な問題の解決への応用を限定的にカバーした。 そこで,本研究では,コンピュータビジョン,自然言語処理,時系列解析,広範コンピューティングにおける最先端のディープラーニングモデルを網羅的にレビューすることを目的としている。 モデルの主要な特徴と、各ドメイン内の問題を解決する上での有効性を強調します。 さらに,本研究では,深層学習,各種深層学習モデル,および顕著な畳み込みニューラルネットワークアーキテクチャの基礎について述べる。 最後に、ディープラーニング研究における課題と今後の方向性について論じ、将来の研究者に幅広い視点を提供する。

Deep learning, a branch of artificial intelligence, is a computational model that uses multiple layers of interconnected units (neurons) to learn intricate patterns and representations directly from raw input data. Empowered by this learning capability, it has become a powerful tool for solving complex problems and is the core driver of many groundbreaking technologies and innovations. Building a deep learning model is a challenging task due to the algorithm`s complexity and the dynamic nature of real-world problems. Several studies have reviewed deep learning concepts and applications. However, the studies mostly focused on the types of deep learning models and convolutional neural network architectures, offering limited coverage of the state-of-the-art of deep learning models and their applications in solving complex problems across different domains. Therefore, motivated by the limitations, this study aims to comprehensively review the state-of-the-art deep learning models in computer vision, natural language processing, time series analysis and pervasive computing. We highlight the key features of the models and their effectiveness in solving the problems within each domain. Furthermore, this study presents the fundamentals of deep learning, various deep learning model types and prominent convolutional neural network architectures. Finally, challenges and future directions in deep learning research are discussed to offer a broader perspective for future researchers.
翻訳日:2024-05-17 18:35:17 公開日:2024-05-16
# 量子仮説テストにおけるサンプル複雑性への招待

An invitation to the sample complexity of quantum hypothesis testing ( http://arxiv.org/abs/2403.17868v3 )

ライセンス: Link先を確認
Hao-Chung Cheng, Nilanjana Datta, Nana Liu, Theshani Nuradha, Robert Salzmann, Mark M. Wilde, (参考訳) 量子仮説テスト(QHT)は情報理論の観点から伝統的に研究されており、未知の状態のサンプル数の関数としての誤差確率の最適減衰率に関心がある。 本稿では,QHTのサンプル複雑性について検討し,本研究の目的は,所望の誤差確率に到達するために必要なサンプルの最小数を決定することである。 QHTの文献にすでに存在する豊富な知識を利用することにより、対称的および非対称的な設定において二項QHTのサンプル複雑性を特徴付けるとともに、複数のQHTのサンプル複雑性に限界を与える。 より詳しくは、対称二項QHTのサンプル複雑性が逆誤差確率と正の正の対数に依存することを証明している。 量子シュタインの補題とは対照的に、非対称二進数 QHT のサンプル複雑性は逆型 II の誤差確率と逆型相対エントロピーに対数的に依存し、タイプ II の誤差確率が十分に小さいことを仮定する。 次に、複数のQHTのサンプルの複雑さについて下限と上限を提供し、これらの境界を改善するために興味深い疑問が残る。 本稿の最終部では、QHTのサンプルの複雑さが研究領域の広さにどのように関係しているかを概説し、シミュレーションと探索のための量子アルゴリズム、量子学習と分類、量子力学の基礎など、多くの基本的な概念の理解を高めることができる。 そこで本稿は,QHTのサンプル複雑性問題への研究・貢献を,異なるコミュニティからの研究者に依頼するものであると考え,今後の研究に向けてのオープンな方向性を概説する。

Quantum hypothesis testing (QHT) has been traditionally studied from the information-theoretic perspective, wherein one is interested in the optimal decay rate of error probabilities as a function of the number of samples of an unknown state. In this paper, we study the sample complexity of QHT, wherein the goal is to determine the minimum number of samples needed to reach a desired error probability. By making use of the wealth of knowledge that already exists in the literature on QHT, we characterize the sample complexity of binary QHT in the symmetric and asymmetric settings, and we provide bounds on the sample complexity of multiple QHT. In more detail, we prove that the sample complexity of symmetric binary QHT depends logarithmically on the inverse error probability and inversely on the negative logarithm of the fidelity. As a counterpart of the quantum Stein's lemma, we also find that the sample complexity of asymmetric binary QHT depends logarithmically on the inverse type II error probability and inversely on the quantum relative entropy, provided that the type II error probability is sufficiently small. We then provide lower and upper bounds on the sample complexity of multiple QHT, with it remaining an intriguing open question to improve these bounds. The final part of our paper outlines and reviews how sample complexity of QHT is relevant to a broad swathe of research areas and can enhance understanding of many fundamental concepts, including quantum algorithms for simulation and search, quantum learning and classification, and foundations of quantum mechanics. As such, we view our paper as an invitation to researchers coming from different communities to study and contribute to the problem of sample complexity of QHT, and we outline a number of open directions for future research.
翻訳日:2024-05-17 18:35:17 公開日:2024-05-16
# ディープフェイクの生成と検出:ベンチマークと調査

Deepfake Generation and Detection: A Benchmark and Survey ( http://arxiv.org/abs/2403.17881v4 )

ライセンス: Link先を確認
Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Chunhua Shen, Dacheng Tao, (参考訳) Deepfake(ディープフェイク)は、特定の条件下で非常にリアルな顔画像やビデオを作成する技術であり、エンターテイメント、映画制作、デジタルヒューマン創造といった分野において大きな応用可能性を持つ。 ディープラーニングの進歩により、主に変分オートエンコーダとジェネレーティブ・アドバイサル・ネットワークによって表現される技術は印象的な生成結果を得た。 最近では、強力な生成能力を持つ拡散モデルの出現が、新たな研究の波を引き起こしている。 ディープフェイク生成に加えて、対応する検出技術は継続的に進化し、プライバシー侵害やフィッシング攻撃などのディープフェイクの潜在的な誤用を規制している。 本調査は, この急速に発展する分野における, ディープフェイクの発生と検出, 現状の要約と解析の最新の展開を包括的にレビューする。 まずタスク定義を統一し、データセットとメトリクスを包括的に導入し、開発技術について議論する。 そこで我々は,複数の関連分野の開発について論じ,顔スワップ,顔の再現,話し顔の生成,顔属性の編集,偽造検出という4つの代表的なディープフェイク分野の研究に焦点をあてる。 その後、各分野の一般的なデータセットに代表的手法を総合的にベンチマークし、最新かつ影響力のある著作を十分に評価する。 最後に,議論分野の課題と今後の研究方向性について分析する。

Deepfake is a technology dedicated to creating highly realistic facial images and videos under specific conditions, which has significant application potential in fields such as entertainment, movie production, digital human creation, to name a few. With the advancements in deep learning, techniques primarily represented by Variational Autoencoders and Generative Adversarial Networks have achieved impressive generation results. More recently, the emergence of diffusion models with powerful generation capabilities has sparked a renewed wave of research. In addition to deepfake generation, corresponding detection technologies continuously evolve to regulate the potential misuse of deepfakes, such as for privacy invasion and phishing attacks. This survey comprehensively reviews the latest developments in deepfake generation and detection, summarizing and analyzing current state-of-the-arts in this rapidly evolving field. We first unify task definitions, comprehensively introduce datasets and metrics, and discuss developing technologies. Then, we discuss the development of several related sub-fields and focus on researching four representative deepfake fields: face swapping, face reenactment, talking face generation, and facial attribute editing, as well as forgery detection. Subsequently, we comprehensively benchmark representative methods on popular datasets for each field, fully evaluating the latest and influential published works. Finally, we analyze challenges and future research directions of the discussed fields.
翻訳日:2024-05-17 18:35:17 公開日:2024-05-16
# 変圧器に基づく言語モデルにおけるファクチュアルリコールのメカニズムの解釈

Interpreting Key Mechanisms of Factual Recall in Transformer-Based Language Models ( http://arxiv.org/abs/2403.19521v3 )

ライセンス: Link先を確認
Ang Lv, Yuhan Chen, Kaiyi Zhang, Yulong Wang, Lifeng Liu, Ji-Rong Wen, Jian Xie, Rui Yan, (参考訳) 本稿では,トランスフォーマーに基づく言語モデルを用いて,現実的なリコールタスクにおいて採用されるいくつかのメカニズムについて深く検討する。 ゼロショットのシナリオでは、‘The capital of France’のようなプロンプトが与えられた場合、タスク固有のアテンションヘッドは、‘`France'のようなトピックエンティティをコンテキストから抽出し、‘`Paris’のような必要な回答をリコールするためにその後のMLPに渡す。 そこで我々は,MLPの出力を人間の理解する構成要素に分解する新たな分析手法を提案する。 本手法により,これらのタスク固有ヘッドに追従するMLP層の関数を定量化する。 残留ストリームでは、個々のヘッドから派生した情報を消去または増幅する。 さらに、残りのストリームを期待する回答の方向に向けてリダイレクトするコンポーネントを生成する。 これらのゼロショット機構は、数ショットのシナリオでも使用される。 さらに、モデルの最終層に広く存在する反過信機構を観察し、正しい予測を抑える。 我々は、事実的リコールの信頼性を高めるために、私たちの解釈を活用することで、この抑制を緩和する。 GPT-2群,1.3B OPT群,7B Llama-2群など,様々な言語モデルで解釈が評価されている。

In this paper, we deeply explore several mechanisms employed by Transformer-based language models in factual recall tasks. In zero-shot scenarios, given a prompt like ``The capital of France is,'' task-specific attention heads extract the topic entity, such as ``France,'' from the context and pass it to subsequent MLPs to recall the required answer such as ``Paris.'' We introduce a novel analysis method aimed at decomposing the outputs of the MLP into components understandable by humans. Through this method, we quantify the function of the MLP layer following these task-specific heads. In the residual stream, it either erases or amplifies the information originating from individual heads. Moreover, it generates a component that redirects the residual stream towards the direction of its expected answer. These zero-shot mechanisms are also employed in few-shot scenarios. Additionally, we observed a widely existent anti-overconfidence mechanism in the final layer of models, which suppresses correct predictions. We mitigate this suppression by leveraging our interpretation to improve factual recall confidence. Our interpretations have been evaluated across various language models, including the GPT-2 families, 1.3B OPT, and 7B Llama-2, encompassing diverse tasks spanning various domains of factual knowledge.
翻訳日:2024-05-17 18:35:17 公開日:2024-05-16
# TRABSA:Attention-based BiLSTM と Twitter-RoBERTa を用いたつぶやきの解釈型知覚分析

TRABSA: Interpretable Sentiment Analysis of Tweets using Attention-based BiLSTM and Twitter-RoBERTa ( http://arxiv.org/abs/2404.00297v2 )

ライセンス: Link先を確認
Md Abrar Jahin, Md Sakib Hossain Shovon, M. F. Mridha, Md Rashedul Islam, Yutaka Watanobe, (参考訳) 感情分析は、世論と消費者行動を理解するために不可欠である。 既存のモデルは言語的多様性、一般化可能性、説明可能性に関する課題に直面している。 本稿では,トランスフォーマーアーキテクチャ,アテンション機構,BiLSTMネットワークを統合したハイブリッドフレームワークTRABSAを提案する。 124万ツイートでトレーニングされたRoBERTaを活用することで、感情分析ベンチマークのギャップを埋め、最先端の精度を確保します。 32か国と米国州のツイートでデータセットを増強し、6つのワード埋め込み技術と3つのレキシコンベースのラベリング技術を比較し、最適な感情分析のためのベストを選択する。 TRABSAは、94%の精度と大幅な精度、リコール、F1スコアゲインで、従来のMLおよびディープラーニングモデルを上回っている。 多様なデータセットに対する評価は、一貫した優位性と一般化性を示している。 SHAPとLIME分析は解釈可能性を高め、予測の信頼性を向上させる。 本研究は,パンデミックの資源管理,資源計画支援,政策形成,ワクチン接種戦略を促進する。

Sentiment analysis is crucial for understanding public opinion and consumer behavior. Existing models face challenges with linguistic diversity, generalizability, and explainability. We propose TRABSA, a hybrid framework integrating transformer-based architectures, attention mechanisms, and BiLSTM networks to address this. Leveraging RoBERTa-trained on 124M tweets, we bridge gaps in sentiment analysis benchmarks, ensuring state-of-the-art accuracy. Augmenting datasets with tweets from 32 countries and US states, we compare six word-embedding techniques and three lexicon-based labeling techniques, selecting the best for optimal sentiment analysis. TRABSA outperforms traditional ML and deep learning models with 94% accuracy and significant precision, recall, and F1-score gains. Evaluation across diverse datasets demonstrates consistent superiority and generalizability. SHAP and LIME analyses enhance interpretability, improving confidence in predictions. Our study facilitates pandemic resource management, aiding resource planning, policy formation, and vaccination tactics.
翻訳日:2024-05-17 18:35:17 公開日:2024-05-16
# フォノンと光子を用いた光量子ドットのコヒーレント制御

Coherent Control of an Optical Quantum Dot Using Phonons and Photons ( http://arxiv.org/abs/2404.02079v2 )

ライセンス: Link先を確認
Ryan A DeCrescent, Zixuan Wang, Joseph T Bush, Poolad Imany, Alex Kwiatkowski, Dileep V Reddy, Sae Woo Nam, Richard P Mirin, Kevin L Silverman, (参考訳) 量子力学的効果は、ボソニック(古典的)光共振器からなる現代の光学系で容易に観測できる。 ここでは、光学力学における光学的二レベルシステム(qubits)のユニークな特徴と利点について述べる。 クォービット状態はフォノンと共振子または脱調光子の両方を用いてコヒーレントに制御することができる。 表面音響波共振器における電荷制御InAs量子ドット(QD)を用いてこれを実験的に実証する。 時間関連単一光子計数測定により、工学的光パルスと機械的運動を用いたQD人口動態の制御が明らかになった。 最初の例として、中程度の音響駆動強度において、量子マイクロ波-光伝送における忠実度を最大化するためのこの手法の可能性を示す。 具体的には、QDから直接偏向された光子散乱に対して、機械的に支援された光子散乱が促進されるように、このスキームを調整する。 分光分析により、パルス励起測定においてレイリー散乱と発光に関連する異なる散乱チャネルが明らかとなり、時間依存性の散乱スペクトルが導かれる。 量子力学計算は実験結果とよく一致し, 結合QD-フォノン光学系における励起, 散乱, 放出の包括的記述を提供する。

Genuine quantum-mechanical effects are readily observable in modern optomechanical systems comprising bosonic ("classical") optical resonators. Here we describe unique features and advantages of optical two-level systems, or qubits, for optomechanics. The qubit state can be coherently controlled using both phonons and resonant or detuned photons. We experimentally demonstrate this using charge-controlled InAs quantum dots (QDs) in surface-acoustic-wave resonators. Time-correlated single-photon counting measurements reveal the control of QD population dynamics using engineered optical pulses and mechanical motion. As a first example, at moderate acoustic drive strengths, we demonstrate the potential of this technique to maximize fidelity in quantum microwave-to-optical transduction. Specifically, we tailor the scheme so that mechanically assisted photon scattering is enhanced over the direct detuned photon scattering from the QD. Spectral analysis reveals distinct scattering channels related to Rayleigh scattering and luminescence in our pulsed excitation measurements which lead to time-dependent scattering spectra. Quantum-mechanical calculations show good agreement with our experimental results, together providing a comprehensive description of excitation, scattering and emission in a coupled QD-phonon optomechanical system.
翻訳日:2024-05-17 18:35:17 公開日:2024-05-16
# フーズボールテーブルのCNNによるゲーム状態検出

CNN-based Game State Detection for a Foosball Table ( http://arxiv.org/abs/2404.05357v2 )

ライセンス: Link先を確認
David Hagens, Jan M. Knaup, Elke Hergenröther, Andreas Weinmann, (参考訳) Deep Reinforcement Learning Strategies (DRL) を用いたゲームの自動化は、AI研究においてよく知られている課題である。 ビデオゲームにおける特徴抽出には、通常、画像全体が使用されるが、現実の多くのゲームでは実用的ではない。 代わりに、パラメータ空間の次元を小さくして本質的なパラメータを含むゲーム状態を使用することは、有望なアプローチである。 フォスボールのゲームでは、コンパクトで包括的なゲーム状態の記述は、フィギュアの位置シフトと回転と、時間とともにボールの位置で構成される。 特に、ゲーム状態の連続した時間サンプルから速度と加速度を導出することができる。 本稿では,フォスボールのゲーム状態を決定するフィギュア検出システムについて述べる。 加速度計を用いて測定したロッドの回転を含むデータセットをキャプチャし、従来のコンピュータビジョン技術(実験室で)を用いて位置変化を導出した。 このデータセットを使用して、畳み込みニューラルネットワーク(CNN)ベースのエンドツーエンド回帰モデルをトレーニングし、各ロッドの回転とシフトを予測する。 本稿では, 回帰モデルの基本アーキテクチャとして, 異なる最先端CNNを用いたシステム評価を行う。 本システムでは,ゲーム状態を高精度に予測できることを示す。 このシステムは、白黒チームの両方にデータを提供することにより、人間の選手を観察するためにImitation Learning Technique w.r.t.の今後の開発に必要なデータを提供することを目的としている。

The automation of games using Deep Reinforcement Learning Strategies (DRL) is a well-known challenge in AI research. While for feature extraction in a video game typically the whole image is used, this is hardly practical for many real world games. Instead, using a smaller game state reducing the dimension of the parameter space to include essential parameters only seems to be a promising approach. In the game of Foosball, a compact and comprehensive game state description consists of the positional shifts and rotations of the figures and the position of the ball over time. In particular, velocities and accelerations can be derived from consecutive time samples of the game state. In this paper, a figure detection system to determine the game state in Foosball is presented. We capture a dataset containing the rotations of the rods which were measured using accelerometers and the positional shifts were derived using traditional Computer Vision techniques (in a laboratory setting). This dataset is utilized to train Convolutional Neural Network (CNN) based end-to-end regression models to predict the rotations and shifts of each rod. We present an evaluation of our system using different state-of-the-art CNNs as base architectures for the regression model. We show that our system is able to predict the game state with high accuracy. By providing data for both black and white teams, the presented system is intended to provide the required data for future developments of Imitation Learning techniques w.r.t. to observing human players.
翻訳日:2024-05-17 18:35:17 公開日:2024-05-16
# 潜伏拡散モデルにおける異種著作権侵害

Disguised Copyright Infringement of Latent Diffusion Models ( http://arxiv.org/abs/2404.06737v3 )

ライセンス: Link先を確認
Yiwei Lu, Matthew Y. R. Yang, Zuoqiu Liu, Gautam Kamath, Yaoliang Yu, (参考訳) 著作権侵害は、生成モデルがトレーニング期間中にアクセスしたいくつかの著作権データと実質的に類似したサンプルを生成するときに起こりうる。 アクセスの概念は、通常、トレーニングデータセットに直接著作権のあるサンプルを含めることを指す。 このような視覚的な監査は、著作権が隠された著作権侵害をほとんど見落としていると我々は主張する。そこでは、著作権サンプルと大きく異なるように見える偽装を構築するが、それでも遅延拡散モデルを訓練する効果を誘導する。 このような偽装は著作権のある資料への間接アクセスしか必要とせず、視覚的に区別できないため、現在の監査ツールを簡単に回避できる。 本稿では, 偽装生成アルゴリズム, 偽装の啓示, および, 既存のツールボックスの強化方法を明らかにすることにより, このような偽装著作権侵害の理解を深める。 さらに、このような間接的アクセスを理解するための、より広範な知識の概念を導入する。

Copyright infringement may occur when a generative model produces samples substantially similar to some copyrighted data that it had access to during the training phase. The notion of access usually refers to including copyrighted samples directly in the training dataset, which one may inspect to identify an infringement. We argue that such visual auditing largely overlooks a concealed copyright infringement, where one constructs a disguise that looks drastically different from the copyrighted sample yet still induces the effect of training Latent Diffusion Models on it. Such disguises only require indirect access to the copyrighted material and cannot be visually distinguished, thus easily circumventing the current auditing tools. In this paper, we provide a better understanding of such disguised copyright infringement by uncovering the disguises generation algorithm, the revelation of the disguises, and importantly, how to detect them to augment the existing toolbox. Additionally, we introduce a broader notion of acknowledgment for comprehending such indirect access.
翻訳日:2024-05-17 18:35:17 公開日:2024-05-16
# 決定性に基づく量子論のオントロジー

An indeterminacy-based ontology for quantum theory ( http://arxiv.org/abs/2404.07197v2 )

ライセンス: Link先を確認
Francisco Pipa, (参考訳) 私は、生成量子理論(GQT)と呼ばれる量子理論の新しいオントロジー(または量子理論の「解釈」)を提示し、擁護する。 GQTは異なる特徴セットを仮定し、これらの特徴の組み合わせは異なる量子理論を生成するのに役立つ。 さらに、このオントロジーは、量子的不確定性と決定性は、その性質の値が決定的でない量子系が決定的になる時期を考慮し、重要な説明的役割を果たす。 値が決定される過程は、異なる量子論の間で異なる。 さらに、量子状態は決定性をもたらす量子の性質と構造を表し、それぞれの量子理論は特定の特徴を持つ構造を規定する。 GRW、多世界解釈、リレーショナル量子力学、ボウミアン力学、ハイブリッド古典量子論、環境決定性に基づく量子論(EnD)といった単一世界のリレーショナル理論に焦点をあてる。 私は、GQTは、現在広く議論されているオントロジー、すなわち波動関数リアリズムとプリミティブオントロジーが、コストの一部を伴わずに欠落している一連の重要な利点を提供するので、真剣に取り組まなければならないと論じる。 例えば、エンD量子理論のような相対論的因果関係と明確に一致した量子理論を生成するのに役立ちます。 また、GQTは量子理論の比較と評価の新しい方法を提供することで、これらの問題に対する哲学的および科学的進歩をもたらす可能性がある。

I present and defend a new ontology for quantum theories (or "interpretations" of quantum theory) called Generative Quantum Theory (GQT). GQT postulates different sets of features, and the combination of these different features can help generate different quantum theories. Furthermore, this ontology makes quantum indeterminacy and determinacy play an important explanatory role in accounting for when quantum systems whose values of their properties are indeterminate become determinate. The process via which determinate values arise varies between the different quantum theories. Moreover, quantum states represent quantum properties and structures that give rise to determinacy, and each quantum theory specifies a structure with certain features. I will focus on the following quantum theories: GRW, the Many-Worlds Interpretation, single-world relationalist theories such as Relational Quantum Mechanics, Bohmian Mechanics, hybrid classical-quantum theories, and Environmental Determinacy-based (EnD) Quantum Theory. I will argue that GQT should be taken seriously because it provides a series of important benefits that current widely discussed ontologies lack, namely, wavefunction realism and primitive ontology, without some of their costs. For instance, it helps generate quantum theories that are clearly compatible with relativistic causality, such as EnD Quantum Theory. Also, GQT has the benefit of providing new ways to compare and evaluate quantum theories, which may lead to philosophical and scientific progress on these issues.
翻訳日:2024-05-17 18:35:17 公開日:2024-05-16
# 連続学習用変圧器の思い出

Remembering Transformer for Continual Learning ( http://arxiv.org/abs/2404.07518v3 )

ライセンス: Link先を確認
Yuwei Sun, Ippei Fujisawa, Arthur Juliani, Jun Sakuma, Ryota Kanai, (参考訳) ニューラルネットワークは、新しいタスク学習が以前学んだ知識に干渉する連続学習において、カタストロフィック・フォーッティング(CF)の課題に直面している。 既存のデータ微調整法と正規化法では、推論中にタスク識別情報を必要とせず、異なるタスク間の干渉を排除できないが、ソフトパラメータ共有手法ではモデルパラメータサイズが大きくなるという問題に遭遇する。 これらの課題に対処するため,脳のComplementary Learning Systems (CLS) にインスパイアされたRemembering Transformerを提案する。 覚えておく Transformer は、CF を緩和するために、事前訓練された Transformer に、適応型アーキテクチャと生成モデルに基づく新規性検出機構を取り入れている。 Transformerは、知識蒸留に基づくパラメータ効率の向上により、タスクデータを最も関連性の高いアダプタに動的にルーティングする。 本研究は,新奇性検出機構とアダプタのモデル容量に関するアブレーション実験を含む広範囲な実験を行い,クラス増分タスクと置換タスクについて検討した。 CIFAR10タスクのメモリフットプリントを11.18Mから0.22Mに削減した。

Neural networks encounter the challenge of Catastrophic Forgetting (CF) in continual learning, where new task learning interferes with previously learned knowledge. Existing data fine-tuning and regularization methods necessitate task identity information during inference and cannot eliminate interference among different tasks, while soft parameter sharing approaches encounter the problem of an increasing model parameter size. To tackle these challenges, we propose the Remembering Transformer, inspired by the brain's Complementary Learning Systems (CLS). Remembering Transformer employs a mixture-of-adapters architecture and a generative model-based novelty detection mechanism in a pretrained Transformer to alleviate CF. Remembering Transformer dynamically routes task data to the most relevant adapter with enhanced parameter efficiency based on knowledge distillation. We conducted extensive experiments, including ablation studies on the novelty detection mechanism and model capacity of the mixture-of-adapters, in a broad range of class-incremental split tasks and permutation tasks. Our approach demonstrated SOTA performance surpassing the second-best method by 15.90% in the split tasks, reducing the memory footprint from 11.18M to 0.22M in the five splits CIFAR10 task.
翻訳日:2024-05-17 18:35:17 公開日:2024-05-16
# LinguaQuanta: OpenQASMとQuipperの間の量子トランスパイラを目指して(拡張)

LinguaQuanta: Towards a Quantum Transpiler Between OpenQASM and Quipper (Extended) ( http://arxiv.org/abs/2404.08147v2 )

ライセンス: Link先を確認
Scott Wesley, (参考訳) 量子コンピューティングが進化するにつれて、量子プログラムの表現方法や、量子プログラム分析ツール間の相互運用性を促進する方法など、多くの重要な疑問が浮かび上がってくる。 これらの疑問は、量子プログラミング言語間で翻訳される量子トランスパイラの設計において自然に生じる。 本稿では,量子トランスパイラ設計における課題とベストプラクティスを特定することによって,これらの疑問に答えるための一歩を踏み出した。 これらの推奨は、QuipperとOpenQASMの間の量子トランスパイラであるLinguaQuantaの設計経験に基づいています。 まず、UNIX哲学の中核となる原理をカプセル化することを目的とした量子トランスパイラのカテゴリ仕様を提供する。 次に量子回路分解を同定し、量子トランスパイレーションに有用であると期待する。 これらの基盤を整備し,LinguaQuantaの実装において直面する課題,例えばアンシラ管理やラウンド翻訳時の安定性について議論する。 LinguaQuantaが実際に動作することを示すために、量子位相推定の例に短いチュートリアルが与えられる。 我々は、LinguaQuantaの将来と、量子ソフトウェア開発ツールをより広く推奨することで締めくくります。

As quantum computing evolves, many important questions emerge, such as how best to represent quantum programs, and how to promote interoperability between quantum program analysis tools. These questions arise naturally in the design of quantum transpilers, which translate between quantum programming languages. In this paper, we take a step towards answering these questions by identifying challenges and best practices in quantum transpiler design. We base these recommendations on our experience designing LinguaQuanta, a quantum transpiler between Quipper and OpenQASM. First, we provide categorical specifications for quantum transpilers, which aim to encapsulate the core principles of the UNIX philosophy. We then identify quantum circuit decompositions which we expect to be useful in quantum transpilation. With these foundations in place, we then discuss challenges faced during the implementation of LinguaQuanta, such as ancilla management and stability under round translation. To show that LinguaQuanta works in practice, a short tutorial is given for the example of quantum phase estimation. We conclude with recommendations for the future of LinguaQuanta, and for quantum software development tools more broadly.
翻訳日:2024-05-17 18:35:17 公開日:2024-05-16
# スペシャリティとVersatilityのバランスをとる - 教師付き微調整大言語モデルのための粗いフレームワーク

Balancing Speciality and Versatility: a Coarse to Fine Framework for Supervised Fine-tuning Large Language Model ( http://arxiv.org/abs/2404.10306v3 )

ライセンス: Link先を確認
Hengyuan Zhang, Yanru Wu, Dawei Li, Zacc Yang, Rui Zhao, Yong Jiang, Fei Tan, (参考訳) Aligned Large Language Models (LLMs) は、様々な現実世界のタスクを処理できる優れた汎用性を示す。 一方、アライメントLDMは特殊性を示し、特定の用途に優れると予想されている。 しかし、専門性を得るための一般的な慣習である余分なデータによる微調整は、しばしば以前に獲得された多目的性の破滅的な忘れ(CF)を招き、様々なタスクにおけるモデルの性能を阻害する。 この課題に対応するために,我々は,特殊性と多目的性のバランスを打つために,粗粒度フレームワークであるCoFiTuneを提案する。 粗粒度レベルでは、経験的木探索アルゴリズムを用いて、特殊性に不可欠な特定のモジュールをピンポイントし更新し、他のパラメータを凍結し続ける。 専門性と汎用性の両方の総合評価において、CoFiTuneは、さまざまなタスクとモデルスケールのベースラインメソッドを一貫して上回ります。 フルパラメータのSFTと比較すると、CoFiTuneは約14%の汎用性向上と13Bモデルでの限界特殊性損失をもたらす。 最後に,LLMにおける情報転送プロセスの投機的考察を行い,提案手法の有効性について解説する。 コードはhttps://github.com/rattlesnakey/CoFiTune.comで入手できる。

Aligned Large Language Models (LLMs) showcase remarkable versatility, capable of handling diverse real-world tasks. Meanwhile, aligned LLMs are also expected to exhibit speciality, excelling in specific applications. However, fine-tuning with extra data, a common practice to gain speciality, often leads to catastrophic forgetting (CF) of previously acquired versatility, hindering the model's performance across diverse tasks. In response to this challenge, we propose CoFiTune, a coarse to fine framework in an attempt to strike the balance between speciality and versatility. At the coarse-grained level, an empirical tree-search algorithm is utilized to pinpoint and update specific modules that are crucial for speciality, while keeping other parameters frozen; at the fine-grained level, a soft-masking mechanism regulates the update to the LLMs, mitigating the CF issue without harming speciality. In an overall evaluation of both speciality and versatility, CoFiTune consistently outperforms baseline methods across diverse tasks and model scales. Compared to the full-parameter SFT, CoFiTune leads to about 14% versatility improvement and marginal speciality loss on a 13B model. Lastly, based on further analysis, we provide a speculative insight into the information forwarding process in LLMs, which helps explain the effectiveness of the proposed method. The code is available at https://github.com/rattlesnakey/CoFiTune.
翻訳日:2024-05-17 18:35:17 公開日:2024-05-16
# ピット回避のための自己説明:細粒度リワードによる言語モデルの推論能力の向上

Self-Explore to Avoid the Pit: Improving the Reasoning Capabilities of Language Models with Fine-grained Rewards ( http://arxiv.org/abs/2404.10346v3 )

ライセンス: Link先を確認
Hyeonbin Hwang, Doyoung Kim, Seungone Kim, Seonghyeon Ye, Minjoon Seo, (参考訳) 大量の論理学(CoTファインチューニング)の訓練は、大規模言語モデル(LLM)の推論能力を改善するのに効果的である。 しかし、プロプライエタリなモデルから人間公認の合理性を獲得することや、合理性を強化することは、コストが高く、スケーラブルではない。 本稿では,LLMが推論能力を自己改善できるかどうかを考察する。 この目的のために,LLMは論理学における第1ステップ(すなわち第1ピット)を探索し,さらに改善するために細かな報酬などの信号を使用するセルフエクスロアを提案する。 GSM8KとMATHテストセットでは、教師付き微調整(SFT)に比べて平均11.57%と2.89%の改善が達成されている。 私たちのコードはhttps://github.com/hbin0701/Self-Explore.comで公開されています。

Training on large amounts of rationales (i.e., CoT Fine-tuning) is effective at improving the reasoning capabilities of large language models (LLMs). However, acquiring human-authored rationales or augmenting rationales from proprietary models is costly and not scalable. In this paper, we study the problem of whether LLMs could self-improve their reasoning capabilities. To this end, we propose Self-Explore, where the LLM is tasked to explore the first wrong step (i.e., the first pit) within the rationale and use such signals as fine-grained rewards for further improvement. On the GSM8K and MATH test set, Self-Explore achieves 11.57% and 2.89% improvement on average across three LLMs compared to supervised fine-tuning (SFT). Our code is available at https://github.com/hbin0701/Self-Explore.
翻訳日:2024-05-17 18:25:33 公開日:2024-05-16
# 光ファイバーにおける従来の古典通信と共存する量子テレポーテーション

Quantum Teleportation Coexisting with Conventional Classical Communications in Optical Fiber ( http://arxiv.org/abs/2404.10738v2 )

ライセンス: Link先を確認
Jordan M. Thomas, Fei I. Yeh, Jim Hao Chen, Joe J. Mambretti, Scott J. Kohlert, Gregory S. Kanter, Prem Kumar, (参考訳) 量子ネットワークと古典的ネットワークが同一の光ファイバーで動作できることは、量子ネットワーク技術の展開に役立つ。 しかし、量子性能は、高出力共存する古典光のラマン自発散乱によって生じるノイズ光子の影響を受けやすい。 量子テレポーテーション(quantum teleportation)は、量子ネットワークにおける基本的な操作であるが、高データレートの従来の光学信号を持つファイバではまだ実証されていない。 本稿では,30.2kmのファイバにおいて,400GbpsのCバンド通信と共存する3ノード量子状態テレポーテーションシステムを示す。 量子忠実性を保護するため、最適化されたOバンド量子チャネルとフィルタリングによりラマンノイズレートを複数の自由度で抑制する。 忠実度は18.7dBm以上の古典的パワーで十分に維持されていることが示されている。 これらの結果は、統合ファイバ基盤内で動作する高度な量子および古典的ネットワークアプリケーションの実現可能性を示している。

The ability for quantum and classical networks to operate in the same optical fibers would aid the deployment of quantum network technology. However, quantum performance can be susceptible to noise photons generated by spontaneous Raman scattering of high-power coexisting classical light. Quantum teleportation is a fundamental operation in quantum networking, but has yet to be demonstrated in fibers populated with high data rate conventional optical signals. In this paper, we demonstrate a three-node quantum state teleportation system coexisting with 400-Gbps C-band classical communications in 30.2 km of fiber. To protect quantum fidelity, Raman noise rates are suppressed using optimized O-band quantum channels and filtering in multiple degrees of freedom. Fidelity is shown to be well maintained with elevated classical powers as high as 18.7 dBm, which could support multiple classical channels with many terabits/s aggregate data rates. These results show the feasibility of advanced quantum and classical network applications operating within a unified fiber infrastructure.
翻訳日:2024-05-17 18:25:33 公開日:2024-05-16
# トポロジーを用いた深部回帰表現学習

Deep Regression Representation Learning with Topology ( http://arxiv.org/abs/2404.13904v4 )

ライセンス: Link先を確認
Shihao Zhang, kenji kawaguchi, Angela Yao, (参考訳) 表現学習を研究するほとんどの研究は、分類と無視の回帰にのみ焦点をあてている。 しかし、学習目的とそれゆえに、2つのタスクの表現トポロジは根本的に異なる:分類はクラス分離を目標とし、非連結表現につながる。 そこで我々は,回帰表現の有効性が,そのトポロジによってどのように影響されるのかを,インフォメーション・ボトルネック(IB)の原理に基づいて検討する。 IB原則は効果的な表現を学ぶための原則を提供する重要なフレームワークである。 我々はそれと回帰表現のトポロジーの間に2つの関係を確立する。 第1の接続は、特徴空間の低い内在次元が表現 Z の複雑さの減少を意味することを明らかにし、この複雑さは対象 Y 上の Z の条件エントロピーとして定量化することができ、一般化誤差の上界として機能する。 第2の接続は、対象空間と位相的に類似した特徴空間が、IB原理とよりよく一致することを示唆している。 これら2つの接続に基づいて,特徴空間の内在次元と対象空間の位相に一致する回帰に特有な正則化器PH-Regを導入する。 合成および実世界の回帰タスクの実験はPH-Regの利点を示している。 コード:https://github.com/needylove/PH-Reg

Most works studying representation learning focus only on classification and neglect regression. Yet, the learning objectives and, therefore, the representation topologies of the two tasks are fundamentally different: classification targets class separation, leading to disconnected representations, whereas regression requires ordinality with respect to the target, leading to continuous representations. We thus wonder how the effectiveness of a regression representation is influenced by its topology, with evaluation based on the Information Bottleneck (IB) principle. The IB principle is an important framework that provides principles for learning effective representations. We establish two connections between it and the topology of regression representations. The first connection reveals that a lower intrinsic dimension of the feature space implies a reduced complexity of the representation Z. This complexity can be quantified as the conditional entropy of Z on the target Y, and serves as an upper bound on the generalization error. The second connection suggests a feature space that is topologically similar to the target space will better align with the IB principle. Based on these two connections, we introduce PH-Reg, a regularizer specific to regression that matches the intrinsic dimension and topology of the feature space with the target space. Experiments on synthetic and real-world regression tasks demonstrate the benefits of PH-Reg. Code: https://github.com/needylove/PH-Reg.
翻訳日:2024-05-17 18:25:33 公開日:2024-05-16
# MaterialSeg3D:Dense Materials from 2D Priors for 3D Assets (特集 バイオサイバネティックスとバイオサイバネティックス)

MaterialSeg3D: Segmenting Dense Materials from 2D Priors for 3D Assets ( http://arxiv.org/abs/2404.13923v3 )

ライセンス: Link先を確認
Zeyu Li, Ruitong Gan, Chuanchen Luo, Yuxi Wang, Jiaheng Liu, Ziwei Zhu Man Zhang, Qing Li, Xucheng Yin, Zhaoxiang Zhang, Junran Peng, (参考訳) 強力な画像拡散モデルによって駆動される最近の研究は、テキストや視覚的ガイダンスから3Dオブジェクトを自動生成することに成功した。 スコア蒸留サンプリング(SDS)を様々な視点で反復的に行うことにより、これらの手法は3次元空間に先立って2次元生成物を持ち上げることに成功している。 しかし、そのような2次元生成画像は、照明効果と影をテクスチャに焼き込む。 結果として、SDSによって最適化された材料マップは必然的に、相互に相関する成分を伴っている。 正確な物質定義がないため、新しいシーンで生成された資産を合理的にリライトすることは不可能であり、下流のシナリオでの応用を制限する。 対照的に、人間はこの曖昧さを、その外見や意味から物体の物質を引き出すことによって、力ずくで回避することができる。 そこで本研究では,2次元セマンティックから基礎となる物質を推定する3次元アセット・マテリアル生成フレームワークであるMaterialSeg3Dを提案する。 このような先行モデルに基づいて,材料を三次元空間で解析する機構を考案する。 われわれはUVスタックを維持しており、それぞれのマップは特定の視点から投影されていない。 すべての視点をトラバースした後、重み付けされた投票方式でスタックを融合し、領域統一を用いて対象部品のコヒーレンスを確保する。 セマンティクスの学習に先立って,多彩な画像,多様なカテゴリ,正確なアノテーションを特徴とするMIO(Materialized Individual Objects)という資料データセットを収集した。 定量的および定性的実験により,本手法の有効性を実証した。

Driven by powerful image diffusion models, recent research has achieved the automatic creation of 3D objects from textual or visual guidance. By performing score distillation sampling (SDS) iteratively across different views, these methods succeed in lifting 2D generative prior to the 3D space. However, such a 2D generative image prior bakes the effect of illumination and shadow into the texture. As a result, material maps optimized by SDS inevitably involve spurious correlated components. The absence of precise material definition makes it infeasible to relight the generated assets reasonably in novel scenes, which limits their application in downstream scenarios. In contrast, humans can effortlessly circumvent this ambiguity by deducing the material of the object from its appearance and semantics. Motivated by this insight, we propose MaterialSeg3D, a 3D asset material generation framework to infer underlying material from the 2D semantic prior. Based on such a prior model, we devise a mechanism to parse material in 3D space. We maintain a UV stack, each map of which is unprojected from a specific viewpoint. After traversing all viewpoints, we fuse the stack through a weighted voting scheme and then employ region unification to ensure the coherence of the object parts. To fuel the learning of semantics prior, we collect a material dataset, named Materialized Individual Objects (MIO), which features abundant images, diverse categories, and accurate annotations. Extensive quantitative and qualitative experiments demonstrate the effectiveness of our method.
翻訳日:2024-05-17 18:25:33 公開日:2024-05-16
# インフォメーション・ボトルネックでLLMを保護する

Protecting Your LLMs with Information Bottleneck ( http://arxiv.org/abs/2404.13968v2 )

ライセンス: Link先を確認
Zichuan Liu, Zefan Wang, Linjie Xu, Jinyu Wang, Lei Song, Tianchun Wang, Chunlin Chen, Wei Cheng, Jiang Bian, (参考訳) 大規模言語モデル(LLM)の出現は自然言語処理の分野に革命をもたらしたが、有害なコンテンツを生み出すために攻撃される可能性がある。 LLMを倫理的に整合させる努力にもかかわらず、これらはしばしば脆弱であり、最適化されたまたは手動の敵のプロンプトを通じてジェイルブレイク攻撃によって回避される。 そこで我々は,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を導入する。 IBProtectorは、軽量で訓練可能な抽出器によって促進される、選択的に圧縮および摂動プロンプトを圧縮し、目標のLSMが期待する応答に応答するために必要な情報のみを保持する。 さらに,LLMと互換性のある勾配が見えない状況についても検討する。 実験により, IBProtectorは, 応答品質や推論速度に過度に影響を及ぼすことなく, ジェイルブレイクを緩和する現行の防御方法より優れていることが示された。 様々な攻撃方法と目標LLMに対する適応性は、基盤となるモデルの変更を必要とせず、LLMのセキュリティを増強する、新規で移動可能な防御技術としてのIBProtectorの可能性を強調している。

The advent of large language models (LLMs) has revolutionized the field of natural language processing, yet they might be attacked to produce harmful content. Despite efforts to ethically align LLMs, these are often fragile and can be circumvented by jailbreaking attacks through optimized or manual adversarial prompts. To address this, we introduce the Information Bottleneck Protector (IBProtector), a defense mechanism grounded in the information bottleneck principle, and we modify the objective to avoid trivial solutions. The IBProtector selectively compresses and perturbs prompts, facilitated by a lightweight and trainable extractor, preserving only essential information for the target LLMs to respond with the expected answer. Moreover, we further consider a situation where the gradient is not visible to be compatible with any LLM. Our empirical evaluations show that IBProtector outperforms current defense methods in mitigating jailbreak attempts, without overly affecting response quality or inference speed. Its effectiveness and adaptability across various attack methods and target LLMs underscore the potential of IBProtector as a novel, transferable defense that bolsters the security of LLMs without requiring modifications to the underlying models.
翻訳日:2024-05-17 18:25:33 公開日:2024-05-16
# マッチングから生成へ:生成情報検索に関する調査

From Matching to Generation: A Survey on Generative Information Retrieval ( http://arxiv.org/abs/2404.14851v3 )

ライセンス: Link先を確認
Xiaoxi Li, Jiajie Jin, Yujia Zhou, Yuyao Zhang, Peitian Zhang, Yutao Zhu, Zhicheng Dou, (参考訳) 情報検索システム(Information Retrieval、IR)は、ユーザーが情報にアクセスするための重要なツールであり、検索エンジン、質問応答、レコメンデーションシステムなどのシナリオに広く適用されている。 従来のIR手法は、文書のランク付けリストを返却する類似性マッチングに基づいており、情報取得の信頼性が高く、IR分野を支配してきた。 事前学習言語モデルの発展に伴い、生成情報検索(GenIR)は新たなパラダイムとして登場し、近年注目されている。 現在、GenIRの研究は、生成文書検索(GR)と信頼できる応答生成の2つの側面に分類できる。 GRは生成モデルのパラメータを利用して文書を記憶し、明示的なインデックス付けなしに関連する文書識別子を直接生成することで検索を可能にする。 一方、信頼性の高い応答生成は、ユーザーが求める情報を直接生成するために言語モデルを使用し、ドキュメントの粒度と関連性マッチングの点で従来のIRの限界を破り、柔軟性、効率、創造性を向上し、実用的なニーズを満たす。 本稿では,GenIRの最新研究動向を体系的にレビューすることを目的とする。 本稿では、モデルトレーニング、文書識別子、インクリメンタルラーニング、下流タスク適応、マルチモーダルGRおよびジェネレーティブレコメンデーションに関するGRの進歩と、内部知識記憶、外部知識増強、引用とパーソナル情報アシスタントによる応答生成における信頼性の高い応答生成の進展について要約する。 我々はまた、GenIRシステムの評価、課題、今後の展望についてもレビューする。 このレビューは、GenIR分野の研究者に包括的なリファレンスを提供することを目的としており、この分野のさらなる発展を奨励している。

Information Retrieval (IR) systems are crucial tools for users to access information, widely applied in scenarios like search engines, question answering, and recommendation systems. Traditional IR methods, based on similarity matching to return ranked lists of documents, have been reliable means of information acquisition, dominating the IR field for years. With the advancement of pre-trained language models, generative information retrieval (GenIR) has emerged as a novel paradigm, gaining increasing attention in recent years. Currently, research in GenIR can be categorized into two aspects: generative document retrieval (GR) and reliable response generation. GR leverages the generative model's parameters for memorizing documents, enabling retrieval by directly generating relevant document identifiers without explicit indexing. Reliable response generation, on the other hand, employs language models to directly generate the information users seek, breaking the limitations of traditional IR in terms of document granularity and relevance matching, offering more flexibility, efficiency, and creativity, thus better meeting practical needs. This paper aims to systematically review the latest research progress in GenIR. We will summarize the advancements in GR regarding model training, document identifier, incremental learning, downstream tasks adaptation, multi-modal GR and generative recommendation, as well as progress in reliable response generation in aspects of internal knowledge memorization, external knowledge augmentation, generating response with citations and personal information assistant. We also review the evaluation, challenges and future prospects in GenIR systems. This review aims to offer a comprehensive reference for researchers in the GenIR field, encouraging further development in this area.
翻訳日:2024-05-17 18:25:33 公開日:2024-05-16
# V2A-Mark: 操作のローカライゼーションと著作権保護のためのVersatile Deep Visual-Audio Watermarking

V2A-Mark: Versatile Deep Visual-Audio Watermarking for Manipulation Localization and Copyright Protection ( http://arxiv.org/abs/2404.16824v2 )

ライセンス: Link先を確認
Xuanyu Zhang, Youmin Xu, Runyi Li, Jiwen Yu, Weiqi Li, Zhipei Xu, Jian Zhang, (参考訳) AIによって生成されたビデオは、短いビデオ制作、映画製作、パーソナライズされたメディアに革命をもたらし、ビデオローカル編集が必須のツールとなった。 しかし、この進歩は現実とフィクションの境界を曖昧にし、マルチメディアの法医学における課題を浮き彫りにしている。 この緊急問題を解決するために、V2A-Markは、一般化性、特異関数、単一モダリティ焦点などの現在のビデオ改ざん法医学の限界に対処するために提案されている。 ビデオ・イン・ビデオ・ステガノグラフィーの脆弱さと深いロバストな透かしとを組み合わせることで,オリジナルビデオフレームやオーディオに視覚・オーディオのローカライズ・透かしや著作権の透かしを埋め込むことが可能となり,正確な操作のローカライゼーションと著作権保護が可能となった。 また、局所化精度を高め、ロバスト性を復号化するために、時間的アライメントと融合モジュールと劣化の促進学習を設計する。 一方,サンプルレベルの音声ローカライズ手法と,オーディオフレームとビデオフレームの情報とを結合するクロスモーダル著作権抽出機構を導入する。 V2A-Markの有効性は、AIGCビデオ時代におけるビデオ編集の持続可能な発展に欠かせない、ローカライズ精度と著作権の精度において、その優位性を強調して、視覚オーディオの改ざんデータセット上で検証されている。

AI-generated video has revolutionized short video production, filmmaking, and personalized media, making video local editing an essential tool. However, this progress also blurs the line between reality and fiction, posing challenges in multimedia forensics. To solve this urgent issue, V2A-Mark is proposed to address the limitations of current video tampering forensics, such as poor generalizability, singular function, and single modality focus. Combining the fragility of video-into-video steganography with deep robust watermarking, our method can embed invisible visual-audio localization watermarks and copyright watermarks into the original video frames and audio, enabling precise manipulation localization and copyright protection. We also design a temporal alignment and fusion module and degradation prompt learning to enhance the localization accuracy and decoding robustness. Meanwhile, we introduce a sample-level audio localization method and a cross-modal copyright extraction mechanism to couple the information of audio and video frames. The effectiveness of V2A-Mark has been verified on a visual-audio tampering dataset, emphasizing its superiority in localization precision and copyright accuracy, crucial for the sustainable development of video editing in the AIGC video era.
翻訳日:2024-05-17 18:25:33 公開日:2024-05-16
# 高次元不均一処理効果評価のためのPareto-Smoothed Weighting

Differentiable Pareto-Smoothed Weighting for High-Dimensional Heterogeneous Treatment Effect Estimation ( http://arxiv.org/abs/2404.17483v4 )

ライセンス: Link先を確認
Yoichi Chikahara, Kansei Ushiyama, (参考訳) 高次元の特徴属性を用いて、個人間での不均一な治療効果を推定することへの関心が高まっている。 このような高次元不均一処理効果推定における高い性能を達成することは、この設定では、一部の特徴がサンプル選択バイアスを誘導するのに対し、他の特徴は潜在的な結果の予測をしないため、通常である。 このような予測的特徴情報を失うのを避けるため、既存の手法では逆確率重み付け(IPW)を用いて特徴表現を個別に学習する。 しかし、数値的に不安定なIPW重みのため、これらの手法は有限サンプル設定下での推定バイアスに悩まされる。 重み付き表現学習による数値的ロバストな推定器を開発するために,極度の重み値をエンドツーエンドに置き換える微分可能なパレート平滑化フレームワークを提案する。 提案手法は, 従来の重み付け方式を含む既存手法よりも優れていることを示す。 私たちのコードはhttps://github.com/ychika/DPSW.comで利用可能です。

There is a growing interest in estimating heterogeneous treatment effects across individuals using their high-dimensional feature attributes. Achieving high performance in such high-dimensional heterogeneous treatment effect estimation is challenging because in this setup, it is usual that some features induce sample selection bias while others do not but are predictive of potential outcomes. To avoid losing such predictive feature information, existing methods learn separate feature representations using inverse probability weighting (IPW). However, due to their numerically unstable IPW weights, these methods suffer from estimation bias under a finite sample setup. To develop a numerically robust estimator by weighted representation learning, we propose a differentiable Pareto-smoothed weighting framework that replaces extreme weight values in an end-to-end fashion. Our experimental results show that by effectively correcting the weight values, our proposed method outperforms the existing ones, including traditional weighting schemes. Our code is available at https://github.com/ychika/DPSW.
翻訳日:2024-05-17 18:25:33 公開日:2024-05-16
# 望ましいギャンブル集合の集合に関する結果

Results about sets of desirable gamble sets ( http://arxiv.org/abs/2404.17924v2 )

ライセンス: Link先を確認
Catrin Campbell-Moore, (参考訳) 望ましいギャンブル集合のコヒーレントな集合は、不確実性の下でエージェントの意見と選択の選好を表現するモデルとして使用される。 本稿では,コヒーレンスに必要な公理と,所与の所望のギャンブル集合の自然な拡張について述べる。 また、所望のギャンブル集合のコヒーレント集合は、所望のギャンブル集合のコヒーレント集合の適切なフィルタで表現できることを示す。

Coherent sets of desirable gamble sets is used as a model for representing an agents opinions and choice preferences under uncertainty. In this paper we provide some results about the axioms required for coherence and the natural extension of a given set of desirable gamble sets. We also show that coherent sets of desirable gamble sets can be represented by a proper filter of coherent sets of desirable gambles.
翻訳日:2024-05-17 18:25:33 公開日:2024-05-16
# MultiMAE-DER:動的感情認識のためのマルチモーダルマスク付きオートエンコーダ

MultiMAE-DER: Multimodal Masked Autoencoder for Dynamic Emotion Recognition ( http://arxiv.org/abs/2404.18327v2 )

ライセンス: Link先を確認
Peihao Xiang, Chaohao Lin, Kaida Wu, Ou Bai, (参考訳) 本稿では,動的感情認識のためのマルチモーダルデータ処理手法を提案する。 MultiMAE-DERは、視覚的およびオーディオ的モダリティ間の時空間列内の密接な相関表現情報を利用する。 トレーニング済みのマスク付きオートエンコーダモデルを利用することで、MultiMAEDERは単純で簡単な微調整によって実現される。 マルチモーダル入力シーケンスに対する6つの融合戦略を最適化することにより、MultiMAE-DERの性能を向上させる。 これらの戦略は、空間的・時間的・時空間的・時空間的な領域間データ内の動的特徴相関に対処する。 動的感情認識のための最先端のマルチモーダル教師付き学習モデルと比較して、MultiMAE-DERは、RAVDESSデータセットでは4.41%、CREMADでは2.06%の重み付き平均リコール(WAR)を強化する。 さらに、マルチモーダル自己教師型学習の最先端モデルと比較すると、MultiMAE-DERはIEMOCAPデータセット上で1.86%高いWARを達成する。

This paper presents a novel approach to processing multimodal data for dynamic emotion recognition, named as the Multimodal Masked Autoencoder for Dynamic Emotion Recognition (MultiMAE-DER). The MultiMAE-DER leverages the closely correlated representation information within spatiotemporal sequences across visual and audio modalities. By utilizing a pre-trained masked autoencoder model, the MultiMAEDER is accomplished through simple, straightforward finetuning. The performance of the MultiMAE-DER is enhanced by optimizing six fusion strategies for multimodal input sequences. These strategies address dynamic feature correlations within cross-domain data across spatial, temporal, and spatiotemporal sequences. In comparison to state-of-the-art multimodal supervised learning models for dynamic emotion recognition, MultiMAE-DER enhances the weighted average recall (WAR) by 4.41% on the RAVDESS dataset and by 2.06% on the CREMAD. Furthermore, when compared with the state-of-the-art model of multimodal self-supervised learning, MultiMAE-DER achieves a 1.86% higher WAR on the IEMOCAP dataset.
翻訳日:2024-05-17 18:25:33 公開日:2024-05-16
# 動的データセットの近似近傍探索に関する研究

Approximate Nearest Neighbour Search on Dynamic Datasets: An Investigation ( http://arxiv.org/abs/2404.19284v2 )

ライセンス: Link先を確認
Ben Harwood, Amir Dezfouli, Iadine Chades, Conrad Sanderson, (参考訳) 近似k-Nearest Neighbour (ANN) 法は情報マイニングや大規模高次元データセットでの機械学習支援によく用いられる。 ANN法は通常、検索の高速化に使用されるインデックス構造が異なるため、様々なリコール/実行時のトレードオフ点が生じる。 静的なデータセットを持つアプリケーションでは、ランタイム制約とデータセットプロパティを使用して、適切な操作特性を持つANNメソッドを経験的に選択することができる。 しかし、オンラインの頻繁な変更(新しいサンプルの追加など)の対象となる動的データセットを持つアプリケーションでは、どのANNメソッドが最も適しているかについては、現時点では合意が得られていない。 従来の評価手法では、インデックス構造を更新する際の計算コストや、インデックス更新の頻度やサイズを考慮していない。 これを解決するために、これらの考慮を考慮しつつ、2つの主要なアプリケーション(オンラインデータ収集とオンライン特徴学習)で5つの人気のあるANN手法を実証的に評価する。 100万のサンプルを持つSIFT1Mデータセットと10億のサンプルを持つDEEP1Bデータセットから派生した2つの動的データセットが使用されている。 その結果,k-d木法は,単純なベースライン探索法よりも遅いため,動的データセットには適さないことがわかった。 オンラインデータ収集において、階層ナビゲート可能な小型世界グラフ法は、幅広いリコールレートでベースラインを一貫したスピードアップを達成する。 オンライン機能学習において、スケーラブルなNearest Neighboursメソッドは75%未満のリコール率のベースラインよりも高速である。

Approximate k-Nearest Neighbour (ANN) methods are often used for mining information and aiding machine learning on large scale high-dimensional datasets. ANN methods typically differ in the index structure used for accelerating searches, resulting in various recall/runtime trade-off points. For applications with static datasets, runtime constraints and dataset properties can be used to empirically select an ANN method with suitable operating characteristics. However, for applications with dynamic datasets, which are subject to frequent online changes (like addition of new samples), there is currently no consensus as to which ANN methods are most suitable. Traditional evaluation approaches do not consider the computational costs of updating the index structure, as well as the frequency and size of index updates. To address this, we empirically evaluate 5 popular ANN methods on two main applications (online data collection and online feature learning) while taking into account these considerations. Two dynamic datasets are used, derived from the SIFT1M dataset with 1 million samples and the DEEP1B dataset with 1 billion samples. The results indicate that the often used k-d trees method is not suitable on dynamic datasets as it is slower than a straightforward baseline exhaustive search method. For online data collection, the Hierarchical Navigable Small World Graphs method achieves a consistent speedup over baseline across a wide range of recall rates. For online feature learning, the Scalable Nearest Neighbours method is faster than baseline for recall rates below 75%.
翻訳日:2024-05-17 18:25:33 公開日:2024-05-16
# UCBによる多目的強化学習のためのユーティリティ関数探索

UCB-driven Utility Function Search for Multi-objective Reinforcement Learning ( http://arxiv.org/abs/2405.00410v2 )

ライセンス: Link先を確認
Yucheng Shi, Alexandros Agapitos, David Lynch, Giorgio Cruciata, Cengis Hasan, Hao Wang, Yayu Yao, Aleksandar Milenovic, (参考訳) MORL(Multi-objective Reinforcement Learning)エージェントでは、複数の、おそらく矛盾する、目的間のトレードオフを最適化する。 分解に基づくMORLは、多目的問題を個別の単目的問題に分解し、Paretoのポリシーを近似する。 重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。 本稿では,学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。 提案手法は,無作為種子間でのMujocoベンチマーク問題において,様々なMORLベースラインよりも優れた性能を示す。 コードは、https://github.com/SYCAMORE-1/ucb-MOPPO.comで公開されている。

In Multi-objective Reinforcement Learning (MORL) agents are tasked with optimising decision-making behaviours that trade-off between multiple, possibly conflicting, objectives. MORL based on decomposition is a family of solution methods that employ a number of utility functions to decompose the multi-objective problem into individual single-objective problems solved simultaneously in order to approximate a Pareto front of policies. We focus on the case of linear utility functions parameterised by weight vectors w. We introduce a method based on Upper Confidence Bound to efficiently search for the most promising weight vectors during different stages of the learning process, with the aim of maximising the hypervolume of the resulting Pareto front. The proposed method is shown to outperform various MORL baselines on Mujoco benchmark problems across different random seeds. The code is online at: https://github.com/SYCAMORE-1/ucb-MOPPO.
翻訳日:2024-05-17 18:15:48 公開日:2024-05-16
# GraCo: 粒度制御可能なインタラクティブセグメンテーション

GraCo: Granularity-Controllable Interactive Segmentation ( http://arxiv.org/abs/2405.00587v2 )

ライセンス: Link先を確認
Yian Zhao, Kehan Li, Zesen Cheng, Pengchong Qiao, Xiawu Zheng, Rongrong Ji, Chang Liu, Li Yuan, Jie Chen, (参考訳) インタラクティブセグメンテーション(IS)は、ユーザ入力に応じて画像内の特定のオブジェクトまたは部品をセグメント化する。 現在のISパイプラインは、単一粒度出力と多粒度出力の2つのカテゴリに分類される。 後者は、前者に存在する空間的あいまいさを軽減することを目的としている。 しかし、多粒度出力パイプラインは、限られた相互作用の柔軟性に悩まされ、冗長な結果を生み出す。 本研究では,グラニュラリティ・制御可能な対話型セグメンテーション(GraCo)を導入する。これは,入力に追加パラメータを導入することで,予測粒度を正確に制御できる新しいアプローチである。 これにより、インタラクティブシステムのカスタマイズが促進され、あいまいさを解消しながら冗長性を排除できる。 にもかかわらず、マルチグラニュラリティマスクのアノテートと粒度アノテーション付きデータセットの欠如は、モデルが出力粒度を制御するために必要なガイダンスを取得するのを困難にしている。 この問題に対処するために,事前学習したISモデルのセマンティック性を活かした任意のグラニュラリティマスク生成器を設計し,手書きのアノテーションを必要とせず,多量のマスク-グラニュラリティペアを自動生成する。 これらのペアに基づいて、ISモデルに粒度制御性を効率的に付与する粒度制御可能な学習戦略を提案する。 オブジェクトと部分レベルの複雑なシナリオに関する大規模な実験は、GraCoが以前の方法よりも大きな利点を持っていることを実証しています。 これはGraCoがフレキシブルなアノテーションツールになり、多様なセグメンテーションシナリオに適応できる可能性を強調している。 プロジェクトページ:https://zhao-yian.github.io/GraCo。

Interactive Segmentation (IS) segments specific objects or parts in the image according to user input. Current IS pipelines fall into two categories: single-granularity output and multi-granularity output. The latter aims to alleviate the spatial ambiguity present in the former. However, the multi-granularity output pipeline suffers from limited interaction flexibility and produces redundant results. In this work, we introduce Granularity-Controllable Interactive Segmentation (GraCo), a novel approach that allows precise control of prediction granularity by introducing additional parameters to input. This enhances the customization of the interactive system and eliminates redundancy while resolving ambiguity. Nevertheless, the exorbitant cost of annotating multi-granularity masks and the lack of available datasets with granularity annotations make it difficult for models to acquire the necessary guidance to control output granularity. To address this problem, we design an any-granularity mask generator that exploits the semantic property of the pre-trained IS model to automatically generate abundant mask-granularity pairs without requiring additional manual annotation. Based on these pairs, we propose a granularity-controllable learning strategy that efficiently imparts the granularity controllability to the IS model. Extensive experiments on intricate scenarios at object and part levels demonstrate that our GraCo has significant advantages over previous methods. This highlights the potential of GraCo to be a flexible annotation tool, capable of adapting to diverse segmentation scenarios. The project page: https://zhao-yian.github.io/GraCo.
翻訳日:2024-05-17 18:15:48 公開日:2024-05-16
# 不変リスク最小化は全変動モデルである

Invariant Risk Minimization Is A Total Variation Model ( http://arxiv.org/abs/2405.01389v4 )

ライセンス: Link先を確認
Zhao-Rong Lai, Weiwen Wang, (参考訳) 不変リスク最小化(英: Invariant risk minimization、IRM)とは、機械学習において、不変の機能を様々な環境に一般化する手法である。 関連するほとんどの研究は、新しいIRM設定や新しいアプリケーションシナリオに焦点を当てているが、IRMの数学的本質は、まだ適切に説明されていない。 IRM は本質的に分類器変数に関する学習リスクの $L^2$ norm (TV-$\ell_2$) に基づく総変量であることを示す。 さらに,TV-$\ell_1$モデルに基づく新しいIRMフレームワークを提案する。 学習リスクとして使用できる関数のクラスを拡大するだけでなく、コアレア式に基づいたデノナイズおよび不変の特徴保存における堅牢な性能も備えている。 IRM-TV-$\ell_1$のアウト・オブ・ディストリビューションの一般化の要求についても述べる。 実験結果から,提案フレームワークは,いくつかのベンチマーク機械学習シナリオにおいて,競合性能を実現することが示された。

Invariant risk minimization (IRM) is an arising approach to generalize invariant features to different environments in machine learning. While most related works focus on new IRM settings or new application scenarios, the mathematical essence of IRM remains to be properly explained. We verify that IRM is essentially a total variation based on $L^2$ norm (TV-$\ell_2$) of the learning risk with respect to the classifier variable. Moreover, we propose a novel IRM framework based on the TV-$\ell_1$ model. It not only expands the classes of functions that can be used as the learning risk, but also has robust performance in denoising and invariant feature preservation based on the coarea formula. We also illustrate some requirements for IRM-TV-$\ell_1$ to achieve out-of-distribution generalization. Experimental results show that the proposed framework achieves competitive performance in several benchmark machine learning scenarios.
翻訳日:2024-05-17 18:15:48 公開日:2024-05-16
# PVF (Parameter Vulnerability Factor): パラメータ破壊に対するAI脆弱性の定量的測定

PVF (Parameter Vulnerability Factor): A Quantitative Metric Measuring AI Vulnerability Against Parameter Corruptions ( http://arxiv.org/abs/2405.01741v2 )

ライセンス: Link先を確認
Xun Jiao, Fred Lin, Harish D. Dixit, Joel Coburn, Abhinav Pandey, Han Wang, Venkat Ramesh, Jianyu Huang, Wang Xu, Daniel Moore, Sriram Sankar, (参考訳) AIシステムの信頼性は、デプロイメントの成功とAI技術の広範な採用に対する基本的な懸念である。 残念ながら、AIハードウェアシステムのエスカレートする複雑さとヘテロジニティは、モデルパラメータを破損させる可能性のあるハードウェアの欠陥(例えばビットフリップ)の影響をますます受けやすくする。 これがAI推論/サービス中に発生する場合、ユーザにとって誤ったあるいは劣化したモデルアウトプットが発生し、最終的にはAIサービスの品質と信頼性に影響を与える可能性がある。 モデル内のさまざまなコンポーネント(モジュール、レイヤなど)が、パラメータの破損に対して、どのようにさまざまな脆弱性を示すのか? この問題を体系的に解決するために,コンピュータアーキテクチャコミュニティにおいて,AIモデル脆弱性のパラメータ破損に対する定量化を目標とした,新しい量的尺度であるパラメータ脆弱性係数(PVF)を提案する。 モデルパラメータのPVFを、そのモデルパラメータの破損が誤った出力をもたらす確率として定義する。 本稿では,推論中にPVFを3種類のタスク/モデルに適用するためのいくつかのユースケースについて述べる。 PVFは、脆弱なAIパラメータコンポーネントを保護されたハードウェアモジュールにマッピングするなど、フォールトプロテクションとパフォーマンス/効率のトレードオフのバランスにおいて、AIハードウェアデザイナに重要な洞察を提供することができる。 PVFメトリックは任意のAIモデルに適用可能であり、AI脆弱性/レジリエンス評価プラクティスの統合と標準化を支援する可能性がある。

Reliability of AI systems is a fundamental concern for the successful deployment and widespread adoption of AI technologies. Unfortunately, the escalating complexity and heterogeneity of AI hardware systems make them increasingly susceptible to hardware faults (e.g., bit flips) that can potentially corrupt model parameters. When this occurs during AI inference/servicing, it can potentially lead to incorrect or degraded model output for users, ultimately affecting the quality and reliability of AI services. In light of the escalating threat, it is crucial to address key questions: How vulnerable are AI models to parameter corruptions, and how do different components (such as modules, layers) of the models exhibit varying vulnerabilities to parameter corruptions? To systematically address this question, we propose a novel quantitative metric, Parameter Vulnerability Factor (PVF), inspired by architectural vulnerability factor (AVF) in computer architecture community, aiming to standardize the quantification of AI model vulnerability against parameter corruptions. We define a model parameter's PVF as the probability that a corruption in that particular model parameter will result in an incorrect output. In this paper, we present several use cases on applying PVF to three types of tasks/models during inference -- recommendation (DLRM), vision classification (CNN), and text classification (BERT), while presenting an in-depth vulnerability analysis on DLRM. PVF can provide pivotal insights to AI hardware designers in balancing the tradeoff between fault protection and performance/efficiency such as mapping vulnerable AI parameter components to well-protected hardware modules. PVF metric is applicable to any AI model and has a potential to help unify and standardize AI vulnerability/resilience evaluation practice.
翻訳日:2024-05-17 18:15:48 公開日:2024-05-16
# EiG-Search: 線形時間でのGNN説明のためのエッジ誘発サブグラフの生成

EiG-Search: Generating Edge-Induced Subgraphs for GNN Explanation in Linear Time ( http://arxiv.org/abs/2405.01762v2 )

ライセンス: Link先を確認
Shengyao Lu, Bang Liu, Keith G. Mills, Jiao He, Di Niu, (参考訳) グラフニューラルネットワーク(GNN)の予測を理解し,説明することは,安全性と信頼性を高める上で重要である。 字幕レベルの説明は直感的なアピールのために注目を集めている。 しかし、既存の部分グラフレベルの説明者は、複雑な探索プロセスのため、GNNの説明において効率上の課題に直面している。 重要な課題は、透明性を確保しながら、直感性と効率性のバランスを見つけることです。 さらに、これらの説明者は、通常ノードによってサブグラフを誘導し、サブグラフレベルの説明に直観的でない非連結ノードを導入するか、多くの重要なサブグラフ構造を省略する。 本稿では,エッジによる部分グラフ説明の誘導が,他の部分グラフ推論手法よりも包括的であることを明らかにする。 また、異なるデータインスタンスが異なる重要なサブ構造を含む可能性があるため、各データインスタンスのサブグラフ説明サイズを決定する必要があることも強調します。 これらの考察に基づいて,EeG-Searchというトレーニング不要のアプローチを導入する。 我々は、エッジ誘導サブグラフに対して効率的な線形時間探索アルゴリズムを用い、エッジを勾配に基づく重要度でランク付けする。 合計7つのデータセットに対して広範な実験を行い、その優れた性能と、主要なベースラインに対して定量的かつ定性的に効率を示す。

Understanding and explaining the predictions of Graph Neural Networks (GNNs), is crucial for enhancing their safety and trustworthiness. Subgraph-level explanations are gaining attention for their intuitive appeal. However, most existing subgraph-level explainers face efficiency challenges in explaining GNNs due to complex search processes. The key challenge is to find a balance between intuitiveness and efficiency while ensuring transparency. Additionally, these explainers usually induce subgraphs by nodes, which may introduce less-intuitive disconnected nodes in the subgraph-level explanations or omit many important subgraph structures. In this paper, we reveal that inducing subgraph explanations by edges is more comprehensive than other subgraph inducing techniques. We also emphasize the need of determining the subgraph explanation size for each data instance, as different data instances may involve different important substructures. Building upon these considerations, we introduce a training-free approach, named EiG-Search. We employ an efficient linear-time search algorithm over the edge-induced subgraphs, where the edges are ranked by an enhanced gradient-based importance. We conduct extensive experiments on a total of seven datasets, demonstrating its superior performance and efficiency both quantitatively and qualitatively over the leading baselines.
翻訳日:2024-05-17 18:15:48 公開日:2024-05-16
# オープンソースコミュニティにおけるコミット権の獲得方法

How to Gain Commit Rights in Modern Top Open Source Communities? ( http://arxiv.org/abs/2405.01803v3 )

ライセンス: Link先を確認
Xin Tan, Yan Gong, Geyu Huang, Haohua Wu, Li Zhang, (参考訳) オープンソースソフトウェア(OSS)プロジェクトの成功は、様々なコミュニティの役割からの自発的な貢献に依存しており、コミッタとなることは、信頼とより高い特権の獲得を意味する。 現状研究はコミッターになるための要件に重点を置いているが、そのほとんどはインタビューやいくつかの仮説に基づいており、コミッターの資格に関する包括的理解を欠いている。 これらの政策のテーマ分析を通じて、プロジェクト、コミュニケーション、長期参加など9つのテーマに分類される26のコードからなるコミッタ資格の分類を構築した。 また、異なるOSSコミュニティガバナンスモデルで強調されるコミッタ資格のバリエーションについても強調する。 例えば、コアメンテナのモデルバリュープロジェクトの理解に追従するプロジェクトや、企業が支援するモデルに追従するプロジェクトは、ユーザの課題解決に重点を置いている。 そこで,本研究では,8つのメトリクスセットを提案し,2つのOSSプロジェクトのサバイバル分析を行い,これらの資格が実際にどのように実装されているかを理解する。 参加時間が経過するとコミット権獲得の可能性が低下し,コミュニティの方針と概ね一致していることが判明した。 高品質なコードを提出し、積極的にコードレビューを行い、関連するプロジェクトへの広範なコントリビューションを行う開発者は、コミット権限を与えられる傾向にある。 しかし、正確に整合しない資格もあり、適切に評価されていない資格もある。 この研究は、現代のOSSコミュニティにおける信頼確立の理解に寄与し、コミット権の配分を改善するコミュニティを支援し、OSS参加を通じて自己実現を実現する開発者を支援する。

The success of open source software (OSS) projects relies on voluntary contributions from various community roles.Being a committer signifies gaining trust and higher privileges. Substantial studies have focused on the requirements of becoming a committer, but most of them are based on interviews or several hypotheses, lacking a comprehensive understanding of committers' qualifications.We explore both the policies and practical implementations of committer qualifications in modern top OSS communities. Through a thematic analysis of these policies, we construct a taxonomy of committer qualifications, consisting of 26 codes categorized into nine themes, including Personnel-related to Project, Communication, and Long-term Participation. We also highlight the variations in committer qualifications emphasized in different OSS community governance models. For example, projects following the core maintainer model value project comprehension, while projects following the company-backed model place significant emphasis on user issue resolution. Then, we propose eight sets of metrics and perform survival analysis on two representative OSS projects to understand how these qualifications are implemented in practice. We find that the probability of gaining commit rights decreases as participation time passes.The selection criteria in practice are generally consistent with the community policies. Developers who submit high-quality code, actively engage in code review, and make extensive contributions to related projects are more likely to be granted commit rights. However, there are some qualifications that do not align precisely, and some are not adequately evaluated. This study contributes to the understanding of trust establishment in modern top OSS communities, assists communities in better allocating commit rights, and supports developers in achieving self-actualization through OSS participation.
翻訳日:2024-05-17 18:15:48 公開日:2024-05-16
# PhilHumans: 個人の健康のために機械学習をベンチマークする

PhilHumans: Benchmarking Machine Learning for Personal Health ( http://arxiv.org/abs/2405.02770v2 )

ライセンス: Link先を確認
Vadim Liventsev, Vivek Kumar, Allmin Pradhap Singh Susaiyah, Zixiu Wu, Ivan Rodin, Asfand Yaar, Simone Balloccu, Marharyta Beraziuk, Sebastiano Battiato, Giovanni Maria Farinella, Aki Härmä, Rim Helaoui, Milan Petkovic, Diego Reforgiato Recupero, Ehud Reiter, Daniele Riboni, Raymond Sterling, (参考訳) 医療における機械学習の利用は、患者の成果を改善し、医療のリーチと手頃な価格を拡大する可能性がある。 他の応用分野の歴史は、インテリジェントシステムの開発には強力なベンチマークが不可欠であることを示している。 我々は、HUman-Machine Natural Interaction(PhilHumans)を活用し、さまざまなヘルスケア設定、トークセラピー、ダイエットコーチング、緊急ケア、集中治療、産科ソノグラフィー、さらにはアクション予測、タイムリーモデリング、時間モデリング、インサイトマイニング、言語モデリング、コンピュータビジョン、強化学習、プログラム合成など、さまざまな学習設定を含む、機械学習のための総合的なベンチマークスイートであるPhilHumansを紹介します。

The use of machine learning in Healthcare has the potential to improve patient outcomes as well as broaden the reach and affordability of Healthcare. The history of other application areas indicates that strong benchmarks are essential for the development of intelligent systems. We present Personal Health Interfaces Leveraging HUman-MAchine Natural interactions (PhilHumans), a holistic suite of benchmarks for machine learning across different Healthcare settings - talk therapy, diet coaching, emergency care, intensive care, obstetric sonography - as well as different learning settings, such as action anticipation, timeseries modeling, insight mining, language modeling, computer vision, reinforcement learning and program synthesis
翻訳日:2024-05-17 18:15:48 公開日:2024-05-16
# 一般化コーシーシュワルツ分岐とその応用

Generalized Cauchy-Schwarz Divergence and Its Deep Learning Applications ( http://arxiv.org/abs/2405.04061v2 )

ライセンス: Link先を確認
Mingfei Lu, Shujian Yu, Robert Jenssen, Badong Chen, (参考訳) 多様性測定は機械学習において中心的な役割を担い、ディープラーニングにおいてますます不可欠なものになりつつある。 しかし、複数の(2つ以上の)分布に対する有効かつ効率的な分散尺度は、ほとんど研究されていない。 これは、複数のディストリビューションの同時管理が避けられず、必要不可欠な領域において、特に重要になる。 例えばクラスタリング、マルチソースドメイン適応、一般化、マルチビュー学習などがある。 任意の2つの分布間の対距離の平均を計算することは、複数の分布間の全ばらつきを定量化する共通の方法であるが、このアプローチは単純ではなく、重要な計算資源を必要とすることを認識することが重要である。 本研究では,古典的なコーシー=シュワルツ発散にインスパイアされた一般コーシー=シュヴァルツ発散(GCSD)と呼ばれる複数の分布に対する新しい発散尺度を導入する。 さらに、カーネル密度推定に基づくクローズドフォームサンプル推定器を提供し、様々な機械学習アプリケーションで簡単に利用できるようにした。 最後に,提案したGCSDを,ディープラーニングベースのクラスタリングとマルチソースドメイン適応の2つの課題に応用する。 実験結果は、両方のタスクにおけるGCSDの印象的なパフォーマンスを示し、複数の分布の定量化に関わる機械学習分野への応用の可能性を強調している。

Divergence measures play a central role in machine learning and become increasingly essential in deep learning. However, valid and computationally efficient divergence measures for multiple (more than two) distributions are scarcely investigated. This becomes particularly crucial in areas where the simultaneous management of multiple distributions is both unavoidable and essential. Examples include clustering, multi-source domain adaptation or generalization, and multi-view learning, among others. Although calculating the mean of pairwise distances between any two distributions serves as a common way to quantify the total divergence among multiple distributions, it is crucial to acknowledge that this approach is not straightforward and requires significant computational resources. In this study, we introduce a new divergence measure for multiple distributions named the generalized Cauchy-Schwarz divergence (GCSD), which is inspired by the classic Cauchy-Schwarz divergence. Additionally, we provide a closed-form sample estimator based on kernel density estimation, making it convenient and straightforward to use in various machine-learning applications. Finally, we apply the proposed GCSD to two challenging machine learning tasks, namely deep learning-based clustering and the problem of multi-source domain adaptation. The experimental results showcase the impressive performance of GCSD in both tasks, highlighting its potential application in machine-learning areas that involve quantifying multiple distributions.
翻訳日:2024-05-17 18:15:48 公開日:2024-05-16
# FlashBack:ロングコンテキスト推論のための効率的な検索言語モデリング

FlashBack:Efficient Retrieval-Augmented Language Modeling for Long Context Inference ( http://arxiv.org/abs/2405.04065v3 )

ライセンス: Link先を確認
Runheng Liu, Xingchen Xiao, Heyan Huang, Zewen Chi, Zhijing Wu, (参考訳) 大規模言語モデル(LLM)を外部コーパスから関連文書と統合することにより,LLMが事前学習コーパスの範囲を超えて情報を生成できることが証明された方法である。 検索したコンテンツを利用する以前の作業は、単に入力にプリプロンプトするだけで高いランタイム問題が発生し、キーバリュー(KV)キャッシュを効率的に使用できないため、LLMの推論効率が低下する。 本稿では、Low-Rank Adaptionによる微調整後の良好な性能を維持しつつ、付加コンテキストパターンによるALMの推論効率を向上させるために設計されたモジュラーALMであるFlashBackを提案する。 FlashBackは検索したドキュメントをコンテキストの最後に付加し、KVキャッシュをプレプレッディングする代わりに効率的に活用する。 そしてマーキングトークンを2つの特別なプロンプトトークンとして導入し、微調整中に追加コンテキストの境界をマークする。 ジェネレーション品質のテスト実験は、FlashBackがパープレキシティにおいて十分なジェネレーション品質を維持することができることを示している。 FlashBackの推論速度は、ランタイムテストの7B LLM(Llama 2)で予想されるものよりも最大4\times$高速である。 不要な再計算を回避し、推論速度を著しく速くすることで進歩を示し、この高効率化は推論コストを大幅に削減する。

Retrieval-Augmented Language Modeling (RALM) by integrating large language models (LLM) with relevant documents from an external corpus is a proven method for enabling the LLM to generate information beyond the scope of its pre-training corpus. Previous work utilizing retrieved content by simply prepending it to the input poses a high runtime issue, which degrades the inference efficiency of the LLMs because they fail to use the Key-Value (KV) cache efficiently. In this paper, we propose FlashBack, a modular RALM designed to improve the inference efficiency of RALM with appending context pattern while maintaining decent performance after fine-tuning by Low-Rank Adaption. FlashBack appends retrieved documents at the end of the context for efficiently utilizing the KV cache instead of prepending them. And we introduce Marking Token as two special prompt tokens for marking the boundary of the appending context during fine-tuning. Our experiments on testing generation quality show that FlashBack can remain decent generation quality in perplexity. And the inference speed of FlashBack is up to $4\times$ faster than the prepending counterpart on a 7B LLM (Llama 2) in the runtime test. Via bypassing unnecessary re-computation, it demonstrates an advancement by achieving significantly faster inference speed, and this heightened efficiency will substantially reduce inferential cost.
翻訳日:2024-05-17 18:15:48 公開日:2024-05-16
# グラフにおける自己監督タスクの相関関係の探索

Exploring Correlations of Self-Supervised Tasks for Graphs ( http://arxiv.org/abs/2405.04245v2 )

ライセンス: Link先を確認
Taoran Fang, Wei Zhou, Yifei Sun, Kaiqiao Han, Lvbin Ma, Yang Yang, (参考訳) グラフによる自己教師型学習は、ラベル付きデータにアクセスせずに情報表現を訓練する研究の急増を引き起こした。 しかし、グラフ自己教師型学習の理解は依然として限られており、様々な自己教師型タスク間の固有の関係は未だ解明されていない。 本研究の目的は,タスク相関に基づくグラフ自己教師型学習の新たな理解を提供することである。 具体的には、ある特定のタスクによって訓練された他のタスクにおける表現のパフォーマンスを評価し、タスク相関を定量化するための相関値を定義する。 このプロセスを通じて、様々な自己監督タスク間のタスク相関を明らかにし、下流のパフォーマンスと密接な関係を持つ表現能力を測定する。 各種データセット間でのタスク間の相関値を解析することにより、タスク相関の複雑さと既存のマルチタスク学習手法の限界を明らかにする。 より有能な表現を得るために,タスク相関を説明するグラフタスク相関モデリング(GraphTCM)を提案する。 実験結果から,本手法は様々な下流タスクにおいて既存手法よりも優れていたことが示唆された。

Graph self-supervised learning has sparked a research surge in training informative representations without accessing any labeled data. However, our understanding of graph self-supervised learning remains limited, and the inherent relationships between various self-supervised tasks are still unexplored. Our paper aims to provide a fresh understanding of graph self-supervised learning based on task correlations. Specifically, we evaluate the performance of the representations trained by one specific task on other tasks and define correlation values to quantify task correlations. Through this process, we unveil the task correlations between various self-supervised tasks and can measure their expressive capabilities, which are closely related to downstream performance. By analyzing the correlation values between tasks across various datasets, we reveal the complexity of task correlations and the limitations of existing multi-task learning methods. To obtain more capable representations, we propose Graph Task Correlation Modeling (GraphTCM) to illustrate the task correlations and utilize it to enhance graph self-supervised training. The experimental results indicate that our method significantly outperforms existing methods across various downstream tasks.
翻訳日:2024-05-17 18:15:48 公開日:2024-05-16
# DeepSeek-V2: 強力な、経済的、効率的混合型言語モデル

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model ( http://arxiv.org/abs/2405.04434v3 )

ライセンス: Link先を確認
DeepSeek-AI, (参考訳) We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。 合計パラメータは236Bで、そのうち21Bはトークンごとに活性化され、128Kトークンのコンテキスト長をサポートする。 DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。 MLAはキーバリュー(KV)キャッシュを潜在ベクトルに大幅に圧縮することで効率的な推論を保証する一方、DeepSeekMoEはスパース計算によって経済的コストで強力なモデルをトレーニングすることができる。 DeepSeek-V2はDeepSeek 67Bと比較して大幅にパフォーマンスが向上し、トレーニングコストの42.5%を削減し、KVキャッシュを93.3%削減し、最大生成スループットを5.76倍に向上させた。 我々は8.1Tトークンからなる高品質でマルチソースなコーパスでDeepSeek-V2を事前訓練し、その可能性を完全に解放するために、Supervised Fine-Tuning (SFT)とReinforcement Learning (RL)を実行した。 評価結果によると、21Bのアクティベートパラメータしか持たないDeepSeek-V2とそのチャットバージョンは、オープンソースモデルの中でも最高レベルのパフォーマンスを実現している。

We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference. It comprises 236B total parameters, of which 21B are activated for each token, and supports a context length of 128K tokens. DeepSeek-V2 adopts innovative architectures including Multi-head Latent Attention (MLA) and DeepSeekMoE. MLA guarantees efficient inference through significantly compressing the Key-Value (KV) cache into a latent vector, while DeepSeekMoE enables training strong models at an economical cost through sparse computation. Compared with DeepSeek 67B, DeepSeek-V2 achieves significantly stronger performance, and meanwhile saves 42.5% of training costs, reduces the KV cache by 93.3%, and boosts the maximum generation throughput to 5.76 times. We pretrain DeepSeek-V2 on a high-quality and multi-source corpus consisting of 8.1T tokens, and further perform Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) to fully unlock its potential. Evaluation results show that, even with only 21B activated parameters, DeepSeek-V2 and its chat versions still achieve top-tier performance among open-source models.
翻訳日:2024-05-17 18:15:48 公開日:2024-05-16
# 正規化ガウスカーネルマルチビューk平均クラスタリング

Rectified Gaussian kernel multi-view k-means clustering ( http://arxiv.org/abs/2405.05619v3 )

ライセンス: Link先を確認
Kristina P. Sinaga, (参考訳) 本稿では,マルチビューデータを扱うために,MVKM(Multi-view k-means)アルゴリズムの2つの新しい変種を示す。 一般的な考え方は、$h$-th view data point $x_i^h$ と $h$-th view clustercenter $a_k^h$ の距離を、セントロイドベースの異なるアプローチで概説することである。 提案手法は他の手法とは異なり,ガウスカーネルの空間におけるユークリッドノルム(英語版)を用いて類似性を計算することで,マルチビューデータ(MVKM-ED)を学習する。 安定化パラメータ$p$とカーネル係数$\beta^h$を同時に調整することにより、ユークリッドノルムにおけるガウスカーネルベース重み付き距離の圧縮はMVKM-EDの感度を低下させる。 そこで本稿では,ガウスカーネルマルチビューk-means (GKMVKM) クラスタリングアルゴリズムについて述べる。 5つの実世界のマルチビューデータの数値評価は,提案したMVKM-EDおよびGKMVKMアプローチの堅牢性と効率を示す。

In this paper, we show two new variants of multi-view k-means (MVKM) algorithms to address multi-view data. The general idea is to outline the distance between $h$-th view data points $x_i^h$ and $h$-th view cluster centers $a_k^h$ in a different manner of centroid-based approach. Unlike other methods, our proposed methods learn the multi-view data by calculating the similarity using Euclidean norm in the space of Gaussian-kernel, namely as multi-view k-means with exponent distance (MVKM-ED). By simultaneously aligning the stabilizer parameter $p$ and kernel coefficients $\beta^h$, the compression of Gaussian-kernel based weighted distance in Euclidean norm reduce the sensitivity of MVKM-ED. To this end, this paper designated as Gaussian-kernel multi-view k-means (GKMVKM) clustering algorithm. Numerical evaluation of five real-world multi-view data demonstrates the robustness and efficiency of our proposed MVKM-ED and GKMVKM approaches.
翻訳日:2024-05-17 18:15:48 公開日:2024-05-16
# PCLMix:Pixel-Level Contrastive LearningとDynamic Mix Augmentationによる医用画像分割の監視

PCLMix: Weakly Supervised Medical Image Segmentation via Pixel-Level Contrastive Learning and Dynamic Mix Augmentation ( http://arxiv.org/abs/2405.06288v2 )

ライセンス: Link先を確認
Yu Lei, Haolun Luo, Lituan Wang, Zhenwei Zhang, Lei Zhang, (参考訳) 弱監督型医用画像分割では、構造的事前の欠如、階級的特徴分布の離散性が課題となる。 そこで本研究では,動的混合強化,画素レベルのコントラスト学習,整合性正規化戦略を含む医用画像分割フレームワークPCLMixを提案する。 具体的には、PCLMixは不均一なデュアルデコーダのバックボーン上に構築されており、トレーニング中に動的混合強化の戦略を通じて構造的事前の欠如に対処する。 クラス特徴の離散分布に対処するため、PCLMixは予測不確実性に基づく画素レベルのコントラスト学習を導入し、クラス間の差分とクラス間の一貫性を識別するモデルの能力を効果的に強化する。 さらに、セグメント化一貫性とロバスト性を強化するために、PCLMixは二重整合正則化のための補助デコーダを採用している。 推論フェーズでは、補助デコーダを落とし、計算複雑性が増大しない。 ACDCデータセットの大規模な実験により、PCLMixは局所的な監視信号をグローバルスケールに適切に伝播し、弱教師付きセグメンテーションと完全教師付きセグメンテーションのギャップをさらに狭めることが示されている。 私たちのコードはhttps://github.com/Torpedo2648/PCLMix.comで公開されています。

In weakly supervised medical image segmentation, the absence of structural priors and the discreteness of class feature distribution present a challenge, i.e., how to accurately propagate supervision signals from local to global regions without excessively spreading them to other irrelevant regions? To address this, we propose a novel weakly supervised medical image segmentation framework named PCLMix, comprising dynamic mix augmentation, pixel-level contrastive learning, and consistency regularization strategies. Specifically, PCLMix is built upon a heterogeneous dual-decoder backbone, addressing the absence of structural priors through a strategy of dynamic mix augmentation during training. To handle the discrete distribution of class features, PCLMix incorporates pixel-level contrastive learning based on prediction uncertainty, effectively enhancing the model's ability to differentiate inter-class pixel differences and intra-class consistency. Furthermore, to reinforce segmentation consistency and robustness, PCLMix employs an auxiliary decoder for dual consistency regularization. In the inference phase, the auxiliary decoder will be dropped and no computation complexity is increased. Extensive experiments on the ACDC dataset demonstrate that PCLMix appropriately propagates local supervision signals to the global scale, further narrowing the gap between weakly supervised and fully supervised segmentation methods. Our code is available at https://github.com/Torpedo2648/PCLMix.
翻訳日:2024-05-17 18:15:48 公開日:2024-05-16
# E2TP: Aspect Sentiment Tuple Predictionを改善したタプルプロンプト要素

E2TP: Element to Tuple Prompting Improves Aspect Sentiment Tuple Prediction ( http://arxiv.org/abs/2405.06454v2 )

ライセンス: Link先を確認
Mohammad Ghiasvand Mohammadkhani, Niloofar Ranjbar, Saeedeh Momtazi, (参考訳) 生成的アプローチはアスペクトベース知覚分析(ABSA)に大きな影響を与えており、かなりの注目を集めている。 しかし、既存の研究では、単一の要素をタプル予測に利用する利点を無視して、ターゲットテキストコンポーネントをモノリシックに予測することが多い。 本稿では,2段階アーキテクチャを用いたE2TP(Element to Tuple Prompting)を提案する。 前者のステップは単一の要素を予測することに焦点を当て、後者のステップは予測された要素を対応するタプルにマッピングすることでプロセスを完成させる。 E2TPは人間の問題解決にインスパイアされ、第1ステップの出力を第2ステップのガイドとして使用して、タスクを管理可能な部分に分割する。 この戦略では、トレーニングプロセスを容易にするために、E2TP($diet$)、E2TP($f_1$)、E2TP($f_2$)の3種類のパラダイムが設計されている。 データセット固有の実験以外にも、我々の論文はクロスドメインシナリオに対処し、このアプローチの有効性と一般化性を実証した。 各種ベンチマークの総合的な分析により,ほぼすべてのケースにおいて,E2TPが新たな最先端結果を達成することを示す。

Generative approaches have significantly influenced Aspect-Based Sentiment Analysis (ABSA), garnering considerable attention. However, existing studies often predict target text components monolithically, neglecting the benefits of utilizing single elements for tuple prediction. In this paper, we introduce Element to Tuple Prompting (E2TP), employing a two-step architecture. The former step focuses on predicting single elements, while the latter step completes the process by mapping these predicted elements to their corresponding tuples. E2TP is inspired by human problem-solving, breaking down tasks into manageable parts, using the first step's output as a guide in the second step. Within this strategy, three types of paradigms, namely E2TP($diet$), E2TP($f_1$), and E2TP($f_2$), are designed to facilitate the training process. Beyond dataset-specific experiments, our paper addresses cross-domain scenarios, demonstrating the effectiveness and generalizability of the approach. By conducting a comprehensive analysis on various benchmarks, we show that E2TP achieves new state-of-the-art results in nearly all cases.
翻訳日:2024-05-17 18:06:04 公開日:2024-05-16
# UAV安全性の確保:物体検出・追跡・距離推定による衝突回避のための視覚的・リアルタイムフレームワーク

Ensuring UAV Safety: A Vision-only and Real-time Framework for Collision Avoidance Through Object Detection, Tracking, and Distance Estimation ( http://arxiv.org/abs/2405.06749v2 )

ライセンス: Link先を確認
Vasileios Karampinis, Anastasios Arsenos, Orfeas Filippopoulos, Evangelos Petrongonas, Christos Skliros, Dimitrios Kollias, Stefanos Kollias, Athanasios Voulodimos, (参考訳) 過去20年間で、無人航空機(UAV)は軍用と民間の両方の領域で応用が拡大し、関心が高まりつつある。 効率性と衝突を正確に推定する非協調航空機の検出は、完全自律航空機の実現と高度空力(AAM)の促進に重要である。 本稿では,光学センサを用いた非協調航空車両の検出・追跡・距離推定のためのディープラーニングフレームワークを提案する。 この総合的なセンシングフレームワークを実装する際には、自律飛行車両が障害物を知覚し、移動できるようにするために、深度情報の提供が不可欠である。 本研究では,単眼カメラの入力のみを用いて,検出された空中物体の距離情報をリアルタイムで推定する手法を提案する。 Amazon Airborne Object Tracking (AOT) Datasetを使って、オブジェクト検出、トラッキング、深さ推定タスクのためにディープラーニングコンポーネントをトレーニングします。 物体検出器に深度推定モジュールを組み込んだ従来の手法とは対照的に,本手法は画像から画像への変換として問題を定式化する。 我々は、効率的でロバストな深さ推定のために、分離された軽量エンコーダデコーダネットワークを用いる。 簡単に言えば、物体検出モジュールは障害物を識別して位置決めし、障害物の動きを監視するトラッキングモジュールと距離を計算する深さ推定モジュールの両方にこの情報を伝達する。 提案手法は,空中物体追跡(AOT, Airborne Object Tracking)データセットで評価される。

In the last twenty years, unmanned aerial vehicles (UAVs) have garnered growing interest due to their expanding applications in both military and civilian domains. Detecting non-cooperative aerial vehicles with efficiency and estimating collisions accurately are pivotal for achieving fully autonomous aircraft and facilitating Advanced Air Mobility (AAM). This paper presents a deep-learning framework that utilizes optical sensors for the detection, tracking, and distance estimation of non-cooperative aerial vehicles. In implementing this comprehensive sensing framework, the availability of depth information is essential for enabling autonomous aerial vehicles to perceive and navigate around obstacles. In this work, we propose a method for estimating the distance information of a detected aerial object in real time using only the input of a monocular camera. In order to train our deep learning components for the object detection, tracking and depth estimation tasks we utilize the Amazon Airborne Object Tracking (AOT) Dataset. In contrast to previous approaches that integrate the depth estimation module into the object detector, our method formulates the problem as image-to-image translation. We employ a separate lightweight encoder-decoder network for efficient and robust depth estimation. In a nutshell, the object detection module identifies and localizes obstacles, conveying this information to both the tracking module for monitoring obstacle movement and the depth estimation module for calculating distances. Our approach is evaluated on the Airborne Object Tracking (AOT) dataset which is the largest (to the best of our knowledge) air-to-air airborne object dataset.
翻訳日:2024-05-17 18:06:04 公開日:2024-05-16
# 空対空物体検出におけるロバスト性向上とロバスト性評価のための共通故障

Common Corruptions for Enhancing and Evaluating Robustness in Air-to-Air Visual Object Detection ( http://arxiv.org/abs/2405.06765v2 )

ライセンス: Link先を確認
Anastasios Arsenos, Vasileios Karampinis, Evangelos Petrongonas, Christos Skliros, Dimitrios Kollias, Stefanos Kollias, Athanasios Voulodimos, (参考訳) 完全な自律飛行を達成するための主要な障壁は、自律飛行のナビゲーションである。 非協調的な交通を管理することは、この問題において最も重要な課題である。 非協調的トラフィックを扱うための最も効率的な戦略は、ディープラーニングモデルによる単眼ビデオ処理に基づいている。 本研究は,環境条件やハードウェア条件から生じるデータ破損が,これらの手法の有効性に与える影響を調べることによって,視覚に基づく深層学習航空機の検出・追跡に寄与する。 より具体的には、実際の飛行状況を考慮したカメラ入力の一般的な汚職タイプを7ドル(約7,800円)で設計しました。 これらの破損を空中物体追跡(AOT)データセットに適用することにより、空中物体検出のための最初のロバストネスベンチマークデータセットであるAOT-Cを構築した。 このデータセットに含まれる汚職は、悪天候やセンサーノイズなど、幅広い困難条件をカバーしている。 この書簡の2つ目の貢献は、さまざまな物体検出器を含む広範囲な実験的評価を提示し、汚職レベル(ドメインシフト)の増大による性能劣化を調査することである。 評価結果に基づき, 出現する主な観測項目は以下のとおりである。 1) YOLOファミリーの1段階検出器は, より堅牢性を示した。 2)Faster R-CNNのようなトランスフォーマーベースの多段検出器は、破損に対して極めて脆弱である。 3)汚職に対するロバスト性はモデルの一般化能力に関係している。 第3の貢献は、我々の強化された合成データの微調整により、実世界の飛行実験における物体検出器の一般化能力が向上することを示すことである。

The main barrier to achieving fully autonomous flights lies in autonomous aircraft navigation. Managing non-cooperative traffic presents the most important challenge in this problem. The most efficient strategy for handling non-cooperative traffic is based on monocular video processing through deep learning models. This study contributes to the vision-based deep learning aircraft detection and tracking literature by investigating the impact of data corruption arising from environmental and hardware conditions on the effectiveness of these methods. More specifically, we designed $7$ types of common corruptions for camera inputs taking into account real-world flight conditions. By applying these corruptions to the Airborne Object Tracking (AOT) dataset we constructed the first robustness benchmark dataset named AOT-C for air-to-air aerial object detection. The corruptions included in this dataset cover a wide range of challenging conditions such as adverse weather and sensor noise. The second main contribution of this letter is to present an extensive experimental evaluation involving $8$ diverse object detectors to explore the degradation in the performance under escalating levels of corruptions (domain shifts). Based on the evaluation results, the key observations that emerge are the following: 1) One-stage detectors of the YOLO family demonstrate better robustness, 2) Transformer-based and multi-stage detectors like Faster R-CNN are extremely vulnerable to corruptions, 3) Robustness against corruptions is related to the generalization ability of models. The third main contribution is to present that finetuning on our augmented synthetic data results in improvements in the generalisation ability of the object detector in real-world flight experiments.
翻訳日:2024-05-17 18:06:04 公開日:2024-05-16
# ギャップのブリッジ:公正かつ一貫性のある影響分析に向けたプロトコル

Bridging the Gap: Protocol Towards Fair and Consistent Affect Analysis ( http://arxiv.org/abs/2405.06841v2 )

ライセンス: Link先を確認
Guanyu Hu, Eleni Papadopoulou, Dimitrios Kollias, Paraskevi Tzouveli, Jie Wei, Xinyu Yang, (参考訳) 日々の生活における機械学習アルゴリズムの統合の増加は、その展開における公平性と公平性の重要性を浮き彫りにしている。 これらの技術が意思決定において重要な役割を担っているため、年齢、性別、人種など、様々なサブ人口集団の偏見に対処することが最重要である。 生理学、心理学、機械学習の交差点における自動影響分析は、大きな発展を遂げた。 しかし、既存のデータベースと方法論は均一性に欠けており、バイアスのある評価につながっている。 この研究は、6つの感情的なデータベースを分析し、属性を注釈付けし、データベース分割のための共通のプロトコルを提案することで、これらの問題に対処する。 評価において公平さに重点を置いている。 ベースラインと最先端の手法による大規模な実験は、これらの変化の影響を示し、事前評価の不十分さを明らかにしている。 この結果は、分析研究に影響を及ぼす上で、人口統計学的属性を考慮することの重要性を浮き彫りにし、より公平な方法論の基礎を提供する。 私たちのアノテーション、コード、事前訓練済みモデルは、https://github.com/dkollias/Fair-Consistent-Affect-Analysisで利用可能です。

The increasing integration of machine learning algorithms in daily life underscores the critical need for fairness and equity in their deployment. As these technologies play a pivotal role in decision-making, addressing biases across diverse subpopulation groups, including age, gender, and race, becomes paramount. Automatic affect analysis, at the intersection of physiology, psychology, and machine learning, has seen significant development. However, existing databases and methodologies lack uniformity, leading to biased evaluations. This work addresses these issues by analyzing six affective databases, annotating demographic attributes, and proposing a common protocol for database partitioning. Emphasis is placed on fairness in evaluations. Extensive experiments with baseline and state-of-the-art methods demonstrate the impact of these changes, revealing the inadequacy of prior assessments. The findings underscore the importance of considering demographic attributes in affect analysis research and provide a foundation for more equitable methodologies. Our annotations, code and pre-trained models are available at: https://github.com/dkollias/Fair-Consistent-Affect-Analysis
翻訳日:2024-05-17 18:06:04 公開日:2024-05-16
# 欲しがる全てに注意:マキニック・ゲイズと人類新世

Attention is All You Want: Machinic Gaze and the Anthropocene ( http://arxiv.org/abs/2405.09734v1 )

ライセンス: Link先を確認
Liam Magee, Vanicka Arora, (参考訳) この章は、計算ビジョンが人類新世の表現を解釈し、合成する方法を実験する。 MidJourneyやStableDiffusionといったテキスト・ツー・イメージのシステムは、収穫された画像やキャプションの大規模なデータセットに基づいて訓練され、しばしば、インターネット視覚文化の前兆に対する異国人の想像力と屈折的な注釈を交互に生み出す。 視覚文化に対するAIの影響は、それ自体が変革的あるいは破滅的なものかも知れませんが、人間、技術、生態的な未来を共有することをどのように想像するかについて、私たちはもっと興味を持っています。 人類学とオーストラリア環境学の要素を結合する一連のテキストプロンプトを通して、この創発的な機械的視線が、その未来的な風景の組成を通して、どのようにして、観察され観察される人間の対象に向かって振り返るかを考察する。 様々な補助的、監視的、生成的役割において、コンピュータビジョンは人間の欲望を反映するだけでなく、独自の斜めの要求を明瞭に反映する。

This chapter experiments with ways computational vision interprets and synthesises representations of the Anthropocene. Text-to-image systems such as MidJourney and StableDiffusion, trained on large data sets of harvested images and captions, yield often striking compositions that serve, alternately, as banal reproduction, alien imaginary and refracted commentary on the preoccupations of Internet visual culture. While the effects of AI on visual culture may themselves be transformative or catastrophic, we are more interested here in how it has been trained to imagine shared human, technical and ecological futures. Through a series of textual prompts that marry elements of the Anthropocenic and Australian environmental vernacular, we examine how this emergent machinic gaze both looks out, through its compositions of futuristic landscapes, and looks back, towards an observing and observed human subject. In its varied assistive, surveillant and generative roles, computational vision not only mirrors human desire but articulates oblique demands of its own.
翻訳日:2024-05-17 15:40:20 公開日:2024-05-16
# 意図的談話関係予測における係り受け関係の分析

An Analysis of Sentential Neighbors in Implicit Discourse Relation Prediction ( http://arxiv.org/abs/2405.09735v1 )

ライセンス: Link先を確認
Evi Judge, Reece Suchocki, Konner Syed, (参考訳) 談話関係分類は、明示的な文脈マーカーを持たない特に難しい課題である。 暗黙の関係予測への現在のアプローチは、2つの隣接する文が対象であることにのみ依存しており、周辺環境のより広い文脈を無視している。 本研究では,(1)DN(Direct Neighbors),(2)EWN(Expanded Window Neighbors),(3)Part-Smart Random Neighbors(PSRNs)の3つの新しい手法を提案する。 本研究は,言論関係分類の課題において,1つの言論単位を超えて文脈を包含することは有害であることを示す。

Discourse relation classification is an especially difficult task without explicit context markers \cite{Prasad2008ThePD}. Current approaches to implicit relation prediction solely rely on two neighboring sentences being targeted, ignoring the broader context of their surrounding environments \cite{Atwell2021WhereAW}. In this research, we propose three new methods in which to incorporate context in the task of sentence relation prediction: (1) Direct Neighbors (DNs), (2) Expanded Window Neighbors (EWNs), and (3) Part-Smart Random Neighbors (PSRNs). Our findings indicate that the inclusion of context beyond one discourse unit is harmful in the task of discourse relation classification.
翻訳日:2024-05-17 15:40:20 公開日:2024-05-16
# 非平滑非凸最適化のためのランダムスケーリングとモーメント

Random Scaling and Momentum for Non-smooth Non-convex Optimization ( http://arxiv.org/abs/2405.09742v1 )

ライセンス: Link先を確認
Qinzi Zhang, Ashok Cutkosky, (参考訳) ニューラルネットワークのトレーニングには、非常に不規則な損失関数、特に凸や滑らかな損失関数を最適化する必要がある。 一般的なトレーニングアルゴリズムは、運動量による確率勾配降下(SGDM)に基づいており、古典的な解析は損失が凸あるいは滑らかである場合にのみ適用される。 SGDMの非常に小さな修正は、各時点の更新を指数関数的に分散したランダムスカラーでスケールするだけで、このギャップを埋めることを示す。 得られたアルゴリズムは最適収束保証を達成する。 その代わりに、オンライン凸最適化アルゴリズムを非凸最適化アルゴリズムに変換するための、より一般的なフレームワークから自然に脱落する。

Training neural networks requires optimizing a loss function that may be highly irregular, and in particular neither convex nor smooth. Popular training algorithms are based on stochastic gradient descent with momentum (SGDM), for which classical analysis applies only if the loss is either convex or smooth. We show that a very small modification to SGDM closes this gap: simply scale the update at each time point by an exponentially distributed random scalar. The resulting algorithm achieves optimal convergence guarantees. Intriguingly, this result is not derived by a specific analysis of SGDM: instead, it falls naturally out of a more general framework for converting online convex optimization algorithms to non-convex optimization algorithms.
翻訳日:2024-05-17 15:40:20 公開日:2024-05-16
# タスク指向対話システムとモジュール・オブ・エクササイズ

Many Hands Make Light Work: Task-Oriented Dialogue System with Module-Based Mixture-of-Experts ( http://arxiv.org/abs/2405.09744v1 )

ライセンス: Link先を確認
Ruolin Su, Biing-Hwang Juang, (参考訳) タスク指向対話システムは仮想アシスタントやその他の自動化サービスで広く使われており、特定のタスクを容易にするためにユーザとマシン間のインターフェースを提供する。 現在、タスク指向の対話システムは、事前訓練された言語モデル(PLM)の恩恵を受けている。 しかし、それらのタスク解決性能は、PLMの固有の能力に制約されており、モデルのサイズが大きくなるにつれて、これらのモデルのスケーリングは高価で複雑になる。 これらの課題に対処するために,Mixture-of-Experts (MoEs) のアンサンブルを利用して,サブプロブレムを最適化し,タスク指向対話のための特殊なアウトプットを生成するソフト・ミックス・オブ・エクスプット・タスク指向対話システム (SMETOD) を提案する。 SMETODはまた、推論効率を維持しつつ、シンプルで柔軟性のあるタスク指向対話システムをスケールアップする。 我々は,意図予測,対話状態追跡,対話応答生成という3つのベンチマーク機能に対して,我々のモデルを広範囲に評価した。 実験結果から,SMETODが最も評価された指標の最先端性能が得られた。 さらに,既存の強基線との比較から,SMETODは問題解決における推論と正しさのコストにおいて大きな優位性を有することが示された。

Task-oriented dialogue systems are broadly used in virtual assistants and other automated services, providing interfaces between users and machines to facilitate specific tasks. Nowadays, task-oriented dialogue systems have greatly benefited from pre-trained language models (PLMs). However, their task-solving performance is constrained by the inherent capacities of PLMs, and scaling these models is expensive and complex as the model size becomes larger. To address these challenges, we propose Soft Mixture-of-Expert Task-Oriented Dialogue system (SMETOD) which leverages an ensemble of Mixture-of-Experts (MoEs) to excel at subproblems and generate specialized outputs for task-oriented dialogues. SMETOD also scales up a task-oriented dialogue system with simplicity and flexibility while maintaining inference efficiency. We extensively evaluate our model on three benchmark functionalities: intent prediction, dialogue state tracking, and dialogue response generation. Experimental results demonstrate that SMETOD achieves state-of-the-art performance on most evaluated metrics. Moreover, comparisons against existing strong baselines show that SMETOD has a great advantage in the cost of inference and correctness in problem-solving.
翻訳日:2024-05-17 15:40:20 公開日:2024-05-16
# 重ね合わせパラメータの解析的連続による擬エントロピー和則

Pseudoentropy sum rule by analytical continuation of the superposition parameter ( http://arxiv.org/abs/2405.09745v1 )

ライセンス: Link先を確認
Wu-zhong Guo, Yao-zong Jiang, Jin Xu, (参考訳) 本稿では,重畳状態の擬エントロピーと絡み合いエントロピーを接続する和則を確立する。 重ね合わせパラメータの解析的継続により、重ね合わせ状態の遷移行列と密度行列を統一的に扱うことができることを示す。 この枠組みの中では、(還元された)遷移行列、擬R'enyiエントロピー、擬エントロピーの和規則を自然に導出する。 さらに、擬エントロピーの和則と解析的継続後の重ね合わせ状態のエントロピー関数の特異性構造との密接な関係を示す。 また、非エルミート遷移行列の重力双対を理解することと擬エントロピーの絶対値の上限を確立することとの関連性を含む和則の潜在的な応用についても検討する。

In this paper, we establish a sum rule that connects the pseudoentropy and entanglement entropy of a superposition state. Through analytical continuation of the superposition parameter, we demonstrate that the transition matrix and density matrix of the superposition state can be treated in a unified manner. Within this framework, we naturally derive sum rules for the (reduced) transition matrix, pseudo R\'enyi entropy, and pseudoentropy. Furthermore, we demonstrate the close relationship between the sum rule for pseudoentropy and the singularity structure of the entropy function for the superposition state after analytical continuation. We also explore potential applications of the sum rule, including its relevance to understanding the gravity dual of non-Hermitian transition matrices and establishing upper bounds for the absolute value of pseudoentropy.
翻訳日:2024-05-17 15:40:20 公開日:2024-05-16
# NIFTYファイナンシャルニュースがデータセットを更新

NIFTY Financial News Headlines Dataset ( http://arxiv.org/abs/2405.09747v1 )

ライセンス: Link先を確認
Raeid Saqur, Ken Kato, Nicholas Vinden, Frank Rudzicz, (参考訳) 我々は,大規模言語モデル(LLM)を用いた金融市場予測研究の促進と進展を目的としたNIFTY Financial News Headlinesデータセットを公開し,公開する。 このデータセットは、異なるモデリングアプローチに適した2つの異なるバージョンで構成されています。 一 自己回帰的・因果的言語モデリング目的によるLLMの微調整(SFT)を目標とするNIFTY-LM (II)NIFTY-RLは、リジェクションサンプリングや報酬モデリングを通じてLLMをアライメントするためのアライメント法(人間フィードバックからの強化学習(RLHF)など)に特化して構成されている。 各データセットバージョンは、包括的なメタデータ、市場指標、および最新のLLMフレームワークに適合するように体系的にフィルタリングされ、ランク付けされた金融ニュースの見出しを含む、キュレートされた高品質のデータを提供する。 また、株価の動きや情報取得/リッチネスにおけるLLM埋め込みの役割といったタスクにおいて、データセットのいくつかの応用を実証する実験も含んでいる。 NIFTYデータセットとユーティリティ(truncating promptのコンテキスト長の体系化など)は、Hugging Faceでhttps://huggingface.co/datasets/raeidsaqur/NIFTYで公開されている。

We introduce and make publicly available the NIFTY Financial News Headlines dataset, designed to facilitate and advance research in financial market forecasting using large language models (LLMs). This dataset comprises two distinct versions tailored for different modeling approaches: (i) NIFTY-LM, which targets supervised fine-tuning (SFT) of LLMs with an auto-regressive, causal language-modeling objective, and (ii) NIFTY-RL, formatted specifically for alignment methods (like reinforcement learning from human feedback (RLHF)) to align LLMs via rejection sampling and reward modeling. Each dataset version provides curated, high-quality data incorporating comprehensive metadata, market indices, and deduplicated financial news headlines systematically filtered and ranked to suit modern LLM frameworks. We also include experiments demonstrating some applications of the dataset in tasks like stock price movement and the role of LLM embeddings in information acquisition/richness. The NIFTY dataset along with utilities (like truncating prompt's context length systematically) are available on Hugging Face at https://huggingface.co/datasets/raeidsaqur/NIFTY.
翻訳日:2024-05-17 15:40:20 公開日:2024-05-16
# 3次元カメラ評価のための衝突回避基準

Collision Avoidance Metric for 3D Camera Evaluation ( http://arxiv.org/abs/2405.09755v1 )

ライセンス: Link先を確認
Vage Taamazyan, Alberto Dall'olio, Agastya Kalra, (参考訳) 3Dカメラは、ロボティクスや自動運転の応用のための重要な情報源として登場した。 これらのカメラによって、ロボットは点雲を捉えて利用し、周囲をナビゲートし、他の物体との衝突を避けることができる。 しかしながら、現在の標準的なカメラ評価メトリクスは、特定のアプリケーションコンテキストを考慮していないことが多い。 これらの指標は一般的に、実際のシナリオでは直接的にパフォーマンスに変換されない、チャンファー距離 (CD) やアース・マーバー距離 (EMD) のような尺度に焦点を当てている。 この限界に対処するため, 衝突回避の重要な課題に対する3Dカメラの適合性を評価するために, ポイントクラウド評価のための新しい指標を提案する。 このメトリクスは、アプリケーション固有の考察を取り入れ、安全なロボットナビゲーションを保証するためのカメラの有効性をより正確に測定する。

3D cameras have emerged as a critical source of information for applications in robotics and autonomous driving. These cameras provide robots with the ability to capture and utilize point clouds, enabling them to navigate their surroundings and avoid collisions with other objects. However, current standard camera evaluation metrics often fail to consider the specific application context. These metrics typically focus on measures like Chamfer distance (CD) or Earth Mover's Distance (EMD), which may not directly translate to performance in real-world scenarios. To address this limitation, we propose a novel metric for point cloud evaluation, specifically designed to assess the suitability of 3D cameras for the critical task of collision avoidance. This metric incorporates application-specific considerations and provides a more accurate measure of a camera's effectiveness in ensuring safe robot navigation.
翻訳日:2024-05-17 15:40:20 公開日:2024-05-16
# クラスハンドリングと分類が不均衡なマルチオミクスデータに対するオートエンコーダとジェネレーティブ・ディバイザ・ネットワークのアプローチ

An Autoencoder and Generative Adversarial Networks Approach for Multi-Omics Data Imbalanced Class Handling and Classification ( http://arxiv.org/abs/2405.09756v1 )

ライセンス: Link先を確認
Ibrahim Al-Hurani, Abedalrhman Alkhateeb, Salama Ikki, (参考訳) 医学診断の強化に向けた絶え間ない努力の中で、最先端の機械学習手法の統合が有望な研究分野として浮上している。 分子生物学では、マルチオミクスシークエンシングから生成されるデータの爆発があった。 出現シークエンシング装置は、1回の実験で多数の複雑な測定を行うことができる。 そのため、従来の統計手法はそのような高次元データを扱う際に困難な課題に直面している。 しかし、これらのデータセットに含まれる情報のほとんどは冗長あるいは無関係であり、多くの情報を失うことなく、実質的に変数を著しく少なくすることができる。 次元性低減技術は、この還元を可能にする数学的手続きであり、統計学や機械学習の分野を通じて主に開発されてきた。 医療データセットのもう1つの課題は、クラスに不均衡な数のサンプルを持つことだ。 本研究は,特徴の潜在空間を抽出するためにオートエンコーダを組み込んだニューラルネットワークと,合成サンプルを生成するためのGAN(Generative Adversarial Networks)にこれらの課題に取り組むことに焦点を当てた。 潜在空間は、元のデータの有意義な特徴を捉える次元空間の縮小である。 我々のモデルは、ニューラルネットワークに入力する前に識別的特徴を選択する機能選択から始まります。 そして、そのモデルが、異なるデータセットに対するがんの結果を予測する。 提案したモデルは、膀胱癌データセットの95.09%、乳癌データセットの88.82%の精度で、既存のモデルよりも優れていた。

In the relentless efforts in enhancing medical diagnostics, the integration of state-of-the-art machine learning methodologies has emerged as a promising research area. In molecular biology, there has been an explosion of data generated from multi-omics sequencing. The advent sequencing equipment can provide large number of complicated measurements per one experiment. Therefore, traditional statistical methods face challenging tasks when dealing with such high dimensional data. However, most of the information contained in these datasets is redundant or unrelated and can be effectively reduced to significantly fewer variables without losing much information. Dimensionality reduction techniques are mathematical procedures that allow for this reduction; they have largely been developed through statistics and machine learning disciplines. The other challenge in medical datasets is having an imbalanced number of samples in the classes, which leads to biased results in machine learning models. This study, focused on tackling these challenges in a neural network that incorporates autoencoder to extract latent space of the features, and Generative Adversarial Networks (GAN) to generate synthetic samples. Latent space is the reduced dimensional space that captures the meaningful features of the original data. Our model starts with feature selection to select the discriminative features before feeding them to the neural network. Then, the model predicts the outcome of cancer for different datasets. The proposed model outperformed other existing models by scoring accuracy of 95.09% for bladder cancer dataset and 88.82% for the breast cancer dataset.
翻訳日:2024-05-17 15:40:20 公開日:2024-05-16
# Give and Take: Giveaway Scam Conversion Ratesのエンドツーエンド調査

Give and Take: An End-To-End Investigation of Giveaway Scam Conversion Rates ( http://arxiv.org/abs/2405.09757v1 )

ライセンス: Link先を確認
Enze Liu, George Kappos, Eric Mugnier, Luca Invernizzi, Stefan Savage, David Tao, Kurt Thomas, Geoffrey M. Voelker, Sarah Meiklejohn, (参考訳) 被害者からお金を流す詐欺は、記録に残る限り存在してきた。 しかし、インターネットの低通信コスト、グローバルリーチ、機能匿名の組み合わせにより、詐欺のボリュームは新たな高さに達することができた。 効果的な介入を設計するには、最初にコンテキストを理解する必要がある。 本稿では、暗号通貨の配当詐欺の文脈において、これらの疑問に焦点を合わせ、被害者は、さらに大きなリターンを迫られた詐欺師に、不可逆的に資金を振りかざすように騙される。 Twitter、YouTube、Twitchのライブストリーム、ランディングページ、およびブロックチェーンからのデータを組み合わせることで、大規模な盗難詐欺がどのように動作するかを測定する。 1000件の詐欺ツイートが1件、ライブストリームビューが10万件、ネットが1件、詐欺師がたった数百人の被害者から4億6200万ドル(約460億円)近くを抽出したことがわかりました。

Scams -- fraudulent schemes designed to swindle money from victims -- have existed for as long as recorded history. However, the Internet's combination of low communication cost, global reach, and functional anonymity has allowed scam volumes to reach new heights. Designing effective interventions requires first understanding the context: how scammers reach potential victims, the earnings they make, and any potential bottlenecks for durable interventions. In this short paper, we focus on these questions in the context of cryptocurrency giveaway scams, where victims are tricked into irreversibly transferring funds to scammers under the pretense of even greater returns. Combining data from Twitter, YouTube and Twitch livestreams, landing pages, and cryptocurrency blockchains, we measure how giveaway scams operate at scale. We find that 1 in 1000 scam tweets, and 4 in 100,000 livestream views, net a victim, and that scammers managed to extract nearly \$4.62 million from just hundreds of victims during our measurement window.
翻訳日:2024-05-17 15:40:20 公開日:2024-05-16
# フュージョン・インテリジェンス : 自然と人工知能の融合による問題解決の効率化

Fusion Intelligence: Confluence of Natural and Artificial Intelligence for Enhanced Problem-Solving Efficiency ( http://arxiv.org/abs/2405.09763v1 )

ライセンス: Link先を確認
Rohan Reddy Kalavakonda, Junjun Huan, Peyman Dehghanzadeh, Archit Jaiswal, Soumyajit Mandal, Swarup Bhunia, (参考訳) 本稿では,ミツバチやアリなどの生物の知覚,知性,ユニークな動作能力が,人工知能(AI)の計算能力と一体化される,バイオインスパイアされた知能システムであるFusion Intelligence(FI)を紹介する。 この学際分野は、賢く、適応性があり、自然を模倣する方法で応答するシステムを作ることを目指している。 FIが進化するにつれて、私たちが複雑な問題にアプローチする方法を革新し、生物界とデジタル界の両方の長所を利用して、より効果的で持続可能で、環境と調和したソリューションを作るという約束を守ります。 本研究は,昆虫の受粉効率向上を模擬したケーススタディにより,FIの農業用IoTシステム性能向上効果を実証するものである。

This paper introduces Fusion Intelligence (FI), a bio-inspired intelligent system, where the innate sensing, intelligence and unique actuation abilities of biological organisms such as bees and ants are integrated with the computational power of Artificial Intelligence (AI). This interdisciplinary field seeks to create systems that are not only smart but also adaptive and responsive in ways that mimic the nature. As FI evolves, it holds the promise of revolutionizing the way we approach complex problems, leveraging the best of both biological and digital worlds to create solutions that are more effective, sustainable, and harmonious with the environment. We demonstrate FI's potential to enhance agricultural IoT system performance through a simulated case study on improving insect pollination efficacy (entomophily).
翻訳日:2024-05-17 15:40:20 公開日:2024-05-16
# 超次元空間における無教師付き抽出対話要約

Unsupervised Extractive Dialogue Summarization in Hyperdimensional Space ( http://arxiv.org/abs/2405.09765v1 )

ライセンス: Link先を確認
Seongmin Park, Kyungho Kim, Jaejin Seo, Jihwa Lee, (参考訳) 本稿では,従来の語彙要約の効率と,現代のニューラルネットワークの精度を両立する抽出的要約フレームワークHyperSumを提案する。 ハイパーサムは、非常に高次元のベクトルをランダムに初期化する("blessing of dimensionality")ときに生じる擬直交性を利用して、代表的で効率的な文埋め込みを構築する。 得られた埋め込みをクラスタリングしてメドイドを抽出するだけで、競争力のある要約が得られる。 HyperSumは、要約の正確さと忠実さの両方の観点から、最先端の要約器よりも10倍から100倍高速であることが多い。 我々は、教師なし抽出要約のための強力なベースラインとしてHyperSumをオープンソース化した。

We present HyperSum, an extractive summarization framework that captures both the efficiency of traditional lexical summarization and the accuracy of contemporary neural approaches. HyperSum exploits the pseudo-orthogonality that emerges when randomly initializing vectors at extremely high dimensions ("blessing of dimensionality") to construct representative and efficient sentence embeddings. Simply clustering the obtained embeddings and extracting their medoids yields competitive summaries. HyperSum often outperforms state-of-the-art summarizers -- in terms of both summary accuracy and faithfulness -- while being 10 to 100 times faster. We open-source HyperSum as a strong baseline for unsupervised extractive summarization.
翻訳日:2024-05-17 15:40:20 公開日:2024-05-16
# 時間依存微分方程式を解くための量子優位性を維持することができるコンパクト量子アルゴリズム

Compact quantum algorithms that can potentially maintain quantum advantage for solving time-dependent differential equations ( http://arxiv.org/abs/2405.09767v1 )

ライセンス: Link先を確認
Sachin S. Bharadwaj, Katepalli R. Sreenivasan, (参考訳) 量子コンピューティングにおいて古典的よりも多くの計算上の優位性が主張されているが、実際的な問題については証明されていない。 本稿では,流体流動問題を管理する時間依存型PDEの解法を提案する。 我々は、ユニタリの線形結合に基づいて、非ユニタリ、非エルミート量子系をシミュレートし、反復行列ベクトル乗算と行列逆演算を効率的に行うハイブリッド量子古典アルゴリズムを生成する。 これらのアルゴリズムは量子優位性を保護する低深さの量子回路に導かれる。 アルゴリズムの実行による性能の実証を行う。 (a)$\textit{QFlowS}$;という社内高性能量子シミュレータを用いた理想的な状態ベクトルシミュレーション (b)実量子デバイス(IBMカイロ)の実験及び (c)Qiskit Aerを用いた雑音シミュレーション また、ノイズの多いデバイス上での収束流シミュレーションを正確に行うために、エラーレート(ノイズ)や状態サンプリング(計測)などのデバイス仕様も提供する。

Many claims of computational advantages have been made for quantum computing over classical, but they have not been demonstrated for practical problems. Here, we present algorithms for solving time-dependent PDEs governing fluid flow problems. We build on an idea based on linear combination of unitaries to simulate non-unitary, non-Hermitian quantum systems, and generate hybrid quantum-classical algorithms that efficiently perform iterative matrix-vector multiplication and matrix inversion operations. These algorithms lead to low-depth quantum circuits that protect quantum advantage, with the best-case asymptotic complexities that are near-optimal. We demonstrate the performance of the algorithms by conducting: (a) ideal state-vector simulations using an in-house, high performance, quantum simulator called $\textit{QFlowS}$; (b) experiments on a real quantum device (IBM Cairo); and (c) noisy simulations using Qiskit Aer. We also provide device specifications such as error-rates (noise) and state sampling (measurement) to accurately perform convergent flow simulations on noisy devices.
翻訳日:2024-05-17 15:30:35 公開日:2024-05-16
# LLM(GPT-3)に基づく感性分析のための最適化手法

Optimization Techniques for Sentiment Analysis Based on LLM (GPT-3) ( http://arxiv.org/abs/2405.09770v1 )

ライセンス: Link先を確認
Tong Zhan, Chenxi Shi, Yadong Shi, Huixiang Li, Yiyu Lin, (参考訳) 自然言語処理(NLP)技術の急速な発展に伴い、GPT-3のような大規模事前学習型言語モデルは、NLP分野において人気のある研究対象となっている。 本稿では,GPT-3のような大規模学習済み言語モデルに基づく感情分析の最適化手法について検討し,モデルの性能と効果を改善し,さらに自然言語処理(NLP)の開発を促進することを目的とする。 本稿では,感情分析の重要性と従来の方法の限界を紹介することによって,GPT-3とファインチューニング技術を導入し,その感情分析への応用について詳細に解説する。 実験結果から,GPT-3モデルを最適化し,感情分析タスクにおいて良好な性能が得られることがわかった。 本研究は,大規模言語モデルを用いた将来の感情分析に重要な参考となる。

With the rapid development of natural language processing (NLP) technology, large-scale pre-trained language models such as GPT-3 have become a popular research object in NLP field. This paper aims to explore sentiment analysis optimization techniques based on large pre-trained language models such as GPT-3 to improve model performance and effect and further promote the development of natural language processing (NLP). By introducing the importance of sentiment analysis and the limitations of traditional methods, GPT-3 and Fine-tuning techniques are introduced in this paper, and their applications in sentiment analysis are explained in detail. The experimental results show that the Fine-tuning technique can optimize GPT-3 model and obtain good performance in sentiment analysis task. This study provides an important reference for future sentiment analysis using large-scale language models.
翻訳日:2024-05-17 15:30:35 公開日:2024-05-16
# フェデレート・プロンプト学習における一般化とパーソナライゼーションの調和

Harmonizing Generalization and Personalization in Federated Prompt Learning ( http://arxiv.org/abs/2405.09771v1 )

ライセンス: Link先を確認
Tianyu Cui, Hongxia Li, Jingya Wang, Ye Shi, (参考訳) フェデレート・プロンプト・ラーニング(FPL)は、大規模な事前学習型ビジョン・ランゲージ・モデル(VLM)を即時チューニングによるフェデレーション・ラーニングに組み込む。 VLMの伝達可能な表現と顕著な一般化能力は、連合学習の統合と高い互換性を持つ。 フェデレーション学習におけるデータの不均一性に対処するにはパーソナライズが必要であるが、クライアント全体への過剰なフォーカスは、モデルを効果的に一般化する能力を損なう可能性がある。 VLMの印象的な一般化能力を維持するためには、FPLのパーソナライゼーションと一般化のバランスをとることが不可欠である。 この課題に対処するため、我々は、CLIPの事前学習を取り入れたFedPGP(Federated Prompt Learning with CLIP Generalization and Low-rank Personalization)を提案する。 さらに、FedPGPは、知識指導とパーソナライズされた適応を同時に達成し、FPLにおけるパーソナライゼーションと一般化の調和したバランスを可能にする。 本研究は,FedPGPが一般化とパーソナライゼーションのバランスをとる上で優れていることを示すため,異種データを用いたカテゴリレベルのシナリオとドメインレベルのシナリオの両方において,ベース・ツー・ノーベルな一般化を探索する広範囲な実験を行う。

Federated Prompt Learning (FPL) incorporates large pre-trained Vision-Language models (VLM) into federated learning through prompt tuning. The transferable representations and remarkable generalization capacity of VLM make them highly compatible with the integration of federated learning. Addressing data heterogeneity in federated learning requires personalization, but excessive focus on it across clients could compromise the model's ability to generalize effectively. To preserve the impressive generalization capability of VLM, it is crucial to strike a balance between personalization and generalization in FPL. To tackle this challenge, we proposed Federated Prompt Learning with CLIP Generalization and low-rank Personalization (FedPGP), which employs pre-trained CLIP to provide knowledge-guidance on the global prompt for improved generalization and incorporates a low-rank adaptation term to personalize the global prompt. Further, FedPGP integrates a prompt-wise contrastive loss to achieve knowledge guidance and personalized adaptation simultaneously, enabling a harmonious balance between personalization and generalization in FPL. We conduct extensive experiments on various datasets to explore base-to-novel generalization in both category-level and domain-level scenarios with heterogeneous data, showing the superiority of FedPGP in balancing generalization and personalization.
翻訳日:2024-05-17 15:30:35 公開日:2024-05-16
# 教師なしドメイン適応の観点からの最上級セグメンテーションの再考

Rethinking Barely-Supervised Segmentation from an Unsupervised Domain Adaptation Perspective ( http://arxiv.org/abs/2405.09777v1 )

ライセンス: Link先を確認
Zhiqiang Shen, Peng Cao, Junming Su, Jinzhu Yang, Osmar R. Zaiane, (参考訳) 本稿では,単一スライスアノテーションと多数の未ラベル画像のみを含むラベル付きデータからなるトレーニングデータセットを,ほとんど管理されていない医用画像セグメンテーション(BSS)という,極めて困難な問題について検討する。 現在、SOTA (State-of-the-art) BSS法は、画像登録に依存して、完全なラベル付き集合を構築するために、単一スライスアノテーションをボリューム擬似ラベルに伝達するために、登録に基づくパラダイムを使用している。 しかし、このパラダイムには限界があり、画像登録によって生成された擬似ラベルは信頼性が低くうるさい。 そこで我々は,画像登録に頼ることなく,ラベル付きセットとして単一注釈スライスのみを用いてモデルを訓練する,という新しい視点を提案する。 この目的のために、BSSを教師なし領域適応(UDA)問題として定式化する。 具体的には、まず、スライス・ツー・ボリュームラベル付きデータ合成のための新しいノイズフリーラベル付きデータ構築アルゴリズム(NFC)を設計する。 次に、UDAの領域シフトを軽減するために、周波数と空間の混合戦略(FSX)をさらに導入する。 大規模な実験により,本手法はBSSに有望な代替手段を提供することが示された。 特筆すべきは, 1つのラベル付きスライスのみを用いて左房セグメンテーションにおいて80.77%のダイススコアを達成し, SOTAを61.28%上回ったことである。 コードはこの記事の発行時に公開される。

This paper investigates an extremely challenging problem, barely-supervised medical image segmentation (BSS), where the training dataset comprises limited labeled data with only single-slice annotations and numerous unlabeled images. Currently, state-of-the-art (SOTA) BSS methods utilize a registration-based paradigm, depending on image registration to propagate single-slice annotations into volumetric pseudo labels for constructing a complete labeled set. However, this paradigm has a critical limitation: the pseudo labels generated by image registration are unreliable and noisy. Motivated by this, we propose a new perspective: training a model using only single-annotated slices as the labeled set without relying on image registration. To this end, we formulate BSS as an unsupervised domain adaptation (UDA) problem. Specifically, we first design a novel noise-free labeled data construction algorithm (NFC) for slice-to-volume labeled data synthesis, which may result in a side effect: domain shifts between the synthesized images and the original images. Then, a frequency and spatial mix-up strategy (FSX) is further introduced to mitigate the domain shifts for UDA. Extensive experiments demonstrate that our method provides a promising alternative for BSS. Remarkably, the proposed method with only one labeled slice achieves an 80.77% dice score on left atrial segmentation, outperforming the SOTA by 61.28%. The code will be released upon the publication of this paper.
翻訳日:2024-05-17 15:30:35 公開日:2024-05-16
# ゲノムデータのためのQiskitにおける量子機械学習アルゴリズムの独立実装

An Independent Implementation of Quantum Machine Learning Algorithms in Qiskit for Genomic Data ( http://arxiv.org/abs/2405.09781v1 )

ライセンス: Link先を確認
Navneet Singh, Shiva Raj Pokhrel, (参考訳) 本稿では,Qiskitにおける量子支援ベクトル分類器(QSVC),Pegasos-QSVC,変動量子回路(VQC),量子ニューラルネットワーク(QNN)などのアルゴリズムを拡張し,実装し,評価する際の量子機械学習の能力について検討する。

In this paper, we explore the power of Quantum Machine Learning as we extend, implement and evaluate algorithms like Quantum Support Vector Classifier (QSVC), Pegasos-QSVC, Variational Quantum Circuits (VQC), and Quantum Neural Networks (QNN) in Qiskit with diverse feature mapping techniques for genomic sequence classification.
翻訳日:2024-05-17 15:30:35 公開日:2024-05-16
# サイズ不変性:不均衡な多目的有価物検出のためのメトリクスと損失を再考する

Size-invariance Matters: Rethinking Metrics and Losses for Imbalanced Multi-object Salient Object Detection ( http://arxiv.org/abs/2405.09782v1 )

ライセンス: Link先を確認
Feiran Li, Qianqian Xu, Shilong Bao, Zhiyong Yang, Runmin Cong, Xiaochun Cao, Qingming Huang, (参考訳) 本稿では,SOD(Salient Object Detection)における評価指標のサイズ差について検討する。 現在のメトリクスはサイズに敏感で、大きなオブジェクトが集中しており、小さなメトリクスは無視される傾向があります。 サイズに基づくバイアスは、追加のセマンティック情報なしでは不適切であるため、評価はサイズ不変であるべきだと論じる。 そこで本研究では,それぞれが個別に評価する汎用的な手法を提案し,その結果を組み合わせて,不均衡を効果的に緩和する。 さらに、この目標に適した最適化フレームワークを開発し、異なる大きさのオブジェクトの検出において、大幅な改善を実現した。 理論的には、新しい指標の有効性を示す証拠を提供し、SODの一般化分析を示す。 大規模な実験により,本手法の有効性が示された。 コードはhttps://github.com/Ferry-Li/SI-SOD.comで公開されている。

This paper explores the size-invariance of evaluation metrics in Salient Object Detection (SOD), especially when multiple targets of diverse sizes co-exist in the same image. We observe that current metrics are size-sensitive, where larger objects are focused, and smaller ones tend to be ignored. We argue that the evaluation should be size-invariant because bias based on size is unjustified without additional semantic information. In pursuit of this, we propose a generic approach that evaluates each salient object separately and then combines the results, effectively alleviating the imbalance. We further develop an optimization framework tailored to this goal, achieving considerable improvements in detecting objects of different sizes. Theoretically, we provide evidence supporting the validity of our new metrics and present the generalization analysis of SOD. Extensive experiments demonstrate the effectiveness of our method. The code is available at https://github.com/Ferry-Li/SI-SOD.
翻訳日:2024-05-17 15:30:35 公開日:2024-05-16
# LLMとシミュレーション : 物理科学的発見を促進するための新しいパラダイム

LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery ( http://arxiv.org/abs/2405.09783v1 )

ライセンス: Link先を確認
Pingchuan Ma, Tsun-Hsuan Wang, Minghao Guo, Zhiqing Sun, Joshua B. Tenenbaum, Daniela Rus, Chuang Gan, Wojciech Matusik, (参考訳) 大規模言語モデルは、その広範な知識と高度な推論能力から、科学的な発見に注目されている。 しかし、観測的なフィードバックを効果的にシミュレートし、物理的科学的発見の進歩を促進するために言語を接地するという課題に直面した。 逆に、人間の科学者は仮説を定式化し、実験を行い、観察分析を通じて理論を改訂することで科学的発見を行う。 そこで本研究では,LLMの知識駆動型抽象推論能力を,シミュレーションの計算強度で向上させることを提案する。 LLMは、物理方程式や分子構造などの離散的な要素についての科学的仮説と推論を提案し、シミュレーションは実験プラットフォームとして機能し、観測フィードバックを提供し、物理パラメータなどの連続的な部分に対する微分可能性を通じて最適化する。 提案手法は, 従来のヒトの期待と異なり, 解析上は一貫性が保たれている新しい解を提示し, 構成的法探索および分子設計における我々の枠組みの有効性を実証するための広範囲な実験を行った。

Large Language Models have recently gained significant attention in scientific discovery for their extensive knowledge and advanced reasoning capabilities. However, they encounter challenges in effectively simulating observational feedback and grounding it with language to propel advancements in physical scientific discovery. Conversely, human scientists undertake scientific discovery by formulating hypotheses, conducting experiments, and revising theories through observational analysis. Inspired by this, we propose to enhance the knowledge-driven, abstract reasoning abilities of LLMs with the computational strength of simulations. We introduce Scientific Generative Agent (SGA), a bilevel optimization framework: LLMs act as knowledgeable and versatile thinkers, proposing scientific hypotheses and reason about discrete components, such as physics equations or molecule structures; meanwhile, simulations function as experimental platforms, providing observational feedback and optimizing via differentiability for continuous parts, such as physical parameters. We conduct extensive experiments to demonstrate our framework's efficacy in constitutive law discovery and molecular design, unveiling novel solutions that differ from conventional human expectations yet remain coherent upon analysis.
翻訳日:2024-05-17 15:30:35 公開日:2024-05-16
# オンラインバイパーティイトマッチングと不完全なアドバイス

Online bipartite matching with imperfect advice ( http://arxiv.org/abs/2405.09784v1 )

ライセンス: Link先を確認
Davin Choo, Themis Gouleakis, Chun Kai Ling, Arnab Bhattacharyya, (参考訳) オンラインの非重み付き二部マッチングと$n$オフラインの頂点と$n$オンラインの頂点との問題は、最適なオフラインアルゴリズムと競合することを望んでいる。 Karp et al [1990] の古典的 RANKing アルゴリズムは、1-1/e > 1/2$ の競合比を確実に達成するが、1-一貫性と1/2$-robust よりも厳密に優れた学習拡張法は存在しないことを示す。 一方, ランダム到着モデルでは, オンライン頂点に対する外部アドバイスを取り入れ, アドバイスフリーで達成可能な任意の比率と, アドバイス品質に応じて最適な1の比率を補間するアルゴリズムを設計するために, 分散テストの手法をいかに活用できるかを示す。

We study the problem of online unweighted bipartite matching with $n$ offline vertices and $n$ online vertices where one wishes to be competitive against the optimal offline algorithm. While the classic RANKING algorithm of Karp et al. [1990] provably attains competitive ratio of $1-1/e > 1/2$, we show that no learning-augmented method can be both 1-consistent and strictly better than $1/2$-robust under the adversarial arrival model. Meanwhile, under the random arrival model, we show how one can utilize methods from distribution testing to design an algorithm that takes in external advice about the online vertices and provably achieves competitive ratio interpolating between any ratio attainable by advice-free methods and the optimal ratio of 1, depending on the advice quality.
翻訳日:2024-05-17 15:30:35 公開日:2024-05-16
# 識別可能な光子間の干渉

Interference between distinguishable photons ( http://arxiv.org/abs/2405.09785v1 )

ライセンス: Link先を確認
Manman Wang, Yanfeng Li, Hanqing Liu, Haiqiao Ni, Zhichuan Niu, Chengyong Hu, (参考訳) 2光子干渉(TPI)は、フォトニック量子技術の中心にある。 TPIは一般的に、同一の光子の区別不可能から生じる量子干渉と見なされるので、光子が識別可能であれば、TPIは消滅する、という共通の直観が一般的である。 ここでは、この視点を否定し、TPIの本質を明らかにする。 識別可能な光子間でのTPIの最初の実演を報告し、その周波数分離は線幅の最大10^4$である。 超長いコヒーレンス時間(>10\ \mu$s)を持つ独立レーザーと単一光子の間で時間分解型TPIを行う。 我々は、量子的特徴を示す古典的制限の50\%よりはるかに高い72\%\pm 2\%の最大TPI可視性と、古典的特徴を反映する50\%以下の古典的ビート視認性とを同時に観察する。 これらの振動は光子周波数分離とは独立であり、区別不可能な光子と区別不能な光子の差は示さない。 一般的な波動重畳モデルに基づいて、実験を完全再現し説明する相互相関関数を導出する。 その結果,TPIは相互コヒーレンス時間内における2次の2つの光子の干渉から発生し,TPIは光子の識別不能と関係がないことがわかった。 この研究は、量子光学とフォトニック量子技術の両方において大きな意味を持つTPIの性質に関する新たな洞察を提供する。

Two-photon interference (TPI) lies at the heart of photonic quantum technologies. TPI is generally regarded as quantum interference stemming from the indistinguishability of identical photons, hence a common intuition prevails that TPI would disappear if photons are distinguishable. Here we disprove this perspective and uncover the essence of TPI. We report the first demonstration of TPI between distinguishable photons with their frequency separation up to $10^4$ times larger than their linewidths. We perform time-resolved TPI between an independent laser and single photons with ultralong coherence time ($>10\ \mu$s). We observe a maximum TPI visibility of $72\%\pm 2\%$ well above the $50\%$ classical limit indicating the quantum feature, and simultaneously a broad visibility background and a classical beat visibility of less than $50\%$ reflecting the classical feature. These visibilities are independent of the photon frequency separation and show no difference between distinguishable and indistinguishable photons. Based on a general wave superposition model, we derive the cross-correlation functions which fully reproduce and explain the experiments. Our results reveal that TPI as the fourth-order interference arises from the second-order interference of two photons within the mutual coherence time and TPI is not linked to the photon indistinguishability. This work provides new insights into the nature of TPI with great implications in both quantum optics and photonic quantum technologies.
翻訳日:2024-05-17 15:30:35 公開日:2024-05-16
# IBD-PSC:パラメータ指向スケーリング一貫性による入力レベルのバックドア検出

IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency ( http://arxiv.org/abs/2405.09786v1 )

ライセンス: Link先を確認
Linshan Hou, Ruili Feng, Zhongyun Hua, Wei Luo, Leo Yu Zhang, Yiming Li, (参考訳) ディープニューラルネットワーク(DNN)はバックドア攻撃に対して脆弱であり、モデルトレーニング中に隠れたバックドアを埋め込むことで、敵が悪意を持ってモデルミス分類をトリガーすることができる。 本稿では,悪意のあるテスト画像のフィルタリングを行うため,簡易かつ効果的な入力レベルのバックドア検出(IBD-PSCと呼ばれる)を「ファイアウォール」として提案する。 本手法は, モデルパラメータを増幅する際, 有毒試料の予測信頼度が良性試料の予測値と著しく一致している, パラメータ指向スケーリング一貫性(PSC)という興味深い現象によって動機付けられている。 特に,PSC現象の基礎を守るために理論的解析を行う。 また, BN層を選択する適応的手法を設計し, 有効検出のためにスケールアップする。 IBD-PSC法の有効性と,適応攻撃に対する耐性を検証した。

Deep neural networks (DNNs) are vulnerable to backdoor attacks, where adversaries can maliciously trigger model misclassifications by implanting a hidden backdoor during model training. This paper proposes a simple yet effective input-level backdoor detection (dubbed IBD-PSC) as a 'firewall' to filter out malicious testing images. Our method is motivated by an intriguing phenomenon, i.e., parameter-oriented scaling consistency (PSC), where the prediction confidences of poisoned samples are significantly more consistent than those of benign ones when amplifying model parameters. In particular, we provide theoretical analysis to safeguard the foundations of the PSC phenomenon. We also design an adaptive method to select BN layers to scale up for effective detection. Extensive experiments are conducted on benchmark datasets, verifying the effectiveness and efficiency of our IBD-PSC method and its resistance to adaptive attacks.
翻訳日:2024-05-17 15:30:35 公開日:2024-05-16
# BraTS 2023頭蓋内髄膜腫分節障害の検討

Analysis of the BraTS 2023 Intracranial Meningioma Segmentation Challenge ( http://arxiv.org/abs/2405.09787v1 )

ライセンス: Link先を確認
Dominic LaBella, Ujjwal Baid, Omaditya Khanna, Shan McBurney-Lin, Ryan McLean, Pierre Nedelec, Arif Rashid, Nourel Hoda Tahon, Talissa Altes, Radhika Bhalerao, Yaseen Dhemesh, Devon Godfrey, Fathi Hilal, Scott Floyd, Anastasia Janas, Anahita Fathi Kazerooni, John Kirkpatrick, Collin Kent, Florian Kofler, Kevin Leu, Nazanin Maleki, Bjoern Menze, Maxence Pajot, Zachary J. Reitman, Jeffrey D. Rudie, Rachit Saluja, Yury Velichko, Chunhao Wang, Pranav Warman, Maruf Adewole, Jake Albrecht, Udunna Anazodo, Syed Muhammad Anwar, Timothy Bergquist, Sully Francis Chen, Verena Chung, Gian-Marco Conte, Farouk Dako, James Eddy, Ivan Ezhov, Nastaran Khalili, Juan Eugenio Iglesias, Zhifan Jiang, Elaine Johanson, Koen Van Leemput, Hongwei Bran Li, Marius George Linguraru, Xinyang Liu, Aria Mahtabfar, Zeke Meier, Ahmed W. Moawad, John Mongan, Marie Piraud, Russell Takeshi Shinohara, Walter F. Wiggins, Aly H. Abayazeed, Rachel Akinola, András Jakab, Michel Bilello, Maria Correia de Verdier, Priscila Crivellaro, Christos Davatzikos, Keyvan Farahani, John Freymann, Christopher Hess, Raymond Huang, Philipp Lohmann, Mana Moassefi, Matthew W. Pease, Phillipp Vollmuth, Nico Sollmann, David Diffley, Khanak K. Nandolia, Daniel I. Warren, Ali Hussain, Pascal Fehringer, Yulia Bronstein, Lisa Deptula, Evan G. Stein, Mahsa Taherzadeh, Eduardo Portela de Oliveira, Aoife Haughey, Marinos Kontzialis, Luca Saba, Benjamin Turner, Melanie M. T. Brüßeler, Shehbaz Ansari, Athanasios Gkampenis, David Maximilian Weiss, Aya Mansour, Islam H. Shawali, Nikolay Yordanov, Joel M. Stein, Roula Hourani, Mohammed Yahya Moshebah, Ahmed Magdy Abouelatta, Tanvir Rizvi, Klara Willms, Dann C. Martin, Abdullah Okar, Gennaro D'Anna, Ahmed Taha, Yasaman Sharifi, Shahriar Faghani, Dominic Kite, Marco Pinho, Muhammad Ammar Haider, Alejandro Aristizabal, Alexandros Karargyris, Hasan Kassem, Sarthak Pati, Micah Sheller, Michelle Alonso-Basanta, Javier Villanueva-Meyer, Andreas M. Rauschecker, Ayman Nada, Mariam Aboian, Adam E. Flanders, Benedikt Wiestler, Spyridon Bakas, Evan Calabrese, (参考訳) 頭蓋内髄膜腫手術におけるBraTS 2023の設計と成績について述べる。 BraTS Meningioma Challenge は以前の BraTS Glioma Challenge と異なり、髄膜腫に焦点を当てている。 参加する9つのチームは、これまで最大のマルチ機関の専門家による注釈付きマルチラベル型髄膜MRIデータセットのイメージデータを使用して、ディープラーニングの自動セグメンテーションモデルを開発した。 また,T2,T2/FLAIR,T1,T1Gd,T1Gd,T1Gd,T1Gd,T1Gd,T1Gd,T1Gd,T1Gd,T2/FLAIR,T2/FLAIR,T1Gd,T1Gd,T1Gd,T2/FLAIR,T1 Gd,T2/FLAIR,T2/FLAIR,T1Gd,T1Gd,T2/FLAIR,T1Gd,T2/FLAIR,T2/FLAIR,T1Gd,T2/FLAIR,T1Gd,T2/FLAIR,T1Gd,T1Gd ,T2,T1Gd,T1,T1Gd,T1。 ディス類似度係数 (DSC) と95%ハウスドルフ距離 (95%) を含む病変度評価システムを用いて, 参加者自動区分けモデルの評価と評価を行った。 上位分類群では, 腫瘍, 腫瘍コア, 腫瘍全体の増強にそれぞれ0.976, 0.976, 0.964, 対応する平均DSC 0.899, 0.904, 0.871の病変中央値が認められた。 これらの結果は、将来の手術前髄膜腫自動分節アルゴリズムの最先端ベンチマークとして機能する。 さらに,1424例中1286例(90.3%)は,頭蓋骨を張った画像縁の縁に少なくとも1個の分節ボクセルが付着していることが判明した。

We describe the design and results from the BraTS 2023 Intracranial Meningioma Segmentation Challenge. The BraTS Meningioma Challenge differed from prior BraTS Glioma challenges in that it focused on meningiomas, which are typically benign extra-axial tumors with diverse radiologic and anatomical presentation and a propensity for multiplicity. Nine participating teams each developed deep-learning automated segmentation models using image data from the largest multi-institutional systematically expert annotated multilabel multi-sequence meningioma MRI dataset to date, which included 1000 training set cases, 141 validation set cases, and 283 hidden test set cases. Each case included T2, T2/FLAIR, T1, and T1Gd brain MRI sequences with associated tumor compartment labels delineating enhancing tumor, non-enhancing tumor, and surrounding non-enhancing T2/FLAIR hyperintensity. Participant automated segmentation models were evaluated and ranked based on a scoring system evaluating lesion-wise metrics including dice similarity coefficient (DSC) and 95% Hausdorff Distance. The top ranked team had a lesion-wise median dice similarity coefficient (DSC) of 0.976, 0.976, and 0.964 for enhancing tumor, tumor core, and whole tumor, respectively and a corresponding average DSC of 0.899, 0.904, and 0.871, respectively. These results serve as state-of-the-art benchmarks for future pre-operative meningioma automated segmentation algorithms. Additionally, we found that 1286 of 1424 cases (90.3%) had at least 1 compartment voxel abutting the edge of the skull-stripped image edge, which requires further investigation into optimal pre-processing face anonymization steps.
翻訳日:2024-05-17 15:30:35 公開日:2024-05-16
# グラフィクスカード上のタンパク質の合成 : タンパク質のフォールディングと臨界AI研究の限界

Synthesizing Proteins on the Graphics Card. Protein Folding and the Limits of Critical AI Studies ( http://arxiv.org/abs/2405.09788v1 )

ライセンス: Link先を確認
Fabian Offert, Paul Kim, Qiaoyu Cai, (参考訳) 本稿では,DeepMindのAlphaFoldプロジェクトによって実証された,タンパク質折り畳みにおけるトランスフォーマーアーキテクチャの適用と,言語モデルとしての大規模言語モデルを理解する上での意義について考察する。 一般的な言説では、アミノ酸の配列としてコードされるタンパク質と、個別のシンボルの配列としてコードされる自然言語の間には、既製の類似性が存在すると仮定することが多い。 タンパク質の言語構造を仮定する代わりに、トランスフォーマーアーキテクチャーがもたらす知識形成の種類を評価するために、このアナロジーを批判的に評価する。 まず、アナロジーの出現と歴史的発展を辿り、構造言語学が構造生物学に与える影響を20世紀中頃から明らかにした。 次に、サブワードのトークン化、単語埋め込み、位置符号化など、トランスフォーマーアーキテクチャに不可欠な3つの前処理ステップについて検討し、連続した高次元ベクトル空間に基づく表現の仕組みを示す。 タンパク質の折り畳みにおけるトランスフォーマーの展開の成功は、アーキテクチャに固有のトークン処理に対する非言語的アプローチについて、我々は明らかにしている。 この非言語的な処理を通じて、トランスフォーマーアーキテクチャは独自の認識論的領域を彫り出し、確立されたドメインとは別個の新しい種類の知識を生み出している、と我々は主張する。 インテリジェントマシンの検索は、インテリジェンスの場所ではなく、形から始めなければならない、と私たちは主張する。 それゆえ、重要なAI研究の新興分野は、人工知能の知識創造への貢献を、ドメイン固有の科学内外へ概念化しようとする試みにおいて、科学の歴史から方法論的インスピレーションを得るべきである。

This paper investigates the application of the transformer architecture in protein folding, as exemplified by DeepMind's AlphaFold project, and its implications for the understanding of large language models as models of language. The prevailing discourse often assumes a ready-made analogy between proteins -- encoded as sequences of amino acids -- and natural language -- encoded as sequences of discrete symbols. Instead of assuming as given the linguistic structure of proteins, we critically evaluate this analogy to assess the kind of knowledge-making afforded by the transformer architecture. We first trace the analogy's emergence and historical development, carving out the influence of structural linguistics on structural biology beginning in the mid-20th century. We then examine three often overlooked pre-processing steps essential to the transformer architecture, including subword tokenization, word embedding, and positional encoding, to demonstrate its regime of representation based on continuous, high-dimensional vector spaces, which departs from the discrete, semantically demarcated symbols of language. The successful deployment of transformers in protein folding, we argue, discloses what we consider a non-linguistic approach to token processing intrinsic to the architecture. We contend that through this non-linguistic processing, the transformer architecture carves out unique epistemological territory and produces a new class of knowledge, distinct from established domains. We contend that our search for intelligent machines has to begin with the shape, rather than the place, of intelligence. Consequently, the emerging field of critical AI studies should take methodological inspiration from the history of science in its quest to conceptualize the contributions of artificial intelligence to knowledge-making, within and beyond the domain-specific sciences.
翻訳日:2024-05-17 15:30:35 公開日:2024-05-16
# LeMeViT:リモートセンシング画像解釈のための学習可能なメタトークンを用いた高能率視覚変換器

LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation ( http://arxiv.org/abs/2405.09789v1 )

ライセンス: Link先を確認
Wentao Jiang, Jing Zhang, Di Wang, Qiming Zhang, Zengmao Wang, Bo Du, (参考訳) リモートセンシング画像の空間的冗長性のため、豊富な情報を含むスパーストークンは、通常は自己注意(SA)にかかわって計算全体のトークン数を減らし、ビジョントランスフォーマーの計算コストの高さを避ける。 しかし、このような手法は通常手作りまたは平行にない設計でスパーストークンを入手し、効率と性能のバランスを良くすることの難しさを浮き彫りにしている。 そこで本研究では,学習可能なメタトークンを用いてスパーストークンを定式化する手法を提案する。 技術的には、メタトークンは、クロスアテンションを介して画像トークンから最初に初期化される。 次に、画像トークンとメタトークン間の情報交換を促進するために、デュアルブランチ構造でクエリとキー(値)トークンとして機能し、自己アテンションと比較して計算複雑性を著しく低減するデュアルクロスアテンション(DCA)を提案する。 DCAを高密度な視覚トークンで初期的に利用することにより、様々な大きさの階層型アーキテクチャLeMeViTが得られる。 分類と密集した予測タスクの実験結果から、LeMeViTはベースラインモデルと比較して1.7 \times$スピードアップ、少ないパラメータ、競争性能を有しており、効率と性能のトレードオフがより優れていることが示されている。

Due to spatial redundancy in remote sensing images, sparse tokens containing rich information are usually involved in self-attention (SA) to reduce the overall token numbers within the calculation, avoiding the high computational cost issue in Vision Transformers. However, such methods usually obtain sparse tokens by hand-crafted or parallel-unfriendly designs, posing a challenge to reach a better balance between efficiency and performance. Different from them, this paper proposes to use learnable meta tokens to formulate sparse tokens, which effectively learn key information meanwhile improving the inference speed. Technically, the meta tokens are first initialized from image tokens via cross-attention. Then, we propose Dual Cross-Attention (DCA) to promote information exchange between image tokens and meta tokens, where they serve as query and key (value) tokens alternatively in a dual-branch structure, significantly reducing the computational complexity compared to self-attention. By employing DCA in the early stages with dense visual tokens, we obtain the hierarchical architecture LeMeViT with various sizes. Experimental results in classification and dense prediction tasks show that LeMeViT has a significant $1.7 \times$ speedup, fewer parameters, and competitive performance compared to the baseline models, and achieves a better trade-off between efficiency and performance.
翻訳日:2024-05-17 15:30:35 公開日:2024-05-16
# Human-AIの安全性: 生成AIと制御システムの安全性の子孫

Human-AI Safety: A Descendant of Generative AI and Control Systems Safety ( http://arxiv.org/abs/2405.09794v1 )

ライセンス: Link先を確認
Andrea Bajcsy, Jaime F. Fisac, (参考訳) 生成的人工知能(AI)は、前例のない規模で人々と対話し、大きなポジティブな影響をもたらす新たな道を提供する一方で、個人や社会的な害の可能性を広く懸念している。 今日、人間とAIの安全性のための主要なパラダイムは、生成モデルのアウトプットを微調整することであり、人間が提供する例やフィードバックによりよく一致する。 しかし、実際には、AIモデルのアウトプットの結果は、独立したコンテキストでは決定できない。 本稿では,AIのアウトプットと人間の行動によって形成されるフィードバックループが,異なる結果に向けてどのように相互作用するかを推論することによって,これらのAI技術の有意義な安全保証を実現することができると論じる。 この目的のために、私たちは、生成AIの急速に成長する能力と制御理論からの動的安全フレームワークを橋渡しする、価値の高い機会の窓を構想し、今後数十年で人間中心のAI安全のための新しい基盤を構築します。

Generative artificial intelligence (AI) is interacting with people at an unprecedented scale, offering new avenues for immense positive impact, but also raising widespread concerns around the potential for individual and societal harm. Today, the predominant paradigm for human-AI safety focuses on fine-tuning the generative model's outputs to better agree with human-provided examples or feedback. In reality, however, the consequences of an AI model's outputs cannot be determined in an isolated context: they are tightly entangled with the responses and behavior of human users over time. In this position paper, we argue that meaningful safety assurances for these AI technologies can only be achieved by reasoning about how the feedback loop formed by the AI's outputs and human behavior may drive the interaction towards different outcomes. To this end, we envision a high-value window of opportunity to bridge the rapidly growing capabilities of generative AI and the dynamical safety frameworks from control theory, laying a new foundation for human-centered AI safety in the coming decades.
翻訳日:2024-05-17 15:30:35 公開日:2024-05-16
# 因子実験における単軸効果の同定

Identification of Single-Treatment Effects in Factorial Experiments ( http://arxiv.org/abs/2405.09797v1 )

ライセンス: Link先を確認
Guilherme Duarte, (参考訳) その費用にもかかわらず、ランダム化比較試験(RCT)は、社会科学から医学まで幅広い分野において、ゴールドスタンダードの証拠として広く見なされている。 近年、多くの医薬品や製品の効果を同時に評価する実験など、複数の仮説を同時にテストする因子的設計による繰り返しRTTの資源負担を減らそうとする研究が増えている。 ここでは、実験において複数の介入がランダム化されている場合、実験環境外において単一の介入が与える効果は、たとえ完全に現実的な条件が達成されたとしても、非英雄的な仮定を特定できないことを示す。 これは、単一処理効果が単一の焦点介入を伴う反現実の世界を巻き込み、他の変数が自然の値を取ることを可能にするためである(これは焦点介入によって構築または修正されることもある)。 対照的に、観測的研究と因子的実験は、それぞれゼロと多重の介入を伴う潜在的なアウトカム分布に関する情報を提供する。 本稿では,これらの孤立量の同定に十分な条件を定式化する。 この種の設計を頼りにしている研究者は、関数形式の線型性、あるいは非パラメトリックな場合において、実際にどのように変数が関連しているかをDirected Acyclic Graphsで指定する必要があることを示します。 最後に、エフェクトサインに関する外挿が実験的に正当化されたときを示す非パラメトリックなシャープ境界、すなわち、制限されたRCTデータと一致する最大情報的ベスト/ウォーストケース推定を開発する。 これらの新しい結果はシミュレーションデータで示される。

Despite their cost, randomized controlled trials (RCTs) are widely regarded as gold-standard evidence in disciplines ranging from social science to medicine. In recent decades, researchers have increasingly sought to reduce the resource burden of repeated RCTs with factorial designs that simultaneously test multiple hypotheses, e.g. experiments that evaluate the effects of many medications or products simultaneously. Here I show that when multiple interventions are randomized in experiments, the effect any single intervention would have outside the experimental setting is not identified absent heroic assumptions, even if otherwise perfectly realistic conditions are achieved. This happens because single-treatment effects involve a counterfactual world with a single focal intervention, allowing other variables to take their natural values (which may be confounded or modified by the focal intervention). In contrast, observational studies and factorial experiments provide information about potential-outcome distributions with zero and multiple interventions, respectively. In this paper, I formalize sufficient conditions for the identifiability of those isolated quantities. I show that researchers who rely on this type of design have to justify either linearity of functional forms or -- in the nonparametric case -- specify with Directed Acyclic Graphs how variables are related in the real world. Finally, I develop nonparametric sharp bounds -- i.e., maximally informative best-/worst-case estimates consistent with limited RCT data -- that show when extrapolations about effect signs are empirically justified. These new results are illustrated with simulated data.
翻訳日:2024-05-17 15:30:35 公開日:2024-05-16
# マルチモーダル基礎モデルにおける多面的インテクスト学習

Many-Shot In-Context Learning in Multimodal Foundation Models ( http://arxiv.org/abs/2405.09798v1 )

ライセンス: Link先を確認
Yixing Jiang, Jeremy Irvin, Ji Hun Wang, Muhammad Ahmed Chaudhry, Jonathan H. Chen, Andrew Y. Ng, (参考訳) 大規模言語モデルは、文脈内学習(ICL)において効果的であることが知られている。 マルチモーダル基礎モデルの最近の進歩は、前例のない長いコンテキストウインドウを可能にし、多くの実例でICLを実行する能力を探究する機会を与えている。 本研究では,マルチモーダルファンデーションモデルの性能を,少数ショットから多ショット ICL に拡張した上で評価する。 GPT-4oとGemini 1.5 Proを、複数の領域(自然画像、医用画像、リモートセンシング、分子画像)とタスク(マルチクラス、マルチラベル、きめ細かい分類)にまたがる10のデータセットで比較した。 最大2000のマルチモーダルな実例を含む多ショットICLは、全データセットにわたる少数ショット(<100例)ICLと比較して大幅に改善されている。 さらに、Gemini 1.5 Proのパフォーマンスは、多くのデータセットでテストされたサンプルの最大数まで、ログ行数の改善を続けている。 マルチショットICLに必要な長いプロンプトに関連する高い推論コストを考えると、単一のAPIコールで複数のクエリをバッチ化することの影響についても検討する。 最大50のクエリをバッチすることで、ゼロショットとマルチショットのICLでパフォーマンスが向上し、複数のデータセットでのゼロショット設定が大幅に向上すると同時に、クエリ毎のコストとレイテンシを大幅に削減できることを示す。 最後に、モデルのICLデータ効率、あるいはモデルがより実証的な例から学ぶ速度を測定する。 GPT-4oとGemini 1.5 Proはデータセット全体で同様のゼロショットのパフォーマンスを達成するが、Gemini 1.5 ProはほとんどのデータセットでGPT-4oよりも高いICLデータ効率を示す。 この結果から,マルチモーダル基礎モデルを新しいアプリケーションやドメインに効率的に適用できる可能性が示唆された。 私たちのコードベースはhttps://github.com/stanfordmlgroup/ManyICLで公開されています。

Large language models are well-known to be effective at few-shot in-context learning (ICL). Recent advancements in multimodal foundation models have enabled unprecedentedly long context windows, presenting an opportunity to explore their capability to perform ICL with many more demonstrating examples. In this work, we evaluate the performance of multimodal foundation models scaling from few-shot to many-shot ICL. We benchmark GPT-4o and Gemini 1.5 Pro across 10 datasets spanning multiple domains (natural imagery, medical imagery, remote sensing, and molecular imagery) and tasks (multi-class, multi-label, and fine-grained classification). We observe that many-shot ICL, including up to almost 2,000 multimodal demonstrating examples, leads to substantial improvements compared to few-shot (<100 examples) ICL across all of the datasets. Further, Gemini 1.5 Pro performance continues to improve log-linearly up to the maximum number of tested examples on many datasets. Given the high inference costs associated with the long prompts required for many-shot ICL, we also explore the impact of batching multiple queries in a single API call. We show that batching up to 50 queries can lead to performance improvements under zero-shot and many-shot ICL, with substantial gains in the zero-shot setting on multiple datasets, while drastically reducing per-query cost and latency. Finally, we measure ICL data efficiency of the models, or the rate at which the models learn from more demonstrating examples. We find that while GPT-4o and Gemini 1.5 Pro achieve similar zero-shot performance across the datasets, Gemini 1.5 Pro exhibits higher ICL data efficiency than GPT-4o on most datasets. Our results suggest that many-shot ICL could enable users to efficiently adapt multimodal foundation models to new applications and domains. Our codebase is publicly available at https://github.com/stanfordmlgroup/ManyICL .
翻訳日:2024-05-17 15:20:51 公開日:2024-05-16
# Manifold Integrated Gradients: Riemannian Geometry for Feature Attribution

Manifold Integrated Gradients: Riemannian Geometry for Feature Attribution ( http://arxiv.org/abs/2405.09800v1 )

ライセンス: Link先を確認
Eslam Zaher, Maciej Trzaskowski, Quan Nguyen, Fred Roosta, (参考訳) 本稿では,ブラックボックス深層学習モデルにおける特徴帰属手法であるIG(Integrated Gradients)の信頼性に関する考察を行う。 特に、視覚モデルにおけるノイズの多い特徴可視化の生成と、敵の帰属攻撃に対する脆弱性という、IGに関連する2つの主要な課題に対処する。 提案手法は,データ多様体の内在的幾何とより密接に関連し,経路に基づく特徴属性の適応を伴う。 実験では,複数の実世界の画像データセットに適用した深層生成モデルを用いた。 彼らは、測地線に沿った IG がリーマンデータ多様体の曲線幾何学に沿うことを証明し、より知覚的に直感的な説明を生み出し、その結果、ターゲットの帰属攻撃に対するロバスト性を大幅に増大させる。

In this paper, we dive into the reliability concerns of Integrated Gradients (IG), a prevalent feature attribution method for black-box deep learning models. We particularly address two predominant challenges associated with IG: the generation of noisy feature visualizations for vision models and the vulnerability to adversarial attributional attacks. Our approach involves an adaptation of path-based feature attribution, aligning the path of attribution more closely to the intrinsic geometry of the data manifold. Our experiments utilise deep generative models applied to several real-world image datasets. They demonstrate that IG along the geodesics conforms to the curved geometry of the Riemannian data manifold, generating more perceptually intuitive explanations and, subsequently, substantially increasing robustness to targeted attributional attacks.
翻訳日:2024-05-17 15:20:51 公開日:2024-05-16
# コンピュータビジョンとLSTMネットワークを用いた太陽コロナホールの解析と予測モデリング

Analysis and Predictive Modeling of Solar Coronal Holes Using Computer Vision and LSTM Networks ( http://arxiv.org/abs/2405.09802v1 )

ライセンス: Link先を確認
Juyoung Yun, Jungmin Shin, (参考訳) 宇宙探査の時代には、太陽上のコロナホールは、オープン磁場による衛星や航空機への影響と太陽風の放出の増加により重要な役割を担っている。 本研究では,SDO(Solar Dynamics Observatory)の画像を用いて,コロナホール領域を検出し,その大きさを推定するコンピュータビジョン技術を用いた。 さらに, 深層学習, 特にLong Short-Term Memory (LSTM) ネットワークを用いて, コロナホールの領域の傾向を分析し, 7日間にわたって, 様々な太陽地域にわたってその領域を予測する。 時系列データを調べることで、コロナホールの挙動のパターンを特定し、宇宙気象に対するその潜在的な影響を理解することを目指している。 この研究は、地球の技術システムに影響を与える可能性のある宇宙天気イベントを予測し、準備する能力を高める。

In the era of space exploration, coronal holes on the sun play a significant role due to their impact on satellites and aircraft through their open magnetic fields and increased solar wind emissions. This study employs computer vision techniques to detect coronal hole regions and estimate their sizes using imagery from the Solar Dynamics Observatory (SDO). Additionally, we utilize deep learning methods, specifically Long Short-Term Memory (LSTM) networks, to analyze trends in the area of coronal holes and predict their areas across various solar regions over a span of seven days. By examining time series data, we aim to identify patterns in coronal hole behavior and understand their potential effects on space weather. This research enhances our ability to anticipate and prepare for space weather events that could affect Earth's technological systems.
翻訳日:2024-05-17 15:20:51 公開日:2024-05-16
# 単位ディスクグラフの最大重み付き独立集合を見つけるための量子アニール法

Quantum annealing for finding maximum-weight independent set of unit-disk graphs ( http://arxiv.org/abs/2405.09803v1 )

ライセンス: Link先を確認
Ahmed M. Farouk, I. I. Beterov, Peng Xu, I. I. Ryabtsev, (参考訳) 近年の量子コンピューティングと、Rydbergの励起を用いた中性原子配列を持つ多体系の量子シミュレーションは、様々な最適化問題の解法における計算上の優位性に対する予期せぬ機会をもたらした。 単位ディスクグラフの最大ウェイト独立集合(MWIS)の問題はNPハード最適化問題の例である。 それは、単位距離内で全ての頂点を接続するエッジを持つグラフに対して、その重みの最大和を持つ最大の頂点の集合を見つけることを含む。 この問題は、相互作用するRydberg原子の配列を持つ量子アニールを用いて解決できる。 特定のグラフに対して、原子の空間配置はグラフの頂点を表し、一方、リドベルクの励起における共鳴からの変形はこれらの頂点の重みを定義する。 グラフのエッジは単位ディスク基準に従って描画することができる。 MWISは変分量子断熱アルゴリズム(VQAA)を適用することで得られる。 相互作用する原子の量子系を多体基底状態に駆動し,非線形準断熱プロファイルを用いてライドバーグデチューニングを網羅する。 また、異なる化学元素の補助原子の集合である量子ワイヤを用いて、グラフの遠隔頂点間の強い結合を媒介する。 量子ワイヤの異なる長さに対するこの効果について検討する。 また,原子配列の1次元および2次元空間配置におけるコンメニュレートおよび非コンメニュレート相を実現する物質の量子相についても検討した。

Recent progress in quantum computing and quantum simulation of many-body systems with arrays of neutral atoms using Rydberg excitation brought unforeseen opportunities towards computational advantage in solving various optimization problems. The problem of maximum-weight independent set (MWIS) of unit-disk graphs is an example of NP-hard optimization problems. It involves finding the largest set of vertices with the maximum sum of their weights for a graph which has edges connecting all pairs of vertices within a unit distance. This problem can be solved using quantum annealing with an array of interacting Rydberg atoms. For a particular graph, a spatial arrangement of atoms represents vertices of the graph, while the detuning from the resonance at Rydberg excitation defines weights of these vertices. The edges of the graph can be drawn according to the unit disk criterion. MWIS can be obtained by applying a variational quantum adiabatic algorithm (VQAA). We consider driving the quantum system of interacting atoms to the many-body ground state using a non-linear quasi-adiabatic profile for sweeping the Rydberg detuning. We also propose using a quantum wire which is a set of auxiliary atoms of a different chemical element to mediate strong coupling between the remote vertices of the graph. We investigate this effect for different lengths of the quantum wire. We also investigate the quantum phases of matter realizing commensurate and incommensurate phases in 1D and 2D spatial arrangement of the atomic array.
翻訳日:2024-05-17 15:20:51 公開日:2024-05-16
# SecureLLM: 構成性を使って、プライベート、センシティブ、シークレットデータのためのおそらくセキュアな言語モデルを構築する

SecureLLM: Using Compositionality to Build Provably Secure Language Models for Private, Sensitive, and Secret Data ( http://arxiv.org/abs/2405.09805v1 )

ライセンス: Link先を確認
Abdulrahman Alabdulakreem, Christian M Arnold, Yerim Lee, Pieter M Feenstra, Boris Katz, Andrei Barbu, (参考訳) 従来のセキュリティメカニズムは、アクセスすべきでないユーザからリソースを分離する。 我々は,このようなセキュリティ機構の構成特性を LLM の構造に反映して,確実にセキュアな LLM を構築する。 LLMの安全性に対する他のアプローチは、悪いアクターや悪い結果から保護しようとするが、機密データに適さない程度にしかできない。 SecureLLMは、アクセスセキュリティと微調整メソッドをブレンドする。 各データサイロは個別の微調整に関連付けられており、ユーザーは許可された微調整のコレクションのみにアクセスすることができる。 次に、モデルはそれらのデータサイロの交差点における構成上のタスクと、それらの個々の微調整の組み合わせで実行しなければなりません。 ドキュメントQAやAPI呼び出しといったタスクにも適用可能ですが、この作業では、自然言語からSQLへの翻訳機能を提供するために、新しいSQLデータベースのレイアウトを学習するモデルに関心があります。 既存の微調整コンポジションメソッドは、構成タスクを扱うのに十分な装備がないため、この困難な環境では失敗する。 構成性はLLMにとって依然として課題である。 我々は、難易度の高い新しい自然言語-SQL翻訳タスクと、今日安全な環境にモデルをデプロイできるLLMセキュリティに関する新しい視点の両方に貢献する。

Traditional security mechanisms isolate resources from users who should not access them. We reflect the compositional nature of such security mechanisms back into the structure of LLMs to build a provably secure LLM; that we term SecureLLM. Other approaches to LLM safety attempt to protect against bad actors or bad outcomes, but can only do so to an extent making them inappropriate for sensitive data. SecureLLM blends access security with fine-tuning methods. Each data silo has associated with it a separate fine-tuning and a user has access only to the collection of fine-tunings that they have permission for. The model must then perform on compositional tasks at the intersection of those data silos with the combination of those individual fine-tunings. While applicable to any task like document QA or making API calls, in this work we concern ourselves with models that learn the layouts of new SQL databases to provide natural-language-to-SQL translation capabilities. Existing fine-tuning composition methods fail in this challenging environment, as they are not well-equipped for handling compositional tasks. Compositionality remains a challenge for LLMs. We contribute both a difficult new compositional natural-language-to-SQL translation task and a new perspective on LLM security that allows models to be deployed to secure environments today.
翻訳日:2024-05-17 15:20:51 公開日:2024-05-16
# MediSyn:広帯域医用2次元および3次元画像合成のためのテキストガイド拡散モデル

MediSyn: Text-Guided Diffusion Models for Broad Medical 2D and 3D Image Synthesis ( http://arxiv.org/abs/2405.09806v1 )

ライセンス: Link先を確認
Joseph Cho, Cyril Zakka, Rohan Shad, Ross Wightman, Akshay Chaudhari, William Hiesinger, (参考訳) 拡散モデルは最近、テキストプロンプトに条件付けされた高忠実で多様な画像やビデオを生成する能力により、大きな注目を集めている。 医学において、このアプリケーションは、データの不足、データ共有における障壁、厳格な患者のプライバシー規制、および患者の人口と人口の格差による重要な課題に対処することを約束する。 リアルで多様な2Dおよび3D画像を生成することによって、これらのモデルは、アルゴリズムによるトレーニングと研究のためのリッチでプライバシーを尊重するリソースを提供する。 そこで本研究では,高忠実で多彩な医療用2Dおよび3D画像を特殊・モダリティにまたがって生成することのできる,テキスト誘導型遅延拡散モデルであるMediSynを紹介する。 確立された指標により,テキストプロンプトによる医用画像とビデオ合成の大幅な改善が示された。

Diffusion models have recently gained significant traction due to their ability to generate high-fidelity and diverse images and videos conditioned on text prompts. In medicine, this application promises to address the critical challenge of data scarcity, a consequence of barriers in data sharing, stringent patient privacy regulations, and disparities in patient population and demographics. By generating realistic and varying medical 2D and 3D images, these models offer a rich, privacy-respecting resource for algorithmic training and research. To this end, we introduce MediSyn, a pair of instruction-tuned text-guided latent diffusion models with the ability to generate high-fidelity and diverse medical 2D and 3D images across specialties and modalities. Through established metrics, we show significant improvement in broad medical image and video synthesis guided by text prompts.
翻訳日:2024-05-17 15:20:51 公開日:2024-05-16
# 単光子レベルの独立パルスの位相スペクトルを特徴付ける香港・奥羽マンデルディップからの位相検索

Phase Retrieval from the Hong-Ou-Mandel Dip to Characterize the Phase Spectrum of Independent Pulses at the Single-Photon Level ( http://arxiv.org/abs/2405.09808v1 )

ライセンス: Link先を確認
Yuhang Lei, Wen Zhao, Liang Cui, Xiaoying Li, (参考訳) 単一光子レベルで位相スペクトルを測定することは、量子源の時間スペクトルモードの完全な特徴付けに不可欠である。 本手法は,香港-奥羽-マンデル干渉パターンと強度スペクトルから2つの独立パルス間の位相スペクトル差を復元する。 コヒーレント状態パルスによる確認実験では、回復した位相スペクトル差の精度がプラスまたは0.1半径以下であることが確認された。 本手法は, 単一光子波束および相関光子対の測定に容易に一般化可能である。

Measuring the phase spectrum at the single-photon level is essential for the full characterization of the temporal-spectral mode of quantum sources. We present a phase retrieval algorithm-based method to recover the phase spectrum difference between two independent pulses from their Hong-Ou-Mandel interference pattern and intensity spectra. Our confirmatory experiment with coherent state pulses confirms the accuracy of the recovered phase spectrum difference to within plus or minus 0.1 rad. The method we employ is readily generalizable to the measurement of single-photon wave packets and even correlated photon pairs.
翻訳日:2024-05-17 15:20:51 公開日:2024-05-16
# 有機偏光子物理のモデリングにおける平均場と累積的アプローチ

Mean-field and cumulant approaches to modelling organic polariton physics ( http://arxiv.org/abs/2405.09812v1 )

ライセンス: Link先を確認
Piper Fowler-Wright, (参考訳) この論文では、多体オープン量子系の手法を開発し、有機偏光子の系に応用する。 これらの手法は,大規模問題の次元性を低減するために平均場法を用いている。 当初、多体状態における相関関係の欠如を前提として、このアプローチは2つの方法で構築されている。 まず、平均場近似を行列積演算子法と組み合わせて、複数の環境に強い結合を持つ多体系のマルコフ力学を効率的にシミュレートする方法を示す。 本研究では, 有機レーザーの現実的モデルに対するしきい値と発光の計算に本手法を適用した。 第2に,ハイゼンベルクの運動方程式の累積展開を通じて,高次相関を体系的に含んで平均場記述を拡張した。 本稿では,多対一のネットワーク構造を持つ多体システムに対する拡張順序およびシステムサイズに関して,これらの拡張の有効性と収束性について検討する。 次に, 有機分極の空間分解ダイナミクスを計算するために, 累積膨張を用いた方法を示す。 これにより、ダークエキシトン状態への可逆変換とサブグループ速度伝播を観察できる有機ポラリトン輸送の研究が可能になる。 この研究で確立された手法は、大規模で多体なオープン量子系を分析し、有限サイズの効果を調べるための多用途ツールを提供する。 これらの応用は、強い光-物質結合と振動効果の相互作用によって生じる有機偏光子の複雑なダイナミクスを明らかにする。

In this thesis we develop methods for many-body open quantum systems and apply them to systems of organic polaritons. The methods employ a mean-field approach to reduce the dimensionality of large-scale problems. Initially assuming the absence of correlations in the many-body state, this approach is built upon in two ways. First, we show how the mean-field approximation can be combined with matrix product operator methods to efficiently simulate the non-Markovian dynamics of a many-body system with strong coupling to multiple environments. We apply this method to calculate the threshold and photoluminescence for a realistic model of an organic laser. Second, we extend the mean-field description by systematically including higher-order correlations via cumulant expansions of the Heisenberg equations of motion. We investigate the validity and convergence properties of these expansions, both with respect to expansion order and system size, for many-body systems with many-to-one network structures. We then show how the cumulant expansions may be used to calculate spatially resolved dynamics of organic polaritons. This enables a study of organic polariton transport in which we observe reversible conversion to dark exciton states and sub-group-velocity propagation. The methods established in this work offer versatile tools for analysing large, many-body open quantum systems and investigating finite-size effects. Their application reveals the intricate dynamics of organic polaritons resulting from the interplay of strong light-matter coupling and vibrational effects.
翻訳日:2024-05-17 15:20:51 公開日:2024-05-16
# セマンティック・ジェスティキュレータ:セマンティックスを意識した共音声ジェスチャ合成

Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis ( http://arxiv.org/abs/2405.09814v1 )

ライセンス: Link先を確認
Zeyi Zhang, Tenglong Ao, Yuyao Zhang, Qingzhe Gao, Chuan Lin, Baoquan Chen, Libin Liu, (参考訳) 本稿では,セマンティック・ゲスティキュレータについて紹介する。セマンティック・ゲスティキュレータは,セマンティック・ジェスチャと強いセマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマン 意味的に意味のあるジェスチャーは、効果的な非言語コミュニケーションには不可欠であるが、このようなジェスチャーは、自然の人間の動きの分布の長い尾にしばしば収まる。 これらの動きの空間性は、中程度の大きさのデータセットに基づいて訓練された深層学習に基づくシステムにおいて、動きと対応する音声意味論の関係を捉えることを困難にしている。 この課題に対処するため,我々は大規模言語モデルに基づく生成的検索フレームワークを開発した。 このフレームワークは、入力音声に応答して、動作ライブラリから適切な意味ジェスチャ候補を効率的に検索する。 この動作ライブラリを構築するために,言語学の知見に基づく一般的な意味ジェスチャの包括的リストを要約し,身体と手の動きを包含する高品質な動作データセットを収集する。 また,音声のリズムに合う高品質なジェスチャーを生成可能な,音声への強力な一般化機能を備えた新しいGPTモデルも設計する。 さらに,検索したセマンティックジェスチャをGPTの出力と効率的に整合させるセマンティックアライメント機構を提案し,最終的なアニメーションの自然性を保証する。 本システムは, 包括的サンプル収集によって証明されたように, リズミカルコヒーレントかつ意味論的に明確なジェスチャーを生成する上で, 堅牢性を示す。 ユーザスタディは,結果の質と人間的類似性を検証し,我々のシステムは,意味的適切性の観点から,最先端のシステムよりも明確なマージンで優れていることを示す。

In this work, we present Semantic Gesticulator, a novel framework designed to synthesize realistic gestures accompanying speech with strong semantic correspondence. Semantically meaningful gestures are crucial for effective non-verbal communication, but such gestures often fall within the long tail of the distribution of natural human motion. The sparsity of these movements makes it challenging for deep learning-based systems, trained on moderately sized datasets, to capture the relationship between the movements and the corresponding speech semantics. To address this challenge, we develop a generative retrieval framework based on a large language model. This framework efficiently retrieves suitable semantic gesture candidates from a motion library in response to the input speech. To construct this motion library, we summarize a comprehensive list of commonly used semantic gestures based on findings in linguistics, and we collect a high-quality motion dataset encompassing both body and hand movements. We also design a novel GPT-based model with strong generalization capabilities to audio, capable of generating high-quality gestures that match the rhythm of speech. Furthermore, we propose a semantic alignment mechanism to efficiently align the retrieved semantic gestures with the GPT's output, ensuring the naturalness of the final animation. Our system demonstrates robustness in generating gestures that are rhythmically coherent and semantically explicit, as evidenced by a comprehensive collection of examples. User studies confirm the quality and human-likeness of our results, and show that our system outperforms state-of-the-art systems in terms of semantic appropriateness by a clear margin.
翻訳日:2024-05-17 15:20:51 公開日:2024-05-16
# 不連続および非定常データのための完全ベイズニューラルネットワークによるアクティブラーニング

Active Learning with Fully Bayesian Neural Networks for Discontinuous and Nonstationary Data ( http://arxiv.org/abs/2405.09817v1 )

ライセンス: Link先を確認
Maxim Ziatdinov, (参考訳) アクティブラーニングは、どの実験やシミュレーションを行うかを戦略的に選択することで、大きなパラメータ空間の探索を最適化する。 このアプローチの重要な構成要素は確率的代理モデル(一般にガウス過程(GP))であり、制御パラメータと対象特性の間の未知の機能的関係を近似する。 しかし、従来のGPは不連続性や非定常性を持つシステムに適用した場合にしばしば苦労し、代替モデルの探索を急がせた。 この制限は、しばしば異なる状態間の急激な遷移と、物理的性質の素早い変化によって特徴づけられる物理科学の問題に特に関係している。 FBNN(Fully Bayesian Neural Networks)は、すべてのニューラルネットワーク重みを確率的に扱い、高度なマルコフ連鎖モンテカルロ法を利用して後部分布から直接サンプリングする、有望な代用として機能する。 このアプローチにより、FBNNは、アクティブな学習環境における不確実性の下で情報的決定を行う上で不可欠な、信頼性の高い予測分布を提供することができる。 伝統的に「ビッグデータ」アプリケーションには計算コストが高すぎると考えられてきたが、多くの物理科学問題は比較的低次元のパラメータ空間において少量のデータを含む。 本稿では,FBNNの「小型データ」システムにおけるアクティブな学習課題に対するNo-U-Turn Samplerによる適合性と性能を評価し,物理科学における問題に関連するテスト機能に対する予測精度と信頼性を高める可能性を明らかにする。

Active learning optimizes the exploration of large parameter spaces by strategically selecting which experiments or simulations to conduct, thus reducing resource consumption and potentially accelerating scientific discovery. A key component of this approach is a probabilistic surrogate model, typically a Gaussian Process (GP), which approximates an unknown functional relationship between control parameters and a target property. However, conventional GPs often struggle when applied to systems with discontinuities and non-stationarities, prompting the exploration of alternative models. This limitation becomes particularly relevant in physical science problems, which are often characterized by abrupt transitions between different system states and rapid changes in physical property behavior. Fully Bayesian Neural Networks (FBNNs) serve as a promising substitute, treating all neural network weights probabilistically and leveraging advanced Markov Chain Monte Carlo techniques for direct sampling from the posterior distribution. This approach enables FBNNs to provide reliable predictive distributions, crucial for making informed decisions under uncertainty in the active learning setting. Although traditionally considered too computationally expensive for 'big data' applications, many physical sciences problems involve small amounts of data in relatively low-dimensional parameter spaces. Here, we assess the suitability and performance of FBNNs with the No-U-Turn Sampler for active learning tasks in the 'small data' regime, highlighting their potential to enhance predictive accuracy and reliability on test functions relevant to problems in physical sciences.
翻訳日:2024-05-17 15:20:51 公開日:2024-05-16
# Chameleon: 混合モードのアーリーフュージョンモデル

Chameleon: Mixed-Modal Early-Fusion Foundation Models ( http://arxiv.org/abs/2405.09818v1 )

ライセンス: Link先を確認
Chameleon Team, (参考訳) 任意の順序で画像やテキストを理解・生成できる早期融合トークンベースの混合モードモデルであるChameleonを提案する。 アーリーフュージョン、トークンベース、混合モーダル設定に適した、インセプション、アライメントレシピ、アーキテクチャパラメータ化から安定したトレーニングアプローチを概説する。 モデルは、視覚的質問応答、画像キャプション、テキスト生成、画像生成、長期混合モーダル生成など、包括的なタスクに基づいて評価される。 Chameleonは、画像キャプションタスクにおける最先端のパフォーマンス、テキストのみのタスクでのLlama-2のパフォーマンス、Mixtral 8x7BやGemini-Proといったモデルとの競合、そして、すべて単一のモデルで非自明な画像生成など、幅広い、一般的な機能を示している。 Gemini Pro や GPT-4V など、はるかに大きなモデルのパフォーマンスを、新たな長文の混合モーダル生成評価による人為的な判断で一致させたり超えたりもします。 Chameleonは、完全なマルチモーダルドキュメントの統一モデリングにおいて、重要な一歩を踏み出した。

We present Chameleon, a family of early-fusion token-based mixed-modal models capable of understanding and generating images and text in any arbitrary sequence. We outline a stable training approach from inception, an alignment recipe, and an architectural parameterization tailored for the early-fusion, token-based, mixed-modal setting. The models are evaluated on a comprehensive range of tasks, including visual question answering, image captioning, text generation, image generation, and long-form mixed modal generation. Chameleon demonstrates broad and general capabilities, including state-of-the-art performance in image captioning tasks, outperforms Llama-2 in text-only tasks while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and performs non-trivial image generation, all in a single model. It also matches or exceeds the performance of much larger models, including Gemini Pro and GPT-4V, according to human judgments on a new long-form mixed-modal generation evaluation, where either the prompt or outputs contain mixed sequences of both images and text. Chameleon marks a significant step forward in a unified modeling of full multimodal documents.
翻訳日:2024-05-17 15:20:51 公開日:2024-05-16
# 機械学習とシステムを統合するMLOpsにおけるモデルのトレーニングとデプロイの自動化

Automating the Training and Deployment of Models in MLOps by Integrating Systems with Machine Learning ( http://arxiv.org/abs/2405.09819v1 )

ライセンス: Link先を確認
Penghao Liang, Bo Song, Xiaoan Zhan, Zhou Chen, Jiaqiang Yuan, (参考訳) この記事では、実世界のアプリケーションにおける機械学習の重要性を紹介し、MLOps(Machine Learning Operations)の台頭と、モデルデプロイメントやパフォーマンス監視といった課題解決におけるその重要性について説明する。 MLOpsの進化と従来のソフトウェア開発手法との関係を概観することにより,既存のMLOpsが直面する問題を機械学習に統合し,生産性を向上させる方法を提案する。 本稿では、自動モデルトレーニングの重要性と、バージョン管理システムによるトレーニングプロセスの透明性と再現性を保証する方法に焦点を当てる。 さらに、機械学習コンポーネントを従来のCI/CDパイプラインに統合するという課題についても論じ、バージョニング環境やコンテナ化といったソリューションが提案されている。 最後に、モデルの性能と信頼性を維持するため、モデル展開後の継続的監視とフィードバックループの重要性を強調した。 Netflixのケーススタディとベストプラクティスを使って、記事はMLOpsプラクティスを成功させるために学んだ重要な戦略と教訓を示し、他の組織が独自のMLOpsプラクティスを構築し、最適化するための貴重なリファレンスを提供する。

This article introduces the importance of machine learning in real-world applications and explores the rise of MLOps (Machine Learning Operations) and its importance for solving challenges such as model deployment and performance monitoring. By reviewing the evolution of MLOps and its relationship to traditional software development methods, the paper proposes ways to integrate the system into machine learning to solve the problems faced by existing MLOps and improve productivity. This paper focuses on the importance of automated model training, and the method to ensure the transparency and repeatability of the training process through version control system. In addition, the challenges of integrating machine learning components into traditional CI/CD pipelines are discussed, and solutions such as versioning environments and containerization are proposed. Finally, the paper emphasizes the importance of continuous monitoring and feedback loops after model deployment to maintain model performance and reliability. Using case studies and best practices from Netflix, the article presents key strategies and lessons learned for successful implementation of MLOps practices, providing valuable references for other organizations to build and optimize their own MLOps practices.
翻訳日:2024-05-17 15:20:51 公開日:2024-05-16
# 連続学習における算術的知識の希薄化

Densely Distilling Cumulative Knowledge for Continual Learning ( http://arxiv.org/abs/2405.09820v1 )

ライセンス: Link先を確認
Zenglin Shi, Pei Liu, Tong Su, Yunpeng Wu, Kuien Liu, Yu Song, Meng Wang, (参考訳) 多様なタスクのシーケンシャルなトレーニングを含む継続的な学習は、しばしば破滅的な忘れに直面します。 知識蒸留に基づくアプローチは, 忘れないようにするための顕著な成功を示す一方で, 過去の課題の累積的知識を蒸留する能力の限界を指摘する。 そこで我々は,Dense Knowledge Distillation (DKD)を提案する。 DKDはタスクプールを使用してモデルの能力を追跡する。 モデルの出力ロジットを、タスクプール内のタスクに対応する高密度なグループに分割する。 その後、全てのタスクの知識を全グループで蒸留する。 しかし、全ての群は計算コストがかかるため、各最適化ステップでランダムな群選択を提案する。 さらに,クラス数と類似度に基づいて,新しいクラスの学習と古いクラスの保持のバランスをとる適応重み付け方式を提案する。 我々のDKDは、様々なベンチマークやシナリオで最新の最先端のベースラインを上回っています。 経験的分析は、DKDがモデルの安定性を高め、一般化を改善するためのフラットなミニマを促進し、様々なメモリ予算やタスクオーダに対して堅牢であることを示す。 さらに、他のCLメソッドとシームレスに統合してパフォーマンスを向上し、モデル圧縮のようなオフラインシナリオで汎用性を証明する。

Continual learning, involving sequential training on diverse tasks, often faces catastrophic forgetting. While knowledge distillation-based approaches exhibit notable success in preventing forgetting, we pinpoint a limitation in their ability to distill the cumulative knowledge of all the previous tasks. To remedy this, we propose Dense Knowledge Distillation (DKD). DKD uses a task pool to track the model's capabilities. It partitions the output logits of the model into dense groups, each corresponding to a task in the task pool. It then distills all tasks' knowledge using all groups. However, using all the groups can be computationally expensive, we also suggest random group selection in each optimization step. Moreover, we propose an adaptive weighting scheme, which balances the learning of new classes and the retention of old classes, based on the count and similarity of the classes. Our DKD outperforms recent state-of-the-art baselines across diverse benchmarks and scenarios. Empirical analysis underscores DKD's ability to enhance model stability, promote flatter minima for improved generalization, and remains robust across various memory budgets and task orders. Moreover, it seamlessly integrates with other CL methods to boost performance and proves versatile in offline scenarios like model compression.
翻訳日:2024-05-17 15:20:51 公開日:2024-05-16
# フィリピンの学生の学業成績予測モデルにおけるアルゴリズムバイアスの評価

Evaluating Algorithmic Bias in Models for Predicting Academic Performance of Filipino Students ( http://arxiv.org/abs/2405.09821v1 )

ライセンス: Link先を確認
Valdemar Švábenský, Mélina Verger, Maria Mercedes T. Rodrigo, Clarence James G. Monterozo, Ryan S. Baker, Miguel Zenon Nicanor Lerias Saavedra, Sébastien Lallé, Atsushi Shimada, (参考訳) アルゴリズムバイアスは、教育的文脈における機械学習モデルにおいて大きな問題である。 しかし、アジア学習の文脈ではまだ徹底的に研究されていないため、地域的(準国家的)背景に基づくアルゴリズム的バイアスを考慮した限られた研究しか行われていない。 本研究は,フィリピンの大学における5,986人の学生を対象に,学生の地域的背景に基づくアルゴリズム的偏見について検討する。 大学はCanvas学習管理システム(LMS)を、幅広い領域にわたるオンラインコースに利用した。 3つのセミメータの期間に、Canvasにおける学生の活動に関する4700万のログを収集した。 我々はこれらのログを用いて、LMS活動から学生の成績を予測するバイナリ分類モデルを訓練した。 最高性能モデルはAUC 0.75、重み付きF1スコア 0.79 に達した。 その後,学生の地域に基づく偏見データについて検討した。 AUC,重み付きF1スコア,MADDの3つの指標を用いて評価した。 その結果, 学年予測において, 特定の学生群に対して不公平性は認められなかった。

Algorithmic bias is a major issue in machine learning models in educational contexts. However, it has not yet been studied thoroughly in Asian learning contexts, and only limited work has considered algorithmic bias based on regional (sub-national) background. As a step towards addressing this gap, this paper examines the population of 5,986 students at a large university in the Philippines, investigating algorithmic bias based on students' regional background. The university used the Canvas learning management system (LMS) in its online courses across a broad range of domains. Over the period of three semesters, we collected 48.7 million log records of the students' activity in Canvas. We used these logs to train binary classification models that predict student grades from the LMS activity. The best-performing model reached AUC of 0.75 and weighted F1-score of 0.79. Subsequently, we examined the data for bias based on students' region. Evaluation using three metrics: AUC, weighted F1-score, and MADD showed consistent results across all demographic groups. Thus, no unfairness was observed against a particular student group in the grade predictions.
翻訳日:2024-05-17 15:20:51 公開日:2024-05-16
# 共有機能可視化のための並列バックプロパゲーション

Parallel Backpropagation for Shared-Feature Visualization ( http://arxiv.org/abs/2405.09827v1 )

ライセンス: Link先を確認
Alexander Lappe, Anna Bognár, Ghazaleh Ghamkhari Nejad, Albert Mukovskiy, Lucas Martini, Martin A. Giese, Rufin Vogels, (参考訳) 高レベルの視覚脳領域は、ニューロンが物体ではなく、顔や体のような特定の意味カテゴリーの例に強く反応しているように見える亜領域を含んでいる。 しかし、最近の研究によると、この発見は平均的に成り立つものの、いくつかのカテゴリー外刺激はこれらの領域のニューロンを活性化する。 これは、他の画像にもある好みのクラスに共通する視覚的特徴のためかもしれない。 本稿では,これらの特徴を可視化するためのディープラーニングに基づくアプローチを提案する。 各ニューロンに対して、深部ニューラルネットワークの潜伏活性化に基づいて、画像に対する応答をモデル化することにより、その選択性を駆動する関連する視覚的特徴を特定する。 ニューロンを強く活性化する領域外画像が与えられた場合、本手法はまず、類似した特徴活性化パターンを呈する好ましいカテゴリから参照画像を特定する。 次に,両画像の潜時活性化を画素レベルに戻すとともに,識別された共有次元を向上し,非共有特徴を減衰させる。 この手順は、モデルニューロンの共有特徴駆動応答を含む画像領域を強調する。 本アルゴリズムは,マカク性IT大脳皮質の身体選択領域から得られた記録に応用し,なぜ物体の画像がニューロンを興奮させるのかを解明する。 可視化によって、マカクの体の一部に似た物体の部分が、これらの物体の神経的な嗜好に光を放ちます。

High-level visual brain regions contain subareas in which neurons appear to respond more strongly to examples of a particular semantic category, like faces or bodies, rather than objects. However, recent work has shown that while this finding holds on average, some out-of-category stimuli also activate neurons in these regions. This may be due to visual features common among the preferred class also being present in other images. Here, we propose a deep-learning-based approach for visualizing these features. For each neuron, we identify relevant visual features driving its selectivity by modelling responses to images based on latent activations of a deep neural network. Given an out-of-category image which strongly activates the neuron, our method first identifies a reference image from the preferred category yielding a similar feature activation pattern. We then backpropagate latent activations of both images to the pixel level, while enhancing the identified shared dimensions and attenuating non-shared features. The procedure highlights image regions containing shared features driving responses of the model neuron. We apply the algorithm to novel recordings from body-selective regions in macaque IT cortex in order to understand why some images of objects excite these neurons. Visualizations reveal object parts which resemble parts of a macaque body, shedding light on neural preference of these objects.
翻訳日:2024-05-17 15:20:51 公開日:2024-05-16
# PillarNeXt: Voxel2Pillar特徴符号化とマルチスケール特徴抽出による3D検出器の改良

PillarNeXt: Improving the 3D detector by introducing Voxel2Pillar feature encoding and extracting multi-scale features ( http://arxiv.org/abs/2405.09828v1 )

ライセンス: Link先を確認
Xusheng Li, Chengliang Wang, Shumao Wang, Zhuo Zeng, Ji Liu, (参考訳) マルチラインLiDARは自動運転車で広く利用されているため、ポイントクラウドベースの3D検出器は自動運転に不可欠である。 リッチなマルチスケール特徴の抽出は、様々な種類の物体のサイズに大きな違いがあるため、自律運転におけるポイントクラウドベースの3D検出器にとって重要である。 しかし、リアルタイム要求のため、大規模な畳み込みカーネルはバックボーンで大規模な特徴を引き出すのに滅多に使われない。 現行の3D検出器は、大規模な特徴を得るために特徴ピラミッドネットワークを一般的に使用しているが、ダウンサンプリング中に点雲が少ないいくつかの物体が失われ、性能が低下する。 柱ベースのスキームはボクセルベースのスキームよりもはるかに少ない計算を必要とするため、リアルタイム3D検出器の構築に適している。 そこで本研究では,柱型スキームであるPillarNeXtを提案する。 われわれは3Dディテクターのエンコーディング、バックボーン、ネックを再設計した。 本稿では、スパース畳み込みコンストラクタを用いて、よりリッチなポイントクラウド機能、特に高さ機能を備えた柱を構築するVoxel2Pillar機能符号化を提案する。 さらに、学習可能なパラメータが追加され、最初の柱がより高いパフォーマンスを実現することができる。 提案する完全スパースバックボーンでは,大規模な畳み込みカーネルを使用せず,マルチスケールかつ大規模に特徴を抽出し,そのバックボーンはマルチスケール特徴抽出モジュールで構成されている。 ネックは提案されたスパースConvNeXtで構成されており、単純な構造で性能が大幅に向上している。 提案したPillarNeXtの有効性はWaymo Open Datasetで検証され、車両、歩行者、サイクリストの物体検出精度が向上し、各モジュールの有効性を詳細に検証する。

Multi-line LiDAR is widely used in autonomous vehicles, so point cloud-based 3D detectors are essential for autonomous driving. Extracting rich multi-scale features is crucial for point cloud-based 3D detectors in autonomous driving due to significant differences in the size of different types of objects. However, due to the real-time requirements, large-size convolution kernels are rarely used to extract large-scale features in the backbone. Current 3D detectors commonly use feature pyramid networks to obtain large-scale features; however, some objects containing fewer point clouds are further lost during downsampling, resulting in degraded performance. Since pillar-based schemes require much less computation than voxel-based schemes, they are more suitable for constructing real-time 3D detectors. Hence, we propose PillarNeXt, a pillar-based scheme. We redesigned the feature encoding, the backbone, and the neck of the 3D detector. We propose Voxel2Pillar feature encoding, which uses a sparse convolution constructor to construct pillars with richer point cloud features, especially height features. Moreover, additional learnable parameters are added, which enables the initial pillar to achieve higher performance capabilities. We extract multi-scale and large-scale features in the proposed fully sparse backbone, which does not utilize large-size convolutional kernels; the backbone consists of the proposed multi-scale feature extraction module. The neck consists of the proposed sparse ConvNeXt, whose simple structure significantly improves the performance. The effectiveness of the proposed PillarNeXt is validated on the Waymo Open Dataset, and object detection accuracy for vehicles, pedestrians, and cyclists is improved; we also verify the effectiveness of each proposed module in detail.
翻訳日:2024-05-17 15:11:06 公開日:2024-05-16
# ランダム確率オートマタからの量子システム

Quantum Systems from Random Probabilistic Automata ( http://arxiv.org/abs/2405.09829v1 )

ライセンス: Link先を確認
A. Kreuzkamp, C. Wetterich, (参考訳) 確率的更新を伴う確率的セルオートマトンは量子システムである。 我々は、初期構成上の確率分布から始まるランダム確率的セルオートマトンの研究に量子フォーマリズムを用いる。 決定論的更新の特性は、空間と時間にわたってランダムに分散される。 非常に多くの細胞に対する連続的な制限の可能性に興味があります。 一例として、線形鎖上で左または右に移動する2色のビットを考える。 ランダムに分散した散乱点では、方向と色が変化する。 数値シミュレーションは量子システムの典型的な特徴を明らかにする。 量子力学におけるエネルギー固有状態の周期的進化によって生成される、特定の初期確率分布は、一定の時間ステップの後に周期的に再帰する。 波動関数の項で記述を使用することで、運動量とエネルギーの統計観測値を導入することができる。 彼らは与えられたビット構成に対して定値を取ることなく確率情報を特徴づけ、古典的な統計熱平衡の温度に類似した概念的な状態である。 エネルギーと運動量の保存は、確率確率的確率的オートマトンの発展を理解するための重要な要素である。 この進化は、ランダムポテンシャルを持つ2次元の1つのディラックフェルミオンに類似している。

Probabilistic cellular automata with deterministic updating are quantum systems. We employ the quantum formalism for an investigation of random probabilistic cellular automata, which start with a probability distribution over initial configurations. The properties of the deterministic updating are randomly distributed over space and time. We are interested in a possible continuum limit for a very large number of cells. As an example we consider bits with two colors, moving to the left or right on a linear chain. At randomly distributed scattering points, they change direction and color. A numerical simulation reveals the typical features of quantum systems. We find particular initial probability distributions which reemerge periodically after a certain number of time steps, as produced by the periodic evolution of energy eigenstates in quantum mechanics. Using a description in terms of wave functions allows to introduce statistical observables for momentum and energy. They characterize the probabilistic information without taking definite values for a given bit configuration, with a conceptual status similar to temperature in classical statistical thermal equilibrium. Conservation of energy and momentum are essential ingredients for the understanding of the evolution of our stochastic probabilistic automata. This evolution resembles in some aspects a single Dirac fermion in two dimensions with a random potential.
翻訳日:2024-05-17 15:11:06 公開日:2024-05-16
# 多項ロジスティック帯域に対する極小最小レグレット

Nearly Minimax Optimal Regret for Multinomial Logistic Bandit ( http://arxiv.org/abs/2405.09831v1 )

ライセンス: Link先を確認
Joongkyu Lee, Min-hwan Oh, (参考訳) 本稿では,学習エージェントがコンテキスト情報に基づいて順にアソシエーションを選択し,ユーザからのフィードバックがMNL選択モデルに従うという,コンテキスト多項ロジット(MNL)バンディット問題について検討する。 特に特徴次元$d$と最大配置サイズ$K$については、下限と上限の差が顕著である。 さらに、これらの境界の間の報酬構造の変化は、最適性の探求を複雑にする。 すべてのアイテムが同じ期待される報酬を持つ一様報酬の下で、後悔の少ない$\Omega(d\sqrt{\smash[b]{T/K}})$を確立し、一致する上限の$\tilde{\mathcal{O}}(d\sqrt{\smash[b]{T/K}})$を達成する定数時間アルゴリズム OFU-MNL+を提案する。 非一様報酬の下では、$\Omega(d\sqrt{T})$と$\tilde{\mathcal{O}}(d\sqrt{T})$の上限を証明し、OFU-MNL+によっても達成できる。 我々の実証研究はこれらの理論的な発見を支持している。 我々の知る限りでは、これはMNLの文脈的バンドイット文学において、一様あるいは一様でない報酬設定に対して最小の最適性を証明し、この最適性を対数的要因まで達成する計算効率の良いアルゴリズムを提案する最初の作品である。

In this paper, we investigate the contextual multinomial logit (MNL) bandit problem in which a learning agent sequentially selects an assortment based on contextual information, and user feedback follows an MNL choice model. There has been a significant discrepancy between lower and upper regret bounds, particularly regarding the feature dimension $d$ and the maximum assortment size $K$. Additionally, the variation in reward structures between these bounds complicates the quest for optimality. Under uniform rewards, where all items have the same expected reward, we establish a regret lower bound of $\Omega(d\sqrt{\smash[b]{T/K}})$ and propose a constant-time algorithm, OFU-MNL+, that achieves a matching upper bound of $\tilde{\mathcal{O}}(d\sqrt{\smash[b]{T/K}})$. Under non-uniform rewards, we prove a lower bound of $\Omega(d\sqrt{T})$ and an upper bound of $\tilde{\mathcal{O}}(d\sqrt{T})$, also achievable by OFU-MNL+. Our empirical studies support these theoretical findings. To the best of our knowledge, this is the first work in the MNL contextual bandit literature to prove minimax optimality -- for either uniform or non-uniform reward setting -- and to propose a computationally efficient algorithm that achieves this optimality up to logarithmic factors.
翻訳日:2024-05-17 15:11:06 公開日:2024-05-16
# 階層確率モデルに基づく教師なし作業行動パターン抽出

Unsupervised Work Behavior Pattern Extraction Based on Hierarchical Probabilistic Model ( http://arxiv.org/abs/2405.09838v1 )

ライセンス: Link先を確認
Issei Saito, Tomoaki Nakamura, Toshiyuki Hatta, Wataru Fujita, Shintaro Watanabe, Shotaro Miwa, (参考訳) 消費者の需要と市場のトレンドの高まりにより、企業は、柔軟性とカスタマイズを優先する生産アプローチをますます受け入れている。 そのため、工場労働者は以前よりも複雑な作業に従事しなければならない。 したがって、生産性は各労働者の製品組み立てのスキルに依存する。 したがって、作業者の行動分析は、作業改善に不可欠である。 しかし、手動分析は時間がかかり、素早く正確なフィードバックを提供していない。 機械学習は分析を自動化するために試みられているが、これらの手法のほとんどはトレーニングにいくつかのラベルを必要とする。 この目的のために、ガウス過程隠蔽セミマルコフモデル(GP-HSMM)を拡張し、事前学習なしに労働者の行動の迅速かつ自動解析を可能にする。 このモデルはラベル付きデータを必要としないため、連続した動きを自動的に正確に動作クラスに分割することができる。 提案モデルは,GP-HSMMとHSMMを階層的に結合する確率論的モデルである。 さらに、GP-HSMMとHSMMのパラメータを相互に推論し、正確な動きパターン抽出を行う。 作業者が実際の生産現場で製品を組み立てる動作データに提案手法を適用した。 行動パターン抽出の精度を正規化レベンシュテイン距離(NLD)を用いて評価した。 NLDの値が小さいほど、パターン抽出がより正確になる。 GP-HSMM層とHSMM層で得られた動きパターンのNLDは,それぞれ0.50と0.33であり,ベースライン法と比較すると最小であった。

Evolving consumer demands and market trends have led to businesses increasingly embracing a production approach that prioritizes flexibility and customization. Consequently, factory workers must engage in tasks that are more complex than before. Thus, productivity depends on each worker's skills in assembling products. Therefore, analyzing the behavior of a worker is crucial for work improvement. However, manual analysis is time consuming and does not provide quick and accurate feedback. Machine learning have been attempted to automate the analyses; however, most of these methods need several labels for training. To this end, we extend the Gaussian process hidden semi-Markov model (GP-HSMM), to enable the rapid and automated analysis of worker behavior without pre-training. The model does not require labeled data and can automatically and accurately segment continuous motions into motion classes. The proposed model is a probabilistic model that hierarchically connects GP-HSMM and HSMM, enabling the extraction of behavioral patterns with different granularities. Furthermore, it mutually infers the parameters between the GP-HSMM and HSMM, resulting in accurate motion pattern extraction. We applied the proposed method to motion data in which workers assembled products at an actual production site. The accuracy of behavior pattern extraction was evaluated using normalized Levenshtein distance (NLD). The smaller the value of NLD, the more accurate is the pattern extraction. The NLD of motion patterns captured by GP-HSMM and HSMM layers in our proposed method was 0.50 and 0.33, respectively, which are the smallest compared to that of the baseline methods.
翻訳日:2024-05-17 15:11:06 公開日:2024-05-16
# ロバスト・フェデレーション・ラーニングの進歩:不均一性を考える

Advances in Robust Federated Learning: Heterogeneity Considerations ( http://arxiv.org/abs/2405.09839v1 )

ライセンス: Link先を確認
Chuan Chen, Tianchi Liao, Xiaojun Deng, Zihou Wu, Sheng Huang, Zibin Zheng, (参考訳) 不均質なフェデレーション学習(FL)の分野では、異なるデータ分散、モデル構造、タスク目標、計算能力、通信資源を持つ複数のクライアントでモデルを効率的かつ協調的に訓練することが重要な課題である。 この多様性は大きな異質性をもたらし、モデルトレーニングの複雑さを増大させる。 本稿では、まず、不均一なフェデレーション学習の基本概念を概説し、フェデレーション学習における研究課題を、データ、モデル、タスク、デバイス、コミュニケーションの5つの側面の観点から要約する。 さらに、既存の最先端のアプローチがフェデレーション学習の不均一性にどのように対処するかを検討し、これらのアプローチを3つの異なるレベル(データレベル、モデルレベル、アーキテクチャレベル)で分類し、レビューする。 その後、異種連合学習環境におけるプライバシー保護戦略を幅広く論じる。 最後に、異種連携学習のさらなる発展をめざして、今後の研究の課題と方向性について論じる。

In the field of heterogeneous federated learning (FL), the key challenge is to efficiently and collaboratively train models across multiple clients with different data distributions, model structures, task objectives, computational capabilities, and communication resources. This diversity leads to significant heterogeneity, which increases the complexity of model training. In this paper, we first outline the basic concepts of heterogeneous federated learning and summarize the research challenges in federated learning in terms of five aspects: data, model, task, device, and communication. In addition, we explore how existing state-of-the-art approaches cope with the heterogeneity of federated learning, and categorize and review these approaches at three different levels: data-level, model-level, and architecture-level. Subsequently, the paper extensively discusses privacy-preserving strategies in heterogeneous federated learning environments. Finally, the paper discusses current open issues and directions for future research, aiming to promote the further development of heterogeneous federated learning.
翻訳日:2024-05-17 15:11:06 公開日:2024-05-16
# 不均一グラフモデルにおけるスパース構造とコミュニティの同時同定

Simultaneous Identification of Sparse Structures and Communities in Heterogeneous Graphical Models ( http://arxiv.org/abs/2405.09841v1 )

ライセンス: Link先を確認
Dapeng Shi, Tiandong Wang, Zhiliang Ying, (参考訳) 地域社会の構造の探索と検出は、遺伝学、社会科学、神経科学、金融学において重要な役割を担っている。 特にグラフィカルモデルでは、コミュニティ検出は、グループのような性質を持つ変数の集合の探索を促進することができる。 本稿では,ガウス的グラフィカルモデルの枠組みの中で,基礎となるグラフィカル構造を疎部分と低ランクの斜めブロック(非オーバーラップコミュニティ)に分解する手法を提案する。 2つのモデリングの観点からこの分解の意義を説明し、スパース構造とコミュニティの同定を高速かつ効率的に行う3段階推定手法を提案する。 また、理論面では、局所的識別可能性の条件を確立し、従来の非表現性条件を適応形式に拡張し、適応的な$\ell_1$ペナル化推定器のモデル選択の整合性を保証する実効ノルムを構築する。 さらに,第3段階におけるK-means手順のクラスタリング誤差も提供する。 グラフ構造推定における既存手法よりも提案手法の方が優れていることを示すため, 大規模な数値実験を行った。 さらに,本手法をストックリターンデータに適用し,オーバーラップしないコミュニティ構造を正確に識別する能力を明らかにした。

Exploring and detecting community structures hold significant importance in genetics, social sciences, neuroscience, and finance. Especially in graphical models, community detection can encourage the exploration of sets of variables with group-like properties. In this paper, within the framework of Gaussian graphical models, we introduce a novel decomposition of the underlying graphical structure into a sparse part and low-rank diagonal blocks (non-overlapped communities). We illustrate the significance of this decomposition through two modeling perspectives and propose a three-stage estimation procedure with a fast and efficient algorithm for the identification of the sparse structure and communities. Also on the theoretical front, we establish conditions for local identifiability and extend the traditional irrepresentability condition to an adaptive form by constructing an effective norm, which ensures the consistency of model selection for the adaptive $\ell_1$ penalized estimator in the second stage. Moreover, we also provide the clustering error bound for the K-means procedure in the third stage. Extensive numerical experiments are conducted to demonstrate the superiority of the proposed method over existing approaches in estimating graph structures. Furthermore, we apply our method to the stock return data, revealing its capability to accurately identify non-overlapped community structures.
翻訳日:2024-05-17 15:11:06 公開日:2024-05-16
# $\mathcal{PT}$-symmetric光空洞におけるナノメカニカル誘起透過性

Nanomechanically induced transparency in $\mathcal{PT}$-symmetric optical cavities ( http://arxiv.org/abs/2405.09845v1 )

ライセンス: Link先を確認
Amjad Sohail, Rizwan Ahmed, Hazrat Ali, (参考訳) 本稿では, 受動キャビティの右ミラーに近接する対極付近に誘電性誘電体ナノ球が閉じ込められたパリティ時間対称(\mathcal{PT}$-symmetric)オプトナノメカニクスシステム(ONMS)において, ナノメカニカル誘起透明性(NMIT)と伝達速度の現象を解析的に示す。 NMITの現象は, キャビティ・ミラーとナノスフィアのクーロン相互作用の影響を受け, キャビティ・ミラーとナノスフィアの有効オプト・ナノメカニカルカップリングの存在下での出力プローブ場から発生する可能性がある。 さらに、透明窓の幅と高さは、ナノスフィアの半径とクーロンの相互作用を変化させることで容易に調整できる効果的な光学的結合によって制御することができる。 最も興味深い結果の1つは、$\mathcal{PT}$-symmetric と $\mathcal{PT}$-symmetric の遷移 NMIT の挙動である。 受動共振器内のナノスフィアの存在は受動受動系および受動能動系においてNMITウィンドウの幅と透過率を高めることを示し、サイドバンド増幅の顕著な減少が観察された。 これらの結果から,光信号処理や量子情報処理に応用できる可能性が示唆された。

In this paper, we analytically present the phenomena of nanomechanically induced transparency (NMIT) and transmission rate in a parity-time-symmetric ($\mathcal{PT}$-symmetric) opto-nanomechanical system (ONMS) where a levitated dielectric nanospheres is trapped near the antinodes closest to right mirror of passive cavity which further coupled to an active cavity via hoping factor. We find that the phenomenon of NMIT may be generated from the output probe field in the presence of an effective opto-nanomechanical coupling between the cavity field and the nanosphere, whose steady-state position is influenced by the Coulomb interaction between the cavity mirror and the nanosphere. In addition, the width and height of the transparency window can be controlled through the effective optomechanical coupling, which is readily adjusted by altering changing the nanosphere's radius and the Coulomb interaction. One of the most interesting result is the transition NMIT behavior in $\mathcal{PT}$-symmetric and broken $\mathcal{PT}$-symmetric regime. We show that the presence of nanosphere in the passive cavity enhances the width and transmission rate of NMIT window in passive-passive regime and in passive-active regime, a notable decrease of sideband amplification has been observed. These results show that our scheme may find some potential applications for optical signal processing an and quantum information processing.
翻訳日:2024-05-17 15:11:06 公開日:2024-05-16
# ソフトネガティブサンプリングによる思考のマルチモーダル連鎖のセマンティックス向上

Enhancing Semantics in Multimodal Chain of Thought via Soft Negative Sampling ( http://arxiv.org/abs/2405.09848v1 )

ライセンス: Link先を確認
Guangmin Zheng, Jin Wang, Xiaobing Zhou, Xuejie Zhang, (参考訳) 思考の連鎖(CoT)は複雑な推論を必要とする問題に有用であることが証明されている。 これらの問題の多くはテキストとマルチモーダルの両方である。 異なるモダリティの入力が与えられた場合、モデルは理性を生成し、それを使って質問に答える。 幻覚の問題のため、生成したソフトな否定的理性は高いテキスト品質を持つが、非論理的意味論は答えの正確性を改善するのに必ずしも役に立たない。 本研究では,マルチモーダルCoTにおける幻覚を緩和するために,ソフトネガティブサンプリング(SNSE-CoT)を用いた合理的な生成法を提案する。 非常に類似したテキストを共有するが、原文と異なる意味を持つソフトネガティブなサンプルを生成するために5つの手法が適用された。 正と負のサンプルのみを含む従来のコントラスト学習フレームワークに、双方向マージン損失(BML)を適用した。 その結果,ScienceQAデータセットの大規模な実験により,提案手法の有効性が示された。 コードとデータはhttps://github.com/zgMin/SNSE-CoT.comで公開されている。

Chain of thought (CoT) has proven useful for problems requiring complex reasoning. Many of these problems are both textual and multimodal. Given the inputs in different modalities, a model generates a rationale and then uses it to answer a question. Because of the hallucination issue, the generated soft negative rationales with high textual quality but illogical semantics do not always help improve answer accuracy. This study proposes a rationale generation method using soft negative sampling (SNSE-CoT) to mitigate hallucinations in multimodal CoT. Five methods were applied to generate soft negative samples that shared highly similar text but had different semantics from the original. Bidirectional margin loss (BML) was applied to introduce them into the traditional contrastive learning framework that involves only positive and negative samples. Extensive experiments on the ScienceQA dataset demonstrated the effectiveness of the proposed method. Code and data are released at https://github.com/zgMin/SNSE-CoT.
翻訳日:2024-05-17 15:11:06 公開日:2024-05-16
# メラノサイト性皮膚腫瘍全スライド画像における関心領域の検討 -Nevus & Melanoma-

Region of Interest Detection in Melanocytic Skin Tumor Whole Slide Images -- Nevus & Melanoma ( http://arxiv.org/abs/2405.09851v1 )

ライセンス: Link先を確認
Yi Cui, Yao Li, Jayson R. Miedema, Sharon N. Edmiston, Sherif Farag, J. S. Marron, Nancy E. Thomas, (参考訳) 病理組織学的画像解析における関心領域の自動検出は,臨床実践に多大な影響を与える可能性のある課題であり,重要なトピックである。 計算病理学におけるディープラーニング手法は,コスト削減とがん診断の高速化と精度向上に役立つ可能性がある。 UNC Melanocytic tumor Dataset cohort with 160 hematoxylin and eosin whole-slide image of primary melanomas (86) and nevi (74。 トレーニングセットとして80% (134) をランダムに割り当て, スライドレベル, ネビ, メラノーマの分類を可能にする社内深層学習法を構築した。 提案手法は, 他の20% (26) テストデータセットで良好に動作し, スライド分類作業の精度は92.3%であり, また, 病理医が注釈した関心領域の予測も良好であり, メラノサイト皮膚腫瘍に対する本モデルの性能は良好であった。 皮膚腫瘍データセットで実験を行ったが、他の医学的画像検出問題にまで拡張して、異なる腫瘍の臨床的評価と診断に役立てることができた。

Automated region of interest detection in histopathological image analysis is a challenging and important topic with tremendous potential impact on clinical practice. The deep-learning methods used in computational pathology may help us to reduce costs and increase the speed and accuracy of cancer diagnosis. We started with the UNC Melanocytic Tumor Dataset cohort that contains 160 hematoxylin and eosin whole-slide images of primary melanomas (86) and nevi (74). We randomly assigned 80% (134) as a training set and built an in-house deep-learning method to allow for classification, at the slide level, of nevi and melanomas. The proposed method performed well on the other 20% (26) test dataset; the accuracy of the slide classification task was 92.3% and our model also performed well in terms of predicting the region of interest annotated by the pathologists, showing excellent performance of our model on melanocytic skin tumors. Even though we tested the experiments on the skin tumor dataset, our work could also be extended to other medical image detection problems to benefit the clinical evaluation and diagnosis of different tumors.
翻訳日:2024-05-17 15:11:06 公開日:2024-05-16
# 自然言語処理教育における前神経アプローチの関連性について

On the relevance of pre-neural approaches in natural language processing pedagogy ( http://arxiv.org/abs/2405.09854v1 )

ライセンス: Link先を確認
Aditya Joshi, Jake Renzella, Pushpak Bhattacharyya, Saurav Jha, Xiangyu Zhang, (参考訳) ディープラーニングを用いたニューラルアプローチは、現在、自然言語処理(NLP)の最先端技術である一方、前ニューラルアルゴリズムとアプローチは、近年のNLP教科書やコースに依然として存在する。 本稿では,オーストラリアとインドで教えられている2つの導入NLPコースを比較し,講義計画とコースの評価において,トランスフォーマーとプレニューラルアプローチがどのようにバランスを取っているかを検討する。 また、CS1教育におけるオブジェクトファーストとオブジェクト後期の議論に類似している。 我々は,NLP問題や潜在的な解法,さらにはトランスフォーマーに基づくモデル自体の直感的な理解を構築することで,前神経アプローチが学生の学習に価値をもたらすことを観察した。 この論文は、神経前アプローチが最先端ではないにもかかわらず、今日のNLPコースへの導入について論じている。

While neural approaches using deep learning are the state-of-the-art for natural language processing (NLP) today, pre-neural algorithms and approaches still find a place in NLP textbooks and courses of recent years. In this paper, we compare two introductory NLP courses taught in Australia and India, and examine how Transformer and pre-neural approaches are balanced within the lecture plan and assessments of the courses. We also draw parallels with the objects-first and objects-later debate in CS1 education. We observe that pre-neural approaches add value to student learning by building an intuitive understanding of NLP problems, potential solutions and even Transformer-based models themselves. Despite pre-neural approaches not being state-of-the-art, the paper makes a case for their inclusion in NLP courses today.
翻訳日:2024-05-17 15:11:06 公開日:2024-05-16
# IGOT:ドメイン適応型事前学習における情報ゲイン最適化トケナイザ

IGOT: Information Gain Optimized Tokenizer on Domain Adaptive Pretraining ( http://arxiv.org/abs/2405.09857v1 )

ライセンス: Link先を確認
Dawei Feng, Yihai Zhang, Zhixuan Xu, (参考訳) ChatGPTやClaudeなどの事前訓練された大規模言語モデル(LLM)は、自然言語生成の様々な分野において強力な能力を示している。 しかし、特殊なドメイン固有フィールドでLLMを使用する場合、まだ多くの問題がある。 下流タスクを処理するために生成AIを使用する場合、一般的なアプローチは、継続的なトレーニングや微調整を通じて、トレーニング済みモデルに新たな知識(プライベートドメイン知識、最先端情報など)を追加することである。 しかし、ドメイン適応トレーニングに普遍的なパラダイムが存在するかどうかは、まだ未解決の問題である。 本稿では、下流タスクの特殊トークンセットを分析し、特殊トークンとその情報ゲインを用いてヒューリスティック関数$\phi$を使って新しいサブセットを構築し、新しいドメイン固有のトークンライザを構築し、下流タスクデータに事前トレーニングを継続するIGOT(Information Gain Optimized Tokenizer)を提案する。 本研究では,この手法がドメイン適応型事前学習にどのような効果をもたらすのかを探索し,データ収集や微調整といった通常の方法よりも優れた性能を発揮できることを確認した。 我々の実験に基づいて、IGOTとLLaMA-7Bの継続的な事前トレーニングプロセスは、1.9\%のトークンセーブ、12.2\%のトレーニングタイムセーブ、5.8\%のGPU VRAM使用量セーブを達成した。 ドメイン固有のタスクでは、教師付き$IGOT_\tau$は、保留前トレーニング中の収束半径と収束点の両方を減少させる優れた性能を示す。

Pretrained Large Language Models (LLM) such as ChatGPT, Claude, etc. have demonstrated strong capabilities in various fields of natural language generation. However, there are still many problems when using LLM in specialized domain-specific fields. When using generative AI to process downstream tasks, a common approach is to add new knowledge (e.g., private domain knowledge, cutting-edge information) to a pretrained model through continued training or fine-tuning. However, whether there is a universal paradigm for domain adaptation training is still an open question. In this article, we proposed Information Gain Optimized Tokenizer (IGOT), which analyzes the special token set of downstream tasks, constructs a new subset using heuristic function $\phi$ with the special token and its information gain, to build new domain-specific tokenizer, and continues pretraining on the downstream task data. We explored the many positive effects of this method's customized tokenizer on domain-adaptive pretraining and verified this method can perform better than the ordinary method of just collecting data and fine-tuning. Based on our experiment, the continued pretraining process of IGOT with LLaMA-7B achieved 11.9\% token saving, 12.2\% training time saving, and 5.8\% maximum GPU VRAM usage saving, combined with the T5 model, we can even reach a 31.5\% of training time saving, making porting general generative AI to specific domains more effective than before. In domain-specific tasks, supervised $IGOT_\tau$ shows great performance on reducing both the convergence radius and convergence point during keep pretraining.
翻訳日:2024-05-17 15:11:06 公開日:2024-05-16
# クラスインクリメンタルセマンティックセグメンテーションにおける現実的なインクリメンタルシナリオに向けて

Towards Realistic Incremental Scenario in Class Incremental Semantic Segmentation ( http://arxiv.org/abs/2405.09858v1 )

ライセンス: Link先を確認
Jihwan Kwak, Sungmin Cha, Taesup Moon, (参考訳) 本稿では,CISS(Continuous Incremental Semantic Segmentation)シナリオの非現実的な側面について述べる。 重なり合うことで、実際の漸進的な学習シナリオとは程遠い、異なるピクセルラベルで、同じイメージが将来のタスクに再び現れることが指摘されている。 さらに、この欠陥のあるシナリオは、CISSでよく使われている2つの手法、擬似ラベル付けと模範記憶の偏りを生じさせ、特定の手法に意図しない利点や欠点をもたらす可能性があると確認した。 これを軽減するために、パーティショニングと呼ばれる実用的なシナリオを提案し、まずデータセットを各クラスを表す個別のサブセットに分割し、次に各サブセットを対応するタスクに割り当てる。 これは、背景シフトのキャプチャなど、CISSシナリオの要件を満たしながら、上記の問題に効果的に対処する。 さらに,従来の研究では無視されていたメモリからデータを取得する際のコード実装の問題に対処する。 最後に,メモリ上でのタスクのバックグラウンドシフトを処理するシンプルなメモリベースベースラインであるMiB-AugMを紹介する。 このベースラインは、多数の新しいクラスを学ぶことを含む複数のタスクにまたがる最先端の結果を達成する。

This paper addresses the unrealistic aspect of the commonly adopted Continuous Incremental Semantic Segmentation (CISS) scenario, termed overlapped. We point out that overlapped allows the same image to reappear in future tasks with different pixel labels, which is far from practical incremental learning scenarios. Moreover, we identified that this flawed scenario may lead to biased results for two commonly used techniques in CISS, pseudo-labeling and exemplar memory, resulting in unintended advantages or disadvantages for certain techniques. To mitigate this, a practical scenario called partitioned is proposed, in which the dataset is first divided into distinct subsets representing each class, and then the subsets are assigned to each corresponding task. This efficiently addresses the issue above while meeting the requirement of CISS scenario, such as capturing the background shifts. Furthermore, we identify and address the code implementation issues related to retrieving data from the exemplar memory, which was ignored in previous works. Lastly, we introduce a simple yet competitive memory-based baseline, MiB-AugM, that handles background shifts of current tasks in the exemplar memory. This baseline achieves state-of-the-art results across multiple tasks involving learning numerous new classes.
翻訳日:2024-05-17 15:11:06 公開日:2024-05-16
# Paired-Egress Bell State Analyzer Poolsのための最適スイッチングネットワーク

Optimal Switching Networks for Paired-Egress Bell State Analyzer Pools ( http://arxiv.org/abs/2405.09860v1 )

ライセンス: Link先を確認
Marii Koyama, Claire Yun, Amin Taherkhani, Naphan Benchasattabuse, Bernard Ousmane Sane, Michal Hajdušek, Shota Nagayama, Rodney Van Meter, (参考訳) 量子コンピュータを有用なレベルにスケールするには、分散型量子アルゴリズムで使用する絡み合いを共有できる量子計算ノードのネットワークを構築する必要がある。 あるアーキテクチャでは、ノードが定常記憶に絡み合った光子を発するときにノード間の絡み合いが生成され、その光子が切り換えられた相互接続を介してベル状態解析器(BSA)の共有プールにルーティングされる。 スイッチング回路を最適化する設計は、損失とクロストークを低減し、絡み合い率と忠実度を高める。 本稿では,シリコン導波路とMZI(Mach-Zehnder Interferometer)に適する平面配置に制約されたスイッチング配線の最適設計について述べる。 最適設計のためのアーキテクチャはスケーラブルでアルゴリズム的に構造化されており、任意の入力を並べ替え可能でノンブロッキングな方法でペアリングすることができる。 N$入力をペアリングするためには、$N(N - 2)/4$スイッチが必要である。 アーキテクチャ毎に効率的なルーティングアルゴリズムも提示される。 これらの設計は、絡み合ったペアの光子源の共有プールを用いて、絡み合い発生のために逆向きに利用することもできる。

To scale quantum computers to useful levels, we must build networks of quantum computational nodes that can share entanglement for use in distributed forms of quantum algorithms. In one proposed architecture, node-to-node entanglement is created when nodes emit photons entangled with stationary memories, with the photons routed through a switched interconnect to a shared pool of Bell state analyzers (BSAs). Designs that optimize switching circuits will reduce loss and crosstalk, raising entanglement rates and fidelity. We present optimal designs for switched interconnects constrained to planar layouts, appropriate for silicon waveguides and Mach-Zehnder interferometer (MZI) $2 \times 2$ switch points. The architectures for the optimal designs are scalable and algorithmically structured to pair any arbitrary inputs in a rearrangeable, non-blocking way. For pairing $N$ inputs, $N(N - 2)/4$ switches are required, which is less than half of number of switches required for full permutation switching networks. An efficient routing algorithm is also presented for each architecture. These designs can also be employed in reverse for entanglement generation using a shared pool of entangled paired photon sources.
翻訳日:2024-05-17 15:11:06 公開日:2024-05-16
# 絡み合った光子源を利用した実用的な量子リンクアーキテクチャの実装と解析

An Implementation and Analysis of a Practical Quantum Link Architecture Utilizing Entangled Photon Sources ( http://arxiv.org/abs/2405.09861v1 )

ライセンス: Link先を確認
Kento Samuel Soon, Michal Hajdušek, Shota Nagayama, Naphan Benchasattabuse, Kentaro Teramoto, Ryosuke Satoh, Rodney Van Meter, (参考訳) 量子リピータネットワークは絡み合いの分散において重要な役割を果たす。 遠方ノード間のベルペア作成を容易にするために、様々なリンクアーキテクチャが提案されており、量子ネットワーク構築の主技術として絡み合った光子源が出現している。 私たちの作業はメモリソース・メモリ(MSM)リンクアーキテクチャを前進させ、実践的な実装の詳細が欠如していることに対処します。 我々はQuantum Internet Simulation Package(Quarum Internet Simulation Package)を用いて数値シミュレーションを行い、MSMリンクの性能を分析し、他のリンクアーキテクチャと対比する。 MSMリンクにおいて、追加の量子資源がリンクのベル対生成率に影響を与えない飽和効果を観測する。 理論モデルを導入することにより、この効果の起源を説明し、それが起こるパラメータ領域を特徴付ける。 私たちの研究は、ロバストでスケーラブルな量子ネットワークにとって重要な実践的な実装で理論的な洞察を橋渡しします。

Quantum repeater networks play a crucial role in distributing entanglement. Various link architectures have been proposed to facilitate the creation of Bell pairs between distant nodes, with entangled photon sources emerging as a primary technology for building quantum networks. Our work advances the Memory-Source-Memory (MSM) link architecture, addressing the absence of practical implementation details. We conduct numerical simulations using the Quantum Internet Simulation Package (QuISP) to analyze the performance of the MSM link and contrast it with other link architectures. We observe a saturation effect in the MSM link, where additional quantum resources do not affect the Bell pair generation rate of the link. By introducing a theoretical model, we explain the origin of this effect and characterize the parameter region where it occurs. Our work bridges theoretical insights with practical implementation, which is crucial for robust and scalable quantum networks.
翻訳日:2024-05-17 15:11:06 公開日:2024-05-16
# 不均一リンクアーキテクチャを用いた量子ネットワークの性能評価

Performance of Quantum Networks Using Heterogeneous Link Architectures ( http://arxiv.org/abs/2405.09862v1 )

ライセンス: Link先を確認
Kento Samuel Soon, Naphan Benchasattabuse, Michal Hajdušek, Kentaro Teramoto, Shota Nagayama, Rodney Van Meter, (参考訳) 量子リンクアーキテクチャの不均一性は、技術的相互運用性と性能最適化のために量子ネットワークを設計する上で重要なテーマである。 しかし、不均一に連結された量子リンクの性能はまだ解決されていない。 そこで本研究では,ノードからデバイスに向かって流れる光子と,中間のデバイスからノードに向かって流れる光子の対が流れる異なるリンクとを,本質的に異なる2つの技術の統合について検討する。 量子インターネットシミュレータQuISPを用いてシミュレーションを行う。 まず、パルスレートを考慮して1つのリンクに対して既存のフォトンペアプロトコルを最適化する。 ここでは,パルス速度の増加が全体の性能を低下させる可能性があることを確かめる。 最適化されたリンクを使うことで、異種ネットワークが実際に動作することを示す。 それらの性能はリンク構成に大きく依存するが,同種ネットワークと比較して生成速度は著しく低下しない。 この研究は、量子ネットワークに技術的不均一性を導入する際に、私たちが観測するであろう現象についての洞察を提供する。

The heterogeneity of quantum link architectures is an essential theme in designing quantum networks for technological interoperability and possibly performance optimization. However, the performance of heterogeneously connected quantum links has not yet been addressed. Here, we investigate the integration of two inherently different technologies, with one link where the photons flow from the nodes toward a device in the middle of the link, and a different link where pairs of photons flow from a device in the middle towards the nodes. We utilize the quantum internet simulator QuISP to conduct simulations. We first optimize the existing photon pair protocol for a single link by taking the pulse rate into account. Here, we find that increasing the pulse rate can actually decrease the overall performance. Using our optimized links, we demonstrate that heterogeneous networks actually work. Their performance is highly dependent on link configuration, but we observe no significant decrease in generation rate compared to homogeneous networks. This work provides insights into the phenomena we likely will observe when introducing technological heterogeneity into quantum networks, which is crucial for creating a scalable and robust quantum internetwork.
翻訳日:2024-05-17 15:11:06 公開日:2024-05-16
# ブラックボックス除去攻撃で箱なしのモデルウォーターマークが見つかる

Box-Free Model Watermarks Are Prone to Black-Box Removal Attacks ( http://arxiv.org/abs/2405.09863v1 )

ライセンス: Link先を確認
Haonan An, Guang Hua, Zhiping Lin, Yuguang Fang, (参考訳) ボックスフリーなモデル透かしは、ディープラーニングモデルの知的特性、特に低レベルの画像処理タスクを保護するための新興技術である。 既存の研究はいくつかの面でその有効性を検証し改善してきた。 しかし,本稿では,保護されたモデルと透かし抽出器がブラックボックス内にあるような現実世界の脅威モデル下であっても,ボックスフリーなモデル透かしが攻撃を除去する傾向があることを明らかにした。 この設定で、我々は3つの研究を行う。 1) 抽出器のEGG除去装置を開発し, 抽出器がReLU活性化のみを使用する場合の有効性を示した。 2) より一般的には, 未知の抽出器に対して, 敵攻撃を活用し, 推定勾配に基づいてEGG除去器を設計する。 3) 抽出器がアクセス不能な最も厳密な条件下では, 一連のプライベートプロキシモデルに基づいて, 転送可能な除去器を設計する。 いずれの場合も,提案する除去器は,処理画像の品質を維持しつつ,埋め込み透かしの除去に成功し,またEGG除去器は透かしの交換も可能であることを示す。 大規模な実験により、提案攻撃の有効性と一般化性を検証し、既存のボックスフリー手法の脆弱性を明らかにし、さらなる研究を要求した。

Box-free model watermarking is an emerging technique to safeguard the intellectual property of deep learning models, particularly those for low-level image processing tasks. Existing works have verified and improved its effectiveness in several aspects. However, in this paper, we reveal that box-free model watermarking is prone to removal attacks, even under the real-world threat model such that the protected model and the watermark extractor are in black boxes. Under this setting, we carry out three studies. 1) We develop an extractor-gradient-guided (EGG) remover and show its effectiveness when the extractor uses ReLU activation only. 2) More generally, for an unknown extractor, we leverage adversarial attacks and design the EGG remover based on the estimated gradients. 3) Under the most stringent condition that the extractor is inaccessible, we design a transferable remover based on a set of private proxy models. In all cases, the proposed removers can successfully remove embedded watermarks while preserving the quality of the processed images, and we also demonstrate that the EGG remover can even replace the watermarks. Extensive experimental results verify the effectiveness and generalizability of the proposed attacks, revealing the vulnerabilities of the existing box-free methods and calling for further research.
翻訳日:2024-05-17 15:01:20 公開日:2024-05-16
# 空間可変畳み込みニューラルエミュレータを用いた太陽多対象多フレームブラインドデコンボリューション

Solar multi-object multi-frame blind deconvolution with a spatially variant convolution neural emulator ( http://arxiv.org/abs/2405.09864v1 )

ライセンス: Link先を確認
A. Asensio Ramos, (参考訳) 地上観測による天文学的な現象の研究は、地球の大気のゆがみの影響によって常に挑戦される。 これらの歪みを修正するのに不可欠な従来のポストファクト画像補正法は、特に空間的に変化する大気乱流の存在において、その効果を制限する仮定を単純化することに依存することが多い。 このようなケースは、視野を小さなパッチに分割し、各パッチを独立して分離し、すべてのパッチをマージすることで解決されることが多い。 このアプローチはしばしば非効率であり、アーティファクトを生成できる。 近年の計算技術の発展とディープラーニングの出現は、これらの制限に対処するための新しい経路を提供する。 本稿では、深層ニューラルネットワークを利用して空間変化の畳み込みをエミュレートし、天体画像の畳み込みの効率と精度を突破する新しい枠組みを提案する。 空間不変点拡散関数を伴う画像のデータセットをトレーニングし、空間不変点拡散関数の一般化性を検証することにより、従来の手法よりも顕著な進歩を示す。 畳み込みエミュレータは、太陽画像のための多目的多フレームブラインドデコンボリューションアルゴリズムの前方モデルとして使用される。 エミュレータは、パッチワイドモザイクに頼ることなく、広い視野での太陽観測の非畳み込みを可能にし、そのような技術に関連する人工物を避ける。 この方法は、処理時間を桁違いに削減し、計算上の優位性を示す。

The study of astronomical phenomena through ground-based observations is always challenged by the distorting effects of Earth's atmosphere. Traditional methods of post-facto image correction, essential for correcting these distortions, often rely on simplifying assumptions that limit their effectiveness, particularly in the presence of spatially variant atmospheric turbulence. Such cases are often solved by partitioning the field-of-view into small patches, deconvolving each patch independently, and merging all patches together. This approach is often inefficient and can produce artifacts. Recent advancements in computational techniques and the advent of deep learning offer new pathways to address these limitations. This paper introduces a novel framework leveraging a deep neural network to emulate spatially variant convolutions, offering a breakthrough in the efficiency and accuracy of astronomical image deconvolution. By training on a dataset of images convolved with spatially invariant point spread functions and validating its generalizability to spatially variant conditions, this approach presents a significant advancement over traditional methods. The convolution emulator is used as a forward model in a multi-object multi-frame blind deconvolution algorithm for solar images. The emulator enables the deconvolution of solar observations across large fields of view without resorting to patch-wise mosaicking, thus avoiding artifacts associated with such techniques. This method represents a significant computational advantage, reducing processing times by orders of magnitude.
翻訳日:2024-05-17 15:01:20 公開日:2024-05-16
# 深層生成モデルを用いた多ユーザセマンティックコミュニケーションの再考

Rethinking Multi-User Semantic Communications with Deep Generative Models ( http://arxiv.org/abs/2405.09866v1 )

ライセンス: Link先を確認
Eleonora Grassucci, Jinho Choi, Jihong Park, Riccardo F. Gramaccioni, Giordano Cicchetti, Danilo Comminiello, (参考訳) 近年,コネクテッドデバイスの増加や送信情報の質向上といった課題に直面する新たなコミュニケーション戦略が出現している。 特に,大規模言語や拡散モデルといった最先端の深層生成モデルと組み合わせることで,高度に圧縮されたセマンティック情報からコンテンツを再生することが可能になった。 しかし,これらの手法のほとんどは,受信側で受信したコンテンツを従来の通信システム上で処理する単一ユーザシナリオに重点を置いている。 本稿では,マルチユーザシナリオに適した新しい生成セマンティック・コミュニケーション・フレームワークを開発することで,これらの手法を克服することを提案する。 本システムは,紛失した情報を受信側で拡散モデルで満たせることを知って,チャネルをユーザに割り当てる。 この革新的な視点の下では、OFDMAシステムは情報の大部分を送信することではなく、欠落した情報を意味的に再生する生成モデルに必要なビットだけを目的とすべきである。 実験により,新しい拡散モデルの有効性と提案手法の有効性が示され,GenAIをベースとした次世代通信に繋がった。

In recent years, novel communication strategies have emerged to face the challenges that the increased number of connected devices and the higher quality of transmitted information are posing. Among them, semantic communication obtained promising results especially when combined with state-of-the-art deep generative models, such as large language or diffusion models, able to regenerate content from extremely compressed semantic information. However, most of these approaches focus on single-user scenarios processing the received content at the receiver on top of conventional communication systems. In this paper, we propose to go beyond these methods by developing a novel generative semantic communication framework tailored for multi-user scenarios. This system assigns the channel to users knowing that the lost information can be filled in with a diffusion model at the receivers. Under this innovative perspective, OFDMA systems should not aim to transmit the largest part of information, but solely the bits necessary to the generative model to semantically regenerate the missing ones. The thorough experimental evaluation shows the capabilities of the novel diffusion model and the effectiveness of the proposed framework, leading towards a GenAI-based next generation of communications.
翻訳日:2024-05-17 15:01:20 公開日:2024-05-16
# IRSRMamba: マンバを用いたウェーブレット変換特徴変調モデルによる赤外画像超解像

IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model ( http://arxiv.org/abs/2405.09873v1 )

ライセンス: Link先を確認
Yongsong Huang, Tomo Miyazaki, Xiaofeng Liu, Shinichiro Omachi, (参考訳) 赤外線(IR)画像の超解像は、均一な背景画素分布やスパースターゲット領域からの課題に直面し、長距離依存を効果的に処理し、詳細なローカル・グローバル情報を取得するモデルを必要とする。 状態空間モデルを用いたマンバモデル(選択構造状態空間モデル)の最近の進歩は、視覚的タスクに有意な可能性を示しており、IRの強化に適用可能であることを示唆している。 本稿では,マンバをベースとした波長変換特徴変調モデルにより,IR画像の超解像に特化して設計された新しいマンバモデルであるIRRMamba: Infrared Image Super-Resolutionを紹介する。 このモデルは、先進的な依存性モデリング機能を通じて、コンテキストスパースターゲットの詳細の復元を強化する。 さらに、新しいウェーブレット変換特徴変調ブロックは、マルチスケールの受容場表現を改善し、グローバル情報とローカル情報の両方を効率的にキャプチャする。 総合評価では、IRSRMambaは既存のモデルを複数のベンチマークで上回っている。 本研究は, 赤外線超解像を進展させ, 赤外線画像処理におけるマンバモデルの可能性を示す。 コードは \url{https://github.com/yongsongH/IRSRMamba} で公開されている。

Infrared (IR) image super-resolution faces challenges from homogeneous background pixel distributions and sparse target regions, requiring models that effectively handle long-range dependencies and capture detailed local-global information. Recent advancements in Mamba-based (Selective Structured State Space Model) models, employing state space models, have shown significant potential in visual tasks, suggesting their applicability for IR enhancement. In this work, we introduce IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model, a novel Mamba-based model designed specifically for IR image super-resolution. This model enhances the restoration of context-sparse target details through its advanced dependency modeling capabilities. Additionally, a new wavelet transform feature modulation block improves multi-scale receptive field representation, capturing both global and local information efficiently. Comprehensive evaluations confirm that IRSRMamba outperforms existing models on multiple benchmarks. This research advances IR super-resolution and demonstrates the potential of Mamba-based models in IR image processing. Code are available at \url{https://github.com/yongsongH/IRSRMamba}.
翻訳日:2024-05-17 15:01:20 公開日:2024-05-16
# Dual3D:Dual-mode Multi-view Latent Diffusionによるテキスト・ツー・3D生成の効率化

Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion ( http://arxiv.org/abs/2405.09874v1 )

ライセンス: Link先を確認
Xinyang Li, Zhangyu Lai, Linning Xu, Jianfei Guo, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji, (参考訳) 本稿では,テキストから高品質な3Dアセットをわずか1分で生成する新しいテキスト・ツー・3D生成フレームワークであるDual3Dについて紹介する。 ノイズの多いマルチビューレイトを考慮すれば、2Dモードは1つの遅延デノナイジングネットワークで効率的にデノナイジングすることができ、3Dモードは一貫したレンダリングベースのデノナイジングのために三面体ニューラルサーフェスを生成することができる。 両方のモードのほとんどのモジュールは、訓練済みのテキストから画像への遅延拡散モデルから調整され、コストのかかるトレーニングコストをゼロから回避する。 推論における高レンダリングコストを克服するために,2重モードのトグルリング推論手法を提案し,3Dモードで1/10ドルのデノナイズステップしか使用せず,品質を犠牲にすることなく,わずか10ドル秒で3Dアセットを生成できた。 3Dアセットのテクスチャは、我々の効率的なテクスチャ改質プロセスにより、短時間でさらに強化することができる。 大規模な実験により,本手法は生成時間を大幅に短縮しつつ,最先端性能を実現することを示した。 私たちのプロジェクトページはhttps://dual3d.github.ioで公開されています。

We present Dual3D, a novel text-to-3D generation framework that generates high-quality 3D assets from texts in only $1$ minute.The key component is a dual-mode multi-view latent diffusion model. Given the noisy multi-view latents, the 2D mode can efficiently denoise them with a single latent denoising network, while the 3D mode can generate a tri-plane neural surface for consistent rendering-based denoising. Most modules for both modes are tuned from a pre-trained text-to-image latent diffusion model to circumvent the expensive cost of training from scratch. To overcome the high rendering cost during inference, we propose the dual-mode toggling inference strategy to use only $1/10$ denoising steps with 3D mode, successfully generating a 3D asset in just $10$ seconds without sacrificing quality. The texture of the 3D asset can be further enhanced by our efficient texture refinement process in a short time. Extensive experiments demonstrate that our method delivers state-of-the-art performance while significantly reducing generation time. Our project page is available at https://dual3d.github.io
翻訳日:2024-05-17 15:01:20 公開日:2024-05-16
# リスクマンオントロジーと形状による医療機器のリスク管理

Risk Management for Medical Devices via the Riskman Ontology & Shapes ( http://arxiv.org/abs/2405.09875v1 )

ライセンス: Link先を確認
Piotr Gorczyca, Dörthe Arndt, Martin Diller, Pascal Kettmann, Stephan Mennicke, Hannes Strass, (参考訳) 医療機器のリスク管理に関する情報を表現・分析するためのリスクマンオントロジーと形状を紹介する。 リスク管理は、医療機器がユーザや環境に害を与えないように、必要な予防措置をとることに関心がある。 現在までに、リスク管理文書は、半構造化された自然言語テキストの形式で(認証のために)通知された機関に提出されている。 本稿では、リスクマンオントロジーのクラスを用いてリスク管理文書を論理的にモデル化し、含めたSHACL制約を用いて、構文的完全性と関連する標準への適合性をチェックすることを提案する。 特に、オントロジーはISO 14971と最近発表されたVDE Spec 90025からモデル化されている。 提案手法は, リスク管理資料作成時) と通知機関(認定申請時の評価時) の双方にとって多くの人的時間を節約できる可能性があり, 医療や社会全体にも大きなメリットがある。

We introduce the Riskman ontology & shapes for representing and analysing information about risk management for medical devices. Risk management is concerned with taking necessary precautions so a medical device does not cause harms for users or the environment. To date, risk management documentation is submitted to notified bodies (for certification) in the form of semi-structured natural language text. We propose to use classes from the Riskman ontology to logically model risk management documentation and to use the included SHACL constraints to check for syntactic completeness and conformity to relevant standards. In particular, the ontology is modelled after ISO 14971 and the recently published VDE Spec 90025. Our proposed methodology has the potential to save many person-hours for both manufacturers (when creating risk management documentation) as well as notified bodies (when assessing submitted applications for certification), and thus offers considerable benefits for healthcare and, by extension, society as a whole.
翻訳日:2024-05-17 15:01:20 公開日:2024-05-16
# 全フォトニック量子リピータの工学的課題

Engineering Challenges in All-photonic Quantum Repeaters ( http://arxiv.org/abs/2405.09876v1 )

ライセンス: Link先を確認
Naphan Benchasattabuse, Michal Hajdušek, Rodney Van Meter, (参考訳) 通信ネットワークにおける次のフロンティアと称される量子ネットワークは、量子コンピュータとデバイスが協調してインターネットで可能な以上の能力をアンロックする領域を構想している。 長距離量子ネットワークを実現するための重要なコンポーネントであり、究極的には量子インターネットは量子リピータである。 異なる技術でスケーラブルな量子コンピュータを構築するレースと同様に、量子リピータを構築するための様々なスキームが存在する。 この記事では、量子リピータ技術への最近の追加として、「全フォトニック量子リピータ」と呼ばれる2方向の「全フォトニック量子リピータ」について、穏やかに紹介する。 従来の手法とは対照的に、これらのリピータは量子メモリの必要性を排除し、高い繰り返し率と量子演算エラーと光子損失の両方に対する本質的な耐性の二重の利点を提供する。 グラフ状態を操作するための可視化と簡単なルールを用いて、全フォトニック量子リピータがどのように機能するかを説明する。 本稿では,この方式によって要求される古典的通信量の増加の問題について論じる。 本稿では,古典的コミュニケーションの量を3桁に減らす解を提示することで,この問題に対処する。 我々は、理論上の全フォトニックフレームワークを実世界の実装に翻訳する際の他の重要なオープンな課題を強調し、全フォトニック量子リピータ技術の実践的考察と今後の研究方向性について考察する。

Quantum networking, heralded as the next frontier in communication networks, envisions a realm where quantum computers and devices collaborate to unlock capabilities beyond what is possible with the Internet. A critical component for realizing a long-distance quantum network, and ultimately, the Quantum Internet, is the quantum repeater. As with the race to build a scalable quantum computer with different technologies, various schemes exist for building quantum repeaters. This article offers a gentle introduction to the two-way ``all-photonic quantum repeaters,'' a recent addition to quantum repeater technologies. In contrast to conventional approaches, these repeaters eliminate the need for quantum memories, offering the dual benefits of higher repetition rates and intrinsic tolerance to both quantum operational errors and photon losses. Using visualization and simple rules for manipulating graph states, we describe how all-photonic quantum repeaters work. We discuss the problem of the increased volume of classical communication required by this scheme, which places a huge processing requirement on the end nodes. We address this problem by presenting a solution that decreases the amount of classical communication by three orders of magnitude. We conclude by highlighting other key open challenges in translating the theoretical all-photonic framework into real-world implementation, providing insights into the practical considerations and future research directions of all-photonic quantum repeater technology.
翻訳日:2024-05-17 15:01:20 公開日:2024-05-16
# 反復型PWLニューラルネットワークにおける超平面配置と固定点

Hyperplane Arrangements and Fixed Points in Iterated PWL Neural Networks ( http://arxiv.org/abs/2405.09878v1 )

ライセンス: Link先を確認
Hans-Peter Beise, (参考訳) 我々は超平面配置の枠組みを活用して(安定な)固定点の潜在的領域を分析する。 多層ニューラルネットワークにおいて、任意の多くの線形部分を持つピースワイド線形(PWL)アクティベーション関数を備えた固定点数の上限を与える。 後者境界の層数における指数的成長の理論的最適性を示す。 具体的には、ハードタンハアクティベーションを持つ一隠れ層ネットワークの安定な固定点数に基づいて、よりシャープな上限を導出する。

We leverage the framework of hyperplane arrangements to analyze potential regions of (stable) fixed points. We provide an upper bound on the number of fixed points for multi-layer neural networks equipped with piecewise linear (PWL) activation functions with arbitrary many linear pieces. The theoretical optimality of the exponential growth in the number of layers of the latter bound is shown. Specifically, we also derive a sharper upper bound on the number of stable fixed points for one-hidden-layer networks with hard tanh activation.
翻訳日:2024-05-17 15:01:20 公開日:2024-05-16
# アイデンティティのための生成的アンラーニング

Generative Unlearning for Any Identity ( http://arxiv.org/abs/2405.09879v1 )

ライセンス: Link先を確認
Juwon Seo, Sung-Hoon Lee, Tae-Young Lee, Seungjun Moon, Gyeong-Moon Park, (参考訳) 大規模データセットで訓練された生成モデルの最近の進歩により、様々な領域にわたる高品質なサンプルを合成できるようになった。 さらに、強力な反転ネットワークの出現は、現実世界の画像の再構築だけでなく、様々な編集手法による属性の修正を可能にする。 しかし、プライバシー問題に関連する特定の領域、例えば人間の顔、高度な生成モデル、強力な反転手法は、潜在的な誤用につながる可能性がある。 本稿では,特定のアイデンティティのイメージを生成せずにモデルを学習する,生成的アイデンティティアンラーニング(generative identity unlearning)という,必須かつ未探索な課題を提案する。 生成的アイデンティティ・アンラーニングでは、以下の目的を目標としています。 一 特定の同一性のある画像の発生を防止すること、及び (II)生成モデルの全体的な品質を維持すること。 これらの目標を達成するために,1つの画像のみを用いて生成元をアンラーニングすることで,特定のアイデンティティの再構築を防止する新しいフレームワーク,GUIDE(Generative Unlearning for Any Identity)を提案する。 GUIDEは2つの部分から構成される。 一 ソースコードを未特定の最適化のための目標点を見つけること。 二 学習過程に影響を及ぼすことなく、未学習の手順を促進する新規な損失関数。 提案手法は, 生成機械の非学習タスクにおいて, 最先端の性能を実現することを実証した。 コードはhttps://github.com/KHU-AGI/GUIDEで公開されている。

Recent advances in generative models trained on large-scale datasets have made it possible to synthesize high-quality samples across various domains. Moreover, the emergence of strong inversion networks enables not only a reconstruction of real-world images but also the modification of attributes through various editing methods. However, in certain domains related to privacy issues, e.g., human faces, advanced generative models along with strong inversion methods can lead to potential misuses. In this paper, we propose an essential yet under-explored task called generative identity unlearning, which steers the model not to generate an image of a specific identity. In the generative identity unlearning, we target the following objectives: (i) preventing the generation of images with a certain identity, and (ii) preserving the overall quality of the generative model. To satisfy these goals, we propose a novel framework, Generative Unlearning for Any Identity (GUIDE), which prevents the reconstruction of a specific identity by unlearning the generator with only a single image. GUIDE consists of two parts: (i) finding a target point for optimization that un-identifies the source latent code and (ii) novel loss functions that facilitate the unlearning procedure while less affecting the learned distribution. Our extensive experiments demonstrate that our proposed method achieves state-of-the-art performance in the generative machine unlearning task. The code is available at https://github.com/KHU-AGI/GUIDE.
翻訳日:2024-05-17 15:01:20 公開日:2024-05-16
# 顔認識に応用した部分的3次元顔の深層学習による準等角面の登録

Deep Learning-Based Quasi-Conformal Surface Registration for Partial 3D Faces Applied to Facial Recognition ( http://arxiv.org/abs/2405.09880v1 )

ライセンス: Link先を確認
Yuchen Guo, Hanqun Cao, Lok Ming Lui, (参考訳) 3D顔登録は、3D顔モデルを整列し、テンプレートフェイスにマッピングする重要なプロセスである。 しかし, 顔情報に制限がある部分的な顔データを扱う場合, 3次元顔登録の課題は特に困難となる。 この課題に対処するために, 準等角形状と深層ニューラルネットワークを組み合わせた, 深層学習に基づく新しいアプローチを提案する。 提案するフレームワークは、曲率情報を用いて顔の特徴を検出し、対応する座標を推定するランドマーク検出ネットワークから始まる。 これらの顔のランドマークは、登録プロセスに不可欠なガイダンスとなる。 部分面とテンプレート面との密接な対応を確立するために、準等角理論に基づく登録ネットワークを用いる。 登録ネットワークは、検出されたランドマークと曲率値に基づいて、対応する部分面を整列する主観的準等角面マッピングを確立する。 これは、表面マッピングを表す最適なベルトラミ係数を出力する係数予測ネットワークで構成されている。 ベルトラミ係数は、写像の局所的な幾何学的歪みを定量化する。 適切な活性化関数によってベルトラミ係数の大きさを制御することにより、写像の単射性と幾何学的歪みを制御することができる。 ベルトラミ係数はベルラミソルバネットワークに供給され、対応する写像を再構成する。 表面登録は、対応する領域の取得と、異なる部分面間のポイントワイド対応の確立を可能にし、これらの領域におけるポイントワイド幾何学的差異の評価を通じて、正確な形状比較を容易にする。 実験の結果,提案手法の有効性が示された。

3D face registration is an important process in which a 3D face model is aligned and mapped to a template face. However, the task of 3D face registration becomes particularly challenging when dealing with partial face data, where only limited facial information is available. To address this challenge, this paper presents a novel deep learning-based approach that combines quasi-conformal geometry with deep neural networks for partial face registration. The proposed framework begins with a Landmark Detection Network that utilizes curvature information to detect the presence of facial features and estimate their corresponding coordinates. These facial landmark features serve as essential guidance for the registration process. To establish a dense correspondence between the partial face and the template surface, a registration network based on quasiconformal theories is employed. The registration network establishes a bijective quasiconformal surface mapping aligning corresponding partial faces based on detected landmarks and curvature values. It consists of the Coefficients Prediction Network, which outputs the optimal Beltrami coefficient representing the surface mapping. The Beltrami coefficient quantifies the local geometric distortion of the mapping. By controlling the magnitude of the Beltrami coefficient through a suitable activation function, the bijectivity and geometric distortion of the mapping can be controlled. The Beltrami coefficient is then fed into the Beltrami solver network to reconstruct the corresponding mapping. The surface registration enables the acquisition of corresponding regions and the establishment of point-wise correspondence between different partial faces, facilitating precise shape comparison through the evaluation of point-wise geometric differences at these corresponding regions. Experimental results demonstrate the effectiveness of the proposed method.
翻訳日:2024-05-17 15:01:20 公開日:2024-05-16
# 量子ネットワークにおけるベル状態解析器のスケーラブルタイミング座標

Scalable Timing Coordination of Bell State Analyzers in Quantum Networks ( http://arxiv.org/abs/2405.09881v1 )

ライセンス: Link先を確認
Yoshihiro Mori, Toshihiko Sasaki, Rikizo Ikuta, Kentaro Teramoto, Hiroyuki Ohno, Michal Hajdušek, Rodney Van Meter, Shota Nagayama, (参考訳) 光ベル状態解析器(英語版)(BSA)は量子ネットワークにおける絡み合いの光学発生において重要な役割を果たしている。 光BSAは、入射光子のタイミング制御に有効である。 マルチホップや複雑な大規模ネットワークでもタイミング同期が可能か,その効率性は明らかではない。 本稿では,各ノードのメモリを使用せずに,複数のホップ上でのBSA同期機構のスケーラビリティについて検討する。 本稿では、まず、BSAを介して2つのネットワークノード間の絡み合いの交換、特にBSAにおける光子の同時到着を実現するための光路調整の効果的な方法に焦点を当てる。 リピータグラフ状態ネットワークを含む光メモリレス量子ネットワークでは、量子光路配向はうまく機能するが、いくつかのタイミング調整機構は隣接リンク等にカスケードする効果があり、そのうちのいくつかはタイミング調整ではうまく機能しない。 また,複数ノードの絡み合い交換による絡み合い状態のエンドツーエンド拡張が,量子ネットワークの実用化に不可欠であるとして,量子メモリの効果についても論じる。 最後に、ネットワークトポロジにおける全光リンクのサイクルは同期しない可能性があることが示され、この特性は大きなネットワークでの同期を考慮する際に考慮すべきである。

The optical Bell State Analyzer (BSA) plays a key role in the optical generation of entanglement in quantum networks. The optical BSA is effective in controlling the timing of arriving photons to achieve interference. It is unclear whether timing synchronization is possible even in multi-hop and complex large-scale networks, and if so, how efficient it is. We investigate the scalability of BSA synchronization mechanisms over multiple hops for quantum networks both with and without memory in each node. We first focus on the exchange of entanglement between two network nodes via a BSA, especially effective methods of optical path coordination in achieving the simultaneous arrival of photons at the BSA. In optical memoryless quantum networks, including repeater graph state networks, we see that the quantum optical path coordination works well, though some possible timing coordination mechanisms have effects that cascade to adjacent links and beyond, some of which was not going to work well of timing coordination. We also discuss the effect of quantum memory, given that end-to-end extension of entangled states through multi-node entanglement exchange is essential for the practical application of quantum networks. Finally, cycles of all-optical links in the network topology are shown to may not be to synchronize, this property should be taken into account when considering synchronization in large networks.
翻訳日:2024-05-17 15:01:20 公開日:2024-05-16
# DiffAM: 顔のプライバシ保護のための拡散型対向メイクアップ転送

DiffAM: Diffusion-based Adversarial Makeup Transfer for Facial Privacy Protection ( http://arxiv.org/abs/2405.09882v1 )

ライセンス: Link先を確認
Yuhao Sun, Lingyun Yu, Hongtao Xie, Jiaming Li, Yongdong Zhang, (参考訳) 顔認識システム(FR)の急速な発展に伴い、ソーシャルメディア上の顔画像のプライバシーは、未承認のFRシステムの悪用により深刻な問題に直面している。 敵攻撃技術を用いて悪意のあるFR系を防御する研究もある。 しかし、保護された顔画像のような生成した対向的な例は、視力の劣る品質と低転送性に悩まされる傾向にある。 本稿では,DiffAMと呼ばれる新しい顔保護手法を提案する。この手法は,拡散モデルの強力な生成能力を利用して,基準画像から逆方向の化粧を施した高品質な顔画像を生成する。 具体的には、CLIP空間におけるテキストプロンプトのガイダンスを用いた微調整拡散モデルを用いて、非メイクアップ画像を生成する化粧除去モジュールを最初に導入する。 メークアップ転送の逆過程として、メイクアップドメインと非メイクアップドメインとの確定的関係を、精巧なテキストプロンプトによらず容易に確立することができる。 そして、この関係により、CLIPベースの化粧損とアンサンブル攻撃戦略を導入し、対向化粧領域の方向を共同で案内し、自然な化粧と高いブラックボックス転写性を有する保護顔画像の生成を実現する。 大規模な実験により、DiffAMはブラックボックス設定で12.98%上昇し、視覚的品質の向上と攻撃の成功率の向上を実現している。 コードはhttps://github.com/HansSunY/DiffAM.comで入手できる。

With the rapid development of face recognition (FR) systems, the privacy of face images on social media is facing severe challenges due to the abuse of unauthorized FR systems. Some studies utilize adversarial attack techniques to defend against malicious FR systems by generating adversarial examples. However, the generated adversarial examples, i.e., the protected face images, tend to suffer from subpar visual quality and low transferability. In this paper, we propose a novel face protection approach, dubbed DiffAM, which leverages the powerful generative ability of diffusion models to generate high-quality protected face images with adversarial makeup transferred from reference images. To be specific, we first introduce a makeup removal module to generate non-makeup images utilizing a fine-tuned diffusion model with guidance of textual prompts in CLIP space. As the inverse process of makeup transfer, makeup removal can make it easier to establish the deterministic relationship between makeup domain and non-makeup domain regardless of elaborate text prompts. Then, with this relationship, a CLIP-based makeup loss along with an ensemble attack strategy is introduced to jointly guide the direction of adversarial makeup domain, achieving the generation of protected face images with natural-looking makeup and high black-box transferability. Extensive experiments demonstrate that DiffAM achieves higher visual quality and attack success rates with a gain of 12.98% under black-box setting compared with the state of the arts. The code will be available at https://github.com/HansSunY/DiffAM.
翻訳日:2024-05-17 15:01:20 公開日:2024-05-16
# RoScenes:ロードサイド認識のための大規模マルチビュー3Dデータセット

RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception ( http://arxiv.org/abs/2405.09883v1 )

ライセンス: Link先を確認
Xiaosu Zhu, Hualian Sheng, Sijia Cai, Bing Deng, Shaopeng Yang, Qiao Liang, Ken Chen, Lianli Gao, Jingkuan Song, Jieping Ye, (参考訳) 我々は、視覚中心のBird's Eye View(BEV)アプローチの開発に光を当てることを目的として、最も大きなマルチビュー道路側認識データセットであるRoScenesを紹介した。 RoScenesのハイライトは、大きな認識領域、フルシーンカバレッジ、混雑したトラフィックである。 具体的には、我々のデータセットは、驚くべき21.13Mの3Dアノテーションを64,000$m^2$で達成している。 道路側3Dラベリングのコストを低減すべく,大量のデータを効率的に収集する新しいBEV-to-3D共同アノテーションパイプラインを提案する。 その後,RoScenesにおける現行のBEV手法に関する総合的な研究を,有効性と効率の観点から整理した。 テストされた手法は、広い知覚領域と、シーン間のセンサーレイアウトの変化に悩まされ、パフォーマンスレベルが期待を下回る結果となった。 そこで本稿では,効率的な2D-3D特徴割り当てのための特徴誘導位置埋め込みを組み込んだRoBEVを提案する。 その助けにより,本手法は,検証セットに余分な計算オーバーヘッドを伴わずに,最先端の手法よりも大きなマージンで性能を向上する。 私たちのデータセットとdevkitは、 \url{https://github.com/xiaosu-zhu/RoScenes}で利用可能になります。

We introduce RoScenes, the largest multi-view roadside perception dataset, which aims to shed light on the development of vision-centric Bird's Eye View (BEV) approaches for more challenging traffic scenes. The highlights of RoScenes include significantly large perception area, full scene coverage and crowded traffic. More specifically, our dataset achieves surprising 21.13M 3D annotations within 64,000 $m^2$. To relieve the expensive costs of roadside 3D labeling, we present a novel BEV-to-3D joint annotation pipeline to efficiently collect such a large volume of data. After that, we organize a comprehensive study for current BEV methods on RoScenes in terms of effectiveness and efficiency. Tested methods suffer from the vast perception area and variation of sensor layout across scenes, resulting in performance levels falling below expectations. To this end, we propose RoBEV that incorporates feature-guided position embedding for effective 2D-3D feature assignment. With its help, our method outperforms state-of-the-art by a large margin without extra computational overhead on validation set. Our dataset and devkit will be made available at \url{https://github.com/xiaosu-zhu/RoScenes}.
翻訳日:2024-05-17 15:01:20 公開日:2024-05-16
# 共振器内の多層原子の駆動散逸アンサンブルにおける対称性の破れと非エルゴード性

Symmetry breaking and non-ergodicity in a driven-dissipative ensemble of multi-level atoms in a cavity ( http://arxiv.org/abs/2405.09885v1 )

ライセンス: Link先を確認
Enrique Hernandez, Elmer Suarez, Igor Lesanovsky, Beatriz Olmos, Philippe W. Courteille, Sebastian Slama, (参考訳) 散逸性光マターシステムは、創発的な集団行動を示すことができる。 ここでは、弱駆動2モード光キャビティに強く結合した多レベル$^{87}$Rb原子系における$\mathbb{Z}_2$-symmetric-breaking相転移を報告する。 対称性が破られた段階では、非エルゴード力学は、アトラクションの非結合盆地を持つ複数の定常状態の出現に現れる。 この特徴により、小さな原子集団の不均衡を特徴的なマクロなキャビティ伝送信号に増幅することができる。 我々の実験は、非自明な集合多体現象を探索するためのプラットフォームとして、強い散逸性原子キャビティシステムを示すだけでなく、センシング、密度分類、および連想記憶内のパターン検索ダイナミクスの文脈における技術応用のホスティングの可能性も強調している。

Dissipative light-matter systems can display emergent collective behavior. Here, we report a $\mathbb{Z}_2$-symmetry-breaking phase transition in a system of multi-level $^{87}$Rb atoms strongly coupled to a weakly driven two-mode optical cavity. In the symmetry-broken phase, non-ergodic dynamics manifests in the emergence of multiple stationary states with disjoint basins of attraction. This feature enables the amplification of a small atomic population imbalance into a characteristic macroscopic cavity transmission signal. Our experiment does not only showcase strongly dissipative atom-cavity systems as platforms for probing non-trivial collective many-body phenomena, but also highlights their potential for hosting technological applications in the context of sensing, density classification, and pattern retrieval dynamics within associative memories.
翻訳日:2024-05-17 15:01:20 公開日:2024-05-16
# MTLComb:共同特徴選択のための回帰と分類タスクを組み合わせたマルチタスク学習

MTLComb: multi-task learning combining regression and classification tasks for joint feature selection ( http://arxiv.org/abs/2405.09886v1 )

ライセンス: Link先を確認
Han Cao, Sivanesan Rajan, Bianka Hahn, Ersoy Kocak, Daniel Durstewitz, Emanuel Schwarz, Verena Schneider-Lindner, (参考訳) マルチタスク学習(Multi-task learning、MTL)は、複数の通信アルゴリズムの同時学習を可能にする学習パラダイムである。 MTLは、エーテル回帰や分類にのみ適用されているが、多種多様なタスクを統合されたMTLフレームワークに組み込むことは、主に異なるタスクに関連する損失の大きさのばらつきによって困難である。 この課題は、特に共同特徴選択を伴うMTLアプリケーションにおいて明らかであり、しばしばバイアス選択をもたらす。 この障害を克服するために、回帰と分類タスクのバランスをとるための最適な重み付けを解析的に決定する、証明可能な損失重み付け手法を提案する。 このスキームは、さもなければバイアスのある特徴選択を著しく軽減する。 このスキームに基づいて,最適化手順,トレーニングプロトコル,ハイパーパラメータ推定手順を含むMTLアルゴリズムとソフトウェアパッケージであるMTLCombを導入する。 MTLCombは、混合型のタスク間で共有予測器を学習するために設計されている。 MTLCombの有効性を示すため,敗血症と統合失調症に関する模擬データと生医学的な研究を行った。

Multi-task learning (MTL) is a learning paradigm that enables the simultaneous training of multiple communicating algorithms. Although MTL has been successfully applied to ether regression or classification tasks alone, incorporating mixed types of tasks into a unified MTL framework remains challenging, primarily due to variations in the magnitudes of losses associated with different tasks. This challenge, particularly evident in MTL applications with joint feature selection, often results in biased selections. To overcome this obstacle, we propose a provable loss weighting scheme that analytically determines the optimal weights for balancing regression and classification tasks. This scheme significantly mitigates the otherwise biased feature selection. Building upon this scheme, we introduce MTLComb, an MTL algorithm and software package encompassing optimization procedures, training protocols, and hyperparameter estimation procedures. MTLComb is designed for learning shared predictors among tasks of mixed types. To showcase the efficacy of MTLComb, we conduct tests on both simulated data and biomedical studies pertaining to sepsis and schizophrenia.
翻訳日:2024-05-17 15:01:20 公開日:2024-05-16
# フェデレーション学習における類似性と相補性とのバランス

Balancing Similarity and Complementarity for Federated Learning ( http://arxiv.org/abs/2405.09892v1 )

ライセンス: Link先を確認
Kunda Yan, Sen Cui, Abudukelimu Wuerkaixi, Jingfeng Zhang, Bo Han, Gang Niu, Masashi Sugiyama, Changshui Zhang, (参考訳) モバイルとIoTシステムでは、ユーザプライバシを維持しながらデータを有効に使用する上で、フェデレートラーニング(FL)がますます重要になっています。 FLにおける重要な課題の1つは、多くのクライアントや多様なデータソースから生じる、非i.d.データのような統計的不均一性を管理することである。 これは、しばしば同様の特性を持つクライアントとの戦略的協力を必要とします。 しかし、私たちは根本的な問題に興味を持っている。最適な協力を達成するには、常に最も類似したクライアントと協力する必要がありますか? 通常、重要なモデルパフォーマンスの改善は、最も類似したモデルと提携するのではなく、補完的なデータを活用することで実現される。 理論的および実証的な分析から,特徴分布の相補性を向上し,特徴と目標の相関関係の相違を抑えることにより,最適協調が達成されることが示唆された。 そこで本研究では,FL協調における類似性と相補性のバランスをとる新しいフレームワークである‘texttt{FedSaC} を紹介する。 本フレームワークは,モデル類似度と特徴相補性の重み付け和を最適化することにより,各クライアントの最適協調ネットワークを近似することを目的としている。 texttt{FedSaC}の強みは、さまざまなレベルのデータ不均一性とマルチモーダルシナリオへの適応性にある。 我々の総合的な一乗法および多乗法実験は、他の最先端FL法を著しく上回っていることを証明している。

In mobile and IoT systems, Federated Learning (FL) is increasingly important for effectively using data while maintaining user privacy. One key challenge in FL is managing statistical heterogeneity, such as non-i.i.d. data, arising from numerous clients and diverse data sources. This requires strategic cooperation, often with clients having similar characteristics. However, we are interested in a fundamental question: does achieving optimal cooperation necessarily entail cooperating with the most similar clients? Typically, significant model performance improvements are often realized not by partnering with the most similar models, but through leveraging complementary data. Our theoretical and empirical analyses suggest that optimal cooperation is achieved by enhancing complementarity in feature distribution while restricting the disparity in the correlation between features and targets. Accordingly, we introduce a novel framework, \texttt{FedSaC}, which balances similarity and complementarity in FL cooperation. Our framework aims to approximate an optimal cooperation network for each client by optimizing a weighted sum of model similarity and feature complementarity. The strength of \texttt{FedSaC} lies in its adaptability to various levels of data heterogeneity and multimodal scenarios. Our comprehensive unimodal and multimodal experiments demonstrate that \texttt{FedSaC} markedly surpasses other state-of-the-art FL methods.
翻訳日:2024-05-17 14:51:34 公開日:2024-05-16
# Hunt Takes Hare:ゲームワードベクター翻訳によるテーマゲーム

"Hunt Takes Hare": Theming Games Through Game-Word Vector Translation ( http://arxiv.org/abs/2405.09893v1 )

ライセンス: Link先を確認
Rabii Younès, Cook Michael, (参考訳) ゲームテーマはそのデザインの重要な部分であり、物語情報、修辞的メッセージ、プレイヤーの侵入戦略、チュートリアルの支援などを提供する。 しかし、ゲームのテーマ要素はAIシステムが理解し操作することが難しいことで知られており、しばしば手書きの解釈や知識に頼っている。 本稿では,ゲーム埋め込み,ログデータからゲームダイナミクスをモデル化する最近の手法,および言語に関する意味情報をモデル化する単語埋め込みを結合する手法を提案する。 この方法でゲーム埋め込みを利用するための2つの異なるアプローチを説明し、ゲーム埋め込みがゲームコンセプトの言語翻訳をあるテーマから別のテーマへ拡張する証拠を示し、未来のゲームのテーマ要素を推論するエキサイティングな新しい可能性を開く。

A game's theme is an important part of its design -- it conveys narrative information, rhetorical messages, helps the player intuit strategies, aids in tutorialisation and more. Thematic elements of games are notoriously difficult for AI systems to understand and manipulate, however, and often rely on large amounts of hand-written interpretations and knowledge. In this paper we present a technique which connects game embeddings, a recent method for modelling game dynamics from log data, and word embeddings, which models semantic information about language. We explain two different approaches for using game embeddings in this way, and show evidence that game embeddings enhance the linguistic translations of game concepts from one theme to another, opening up exciting new possibilities for reasoning about the thematic elements of games in the future.
翻訳日:2024-05-17 14:51:34 公開日:2024-05-16
# 要求の満足度を測る:活動と属性の初期モデル

Measuring the Fitness-for-Purpose of Requirements: An initial Model of Activities and Attributes ( http://arxiv.org/abs/2405.09895v1 )

ライセンス: Link先を確認
Julian Frattini, Jannik Fischbach, Davide Fucci, Michael Unterkalmsteiner, Daniel Mendez, (参考訳) 要件工学は、開発中のシステムが満たさなければならない利害関係者のニーズと制約について、その後のソフトウェア開発活動に通知することを目的としている。 要件アーティファクトやプロセスの品質は、その目的にどの程度適しているか、すなわちそれらがそれらに影響される活動にどのように影響するかによって決定される。 しかし,要求品質に関する研究には,これらの活動の概要と測定方法が欠落している。 本稿では,このギャップに対処する研究課題を特定し,要求に影響を及ぼす活動とその属性の初期モデルを提案する。 文献データと経験データの両方を含む3つの異なるデータソースからモデルを構築する。 その結果、24のアクティビティと16の属性を含む初期モデルが得られた。 私たちの長期的な目標は、REフェーズのためにフィットネスを最適化する方法に関するエビデンスベースの意思決定支援を開発し、その後、影響を受けるソフトウェア開発プロセスを支援することです。 要求アーティファクトとプロセスがこれらのアクティビティの属性に与える影響を測定することで、そのようにします。 コントリビューションを手元に、研究コミュニティに対して、研究ロードマップを批判的に議論し、モデルのさらなる進化を支援するよう呼びかけます。

Requirements engineering aims to fulfill a purpose, i.e., inform subsequent software development activities about stakeholders' needs and constraints that must be met by the system under development. The quality of requirements artifacts and processes is determined by how fit for this purpose they are, i.e., how they impact activities affected by them. However, research on requirements quality lacks a comprehensive overview of these activities and how to measure them. In this paper, we specify the research endeavor addressing this gap and propose an initial model of requirements-affected activities and their attributes. We construct a model from three distinct data sources, including both literature and empirical data. The results yield an initial model containing 24 activities and 16 attributes quantifying these activities. Our long-term goal is to develop evidence-based decision support on how to optimize the fitness for purpose of the RE phase to best support the subsequent, affected software development process. We do so by measuring the effect that requirements artifacts and processes have on the attributes of these activities. With the contribution at hand, we invite the research community to critically discuss our research roadmap and support the further evolution of the model.
翻訳日:2024-05-17 14:51:34 公開日:2024-05-16
# 原子空洞磁気学における高次例外点を持つ量子メトロロジー

Quantum Metrology with Higher-order Exceptional Points in Atom-cavity Magnonics ( http://arxiv.org/abs/2405.09899v1 )

ライセンス: Link先を確認
Minwei Shi, Guzhi Bao, Jinxian Guo, Weiping Zhang, (参考訳) 非エルミート物理学から生まれた例外点(EP)は、小さな摂動に対するシステムの反応を著しく増幅し、気象学における測定を強化するための有用な概念として機能する。 特に、このようなメロジカルな拡張はEPの順序によって劇的に増加する。 しかし、本質的に非エルミート系に存在するランゲヴィンノイズは、この拡張を減少させる。 本研究では,Hermitian Magnon-photon 相互作用による原子-キャビティ系における高次EP(HOEP)の構成による量子力学のプロトコルを提案する。 HOEPの構成は原子-キャビティ非エルミート的な動的挙動を利用するが、エルミート相互作用を介して外部のランゲヴィンノイズを避ける。 任意の$n$-次EP(EPn)を構成するための一般的な解析が示される。 量子気象学におけるこれらのHOEPの優位性の実証として、EP3/4ベースの原子センサーを開発し、感度はEP2ベースのものよりも桁違いに高い。 さらに, HOEPの感度向上のメカニズムを明らかにした。 この提案の実験的根拠は、潜在的な候補について提案されている。 このEPベースの原子センサーは、原子光インタフェースを利用して、HOEPを用いた量子メロジに関する新たな洞察を提供する。

Exceptional points (EPs), early arising from non-Hermitian physics, significantly amplify the system's response to minor perturbations, and act as a useful concept to enhance measurement in metrology. In particular, such a metrological enhancement grows dramatically with the EP's order. However, the Langevin noises intrinsically existing in the non-Hermitian systems diminish this enhancement. In this study, we propose a protocol for quantum metrology with the construction of higher-order EPs (HOEPs) in atom-cavity system through Hermitian magnon-photon interaction. The construction of HOEPs utilizes the atom-cavity non-Hermitian-like dynamical behavior but avoids the external Langevin noises via the Hermitian interaction. A general analysis is exhibited for the construction of arbitrary $n$-th order EP (EPn). As a demonstration of the superiority of these HOEPs in quantum metrology, we work out an EP3/4-based atomic sensor with sensitivity being orders of magnitude higher than that achievable in an EP2-based one. We further unveil the mechanism behind the sensitivity enhancement from HOEPs. The experimental establishment for this proposal is suggested with potential candidates. This EP-based atomic sensor, taking advantage of the atom-light interface, offers new insight into quantum metrology with HOEPs.
翻訳日:2024-05-17 14:51:34 公開日:2024-05-16
# Cascaded Diffusion Model を用いた全音階層的シンボリック音楽の生成

Whole-Song Hierarchical Generation of Symbolic Music Using Cascaded Diffusion Models ( http://arxiv.org/abs/2405.09901v1 )

ライセンス: Link先を確認
Ziyu Wang, Lejun Min, Gus Xia, (参考訳) 近年のディープ・ミュージック・ジェネレーションの研究は、構造を持つ長期的な音楽制作に重点を置いている。 しかし、我々はまだ高品質でよく構造化された全曲の世代を見ていない。 本稿では,作曲階層を実現する上で,完全な楽曲をモデル化するための最初の試みを行う。 ポップソングの象徴的表現に焦点をあて、階層言語を定義し、各階層構造は特定の音楽範囲における意味論と文脈依存性に焦点をあてる。 ハイレベル言語は全曲形式、フレーズ、ケイデンスを示し、低レベル言語は音符、和音、およびそれらの局所パターンに焦点を当てている。 カスケード拡散モデルは階層言語をモデル化するために訓練され、各レベルはその上位レベルに条件付けられている。 実験と分析により,本モデルでは,グローバルなヴァースコーラス構造とケイデンスを認識可能なフルピース音楽の生成が可能であり,音楽の質がベースラインよりも高いことを示す。 さらに,提案手法は柔軟に制御可能であることを示す。 解釈可能な階層言語からサンプリングしたり、事前訓練された外部表現を調整することで、ユーザーはフレーズ調和構造、リズムパターン、伴奏テクスチャといった様々な特徴によって音楽の流れを制御できる。

Recent deep music generation studies have put much emphasis on long-term generation with structures. However, we are yet to see high-quality, well-structured whole-song generation. In this paper, we make the first attempt to model a full music piece under the realization of compositional hierarchy. With a focus on symbolic representations of pop songs, we define a hierarchical language, in which each level of hierarchy focuses on the semantics and context dependency at a certain music scope. The high-level languages reveal whole-song form, phrase, and cadence, whereas the low-level languages focus on notes, chords, and their local patterns. A cascaded diffusion model is trained to model the hierarchical language, where each level is conditioned on its upper levels. Experiments and analysis show that our model is capable of generating full-piece music with recognizable global verse-chorus structure and cadences, and the music quality is higher than the baselines. Additionally, we show that the proposed model is controllable in a flexible way. By sampling from the interpretable hierarchical languages or adjusting pre-trained external representations, users can control the music flow via various features such as phrase harmonic structures, rhythmic patterns, and accompaniment texture.
翻訳日:2024-05-17 14:51:34 公開日:2024-05-16
# ビデオストリーミングの暗号化を回避すべく、Deep Metric Learningを悩ませる

Unveiling the Potential: Harnessing Deep Metric Learning to Circumvent Video Streaming Encryption ( http://arxiv.org/abs/2405.09902v1 )

ライセンス: Link先を確認
Arwin Gansekoele, Tycho Bot, Rob van der Mei, Sandjai Bhulai, Mark Hoogendoorn, (参考訳) HTTPSへの移行によるインターネット上の暗号化は、インターネットユーザのプライバシーを改善するための重要なステップである。 しかし、暗号化されたインターネットトラフィックから情報を復号することなく抽出する作業が増えている。 このような攻撃はHTTPSによるセキュリティ保証をバイパスするので、理解する必要がある。 以前の研究では、ビデオストリームの可変ビットレートが、誰かが見ているビデオを特定するのに十分であることが示された。 これらの作業は一般的に,正確性やスケーラビリティ,堅牢性といった面においてトレードオフを行う必要があります。 これらのトレードオフはこれらの攻撃の実用的利用を複雑にしている。 そこで本研究では,三重項損失法に基づくディープラーニングフレームワークを提案する。 このフレームワークにより、ロバストで、汎用性があり、スケーラブルで、転送可能な暗号化ビデオストリーム検出を実現する。 まず、三重項の損失は、トレーニング中に見えないビデオストリームに対処するのに役立つ。 第二に、トレーニング中に見えないビデオを正確に分類できる。 第3に,本手法は1000本以上のビデオのデータセットによく対応していることを示す。 最後に、Chrome上のビデオストリームでトレーニングされたモデルが、Firefox上のストリームを分類可能であることを示す。 本研究は,このサイドチャネル攻撃が,当初考えられていたよりも広い範囲に適用可能であることを示唆する。 将来の研究のために、コードと、多種多様な最新のデータセットを提供しています。

Encryption on the internet with the shift to HTTPS has been an important step to improve the privacy of internet users. However, there is an increasing body of work about extracting information from encrypted internet traffic without having to decrypt it. Such attacks bypass security guarantees assumed to be given by HTTPS and thus need to be understood. Prior works showed that the variable bitrates of video streams are sufficient to identify which video someone is watching. These works generally have to make trade-offs in aspects such as accuracy, scalability, robustness, etc. These trade-offs complicate the practical use of these attacks. To that end, we propose a deep metric learning framework based on the triplet loss method. Through this framework, we achieve robust, generalisable, scalable and transferable encrypted video stream detection. First, the triplet loss is better able to deal with video streams not seen during training. Second, our approach can accurately classify videos not seen during training. Third, we show that our method scales well to a dataset of over 1000 videos. Finally, we show that a model trained on video streams over Chrome can also classify streams over Firefox. Our results suggest that this side-channel attack is more broadly applicable than originally thought. We provide our code alongside a diverse and up-to-date dataset for future research.
翻訳日:2024-05-17 14:51:34 公開日:2024-05-16
# 変分オートエンコーダとガウス混合モデルを用いた誤動作検出のためのフェデレーション学習

Federated Learning for Misbehaviour Detection with Variational Autoencoders and Gaussian Mixture Models ( http://arxiv.org/abs/2405.09903v1 )

ライセンス: Link先を確認
Enrique Mármol Campos, Aurora González Vidal, José Luis Hernández Ramos, Antonio Skarmeta, (参考訳) フェデレートラーニング(FL)は、データソースのプライバシが保存されている間、機械学習(ML)モデルを協調的にトレーニングするための魅力的なアプローチとなっている。 しかし、既存のFLアプローチのほとんどは、ラベル付きデータセットを取得するためにリソース集約的な活動と人間の介入を必要とする、教師付き技術に基づいている。 さらに、サイバー攻撃検出の分野では、そのような手法は、これまで未知の脅威を特定できない。 本研究は、車載環境における潜在的不適切な行動を特定するための、新しい非教師付きFLアプローチを提案する。 当社は,パブリッククラウドのコンピューティング機能を活用して,モデル集約の目的と,不正行動イベントの中央リポジトリとして活用し,車間学習と集団防衛戦略を実現しています。 当社のソリューションでは,VeReMiデータセット上のガウス混合モデル(GMM)と変分オートエンコーダ(VAE)を,各車両が独自のデータでのみトレーニングすることを意図したフェデレーション環境で統合する。 さらに、事前学習のために制限ボルツマンマシン(RBM)を使用し、Fedplusをアグリゲーション関数としてモデル収束を強化する。 我々のアプローチは、VeReMiデータセットの教師付き技術と人工的な分割に基づく最近の提案と比較して、より優れたパフォーマンス(80%以上)を提供する。

Federated Learning (FL) has become an attractive approach to collaboratively train Machine Learning (ML) models while data sources' privacy is still preserved. However, most of existing FL approaches are based on supervised techniques, which could require resource-intensive activities and human intervention to obtain labelled datasets. Furthermore, in the scope of cyberattack detection, such techniques are not able to identify previously unknown threats. In this direction, this work proposes a novel unsupervised FL approach for the identification of potential misbehavior in vehicular environments. We leverage the computing capabilities of public cloud services for model aggregation purposes, and also as a central repository of misbehavior events, enabling cross-vehicle learning and collective defense strategies. Our solution integrates the use of Gaussian Mixture Models (GMM) and Variational Autoencoders (VAE) on the VeReMi dataset in a federated environment, where each vehicle is intended to train only with its own data. Furthermore, we use Restricted Boltzmann Machines (RBM) for pre-training purposes, and Fedplus as aggregation function to enhance model's convergence. Our approach provides better performance (more than 80 percent) compared to recent proposals, which are usually based on supervised techniques and artificial divisions of the VeReMi dataset.
翻訳日:2024-05-17 14:51:34 公開日:2024-05-16
# QAMとAPSKの同時デマッピングのための機械学習アプローチ

A Machine Learning Approach for Simultaneous Demapping of QAM and APSK Constellations ( http://arxiv.org/abs/2405.09909v1 )

ライセンス: Link先を確認
Arwin Gansekoele, Alexios Balatsoukas-Stimming, Tom Brusse, Mark Hoogendoorn, Sandjai Bhulai, Rob van der Mei, (参考訳) 通信システムが増大する需要を満たすために進化するにつれて、ディープニューラルネットワーク(DNN)の統合は、パフォーマンスの向上を約束している。 しかし、従来の受信機をDNNに置き換える場合、精度と柔軟性のトレードオフは依然として困難である。 本稿では、1つのDNNデマッパーが同時に複数のQAMとAPSK星座をデマップできる新しい確率的フレームワークを提案する。 また、我々のフレームワークは、星座の族における階層的関係を活用できることを示した。 その結果、Bit Error Rate(BER)を増大させることなく、同じ機能をエンコードするために、ニューラルネットワーク出力を少なくする必要がある。 シミュレーションの結果,複数の星座に対する付加白色ガウスノイズ (AWGN) チャネル下での最適復調誤差にアプローチすることが確認された。 そこで我々は,DNNを受信機として活用するのに十分なフレキシブルにする上で,いくつかの重要な課題に対処する。

As telecommunication systems evolve to meet increasing demands, integrating deep neural networks (DNNs) has shown promise in enhancing performance. However, the trade-off between accuracy and flexibility remains challenging when replacing traditional receivers with DNNs. This paper introduces a novel probabilistic framework that allows a single DNN demapper to demap multiple QAM and APSK constellations simultaneously. We also demonstrate that our framework allows exploiting hierarchical relationships in families of constellations. The consequence is that we need fewer neural network outputs to encode the same function without an increase in Bit Error Rate (BER). Our simulation results confirm that our approach approaches the optimal demodulation error bound under an Additive White Gaussian Noise (AWGN) channel for multiple constellations. Thereby, we address multiple important issues in making DNNs flexible enough for practical use as receivers.
翻訳日:2024-05-17 14:51:34 公開日:2024-05-16
# 畳み込み神経ネットワークのスケーリングは新生児脳波における専門家レベルの発作検出を実現する

Scaling convolutional neural networks achieves expert-level seizure detection in neonatal EEG ( http://arxiv.org/abs/2405.09911v1 )

ライセンス: Link先を確認
Robert Hogan, Sean R. Mathieson, Aurel Luca, Soraia Ventura, Sean Griffin, Geraldine B. Boylan, John M. O'Toole, (参考訳) 背景:新生児発作は緊急治療を必要とする神経学的緊急事態である。 臨床診断は困難であり、脳波モニタリングが利用できない場合は検出されない。 脳波の解釈には、広く利用できない専門知識が必要である。 脳波の発作を検出するアルゴリズムは、この制限に対処できるが、まだ広範な臨床応用には至っていない。 方法: 332新生児の脳波データを用いて発作検出モデルの開発と評価を行った。 このモデルは、チャネル毎に12k以上の発作イベントをアノテートした開発データセット(n=202$)でトレーニングされ、テストされた。 このデータセットは、現代的なアーキテクチャとトレーニング手法を使用した畳み込みニューラルネットワーク(CNN)の開発に使用された。 最終モデルは、2つの独立したマルチビューアデータセット(n=51$と$n=79$)で検証された。 結果: データセットとモデルサイズの増加により、モデルパフォーマンスが改善された。 マシューズ相関係数(MCC)とピアソン相関(r$)は、データスケーリングで最大50%、モデルスケーリングで最大15%増加した。 2100万のパラメータを持つモデルのトレーニングには,5万時間以上の注釈付き単一チャネルEEGが使用された。 最先端はオープンアクセスデータセット(MCC=0.764、$r=0.824$、AUC=0.982)で達成された。 CNNは、両方の保持された検証セットで専門家レベルのパフォーマンスを達成しており、専門家と専門家の間でのラッター間合意に大きな違いはない(\Delta \kappa < -0.095$, $p>0.05$)。 結論: データの桁数増加とモデルスケールにより, 新生児発作検出のための新しい最先端モデルが生み出された。 完全に見えないデータに対する専門家レベルの等価性は、この分野で最初に、このモデルがさらなる臨床的検証の準備が整っていることを強く示している。

Background: Neonatal seizures are a neurological emergency that require urgent treatment. They are hard to diagnose clinically and can go undetected if EEG monitoring is unavailable. EEG interpretation requires specialised expertise which is not widely available. Algorithms to detect EEG seizures can address this limitation but have yet to reach widespread clinical adoption. Methods: Retrospective EEG data from 332 neonates was used to develop and validate a seizure-detection model. The model was trained and tested with a development dataset ($n=202$) that was annotated with over 12k seizure events on a per-channel basis. This dataset was used to develop a convolutional neural network (CNN) using a modern architecture and training methods. The final model was then validated on two independent multi-reviewer datasets ($n=51$ and $n=79$). Results: Increasing dataset and model size improved model performance: Matthews correlation coefficient (MCC) and Pearson's correlation ($r$) increased by up to 50% with data scaling and up to 15% with model scaling. Over 50k hours of annotated single-channel EEG was used for training a model with 21 million parameters. State-of-the-art was achieved on an open-access dataset (MCC=0.764, $r=0.824$, and AUC=0.982). The CNN attains expert-level performance on both held-out validation sets, with no significant difference in inter-rater agreement among the experts and among experts and algorithm ($\Delta \kappa < -0.095$, $p>0.05$). Conclusion: With orders of magnitude increases in data and model scale we have produced a new state-of-the-art model for neonatal seizure detection. Expert-level equivalence on completely unseen data, a first in this field, provides a strong indication that the model is ready for further clinical validation.
翻訳日:2024-05-17 14:51:34 公開日:2024-05-16
# TransMI: 翻訳データのための多言語事前学習言語モデルから強力なベースラインを作成するフレームワーク

TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data ( http://arxiv.org/abs/2405.09913v1 )

ライセンス: Link先を確認
Yihong Liu, Chunlan Ma, Haotian Ye, Hinrich Schütze, (参考訳) 異なるスクリプトを使用する関連言語を共通のスクリプトに翻訳することは、下流タスクにおける言語間転送を改善する効果を示す。 しかし、この手法は、既存の多言語事前学習言語モデル(mPLMs)でカバーされていない新しいサブワードを文字化することによって、スクラッチからモデルの事前学習を回避できないようにすることが多い。 事前トレーニングに多くの計算予算を必要とするため、これは望ましくない。 より有望な方法は、利用可能なmPLMをフル活用することだ。 そこで本研究では,mPLMとそれに伴うトークン化機能を利用して,共通スクリプトに書き起こされるデータに適した,強力なベースラインを生成できるトランスリテラト・マージ・イニシアライズ(TransMI)を提案する。 TransMIには3つのステージがある。 a) mPLMの語彙を共通文字に翻訳すること。 b) 新語彙と原語彙を合併すること,及び (c) 新しいサブワードの埋め込みを初期化する。 我々は,最近の3つの強力なmPLMにTransMIを適用し,TransMIが非翻訳データの処理能力を保っているだけでなく,翻訳データを効果的に処理できることを実証した。 コードとモデルは、 \url{https://github.com/cisnlp/TransMI}で公開しています。

Transliterating related languages that use different scripts into a common script shows effectiveness in improving crosslingual transfer in downstream tasks. However, this methodology often makes pretraining a model from scratch unavoidable, as transliteration brings about new subwords not covered in existing multilingual pretrained language models (mPLMs). This is not desired because it takes a lot of computation budget for pretraining. A more promising way is to make full use of available mPLMs. To this end, this paper proposes a simple but effective framework: Transliterate-Merge-Initialize (TransMI), which can create a strong baseline well-suited for data that is transliterated into a common script by exploiting an mPLM and its accompanied tokenizer. TransMI has three stages: (a) transliterate the vocabulary of an mPLM into a common script; (b) merge the new vocabulary with the original vocabulary; and (c) initialize the embeddings of the new subwords. We applied TransMI to three recent strong mPLMs, and our experiments demonstrate that TransMI not only preserves their ability to handle non-transliterated data, but also enables the models to effectively process transliterated data: the results show a consistent improvement of 3% to 34%, varying across different models and tasks. We make our code and models publicly available at \url{https://github.com/cisnlp/TransMI}.
翻訳日:2024-05-17 14:51:34 公開日:2024-05-16
# DIMSIM -- iSIMアプレットと分散レッジャー技術によるデバイス統合監視

DIMSIM -- Device Integrity Monitoring through iSIM Applets and Distributed Ledger Technology ( http://arxiv.org/abs/2405.09916v1 )

ライセンス: Link先を確認
Tooba Faisal, Emmanuel Marilly, (参考訳) 産業環境では、ロボットやドローンのようなデバイスは、デバイスの改ざん(ハードウェアやソフトウェアの変更など)のような悪意ある活動に対して脆弱である。 この問題は、複数のプレイヤーがエコシステムに貢献するマルチステークホルダー環境においてさらに悪化する。 このようなシナリオでは、特にデバイスがリモート設定でデプロイされる場合、すべてのステークホルダーがそれらを信頼できるようにデバイスの整合性を保証することは難しい。 既存のメソッドは、Trusted Platform Module (TPM)のような追加のハードウェアに依存していることが多い。 本研究では,eUICC技術を用いて遠隔機器の整合性を監視する分散型台帳技術指向アーキテクチャを提案する。 我々は、eUICCのセキュアなアプレットを使用することで、追加ハードウェアをインストールすることなくデバイスの完全性を監視および管理できることを提案する。 これにより、システム内のすべての利害関係者がデバイスを信頼できるようになる。 さらに、不変データベースの特性を活用し、ロバスト性を提供し、我々のモデルに効率的に提供します。 主な評価では,提案するデータパケットのハッシュ化によるオーバーヘッドと,不変データベースをシステムに組み込む性能を計測する。 以上の結果から,データパケットのハッシュ処理には数ミリ秒を要する一方で,不変データベースへの読み書きにはミリ秒しかかからないことがわかった。

In the context of industrial environment, devices, such as robots and drones, are vulnerable to malicious activities such device tampering (e.g., hardware and software changes). The problem becomes even worse in a multi-stakeholder environment where multiple players contribute to an ecosystem. In such scenarios, particularly, when devices are deployed in remote settings, ensuring device integrity so that all stakeholders can trust them is challenging. Existing methods, often depend on additional hardware like the Trusted Platform Module (TPM) which may not be universally provided by all vendors. In this study, we introduce a distributed ledger technology-oriented architecture to monitor the remote devices' integrity using eUICC technology, a feature commonly found in industrial devices for cellular connectivity. We propose that using secure applets in eUICC, devices' integrity can be monitored and managed without installing any additional hardware. To this end, we present an end-to-end architecture to monitor device integrity thereby enabling all the stakeholders in the system to trust the devices. Additionally, we leverage the properties of immutable databases to provide robustness and efficiently to our model. In our primary evaluations, we measure the overhead caused by hashing our proposed data packets and performance of integrating an immutable database into our system. Our results show that performing hashing on our data packets takes order of microseconds, while reading and writing to an immutable database also requires only milliseconds.
翻訳日:2024-05-17 14:51:34 公開日:2024-05-16
# リモートセンシングのためのクロスセンサ自己教師型トレーニングとアライメント

Cross-sensor self-supervised training and alignment for remote sensing ( http://arxiv.org/abs/2405.09922v1 )

ライセンス: Link先を確認
Valerio Marsocci, Nicolas Audebert, (参考訳) 大規模な"境界モデル"は、毎日収集される大量のラベルのないリモートセンシングデータを活用する手段として、注目を集めている。 しかし、地球観測衛星の多重性のため、これらのモデルはセンサー特性を最小限の微調整で一般化する「センサー非依存」表現を学習すべきである。 これは、Sentinel-2やLandsat-8のデータのような低解像度の画像が大量に利用可能であるのに対して、非常に高解像度の空中データや衛星データは一般的ではないため、データの可用性によって複雑である。 これらの課題に対処するために、リモートセンシング(X-STARS)のためのクロスセンサ・セルフ教師付きトレーニングとアライメントを導入する。 我々は,センサ間の表現の整合性を確保するために,自己監督型トレーニング損失であるマルチセンサアライメント・センス・ロス(MSAD)を設計する。 我々のX-STARSは、スクラッチからモデルをトレーニングしたり、例えば低分解能EOデータに基づいて事前訓練された大型モデルを新しい高分解能センサーに、連続的な事前訓練フレームワークで適用することができる。 新しいマルチセンサデータセットであるMSC-Franceを収集・リリースし、X-STARSモデルをトレーニングし、7つの下流分類とセグメンテーションタスクで評価する。 我々は、X-STARSが、データの可用性と解像度の様々な条件において、より少ないデータで最先端のデータよりも優れていることを実証した。

Large-scale "foundation models" have gained traction as a way to leverage the vast amounts of unlabeled remote sensing data collected every day. However, due to the multiplicity of Earth Observation satellites, these models should learn "sensor agnostic" representations, that generalize across sensor characteristics with minimal fine-tuning. This is complicated by data availability, as low-resolution imagery, such as Sentinel-2 and Landsat-8 data, are available in large amounts, while very high-resolution aerial or satellite data is less common. To tackle these challenges, we introduce cross-sensor self-supervised training and alignment for remote sensing (X-STARS). We design a self-supervised training loss, the Multi-Sensor Alignment Dense loss (MSAD), to align representations across sensors, even with vastly different resolutions. Our X-STARS can be applied to train models from scratch, or to adapt large models pretrained on e.g low-resolution EO data to new high-resolution sensors, in a continual pretraining framework. We collect and release MSC-France, a new multi-sensor dataset, on which we train our X-STARS models, then evaluated on seven downstream classification and segmentation tasks. We demonstrate that X-STARS outperforms the state-of-the-art by a significant margin with less data across various conditions of data availability and resolutions.
翻訳日:2024-05-17 14:51:34 公開日:2024-05-16
# NTIRE 2024は、あらゆる画像モデル(RAIM)をワイルドチャレンジに保存する

NTIRE 2024 Restore Any Image Model (RAIM) in the Wild Challenge ( http://arxiv.org/abs/2405.09923v1 )

ライセンス: Link先を確認
Jie Liang, Radu Timofte, Qiaosi Yi, Shuaizheng Liu, Lingchen Sun, Rongyuan Wu, Xindong Zhang, Hui Zeng, Lei Zhang, (参考訳) 本稿では,NTIRE 2024 Challenge on Restore Any Image Model (RAIM) in the Wildについて概説する。 RAIMチャレンジは、実際のアプリケーションから様々なシナリオにおいて、参照された根拠のない実世界のイメージを含む、野生のイメージ復元のためのベンチマークを構築した。 被験者は, 画像が複雑で未知の劣化から復元することが求められた。 課題は2つの課題から成っていた。 タスク1は実際の参照データペアを使用し、定量的評価が可能である。 タスク2では未ペア画像を使用し,包括的ユーザスタディを実施した。 この挑戦には200以上の登録があり、そのうち39人が400以上の申請書を提出した。 トップランクの手法は最先端の復元性能を改善し、18人の審査員から全会一致の承認を得た。 提案されたデータセットはhttps://drive.google.com/file/d/1DqbxUoiUqkAIkExu3jZAqoElr_nu1IXb/view? この課題のホームページはhttps://codalab.lisn.upsaclay.fr/competitions/17632にある。

In this paper, we review the NTIRE 2024 challenge on Restore Any Image Model (RAIM) in the Wild. The RAIM challenge constructed a benchmark for image restoration in the wild, including real-world images with/without reference ground truth in various scenarios from real applications. The participants were required to restore the real-captured images from complex and unknown degradation, where generative perceptual quality and fidelity are desired in the restoration result. The challenge consisted of two tasks. Task one employed real referenced data pairs, where quantitative evaluation is available. Task two used unpaired images, and a comprehensive user study was conducted. The challenge attracted more than 200 registrations, where 39 of them submitted results with more than 400 submissions. Top-ranked methods improved the state-of-the-art restoration performance and obtained unanimous recognition from all 18 judges. The proposed datasets are available at https://drive.google.com/file/d/1DqbxUoiUqkAIkExu3jZAqoElr_nu1IXb/view?usp=sharing and the homepage of this challenge is at https://codalab.lisn.upsaclay.fr/competitions/17632.
翻訳日:2024-05-17 14:51:34 公開日:2024-05-16
# 赤外線対向車ステッカー

Infrared Adversarial Car Stickers ( http://arxiv.org/abs/2405.09924v1 )

ライセンス: Link先を確認
Xiaopei Zhu, Yuqiu Liu, Zhanhao Hu, Jianmin Li, Xiaolin Hu, (参考訳) 自動走行など、私たちの生活で広く使われている赤外線AIシステムのセキュリティを研究する上で、赤外線物理的敵の例は非常に重要である。 これまでの赤外線物理的攻撃は主に2Dの赤外線歩行者検出に焦点を当てており、AIシステムに対する破壊性を十分に示していない可能性がある。 本研究では,実車に適用した3次元モデリングに基づく赤外線検出器に対する物理的攻撃手法を提案する。 目標は、赤外線対向ステッカーのセットを設計し、さまざまな視角、距離、シーンで赤外線検出器に見えないようにすることだ。 実際の赤外特性を持つ3次元赤外車モデルを構築し、3次元メッシュシャドウに基づく赤外対向パターン生成法を提案する。 本稿では,3次元制御点に基づくメッシュ平滑化アルゴリズムを提案する。 さらに,アルミニウムステッカーを設計し,実車2両のメルセデス・ベンツ A200Lの物理的実験を行った。 敵のステッカーは、物体検知器であるFaster RCNNから様々な視角、距離、シーンに車を隠す。 攻撃成功率(ASR)は実車に対して91.49%であった。 一方、ランダムステッカーのASRは6.21%、ステッカーは0.66%であった。 さらに、YOLOv3やDeformable DETRのような6つの未確認物体検出器に対するステッカーのASRは73.35%-95.80%であり、検出器間の攻撃性能の良好な伝達性を示している。

Infrared physical adversarial examples are of great significance for studying the security of infrared AI systems that are widely used in our lives such as autonomous driving. Previous infrared physical attacks mainly focused on 2D infrared pedestrian detection which may not fully manifest its destructiveness to AI systems. In this work, we propose a physical attack method against infrared detectors based on 3D modeling, which is applied to a real car. The goal is to design a set of infrared adversarial stickers to make cars invisible to infrared detectors at various viewing angles, distances, and scenes. We build a 3D infrared car model with real infrared characteristics and propose an infrared adversarial pattern generation method based on 3D mesh shadow. We propose a 3D control points-based mesh smoothing algorithm and use a set of smoothness loss functions to enhance the smoothness of adversarial meshes and facilitate the sticker implementation. Besides, We designed the aluminum stickers and conducted physical experiments on two real Mercedes-Benz A200L cars. Our adversarial stickers hid the cars from Faster RCNN, an object detector, at various viewing angles, distances, and scenes. The attack success rate (ASR) was 91.49% for real cars. In comparison, the ASRs of random stickers and no sticker were only 6.21% and 0.66%, respectively. In addition, the ASRs of the designed stickers against six unseen object detectors such as YOLOv3 and Deformable DETR were between 73.35%-95.80%, showing good transferability of the attack performance across detectors.
翻訳日:2024-05-17 14:51:34 公開日:2024-05-16
# Moreau Envelope for Nonconvex Bi-Level Optimization: A Single-loop and Hessian-free Solution Strategy

Moreau Envelope for Nonconvex Bi-Level Optimization: A Single-loop and Hessian-free Solution Strategy ( http://arxiv.org/abs/2405.09927v1 )

ライセンス: Link先を確認
Risheng Liu, Zhu Liu, Wei Yao, Shangzhi Zeng, Jin Zhang, (参考訳) この研究は、大規模な非凸二層最適化(BLO)問題における2つの大きな課題に対処することに焦点を当てている。 これらの課題には、計算効率の確保と理論的保証が伴う。 スケーラブルなBLOアルゴリズムの最近の進歩は、主に低レベルの凸性単純化に依存しているが、我々の研究は、上層と下層の両方において非凸性を含む大規模BLO問題に特に取り組む。 そこで我々は,モローエンベロープを用いたアルゴリズムを導入し,一般の非凸BLO問題に対して非漸近収束解析を提供することにより,計算と理論的課題を同時に解決する。 特に,本アルゴリズムは,大規模BLO学習タスクにおいて,一階勾配情報のみに依存し,その実用性と効率性を向上させる。 様々な合成問題,2つの典型的なハイパーパラメータ学習タスク,および実世界のニューラルアーキテクチャ検索アプリケーションを用いて,その優れた性能を総合的に示すことによって,本手法の有効性を検証する。

This work focuses on addressing two major challenges in the context of large-scale nonconvex Bi-Level Optimization (BLO) problems, which are increasingly applied in machine learning due to their ability to model nested structures. These challenges involve ensuring computational efficiency and providing theoretical guarantees. While recent advances in scalable BLO algorithms have primarily relied on lower-level convexity simplification, our work specifically tackles large-scale BLO problems involving nonconvexity in both the upper and lower levels. We simultaneously address computational and theoretical challenges by introducing an innovative single-loop gradient-based algorithm, utilizing the Moreau envelope-based reformulation, and providing non-asymptotic convergence analysis for general nonconvex BLO problems. Notably, our algorithm relies solely on first-order gradient information, enhancing its practicality and efficiency, especially for large-scale BLO learning tasks. We validate our approach's effectiveness through experiments on various synthetic problems, two typical hyper-parameter learning tasks, and a real-world neural architecture search application, collectively demonstrating its superior performance.
翻訳日:2024-05-17 14:51:34 公開日:2024-05-16
# オブザーバ・ゲイズからの学習:人間と物体の相互作用認識によるゼロショット注意予測

Learning from Observer Gaze:Zero-Shot Attention Prediction Oriented by Human-Object Interaction Recognition ( http://arxiv.org/abs/2405.09931v1 )

ライセンス: Link先を確認
Yuchen Zhou, Linkai Liu, Chao Gou, (参考訳) 既存の注意予測研究は、人間や物体のような健全な事例に焦点を当てている。 しかしながら、人間の観察者によるインスタンス間の相互作用の理解から生じる、より複雑な相互作用指向の注意は、いまだほとんど探索されていない。 これは、人間と機械の相互作用と人間中心の人工知能を進める上でも同様に重要である。 このギャップを埋めるために、まずIGという名の新しい視線固定データセットを収集し、740の多様な相互作用カテゴリにわたる53万の固定点と、人間の観察者による相互作用の認知過程における視覚的注意を捉えた。 その後、ゼロショットインタラクション指向の注意予測タスクZeroIAを導入し、トレーニング中に遭遇しないインタラクションに対する視覚的手がかりを予測するモデルに挑戦する。 第3に、人間観測者の認知過程をエミュレートしてZeroIA問題に取り組むための対話型注意モデルIAを提案する。 大規模な実験により、提案されたIAは、ZeroIAと完全に監督された設定の両方において、他の最先端のアプローチよりも優れていることが示された。 最後に,インタラクション指向の注意をインタラクション認識タスク自体に適用する。 さらに,IGの実際の人的注意データとIAが生成した注意ラベルを組み込むことにより,既存の最先端HOIモデルの性能と解釈可能性を高める可能性を実証した。

Most existing attention prediction research focuses on salient instances like humans and objects. However, the more complex interaction-oriented attention, arising from the comprehension of interactions between instances by human observers, remains largely unexplored. This is equally crucial for advancing human-machine interaction and human-centered artificial intelligence. To bridge this gap, we first collect a novel gaze fixation dataset named IG, comprising 530,000 fixation points across 740 diverse interaction categories, capturing visual attention during human observers cognitive processes of interactions. Subsequently, we introduce the zero-shot interaction-oriented attention prediction task ZeroIA, which challenges models to predict visual cues for interactions not encountered during training. Thirdly, we present the Interactive Attention model IA, designed to emulate human observers cognitive processes to tackle the ZeroIA problem. Extensive experiments demonstrate that the proposed IA outperforms other state-of-the-art approaches in both ZeroIA and fully supervised settings. Lastly, we endeavor to apply interaction-oriented attention to the interaction recognition task itself. Further experimental results demonstrate the promising potential to enhance the performance and interpretability of existing state-of-the-art HOI models by incorporating real human attention data from IG and attention labels generated by IA.
翻訳日:2024-05-17 14:41:48 公開日:2024-05-16
# MiniMaxAD: 特徴リッチ異常検出のための軽量オートエンコーダ

MiniMaxAD: A Lightweight Autoencoder for Feature-Rich Anomaly Detection ( http://arxiv.org/abs/2405.09933v1 )

ライセンス: Link先を確認
Fengjie Wang, Chengming Liu, Lei Shi, Pang Haibo, (参考訳) 例えば、データセット内のクラスには複数のサブクラスが含まれており、FRAD(Feature-Rich Anomaly Detection Datasets)に分類される。 これは統一された設定や無人スーパーマーケットのシナリオのような応用で明らかである。 この課題に対処するため,我々は,通常の画像から広範囲の情報を効率よく圧縮・記憶する軽量オートエンコーダMiniMaxADを開発した。 本モデルは,Global Response Normalization (GRN) ユニットを備えた大規模なカーネル畳み込みネットワークを利用し,マルチスケールな特徴再構築戦略を採用している。 GRNユニットはネットワーク容量の上限を大幅に増加させ、大きなカーネル畳み込みは高度に抽象的なパターンの抽出を促進する。 さらに,グローバルなコサイン距離損失の限界を克服するために,FRADに適した適応契約損失(adaptive Contraction Loss,ADCLoss)を導入する。 MiniMaxADは6つの挑戦的 UAD ベンチマークで総合的にテストされ、残りの2つで4つの非常に競争力のある結果が得られた。 特に,本モデルでは,ViSAにおいて最大97.0\%のAUROCを統一条件下で検出した。 さらに, 無人スーパーの作業における最先端性能だけでなく, 従来の最良手法の37倍の推算速度を示し, 複雑なUAD作業における実効性を示した。

Previous unsupervised anomaly detection (UAD) methods often struggle with significant intra-class diversity; i.e., a class in a dataset contains multiple subclasses, which we categorize as Feature-Rich Anomaly Detection Datasets (FRADs). This is evident in applications such as unified setting and unmanned supermarket scenarios. To address this challenge, we developed MiniMaxAD: a lightweight autoencoder designed to efficiently compress and memorize extensive information from normal images. Our model utilizes a large kernel convolutional network equipped with a Global Response Normalization (GRN) unit and employs a multi-scale feature reconstruction strategy. The GRN unit significantly increases the upper limit of the network's capacity, while the large kernel convolution facilitates the extraction of highly abstract patterns, leading to compact normal feature modeling. Additionally, we introduce an Adaptive Contraction Loss (ADCLoss), tailored to FRADs to overcome the limitations of global cosine distance loss. MiniMaxAD was comprehensively tested across six challenging UAD benchmarks, achieving state-of-the-art results in four and highly competitive outcomes in the remaining two. Notably, our model achieved a detection AUROC of up to 97.0\% in ViSA under the unified setting. Moreover, it not only achieved state-of-the-art performance in unmanned supermarket tasks but also exhibited an inference speed 37 times faster than the previous best method, demonstrating its effectiveness in complex UAD tasks.
翻訳日:2024-05-17 14:41:48 公開日:2024-05-16
# Fréchet Domain Distance を用いたデジタル病理のマルチインスタンス学習におけるドメインシフトの検出

Detecting Domain Shift in Multiple Instance Learning for Digital Pathology Using Fréchet Domain Distance ( http://arxiv.org/abs/2405.09934v1 )

ライセンス: Link先を確認
Milda Pocevičiūtė, Gabriel Eilertsen, Stina Garvin, Claes Lundström, (参考訳) MIL(Multiple-Instance Learning)は、データ収集やラベリングに関連するコストを削減するため、デジタル病理アプリケーションにとって魅力的なアプローチである。 しかし、MILが臨床的に現実的なドメインシフトに対してどれほど敏感であるかは明らかになっていない。 我々は,乳腺転移を含むリンパ節全スライディング画像の分類のために,注意に基づくMILアルゴリズムを訓練した。 このアルゴリズムは、異なる国の病院のデータと、異なるレベルのドメインシフトに対応する様々なサブセットに基づいて評価された。 我々の貢献は、デジタル病理学のためのMILが、臨床的に現実的なデータ差に影響されていること、MILモデルからのどの特徴がパフォーマンスの変化を検出するのに最も適しているかを評価すること、ドメインシフトの定量化のためのFr\echet Domain Distance(FDD)と呼ばれる教師なしメトリクスを提案することである。 FDDは10倍のクロスバリデーションモデルで0.70を達成した。 ベースラインにはディープアンサンブル、信頼の相違、表現のシフトがあり、それぞれ0.45、-0.29、および0.56のピアソン相関が得られた。 FDDは、病理学者から追加のアノテーションを必要とせずに、新しいサイトでMILシステムが確実に機能するかどうかを確認する必要があるケア提供者やベンダーにとって、貴重なツールである可能性がある。

Multiple-instance learning (MIL) is an attractive approach for digital pathology applications as it reduces the costs related to data collection and labelling. However, it is not clear how sensitive MIL is to clinically realistic domain shifts, i.e., differences in data distribution that could negatively affect performance, and if already existing metrics for detecting domain shifts work well with these algorithms. We trained an attention-based MIL algorithm to classify whether a whole-slide image of a lymph node contains breast tumour metastases. The algorithm was evaluated on data from a hospital in a different country and various subsets of this data that correspond to different levels of domain shift. Our contributions include showing that MIL for digital pathology is affected by clinically realistic differences in data, evaluating which features from a MIL model are most suitable for detecting changes in performance, and proposing an unsupervised metric named Fr\'echet Domain Distance (FDD) for quantification of domain shifts. Shift measure performance was evaluated through the mean Pearson correlation to change in classification performance, where FDD achieved 0.70 on 10-fold cross-validation models. The baselines included Deep ensemble, Difference of Confidence, and Representation shift which resulted in 0.45, -0.29, and 0.56 mean Pearson correlation, respectively. FDD could be a valuable tool for care providers and vendors who need to verify if a MIL system is likely to perform reliably when implemented at a new site, without requiring any additional annotations from pathologists.
翻訳日:2024-05-17 14:41:47 公開日:2024-05-16
# DEBATE:Devilのアドボケートに基づく評価とテキスト評価

DEBATE: Devil's Advocate-Based Assessment and Text Evaluation ( http://arxiv.org/abs/2405.09935v1 )

ライセンス: Link先を確認
Alex Kim, Keonwoo Kim, Sangwon Yoon, (参考訳) 自然言語生成(NLG)モデルが普及するにつれて、機械生成テキストの品質を体系的に評価することがますます重要になっている。 近年の研究では、LCMを基準のない指標として運用する評価器を導入し、新しいタスクを十分に処理できることを実証している。 しかしながら、これらのモデルは一般的に単一エージェントのアプローチに依存しており、パフォーマンスに固有の制限をもたらすと我々は主張する。 これは、特定のテキスト構造や内容の好みを含むLLMエージェントの応答にはバイアスがあるためである。 本研究では,Devil's Advocateの概念を付加したマルチエージェントスコアリングシステムに基づくNLG評価フレームワークDEBATEを提案する。 フレームワーク内では、あるエージェントが他のエージェントの議論を批判するように指示され、LLMエージェントの回答のバイアスを解消する可能性がある。 DEBATEは、NLG評価、SummEval、TopicalChatの2つのメタ評価ベンチマークにおいて、従来の最先端手法よりも大幅に優れている。 また,エージェント間の議論の広範囲性とエージェントのペルソナが評価者のパフォーマンスに影響を及ぼすことを示す。

As natural language generation (NLG) models have become prevalent, systematically assessing the quality of machine-generated texts has become increasingly important. Recent studies introduce LLM-based evaluators that operate as reference-free metrics, demonstrating their capability to adeptly handle novel tasks. However, these models generally rely on a single-agent approach, which, we argue, introduces an inherent limit to their performance. This is because there exist biases in LLM agent's responses, including preferences for certain text structure or content. In this work, we propose DEBATE, an NLG evaluation framework based on multi-agent scoring system augmented with a concept of Devil's Advocate. Within the framework, one agent is instructed to criticize other agents' arguments, potentially resolving the bias in LLM agent's answers. DEBATE substantially outperforms the previous state-of-the-art methods in two meta-evaluation benchmarks in NLG evaluation, SummEval and TopicalChat. We also show that the extensiveness of debates among agents and the persona of an agent can influence the performance of evaluators.
翻訳日:2024-05-17 14:41:47 公開日:2024-05-16
# SciQAG: きめ細かい評価を伴う科学的質問回答データセットの自動生成フレームワーク

SciQAG: A Framework for Auto-Generated Scientific Question Answering Dataset with Fine-grained Evaluation ( http://arxiv.org/abs/2405.09939v1 )

ライセンス: Link先を確認
Yuwei Wan, Aswathy Ajith, Yixuan Liu, Ke Lu, Clara Grazian, Bram Hoex, Wenjie Zhang, Chunyu Kit, Tong Xie, Ian Foster, (参考訳) 大規模言語モデル (LLM) の訓練と評価にQA(QA)ペアを用いることが注目されている。 しかし、利用可能なQAデータセットはほとんど科学文献からの知識に基づいていない。 ここでは,学術文献から得られた科学的QAペアの自動生成と評価のためのフレームワークであるSciQAG(Automatic Generation of Scientific Question Answers)を提示することにより,このギャップを埋める。 我々はオープンソースのLCMを微調整し、フルテキストの科学論文からnum{960000}の科学的QAペアを生成し、生成されたQAペアの品質を評価するための5次元メトリクスを提案する。 LLMによる評価により, 生成したQAペアは5次元の3つ中2.5点の平均スコアを連続的に達成し, 紙から高品質なQAペアに重要な知識を抽出できることを示す。 データセット、モデル、評価コードを公開しています。

The use of question-answer (QA) pairs for training and evaluating large language models (LLMs) has attracted considerable attention. Yet few available QA datasets are based on knowledge from the scientific literature. Here we bridge this gap by presenting Automatic Generation of Scientific Question Answers (SciQAG), a framework for automatic generation and evaluation of scientific QA pairs sourced from published scientific literature. We fine-tune an open-source LLM to generate \num{960000} scientific QA pairs from full-text scientific papers and propose a five-dimensional metric to evaluate the quality of the generated QA pairs. We show via LLM-based evaluation that the generated QA pairs consistently achieve an average score of 2.5 out of 3 across five dimensions, indicating that our framework can distill key knowledge from papers into high-quality QA pairs at scale. We make the dataset, models, and evaluation codes publicly available.
翻訳日:2024-05-17 14:41:47 公開日:2024-05-16
# FPDIoU損失: 回転物体検出の効率的なバウンディングボックス回帰のための損失関数

FPDIoU Loss: A Loss Function for Efficient Bounding Box Regression of Rotated Object Detection ( http://arxiv.org/abs/2405.09942v1 )

ライセンス: Link先を確認
Siliang Ma, Yong Xu, (参考訳) 境界ボックス回帰は、オブジェクト検出の重要なステップの1つである。 しかし、回転検出器は勾配に基づく訓練に不都合なSkewIoUに基づくより複雑な損失を伴うことが多い。 回転物体検出のための既存の損失関数の多くは、領域の偏差と各点距離(例えば、$\mathcal{L}_{Smooth-\ell 1}$、$\mathcal{L}_{RotatedIoU}$、$\mathcal{L}_{PIoU}$)にのみフォーカスする2つの境界ボックス間の差を計算する。 損失関数の計算プロセスは非常に複雑である(例: $\mathcal{L}_{KFIoU}$)。 回転物体検出における境界ボックス回帰の効率と精度を向上させるため,回転物体検出のための既存の損失関数,すなわち重複領域や非重複領域,中心点距離,回転角を考慮に入れた,最小点距離に基づく任意の形状比較のための新しい指標を提案した。 また,高速かつ高品質なアンカーボックスに着目した正確なバウンディングボックス回帰のための4点距離に基づいて,$\mathcal{L}_{FPDIoU}$という損失関数を提案した。 FPDIoU$損失は、DOTA、DIOR、HRSC2016を含む回転オブジェクト検出の3つの一般的なベンチマークと、ICDAR 2017 RRC-MLTとICDAR 2019 RRC-MLTを含む任意の向きのシーンテキスト検出の2つのベンチマークを用いた、最先端の回転オブジェクト検出(例えば、RTMDET、H2RBox)モデルに適用される。

Bounding box regression is one of the important steps of object detection. However, rotation detectors often involve a more complicated loss based on SkewIoU which is unfriendly to gradient-based training. Most of the existing loss functions for rotated object detection calculate the difference between two bounding boxes only focus on the deviation of area or each points distance (e.g., $\mathcal{L}_{Smooth-\ell 1}$, $\mathcal{L}_{RotatedIoU}$ and $\mathcal{L}_{PIoU}$). The calculation process of some loss functions is extremely complex (e.g. $\mathcal{L}_{KFIoU}$). In order to improve the efficiency and accuracy of bounding box regression for rotated object detection, we proposed a novel metric for arbitrary shapes comparison based on minimum points distance, which takes most of the factors from existing loss functions for rotated object detection into account, i.e., the overlap or nonoverlapping area, the central points distance and the rotation angle. We also proposed a loss function called $\mathcal{L}_{FPDIoU}$ based on four points distance for accurate bounding box regression focusing on faster and high quality anchor boxes. In the experiments, $FPDIoU$ loss has been applied to state-of-the-art rotated object detection (e.g., RTMDET, H2RBox) models training with three popular benchmarks of rotated object detection including DOTA, DIOR, HRSC2016 and two benchmarks of arbitrary orientation scene text detection including ICDAR 2017 RRC-MLT and ICDAR 2019 RRC-MLT, which achieves better performance than existing loss functions.
翻訳日:2024-05-17 14:41:47 公開日:2024-05-16
# 逆生成によるテキスト毒性の緩和

Mitigating Text Toxicity with Counterfactual Generation ( http://arxiv.org/abs/2405.09948v1 )

ライセンス: Link先を確認
Milan Bhan, Jean-Noel Vittaut, Nina Achache, Victor Legrand, Nicolas Chesneau, Annabelle Blangero, Juliette Murris, Marie-Jeanne Lesot, (参考訳) 毒性の緩和は、攻撃的または有害な意味を取り除くためにテキストを言い換えることである。 ニューラル自然言語処理(NLP)モデルは、テキスト毒性を標的とし緩和するために広く利用されている。 しかし、既存のメソッドは、最初の非有毒な意味を同時に保存しながら、テキストをデトックスすることができない。 そこで本研究では,eXplainable AI(XAI)フィールドからの反ファクト生成手法を,テキスト毒性の標的と軽減に応用することを提案する。 特に,有毒テキストと非有毒テキストを区別した毒性分類器に,局所的特徴重要度と反事実生成法を適用して,テキストの解毒を行う。 3つのデータセットの反ファクト生成を通じてテキストデトックスを行い、我々のアプローチを3つの競合相手と比較する。 近年開発されたNLPカウンターファクトジェネレータは, 従来の解毒法と比較して, 初期テキストの意味を保存し, 毒性を正確に低減できることがわかった。 最後に、自動解毒ツールの使用から一歩後退し、毒性の多義性や有害な解毒ツールの使用リスクの管理方法について論じる。 この研究は、アンチファクト生成とテキストのデトックス化のギャップを埋め、より実用的なXAI手法への道を開く最初のものである。

Toxicity mitigation consists in rephrasing text in order to remove offensive or harmful meaning. Neural natural language processing (NLP) models have been widely used to target and mitigate textual toxicity. However, existing methods fail to detoxify text while preserving the initial non-toxic meaning at the same time. In this work, we propose to apply counterfactual generation methods from the eXplainable AI (XAI) field to target and mitigate textual toxicity. In particular, we perform text detoxification by applying local feature importance and counterfactual generation methods to a toxicity classifier distinguishing between toxic and non-toxic texts. We carry out text detoxification through counterfactual generation on three datasets and compare our approach to three competitors. Automatic and human evaluations show that recently developed NLP counterfactual generators can mitigate toxicity accurately while better preserving the meaning of the initial text as compared to classical detoxification methods. Finally, we take a step back from using automated detoxification tools, and discuss how to manage the polysemous nature of toxicity and the risk of malicious use of detoxification tools. This work is the first to bridge the gap between counterfactual generation and text detoxification and paves the way towards more practical application of XAI methods.
翻訳日:2024-05-17 14:41:47 公開日:2024-05-16
# ハイパースペクトルイメージングによる特殊作物の成熟度分類のためのデュアルバンド特徴選択

Dual-band feature selection for maturity classification of specialty crops by hyperspectral imaging ( http://arxiv.org/abs/2405.09955v1 )

ライセンス: Link先を確認
Usman A. Zahidi, Krystian Łukasik, Grzegorz Cielniak, (参考訳) イチゴやトマトなどの特産作物の成熟度分類は、生産・包装現場における選別収穫・品質管理(QC)に欠かせない農業的下流活動である。 近年のDeep Learning (DL) の進歩は、成熟度分類のためのカラー画像の奨励的な結果を生み出している。 しかし、高スペクトルイメージング(HSI)は色覚に基づく手法よりも優れている。 多変量解析法と畳み込みニューラルネットワーク(CNN)は有望な結果をもたらすが、大量の入力データとそれに関連する前処理要求が実用的な応用において障害を引き起こす。 従来、所定の電磁スペクトルの反射強度は、果実の成熟度を推定するために用いられる。 本稿では,500-670nm(ピグメントバンド)やピーク位置の波長などのサブバンドのピーク反射率と,651-790nm(クロロフィルバンド)のトラフ反射率とその対応する波長が,成熟度分類に有用であることを示す特徴抽出法を提案する。 提案手法は,各予測に先立って,次元減少などの前処理を回避できるため,有効である。 機能セットは、これらの特徴をキャプチャするために設計されている。 3D-CNN, 1D-CNN, SVMで最高のSOTA法は, イチゴの90.0%, データセット上のトマトの92.0%の精度で達成できる。 提案法は, イチゴの98.0%, トマトの96.0%以上の精度でSOTAより優れていた。 また,本手法の時間効率の比較分析を行い,フルスペクトルSVM分類器で得られた最大1.16 FPSと比較して,提案手法は秒間13フレーム(FPS)で予測を行うことを示した。

The maturity classification of specialty crops such as strawberries and tomatoes is an essential agricultural downstream activity for selective harvesting and quality control (QC) at production and packaging sites. Recent advancements in Deep Learning (DL) have produced encouraging results in color images for maturity classification applications. However, hyperspectral imaging (HSI) outperforms methods based on color vision. Multivariate analysis methods and Convolutional Neural Networks (CNN) deliver promising results; however, a large amount of input data and the associated preprocessing requirements cause hindrances in practical application. Conventionally, the reflectance intensity in a given electromagnetic spectrum is employed in estimating fruit maturity. We present a feature extraction method to empirically demonstrate that the peak reflectance in subbands such as 500-670 nm (pigment band) and the wavelength of the peak position, and contrarily, the trough reflectance and its corresponding wavelength within 671-790 nm (chlorophyll band) are convenient to compute yet distinctive features for the maturity classification. The proposed feature selection method is beneficial because preprocessing, such as dimensionality reduction, is avoided before every prediction. The feature set is designed to capture these traits. The best SOTA methods, among 3D-CNN, 1D-CNN, and SVM, achieve at most 90.0 % accuracy for strawberries and 92.0 % for tomatoes on our dataset. Results show that the proposed method outperforms the SOTA as it yields an accuracy above 98.0 % in strawberry and 96.0 % in tomato classification. A comparative analysis of the time efficiency of these methods is also conducted, which shows the proposed method performs prediction at 13 Frames Per Second (FPS) compared to the maximum 1.16 FPS attained by the full-spectrum SVM classifier.
翻訳日:2024-05-17 14:41:47 公開日:2024-05-16
# トラッカーレス脳エコーにおける患者特異的リアルタイムセグメンテーション

Patient-Specific Real-Time Segmentation in Trackerless Brain Ultrasound ( http://arxiv.org/abs/2405.09959v1 )

ライセンス: Link先を確認
Reuben Dorent, Erickson Torio, Nazim Haouchine, Colin Galvin, Sarah Frisken, Alexandra Golby, Tina Kapur, William Wells, (参考訳) 術中超音波(iUS)画像検査は、脳外科手術の手術成績を改善する可能性がある。 しかし、その解釈は専門家の神経外科医にとっても難しい。 本研究では,トラッカーレスiUSで脳腫瘍のセグメンテーションを行う最初の患者特異的フレームワークを設計した。 術前MRデータにおいて仮想iUSスイープ取得をシミュレートした合成超音波データを用いて、超音波画像の曖昧化と脳神経外科医の手術目的への適応を図り、患者固有のリアルタイムネットワークを訓練する。 実際の超音波データで実施された広範囲な実験は、提案手法の有効性を実証し、外科医の外科的標的の定義に適応し、非患者固有のモデル、神経外科医の専門家、ハイエンド追跡システムより優れていることを証明した。 私たちのコードは以下の通りです。

Intraoperative ultrasound (iUS) imaging has the potential to improve surgical outcomes in brain surgery. However, its interpretation is challenging, even for expert neurosurgeons. In this work, we designed the first patient-specific framework that performs brain tumor segmentation in trackerless iUS. To disambiguate ultrasound imaging and adapt to the neurosurgeon's surgical objective, a patient-specific real-time network is trained using synthetic ultrasound data generated by simulating virtual iUS sweep acquisitions in pre-operative MR data. Extensive experiments performed in real ultrasound data demonstrate the effectiveness of the proposed approach, allowing for adapting to the surgeon's definition of surgical targets and outperforming non-patient-specific models, neurosurgeon experts, and high-end tracking systems. Our code is available at: \url{https://github.com/ReubenDo/MHVAE-Seg}.
翻訳日:2024-05-17 14:41:47 公開日:2024-05-16
# 多様な環境におけるIoTの正確な位置推定のための統合型深層移動学習モデル

A Unified Deep Transfer Learning Model for Accurate IoT Localization in Diverse Environments ( http://arxiv.org/abs/2405.09960v1 )

ライセンス: Link先を確認
Abdullahi Isa Ahmed, Yaya Etiabi, Ali Waqar Azim, El Mehdi Amhoud, (参考訳) IoT(Internet of Things)は,産業や社会を世界規模で変革する,進化を続ける技術パラダイムです。 ローカライゼーションソリューションによって促進されるリアルタイムデータ収集、分析、意思決定は、ロケーションベースのサービスの基盤を形成し、さまざまなIoTエコシステム内で重要な機能をサポートすることができる。 しかし、ローカライゼーションに関する既存の研究のほとんどは単一環境に焦点を当てており、複数の環境をサポートする複数のモデルの開発につながっている。 スマートシティの文脈では、こうした環境の動的さにより、コストと複雑さが上昇する。 これらの課題に対処するために,1つの深層学習モデルを構築するためにトランスファーラーニング(TL)方式を利用する,屋内・屋外の統一型ローカライズソリューションを提案する。 このモデルは、多様な環境におけるIoTデバイスのローカライゼーションを正確に予測する。 性能評価の結果,エンコーダをベースとしたTL方式を用いることで,屋内環境では17.18%,屋外環境では9.79%のベースラインモデルを改善することができることがわかった。

Internet of Things (IoT) is an ever-evolving technological paradigm that is reshaping industries and societies globally. Real-time data collection, analysis, and decision-making facilitated by localization solutions form the foundation for location-based services, enabling them to support critical functions within diverse IoT ecosystems. However, most existing works on localization focus on single environment, resulting in the development of multiple models to support multiple environments. In the context of smart cities, these raise costs and complexity due to the dynamicity of such environments. To address these challenges, this paper presents a unified indoor-outdoor localization solution that leverages transfer learning (TL) schemes to build a single deep learning model. The model accurately predicts the localization of IoT devices in diverse environments. The performance evaluation shows that by adopting an encoder-based TL scheme, we can improve the baseline model by about 17.18% in indoor environments and 9.79% in outdoor environments.
翻訳日:2024-05-17 14:41:47 公開日:2024-05-16
# CatCMA : 混合カテゴリ問題に対する確率的最適化

CatCMA : Stochastic Optimization for Mixed-Category Problems ( http://arxiv.org/abs/2405.09962v1 )

ライセンス: Link先を確認
Ryoki Hamano, Shota Saito, Masahiro Nomura, Kento Uchida, Shinichi Shirakawa, (参考訳) ブラックボックス最適化の問題は、連続変数、整数変数、カテゴリー変数など、異なるタイプの変数を同時に最適化する必要があることが多い。 整数変数とは異なり、圏変数は必ずしも有意な順序を持たず、連続変数の離散化アプローチはうまく機能しない。 いくつかのベイズ最適化手法は混合カテゴリブラックボックス最適化(MC-BBO)を扱うことができるが、高次元問題へのスケーラビリティの欠如と内部計算コストに悩まされている。 本稿では,多変量ガウス分布とカテゴリー分布の合同確率分布を探索分布として用いた,MC-BBO問題の確率的最適化手法であるCatCMAを提案する。 CatCMAは、自然勾配方向の結合確率分布のパラメータを更新する。 CatCMAはまた、共分散行列適応進化戦略(CMA-ES)や、ステップサイズ適応や学習率適応といった確率的自然勾配法で用いられる加速技術も取り入れている。 さらに,分類分布パラメータの範囲をマージンで制限し,早期収束を防止し,有望なマージン設定を解析的に導出する。 数値実験により、CatCMAの性能は、最先端のベイズ最適化アルゴリズムと比較して、問題次元よりも優れ、より堅牢であることが示された。

Black-box optimization problems often require simultaneously optimizing different types of variables, such as continuous, integer, and categorical variables. Unlike integer variables, categorical variables do not necessarily have a meaningful order, and the discretization approach of continuous variables does not work well. Although several Bayesian optimization methods can deal with mixed-category black-box optimization (MC-BBO), they suffer from a lack of scalability to high-dimensional problems and internal computational cost. This paper proposes CatCMA, a stochastic optimization method for MC-BBO problems, which employs the joint probability distribution of multivariate Gaussian and categorical distributions as the search distribution. CatCMA updates the parameters of the joint probability distribution in the natural gradient direction. CatCMA also incorporates the acceleration techniques used in the covariance matrix adaptation evolution strategy (CMA-ES) and the stochastic natural gradient method, such as step-size adaptation and learning rate adaptation. In addition, we restrict the ranges of the categorical distribution parameters by margin to prevent premature convergence and analytically derive a promising margin setting. Numerical experiments show that the performance of CatCMA is superior and more robust to problem dimensions compared to state-of-the-art Bayesian optimization algorithms.
翻訳日:2024-05-17 14:41:47 公開日:2024-05-16
# KPNDepth:複雑な雨環境下でのレーン画像の深さ推定

KPNDepth: Depth Estimation of Lane Images under Complex Rainy Environment ( http://arxiv.org/abs/2405.09964v1 )

ライセンス: Link先を確認
Zhengxu Shi, (参考訳) 近年のディープニューラルネットワーク生成モデルの発展に伴い、レーンシーンにおける深度推定の研究において大きな進展が見られた。 しかし、現在の研究成果は主に晴れた昼のシナリオに焦点を当てている。 複雑な雨天環境では、雨天の影響と局所霧の影響が、画像の全体深度推定値の誤った増加に繋がることが多い。 さらに、これらの自然要因は、画像の深さ境界の正確な予測に障害をもたらす可能性がある。 本稿では,複雑な降雨環境におけるレーン深さ推定について検討する。 本稿では、畳み込みカーネル予測の概念に基づいて、オフラインデータに基づいて訓練された2層級畳み込みカーネル予測ネットワークを提案する。 対象画像に対して2つの独立した畳み込みカーネルを予測することにより、複雑な環境要因による深度情報損失を回復し、単一の畳み込みカーネルセットによって生成された雨天人工物の問題に対処する。 さらに,現在利用可能な降雨レーンデータがないことを踏まえ,降雨と局所霧の影響による環境の暗化を包括的に考慮した画像合成アルゴリズムRCFLaneを導入する。 我々は,一般的に使用されている深度推定データセットKITTIに基づいて,RainKITTIと呼ばれる820個の実験画像を含む合成データセットを作成する。 大規模な実験により,提案した深度推定フレームワークは,高度に複雑なレーン雨環境において良好な結果が得られることが示された。

With the development of deep neural network generative models in recent years, significant progress has been made in the research of depth estimation in lane scenes. However, current research achievements are mainly focused on clear daytime scenarios. In complex rainy environments, the influence of rain streaks and local fog effects often leads to erroneous increases in the overall depth estimation values in images. Moreover, these natural factors can introduce disturbances to the accurate prediction of depth boundaries in images. In this paper, we investigate lane depth estimation in complex rainy environments. Based on the concept of convolutional kernel prediction, we propose a dual-layer pixel-wise convolutional kernel prediction network trained on offline data. By predicting two sets of independent convolutional kernels for the target image, we restore the depth information loss caused by complex environmental factors and address the issue of rain streak artifacts generated by a single convolutional kernel set. Furthermore, considering the lack of real rainy lane data currently available, we introduce an image synthesis algorithm, RCFLane, which comprehensively considers the darkening of the environment due to rainfall and local fog effects. We create a synthetic dataset containing 820 experimental images, which we refer to as RainKITTI, on the commonly used depth estimation dataset KITTI. Extensive experiments demonstrate that our proposed depth estimation framework achieves favorable results in highly complex lane rainy environments.
翻訳日:2024-05-17 14:41:47 公開日:2024-05-16
# Webフォームテスト自動生成のための大規模言語モデルの活用:実証的研究

Leveraging Large Language Models for Automated Web-Form-Test Generation: An Empirical Study ( http://arxiv.org/abs/2405.09965v1 )

ライセンス: Link先を確認
Tao Li, Chenhui Cui, Lei Ma, Dave Towey, Yujie Xie, Rubing Huang, (参考訳) Webフォームのテストは、ユーザとフォーム間のインタラクションを主に評価するWebアプリケーションの品質を保証するために不可欠な活動である。 ウェブページの複雑なマルチレベル構造のため、テストに含めるための固有のコンテキスト情報を自動的にキャプチャすることは困難です。 大規模言語モデル(LLM)は文脈テキスト生成に大きな可能性を秘めている。 OpenAIのGPT LLMは、ソフトウェアテストにおいて多くの注目を集めているが、情報セキュリティ上の懸念から、実際には適用されない可能性がある。 我々の知る限り、Web-form-test 生成のための異なる LLM の比較研究は、まだ報告されていない。 このギャップに対処するため、30のオープンソースJava Webアプリケーションから146のWebフォームに対して、11のLLMの有効性を総合的に調査した。 実験結果によると、異なるLLMは異なるテスト効率を達成することができる。 特に、GPT-4、GLM-4、Baichuan2 LLMは、他のものよりも優れたWebフォームテストを生成することができる。 GPT-4と比較すると、他のLCMでは、Webフォームの適切なテストを生成することは困難であり、その結果、9.10%から74.15%の範囲で、LLMの生成したWebフォームテストの比率によって測定されたSSRが減少する。 しかしながら、一部のLCMはGPT-3.5よりも高いSSRを達成しており、Webフォームの適切なテストを生成する能力が向上している。 また,全ての LLM に対して,Web フォームに関する完全かつ明確な文脈情報を含むプロンプトを設計した場合,より効果的な Web フォームテストが生成された。 最後に、自動WebフォームテストのガイドにLLMを使うことについて、いくつかの洞察を提供する。

The testing of web forms is an essential activity for ensuring the quality of web applications, which mainly involves evaluating the interactions between users and forms. Automated test-case generation remains a challenge for web-form testing: Due to the complex, multi-level structure of web pages, it can be difficult to automatically capture their inherent contextual information for inclusion in the tests. Large Language Models (LLMs) have great potential for contextual text generation. OpenAI's GPT LLMs have been receiving a lot of attention in software testing, however, they may fail to be applied in practice because of information security concerns. To the best of our knowledge, no comparative study examining different LLMs has yet been reported for web-form-test generation. To address this gap in the literature, we conducted a comprehensive empirical study investigating the effectiveness of 11 LLMs on 146 web forms from 30 open-source Java web applications. According to the experimental results, different LLMs can achieve different testing effectiveness. Notably, the GPT-4, GLM-4, and Baichuan2 LLMs can generate better web-form tests than the others. Compared with GPT-4, other LLMs find it difficult to generate appropriate tests for web forms, resulting in decreased successfully-submitted rates (SSRs, measured by the proportions of the LLMs-generated web-form tests that can be successfully inserted into the web forms and submitted) ranging from 9.10% to 74.15%. Nevertheless, some LLMs achieve higher SSRs than GPT-3.5, indicating a better ability to generate appropriate tests for web forms. Our findings also show that, for all LLMs, when the designed prompts include complete and clear contextual information about the web forms, more effective web-form tests were generated. Finally, we offer some insights for using LLMs to guide automated web-form testing.
翻訳日:2024-05-17 14:41:47 公開日:2024-05-16
# 再生可能エネルギー利用の最適化に向けた太陽熱生産予測

Predicting Solar Heat Production to Optimize Renewable Energy Usage ( http://arxiv.org/abs/2405.09972v1 )

ライセンス: Link先を確認
Tatiana Boura, Natalia Koliou, George Meramveliotakis, Stasinos Konstantopoulos, George Kosmadakis, (参考訳) 太陽エネルギーを宇宙暖房や家庭の温水需要に充てることは非常に効率的であるが(環境のフットプリントやコストの観点からも)、年間を通じてユーザー需要を完全にカバーするためには、ボイラーやヒートポンプといった補助暖房システムと補完する必要がある。 当然、このようなシステムの最適制御は太陽熱生産の正確な予測に依存する。 実験と物理に基づく数値モデルは、太陽放射やその他の外部条件から熱生産へのマッピングであるコレクタのパフォーマンス曲線を見つけるために使用されるが、コレクタが屋外条件に晒されると、この曲線は時間とともに変化する。 国内小規模施設に高度制御戦略を展開させるため、機械学習を用いて、熱生産を予測するモデルを自動的に構築し、継続的に適用するアプローチを提案する。 私たちのデザインは必要によって駆動されます (a)極度の正確性及び信頼性要件を回避し、低コストの計器から抽出できる監督を用いたモデルの構築及び適用 b) 推定時刻において、一般に公開されている天気予報に提供される入力を使用する。 注目に基づく機械学習の最近の発展と、タスクの特定の部分にトレーニング設定を慎重に適応させることにより、我々の要求をカバーする機械学習ベースのソリューションを設計できるようになった。 本稿では,ソリューションの予測精度について実証実験を行い,これらの結果がエンド・ツー・エンドシステムに与える影響について考察する。

Utilizing solar energy to meet space heating and domestic hot water demand is very efficient (in terms of environmental footprint as well as cost), but in order to ensure that user demand is entirely covered throughout the year needs to be complemented with auxiliary heating systems, typically boilers and heat pumps. Naturally, the optimal control of such a system depends on an accurate prediction of solar thermal production. Experimental testing and physics-based numerical models are used to find a collector's performance curve - the mapping from solar radiation and other external conditions to heat production - but this curve changes over time once the collector is exposed to outdoor conditions. In order to deploy advanced control strategies in small domestic installations, we present an approach that uses machine learning to automatically construct and continuously adapt a model that predicts heat production. Our design is driven by the need to (a) construct and adapt models using supervision that can be extracted from low-cost instrumentation, avoiding extreme accuracy and reliability requirements; and (b) at inference time, use inputs that are typically provided in publicly available weather forecasts. Recent developments in attention-based machine learning, as well as careful adaptation of the training setup to the specifics of the task, have allowed us to design a machine learning-based solution that covers our requirements. We present positive empirical results for the predictive accuracy of our solution, and discuss the impact of these results on the end-to-end system.
翻訳日:2024-05-17 14:41:47 公開日:2024-05-16
# 画像伝送のための言語指向セマンティック潜在表現

Language-Oriented Semantic Latent Representation for Image Transmission ( http://arxiv.org/abs/2405.09976v1 )

ライセンス: Link先を確認
Giordano Cicchetti, Eleonora Grassucci, Jihong Park, Jinho Choi, Sergio Barbarossa, Danilo Comminiello, (参考訳) 意味コミュニケーション(SC)の新たなパラダイムでは、生データから意味情報を抽出することで、ビットの背後にある意味を提供することに重点を置いている。 データ-テキストモデルの最近の進歩は、特に画像-テキスト(I2T)エンコーディングとテキスト-画像(T2I)デコーディングによるテキスト変換画像通信において、言語指向のSCを促進する。 しかし、意味的整合性はあるものの、テキストは粗いので、空間的位置、色、テクスチャといった洗練された視覚的特徴を正確に捉えることができず、意図された画像と再構成された画像の間にかなりの差が生じる。 この制限に対処するため,本論文では,テキストと圧縮画像の埋め込みの両方を通信し,遅延拡散モデルを用いてそれらを結合して意図した画像を再構成する,新しい言語指向のSCフレームワークを提案する。 実験により,本手法の有効性が検証された。本手法は,テキストのみを用いたベースラインSC法と比較して,ノイズの多い通信路における知覚的類似性を高く保ちながら,元の画像サイズをわずか29%の精度で伝達する。

In the new paradigm of semantic communication (SC), the focus is on delivering meanings behind bits by extracting semantic information from raw data. Recent advances in data-to-text models facilitate language-oriented SC, particularly for text-transformed image communication via image-to-text (I2T) encoding and text-to-image (T2I) decoding. However, although semantically aligned, the text is too coarse to precisely capture sophisticated visual features such as spatial locations, color, and texture, incurring a significant perceptual difference between intended and reconstructed images. To address this limitation, in this paper, we propose a novel language-oriented SC framework that communicates both text and a compressed image embedding and combines them using a latent diffusion model to reconstruct the intended image. Experimental results validate the potential of our approach, which transmits only 2.09\% of the original image size while achieving higher perceptual similarities in noisy communication channels compared to a baseline SC method that communicates only through text.The code is available at https://github.com/ispamm/Img2Img-SC/ .
翻訳日:2024-05-17 14:41:47 公開日:2024-05-16
# 一般化条件変位

Generalized Conditional Displacement ( http://arxiv.org/abs/2405.09977v1 )

ライセンス: Link先を確認
Shiran Even-Haim, Asaf A. Diringer, Ron Ruimy, Gefen Baranes, Alexey Gorlach, Shay Hacohen-Gourgy, Ido Kaminer, (参考訳) クビットアンシラによる条件変位は、連続可変誤り訂正プロトコルにおいて重要な要素である。 本稿では,ガットマン・キタエフ・プレスキル(GKP)符号の誤り訂正と実装の可能性について述べる。

Conditional displacement with a qubit ancilla is a critical component in continuous-variable error correction protocols. We present the generalized conditional displacement operator, conditioned on a qudit ancilla, showing how it enhances error-correction with Gottesman-Kitaev-Preskill (GKP) codes and exploring potential implementations.
翻訳日:2024-05-17 14:31:57 公開日:2024-05-16
# FinTextQA: ロングフォームな財務質問応答のためのデータセット

FinTextQA: A Dataset for Long-form Financial Question Answering ( http://arxiv.org/abs/2405.09980v1 )

ライセンス: Link先を確認
Jian Chen, Peilin Zhou, Yining Hua, Yingxin Loh, Kehui Chen, Ziyuan Li, Bing Zhu, Junwei Liang, (参考訳) 金融質問応答(QA)システムの正確な評価は、多様な質問タイプやコンテキストを含む包括的なデータセットを必要とする。 しかし、現在の財務QAデータセットには、スコープの多様性と質問の複雑さが欠けている。 本研究は、金融における長文質問応答(LFQA)のための新しいデータセットであるFinTextQAを紹介する。 FinTextQA は 1,262 の高品質で,財務教科書や政府機関のウェブサイトから抽出・選択された質の高い QA ペアから構成される。さらに,我々は,組み込み,検索,再ランカ,ジェネレータを含む,RAG (Retrieval-Augmented Generation) ベースのLFQA システムを開発した。 ヒトのランキング、自動メトリクス、GPT-4スコアなどの多面的評価手法を用いて、ノイズの高い条件下での異なるLFQAシステム構成の性能をベンチマークした。 その結果, ベイチュアン2-7BはGPT-3.5-turboと精度スコアで密接に競合し, 2) 組込み器, 検索器, リランカー, ジェネレータをAda2, 自動マージ検索器, Bge-Reranker-Base, Baichuan2-7Bとして設定したデータセット上の最も効果的なシステム構成は, 特定のしきい値に達した後, ノイズの影響を受けにくい。

Accurate evaluation of financial question answering (QA) systems necessitates a comprehensive dataset encompassing diverse question types and contexts. However, current financial QA datasets lack scope diversity and question complexity. This work introduces FinTextQA, a novel dataset for long-form question answering (LFQA) in finance. FinTextQA comprises 1,262 high-quality, source-attributed QA pairs extracted and selected from finance textbooks and government agency websites.Moreover, we developed a Retrieval-Augmented Generation (RAG)-based LFQA system, comprising an embedder, retriever, reranker, and generator. A multi-faceted evaluation approach, including human ranking, automatic metrics, and GPT-4 scoring, was employed to benchmark the performance of different LFQA system configurations under heightened noisy conditions. The results indicate that: (1) Among all compared generators, Baichuan2-7B competes closely with GPT-3.5-turbo in accuracy score; (2) The most effective system configuration on our dataset involved setting the embedder, retriever, reranker, and generator as Ada2, Automated Merged Retrieval, Bge-Reranker-Base, and Baichuan2-7B, respectively; (3) models are less susceptible to noise after the length of contexts reaching a specific threshold.
翻訳日:2024-05-17 14:31:57 公開日:2024-05-16
# マルチモーダル大言語モデルの視覚的グラウンド化のための逆ロバスト性

Adversarial Robustness for Visual Grounding of Multimodal Large Language Models ( http://arxiv.org/abs/2405.09981v1 )

ライセンス: Link先を確認
Kuofeng Gao, Yang Bai, Jiawang Bai, Yong Yang, Shu-Tao Xia, (参考訳) MLLM(Multi-modal Large Language Models)は、視覚的な接地機能を含む様々な視覚言語タスクにおいて、パフォーマンスの向上を実現している。 しかし、視覚的グラウンドリングの対角的堅牢性は、MLLMでは明らかにされていない。 このギャップを埋めるために、視覚的グラウンドの例として参照表現理解(REC)を用い、以下の3つの逆攻撃パラダイムを提案する。 まず、標的外敵攻撃はMLLMを誘導し、各オブジェクトの不正なバウンディングボックスを生成する。 さらに、排他的標的攻撃は全ての生成された出力を同じターゲット境界ボックスに誘導する。 さらに、パーミュートされた敵攻撃は、1つの画像内の異なるオブジェクト間のすべてのバウンディングボックスをパーミュートすることを目的としている。 大規模な実験により,提案手法がMLLMの視覚的接地能力を効果的に攻撃できることが実証された。 本手法は,新規な攻撃を設計するための新たな視点を提供するだけでなく,MLLMの視覚的接地に対する対角的ロバスト性向上のための強力なベースラインとしても機能する。

Multi-modal Large Language Models (MLLMs) have recently achieved enhanced performance across various vision-language tasks including visual grounding capabilities. However, the adversarial robustness of visual grounding remains unexplored in MLLMs. To fill this gap, we use referring expression comprehension (REC) as an example task in visual grounding and propose three adversarial attack paradigms as follows. Firstly, untargeted adversarial attacks induce MLLMs to generate incorrect bounding boxes for each object. Besides, exclusive targeted adversarial attacks cause all generated outputs to the same target bounding box. In addition, permuted targeted adversarial attacks aim to permute all bounding boxes among different objects within a single image. Extensive experiments demonstrate that the proposed methods can successfully attack visual grounding capabilities of MLLMs. Our methods not only provide a new perspective for designing novel attacks but also serve as a strong baseline for improving the adversarial robustness for visual grounding of MLLMs.
翻訳日:2024-05-17 14:31:57 公開日:2024-05-16
# 共通調達語彙分類におけるゼロショット階層分類

Zero-Shot Hierarchical Classification on the Common Procurement Vocabulary Taxonomy ( http://arxiv.org/abs/2405.09983v1 )

ライセンス: Link先を確認
Federico Moiraghi, Matteo Palmonari, Davide Allavena, Federico Morando, (参考訳) 公務員の分類は、参加を招待された企業と不正行為を検査する企業の両方にとって有用なタスクである。 欧州連合は、参加者と公共行政の双方にとっての作業を容易にするため、特定の重要性の利害関係者に対して義務付けられている共通の分類 (\textit{Common Procurement Vocabulary}, CPV) を発表したが、CPVラベルが義務付けられている契約は、すべての公共行政活動と比較して少数である。 現実世界の分類を分類することは無視できない困難をもたらす。 第一に、いくつかのきめ細かいクラスはトレーニングセットで不十分な(もしあれば)観測数を持っているが、他のクラスは平均よりもはるかに頻繁に(数千回も)いる。 これらの課題を克服するため,ラベル記述のみに依存し,ラベル分類を尊重する事前学習言語モデルに基づくゼロショットアプローチを提案する。 提案したモデルをトレーニングするために、産業データを使用した。これは、 \href{https://spaziodati.eu}{SpazioDati s.r.l} のサービスである \url{contrattipubblici.org} から得られたものだ。 イタリアで過去25年間に規定された 公約を収集しています その結果,提案モデルでは,3つの異なるベースラインと比較して,低頻度クラスを分類する際の性能が向上し,また,見つからないクラスを予測できることがわかった。

Classifying public tenders is a useful task for both companies that are invited to participate and for inspecting fraudulent activities. To facilitate the task for both participants and public administrations, the European Union presented a common taxonomy (\textit{Common Procurement Vocabulary}, CPV) which is mandatory for tenders of certain importance; however, the contracts in which a CPV label is mandatory are the minority compared to all the Public Administrations activities. Classifying over a real-world taxonomy introduces some difficulties that can not be ignored. First of all, some fine-grained classes have an insufficient (if any) number of observations in the training set, while other classes are far more frequent (even thousands of times) than the average. To overcome those difficulties, we present a zero-shot approach, based on a pre-trained language model that relies only on label description and respects the label taxonomy. To train our proposed model, we used industrial data, which comes from \url{contrattipubblici.org}, a service by \href{https://spaziodati.eu}{SpazioDati s.r.l}. that collects public contracts stipulated in Italy in the last 25 years. Results show that the proposed model achieves better performance in classifying low-frequent classes compared to three different baselines, and is also able to predict never-seen classes.
翻訳日:2024-05-17 14:31:57 公開日:2024-05-16
# VirtualModel:Eコマースマーケティングのための拡散モデルによるオブジェクト-ID-リテーティブな人間-オブジェクトインタラクション画像の生成

VirtualModel: Generating Object-ID-retentive Human-object Interaction Image by Diffusion Model for E-commerce Marketing ( http://arxiv.org/abs/2405.09985v1 )

ライセンス: Link先を確認
Binghui Chen, Chongyang Zhong, Wangmeng Xiang, Yifeng Geng, Xuansong Xie, (参考訳) 拡散モデル (DM) による大規模テキスト・画像生成の大幅な進歩により, 制御可能な人体画像生成が近年注目されている。 Controlnet [36]、T2I-adapter [20]、HumanSD [10]といった既存の作品では、ポーズ条件に基づいて人間の画像を生成する優れた能力を示しており、実際のeコマースシナリオの要件を満たしていない。 それらには、(1)表示された製品と人間の相互作用を考慮し、(2)顔・手・足などの人的部分と人的モデルと製品との相互作用を超現実的にし、(3)広告で示される商品の同一性は、製品そのものと正確に一致すべきである。 そこで本稿では,まず,eコマースマーケティングのための新たなヒューマンイメージ生成タスク,すなわち,オブジェクト-ID-Retentive Human-object Interaction Image Generation (OHG)を定義し,その上で,製品カテゴリの表示や,さまざまなタイプのヒューマンオブジェクトインタラクションをサポートする,製品のためのヒューマンイメージを生成するVirtualModelフレームワークを提案する。 図1に示すように、VirtualModelは、正確なポーズ制御と画質の点で他の手法よりも優れているだけでなく、製品とIDの整合性を維持し、人間とオブジェクトの相互作用の妥当性を高めることで、ユーザ特定製品オブジェクトの表示を可能にします。 コードとデータはリリースされます。

Due to the significant advances in large-scale text-to-image generation by diffusion model (DM), controllable human image generation has been attracting much attention recently. Existing works, such as Controlnet [36], T2I-adapter [20] and HumanSD [10] have demonstrated good abilities in generating human images based on pose conditions, they still fail to meet the requirements of real e-commerce scenarios. These include (1) the interaction between the shown product and human should be considered, (2) human parts like face/hand/arm/foot and the interaction between human model and product should be hyper-realistic, and (3) the identity of the product shown in advertising should be exactly consistent with the product itself. To this end, in this paper, we first define a new human image generation task for e-commerce marketing, i.e., Object-ID-retentive Human-object Interaction image Generation (OHG), and then propose a VirtualModel framework to generate human images for product shown, which supports displays of any categories of products and any types of human-object interaction. As shown in Figure 1, VirtualModel not only outperforms other methods in terms of accurate pose control and image quality but also allows for the display of user-specified product objects by maintaining the product-ID consistency and enhancing the plausibility of human-object interaction. Codes and data will be released.
翻訳日:2024-05-17 14:31:57 公開日:2024-05-16
# 全対全連結超伝導スピン量子ビットのブループリント

Blueprint for all-to-all connected superconducting spin qubits ( http://arxiv.org/abs/2405.09988v1 )

ライセンス: Link先を確認
Marta Pita-Vidal, Jaap J. Wesdorp, Christian Kraglund Andersen, (参考訳) Andreev(または超伝導)スピン量子ビット(ASQ)は、超伝導回路と半導体スピン度を結合した有望な量子ビットプラットフォームとして最近登場した。 最近の実験では2つのASQの結合に成功したが、この結合を複数の遠いキュービットに拡張するためのスケーラブルなアーキテクチャを実現する方法は未解決の問題である。 本研究では,複数のリモートASQ間のオール・ツー・オール接続を実現するアーキテクチャを導入することで,この問題を解決する。 提案手法は,任意の量子ビット対間の選択的接続を可能にし,他の全ての量子ビット対をアンカップリングしたまま維持する。 さらに、回路量子力学技術を用いて、効率的な読み出しの実現可能性を示し、異なる読み出し構成を比較する。 我々のアーキテクチャは、ゲートベースの量子コンピューティングと、代替固体プラットフォームよりも高い量子ビット接続を提供することによるアナログ量子シミュレーションアプリケーションの両方を約束する。

Andreev (or superconducting) spin qubits (ASQs) have recently emerged as a promising qubit platform that combines superconducting circuits with semiconductor spin degrees of freedom. While recent experiments have successfully coupled two ASQs, how to realize a scalable architecture for extending this coupling to multiple distant qubits remains an open question. In this work, we resolve this challenge by introducing an architecture that achieves all-to-all connectivity between multiple remote ASQs. Our approach enables selective connectivity between any qubit pair while maintaining all other qubit pairs uncoupled. Furthermore, we demonstrate the feasibility of efficient readout using circuit quantum electrodynamics techniques and compare different readout configurations. Our architecture shows promise both for gate-based quantum computing and for analog quantum simulation applications by offering higher qubit connectivity than alternative solid-state platforms.
翻訳日:2024-05-17 14:31:57 公開日:2024-05-16
# 正規データに対するガウス過程モデルとケモインフォマティクスへの応用

A Gaussian Process Model for Ordinal Data with Applications to Chemoinformatics ( http://arxiv.org/abs/2405.09989v1 )

ライセンス: Link先を確認
Arron Gosnell, Evangelos Evangelou, (参考訳) 化学検査のためのスクリーニングツールの普及により、膨大な量の化学物質のデータベースを容易に作成できるようになった。 しかし、これらのデータベースを解析するために用いられる厳密な統計手法は、その初期段階にあり、化学発見を促進するためのさらなる開発が不可欠である。 本稿では,化学実験の結果を予測する条件付きガウス過程モデルを提案する。 我々は、化学空間における相関効果を捉えるために、ガウス過程の共分散の中で、化学空間の計量である谷本距離を実装した。 提案手法の新たな特徴は, カーネルが化学空間の要素間の相関関係の強さを制御できるスケーリングパラメータを含むことである。 化学空間内における化合物の位置の数値的表現である分子指紋を用いて, 化合物間の相関を考慮した場合, 効果が独立であると考えられる非相関モデルよりも予測性能が向上することを示す。 さらに, 化学発見の容易化と化合物の有効性に対する重要な特徴の同定のための遺伝的アルゴリズムを提案する。 提案手法の適合性を示すためのシミュレーション研究を行った。 有機溶媒のハザード分類問題に対して提案手法を実証した。

With the proliferation of screening tools for chemical testing, it is now possible to create vast databases of chemicals easily. However, rigorous statistical methodologies employed to analyse these databases are in their infancy, and further development to facilitate chemical discovery is imperative. In this paper, we present conditional Gaussian process models to predict ordinal outcomes from chemical experiments, where the inputs are chemical compounds. We implement the Tanimoto distance, a metric on the chemical space, within the covariance of the Gaussian processes to capture correlated effects in the chemical space. A novel aspect of our model is that the kernel contains a scaling parameter, a feature not previously examined in the literature, that controls the strength of the correlation between elements of the chemical space. Using molecular fingerprints, a numerical representation of a compound's location within the chemical space, we show that accounting for correlation amongst chemical compounds improves predictive performance over the uncorrelated model, where effects are assumed to be independent. Moreover, we present a genetic algorithm for the facilitation of chemical discovery and identification of important features to the compound's efficacy. A simulation study is conducted to demonstrate the suitability of the proposed methods. Our proposed methods are demonstrated on a hazard classification problem of organic solvents.
翻訳日:2024-05-17 14:31:57 公開日:2024-05-16
# 正確な卵巣癌亜型分類を可能にする病理組織学的基盤モデル

Histopathology Foundation Models Enable Accurate Ovarian Cancer Subtype Classification ( http://arxiv.org/abs/2405.09990v1 )

ライセンス: Link先を確認
Jack Breen, Katie Allen, Kieran Zucker, Lucy Godson, Nicolas M. Orsi, Nishant Ravikumar, (参考訳) 大規模事前学習型トランスフォーマーは、強力なタスク固有の人工知能モデルを基盤とする一般化基盤モデルとして、ますます発展しつつある。 病理組織学の基礎モデルは多くのタスクにまたがる約束を示すが、分析は特定のタスク/データセットに調整されていない任意のハイパーパラメータによって制限されている。 病理組織学的基盤モデルが施行された最も厳格なシングルタスク検証を報告する。 アテンションベースの複数インスタンス学習分類器を視覚変換器とResNetの機能を用いて比較した。 トレーニングセットはLeeds Hospitalsの卵巣癌434例の1864枚の全スライド画像で構成された。 5次クロスバリデーションにより5クラス分類性能を評価し, これらのクロスバリデーションモデルは, ホールドアウトテストセットとトランスカナディアンの外部セットで評価するために組み合わされた。 TRIPOD+AIチェックリストに続くレポート。 The vision transformer-based histopathology foundation model, UNIは、それぞれ68%と81%の最高のResNetモデルスコアと比較すると、内部および外部テストにおいて5クラスのアキュラシーが88%と93%で、すべての評価において最高の成績を示した。 正常化と拡張は、ResNetベースのモデルの一般化に役立ったが、これらのモデルはまだ、卵巣がんのサブタイプ研究において最高の外的パフォーマンスを与えるUNIのパフォーマンスと一致しなかった。 病理組織学的基盤モデルは、計算負担が増大するにもかかわらず、臨床的有用性が明確である程度に分類性能を向上させることで、サブタイピングの明確な利点を提供する。 このようなモデルは、挑戦的なケースにおいて第2の意見を与え、全体的な病理診断の正確性、客観性、効率を改善する可能性がある。

Large pretrained transformers are increasingly being developed as generalised foundation models which can underpin powerful task-specific artificial intelligence models. Histopathology foundation models show promise across many tasks, but analyses have been limited by arbitrary hyperparameters that were not tuned to the specific task/dataset. We report the most rigorous single-task validation conducted to date of a histopathology foundation model, and the first performed in ovarian cancer subtyping. Attention-based multiple instance learning classifiers were compared using vision transformer and ResNet features generated through varied preprocessing and pretraining procedures. The training set consisted of 1864 whole slide images from 434 ovarian carcinoma cases at Leeds Hospitals. Five-class classification performance was evaluated through five-fold cross-validation, and these cross-validation models were ensembled for evaluation on a hold-out test set and an external set from the Transcanadian study. Reporting followed the TRIPOD+AI checklist. The vision transformer-based histopathology foundation model, UNI, performed best in every evaluation, with five-class balanced accuracies of 88% and 93% in hold-out internal and external testing, compared to the best ResNet model scores of 68% and 81%, respectively. Normalisations and augmentations aided the generalisability of ResNet-based models, but these still did not match the performance of UNI, which gave the best external performance in any ovarian cancer subtyping study to date. Histopathology foundation models offer a clear benefit to subtyping, improving classification performance to a degree where clinical utility is tangible, albeit with an increased computational burden. Such models could provide a second opinion in challenging cases and may improve the accuracy, objectivity, and efficiency of pathological diagnoses overall.
翻訳日:2024-05-17 14:31:57 公開日:2024-05-16
# 安全支援のための非調整正規化による運転映像のデハジング

Driving-Video Dehazing with Non-Aligned Regularization for Safety Assistance ( http://arxiv.org/abs/2405.09996v1 )

ライセンス: Link先を確認
Junkai Fan, Jiangwei Weng, Kun Wang, Yijun Yang, Jianjun Qian, Jun Li, Jian Yang, (参考訳) 実際のドライビングビデオのデヘイジングは、特に予測不可能な気象条件の動的運転シナリオにおいて、効果的なモデルトレーニングのために、正確に整列されたヘイジー/クリアビデオペアを取得するのが本質的に困難であるため、大きな課題となる。 本稿では,非整合正規化戦略を通じてこの問題に対処する先駆的アプローチを提案する。 私たちの中核となる概念は、ぼんやりとしたフレームと密にマッチする明確なフレームを識別することであり、ビデオのデハージングネットワークを監督するための参照として役立ちます。 このアプローチは、参照マッチングとビデオデハージングの2つの重要なコンポーネントから構成される。 まず,アダプティブ・スライディング・ウインドウを利用する非アラインな参照フレームマッチング・モジュールを導入し,高品質な参照フレームをクリアなビデオからマッチングする。 ビデオデハジングは、フローガイドされたコサインアテンションサンプリング器と変形可能なコサインアテンションフュージョンモジュールを組み込んで、空間的多フレームアライメントを強化し、改善された情報を融合させる。 このアプローチを検証するために、GoProHazyデータセットを、農村部や都市部の様々な道路環境のGoProカメラで無作為に収集した。 実動ビデオデハージングの課題において,提案手法が現在の最先端手法よりも優れていることを示す実験が盛んである。 プロジェクトページ。

Real driving-video dehazing poses a significant challenge due to the inherent difficulty in acquiring precisely aligned hazy/clear video pairs for effective model training, especially in dynamic driving scenarios with unpredictable weather conditions. In this paper, we propose a pioneering approach that addresses this challenge through a nonaligned regularization strategy. Our core concept involves identifying clear frames that closely match hazy frames, serving as references to supervise a video dehazing network. Our approach comprises two key components: reference matching and video dehazing. Firstly, we introduce a non-aligned reference frame matching module, leveraging an adaptive sliding window to match high-quality reference frames from clear videos. Video dehazing incorporates flow-guided cosine attention sampler and deformable cosine attention fusion modules to enhance spatial multiframe alignment and fuse their improved information. To validate our approach, we collect a GoProHazy dataset captured effortlessly with GoPro cameras in diverse rural and urban road environments. Extensive experiments demonstrate the superiority of the proposed method over current state-of-the-art methods in the challenging task of real driving-video dehazing. Project page.
翻訳日:2024-05-17 14:31:57 公開日:2024-05-16
# 品質多様性データ合成と言語モデルによる生成設計

Generative Design through Quality-Diversity Data Synthesis and Language Models ( http://arxiv.org/abs/2405.09997v1 )

ライセンス: Link先を確認
Adam Gaier, James Stoddart, Lorenzo Villaggi, Shyam Sudhakaran, (参考訳) エンジニアリングアプリケーションにおける2つの基本的な課題は、ハイパフォーマンスで多様なデータセットの取得と、生成された設計における正確な制約への固執である。 アーキテクチャ設計におけるこれらの課題に取り組むために,最適化,制約満足度,言語モデルを組み合わせた新しいアプローチを提案する。 提案手法は品質多様性(QD)を用いて,多種多様な高性能データセットを生成する。 そして、このデータセットで言語モデルを微調整し、ハイレベルな設計を生成する。 これらの設計は、Wave Function Collapseアルゴリズムを用いて、詳細で制約に準拠したレイアウトに洗練される。 本システムでは,テキストガイダンスの信頼性を実証し,設計・性能を目標としたレイアウト生成を実現する。 以上の結果から,QDの進化的探索によって合成されたデータは,モデル全体の性能を向上するだけでなく,テキストガイダンスに忠実に準拠する能力にも不可欠であることが示唆された。 この改善は、設計のための生成モデルをトレーニングするためのデータセットを作成する際に、進化的計算が果たす重要な役割を浮き彫りにしている。 Web article at https://tilegpt.github.io

Two fundamental challenges face generative models in engineering applications: the acquisition of high-performing, diverse datasets, and the adherence to precise constraints in generated designs. We propose a novel approach combining optimization, constraint satisfaction, and language models to tackle these challenges in architectural design. Our method uses Quality-Diversity (QD) to generate a diverse, high-performing dataset. We then fine-tune a language model with this dataset to generate high-level designs. These designs are then refined into detailed, constraint-compliant layouts using the Wave Function Collapse algorithm. Our system demonstrates reliable adherence to textual guidance, enabling the generation of layouts with targeted architectural and performance features. Crucially, our results indicate that data synthesized through the evolutionary search of QD not only improves overall model performance but is essential for the model's ability to closely adhere to textual guidance. This improvement underscores the pivotal role evolutionary computation can play in creating the datasets key to training generative models for design. Web article at https://tilegpt.github.io
翻訳日:2024-05-17 14:31:57 公開日:2024-05-16
# リワードセンター

Reward Centering ( http://arxiv.org/abs/2405.09999v1 )

ライセンス: Link先を確認
Abhishek Naik, Yi Wan, Manan Tomar, Richard S. Sutton, (参考訳) 本研究は, 強化学習を継続する課題を解決するための割引手法が, 報酬の試算平均を減じることで, 報酬の集中度を著しく向上できることを示す。 この改善は一般的に使用されるディスカウント要因において大きく、ディスカウント要因が近づくにつれてさらに増加する。 さらに、ある問題の報酬が一定値にシフトした場合、標準手法の方がはるかに悪化し、一方、報酬中心の手法は影響を受けないことを示す。 平均報酬を見積もるのは、オン・ポリティシック・セッティングにおいて簡単であり、オフ・ポリティシック・セッティングのためのより洗練された方法を提案する。 リワードセンタリングは一般的なアイデアなので、ほぼすべての強化学習アルゴリズムが、報酬センタリングの追加によって恩恵を受けることを期待しています。

We show that discounted methods for solving continuing reinforcement learning problems can perform significantly better if they center their rewards by subtracting out the rewards' empirical average. The improvement is substantial at commonly used discount factors and increases further as the discount factor approaches one. In addition, we show that if a problem's rewards are shifted by a constant, then standard methods perform much worse, whereas methods with reward centering are unaffected. Estimating the average reward is straightforward in the on-policy setting; we propose a slightly more sophisticated method for the off-policy setting. Reward centering is a general idea, so we expect almost every reinforcement-learning algorithm to benefit by the addition of reward centering.
翻訳日:2024-05-17 14:31:57 公開日:2024-05-16
# ROCOv2: マルチモーダル画像データセットを更新したContextバージョン2のRadiology Objects

ROCOv2: Radiology Objects in COntext Version 2, an Updated Multimodal Image Dataset ( http://arxiv.org/abs/2405.10004v1 )

ライセンス: Link先を確認
Johannes Rückert, Louise Bloch, Raphael Brüngel, Ahmad Idrissi-Yaghir, Henning Schäfer, Cynthia S. Schmidt, Sven Koitka, Obioma Pelka, Asma Ben Abacha, Alba G. Seco de Herrera, Henning Müller, Peter A. Horn, Felix Nensa, Christoph M. Friedrich, (参考訳) 自動医用画像解析システムは、高品質なラベルを持つ大量のトレーニングデータを必要とすることが多い。 本稿では,PMC Open Accessサブセットから抽出した放射線画像と関連する医療概念とキャプションからなるマルチモーダルデータセットである,COntext version 2(ROCOv2)について紹介する。 2018年に公開されたROCOデータセットの更新版であり、2018年以来、PMCに35,705の新しいイメージが追加されている。 さらに、X線のための解剖学的および方向的概念を追加して、画像モダリティを手動でキュレートした概念を提供する。 このデータセットは79,789枚の画像で構成され、ImageCLEFmedical Caption 2023のコンセプト検出とキャプション予測タスクにおいて、小さな修正が加えられている。 このデータセットは、画像キャプチャペアに基づいた画像アノテーションモデルのトレーニングや、画像毎に提供されるUnified Medical Language System (UMLS) の概念を用いたマルチラベル画像分類に適している。 さらに、医療ドメインモデルの事前トレーニングや、マルチタスク学習のためのディープラーニングモデルの評価に役立てることができる。

Automated medical image analysis systems often require large amounts of training data with high quality labels, which are difficult and time consuming to generate. This paper introduces Radiology Object in COntext version 2 (ROCOv2), a multimodal dataset consisting of radiological images and associated medical concepts and captions extracted from the PMC Open Access subset. It is an updated version of the ROCO dataset published in 2018, and adds 35,705 new images added to PMC since 2018. It further provides manually curated concepts for imaging modalities with additional anatomical and directional concepts for X-rays. The dataset consists of 79,789 images and has been used, with minor modifications, in the concept detection and caption prediction tasks of ImageCLEFmedical Caption 2023. The dataset is suitable for training image annotation models based on image-caption pairs, or for multi-label image classification using Unified Medical Language System (UMLS) concepts provided with each image. In addition, it can serve for pre-training of medical domain models, and evaluation of deep learning models for multi-task learning.
翻訳日:2024-05-17 14:31:57 公開日:2024-05-16
# 単純化された特徴を用いた機械学習に基づく経路損失モデリング

Machine Learning-Based Path Loss Modeling with Simplified Features ( http://arxiv.org/abs/2405.10006v1 )

ライセンス: Link先を確認
Jonathan Ethier, Mathieu Chateauvert, (参考訳) 伝搬モデリングは、高いモデリング精度の需要が拡大し続けながら、ワイヤレスデプロイメントとスペクトルプランニングを成功させるための重要なツールである。 物理的環境(テラインとクラッタ)の詳細な知識が不可欠であることを認識し,予測に環境情報を利用する新しいアプローチを提案する。 複雑な詳細集約モデルに頼る代わりに、送信機から受信機への直接経路に沿った全障害物深さを含む単純化されたスカラー特徴の利用について検討する。 Obstacle depthは、無線信号の伝搬を予測するための合理化された、驚くほど正確な方法を提供し、効率的かつ効果的な無線ネットワーク計画のための実用的なソリューションを提供する。

Propagation modeling is a crucial tool for successful wireless deployments and spectrum planning with the demand for high modeling accuracy continuing to grow. Recognizing that detailed knowledge of the physical environment (terrain and clutter) is essential, we propose a novel approach that uses environmental information for predictions. Instead of relying on complex, detail-intensive models, we explore the use of simplified scalar features involving the total obstruction depth along the direct path from transmitter to receiver. Obstacle depth offers a streamlined, yet surprisingly accurate, method for predicting wireless signal propagation, providing a practical solution for efficient and effective wireless network planning.
翻訳日:2024-05-17 14:31:57 公開日:2024-05-16
# エニグマの解法:ディープネットワークの最適説明の導出

Solving the enigma: Deriving optimal explanations of deep networks ( http://arxiv.org/abs/2405.10008v1 )

ライセンス: Link先を確認
Michail Mamalakis, Antonios Mamalakis, Ingrid Agartz, Lynn Egeland Mørch-Johnsen, Graham Murray, John Suckling, Pietro Lio, (参考訳) 人工知能(AI)の急速な進歩は、ドメイン間でディープラーニングモデルを普及させたが、その固有の不透明さは、特に医療、医学、地球科学といった重要な分野において、課題を引き起こしている。 説明可能なAI(XAI)は、これらの“ブラックボックス”モデルに光を当てて、意思決定プロセスの解読を支援している。 しかしながら、異なるXAI法は、非常に異なる説明をもたらす。 このメソッド間の変動は不確実性を高め、ディープネットワークの予測に対する信頼を低下させる。 本研究では,提案手法の精度と説明の理解性の両方を最大化することにより,深層ネットワークの説明可能性を高める新しい枠組みを提案する。 本フレームワークは,確立されたXAI手法の様々な説明を統合し,非線形な「説明最適化」を用いて,一意かつ最適な説明を構築する。 2次元オブジェクトと3次元神経科学イメージングにおける多クラス・バイナリ分類タスクの実験を通じて,本手法の有効性を検証した。 提案手法は, 3Dおよび2Dアプリケーションにおいて, XAI法の平均値は平均155%, 63%であった。 さらに、我々のアプローチは複雑さを減らし、理解力を高めました。 本稿は,特定の基準に基づく最適説明が導出可能であることを示唆し,現在のXAI文献におけるメソッド間変動の問題に対処するものである。

The accelerated progress of artificial intelligence (AI) has popularized deep learning models across domains, yet their inherent opacity poses challenges, notably in critical fields like healthcare, medicine and the geosciences. Explainable AI (XAI) has emerged to shed light on these "black box" models, helping decipher their decision making process. Nevertheless, different XAI methods yield highly different explanations. This inter-method variability increases uncertainty and lowers trust in deep networks' predictions. In this study, for the first time, we propose a novel framework designed to enhance the explainability of deep networks, by maximizing both the accuracy and the comprehensibility of the explanations. Our framework integrates various explanations from established XAI methods and employs a non-linear "explanation optimizer" to construct a unique and optimal explanation. Through experiments on multi-class and binary classification tasks in 2D object and 3D neuroscience imaging, we validate the efficacy of our approach. Our explanation optimizer achieved superior faithfulness scores, averaging 155% and 63% higher than the best performing XAI method in the 3D and 2D applications, respectively. Additionally, our approach yielded lower complexity, increasing comprehensibility. Our results suggest that optimal explanations based on specific criteria are derivable and address the issue of inter-method variability in the current XAI literature.
翻訳日:2024-05-17 14:31:57 公開日:2024-05-16
# 半直線上のディラック作用素:スペクトルの安定性と非相対論的極限

Dirac operators on the half-line: stability of spectrum and non-relativistic limit ( http://arxiv.org/abs/2405.10009v1 )

ライセンス: Link先を確認
David Kramar, David Krejcirik, (参考訳) 我々は、一般化された無限質量境界条件の下で、半直線上のディラック作用素を考える。 非自己随伴ポテンシャル摂動に対するスペクトルの安定性を保証する十分な条件を導出し、得られた結果の最適性について検討する。 最後に、このモデルとロビン・ラプラシアンを半直線で関連付ける非相対論的極限を確立する。

We consider Dirac operators on the half-line, subject to generalised infinite-mass boundary conditions. We derive sufficient conditions which guarantee the stability of the spectrum against possibly non-self-adjoint potential perturbations and study the optimality of the obtained results. Finally, we establish a non-relativistic limit which makes a relationship of the present model to the Robin Laplacian on the half-line.
翻訳日:2024-05-17 14:31:57 公開日:2024-05-16
# 超解像のためのマルチスケール拡散を用いた周波数領域微細化

Frequency-Domain Refinement with Multiscale Diffusion for Super Resolution ( http://arxiv.org/abs/2405.10014v1 )

ライセンス: Link先を確認
Xingjian Wang, Li Chai, Jiming Chen, (参考訳) 単一画像の超解像性能は、低分解能画像に対して高周波の詳細を生成・補完する方法に大きく依存する。 近年,拡散モデルによる超解像処理のための高品質な画像生成の可能性が高まっている。 しかし,既存のモデルでは,全サンプリングタイムステップのターゲットとして高分解能基底真理のみを用いることで,広帯域の高周波情報を直接予測することは困難である。 この問題に対処し,高品質な超解像を実現するために,周波数領域誘導マルチスケール拡散モデル(FDDiff)を提案する。 特に、ウェーブレットパケットベースの周波数補完チェーンを開発し、逆拡散プロセスの帯域幅を増大させるマルチスケール中間ターゲットを提供する。 次に、FDDiffは逆拡散過程をガイドし、時間経過とともに欠落する高周波の詳細を徐々に補う。 さらに、1つの統一ネットワーク内で複数のスケールで要求される高周波成分を予測するために、マルチスケールの周波数改善ネットワークを設計する。 一般的なベンチマークの総合的な評価を行い、FDDiffは、高忠実度超解像結果の先行生成法よりも優れていることを示した。

The performance of single image super-resolution depends heavily on how to generate and complement high-frequency details to low-resolution images. Recently, diffusion-based models exhibit great potential in generating high-quality images for super-resolution tasks. However, existing models encounter difficulties in directly predicting high-frequency information of wide bandwidth by solely utilizing the high-resolution ground truth as the target for all sampling timesteps. To tackle this problem and achieve higher-quality super-resolution, we propose a novel Frequency Domain-guided multiscale Diffusion model (FDDiff), which decomposes the high-frequency information complementing process into finer-grained steps. In particular, a wavelet packet-based frequency complement chain is developed to provide multiscale intermediate targets with increasing bandwidth for reverse diffusion process. Then FDDiff guides reverse diffusion process to progressively complement the missing high-frequency details over timesteps. Moreover, we design a multiscale frequency refinement network to predict the required high-frequency components at multiple scales within one unified network. Comprehensive evaluations on popular benchmarks are conducted, and demonstrate that FDDiff outperforms prior generative methods with higher-fidelity super-resolution results.
翻訳日:2024-05-17 14:22:13 公開日:2024-05-16
# エルミートトポロジーにおける非エルミートトポロジー

Non-Hermitian Topology in Hermitian Topological Matter ( http://arxiv.org/abs/2405.10015v1 )

ライセンス: Link先を確認
Shu Hamanaka, Tsuneya Yoshida, Kohei Kawabata, (参考訳) 非休眠性は、エルミート系に特有の位相現象を欠いている。 しかし、そのような本質的な非エルミート位相とエルミート位相の関連性はほとんど解明されていない。 ここでは、バルクと境界を環境とシステムとして考慮し、エルミート位相絶縁体における異常境界状態が非エルミート位相を示すことを示す。 我々はバルクと境界の間の粒子交換を捉える自己エネルギーについて研究し、バルク内のエルミート位相を検出し、境界における非エルミート位相を誘導することを示した。 図示的な例として、チャーン絶縁体のキラルエッジ状態に本質的に埋め込まれた非エルミートトトポロジーと共役皮膚効果を示す。 また、3次元トポロジカル絶縁体の表面における有効非エルミートハミルトニアンのヒンジ状態の出現も見いだす。 さらに、トポロジカル絶縁体と超伝導体の10倍対称性のクラスを包括的に分類する。 我々の研究は、エルミート位相と非エルミート位相の間の隠れた関係を明らかにし、量子物質中の非エルミート位相を同定するためのアプローチを提供する。

Non-Hermiticity leads to distinctive topological phenomena absent in Hermitian systems. However, connection between such intrinsic non-Hermitian topology and Hermitian topology has remained largely elusive. Here, considering the bulk and boundary as an environment and system, we demonstrate that anomalous boundary states in Hermitian topological insulators exhibit non-Hermitian topology. We study the self-energy capturing the particle exchange between the bulk and boundary, and demonstrate that it detects Hermitian topology in the bulk and induces non-Hermitian topology at the boundary. As an illustrative example, we show the non-Hermitian topology and concomitant skin effect inherently embedded within chiral edge states of Chern insulators. We also find the emergence of hinge states within effective non-Hermitian Hamiltonians at surfaces of three-dimensional topological insulators. Furthermore, we comprehensively classify our correspondence across all the tenfold symmetry classes of topological insulators and superconductors. Our work uncovers a hidden connection between Hermitian and non-Hermitian topology, and provides an approach to identifying non-Hermitian topology in quantum matter.
翻訳日:2024-05-17 14:22:13 公開日:2024-05-16
# 自然言語がSim2Realギャップの橋渡しに役立つ

Natural Language Can Help Bridge the Sim2Real Gap ( http://arxiv.org/abs/2405.10020v1 )

ライセンス: Link先を確認
Albert Yu, Adeline Foote, Raymond Mooney, Roberto Martín-Martín, (参考訳) イメージコンディショニングされたロボットポリシーを学ぶ上での大きな課題は、低レベル制御による視覚的表現を取得することである。 画像空間の高次元性のため、優れた視覚表現を学ぶには、かなりの量の視覚的データが必要である。 しかし、現実世界で学ぶ場合、データは高価である。 Sim2Realは、現実のターゲットドメインにおけるデータ不足を克服するために、シミュレータを使用して、ターゲットタスクと密接に関連する大量の安価なデータを収集する、有望なパラダイムである。 しかし、ドメインが非常に視覚的に異なる場合、画像条件のポリシーをsimからrealに転送することは困難である。 そこで本研究では,課題関連セマンティクスをキャプチャする領域間の統一信号として,画像の自然言語記述を用いる手法を提案する。 我々の重要な洞察は、異なる領域からの2つの画像観察が類似した言語でラベル付けされている場合、このポリシーは両方の画像に対して類似した行動分布を予測するべきであるということである。 画像エンコーダを訓練して、シムや実画像の記述間の言語記述や距離を予測することは、ドメイン不変の画像表現の学習に役立つ有用なデータ効率の事前学習ステップとなることを実証する。 次に、このイメージエンコーダを、大量のシミュレートされた実演と少数の実演に基づいて同時にトレーニングされたILポリシーのバックボーンとして使用することができる。 従来のsim2real手法とCLIPやR3Mのような強力な視覚言語事前学習ベースラインを25~40%向上させる。

The main challenge in learning image-conditioned robotic policies is acquiring a visual representation conducive to low-level control. Due to the high dimensionality of the image space, learning a good visual representation requires a considerable amount of visual data. However, when learning in the real world, data is expensive. Sim2Real is a promising paradigm for overcoming data scarcity in the real-world target domain by using a simulator to collect large amounts of cheap data closely related to the target task. However, it is difficult to transfer an image-conditioned policy from sim to real when the domains are very visually dissimilar. To bridge the sim2real visual gap, we propose using natural language descriptions of images as a unifying signal across domains that captures the underlying task-relevant semantics. Our key insight is that if two image observations from different domains are labeled with similar language, the policy should predict similar action distributions for both images. We demonstrate that training the image encoder to predict the language description or the distance between descriptions of a sim or real image serves as a useful, data-efficient pretraining step that helps learn a domain-invariant image representation. We can then use this image encoder as the backbone of an IL policy trained simultaneously on a large amount of simulated and a handful of real demonstrations. Our approach outperforms widely used prior sim2real methods and strong vision-language pretraining baselines like CLIP and R3M by 25 to 40%.
翻訳日:2024-05-17 14:22:13 公開日:2024-05-16
# $Δ\text{-}{\rm OPE}$:Pairs of Policiesによるオフポリティ推定

$Δ\text{-}{\rm OPE}$: Off-Policy Estimation with Pairs of Policies ( http://arxiv.org/abs/2405.10024v1 )

ライセンス: Link先を確認
Olivier Jeunen, Aleksei Ustimenko, (参考訳) オフ・ポリティクスのパラダイムは、リコメンデーションを反ファクトな意思決定タスクとみなし、実践者はオフラインデータを使用してオンラインメトリクスを不公平に見積もることができる。 これは効果的な評価指標と、オンラインの成功を直接最適化する学習手順につながります。 それにもかかわらず、偏りが伴う高い分散は、通常、実践的な応用を複雑にするくちばしである。 重要な洞察は、政策値の違いが正の共分散を持つ場合、大きな分散を減らして推定されることがしばしばあるということである。 これにより、ペアワイズなオフポリティ推定タスクを定式化できます。 $\Delta\text{-}{\rm OPE}$は、確率的なロギングポリシによって収集されたデータを使用して、プロダクションポリシーに対する学習ポリシーの改善を推定する一般的なユースケースを仮定する。 Inverse Propensity Scoring estimatorとその拡張をベースにした$\Delta\text{-}{\rm OPE}$メソッドを紹介した。 さらに,より効率を向上する分散最適加法制御バリアイトを特徴付ける。 シミュレーション,オフライン,オンライン実験により,本手法は評価タスクと学習タスクの両方のパフォーマンスを著しく向上させることが示された。

The off-policy paradigm casts recommendation as a counterfactual decision-making task, allowing practitioners to unbiasedly estimate online metrics using offline data. This leads to effective evaluation metrics, as well as learning procedures that directly optimise online success. Nevertheless, the high variance that comes with unbiasedness is typically the crux that complicates practical applications. An important insight is that the difference between policy values can often be estimated with significantly reduced variance, if said policies have positive covariance. This allows us to formulate a pairwise off-policy estimation task: $\Delta\text{-}{\rm OPE}$. $\Delta\text{-}{\rm OPE}$ subsumes the common use-case of estimating improvements of a learnt policy over a production policy, using data collected by a stochastic logging policy. We introduce $\Delta\text{-}{\rm OPE}$ methods based on the widely used Inverse Propensity Scoring estimator and its extensions. Moreover, we characterise a variance-optimal additive control variate that further enhances efficiency. Simulated, offline, and online experiments show that our methods significantly improve performance for both evaluation and learning tasks.
翻訳日:2024-05-17 14:22:13 公開日:2024-05-16
# 再度聞き取り, 正しい答えを選択する: 大規模言語モデルを用いた音声認識のための新しいパラダイム

Listen Again and Choose the Right Answer: A New Paradigm for Automatic Speech Recognition with Large Language Models ( http://arxiv.org/abs/2405.10025v1 )

ライセンス: Link先を確認
Yuchen Hu, Chen Chen, Chengwei Qin, Qiushi Zhu, Eng Siong Chng, Ruizhe Li, (参考訳) 大規模言語モデル (LLM) の最近の進歩は, 自動音声認識 (ASR) のための生成誤り訂正 (GER) を推進し, 復号されたN-best仮説から基底構造転写を予測することを目的としている。 LLMの強い言語生成能力とN-bestリストの豊富な情報のおかげで、GERはASR結果の強化に大きな効果を示す。 しかし、それはまだ2つの制限に悩まされている。 1) LLM は GER 中の元音声を意識せず, 文法的に正しいが元音声の内容に反する結果をもたらす可能性がある。 2) N-best仮説は、通常、いくつかのトークンでのみ異なるため、すべてのトークンをGERに送信することは冗長である。 本稿では,ASR生成誤り訂正のための新しいパラダイムであるClozeGERを提案する。 まず、補正出力の忠実度を改善するために、ソース音声を付加入力として受信するマルチモーダルLLM(SpeechGPT)を導入する。 そして、GERをロジット校正によるクローゼテストとして再構築し、入力情報の冗長性を除去し、明確な指示でGERを単純化する。 実験によると、ClozeGERは9つの人気のあるASRデータセット上で、バニラGERに対する新たなブレークスルーを達成する。

Recent advances in large language models (LLMs) have promoted generative error correction (GER) for automatic speech recognition (ASR), which aims to predict the ground-truth transcription from the decoded N-best hypotheses. Thanks to the strong language generation ability of LLMs and rich information in the N-best list, GER shows great effectiveness in enhancing ASR results. However, it still suffers from two limitations: 1) LLMs are unaware of the source speech during GER, which may lead to results that are grammatically correct but violate the source speech content, 2) N-best hypotheses usually only vary in a few tokens, making it redundant to send all of them for GER, which could confuse LLM about which tokens to focus on and thus lead to increased miscorrection. In this paper, we propose ClozeGER, a new paradigm for ASR generative error correction. First, we introduce a multimodal LLM (i.e., SpeechGPT) to receive source speech as extra input to improve the fidelity of correction output. Then, we reformat GER as a cloze test with logits calibration to remove the input information redundancy and simplify GER with clear instructions. Experiments show that ClozeGER achieves a new breakthrough over vanilla GER on 9 popular ASR datasets.
翻訳日:2024-05-17 14:22:13 公開日:2024-05-16
# マルチクラス分類における帯域情報の真価

The Real Price of Bandit Information in Multiclass Classification ( http://arxiv.org/abs/2405.10027v1 )

ライセンス: Link先を確認
Liad Erez, Alon Cohen, Tomer Koren, Yishay Mansour, Shay Moran, (参考訳) 我々は,帯域幅フィードバック(Kakade,Shalev-Shwartz,Tewari,2008)によるマルチクラス分類の古典的問題を再検討し,各入力がK$可能なラベルの1つに分類し,予測されたラベルが正しいか否かに限定する。 我々の第一の質問は、ラベルの数への依存についてであり、既存のアルゴリズムが示す$\smash{\sqrt{KT}}$依存を超えて、この設定における$T$-stepの後悔境界を改善することができるかどうかである。 バンディット・マルチクラスのミニマックスの後悔は、実際にはよりニュアンスなものであり、$\smash{\widetilde{\Theta}\left(\min \left\{|\mathcal{H}| + \sqrt{T}, \sqrt{KT \log |{\mathcal{H}|}} \right\} \right) }$である。 特に、後悔の$\smash{\widetilde{O}(|\mathcal{H}|+\sqrt{T})}$を保証し、中等度な仮説クラスに対する古典的アルゴリズムを改良し、全てのパラメータ規則における上限(対数要素まで)の厳密性を一致する下界を与える新しい帯域分類アルゴリズムを提案する。

We revisit the classical problem of multiclass classification with bandit feedback (Kakade, Shalev-Shwartz and Tewari, 2008), where each input classifies to one of $K$ possible labels and feedback is restricted to whether the predicted label is correct or not. Our primary inquiry is with regard to the dependency on the number of labels $K$, and whether $T$-step regret bounds in this setting can be improved beyond the $\smash{\sqrt{KT}}$ dependence exhibited by existing algorithms. Our main contribution is in showing that the minimax regret of bandit multiclass is in fact more nuanced, and is of the form $\smash{\widetilde{\Theta}\left(\min \left\{|\mathcal{H}| + \sqrt{T}, \sqrt{KT \log |{\mathcal{H}|}} \right\} \right) }$, where $\mathcal{H}$ is the underlying (finite) hypothesis class. In particular, we present a new bandit classification algorithm that guarantees regret $\smash{\widetilde{O}(|\mathcal{H}|+\sqrt{T})}$, improving over classical algorithms for moderately-sized hypothesis classes, and give a matching lower bound establishing tightness of the upper bounds (up to log-factors) in all parameter regimes.
翻訳日:2024-05-17 14:22:13 公開日:2024-05-16
# RSDehamba:リモートセンシング衛星画像デハジングのための軽量ビジョンマンバ

RSDehamba: Lightweight Vision Mamba for Remote Sensing Satellite Image Dehazing ( http://arxiv.org/abs/2405.10030v1 )

ライセンス: Link先を確認
Huiling Zhou, Xianhao Wu, Hongming Chen, Xiang Chen, Xin He, (参考訳) リモートセンシング画像デハージング(RSID)は、高品質な画像復元のための不均一かつ物理的に不規則なヘイズ要素を取り除くことを目的としている。 CNNとトランスフォーマーの出現は、RSIDアリーナにおいて異例の進歩を遂げた。 しかしながら、これらの手法は、適切な長距離依存性モデリングと計算効率の維持のバランスを示すのに苦労することが多い。 そこで本研究では,RSID の分野では RSDhamba と呼ばれる,マンバモデルを用いた最初の軽量ネットワークを提案する。 SSM(Selective State Space Model)は、線形複雑性とリモート依存関係をモデル化する上で優れた性能を持つため、最近登場したSSM(Selective State Space Model)にインスパイアされた私たちの設計したRSDehambaは、SSMフレームワークをU-Netアーキテクチャに統合しています。 具体的には,SSMの線形複雑度を利用してグローバルなコンテキスト符号化を実現するビジョンデハンバブロック(VDB)を提案する。 同時に、DSM(Direction-Aware Scan Module)は、異なる方向領域上の特徴交換を動的に集約し、空間的に変化するヘイズ分布を検知する柔軟性を効果的に向上するように設計されている。 このようにして、我々のRSDhambaは、空間的距離キャプチャ依存性とチャネル情報交換の優位性を十分に証明し、ヘイズ特徴のより優れた抽出を行う。 広範に使用されているベンチマークの大規模な実験結果から,既存の最先端手法に対するRSDehambaの超過性能が検証された。

Remote sensing image dehazing (RSID) aims to remove nonuniform and physically irregular haze factors for high-quality image restoration. The emergence of CNNs and Transformers has taken extraordinary strides in the RSID arena. However, these methods often struggle to demonstrate the balance of adequate long-range dependency modeling and maintaining computational efficiency. To this end, we propose the first lightweight network on the mamba-based model called RSDhamba in the field of RSID. Greatly inspired by the recent rise of Selective State Space Model (SSM) for its superior performance in modeling linear complexity and remote dependencies, our designed RSDehamba integrates the SSM framework into the U-Net architecture. Specifically, we propose the Vision Dehamba Block (VDB) as the core component of the overall network, which utilizes the linear complexity of SSM to achieve the capability of global context encoding. Simultaneously, the Direction-aware Scan Module (DSM) is designed to dynamically aggregate feature exchanges over different directional domains to effectively enhance the flexibility of sensing the spatially varying distribution of haze. In this way, our RSDhamba fully demonstrates the superiority of spatial distance capture dependencies and channel information exchange for better extraction of haze features. Extensive experimental results on widely used benchmarks validate the surpassing performance of our RSDehamba against existing state-of-the-art methods.
翻訳日:2024-05-17 14:22:13 公開日:2024-05-16
# 振動関数を含む放射積分の評価における複素GTOの利用について

On the use of complex GTOs for the evaluation of radial integrals involving oscillating functions ( http://arxiv.org/abs/2405.10032v1 )

ライセンス: Link先を確認
Abdallah Ammar, Arnaud Leclerc, Lorenzo Ugo Ancarani, (参考訳) 我々は、有界および連続的な一電子状態の積を含む放射積分の2つのクラスを研究する。 複素ガウス型軌道上の拡張を伴う連続部分の表現を用いて、そのような積分を解析的に行うことができる。 低エネルギー物理パラメータに対するこのスキームの信頼性について検討する。 本研究は分子散乱過程における潜在的な応用の前提として機能する。

We study two classes of radial integrals involving a product of bound and continuum one-electron states. Using a representation of the continuum part with an expansion on complex Gaussian Type Orbitals, such integrals can be performed analytically. We investigate the reliability of this scheme for low-energy physical parameters. This study serves as a premise in view of potential applications in molecular scattering processes.
翻訳日:2024-05-17 14:22:13 公開日:2024-05-16
# 差相シフト量子鍵分布における鍵レートのタイトスケーリング

Tight scaling of key rate for differential-phase-shift quantum key distribution ( http://arxiv.org/abs/2405.10033v1 )

ライセンス: Link先を確認
Akihiro Mizutani, Toyohiro Tsurumaru, (参考訳) 実装の容易さと鍵生成率に基づいて量子鍵分布(QKD)プロトコルの性能を評価する。 主要なプロトコルの中で、差動位相シフト(DPS)プロトコルは、コヒーレントパルス列と受動的検出ユニットを用いた単純な実装の利点がある。 しかし残念なことに、その鍵レートは少なくとも$\eta^2$に比例することが知られている。 もし$\eta^2$に比例する率しか証明できず、それ以上の分析を改善できないとすれば、DPSプロトコルはデコイBB84プロトコルのような他の主要なプロトコルよりも劣ると見なされる。 本稿では、$n$のパルスからなる各出力ブロックの位相をランダム化し、そのキーレートを著しく改善するDPSプロトコルについて考察する。 具体的には、キーレートが$\eta^{1+\frac{1}{n-2}}$に比例していることを明らかにする。 これは、DPSプロトコルが、デコイBB84プロトコルと同じスケーリングである大量の$n$に対して$\eta$に比例したキーレートを達成することができることを意味する。 以上の結果から,DPSプロトコルは実装の容易さとキー生成率の両立が可能であることが示唆された。

The performance of quantum key distribution (QKD) protocols is evaluated based on the ease of implementation and key generation rate. Among major protocols, the differential-phase-shift (DPS) protocol has the advantage of simple implementation using a train of coherent pulses and a passive detection unit. Unfortunately, however, its key rate is known to be at least proportional to $\eta^2$ with respect to channel transmission $\eta\to0$. If one can only prove the rate proportional to $\eta^2$ and cannot improve the analysis beyond that, then the DPS protocol will be deemed inferior to other major protocols, such as the decoy BB84 protocol. In this paper, we consider a type of DPS protocol in which the phase of each emitted block comprising $n$ pulses is randomized and significantly improve the analysis of its key rate. Specifically, we reveal that the key rate is proportional to $\eta^{1+\frac{1}{n-2}}$ and this rate is tight. This implies that the DPS protocol can achieve a key rate proportional to $\eta$ for a large number of $n$, which is the same scaling as the decoy BB84 protocol. Our result suggests that the DPS protocol can achieve a combination of both advantages of ease of implementation and a high key generation rate.
翻訳日:2024-05-17 14:22:13 公開日:2024-05-16
# イベントストリーム超解法におけるバイラテラルイベントマイニングと補完

Bilateral Event Mining and Complementary for Event Stream Super-Resolution ( http://arxiv.org/abs/2405.10037v1 )

ライセンス: Link先を確認
Zhilin Huang, Quanmin Liang, Yijie Yu, Chujun Qin, Xiawu Zheng, Kai Huang, Zikun Zhou, Wenming Yang, (参考訳) Event Stream Super-Resolution (ESR)は、イベントストリームにおける空間分解能の不足に対処することを目的としている。 以前のESRの作業は、しばしば混合パラダイムで正および負のイベントを処理する。 このパラダイムは、各事象の特徴を効果的にモデル化し、相互に相互に相互に相互に相互に相互に関連性を考慮する能力を制限する。 本稿では,両イベントマイニング・補完ネットワーク(BMCNet)を提案する。 具体的には、各イベントの総合的なマイニングを個別に行うために、2ストリームネットワークを利用する。 本研究では,2つのストリーム間の情報交換を容易にするために,双方向情報交換(BIE)モジュールを提案する。 このモジュールは2つのストリーム間に階層的に埋め込まれており、イベント固有の特性によってもたらされる無効な情報の影響を緩和しつつ、階層的なグローバル情報の効果的な伝播を可能にする。 実験の結果,本手法はESRの従来の最先端手法よりも優れており,実データと合成データの両方で11倍以上の性能向上を実現していることがわかった。 さらに,本手法は,オブジェクト認識やビデオ再構成などのイベントベース下流タスクの性能を大幅に向上させる。 私たちのコードはhttps://github.com/Lqm26/BMCNet-ESR.comで公開されています。

Event Stream Super-Resolution (ESR) aims to address the challenge of insufficient spatial resolution in event streams, which holds great significance for the application of event cameras in complex scenarios. Previous works for ESR often process positive and negative events in a mixed paradigm. This paradigm limits their ability to effectively model the unique characteristics of each event and mutually refine each other by considering their correlations. In this paper, we propose a bilateral event mining and complementary network (BMCNet) to fully leverage the potential of each event and capture the shared information to complement each other simultaneously. Specifically, we resort to a two-stream network to accomplish comprehensive mining of each type of events individually. To facilitate the exchange of information between two streams, we propose a bilateral information exchange (BIE) module. This module is layer-wisely embedded between two streams, enabling the effective propagation of hierarchical global information while alleviating the impact of invalid information brought by inherent characteristics of events. The experimental results demonstrate that our approach outperforms the previous state-of-the-art methods in ESR, achieving performance improvements of over 11\% on both real and synthetic datasets. Moreover, our method significantly enhances the performance of event-based downstream tasks such as object recognition and video reconstruction. Our code is available at https://github.com/Lqm26/BMCNet-ESR.
翻訳日:2024-05-17 14:22:13 公開日:2024-05-16
# SynthesizRR: Retrieval Augmentation を用いた分散データセットの生成

SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation ( http://arxiv.org/abs/2405.10040v1 )

ライセンス: Link先を確認
Abhishek Divekar, Greg Durrett, (参考訳) 大規模言語モデル(LLM)は汎用性が高く、多くのタスクに対処できるが、計算効率ではより小さな学生モデルにその能力を抽出することが望ましい。 分類タスクでこれを行う方法の1つはデータセット合成であり、LLMから各ラベルの例を生成することで達成できる。 合成への以前のアプローチでは、LLMのパラメトリック知識に頼って使用可能な例を生成する、ほとんどショットプロンプトを使用する。 しかし、これは繰り返しの問題、ポピュラーな実体への偏見、そして人間の文章と様式的な違いをもたらす。 本稿では,検索拡張を用いてデータセット合成プロセスに多様性を導入するSynthesize by Retrieval and Refinement (SynthesizRR)を提案する。 我々は6つのデータセットの合成を経験的に研究し、トピック分類、感情分析、トーン検出、ユーモアをカバーし、複雑な合成戦略を必要とする。 従来の32ショットプロンプトと6つのベースラインアプローチと比較して,SynthesizRRは語彙的および意味的多様性,人文テキストとの類似性,蒸留性能を大幅に改善する。

Large language models (LLMs) are versatile and can address many tasks, but for computational efficiency, it is often desirable to distill their capabilities into smaller student models. One way to do this for classification tasks is via dataset synthesis, which can be accomplished by generating examples of each label from the LLM. Prior approaches to synthesis use few-shot prompting, which relies on the LLM's parametric knowledge to generate usable examples. However, this leads to issues of repetition, bias towards popular entities, and stylistic differences from human text. In this work, we propose Synthesize by Retrieval and Refinement (SynthesizRR), which uses retrieval augmentation to introduce variety into the dataset synthesis process: as retrieved passages vary, the LLM is "seeded" with different content to generate its examples. We empirically study the synthesis of six datasets, covering topic classification, sentiment analysis, tone detection, and humor, requiring complex synthesis strategies. We find SynthesizRR greatly improves lexical and semantic diversity, similarity to human-written text, and distillation performance, when compared to standard 32-shot prompting and six baseline approaches.
翻訳日:2024-05-17 14:22:13 公開日:2024-05-16
# ラベル効率の良いセグメンテーションによる植物科学における葉弁の階層構造解明:データセットと方法

Revealing Hierarchical Structure of Leaf Venations in Plant Science via Label-Efficient Segmentation: Dataset and Method ( http://arxiv.org/abs/2405.10041v1 )

ライセンス: Link先を確認
Weizhen Liu, Ao Li, Ze Wu, Yue Li, Baobin Ge, Guangyu Lan, Shilin Chen, Minghe Li, Yunfei Liu, Xiaohui Yuan, Nanqing Dong, (参考訳) ヒエラルキーの葉脈分画は農業科学において重要であるが、未調査の課題であり、植物の葉弁の階層構造の解析は植物の育種に寄与する。 現在のセグメンテーション技術はデータ駆動モデルに依存しているが、階層的な葉静脈セグメンテーションに特化したデータセットは公開されていない。 このギャップに対処するために、最初のパブリックな階層的な葉静脈分割データセットであるHierArchical Leaf Vein Segmentation (HALVS)データセットを紹介した。 HALVSは、ダイズ、サツマイモ、ロンドン平面樹の3種から収集された5,057個の実スキャンされた高解像度の葉画像からなる。 また、3桁の葉脈に対して人間に注釈を付けた真実も含み、合計で83.8日間のラベル付けがされている。 HALVSをベースとして,部分的なラベル情報,すなわち第3次静脈のアノテーションの欠如を利用したラベル効率の学習パラダイムをさらに発展させる。 HALVSで実証的研究が行われ、葉脈分画の新しい観察、課題、研究の方向性が明らかにされた。

Hierarchical leaf vein segmentation is a crucial but under-explored task in agricultural sciences, where analysis of the hierarchical structure of plant leaf venation can contribute to plant breeding. While current segmentation techniques rely on data-driven models, there is no publicly available dataset specifically designed for hierarchical leaf vein segmentation. To address this gap, we introduce the HierArchical Leaf Vein Segmentation (HALVS) dataset, the first public hierarchical leaf vein segmentation dataset. HALVS comprises 5,057 real-scanned high-resolution leaf images collected from three plant species: soybean, sweet cherry, and London planetree. It also includes human-annotated ground truth for three orders of leaf veins, with a total labeling effort of 83.8 person-days. Based on HALVS, we further develop a label-efficient learning paradigm that leverages partial label information, i.e. missing annotations for tertiary veins. Empirical studies are performed on HALVS, revealing new observations, challenges, and research directions on leaf vein segmentation.
翻訳日:2024-05-17 14:22:13 公開日:2024-05-16
# グローバルベンチマークデータベース

Global Benchmark Database ( http://arxiv.org/abs/2405.10045v1 )

ライセンス: Link先を確認
Markus Iser, Christoph Jabs, (参考訳) 本稿では,Global Benchmark Database(GBD)について述べる。 ベンチマークメタデータの可用性は、例えば、ベンチマークのデータ駆動コンパイル、ランタイム実験のドメイン固有の分析、ソルバのインスタンス固有の選択など、経験的な研究において多くのタスクに不可欠である。 本稿では,GBDのデータモデルとそのインタフェースについて紹介し,それらとのインタラクションの例を示す。 また、カスタムデータソースの統合を実演し、GBDを新たな問題領域、インスタンス形式、特徴抽出器で拡張する方法を説明します。

This paper presents Global Benchmark Database (GBD), a comprehensive suite of tools for provisioning and sustainably maintaining benchmark instances and their metadata. The availability of benchmark metadata is essential for many tasks in empirical research, e.g., for the data-driven compilation of benchmarks, the domain-specific analysis of runtime experiments, or the instance-specific selection of solvers. In this paper, we introduce the data model of GBD as well as its interfaces and provide examples of how to interact with them. We also demonstrate the integration of custom data sources and explain how to extend GBD with additional problem domains, instance formats and feature extractors.
翻訳日:2024-05-17 14:22:13 公開日:2024-05-16
# 長距離におけるLiDARセマンティックセマンティックセグメンテーション改善のための前処理と後処理Voxel-based法

A Preprocessing and Postprocessing Voxel-based Method for LiDAR Semantic Segmentation Improvement in Long Distance ( http://arxiv.org/abs/2405.10046v1 )

ライセンス: Link先を確認
Andrea Matteazzi, Pascal Colling, Michael Arnold, Dietmar Tutsch, (参考訳) 近年、LiDARセマンティックセマンティックセグメンテーションの研究が行われ、いくつかの新しい最先端モデルが導入された。 しかし、ほとんどの研究は単一走査点雲に焦点をあてており、特に長距離屋外のシナリオでは、時系列情報を省略することで性能を制限している。 さらに、異なる密度とオクルージョンは、シングルスキャンアプローチにおいて重要な課題となっている。 本稿では,LiDARポイントクラウド前処理および後処理手法を提案する。 このマルチステージアプローチは、最先端のモデルをマルチスキャン環境で組み合わせて、これらの課題を解決することを目的としている。 本手法の利点は, 与えられたモデルを用いた定量的評価により, シングルスキャン設定で示す。 特に,中距離においてmIoU性能が5ポイント以上,遠距離において10ポイント以上向上した。 これは3Dセマンティックシーンを長距離で理解するだけでなく、オフライン処理が許容できるアプリケーションにも不可欠である。

In recent years considerable research in LiDAR semantic segmentation was conducted, introducing several new state of the art models. However, most research focuses on single-scan point clouds, limiting performance especially in long distance outdoor scenarios, by omitting time-sequential information. Moreover, varying-density and occlusions constitute significant challenges in single-scan approaches. In this paper we propose a LiDAR point cloud preprocessing and postprocessing method. This multi-stage approach, in conjunction with state of the art models in a multi-scan setting, aims to solve those challenges. We demonstrate the benefits of our method through quantitative evaluation with the given models in single-scan settings. In particular, we achieve significant improvements in mIoU performance of over 5 percentage point in medium range and over 10 percentage point in far range. This is essential for 3D semantic scene understanding in long distance as well as for applications where offline processing is permissible.
翻訳日:2024-05-17 14:22:13 公開日:2024-05-16
# MarkLLM: LLMウォーターマーキングのためのオープンソースツールキット

MarkLLM: An Open-Source Toolkit for LLM Watermarking ( http://arxiv.org/abs/2405.10051v1 )

ライセンス: Link先を確認
Leyi Pan, Aiwei Liu, Zhiwei He, Zitian Gao, Xuandong Zhao, Yijian Lu, Binglin Zhou, Shuliang Liu, Xuming Hu, Lijie Wen, Irwin King, (参考訳) LLMの透かしは、LLM生成したテキストを識別するために、モデル出力に認識できないがアルゴリズムで検出可能な信号を埋め込んでおり、大きな言語モデルの潜在的な誤用を緩和するのに重要である。 しかし、LLM透かしアルゴリズムの豊富さ、複雑なメカニズム、複雑な評価手順や視点は、研究者やコミュニティにとって、最新の進歩を容易に実験し、理解し、評価するための課題となる。 これらの問題に対処するため,LLMウォーターマーキングのためのオープンソースのツールキットであるMarkLLMを紹介した。 MarkLLMは、LLMウォーターマーキングアルゴリズムを実装するための統一的で拡張可能なフレームワークを提供し、アクセスの容易さを保証するユーザフレンドリーなインターフェースを提供する。 さらに、これらのアルゴリズムの基盤となるメカニズムを自動視覚化することで理解を深める。 評価のために、MarkLLMは3つの視点にまたがる12のツールと、2種類の自動評価パイプラインを提供する。 我々はMarkLLMを通じて、LLM透かし技術における一般大衆の理解と関与を改善し、コンセンサスを育み、研究と応用のさらなる進歩を推進しつつ、研究者を支援することを目指している。 私たちのコードはhttps://github.com/THU-BPM/MarkLLM.orgで公開されています。

LLM watermarking, which embeds imperceptible yet algorithmically detectable signals in model outputs to identify LLM-generated text, has become crucial in mitigating the potential misuse of large language models. However, the abundance of LLM watermarking algorithms, their intricate mechanisms, and the complex evaluation procedures and perspectives pose challenges for researchers and the community to easily experiment with, understand, and assess the latest advancements. To address these issues, we introduce MarkLLM, an open-source toolkit for LLM watermarking. MarkLLM offers a unified and extensible framework for implementing LLM watermarking algorithms, while providing user-friendly interfaces to ensure ease of access. Furthermore, it enhances understanding by supporting automatic visualization of the underlying mechanisms of these algorithms. For evaluation, MarkLLM offers a comprehensive suite of 12 tools spanning three perspectives, along with two types of automated evaluation pipelines. Through MarkLLM, we aim to support researchers while improving the comprehension and involvement of the general public in LLM watermarking technology, fostering consensus and driving further advancements in research and application. Our code is available at https://github.com/THU-BPM/MarkLLM.
翻訳日:2024-05-17 14:22:13 公開日:2024-05-16
# 深部ニューラルネットワークを用いた量子圧縮センシングトモグラフィの改良

Deep Neural Network-assisted improvement of quantum compressed sensing tomography ( http://arxiv.org/abs/2405.10052v1 )

ライセンス: Link先を確認
Adriano Macarone-Palmieri, Leonardo Zambrano, Maciej Lewenstein, Antonio Acin, Donato Farina, (参考訳) 量子圧縮センシングは、情報不完全症例における低ランク密度マトリックストモグラフィー再構成の基本的なツールである。 得られた情報が十分でない状況において、正確な圧縮されたセンシング再構成が得られるかを検討する。 このシナリオでは、圧縮センシングによる初期再構成を改善するために、ディープニューラルネットワークに基づく後処理を提案する。 その考え方は、推定状態がネットワークのノイズの多い入力として扱われ、深い教師付き認知タスクを実行することである。 ネットワークの適用後、実現可能な密度行列の空間への投影を行い、改良された最終状態推定を得る。 数値実験により,デノナイジング法により得られた改善を実演し,推論スキームをループ化してさらなる優位性を得る可能性を生かした。 最後に,アウト・オブ・ディストリビューションデータに対するアプローチのレジリエンスをテストする。

Quantum compressed sensing is the fundamental tool for low-rank density matrix tomographic reconstruction in the informationally incomplete case. We examine situations where the acquired information is not enough to allow one to obtain a precise compressed sensing reconstruction. In this scenario, we propose a Deep Neural Network-based post-processing to improve the initial reconstruction provided by compressed sensing. The idea is to treat the estimated state as a noisy input for the network and perform a deep-supervised denoising task. After the network is applied, a projection onto the space of feasible density matrices is performed to obtain an improved final state estimation. We demonstrate through numerical experiments the improvement obtained by the denoising process and exploit the possibility of looping the inference scheme to obtain further advantages. Finally, we test the resilience of the approach to out-of-distribution data.
翻訳日:2024-05-17 14:12:27 公開日:2024-05-16
# SHiNe:オープンボキャブラリオブジェクト検出のためのセマンティック階層Nexus

SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection ( http://arxiv.org/abs/2405.10053v1 )

ライセンス: Link先を確認
Mingxuan Liu, Tyler L. Hayes, Elisa Ricci, Gabriela Csurka, Riccardo Volpi, (参考訳) Open-vocabulary Object Detection (OvOD) は言語誘導タスクに変換され、ユーザーは推論中に興味のあるクラス語彙を自由に定義できるようになる。 しかし,本研究では,既存のOvOD検出器が様々な意味的粒度にまたがる語彙を扱う際に大きな変動を示し,実世界の展開に懸念を抱いていることを示唆している。 この目的のために,セマンティック階層Nexus(SHiNe)を紹介した。 3つのステップでオフラインで実行されます。 一 対象クラスの階層から関連するスーパー/サブカテゴリを検索すること。 二 これらの分類を階層対応の文に統合すること。 三 この文の埋め込みを融合させ、ネクサス分類器ベクターを生成すること。 各種検出ベンチマークによる評価から,SHiNeは多種多様な語彙の粒度にまたがって頑健性を向上し,+31.9%のmAP50を基底的真理階層で達成し,大規模言語モデルで生成した階層による改善を維持した。 さらに、ImageNet-1kのオープン語彙分類に適用すると、SHiNeはCLIPゼロショットベースラインを+2.8%精度で改善する。 SHiNeはトレーニング不要であり、推論中にさらなる計算オーバーヘッドを発生させることなく、市販のOvOD検出器とシームレスに統合することができる。 コードはオープンソースです。

Open-vocabulary object detection (OvOD) has transformed detection into a language-guided task, empowering users to freely define their class vocabularies of interest during inference. However, our initial investigation indicates that existing OvOD detectors exhibit significant variability when dealing with vocabularies across various semantic granularities, posing a concern for real-world deployment. To this end, we introduce Semantic Hierarchy Nexus (SHiNe), a novel classifier that uses semantic knowledge from class hierarchies. It runs offline in three steps: i) it retrieves relevant super-/sub-categories from a hierarchy for each target class; ii) it integrates these categories into hierarchy-aware sentences; iii) it fuses these sentence embeddings to generate the nexus classifier vector. Our evaluation on various detection benchmarks demonstrates that SHiNe enhances robustness across diverse vocabulary granularities, achieving up to +31.9% mAP50 with ground truth hierarchies, while retaining improvements using hierarchies generated by large language models. Moreover, when applied to open-vocabulary classification on ImageNet-1k, SHiNe improves the CLIP zero-shot baseline by +2.8% accuracy. SHiNe is training-free and can be seamlessly integrated with any off-the-shelf OvOD detector, without incurring additional computational overhead during inference. The code is open source.
翻訳日:2024-05-17 14:12:27 公開日:2024-05-16
# 安定LPV系に対する有限サンプル一般化

A finite-sample generalization bound for stable LPV systems ( http://arxiv.org/abs/2405.10054v1 )

ライセンス: Link先を確認
Daniel Racz, Martin Gonzalez, Mihaly Petreczky, Andras Benczur, Balint Daroczy, (参考訳) データから力学系を学習する際の主要な理論的課題の1つは、一般化誤差、すなわち、期待される予測誤差と、ある有限標本で測定された経験的予測誤差との差について上限を与えることである。 機械学習において、そのような境界の一般的なクラスは、いわゆる確率近似境界(英語版)(Probably Aough Correct、PAC)である。 本稿では,安定な連続時間線形パラメータ変動(LPV)システムに対するPACバウンダリを導出する。 我々の境界は、選択されたLPV系のH2ノルムに依存するが、信号が考慮される時間間隔に依存しない。

One of the main theoretical challenges in learning dynamical systems from data is providing upper bounds on the generalization error, that is, the difference between the expected prediction error and the empirical prediction error measured on some finite sample. In machine learning, a popular class of such bounds are the so-called Probably Approximately Correct (PAC) bounds. In this paper, we derive a PAC bound for stable continuous-time linear parameter-varying (LPV) systems. Our bound depends on the H2 norm of the chosen class of the LPV systems, but does not depend on the time interval for which the signals are considered.
翻訳日:2024-05-17 14:12:27 公開日:2024-05-16
# ケットとは何か?

What are kets? ( http://arxiv.org/abs/2405.10055v1 )

ライセンス: Link先を確認
Yuri Gurevich, Andreas Blass, (参考訳) ディラックのブラケット表記によれば、内積空間において、内積 $\langle x\,|\,y\rangle$ of vectors $x,y$ は bra $\langle x|$ to the ket $|y\rangle$ の応用と見なすことができる。 ここで、$\langle x|$ は線型汎函数 $|y\rangle \mapsto \langle x\,|\,y\rangle$ であり、$|y\rangle$ はベクトル $y$ である。 しかし、しばしば(必ずしもそうではないが)、$|y\rangle$を関数 $a \mapsto a\cdot y$ として見る利点がある。 例えば、外積 $|y\rangle\langle x|$ は単に合成 $|y\rangle \circ \langle x|$ となる。 ケットをベクトルとして、時には関数として、コンテキストによって見るのが一番便利だろう。 これが可能であることが判明した。 ブラケット表記は量子力学において現れるが、このメモは量子力学に精通していないことを前提としている。

According to Dirac's bra-ket notation, in an inner-product space, the inner product $\langle x\,|\,y\rangle$ of vectors $x,y$ can be viewed as an application of the bra $\langle x|$ to the ket $|y\rangle$. Here $\langle x|$ is the linear functional $|y\rangle \mapsto \langle x\,|\,y\rangle$ and $|y\rangle$ is the vector $y$. But often -- though not always -- there are advantages in seeing $|y\rangle$ as the function $a \mapsto a\cdot y$ where $a$ ranges over the scalars. For example, the outer product $|y\rangle\langle x|$ becomes simply the composition $|y\rangle \circ \langle x|$. It would be most convenient to view kets sometimes as vectors and sometimes as functions, depending on the context. This turns out to be possible. While the bra-ket notation arose in quantum mechanics, this note presupposes no familiarity with quantum mechanics.
翻訳日:2024-05-17 14:12:27 公開日:2024-05-16
# コルーチンとしてのタイピング要求モデル

Typing Requirement Model as Coroutines ( http://arxiv.org/abs/2405.10060v1 )

ライセンス: Link先を確認
Qiqi Gu, Wei Ke, (参考訳) モデル駆動工学(MDE)は、ソフトウェア開発の生産性を高め、重要なシステムの安全性を確保することを目的とした技術である。 MDEの中心は、高レベルの要求モデルを実行可能なコードに洗練することである。 要求モデルが開発プロセス全体の基盤となることを考えると、その正確性を保証することが重要です。 RM2PTは、要求モデリングにREModel言語を使用する、広く使われているMDEプラットフォームである。 REModelにはUMLシーケンス図を含むコントラクトセクションやその他のセクションが含まれている。 本稿では,コルーチンの受信部と取得部として,要求モデルにおける契約区間の事前条件と後条件を表すコルーチン型システムを提案する。 型システムはコルーチン型を構成することができ、ユーザーはシステム全体として関数を閲覧し、集合的な振る舞いをチェックすることができる。 これにより、型システムは、それで定義された契約が、付随するシーケンス図で概説されているように実行されることを保証します。 RM2PTによる4つのケーススタディを用いて,モデルの精度を検証した。

Model-Driven Engineering (MDE) is a technique that aims to boost productivity in software development and ensure the safety of critical systems. Central to MDE is the refinement of high-level requirement models into executable code. Given that requirement models form the foundation of the entire development process, ensuring their correctness is crucial. RM2PT is a widely used MDE platform that employs the REModel language for requirement modeling. REModel contains contract sections and other sections including a UML sequence diagram. This paper contributes a coroutine-based type system that represents pre- and post-conditions in the contract sections in a requirement model as the receiving and yielding parts of coroutines, respectively. The type system is capable of composing coroutine types, so that users can view functions as a whole system and check their collective behavior. By doing so, our type system ensures that the contracts defined in it are executed as outlined in the accompanied sequence diagram. We assessed our approach using four case studies provided by RM2PT, validating the accuracy of the models.
翻訳日:2024-05-17 14:12:27 公開日:2024-05-16
# 結合不規則スピン鎖における多体局在の現象

Phenomenology of many-body localization in bond-disordered spin chains ( http://arxiv.org/abs/2405.10062v1 )

ライセンス: Link先を確認
Adith Sai Aramthottil, Piotr Sierant, Maciej Lewenstein, Jakub Zakrzewski, (参考訳) 多体局在(MBL)は、強い障害の存在下での量子多体系の熱化を妨げる。 本研究では, スピン-1/2 XXZスピン鎖のMBL状態について検討し, 固有状態におけるエンタングルメントエントロピーのマルチモーダル分布, ポアソニアン準位統計値, 系の時間進化における熱化の分解を調べるために必要な演算子と初期状態の関係を明らかにする。 実空間再正規化群スキームを用いて、MBL体制のこれらの現象学的特徴を同定し、オンサイト演算子と結合した障害のあるシステムに関連する運動の局所積分の標準的な図像を超えて拡張する。 本研究は, 結合不規則スピン鎖におけるMBLの実験的探索の道を開くものである。

Many-body localization (MBL) hinders the thermalization of quantum many-body systems in the presence of strong disorder. In this work, we study the MBL regime in bond-disordered spin-1/2 XXZ spin chain, finding the multimodal distribution of entanglement entropy in eigenstates, sub-Poissonian level statistics, and revealing a relation between operators and initial states required for examining the breakdown of thermalization in the time evolution of the system. We employ a real space renormalization group scheme to identify these phenomenological features of the MBL regime that extend beyond the standard picture of local integrals of motion relevant for systems with disorder coupled to on-site operators. Our results pave the way for experimental probing of MBL in bond-disordered spin chains.
翻訳日:2024-05-17 14:12:27 公開日:2024-05-16
# MrRegNet: 大規模な変形を伴う医用画像登録のためのマルチレゾリューションマスク誘導畳み込みニューラルネットワーク

MrRegNet: Multi-resolution Mask Guided Convolutional Neural Network for Medical Image Registration with Large Deformations ( http://arxiv.org/abs/2405.10068v1 )

ライセンス: Link先を確認
Ruizhe Li, Grazziela Figueredo, Dorothee Auer, Christian Wagner, Xin Chen, (参考訳) 変形可能な画像登録(アライメント)は、コンピュータ支援診断や疾患の進行分析など、多くの臨床応用に追われている。 ディープ畳み込みニューラルネットワーク(DCNN)に基づく画像登録法は、登録精度と計算速度の面で優位性を示している。 しかし、ほとんどの手法は、グローバルなアライメントにおいて優れているが、局所的なアライメントにおいて、より悪いパフォーマンスを発揮することが多い。 この課題に対処するため,MrRegNetという名前のDCNNを用いたマスク誘導型エンコーダデコーダの画像登録手法を提案する。 このアプローチでは、特徴抽出に多分解能エンコーダを用い、デコーダ内の多分解能変位場を推定して、画像の実質的な変形を処理する。 さらに、局所的な調整に向けてモデルの注意を向けるためにセグメンテーションマスクが使用される。 提案手法は,3次元脳MRIデータセット(OASIS)および局所2次元脳MRIデータセットにおいて,Demonsやよく知られた深層学習法であるVoxelMorphよりも優れた性能を示した。 重要なことは、セグメンテーションマスクでガイドされた局所領域において、画像アライメントの精度が大幅に向上することである。 Githubのリンク:https://github.com/ruizhe-l/MrRegNet.com

Deformable image registration (alignment) is highly sought after in numerous clinical applications, such as computer aided diagnosis and disease progression analysis. Deep Convolutional Neural Network (DCNN)-based image registration methods have demonstrated advantages in terms of registration accuracy and computational speed. However, while most methods excel at global alignment, they often perform worse in aligning local regions. To address this challenge, this paper proposes a mask-guided encoder-decoder DCNN-based image registration method, named as MrRegNet. This approach employs a multi-resolution encoder for feature extraction and subsequently estimates multi-resolution displacement fields in the decoder to handle the substantial deformation of images. Furthermore, segmentation masks are employed to direct the model's attention toward aligning local regions. The results show that the proposed method outperforms traditional methods like Demons and a well-known deep learning method, VoxelMorph, on a public 3D brain MRI dataset (OASIS) and a local 2D brain MRI dataset with large deformations. Importantly, the image alignment accuracies are significantly improved at local regions guided by segmentation masks. Github link:https://github.com/ruizhe-l/MrRegNet.
翻訳日:2024-05-17 14:12:27 公開日:2024-05-16
# HecVL:ゼロショット位相認識のための階層型ビデオ言語準備

HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition ( http://arxiv.org/abs/2405.10075v1 )

ライセンス: Link先を確認
Kun Yuan, Vinkle Srivastav, Nassir Navab, Nicolas Padoy, (参考訳) 自然言語は、原文からの幅広い監督源を提供することによって、一般的な外科的モデルの開発において重要な役割を果たす可能性がある。 このフレキシブルな形式の監視は、学習した視覚概念を参照したり、新しい概念を記述したりするために自然言語として、データセットやタスクをまたいだモデルの転送可能性を可能にする。 本稿では,汎用的な手術モデル構築のための階層型ビデオ言語事前学習手法であるHecVLを提案する。 具体的には,外科的講義ビデオと3つの階層的なテキストのペアリングにより,階層的なビデオテキストペアデータセットを構築する。クリップレベルでは,書き起こされた音声テキストを用いたアトミックアクション,フェーズレベルでは概念テキスト要約,ビデオレベルでは外科手術の抽象テキストである。 そこで,1つのモデルを用いて3つのビデオテキスト階層に対して,個別の埋め込み空間を学習する,より詳細なコントラスト学習フレームワークを提案する。 異なる階層レベルの埋め込み空間を分離することにより、学習されたマルチモーダル表現は、同じモデルにおける短期的および長期的な外科的概念を符号化する。 インジェクトされたテキストセマンティクスにより、HecVLアプローチは、人間のアノテーションを使わずにゼロショットの外科的位相認識を可能にすることを実証する。 また,同一のHecVLモデルを用いて,異なる外科手術や医療センターに転移することを示した。

Natural language could play an important role in developing generalist surgical models by providing a broad source of supervision from raw texts. This flexible form of supervision can enable the model's transferability across datasets and tasks as natural language can be used to reference learned visual concepts or describe new ones. In this work, we present HecVL, a novel hierarchical video-language pretraining approach for building a generalist surgical model. Specifically, we construct a hierarchical video-text paired dataset by pairing the surgical lecture video with three hierarchical levels of texts: at clip-level, atomic actions using transcribed audio texts; at phase-level, conceptual text summaries; and at video-level, overall abstract text of the surgical procedure. Then, we propose a novel fine-to-coarse contrastive learning framework that learns separate embedding spaces for the three video-text hierarchies using a single model. By disentangling embedding spaces of different hierarchical levels, the learned multi-modal representations encode short-term and long-term surgical concepts in the same model. Thanks to the injected textual semantics, we demonstrate that the HecVL approach can enable zero-shot surgical phase recognition without any human annotation. Furthermore, we show that the same HecVL model for surgical phase recognition can be transferred across different surgical procedures and medical centers.
翻訳日:2024-05-17 14:12:27 公開日:2024-05-16
# ツイストhBN層によるグラフェン中のモアレ超格子電位の創出

Emergence of moiré superlattice potential in graphene by twisted-hBN layers ( http://arxiv.org/abs/2405.10079v1 )

ライセンス: Link先を確認
Tianyu Zhang, Chengxin Xiao, Hongxia Xue, Wang Yao, Dong-Keun Ki, (参考訳) 同様の格子構造を持つ2つ以上の2次元結晶のスタックに形成されたモワール配位子超格子は、近年、低次元系における新しい物理を明らかにするための優れたプラットフォームとなっている。 しかし、これらは関連する結晶間の角度と格子定数の差に非常に敏感であり、物質選択の範囲と、与えられた2D結晶のモワーイパターンを制限している。 本稿では、格子や角度のミスマッチに悩まされることなく、ファンデルワールス(vdW)相互作用により、表面上のモワールポテンシャルを誘導できる周期的なモワールイパターンを持つ原子平らな基板を実現するための新しいアプローチを提案する。 ツイストしたhBN (thBN) moir\'e基板を約1$^\circ$の角度で構築することにより、上面のグラフェンが15$^\circ$に隣接するhBN層と整列し、複数の衛星ディラック点(DP)、ホフスタッター蝶効果、ブラウンザック振動を含む六角形のモア'eポテンシャルの下で典型的な輸送特性を示すことを示す。 すべての特徴は、thBNが$\sim$1$^\circ$ツイスト角を持つグラフェンにモワールポテンシャルが存在することを示している。 さらなる統計的研究により、hBN層間の平行界面からのねじれがモワールポテンシャルを誘導するために重要であることが示されている。 本研究により, THBN moir\'e 基板は, 格子定数に拘束されずに任意の物質中の moir\'e の物理を解析するために利用できることを示した。

Moir\'e superlattices formed in stacks of two or more 2D crystals with similar lattice structures have recently become excellent platforms to reveal new physics in low-dimensional systems. They are, however, highly sensitive to the angle and lattice constant differences between the associated crystals, limiting the range of the material choice and the possible moir\'e patterns for a given 2D crystal. Here, we present a novel approach to realize an atomically flat substrate with a periodic moir\'e pattern that can induce the moir\'e potential on the material on top by van der Waals (vdW) interactions, without suffering from the lattice and angle mismatch. By constructing a twisted hBN (thBN) moir\'e substrate at an angle of about 1$^\circ$, we show that the graphene on top, aligned around 15$^\circ$ with the neighboring hBN layers, exhibits typical transport properties under a hexagonal moir\'e potential, including multiple satellite Dirac points (DPs), Hofstadter butterfly effect, and Brown-Zak oscillations. All features point to the existence of the moir\'e potential in graphene formed by thBN with $\sim$1$^\circ$ twist angle. Further statistical study shows that the twist from a parallel interface between the hBN layers is critical to induce the moir\'e potential. Our study demonstrates that the thBN moir\'e substrate can be used to investigate moir\'e physics in arbitrary materials without being constrained by their lattice constants.
翻訳日:2024-05-17 14:12:27 公開日:2024-05-16
# 映像要約の多角的説明のための統合化フレームワーク

An Integrated Framework for Multi-Granular Explanation of Video Summarization ( http://arxiv.org/abs/2405.10082v1 )

ライセンス: Link先を確認
Konstantinos Tsigos, Evlampios Apostolidis, Vasileios Mezaris, (参考訳) 本稿では,映像要約の多言語的説明のための統合フレームワークを提案する。 このフレームワークは、断片レベル(要約者の判断に最も影響を与えたビデオフラグメントの表示)とよりきめ細かいビジュアルオブジェクトレベル(要約者にとって最も影響力のあるビジュアルオブジェクトのハイライト)の両方で説明を生成する方法を統合する。 このフレームワークを構築するために,ビデオ要約結果のフラグメントレベル説明にモデルに依存しない摂動に基づくアプローチを適用し,ビデオ汎視分割の結果と摂動に基づく説明アプローチの適応を組み合わせてオブジェクトレベルの説明を生成する手法を提案する。 映像要約のベンチマークを行うために,最先端の要約手法と2つのデータセットを用いて,開発フレームワークの性能を評価する。 本研究の定量的および質的評価の結果は,要約者の映像の最も影響力の低い断片や視覚的対象を識別するフレームワークの能力を示し,要約プロセスの出力に関する視覚的説明の包括的セットを提供する。

In this paper, we propose an integrated framework for multi-granular explanation of video summarization. This framework integrates methods for producing explanations both at the fragment level (indicating which video fragments influenced the most the decisions of the summarizer) and the more fine-grained visual object level (highlighting which visual objects were the most influential for the summarizer). To build this framework, we extend our previous work on this field, by investigating the use of a model-agnostic, perturbation-based approach for fragment-level explanation of the video summarization results, and introducing a new method that combines the results of video panoptic segmentation with an adaptation of a perturbation-based explanation approach to produce object-level explanations. The performance of the developed framework is evaluated using a state-of-the-art summarization method and two datasets for benchmarking video summarization. The findings of the conducted quantitative and qualitative evaluations demonstrate the ability of our framework to spot the most and least influential fragments and visual objects of the video for the summarizer, and to provide a comprehensive set of visual-based explanations about the output of the summarization process.
翻訳日:2024-05-17 14:12:27 公開日:2024-05-16
# 移動レンズによるディープオーディオ検索の再検討

Revisiting Deep Audio-Text Retrieval Through the Lens of Transportation ( http://arxiv.org/abs/2405.10084v1 )

ライセンス: Link先を確認
Manh Luong, Khai Nguyen, Nhat Ho, Reza Haf, Dinh Phung, Lizhen Qu, (参考訳) LTM(Learning-to-match)フレームワークは、2つのデータソース間の基盤となる基底距離を学習し、その後のマッチングを容易にするために効果的な逆最適輸送アプローチであることが証明されている。 しかし、従来のLTMフレームワークはスケーラビリティの問題に直面しており、地上メトリックのパラメータが更新されるたびにデータセット全体を使用する必要がある。 ディープラーニングの文脈にLTMを適用する際に,音声テキスト検索問題に対するm-LTM(mini-batch Learning-to-match)フレームワークを導入する。 このフレームワークは、ミニバッチサブサンプリングとマハラノビス強化された地上測定値の族を利用する。 さらに,非整合トレーニングデータに対処するため,トレーニングデータにおける不整合データペアの害を軽減するために,部分的最適輸送を用いた変種を提案する。 本稿では,AudioCaps,Clotho,ESC-50の3つのデータセットを用いて,音声テキストマッチング問題に関する広範な実験を行った。 提案手法は,SOTA性能を実現するリッチで表現力豊かな関節埋め込み空間を学習できることを示す。 これ以外にも、提案したm-LTMフレームワークは、ESC-50データセット上のゼロショット音声イベント検出タスクにおいて、トリプルトとコントラストの両方の損失を克服する、オーディオとテキストの埋め込み間のモダリティギャップを埋めることができる。 特に,m-LTMを用いた部分的最適輸送の戦略は,特にAudioCapsデータセットのトレーニングデータにおけるノイズ比の異なる場合において,コントラスト損失よりも高い雑音耐性を示す。 私たちのコードはhttps://github.com/v-manhlt3/m-LTM-Audio-Text-Retrievalで利用可能です。

The Learning-to-match (LTM) framework proves to be an effective inverse optimal transport approach for learning the underlying ground metric between two sources of data, facilitating subsequent matching. However, the conventional LTM framework faces scalability challenges, necessitating the use of the entire dataset each time the parameters of the ground metric are updated. In adapting LTM to the deep learning context, we introduce the mini-batch Learning-to-match (m-LTM) framework for audio-text retrieval problems. This framework leverages mini-batch subsampling and Mahalanobis-enhanced family of ground metrics. Moreover, to cope with misaligned training data in practice, we propose a variant using partial optimal transport to mitigate the harm of misaligned data pairs in training data. We conduct extensive experiments on audio-text matching problems using three datasets: AudioCaps, Clotho, and ESC-50. Results demonstrate that our proposed method is capable of learning rich and expressive joint embedding space, which achieves SOTA performance. Beyond this, the proposed m-LTM framework is able to close the modality gap across audio and text embedding, which surpasses both triplet and contrastive loss in the zero-shot sound event detection task on the ESC-50 dataset. Notably, our strategy of employing partial optimal transport with m-LTM demonstrates greater noise tolerance than contrastive loss, especially under varying noise ratios in training data on the AudioCaps dataset. Our code is available at https://github.com/v-manhlt3/m-LTM-Audio-Text-Retrieval
翻訳日:2024-05-17 14:12:27 公開日:2024-05-16
# LaT-PFN: コンテキスト内時系列予測のための予測アーキテクチャ

LaT-PFN: A Joint Embedding Predictive Architecture for In-context Time-series Forecasting ( http://arxiv.org/abs/2405.10093v1 )

ライセンス: Link先を確認
Stijn Verdenius, Andrea Zerio, Roy L. M. Wang, (参考訳) ゼロショット予測を可能にする強力な埋め込み空間を持つ基本時系列モデルであるLatntTimePFN(LaT-PFN)を紹介する。 そこで我々は,PFN(Presideed Data Fitted Networks)とJEPA(Joint Embedding Predictive Architecture)フレームワークの新たな統合を利用して,潜在空間におけるコンテキスト内学習を行う。 我々はJEPAフレームワークを利用して、時系列を生成し、それを文脈学習と組み合わせ、PFNを用いて、基礎となる確率過程の予測最適化潜在表現を作成する。 さらに、関連する時系列を文脈として利用し、抽象時間軸を導入することにより、先行作業を改善する。 これにより、トレーニング時間を大幅に短縮し、任意の時間的粒度と予測水平線を許容することにより、モデルの汎用性を高めることができる。 その結果,既存のベースラインに比べてゼロショット予測が優れていることがわかった。 また、我々の潜伏空間は、各時間ステップと全系列の固定長サマリーの両方の情報埋め込みを生成することを示した。 最後に,マルチステップパッチ埋め込みの出現を明示的なトレーニングなしで観察し,視覚変換器に類似したデータ中の局所構造を符号化する離散トークンを積極的に学習することを提案する。

We introduce LatentTimePFN (LaT-PFN), a foundational Time Series model with a strong embedding space that enables zero-shot forecasting. To achieve this, we perform in-context learning in latent space utilizing a novel integration of the Prior-data Fitted Networks (PFN) and Joint Embedding Predictive Architecture (JEPA) frameworks. We leverage the JEPA framework to create a prediction-optimized latent representation of the underlying stochastic process that generates time series and combines it with contextual learning, using a PFN. Furthermore, we improve on preceding works by utilizing related time series as a context and introducing an abstract time axis. This drastically reduces training time and increases the versatility of the model by allowing any time granularity and forecast horizon. We show that this results in superior zero-shot predictions compared to established baselines. We also demonstrate our latent space produces informative embeddings of both individual time steps and fixed-length summaries of entire series. Finally, we observe the emergence of multi-step patch embeddings without explicit training, suggesting the model actively learns discrete tokens that encode local structures in the data, analogous to vision transformers.
翻訳日:2024-05-17 14:12:27 公開日:2024-05-16
# フェデレーション学習における量子化の効果--レニー微分プライバシーの観点から

The Effect of Quantization in Federated Learning: A Rényi Differential Privacy Perspective ( http://arxiv.org/abs/2405.10096v1 )

ライセンス: Link先を確認
Tianqu Kang, Lumin Liu, Hengtao He, Jun Zhang, S. H. Song, Khaled B. Letaief, (参考訳) フェデレートラーニング(FL)は、分散データを使用したプライバシ保護機械学習を大いに約束する新興パラダイムである。 プライバシーを強化するために、FLはモデルの重み付けにガウスノイズを加えることを含む差分プライバシー(DP)と組み合わせることができる。 しかし、FLはこれらのモデル重みを伝達する際の通信オーバーヘッドが大きいという点で大きな課題に直面している。 この問題に対処するためには、量子化が一般的である。 それでも、量子化ガウスノイズの存在は、プライバシー保護を理解する複雑さをもたらす。 本研究では,FLシステムにおける量子化がプライバシに与える影響について検討する。 R'enyi Differential Privacy (RDP) を用いた量子ガウス機構のプライバシー保証について検討する。 量子化ガウス機構のプライバシー予算を導出することにより、低量子化ビットレベルがプライバシー保護を改善することを実証する。 理論的知見の検証には,プライバシー漏洩の正確性を評価するMIA(Commanship Inference Attacks)を用いる。 数値的な結果は我々の理論的分析と一致し、量子化が確かにプライバシー保護を強化することを確認した。 本研究は,FLにおけるプライバシとコミュニケーションの相関関係の理解を深めるだけでなく,プライバシ保護における量子化の利点を浮き彫りにする。

Federated Learning (FL) is an emerging paradigm that holds great promise for privacy-preserving machine learning using distributed data. To enhance privacy, FL can be combined with Differential Privacy (DP), which involves adding Gaussian noise to the model weights. However, FL faces a significant challenge in terms of large communication overhead when transmitting these model weights. To address this issue, quantization is commonly employed. Nevertheless, the presence of quantized Gaussian noise introduces complexities in understanding privacy protection. This research paper investigates the impact of quantization on privacy in FL systems. We examine the privacy guarantees of quantized Gaussian mechanisms using R\'enyi Differential Privacy (RDP). By deriving the privacy budget of quantized Gaussian mechanisms, we demonstrate that lower quantization bit levels provide improved privacy protection. To validate our theoretical findings, we employ Membership Inference Attacks (MIA), which gauge the accuracy of privacy leakage. The numerical results align with our theoretical analysis, confirming that quantization can indeed enhance privacy protection. This study not only enhances our understanding of the correlation between privacy and communication in FL but also underscores the advantages of quantization in preserving privacy.
翻訳日:2024-05-17 14:12:27 公開日:2024-05-16
# 大規模言語モデルが最適化と出会うとき

When Large Language Model Meets Optimization ( http://arxiv.org/abs/2405.10098v1 )

ライセンス: Link先を確認
Sen Huang, Kaixiang Yang, Sheng Qi, Rui Wang, (参考訳) 最適化アルゴリズムと大規模言語モデル(LLM)は、人工知能と従来の技術を統合することにより、動的環境における意思決定を強化する。 LLMは広範なドメイン知識を持ち、インテリジェントなモデリングと最適化における戦略的意思決定を促進する一方、最適化アルゴリズムはLLMアーキテクチャと出力品質を洗練させる。 このシナジーは、複雑な問題の計算問題とLLMの実践シナリオへの応用の両方に対処し、汎用AIを前進させるための新しいアプローチを提供する。 本稿では,LLMと最適化アルゴリズムの組み合わせの進展と可能性について概説し,今後の研究方向性について考察する。

Optimization algorithms and large language models (LLMs) enhance decision-making in dynamic environments by integrating artificial intelligence with traditional techniques. LLMs, with extensive domain knowledge, facilitate intelligent modeling and strategic decision-making in optimization, while optimization algorithms refine LLM architectures and output quality. This synergy offers novel approaches for advancing general AI, addressing both the computational challenges of complex problems and the application of LLMs in practical scenarios. This review outlines the progress and potential of combining LLMs with optimization algorithms, providing insights for future research directions.
翻訳日:2024-05-17 14:12:27 公開日:2024-05-16
# 周期的時系列予測のための新しい貯留層構造

A novel Reservoir Architecture for Periodic Time Series Prediction ( http://arxiv.org/abs/2405.10102v1 )

ライセンス: Link先を確認
Zhongju Yuan, Geraint Wiggins, Dick Botteldooren, (参考訳) 本稿では,貯水池計算を用いた周期時系列の予測手法を提案する。 このモデルは、リズムの正確な予測を提供するように調整されている。 貯水池計算の活用により,提案手法は最終的に人間のリズム知覚の予測に向けられている。 我々のネットワークは、人間の周波数知覚範囲内のリズム信号を正確に予測する。 モデルアーキテクチャは、リズミカル情報を取り込み伝達する一次ニューロンと中間ニューロンを包含する。 c と k の2つのパラメータ行列は貯水池全体の力学を調節する。 本稿では,cのポストトレーニングに適応する損失関数を提案し,優れた貢献のある領域に焦点を合わせるために$k$を調節する動的選択(DS)機構を提案する。 種々の試験セットの実験結果は正確な予測を示し, c, kによる貯水池のリアルタイムチューニングによりさらに改善された。 比較評価では、従来のモデルと比較して優れた性能を示している。

This paper introduces a novel approach to predicting periodic time series using reservoir computing. The model is tailored to deliver precise forecasts of rhythms, a crucial aspect for tasks such as generating musical rhythm. Leveraging reservoir computing, our proposed method is ultimately oriented towards predicting human perception of rhythm. Our network accurately predicts rhythmic signals within the human frequency perception range. The model architecture incorporates primary and intermediate neurons tasked with capturing and transmitting rhythmic information. Two parameter matrices, denoted as c and k, regulate the reservoir's overall dynamics. We propose a loss function to adapt c post-training and introduce a dynamic selection (DS) mechanism that adjusts $k$ to focus on areas with outstanding contributions. Experimental results on a diverse test set showcase accurate predictions, further improved through real-time tuning of the reservoir via c and k. Comparative assessments highlight its superior performance compared to conventional models.
翻訳日:2024-05-17 14:12:27 公開日:2024-05-16
# 超伝導量子ビットにおける自然放出のインターフェロメトリパーセル抑制

Interferometric Purcell suppression of spontaneous emission in a superconducting qubit ( http://arxiv.org/abs/2405.10107v1 )

ライセンス: Link先を確認
Alec Yen, Yufeng Ye, Kaidong Peng, Jennifer Wang, Gregory Cunningham, Michael Gingras, Bethany M. Niedzielski, Hannah Stickler, Kyle Serniak, Mollie E. Schwartz, Kevin P. O'Brien, (参考訳) 超伝導量子ビットでは、自発放出の抑制は、量子ビット寿命を犠牲にすることなく、高速な分散測定とリセットを実現するために不可欠である。 フィードラインに対する共振器によるクビットモードの減衰は、リードアウト共振器がフィードラインに2つの点で結合する破壊的干渉によって抑制できることを示す。 この"インターフェロメトリパーセルフィルタ"は、フィードラインに専用のフィルタコンポーネントやインピーダンスミスマッチを必要としないため、オールパス読み出しのようなアプリケーションに適している。 提案方式を用いてデバイスの設計と製造を行い,400MHz帯で2桁を超える共振器による減衰の抑制を実証する。

In superconducting qubits, suppression of spontaneous emission is essential to achieve fast dispersive measurement and reset without sacrificing qubit lifetime. We show that resonator-mediated decay of the qubit mode to the feedline can be suppressed using destructive interference, where the readout resonator is coupled to the feedline at two points. This "interferometric Purcell filter" does not require dedicated filter components or impedance mismatch in the feedline, making it suitable for applications such as all-pass readout. We design and fabricate a device with the proposed scheme and demonstrate suppression of resonator-mediated decay that exceeds 2 orders of magnitude over a bandwidth of 400 MHz.
翻訳日:2024-05-17 14:02:34 公開日:2024-05-16
# 動的カシミール効果のバックリアクションに対する曲線時空アプローチにおける量子場理論

Quantum Field Theory in Curved Spacetime Approach to the Backreaction of Dynamical Casimir Effect ( http://arxiv.org/abs/2405.10108v1 )

ライセンス: Link先を確認
Yu-Cun Xie, (参考訳) 本論では, ダイナミックなカシミール効果, ダイナミックな境界条件や動的背景による真空からの粒子の生成, 境界運動に対するバックリアクションについて検討する。 境界運動に対する粒子生成のバックリアクションは、1+1次元と3+1次元の曲線時空法における量子場理論を用いて研究される。 これらの量子場過程における関連する量は、真空エネルギーのUVとIRの偏光の正則化や、放射圧のような古典的なバックリアクション効果の推定など、慎重に分析される。 1+1次元のバックリアクションの定性的な結果を得た。 3+1次元では、バックリアクションが系を減速させ、宇宙論的な粒子生成と同様の粒子生成を抑制する傾向にある。

In this thesis, we investigate the dynamical Casimir effect, the creation of particles from vacuum by dynamical boundary conditions or dynamical background, and its backreaction to the motion of the boundary. The backreaction of particle creation to the boundary motion is studied using quantum field theory in curved spacetime technique, in 1+1 dimension and 3+1 dimension. The relevant quantities in these quantum field processes are carefully analyzed, including regularization of the UV and IR divergent of vacuum energy, and estimation of classical backreaction effects like radiation pressure. We recovered the qualitative result of backreaction in 1+1 dimensions. In the 3+1 dimension, we find that the backreaction tends to slow down the system to suppress the further particle creation, similar to the case of cosmological particle creation.
翻訳日:2024-05-17 14:02:34 公開日:2024-05-16
# マスター論文:連続変数を用いた高速多部量子秘密共有

Master thesis: High-rate multipartite quantum secret sharing with continuous variables ( http://arxiv.org/abs/2405.10113v1 )

ライセンス: Link先を確認
Jacopo Angeletti, (参考訳) 量子暗号は、近年、多分野の量子情報分野において、実質的な成長と発展を遂げている。 新たなプロトコルが開発され、セキュリティ対策が改善され、光ファイバーと自由空間光ビームにこれらの技術が適用された最初の実用的応用が常に進んでいる。 本稿では,連続可変量子暗号のための最先端大都市圏プロトコルについて概説する。 このプロトコルにより、任意の数のユーザがリレーに変調されたコヒーレント状態を送ることができ、一般化されたベル検出がセキュアなマルチパーティリート相関を生成する。 これらの相関関係は共有秘密鍵に蒸留され、量子秘密共有のための安全な方法を提供する。 この量子暗号に対する新しいアプローチは、容易に利用可能な光学部品を使って、高速でセキュアなマルチパーティライト通信を提供する可能性があり、この分野において有望な進歩をもたらす。

Quantum cryptography has undergone substantial growth and development within the multi-disciplinary field of quantum information in recent years. The field is constantly advancing with new protocols being developed, security measures being improved, and the first practical applications of these technologies being deployed in optical fibers and free space optical beams. In this paper, we present a comprehensive review of a cutting-edge metropolitan-scale protocol for continuous-variable quantum cryptography. The protocol allows an arbitrary number of users to send modulated coherent states to a relay, where a generalised Bell detection creates secure multipartite correlations. These correlations are then distilled into a shared secret key, providing a secure method for quantum secret-sharing. This novel approach to quantum cryptography has the potential to offer high-rate secure multipartite communication using readily available optical components, making it a promising advancement in the field.
翻訳日:2024-05-17 14:02:34 公開日:2024-05-16
# 量子機械学習の定量的ファイナンスへの応用

Applications of Quantum Machine Learning for Quantitative Finance ( http://arxiv.org/abs/2405.10119v1 )

ライセンス: Link先を確認
Piotr Mironowicz, Akshata Shenoy H., Antonio Mandarino, A. Ege Yilmaz, Thomas Ankenbrand, (参考訳) 機械学習と量子機械学習(QML)は、さまざまな領域にわたる複雑な計算問題に対処するための強力なツールを提供するため、重要な意味を持つようになった。 本研究は、金融業界における重要な分野である量的金融におけるQMLの使用状況について概観する。 金融アプリケーションにおける量子コンピューティングと機械学習の関連性について検討し、不正検出、引受、リスク評価、株式市場予測、ポートフォリオ最適化、オプション価格など、さまざまな金融サブドメインに関する文献のコーパスを概説する。

Machine learning and quantum machine learning (QML) have gained significant importance, as they offer powerful tools for tackling complex computational problems across various domains. This work gives an extensive overview of QML uses in quantitative finance, an important discipline in the financial industry. We examine the connection between quantum computing and machine learning in financial applications, spanning a range of use cases including fraud detection, underwriting, Value at Risk, stock market prediction, portfolio optimization, and option pricing by overviewing the corpus of literature concerning various financial subdomains.
翻訳日:2024-05-17 14:02:34 公開日:2024-05-16
# ゼロソース対話生成のためのLLMへの暗黙のマルチモーダル知識の蒸留

Distilling Implicit Multimodal Knowledge into LLMs for Zero-Resource Dialogue Generation ( http://arxiv.org/abs/2405.10121v1 )

ライセンス: Link先を確認
Bo Zhang, Hui Ma, Jian Ding, Jian Wang, Bo Xu, Hongfei Lin, (参考訳) マルチモーダル知識を大規模言語モデル(LLM)に統合することは、対話生成能力の大幅な進歩を示す。 しかし、このような知識をゼロリソースシナリオに効果的に組み込むことは、多種多様な高品質な対話データセットが不足しているため、依然として大きな課題である。 これを解決するために,暗黙のマルチモーダル知識を活用することで,ゼロリソース環境下での対話生成のためのLLMの拡張を目的とした,革新的な手法であるVisual Implicit Knowledge Distillation Framework (VIKDF)を提案する。 VIKDFは、インプリシットクエリ変換器を用いて、画像テキストペアから視覚的暗黙的知識を抽出し、知識ベクトルにエンコードする知識蒸留と、新しい双方向変分情報融合技術を用いて、これらの蒸留されたベクトルをLLMにシームレスに統合する知識統合である。 これによりLLMは、一貫性とエンゲージメントだけでなく、暗黙のマルチモーダルキューを通じてコンテキストの深い理解を示す対話を生成することができ、事実上ゼロリソースシナリオの制限を克服することができる。 2つの対話データセットにわたる広範な実験により、VIKDFは、高品質な対話を生成する上で、既存の最先端モデルよりも優れていることが示された。 コードは受理後、公開されている。

Integrating multimodal knowledge into large language models (LLMs) represents a significant advancement in dialogue generation capabilities. However, the effective incorporation of such knowledge in zero-resource scenarios remains a substantial challenge due to the scarcity of diverse, high-quality dialogue datasets. To address this, we propose the Visual Implicit Knowledge Distillation Framework (VIKDF), an innovative approach aimed at enhancing LLMs for enriched dialogue generation in zero-resource contexts by leveraging implicit multimodal knowledge. VIKDF comprises two main stages: knowledge distillation, using an Implicit Query Transformer to extract and encode visual implicit knowledge from image-text pairs into knowledge vectors; and knowledge integration, employing a novel Bidirectional Variational Information Fusion technique to seamlessly integrate these distilled vectors into LLMs. This enables the LLMs to generate dialogues that are not only coherent and engaging but also exhibit a deep understanding of the context through implicit multimodal cues, effectively overcoming the limitations of zero-resource scenarios. Our extensive experimentation across two dialogue datasets shows that VIKDF outperforms existing state-of-the-art models in generating high-quality dialogues. The code will be publicly available following acceptance.
翻訳日:2024-05-17 14:02:34 公開日:2024-05-16
# 実世界の手作業における視覚図形のコヒーレントシーケンスの生成

Generating Coherent Sequences of Visual Illustrations for Real-World Manual Tasks ( http://arxiv.org/abs/2405.10122v1 )

ライセンス: Link先を確認
João Bordalo, Vasco Ramos, Rodrigo Valério, Diogo Glória-Silva, Yonatan Bitton, Michal Yarom, Idan Szpektor, Joao Magalhaes, (参考訳) レシピやハウツーガイドなどのマルチステップ命令は、命令ステップに付随する一連の画像のような視覚的補助の恩恵を受ける。 大規模言語モデル(LLM)はコヒーレントなテキストステップを生成するのに適しているが、LVLM(Large Vision/Language Models)は付随する画像シーケンスを生成することができない。 最も難しい側面は、生成した各画像が関連するテキストステップ命令に準拠し、シーケンス内の以前の画像と視覚的に整合性を持つ必要があることである。 この問題に対処するため,LLM に遅延拡散モデル (LDM) を組み込んだ一貫した画像系列を生成する手法を提案し,シーケンスのセマンティックコヒーレンスを維持するために,シーケンスをキャプションに変換する。 さらに,画像シーケンスの視覚的コヒーレンスを維持するために,以前に生成された画像から遅延ベクトル反復で逆拡散過程を初期化するコピー機構を導入する。 どちらの戦略も、命令ステップのシーケンス上で逆拡散プロセスを条件化し、現在の画像の内容と以前の命令ステップと対応する画像とを結びつける。 実験の結果、提案手法は46.6%でヒトに好まれ、26.6%では第2の方法が好まれることがわかった。 さらに,提案手法は両領域のステップ間のセマンティック・コヒーレンスと視覚的一貫性を維持できることを示した。

Multistep instructions, such as recipes and how-to guides, greatly benefit from visual aids, such as a series of images that accompany the instruction steps. While Large Language Models (LLMs) have become adept at generating coherent textual steps, Large Vision/Language Models (LVLMs) are less capable of generating accompanying image sequences. The most challenging aspect is that each generated image needs to adhere to the relevant textual step instruction, as well as be visually consistent with earlier images in the sequence. To address this problem, we propose an approach for generating consistent image sequences, which integrates a Latent Diffusion Model (LDM) with an LLM to transform the sequence into a caption to maintain the semantic coherence of the sequence. In addition, to maintain the visual coherence of the image sequence, we introduce a copy mechanism to initialise reverse diffusion processes with a latent vector iteration from a previously generated image from a relevant step. Both strategies will condition the reverse diffusion process on the sequence of instruction steps and tie the contents of the current image to previous instruction steps and corresponding images. Experiments show that the proposed approach is preferred by humans in 46.6% of the cases against 26.6% for the second best method. In addition, automatic metrics showed that the proposed method maintains semantic coherence and visual consistency across steps in both domains.
翻訳日:2024-05-17 14:02:34 公開日:2024-05-16
# 不均一な局所目的物に対する厳密な平均化による非同期フェデレーション確率最適化

Asynchronous Federated Stochastic Optimization with Exact Averaging for Heterogeneous Local Objectives ( http://arxiv.org/abs/2405.10123v1 )

ライセンス: Link先を確認
Charikleia Iakovidou, Kibaek Kim, (参考訳) フェデレートラーニング(FL)は、中央サーバの協調の下で、複数の場所("clients")に保持されたデータでモデルをセキュアにトレーニングするために提案されている。 FLアルゴリズムの性能を阻害する2つの大きな課題は、クライアントの階層化による長いトレーニング時間と、非イド局所分布によるトレーニング精度の低下である("client drift")。 本研究では,クライアントのドリフトに頑健で,非同期通信を利用してトラグラーの存在下での収束を高速化する,新しい確率的(サブ)漸進的アルゴリズムであるARAを提案し,解析する。 さらに、AREAは、我々の知る限り、任意に長い遅延の下で収束することが保証される最初の手法であり、使用する確率的(サブ)勾配のばらつきにのみ依存する誤差近傍に収束するので、遅延適応ステップを使わずに、ローカルデータセットとクライアント遅延の長さの不均一性の両方に依存しない。 解析結果から,AREAは局所データが非IDである場合,最先端の手法よりも優れていることが示唆された。

Federated learning (FL) was recently proposed to securely train models with data held over multiple locations ("clients") under the coordination of a central server. Two major challenges hindering the performance of FL algorithms are long training times caused by straggling clients and a decrease in training accuracy induced by non-iid local distributions ("client drift"). In this work we propose and analyze AREA, a new stochastic (sub)gradient algorithm that is robust to client drift and utilizes asynchronous communication to speed up convergence in the presence of stragglers. Moreover, AREA is, to the best of our knowledge, the first method that is both guaranteed to converge under arbitrarily long delays, and converges to an error neighborhood whose size depends only on the variance of the stochastic (sub)gradients used and thus is independent of both the heterogeneity between the local datasets and the length of client delays, without the use of delay-adaptive stepsizes. Our numerical results confirm our theoretical analysis and suggest that AREA outperforms state-of-the-art methods when local data are highly non-iid.
翻訳日:2024-05-17 14:02:34 公開日:2024-05-16
# 量子近似最適化アルゴリズムのエネルギー改善に関する再帰的下界

A Recursive Lower Bound on the Energy Improvement of the Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2405.10125v1 )

ライセンス: Link先を確認
Raimel A. Medina, Maksym Serbyn, (参考訳) 量子近似最適化アルゴリズム(QAOA)は、量子コンピュータを用いて、コスト関数を最小限に抑えるために古典的コンピュータによって最適化された2p$の交互ユニタリ演算子からなる変分法を実装している。 小さな深さでQAOAに厳密な性能保証は存在するが、大きな深さでの挙動は明らかになっていないが、シミュレーションは特定の問題に対して指数関数的に高速な収束を示唆している。 本研究では, 遷移状態に関するコスト関数の解析的拡張を用いて, 深部QAOAの洞察を得る。 遷移状態は再帰的に構成される: QAOA の局所最小値から$p+1$ の層を持つ QAOA の遷移状態を得る。 本研究では,各遷移状態におけるパラメータ空間における負曲率と対応する方向の解析的推定値を構築する。 QAOAコスト関数をクォート次数に負の方向に沿って拡張することで、QAOAコスト関数の低いバウンドが得られる。 局所曲率とクォート膨張係数の解析式の背後にある物理的直観を提供する。 数値計算により,得られたQAOAコスト関数の有界値と真値が,各層数$p$に比例して指数関数的に減少し,バウンドが急速に減少することが明らかとなった。 本研究は, 高回路深度状態に適用可能なQAOAを再帰的に研究するための解析手法を確立する。

The quantum approximate optimization algorithm (QAOA) uses a quantum computer to implement a variational method with $2p$ layers of alternating unitary operators, optimized by a classical computer to minimize a cost function. While rigorous performance guarantees exist for the QAOA at small depths $p$, the behavior at large depths remains less clear, though simulations suggest exponentially fast convergence for certain problems. In this work, we gain insights into the deep QAOA using an analytic expansion of the cost function around transition states. Transition states are constructed in a recursive manner: from the local minima of the QAOA with $p$ layers we obtain transition states of the QAOA with $p+1$ layers, which are stationary points characterized by a unique direction of negative curvature. We construct an analytic estimate of the negative curvature and the corresponding direction in parameter space at each transition state. The expansion of the QAOA cost function along the negative direction to the quartic order gives a lower bound of the QAOA cost function improvement. We provide physical intuition behind the analytic expressions for the local curvature and quartic expansion coefficient. Our numerical study confirms the accuracy of our approximations and reveals that the obtained bound and the true value of the QAOA cost function gain have a characteristic exponential decrease with the number of layers $p$, with the bound decreasing more rapidly. Our study establishes an analytical method for recursively studying the QAOA that is applicable in the regime of high circuit depth.
翻訳日:2024-05-17 14:02:34 公開日:2024-05-16
# 滑らかな条件下での関数とその導関数の推定

Estimating a Function and Its Derivatives Under a Smoothness Condition ( http://arxiv.org/abs/2405.10126v1 )

ライセンス: Link先を確認
Eunji Lim, (参考訳) 未知関数 f* とその偏微分を n 個の観測のノイズのあるデータセットから推定する問題を考える。 そのような場合の f* の推定子の自然な候補は、ある滑らかさ条件を満たすデータセットに最も適している。 この推定器は、ある滑らかさの測度上の上界の最小二乗推定器と見なすことができる。 もう一つの有用な推定器は、二乗誤差の平均上界の滑らかさの度合いを最小化するものである。 これらの2つの推定器は二次プログラムの解として計算可能であることを証明し、これらの推定器とその部分微分の整合性を確立し、n が無限大へと増加するにつれて収束速度を研究する。 ストックオプションとその2番目のデリバティブの値を、基礎となる株価の関数として推定する設定において、推定器の有効性を数値的に図示する。

We consider the problem of estimating an unknown function f* and its partial derivatives from a noisy data set of n observations, where we make no assumptions about f* except that it is smooth in the sense that it has square integrable partial derivatives of order m. A natural candidate for the estimator of f* in such a case is the best fit to the data set that satisfies a certain smoothness condition. This estimator can be seen as a least squares estimator subject to an upper bound on some measure of smoothness. Another useful estimator is the one that minimizes the degree of smoothness subject to an upper bound on the average of squared errors. We prove that these two estimators are computable as solutions to quadratic programs, establish the consistency of these estimators and their partial derivatives, and study the convergence rate as n increases to infinity. The effectiveness of the estimators is illustrated numerically in a setting where the value of a stock option and its second derivative are estimated as functions of the underlying stock price.
翻訳日:2024-05-17 14:02:34 公開日:2024-05-16
# 矛盾対話のための赤いチーム言語モデル

Red Teaming Language Models for Contradictory Dialogues ( http://arxiv.org/abs/2405.10128v1 )

ライセンス: Link先を確認
Xiaofei Wen, Bangzheng Li, Tenghao Huang, Muhao Chen, (参考訳) 現在利用可能な言語モデルのほとんどは、対話中に自己矛盾する傾向がある。 そこで本研究では,会話中の矛盾文を検出し,修正することを目的とした,新たな矛盾文処理タスクについて検討する。 この課題は文脈忠実性と対話理解の研究に触発され、矛盾の検出と理解がしばしば詳細な説明を必要とすることを示した。 我々は、会話の片側が矛盾する矛盾する対話を含むデータセットを開発する。 各対話には説明ラベルが添付され、矛盾点の位置と詳細が強調される。 このデータセットでは、矛盾する対話処理のためのRed Teamingフレームワークを提示する。 フレームワークは、対話を検出し、説明しようと試み、その後、説明を用いて既存の矛盾コンテンツを変更する。 本実験は, 矛盾する対話を検出する能力の向上と, 有効な説明を提供することを実証する。 さらに、このような対話を修正できる機能も紹介している。 本研究は,対話型AIにおける論理的不整合問題の重要性を強調した。

Most language models currently available are prone to self-contradiction during dialogues. To mitigate this issue, this study explores a novel contradictory dialogue processing task that aims to detect and modify contradictory statements in a conversation. This task is inspired by research on context faithfulness and dialogue comprehension, which have demonstrated that the detection and understanding of contradictions often necessitate detailed explanations. We develop a dataset comprising contradictory dialogues, in which one side of the conversation contradicts itself. Each dialogue is accompanied by an explanatory label that highlights the location and details of the contradiction. With this dataset, we present a Red Teaming framework for contradictory dialogue processing. The framework detects and attempts to explain the dialogue, then modifies the existing contradictory content using the explanation. Our experiments demonstrate that the framework improves the ability to detect contradictory dialogues and provides valid explanations. Additionally, it showcases distinct capabilities for modifying such dialogues. Our study highlights the importance of the logical inconsistency problem in conversational AI.
翻訳日:2024-05-17 14:02:34 公開日:2024-05-16
# StyloAI: スティロメトリ分析によるAI生成コンテンツの排除

StyloAI: Distinguishing AI-Generated Content with Stylometric Analysis ( http://arxiv.org/abs/2405.10129v1 )

ライセンス: Link先を確認
Chidimma Opara, (参考訳) 現実的なテキストや画像を生成することができる大規模言語モデル(LLM)の出現は、様々な分野における倫理的懸念を引き起こしている。 これに対し、学術と産業の研究者たちは、AIが生成するコンテンツを人間によって認可された物質と区別する方法を積極的に検討している。 しかし、重要な疑問が残る: AI生成したテキストのユニークな特徴は何ですか? このギャップに対処するため,2つのマルチドメインデータセットにランダムフォレスト分類器を適用することで,31のテクスチャ特徴を用いてAI生成テキストを識別するデータ駆動モデルであるStyloAIを提案する。 StyloAIは、AuTextificationデータセットとUltra Educationデータセットのテストセットで、それぞれ81%と98%の精度を達成している。 このアプローチは、既存の最先端モデルのパフォーマンスを超越し、AI生成されたテキストと人間によるテキストの違いに関する貴重な洞察を提供する。

The emergence of large language models (LLMs) capable of generating realistic texts and images has sparked ethical concerns across various sectors. In response, researchers in academia and industry are actively exploring methods to distinguish AI-generated content from human-authored material. However, a crucial question remains: What are the unique characteristics of AI-generated text? Addressing this gap, this study proposes StyloAI, a data-driven model that uses 31 stylometric features to identify AI-generated texts by applying a Random Forest classifier on two multi-domain datasets. StyloAI achieves accuracy rates of 81% and 98% on the test set of the AuTextification dataset and the Education dataset, respectively. This approach surpasses the performance of existing state-of-the-art models and provides valuable insights into the differences between AI-generated and human-authored texts.
翻訳日:2024-05-17 14:02:34 公開日:2024-05-16
# クラウドネイティブエッジを信頼する - リモートでテストされたKubernetesワーカー

Trusting the Cloud-Native Edge: Remotely Attested Kubernetes Workers ( http://arxiv.org/abs/2405.10131v1 )

ライセンス: Link先を確認
Jordi Thijsman, Merlijn Sebrechts, Filip De Turck, Bruno Volckaert, (参考訳) Kubernetesクラスタは一般的に信頼性のあるノードで構成され、物理的にセキュアなデータセンタ内で動作する。 エッジオーケストレーションの最近の進歩により、もはやそうではない。 攻撃者が物理的にアクセス可能なデバイスをどうやって信頼できるのか? 本稿では,エッジデバイスを信頼性の高いKubernetesワーカノードとしてセキュアに登録するアーキテクチャとオープンソース実装を提案する。 ハードウェアTrusted Platform Moduleをルーツとするブート証明を提供することで、強力な信頼基盤が提供される。 新しいカスタムコントローラは、Keylimeの修正バージョンを指示して、クラウドエッジギャップを横断し、エッジワーカーを登録するために必要なユニークなクラスタ認証をセキュアに提供する。 コントローラは、認証イベントに基づいて、これらの認証を動的に許可し、無効にする。 アーキテクチャを質的かつ定量的に評価する。 定性的なシナリオは、証明イベントに動的に調整するロールベースのアクセス制御(RBAC)権限を持つエッジデバイスを検査し、登録する能力を証明する。 定量的評価は、エッジノードの起動時に発生した平均10.28秒の遅延を反映し、合計平均登録時間は20.91秒である。 提示されたアーキテクチャは、強力な信頼基盤を提供し、物理的に露出したエッジデバイスを確保し、堅牢でレジリエントなエッジコンピューティングエコシステムへの道を開く。

A Kubernetes cluster typically consists of trusted nodes, running within the confines of a physically secure datacenter. With recent advances in edge orchestration, this is no longer the case. This poses a new challenge: how can we trust a device that an attacker has physical access to? This paper presents an architecture and open-source implementation that securely enrolls edge devices as trusted Kubernetes worker nodes. By providing boot attestation rooted in a hardware Trusted Platform Module, a strong base of trust is provided. A new custom controller directs a modified version of Keylime to cross the cloud-edge gap and securely deliver unique cluster credentials required to enroll an edge worker. The controller dynamically grants and revokes these credentials based on attestation events, preventing a possibly compromised node from accessing sensitive cluster resources. We provide both a qualitative and a quantitative evaluation of the architecture. The qualitative scenarios prove its ability to attest and enroll an edge device with role-based access control (RBAC) permissions that dynamically adjust to attestation events. The quantitative evaluation reflects an average of 10.28 seconds delay incurred on the startup time of the edge node due to attestation for a total average enrollment time of 20.91 seconds. The presented architecture thus provides a strong base of trust, securing a physically exposed edge device and paving the way for a robust and resilient edge computing ecosystem.
翻訳日:2024-05-17 14:02:34 公開日:2024-05-16
# インターセクション車両赤外構造のための協調的視覚-LiDAR極端校正技術:概観

Cooperative Visual-LiDAR Extrinsic Calibration Technology for Intersection Vehicle-Infrastructure: A review ( http://arxiv.org/abs/2405.10132v1 )

ライセンス: Link先を確認
Xinyu Zhang, Yijin Xiong, Qianxin Qu, Renjie Wang, Xin Gao, Jing Liu, Shichun Guo, Jun Li, (参考訳) 典型的な都市交差点のシナリオでは、車両とインフラの両方に視覚とLiDARセンサーが装備されている。 車両側および道路監視装置からのデータをうまく統合することにより、より包括的で正確な環境認識と情報取得が可能になる。 センサーの校正は、自律運転技術の本質的な構成要素であり、常に大きな注目を集めている。 特に、複数のセンサが協調的に位置認識の課題を認識し、対処するシナリオでは、センサー間校正の要件が重要となる。 近年では、インフラが周囲の環境情報を収集し、車両に送信し、コストを軽減しながら認識能力を増強するマルチエンド協力の概念が出現している。 しかし、これは技術的な複雑さも引き起こし、様々なエンドキャリブレーションの必要性を浮き彫りにしている。 カメラとLiDARは、自動運転における岩盤センサーであり、広範囲の応用性を示している。 本稿では,車,路面,車両と道路の連携の観点から,多目的カメラ・LiDAR装置の校正を包括的に検討し,その応用と意義を概説する。 まとめると、我々は未来志向の考えと仮説を提示する。

In the typical urban intersection scenario, both vehicles and infrastructures are equipped with visual and LiDAR sensors. By successfully integrating the data from vehicle-side and road monitoring devices, a more comprehensive and accurate environmental perception and information acquisition can be achieved. The Calibration of sensors, as an essential component of autonomous driving technology, has consistently drawn significant attention. Particularly in scenarios involving multiple sensors collaboratively perceiving and addressing localization challenges, the requirement for inter-sensor calibration becomes crucial. Recent years have witnessed the emergence of the concept of multi-end cooperation, where infrastructure captures and transmits surrounding environment information to vehicles, bolstering their perception capabilities while mitigating costs. However, this also poses technical complexities, underscoring the pressing need for diverse end calibration. Camera and LiDAR, the bedrock sensors in autonomous driving, exhibit expansive applicability. This paper comprehensively examines and analyzes the calibration of multi-end camera-LiDAR setups from vehicle, roadside, and vehicle-road cooperation perspectives, outlining their relevant applications and profound significance. Concluding with a summary, we present our future-oriented ideas and hypotheses.
翻訳日:2024-05-17 14:02:34 公開日:2024-05-16
# トルコ語:急速に進化するトルコ語のためのダイアクロニック資源

Turkronicles: Diachronic Resources for the Fast Evolving Turkish Language ( http://arxiv.org/abs/2405.10133v1 )

ライセンス: Link先を確認
Togay Yazar, Mucahid Kutlu, İsa Kerem Bayırlı, (参考訳) 過去1世紀にわたって、トルコ語は、主に政府の介入によって大きく変化してきた。 本研究の目的は、トルコ語の進化を1923年にT\"urkiye"が設立されてから調査することである。 そこで我々はまず,T\"urkiye"の公式ガゼットに由来するトルコ語用ダイアクロニクコーパスであるトゥルクロニクルを紹介した。 トゥルクロニクルには45,375の文書があり、政府の行動について詳述している。 さらに、我々は、T\ urkiyeのグランド・ナショナル・議会の記録からなる既存のトルコ語コーパスを拡張して、次の2つのダイアクロニックコーパスを組み合わせて、1920年代以降にトルコ語の語彙と表記規則がどう変わったかという2つの主要な研究課題について答えを求める。我々の分析によると、トルコ語の語彙は、その間に大きく変化し、新たに作られたトルコ語の単語は、彼らの古い言葉の代わりとなる。特に、アクセントフレックスの使用が顕著に減少し、「-b」と「-d」がそれぞれ「-p」と「-t」に置き換えられる。 概して、この研究はトルコ語の様々な側面から、ダイアクロニックの観点から、トルコ語の劇的な変化を定量的に強調している。

Over the past century, the Turkish language has undergone substantial changes, primarily driven by governmental interventions. In this work, our goal is to investigate the evolution of the Turkish language since the establishment of T\"urkiye in 1923. Thus, we first introduce Turkronicles which is a diachronic corpus for Turkish derived from the Official Gazette of T\"urkiye. Turkronicles contains 45,375 documents, detailing governmental actions, making it a pivotal resource for analyzing the linguistic evolution influenced by the state policies. In addition, we expand an existing diachronic Turkish corpus which consists of the records of the Grand National Assembly of T\"urkiye by covering additional years. Next, combining these two diachronic corpora, we seek answers for two main research questions: How have the Turkish vocabulary and the writing conventions changed since the 1920s? Our analysis reveals that the vocabularies of two different time periods diverge more as the time between them increases, and newly coined Turkish words take the place of their old counterparts. We also observe changes in writing conventions. In particular, the use of circumflex noticeably decreases and words ending with the letters "-b" and "-d" are successively replaced with "-p" and "-t" letters, respectively. Overall, this study quantitatively highlights the dramatic changes in Turkish from various aspects of the language in a diachronic perspective.
翻訳日:2024-05-17 14:02:34 公開日:2024-05-16
# 不均一グラフアテンションを用いた一貫性と説明可能な動き予測に向けて

Towards Consistent and Explainable Motion Prediction using Heterogeneous Graph Attention ( http://arxiv.org/abs/2405.10134v1 )

ライセンス: Link先を確認
Tobias Demmler, Andreas Tamke, Thao Dang, Karsten Haug, Lars Mikelsons, (参考訳) 自動運転においては、他の道路利用者の動きを正確に解釈し、この知識を活用して将来の軌道を予測することが重要である。 これは典型的には、地図データと様々なエージェントの追跡軌跡の統合によって達成される。 多くの方法論がこれらの情報を各エージェントの特異な埋め込みに組み合わせ、将来の振る舞いを予測するのに使用される。 しかし、これらの手法は符号化プロセス中に正確な位置情報を失う可能性があるという点で顕著な欠点がある。 エンコーディングには一般的な地図情報が含まれる。 しかし、有効かつ一貫した軌道の生成は保証されない。 これにより、予測された軌道が実際の車線から逸脱する可能性がある。 本稿では,予測軌道を実際の地図に投影し,それらの相違を補正し,より一貫した予測へと導くために,新たな改良モジュールを提案する。 この汎用モジュールは、容易に広範囲のアーキテクチャに組み込むことができる。 さらに,エージェントと環境の関係を一元的なグラフアテンションネットワークで処理する新しいシーンエンコーダを提案する。 このグラフの異なるエッジの注意値を分析することで、ニューラルネットワークの内部動作に関するユニークな洞察を得ることができ、より説明可能な予測へと導くことができる。

In autonomous driving, accurately interpreting the movements of other road users and leveraging this knowledge to forecast future trajectories is crucial. This is typically achieved through the integration of map data and tracked trajectories of various agents. Numerous methodologies combine this information into a singular embedding for each agent, which is then utilized to predict future behavior. However, these approaches have a notable drawback in that they may lose exact location information during the encoding process. The encoding still includes general map information. However, the generation of valid and consistent trajectories is not guaranteed. This can cause the predicted trajectories to stray from the actual lanes. This paper introduces a new refinement module designed to project the predicted trajectories back onto the actual map, rectifying these discrepancies and leading towards more consistent predictions. This versatile module can be readily incorporated into a wide range of architectures. Additionally, we propose a novel scene encoder that handles all relations between agents and their environment in a single unified heterogeneous graph attention network. By analyzing the attention values on the different edges in this graph, we can gain unique insights into the neural network's inner workings leading towards a more explainable prediction.
翻訳日:2024-05-17 14:02:34 公開日:2024-05-16
# PL-MTEB: ベンチマークを組み込んだポーランドの大量テキスト

PL-MTEB: Polish Massive Text Embedding Benchmark ( http://arxiv.org/abs/2405.10138v1 )

ライセンス: Link先を確認
Rafał Poświata, Sławomir Dadas, Michał Perełkiewicz, (参考訳) 本稿では,ポーランド語におけるテキスト埋め込みの総合ベンチマークであるPL-MTEBについて紹介する。 PL-MTEBは5つのタスクタイプから28種類のNLPタスクで構成されている。 ポーランドのNLPコミュニティが以前使用していたデータセットに基づいてタスクを適応した。 さらに,ポーランドの学術出版物のタイトルと要約からなるPLSC(Polish Library of Science Corpus)データセットを作成した。 ポーランド語と多言語を含む15種類のテキスト埋め込みモデルの評価を行い、各タスクタイプとベンチマーク全体について詳細な結果と集計結果を収集した。 PL-MTEBはhttps://github.com/rafalposwiata/pl-mteb.comで公開されている。

In this paper, we introduce the Polish Massive Text Embedding Benchmark (PL-MTEB), a comprehensive benchmark for text embeddings in Polish. The PL-MTEB consists of 28 diverse NLP tasks from 5 task types. We adapted the tasks based on previously used datasets by the Polish NLP community. In addition, we created a new PLSC (Polish Library of Science Corpus) dataset consisting of titles and abstracts of scientific publications in Polish, which was used as the basis for two novel clustering tasks. We evaluated 15 publicly available models for text embedding, including Polish and multilingual ones, and collected detailed results for individual tasks and aggregated results for each task type and the entire benchmark. PL-MTEB comes with open-source code at https://github.com/rafalposwiata/pl-mteb.
翻訳日:2024-05-17 13:52:46 公開日:2024-05-16
# Libra: 大規模言語モデルに基づく疎結合ビジョンシステムの構築

Libra: Building Decoupled Vision System on Large Language Models ( http://arxiv.org/abs/2405.10140v1 )

ライセンス: Link先を確認
Yifan Xu, Xiaoshan Yang, Yaguang Song, Changsheng Xu, (参考訳) 本稿では,大規模言語モデル (LLM) 上の視覚系を分離したプロトタイプモデルであるLibraを紹介する。 分離された視覚システムは、内部モーダルモデリングと相互モーダル相互作用を分離し、ユニークな視覚情報モデリングと効果的な相互モーダル理解をもたらす。 Libraは視覚と言語入力の両方で個別の自動回帰モデリングによって訓練される。 具体的には,内部モーダルモデリングと相互モーダル相互作用のシナリオにおいて異なる注意パターンを実現するために,横断モーダルブリッジモジュールを用いたルーティングされたビジュアルエキスパートを,注意計算中に視覚と言語の流れをルーティングするために事前訓練されたLLMに組み込む。 実験の結果、Libraの専用設計は、5000万のトレーニングデータで既存の画像とテキストのシナリオで競合する強力なMLLMベースラインを実現し、将来のマルチモーダル基盤モデルに対する新たな視点を提供することが示された。 コードはhttps://github.com/YifanXu74/Libra.comで入手できる。

In this work, we introduce Libra, a prototype model with a decoupled vision system on a large language model (LLM). The decoupled vision system decouples inner-modal modeling and cross-modal interaction, yielding unique visual information modeling and effective cross-modal comprehension. Libra is trained through discrete auto-regressive modeling on both vision and language inputs. Specifically, we incorporate a routed visual expert with a cross-modal bridge module into a pretrained LLM to route the vision and language flows during attention computing to enable different attention patterns in inner-modal modeling and cross-modal interaction scenarios. Experimental results demonstrate that the dedicated design of Libra achieves a strong MLLM baseline that rivals existing works in the image-to-text scenario with merely 50 million training data, providing a new perspective for future multimodal foundation models. Code is available at https://github.com/YifanXu74/Libra.
翻訳日:2024-05-17 13:52:46 公開日:2024-05-16
# クロスエクササイズ境界リファインメントを用いたリレーショナルDNN検証

Relational DNN Verification With Cross Executional Bound Refinement ( http://arxiv.org/abs/2405.10143v1 )

ライセンス: Link先を確認
Debangshu Banerjee, Gagandeep Singh, (参考訳) 本稿では,Universal Adversarial Perturbation (UAP)に対する堅牢性,バイナリ文字列分類における最悪のハミング距離などの,ディープニューラルネットワーク(DNN)上で定義された関係性を検証することに注力する。 これらの特性の正確な検証には、同じDNNの複数の実行を推論する必要がある。 しかし、DNN検証における既存の作業のほとんどは、単一の実行上で定義されたプロパティのみを扱うため、結果として、リレーショナルプロパティには不正確である。 リレーショナルDNN検証のための最近の研究はほとんどなく、複数の実行の入力間の線形依存関係をキャプチャするが、不正確な結果をもたらす隠蔽層の出力間の依存関係は利用しない。 我々は,広範囲なデータセット,ネットワーク,およびリレーショナル特性に基づいてSOTAベースラインに対して精度の高い精度を得るため,DNNのすべての層における相互実行依存性を利用するスケーラブルなリレーショナル検証器RACoonを開発した。

We focus on verifying relational properties defined over deep neural networks (DNNs) such as robustness against universal adversarial perturbations (UAP), certified worst-case hamming distance for binary string classifications, etc. Precise verification of these properties requires reasoning about multiple executions of the same DNN. However, most of the existing works in DNN verification only handle properties defined over single executions and as a result, are imprecise for relational properties. Though few recent works for relational DNN verification, capture linear dependencies between the inputs of multiple executions, they do not leverage dependencies between the outputs of hidden layers producing imprecise results. We develop a scalable relational verifier RACoon that utilizes cross-execution dependencies at all layers of the DNN gaining substantial precision over SOTA baselines on a wide range of datasets, networks, and relational properties.
翻訳日:2024-05-17 13:52:46 公開日:2024-05-16
# SpecDETR: 変圧器を用いたハイパースペクトル点検出ネットワーク

SpecDETR: A Transformer-based Hyperspectral Point Object Detection Network ( http://arxiv.org/abs/2405.10148v1 )

ライセンス: Link先を確認
Zhaoxu Li, Wei An, Gaowei Guo, Longguang Wang, Yingqian Wang, Zaiping Lin, (参考訳) ハイパースペクトル目標検出(HTD)は、ハイパースペクトル画像のスペクトル情報に基づいて特定の物質を識別し、ポイントターゲットを検出することを目的としている。 しかし、既存のHTD法は画素単位のバイナリ分類に基づいて開発されており、ポイントターゲットの特徴表現能力は制限されている。 本稿では,物体検出の観点からのハイパースペクトル点目標検出を再考し,画素分類能力よりも対象レベルの予測能力に着目した。 トークンベースの検出変換器(DETR)の処理フローに着想を得て,超スペクトル多値点検出のための最初の専用ネットワークSpecDETRを提案する。 現在のオブジェクト検出フレームワークのバックボーン部分なしで、SpecDETRは、ハイパースペクトル画像の各ピクセルのスペクトル特徴をトークンとして扱い、局所的および大域的な調整用アテンションモジュールを備えた多層トランスフォーマーエンコーダを使用して、深部空間分光関節特徴を抽出する。 SpecDETRは、ポイントオブジェクト検出を1対多のセット予測問題とみなし、ポイントオブジェクト検出におけるパラメータと精度の観点から、現在の最先端のDETRデコーダを超える簡潔で効率的なDETRデコーダを実現する。 我々は、SPODと呼ばれるシミュレーションされたハイパースペクトル・ポイント・オブジェクト検出ベンチマークを開発し、ハイパースペクトル・マルチクラス・ポイント・オブジェクト検出における現在のオブジェクト検出ネットワークとHTD法の性能を初めて評価・比較した。 SpecDETRは、現在のオブジェクト検出ネットワークやSPODデータセット上のHTD手法と比較して、優れた性能を示す。 さらに,手動アノテーションの代わりにデータシミュレーションを用いることで,実世界の単一スペクトル点オブジェクトを直接検出できる,公開HTDデータセットを検証した。

Hyperspectral target detection (HTD) aims to identify specific materials based on spectral information in hyperspectral imagery and can detect point targets, some of which occupy a smaller than one-pixel area. However, existing HTD methods are developed based on per-pixel binary classification, which limits the feature representation capability for point targets. In this paper, we rethink the hyperspectral point target detection from the object detection perspective, and focus more on the object-level prediction capability rather than the pixel classification capability. Inspired by the token-based processing flow of Detection Transformer (DETR), we propose the first specialized network for hyperspectral multi-class point object detection, SpecDETR. Without the backbone part of the current object detection framework, SpecDETR treats the spectral features of each pixel in hyperspectral images as a token and utilizes a multi-layer Transformer encoder with local and global coordination attention modules to extract deep spatial-spectral joint features. SpecDETR regards point object detection as a one-to-many set prediction problem, thereby achieving a concise and efficient DETR decoder that surpasses the current state-of-the-art DETR decoder in terms of parameters and accuracy in point object detection. We develop a simulated hyperSpectral Point Object Detection benchmark termed SPOD, and for the first time, evaluate and compare the performance of current object detection networks and HTD methods on hyperspectral multi-class point object detection. SpecDETR demonstrates superior performance as compared to current object detection networks and HTD methods on the SPOD dataset. Additionally, we validate on a public HTD dataset that by using data simulation instead of manual annotation, SpecDETR can detect real-world single-spectral point objects directly.
翻訳日:2024-05-17 13:52:46 公開日:2024-05-16
# エージェント生成会話における話者検証

Speaker Verification in Agent-Generated Conversations ( http://arxiv.org/abs/2405.10150v1 )

ライセンス: Link先を確認
Yizhe Yang, Heyan Huang, Palakorn Achananuparp, Jing Jiang, Ee-Peng Lim, (参考訳) 近年の大型言語モデル (LLM) の成功は、様々な話者の特徴やスタイルに合わせたロールプレイング・会話エージェントを開発し、汎用的・特殊な対話タスクを遂行する能力を高めるために広く関心を集めている。 しかしながら、人間やLLMが行うかにかかわらず、生成した発話を話者にパーソナライズする能力は十分に研究されていない。 このギャップを埋めるために、エージェント生成会話における話者検証という新たな評価課題を導入する。 この目的のために、何千もの話者とその発話を含む大規模なデータセットコレクションを組み立てる。 また,実験環境下での話者検証モデルの開発と評価を行った。 さらに,LLMに基づくロールプレイングモデルのパーソナライズ能力を評価するために,話者検証モデルを利用する。 総合的な実験から、現在のロールプレイングモデルは話者を正確に模倣できないことが示唆される。

The recent success of large language models (LLMs) has attracted widespread interest to develop role-playing conversational agents personalized to the characteristics and styles of different speakers to enhance their abilities to perform both general and special purpose dialogue tasks. However, the ability to personalize the generated utterances to speakers, whether conducted by human or LLM, has not been well studied. To bridge this gap, our study introduces a novel evaluation challenge: speaker verification in agent-generated conversations, which aimed to verify whether two sets of utterances originate from the same speaker. To this end, we assemble a large dataset collection encompassing thousands of speakers and their utterances. We also develop and evaluate speaker verification models under experiment setups. We further utilize the speaker verification models to evaluate the personalization abilities of LLM-based role-playing models. Comprehensive experiments suggest that the current role-playing models fail in accurately mimicking speakers, primarily due to their inherent linguistic characteristics.
翻訳日:2024-05-17 13:52:46 公開日:2024-05-16
# 単一勾配形地表面に基づく量子CZゲート

Quantum CZ Gate based on Single Gradient Metasurface ( http://arxiv.org/abs/2405.10154v1 )

ライセンス: Link先を確認
Qi Liu, Yu Tian, Zhaohua Tian, Guixin Li, Xi-Feng Ren, Qihuang Gong, Ying Gu, (参考訳) 量子制御Z(CZ)ゲートを1つの勾配メタ曲面で実現する手法を提案する。 独自の平行ビーム分割機能、すなわち同じ分割比を持つ一連の接続ビーム分割器を用いて、1つの準曲面はCZゲート、複数の独立したCZゲート、またはカスケードされたCZゲートをサポートすることができる。 入力偏極決定出力パスロック機能を利用すると、同じ準曲面上で偏極符号化されたCZゲートとパス符号化されたCZゲートの両方が示され、量子デバイスの積分レベルがさらに向上する。 我々の研究は、準曲面を通して量子論理関数を統合するための道を開いた。

We propose a scheme to realize quantum controlled-Z (CZ) gates through single gradient metasurface. Using its unique parallel beam-splitting feature, i.e., a series of connected beam splitters with the same splitting ratio, one metasurface can support a CZ gate, several independent CZ gates, or a cascaded CZ gates. Taking advantage of the input polarization determined output path-locking feature, both polarization-encoded and path-encoded CZ gates can be demonstrated on the same metasurface, which further improves the integration level of quantum devices. Our research paves the way for integrating quantum logical function through the metasurface.
翻訳日:2024-05-17 13:52:46 公開日:2024-05-16
# PIR:事前指導表現学習によるリモートセンシング画像検索

PIR: Remote Sensing Image-Text Retrieval with Prior Instruction Representation Learning ( http://arxiv.org/abs/2405.10160v1 )

ライセンス: Link先を確認
Jiancheng Pan, Muyuan Ma, Qing Ma, Cong Bai, Shengyong Chen, (参考訳) リモートセンシング画像テキスト検索は、視覚と言語表現のアライメントを容易にするリモートセンシング解釈タスクの基本的な側面を構成する。 本稿では,視覚とテキスト表現の適応学習を指導するために,事前知識に基づく事前指示表現(PIR)学習パラダイムを提案する。 PIRに基づいて、ドメイン適応型リモートセンシング画像テキスト検索フレームワークPIR-ITRは、視覚言語理解タスクにおけるセマンティックノイズ問題に対処するために設計されている。 しかし、視覚言語基礎モデルの事前学習のための膨大なデータにより、リモートセンシング画像テキスト検索はさらにオープンドメイン検索タスクへと発展する。 このようにして、リモートセンシング画像テキスト検索のためのドメイン固有のCLIPベースのフレームワークであるPIR-CLIPを提案し、リモートセンシング視覚言語表現におけるセマンティックノイズに対処し、さらにオープンドメイン検索性能を向上させる。 視覚表現において、空間-PAEに基づく視覚指示表現(VIR)は、信念行列を構築することにより、リモートセンシングシーン認識の事前知識を利用して、セマンティックノイズの影響を低減するための重要な特徴を選択する。 テキスト表現において、Temporal-PAEに基づくLanguage Cycle Attention(LCA)は、以前のタイムステップを使用して現在のタイムステップを循環的に活性化し、テキスト表現能力を高める。 クラスタワイズ・アフィリエレーション・ロス(AL)はクラス間を制約し、共通部分空間における意味的混乱領域を減らすために提案される。 総合的な実験により、PIRはビジョンとテキスト表現を強化し、RSICDとRSITMDの2つのベンチマークデータセット上で、クローズドドメインとオープンドメイン検索の最先端の手法より優れていることが示された。

Remote sensing image-text retrieval constitutes a foundational aspect of remote sensing interpretation tasks, facilitating the alignment of vision and language representations. This paper introduces a prior instruction representation (PIR) learning paradigm that draws on prior knowledge to instruct adaptive learning of vision and text representations. Based on PIR, a domain-adapted remote sensing image-text retrieval framework PIR-ITR is designed to address semantic noise issues in vision-language understanding tasks. However, with massive additional data for pre-training the vision-language foundation model, remote sensing image-text retrieval is further developed into an open-domain retrieval task. Continuing with the above, we propose PIR-CLIP, a domain-specific CLIP-based framework for remote sensing image-text retrieval, to address semantic noise in remote sensing vision-language representations and further improve open-domain retrieval performance. In vision representation, Vision Instruction Representation (VIR) based on Spatial-PAE utilizes the prior-guided knowledge of the remote sensing scene recognition by building a belief matrix to select key features for reducing the impact of semantic noise. In text representation, Language Cycle Attention (LCA) based on Temporal-PAE uses the previous time step to cyclically activate the current time step to enhance text representation capability. A cluster-wise Affiliation Loss (AL) is proposed to constrain the inter-classes and to reduce the semantic confusion zones in the common subspace. Comprehensive experiments demonstrate that PIR could enhance vision and text representations and outperform the state-of-the-art methods of closed-domain and open-domain retrieval on two benchmark datasets, RSICD and RSITMD.
翻訳日:2024-05-17 13:52:46 公開日:2024-05-16
# LFED:大規模言語モデルのためのリテラリーフィクション評価データセット

LFED: A Literary Fiction Evaluation Dataset for Large Language Models ( http://arxiv.org/abs/2405.10166v1 )

ライセンス: Link先を確認
Linhao Yu, Qun Liu, Deyi Xiong, (参考訳) 大規模言語モデル(LLM)の急速な進化は、様々な次元にわたる性能の包括的評価の必要性を招いている。 本稿では,長編小説の理解と推論におけるLLMの能力評価を目的とした,文学フィクション評価データセットLFEDを提案する。 元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。 質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。 さらに,文学小説の特定の属性(小説のタイプ,文字番号,出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。 様々な最先端のLLMによる一連の実験を通して、これらのモデルがフィクションに関する問題に効果的に対処する上で大きな課題に直面し、ChatGPTはゼロショット設定で57.08%にしか達していないことを実証した。 データセットはhttps://github.com/tjunlp-lab/LFED.gitで公開される。

The rapid evolution of large language models (LLMs) has ushered in the need for comprehensive assessments of their performance across various dimensions. In this paper, we propose LFED, a Literary Fiction Evaluation Dataset, which aims to evaluate the capability of LLMs on the long fiction comprehension and reasoning. We collect 95 literary fictions that are either originally written in Chinese or translated into Chinese, covering a wide range of topics across several centuries. We define a question taxonomy with 8 question categories to guide the creation of 1,304 questions. Additionally, we conduct an in-depth analysis to ascertain how specific attributes of literary fictions (e.g., novel types, character numbers, the year of publication) impact LLM performance in evaluations. Through a series of experiments with various state-of-the-art LLMs, we demonstrate that these models face considerable challenges in effectively addressing questions related to literary fictions, with ChatGPT reaching only 57.08% under the zero-shot setting. The dataset will be publicly available at https://github.com/tjunlp-lab/LFED.git
翻訳日:2024-05-17 13:52:46 公開日:2024-05-16
# 非相反・長距離散逸結合によるトポロジカル・マルチモード増幅

Topological, multi-mode amplification induced by non-reciprocal, long-range dissipative couplings ( http://arxiv.org/abs/2405.10176v1 )

ライセンス: Link先を確認
Carlos Vega, Alberto Muñoz de las Heras, Diego Porras, Alejandro González-Tudela, (参考訳) 非相互結合または駆動は、駆動散逸ボソニック格子における定常、方向、増幅を誘導することが知られている。 この増幅現象は、系の力学行列で定義される非ゼロ位相不変量の存在と最近関連付けられており、したがって結合の構造に決定的に依存する。 本研究では, ボゾン鎖とキラルな多モードチャネルとの相互作用によって生じる非古典的, 非相互的, 長距離拡散結合の出現を実証し, トポロジカル増幅現象への影響について検討する。 これらの結合は、他の設定では予測されないトポロジカル、マルチモード増幅およびメタスタビリティ挙動を誘導するトポロジカル不変値よりも大きい値をもたらす可能性があることを示す。 さらに,これらの結合が局所パラメトリック駆動の存在下でトポロジカル増幅相を安定化させることを示す。 最後に,複数のエッジモードを持つ2次元トポロジカル絶縁体において,このような現象が自然に得られることを示す。

Non-reciprocal couplings or drivings are known to induce steady-state, directional, amplification in driven-dissipative bosonic lattices. This amplification phenomena has been recently linked to the existence of a non-zero topological invariant defined with the system's dynamical matrix, and thus, it depends critically on the couplings' structure. In this work, we demonstrate the emergence of unconventional, non-reciprocal, long-range dissipative couplings induced by the interaction of the bosonic chain with a chiral, multi-mode channel, and then study their impact on topological amplification phenomena. We show that these couplings can lead to topological invariant values greater than one which induce topological, multi-mode amplification and metastability behaviour not predicted in other setups. Besides, we also show how these couplings can also stabilize topological amplifying phases in the presence of local parametric drivings. Finally, we conclude by showing how such phenomena can be naturally obtained in two-dimensional topological insulators hosting multiple edge modes.
翻訳日:2024-05-17 13:52:46 公開日:2024-05-16
# 並列・分散エージェントベース進化モデルにおける系統追跡ガイド

A Guide to Tracking Phylogenies in Parallel and Distributed Agent-based Evolution Models ( http://arxiv.org/abs/2405.10183v1 )

ライセンス: Link先を確認
Matthew Andres Moreno, Anika Ranjan, Emily Dolson, Luis Zaman, (参考訳) コンピュータシミュレーションは、生物進化の力学を研究するための重要なツールである。 特に、エージェントベースモデルを用いたサイリコ研究は、シミュレーションエージェント間の祖先関係の高品質な記録を収集する機会を提供する。 このような系統学は、これらのシミュレーションにおける進化力学の洞察を与えることができる。 現存する研究は通常、系統を直接追跡し、進化史の正確な系統学的な記録を生み出している。 しかし、直接追跡は大規模で多プロセッサの進化シミュレーションでは非効率である。 より好意的にスケールするシミュレーションから系統情報を抽出する別のアプローチは、生物情報学者が生物間の遺伝的類似性を評価することによって系統を構築する方法に類似した、ポストホック推定である。 最近導入された「遺伝層序」アルゴリズムは、シミュレートされた生物ゲノム上の非コードアノテーションから系統学的歴史を効率的に推定する手段を提供する。 遺伝層序法の設定にはいくつかの選択肢があるが、再構築品質にどのように影響するかはまだ検証されていない。 そこで本研究では, 選択圧力, 空間構造, 生態動態の異なる進化条件の行列を交互に構成し, 再構成精度を調査した。 我々はこれらの実験の結果を合成し、遺伝層序を扱うためのベストプラクティスの規範的システムを提案する。

Computer simulations are an important tool for studying the mechanics of biological evolution. In particular, in silico work with agent-based models provides an opportunity to collect high-quality records of ancestry relationships among simulated agents. Such phylogenies can provide insight into evolutionary dynamics within these simulations. Existing work generally tracks lineages directly, yielding an exact phylogenetic record of evolutionary history. However, direct tracking can be inefficient for large-scale, many-processor evolutionary simulations. An alternate approach to extracting phylogenetic information from simulation that scales more favorably is post hoc estimation, akin to how bioinformaticians build phylogenies by assessing genetic similarities between organisms. Recently introduced ``hereditary stratigraphy'' algorithms provide means for efficient inference of phylogenetic history from non-coding annotations on simulated organisms' genomes. A number of options exist in configuring hereditary stratigraphy methodology, but no work has yet tested how they impact reconstruction quality. To address this question, we surveyed reconstruction accuracy under alternate configurations across a matrix of evolutionary conditions varying in selection pressure, spatial structure, and ecological dynamics. We synthesize results from these experiments to suggest a prescriptive system of best practices for work with hereditary stratigraphy, ultimately guiding researchers in choosing appropriate instrumentation for large-scale simulation studies.
翻訳日:2024-05-17 13:52:46 公開日:2024-05-16
# DiverGen: より多様な生成データによるより広いデータ分散学習によるインスタンスセグメンテーションの改善

DiverGen: Improving Instance Segmentation by Learning Wider Data Distribution with More Diverse Generative Data ( http://arxiv.org/abs/2405.10185v1 )

ライセンス: Link先を確認
Chengxiang Fan, Muzhi Zhu, Hao Chen, Yang Liu, Weijia Wu, Huaqi Zhang, Chunhua Shen, (参考訳) インスタンスのセグメンテーションはデータ不足であり、モデルキャパシティが増加するにつれて、正確性を向上させるためにデータスケールが不可欠になる。 現在、ほとんどのインスタンスセグメンテーションデータセットは、データスケールを制限するために、コストのかかる手作業によるアノテーションを必要としている。 このようなデータに基づいてトレーニングされたモデルは、トレーニングセット、特に稀なカテゴリに過度に適合する傾向があります。 最近の研究は、生成モデルを利用してデータ拡張のための合成データセットを作成するが、これらのアプローチは生成モデルの潜在能力を効果的に活用していない。 これらの問題に対処するために、DiverGenと呼ばれるデータ拡張のための生成データセットを構築するためのより効率的な戦略を導入する。 まず、分布の相違の観点から、生成データの役割を説明する。 モデルで学習した分布に及ぼす異なるデータの影響について検討する。 生成データは、モデルが学習できるデータ分布を拡大し、過剰適合を軽減できると主張している。 さらに, 生成データの多様性は, モデル性能の向上と, カテゴリの多様性, 迅速な多様性, 生成モデルの多様性といった様々な戦略を通じて, モデル性能の向上に不可欠であることが判明した。 これらの戦略により、モデルパフォーマンス改善のトレンドを維持しながら、データを数百万にスケールすることが可能になります。 LVISデータセットでは、DiverGenは強力なX-Pasteよりも優れており、すべてのカテゴリで+1.1ボックスAPと+1.1マスクAP、まれなカテゴリでは+1.9ボックスAPと+2.5マスクAPを達成している。

Instance segmentation is data-hungry, and as model capacity increases, data scale becomes crucial for improving the accuracy. Most instance segmentation datasets today require costly manual annotation, limiting their data scale. Models trained on such data are prone to overfitting on the training set, especially for those rare categories. While recent works have delved into exploiting generative models to create synthetic datasets for data augmentation, these approaches do not efficiently harness the full potential of generative models. To address these issues, we introduce a more efficient strategy to construct generative datasets for data augmentation, termed DiverGen. Firstly, we provide an explanation of the role of generative data from the perspective of distribution discrepancy. We investigate the impact of different data on the distribution learned by the model. We argue that generative data can expand the data distribution that the model can learn, thus mitigating overfitting. Additionally, we find that the diversity of generative data is crucial for improving model performance and enhance it through various strategies, including category diversity, prompt diversity, and generative model diversity. With these strategies, we can scale the data to millions while maintaining the trend of model performance improvement. On the LVIS dataset, DiverGen significantly outperforms the strong model X-Paste, achieving +1.1 box AP and +1.1 mask AP across all categories, and +1.9 box AP and +2.5 mask AP for rare categories.
翻訳日:2024-05-17 13:52:46 公開日:2024-05-16
# 多目的進化アルゴリズムを用いたハイパーグラフの最大化

Influence Maximization in Hypergraphs using Multi-Objective Evolutionary Algorithms ( http://arxiv.org/abs/2405.10187v1 )

ライセンス: Link先を確認
Stefano Genetti, Eros Ribaga, Elia Cunegatti, Quintino Francesco Lotito, Giovanni Iacca, (参考訳) 影響最大化(imfect Maximization, IM)問題は、ネットワーク内のノードの集合を見つけることを目的とするグラフ上のNPハード組合せ問題としてよく知られている。 IM問題を解く様々な方法のうち、進化アルゴリズム(EA)は特に有効であることが示されている。 トピックに関する文献は特に豊富だが、高階ネットワーク上のIM問題を解決するための試みはわずかに行われており、これは2つ以上のノードを含むインタラクションをキャプチャできる標準グラフの拡張である。 ハイパーグラフは、様々な領域における複雑な相互作用ネットワークをモデル化するための貴重なツールであるが、IMを含むグラフベースの問題を再考する必要がある。 本研究では,ハイパーグラフに対する多目的EAを提案する。 既存の手法は欲張りやヒューリスティックな手法に依存していますが、私たちの知る限りでは、この問題にEAを適用する最初の試みです。 提案手法は,9つの実世界のデータセットと3つの伝播モデルに対して,5つのベースラインアルゴリズムと比較して,ほとんどの場合において,超体積および解の多様性の観点から,最先端の結果が得られることを示した。

The Influence Maximization (IM) problem is a well-known NP-hard combinatorial problem over graphs whose goal is to find the set of nodes in a network that spreads influence at most. Among the various methods for solving the IM problem, evolutionary algorithms (EAs) have been shown to be particularly effective. While the literature on the topic is particularly ample, only a few attempts have been made at solving the IM problem over higher-order networks, namely extensions of standard graphs that can capture interactions that involve more than two nodes. Hypergraphs are a valuable tool for modeling complex interaction networks in various domains; however, they require rethinking of several graph-based problems, including IM. In this work, we propose a multi-objective EA for the IM problem over hypergraphs that leverages smart initialization and hypergraph-aware mutation. While the existing methods rely on greedy or heuristic methods, to our best knowledge this is the first attempt at applying EAs to this problem. Our results over nine real-world datasets and three propagation models, compared with five baseline algorithms, reveal that our method achieves in most cases state-of-the-art results in terms of hypervolume and solution diversity.
翻訳日:2024-05-17 13:52:46 公開日:2024-05-16
# グローバル・ローカルレベルでの科学的文書要約のための階層的注意グラフ

Hierarchical Attention Graph for Scientific Document Summarization in Global and Local Level ( http://arxiv.org/abs/2405.10202v1 )

ライセンス: Link先を確認
Chenlong Zhao, Xiwen Zhou, Xiaopeng Xie, Yong Zhang, (参考訳) 科学文書の要約は、入力テキストの長い構造のために難しい課題となっている。 この長い入力は、文間の大域的高次関係と、抽出的要約における最も重要なステップである局所的文内関係の同時モデリングを妨げる。 しかし、既存の手法は主に一つの関係に焦点をあて、両方の関係を同時に効果的にモデル化することを無視し、意味表現の学習が不十分になる可能性がある。 本稿では,階層的談話構造に基づく文書の局所的およびグローバルなモデル化にグラフニューラルネットワークを利用した新しい手法であるHAESumを提案する。 第一に、文内関係は局所的な異種グラフを用いて学習される。 その後、高次相互関係のキャラクタリゼーションを強化するために、新しいハイパーグラフ自己アテンション層が導入された。 提案手法を2つのベンチマークデータセットで検証し,HAESumの有効性と長期科学的文書のモデル化における階層構造の検討の重要性を実験的に検証した。 私たちのコードは \url{https://github.com/MoLICHENXI/HAESum} で利用可能です。

Scientific document summarization has been a challenging task due to the long structure of the input text. The long input hinders the simultaneous effective modeling of both global high-order relations between sentences and local intra-sentence relations which is the most critical step in extractive summarization. However, existing methods mostly focus on one type of relation, neglecting the simultaneous effective modeling of both relations, which can lead to insufficient learning of semantic representations. In this paper, we propose HAESum, a novel approach utilizing graph neural networks to locally and globally model documents based on their hierarchical discourse structure. First, intra-sentence relations are learned using a local heterogeneous graph. Subsequently, a novel hypergraph self-attention layer is introduced to further enhance the characterization of high-order inter-sentence relations. We validate our approach on two benchmark datasets, and the experimental results demonstrate the effectiveness of HAESum and the importance of considering hierarchical structures in modeling long scientific documents. Our code will be available at \url{https://github.com/MoLICHENXI/HAESum}
翻訳日:2024-05-17 13:52:46 公開日:2024-05-16
# GPTストアのマイニングと分析

GPT Store Mining and Analysis ( http://arxiv.org/abs/2405.10210v1 )

ライセンス: Link先を確認
Dongxun Su, Yanjie Zhao, Xinyi Hou, Shenao Wang, Haoyu Wang, (参考訳) 著名なChatGPTの重要な拡張として、GPTストアは、さまざまな生成事前学習トランスフォーマー(GPT)モデルの動的マーケットプレースとして機能し、会話型AIのフロンティアを形成する。 本稿では、GPTストアの詳細な測定結果について、トピックごとのGPTの分類、GPTの人気に影響を与える要因、潜在的なセキュリティリスクについて述べる。 本研究は,GPTストアにおけるGPTの分類評価から始まり,トピックによってどのように整理されているかを分析し,分類システムの有効性を評価する。 次に,特定のGPTの人気に影響を与える要因について検討し,ユーザの嗜好,アルゴリズムの影響,市場の動向について検討する。 最後に、研究はGPTストアのセキュリティリスクを掘り下げ、潜在的な脅威を特定し、既存のセキュリティ対策の堅牢性を評価する。 本研究は,GPTストアの動作動態とユーザインタラクションパターンに光を当てて,GPTストアの現状を概観する。 我々の研究は、GPTエコシステムの理解を深め、生成型AIの今後の研究、開発、政策立案に有用な洞察を提供することを目的としている。

As a pivotal extension of the renowned ChatGPT, the GPT Store serves as a dynamic marketplace for various Generative Pre-trained Transformer (GPT) models, shaping the frontier of conversational AI. This paper presents an in-depth measurement study of the GPT Store, with a focus on the categorization of GPTs by topic, factors influencing GPT popularity, and the potential security risks. Our investigation starts with assessing the categorization of GPTs in the GPT Store, analyzing how they are organized by topics, and evaluating the effectiveness of the classification system. We then examine the factors that affect the popularity of specific GPTs, looking into user preferences, algorithmic influences, and market trends. Finally, the study delves into the security risks of the GPT Store, identifying potential threats and evaluating the robustness of existing security measures. This study offers a detailed overview of the GPT Store's current state, shedding light on its operational dynamics and user interaction patterns. Our findings aim to enhance understanding of the GPT ecosystem, providing valuable insights for future research, development, and policy-making in generative AI.
翻訳日:2024-05-17 13:52:46 公開日:2024-05-16
# CPsyExam: 中国の心理学評価ベンチマーク

CPsyExam: A Chinese Benchmark for Evaluating Psychology using Examinations ( http://arxiv.org/abs/2405.10212v1 )

ライセンス: Link先を確認
Jiahao Zhao, Jingwei Zhu, Minghuan Tan, Min Yang, Di Yang, Chenhao Zhang, Guancheng Ye, Chengming Li, Xiping Hu, (参考訳) 本稿では,中国語の試験から得られた質問から構築した新しい心理学的ベンチマークCPsyExamを紹介する。 CPsyExamは、心理学的知識とケース分析を別々に優先順位付けし、現実世界のシナリオに心理学的知識を適用することの重要性を認識するように設計されている。 22kの質問のプールから4kを用いて、被験者のバランスの取れたカバレッジを提供し、さまざまなケース分析手法を取り入れたベンチマークを作成し、さらに、オープンソースからAPIベースのモデルまで、既存の大規模言語モデル~(LLM)の範囲を評価します。 実験と分析の結果,CPsyExam は LLM における心理学的理解を高めるための有効なベンチマークとして機能し,様々な粒度の LLM の比較を可能にした。

In this paper, we introduce a novel psychological benchmark, CPsyExam, constructed from questions sourced from Chinese language examinations. CPsyExam is designed to prioritize psychological knowledge and case analysis separately, recognizing the significance of applying psychological knowledge to real-world scenarios. From the pool of 22k questions, we utilize 4k to create the benchmark that offers balanced coverage of subjects and incorporates a diverse range of case analysis techniques.Furthermore, we evaluate a range of existing large language models~(LLMs), spanning from open-sourced to API-based models. Our experiments and analysis demonstrate that CPsyExam serves as an effective benchmark for enhancing the understanding of psychology within LLMs and enables the comparison of LLMs across various granularities.
翻訳日:2024-05-17 13:43:00 公開日:2024-05-16
# ソーシャルメディア討論におけるトリガーポイントとしての言葉

Words as Trigger Points in Social Media Discussions ( http://arxiv.org/abs/2405.10213v1 )

ライセンス: Link先を確認
Dimosthenis Antypas, Christian Arnold, Jose Camacho-Collados, Nedjma Ousidhoum, Carla Perez Almendros, (参考訳) トリガーポイント(英: Trigger Point)は、モー、ルックス、ヴェストハイザー(2023年)によって導入された概念である。 人々がコミュニケーションを行うとき、トリガーポイントは、個人が社会において公正、正常、あるいは適切であるものに対する理解が疑問視されていると感じた瞬間を表す。 元の研究では、個人はそのような引き金に対して感情的に反応し、強い、負の感情的な反応を示す。 本稿では,大量のソーシャルメディア投稿を分析して,個々の単語の大規模効果をトリガーポイントとする最初の体系的研究を紹介する。 われわれは、2020年から2022年にかけてReddit上でのオンライン議論を調査し、英国の政治のトリガーポイントとして特定される単語のセットに関連するサブレディットから1億件以上の投稿を収集した。 このようなトリガーワードがユーザのエンゲージメントに影響を与え、オンライン議論における敵意に顕著な結果をもたらすことが分かりました。 我々は、敵意を引き起こす言葉を誘発する経験的な証拠を共有し、それがヘイトスピーチ、敵の議論、意見の相違に対するインセンティブを提供する方法を共有している。 オンラインコミュニケーションの計算研究にトリガーポイントを導入するのはこれが初めてである。 我々の発見は、オンライン被害に関心のある研究者や、感情的な偏光の観点から市民が政治や社会をどう議論するかを調査する研究者に関係している。

Trigger points are a concept introduced by Mau, Lux, and Westheuser (2023) to study qualitative focus group interviews and understand polarisation in Germany. When people communicate, trigger points represent moments when individuals feel that their understanding of what is fair, normal, or appropriate in society is questioned. In the original studies, individuals react affectively to such triggers and show strong and negative emotional responses. In this paper, we introduce the first systematic study of the large-scale effect of individual words as trigger points by analysing a large amount of social media posts. We examine online deliberations on Reddit between 2020 and 2022 and collect >100 million posts from subreddits related to a set of words identified as trigger points in UK politics. We find that such trigger words affect user engagement and have noticeable consequences on animosity in online discussions. We share empirical evidence of trigger words causing animosity, and how they provide incentives for hate speech, adversarial debates, and disagreements. Our work is the first to introduce trigger points to computational studies of online communication. Our findings are relevant to researchers interested in online harms and who examine how citizens debate politics and society in light of affective polarisation.
翻訳日:2024-05-17 13:43:00 公開日:2024-05-16
# SMLP:シンボリック機械学習プロバー(ユーザマニュアル)

SMLP: Symbolic Machine Learning Prover (User Manual) ( http://arxiv.org/abs/2405.10215v1 )

ライセンス: Link先を確認
Franz Brauße, Zurab Khasidashvili, Konstantin Korovin, (参考訳) SMLP: シンボリック機械学習 Proverは、機械学習モデルで表されるシステムの探索と最適化のためのオープンソースのツールである。 SMLPは、SMT、制約、NNソルバに基づく検証および安定性制約の下でのMLモデルの探索と最適化にシンボリック推論を用いる。 さらに、その探索法は確率的および統計的手法によって導かれる。 SMLPは、csvフォーマット(通常はシステムの入出力のサンプル)でMLモデリングに適したデータのみを必要とする汎用ツールである。 SMLPは、アナログレベルでのハードウェア設計の分析と最適化にIntelで採用されている。 現在、SMLPはNN、多項式、ツリーモデルをサポートし、バックエンドでの推論と最適化にSMTソルバを使用している。

SMLP: Symbolic Machine Learning Prover an open source tool for exploration and optimization of systems represented by machine learning models. SMLP uses symbolic reasoning for ML model exploration and optimization under verification and stability constraints, based on SMT, constraint and NN solvers. In addition its exploration methods are guided by probabilistic and statistical methods. SMLP is a general purpose tool that requires only data suitable for ML modelling in the csv format (usually samples of the system's input/output). SMLP has been applied at Intel for analyzing and optimizing hardware designs at the analog level. Currently SMLP supports NNs, polynomial and tree models, and uses SMT solvers for reasoning and optimization at the backend, integration of specialized NN solvers is in progress.
翻訳日:2024-05-17 13:43:00 公開日:2024-05-16
# 外部モード予測のための時系列基本モデルの低ランク適応

Low-Rank Adaptation of Time Series Foundational Models for Out-of-Domain Modality Forecasting ( http://arxiv.org/abs/2405.10216v1 )

ライセンス: Link先を確認
Divij Gupta, Anubhav Bhatti, Suraj Parmar, Chen Dan, Yuwei Liu, Bingjie Shen, San Lee, (参考訳) Low-Rank Adaptation (LoRA) は、様々なモダリティやタスクにまたがる、大規模または基礎的なモデルを微調整するための広く使われているテクニックである。 しかし、時系列データ、特に基礎モデルへの応用は未定である。 本稿では,Lug-Llama,MOIRAI,Chronosといった現代時系列基盤モデルに対するLoRAの影響について検討する。 集中治療室 (ICUs) における敗血症患者の致命的な徴候を予測するためのLoRAの微調整能力を実証し, 既往の領域外モダリティに対するモデルの適応性を強調した。 LoRAの統合は、限られたドメイン固有データに対して、微調整された大規模モデルに関連する非効率を低減しつつ、予測性能を向上させることを目的としている。 実験により, 時系列基礎モデルのLoRA微調整により予測が大幅に向上し, 類似のモダリティをスクラッチからトレーニングした最先端モデルに匹敵する結果が得られた。 本研究では,調整可能なパラメータの数と予測性能のトレードオフを示すための総合的アブレーション研究を行い,モデル性能に対する様々なLoRA行列ランクの影響を評価する。

Low-Rank Adaptation (LoRA) is a widely used technique for fine-tuning large pre-trained or foundational models across different modalities and tasks. However, its application to time series data, particularly within foundational models, remains underexplored. This paper examines the impact of LoRA on contemporary time series foundational models: Lag-Llama, MOIRAI, and Chronos. We demonstrate LoRA's fine-tuning potential for forecasting the vital signs of sepsis patients in intensive care units (ICUs), emphasizing the models' adaptability to previously unseen, out-of-domain modalities. Integrating LoRA aims to enhance forecasting performance while reducing inefficiencies associated with fine-tuning large models on limited domain-specific data. Our experiments show that LoRA fine-tuning of time series foundational models significantly improves forecasting, achieving results comparable to state-of-the-art models trained from scratch on similar modalities. We conduct comprehensive ablation studies to demonstrate the trade-offs between the number of tunable parameters and forecasting performance and assess the impact of varying LoRA matrix ranks on model performance.
翻訳日:2024-05-17 13:43:00 公開日:2024-05-16
# ENADPool: グラフニューラルネットワークのためのエッジノード注意に基づく微分プール

ENADPool: The Edge-Node Attention-based Differentiable Pooling for Graph Neural Networks ( http://arxiv.org/abs/2405.10218v1 )

ライセンス: Link先を確認
Zhehan Zhao, Lu Bai, Lixin Cui, Ming Li, Yue Wang, Lixiang Xu, Edwin R. Hancock, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ分類のための強力なツールである。 GNNにとって重要な操作の1つは、ノード表現から効果的な埋め込みを学習できるダウンサンプリングまたはプールである。 本稿では,グラフ表現を効果的に学習するための階層型プール,すなわちエッジノード注意に基づく微分プール(ENADPool)を提案する。 従来の階層型プール操作とは違い,提案したENADPoolでは,各ノードを単一クラスタに割り当てるハードクラスタ化戦略を採用するだけでなく,ノードの特徴やエッジ接続強度を,各プールステップ後のアテンション機構に基づく階層構造に圧縮する。 その結果,従来の階層型プール操作で発生する一様エッジノード構造情報収集の欠点に対処するため,分離クラスタ内の異なるノードと対応するクラスタ間のエッジを同時に同定した。 さらに,既存のGNNが抱える過度な問題を軽減するために,提案したENADPool操作に付随するマルチディスタンスGNN(MD-GNN)モデルを提案する。 提案したENADPoolに関連するMD-GNNの有効性を示す実験を行った。

Graph Neural Networks (GNNs) are powerful tools for graph classification. One important operation for GNNs is the downsampling or pooling that can learn effective embeddings from the node representations. In this paper, we propose a new hierarchical pooling operation, namely the Edge-Node Attention-based Differentiable Pooling (ENADPool), for GNNs to learn effective graph representations. Unlike the classical hierarchical pooling operation that is based on the unclear node assignment and simply computes the averaged feature over the nodes of each cluster, the proposed ENADPool not only employs a hard clustering strategy to assign each node into an unique cluster, but also compress the node features as well as their edge connectivity strengths into the resulting hierarchical structure based on the attention mechanism after each pooling step. As a result, the proposed ENADPool simultaneously identifies the importance of different nodes within each separated cluster and edges between corresponding clusters, that significantly addresses the shortcomings of the uniform edge-node based structure information aggregation arising in the classical hierarchical pooling operation. Moreover, to mitigate the over-smoothing problem arising in existing GNNs, we propose a Multi-distance GNN (MD-GNN) model associated with the proposed ENADPool operation, allowing the nodes to actively and directly receive the feature information from neighbors at different random walk steps. Experiments demonstrate the effectiveness of the MD-GNN associated with the proposed ENADPool.
翻訳日:2024-05-17 13:43:00 公開日:2024-05-16
# SoK:ファジィのための慎重な評価実践

SoK: Prudent Evaluation Practices for Fuzzing ( http://arxiv.org/abs/2405.10220v1 )

ライセンス: Link先を確認
Moritz Schloegel, Nils Bars, Nico Schiller, Lukas Bernhard, Tobias Scharnowski, Addison Crump, Arash Ale Ebrahim, Nicolai Bissantz, Marius Muench, Thorsten Holz, (参考訳) ファジィングは、過去10年間にソフトウェアバグを発見するための非常に効果的なアプローチであることが証明されている。 AFLが軽量なカバレッジフィードバックという画期的な概念を普及させた後、ファジィングの分野は、新しい技術の提案、既存の戦略の方法論的側面の改善、あるいは既存の手法を新しいドメインに移植するなど、多くの科学的成果を目にしてきた。 このような作品はすべて、問題に適用可能性を示し、その性能を測定し、しばしば、徹底的な実証的な評価において、既存の作品よりも優れていることを示すことによって、そのメリットを証明しなければならない。 しかしファジィングは、テストプロセスにおけるランダム性など、ターゲット、環境、状況に非常に敏感である。 結局のところ、ランダム性に頼ることはファジィングのコア原則の1つであり、ファジィザの振る舞いの多くの側面を管理している。 環境の制御が難しい場合が多いため、実験の再現性は重要な問題であり、慎重な評価設定が必要である。 これらの脅威に対処するため、特にKleesらによるファズテストの評価は、慎重に設計された評価設定をどのように実装すべきかを概説している。 本研究では,2018年から2023年にかけて,トップ会場で発行された150枚のファジング論文の評価を体系的に分析した。 既存のガイドラインがどのように実装され、潜在的な欠点や落とし穴を観察するかを検討する。 ファジィ評価における統計的検査と系統的誤差に関する既存のガイドラインを,驚くほど軽視している。 例えば、報告されたバグを調査する場合、...

Fuzzing has proven to be a highly effective approach to uncover software bugs over the past decade. After AFL popularized the groundbreaking concept of lightweight coverage feedback, the field of fuzzing has seen a vast amount of scientific work proposing new techniques, improving methodological aspects of existing strategies, or porting existing methods to new domains. All such work must demonstrate its merit by showing its applicability to a problem, measuring its performance, and often showing its superiority over existing works in a thorough, empirical evaluation. Yet, fuzzing is highly sensitive to its target, environment, and circumstances, e.g., randomness in the testing process. After all, relying on randomness is one of the core principles of fuzzing, governing many aspects of a fuzzer's behavior. Combined with the often highly difficult to control environment, the reproducibility of experiments is a crucial concern and requires a prudent evaluation setup. To address these threats to validity, several works, most notably Evaluating Fuzz Testing by Klees et al., have outlined how a carefully designed evaluation setup should be implemented, but it remains unknown to what extent their recommendations have been adopted in practice. In this work, we systematically analyze the evaluation of 150 fuzzing papers published at the top venues between 2018 and 2023. We study how existing guidelines are implemented and observe potential shortcomings and pitfalls. We find a surprising disregard of the existing guidelines regarding statistical tests and systematic errors in fuzzing evaluations. For example, when investigating reported bugs, ...
翻訳日:2024-05-17 13:43:00 公開日:2024-05-16
# 頑健な多目的最適化のためのスカラレーションに基づくリスク概念

Scalarisation-based risk concepts for robust multi-objective optimisation ( http://arxiv.org/abs/2405.10221v1 )

ライセンス: Link先を確認
Ben Tu, Nikolas Kantas, Robert M. Lee, Behrang Shafei, (参考訳) ロバスト最適化は不確実性の存在下で関数を最適化するための確立されたフレームワークである。 この問題の本質的な目標は、問題の根底にある不確実性にも頑健であると同時に、意思決定者にとってもアウトプットが望ましいインプットの集合を特定することである。 本研究では,この問題の多目的拡張を計算的観点から検討する。 我々は、ロバストな多目的アルゴリズムの大多数が、ロバスト化とスカラー化という2つの重要な操作に依存していることを確認した。 ロバスティフィケーション(英: Robustification)とは、問題における不確実性について、疎遠化するために用いられる戦略のことである。 一方、スカラー化とは、それぞれの目的の相対的な重要性を符号化するために用いられる手続きを指す。 これらの操作が必ずしも可換であるとは限らないため、それらが実行される順序は、特定されるソリューションと最終的な決定に影響を及ぼす。 この研究は、これらの2つの操作の哲学的相違について説明することを目的としており、一方が他方の命令を選択すべき時期を強調することを目的としている。 分析の一環として、ロバストな多目的最適化問題の仕様と解決に、既存のリスク概念がいかに容易に組み入れられるかを示す。 さらに、当社のロバスト化とスカラライズ手法に基づいた、ロバストなParetoフロントとロバストなパフォーマンスメトリクスの概念を、どのように定義できるかも示しています。 これらの新しいアイデアの有効性を説明するために、実世界のデータセットに基づく2つの洞察に富んだ数値ケーススタディを提案する。

Robust optimisation is a well-established framework for optimising functions in the presence of uncertainty. The inherent goal of this problem is to identify a collection of inputs whose outputs are both desirable for the decision maker, whilst also being robust to the underlying uncertainties in the problem. In this work, we study the multi-objective extension of this problem from a computational standpoint. We identify that the majority of all robust multi-objective algorithms rely on two key operations: robustification and scalarisation. Robustification refers to the strategy that is used to marginalise over the uncertainty in the problem. Whilst scalarisation refers to the procedure that is used to encode the relative importance of each objective. As these operations are not necessarily commutative, the order that they are performed in has an impact on the resulting solutions that are identified and the final decisions that are made. This work aims to give an exposition on the philosophical differences between these two operations and highlight when one should opt for one ordering over the other. As part of our analysis, we showcase how many existing risk concepts can be easily integrated into the specification and solution of a robust multi-objective optimisation problem. Besides this, we also demonstrate how one can principally define the notion of a robust Pareto front and a robust performance metric based on our robustify and scalarise methodology. To illustrate the efficacy of these new ideas, we present two insightful numerical case studies which are based on real-world data sets.
翻訳日:2024-05-17 13:43:00 公開日:2024-05-16
# GDPR:その価値はあるか?その実施を経験した労働者の知覚

GDPR: Is it worth it? Perceptions of workers who have experienced its implementation ( http://arxiv.org/abs/2405.10225v1 )

ライセンス: Link先を確認
Gerard Buckley, Tristan Caulfield, Ingolf Becker, (参考訳) 一般データ保護規則(GDPR)は、プライバシとセキュリティの規制において、ゴールドスタンダードのままである。 我々は、GDPRの実施に必要なコストと労力が、規制の利益を市民として経験した労働者によってどのように見られているかを検討する。 多段階的な調査では、GDPRの実施前、実施前、実施後、同一企業で勤務していたN=273, 102人を対象に調査を行った。 調査によると、参加者は刺激を受けると権利を認識するが、規制当局についてはほとんど知らない。 彼らは職場におけるデータプラクティスの具体的な変更を観察し、トレードオフを高く評価している。 彼らは、自分の個人情報が雇用主のクライアントデータと同じくらい慎重に扱われることを慰めます。 GDPRを遵守し実行している人たちは、プライバシーに肯定的であり、無意味で官僚的な規制ではないと考えている。 規制に関する従来の否定的な物語と矛盾するため、これはまれである。 政策立案者は、GDPRが発展するにつれて、同様のデュアル・プロフェッショナル・コンシューマー・グループからの早期のフィードバックを継続しながら、この公的支援を構築したいと考えるかもしれない。

The General Data Protection Regulation (GDPR) remains the gold standard in privacy and security regulation. We investigate how the cost and effort required to implement GDPR is viewed by workers who have also experienced the regulations' benefits as citizens: is it worth it? In a multi-stage study, we survey N = 273 & 102 individuals who remained working in the same companies before, during, and after the implementation of GDPR. The survey finds that participants recognise their rights when prompted but know little about their regulator. They have observed concrete changes to data practices in their workplaces and appreciate the trade-offs. They take comfort that their personal data is handled as carefully as their employers' client data. The very people who comply with and execute the GDPR consider it to be positive for their company, positive for privacy and not a pointless, bureaucratic regulation. This is rare as it contradicts the conventional negative narrative about regulation. Policymakers may wish to build upon this public support while it lasts and consider early feedback from a similar dual professional-consumer group as the GDPR evolves.
翻訳日:2024-05-17 13:43:00 公開日:2024-05-16
# 拡張気象学のためのクロック干渉計における幾何学的位相増幅

Geometric phase amplification in a clock interferometer for enhanced metrology ( http://arxiv.org/abs/2405.10226v1 )

ライセンス: Link先を確認
Zhifan Zhou, Sebastian C. Carrasco, Christian Sanner, Vladimir S. Malinovsky, Ron Folman, (参考訳) 高精度な測定は、自然の基本的な法則を試験し、技術フロンティアを前進させるのに不可欠である。 クロック干渉計(英語版)は、内部時計を持つ粒子が2つの空間的経路に沿ってコヒーレントに分割され再結合され、その基本的な意味、特に量子力学と一般相対性理論の交わりによって大きな関心を呼んだ。 ここでは、クロック干渉計が、1つの内部量子状態を用いる技術的ノイズに制限されたクロックに対して、メートルロジカルな改善を提供することを示す。 この臨界作業点周辺の拡張は、幾何学的位相誘起信号-雑音比の利得と解釈できる。 実験装置では,外界の小さな差を測る際に,8.8デシベルの精度向上を推算する。 原子フラックスの高い測定では, 数十個のデシベルの精度向上が達成できると推定した。 これにより、基礎物理学のための優れたプローブと、様々な技術応用のための高性能センサーの開発への扉が開ける。

High-precision measurements are crucial for testing the fundamental laws of nature and for advancing the technological frontier. Clock interferometry, where particles with an internal clock are coherently split and recombined along two spatial paths, has sparked significant interest due to its fundamental implications, especially at the intersection of quantum mechanics and general relativity. Here, we demonstrate that a clock interferometer provides metrological improvement with respect to its technical-noise-limited counterpart employing a single internal quantum state. This enhancement around a critical working point can be interpreted as a geometric-phase-induced signal-to-noise ratio gain. In our experimental setup, we infer a precision enhancement of 8.8 decibels when measuring a small difference between external fields. We estimate that tens of decibels of precision enhancement could be attained for measurements with a higher atom flux. This opens the door to the development of a superior probe for fundamental physics as well as a high-performance sensor for various technological applications.
翻訳日:2024-05-17 13:43:00 公開日:2024-05-16
# 非ガウス過程としてのランダムReLUニューラルネットワーク

Random ReLU Neural Networks as Non-Gaussian Processes ( http://arxiv.org/abs/2405.10229v1 )

ライセンス: Link先を確認
Rahul Parhi, Pakshal Bohra, Ayoub El Biari, Mehrsa Pourya, Michael Unser, (参考訳) 我々は、ランダムに初期化パラメータと修正線形単位活性化関数を持つ浅層ニューラルネットワークの大規模なクラスを考察する。 これらのランダムニューラルネットワークがガウス的でないプロセスであることを示す。 副産物として、これらのネットワークは、衝動的ホワイトノイズ(ランダムディラック測度の組み合わせ)によって駆動される確率微分方程式の解であることを示す。 これらの過程は、重みとバイアスの法則と、入力領域の各有界領域におけるアクティベーションしきい値の密度によってパラメータ化される。 これらの過程が等方的で広義の自己相似であり、ハースト指数が3/2$であることを示す。 また, 自己共分散関数に対して, 極めて単純な閉形式式を導出する。 入力領域の各有界領域(すなわち、幅)のニューロンの数は、密度パラメータに比例する平均ポアソン則を持つランダム変数である。 最後に、適切な仮説の下では、期待される幅が無限大になる傾向があるので、これらの過程はガウス過程だけでなく、重みの法則に依存する非ガウス過程にも収束できることを示す。 我々の漸近的な結果は、いくつかの古典的な結果(ワイドネットワークはガウス過程に収束する)といくつかの新しい結果(ワイドネットワークは非ガウス過程に収束する)に新しい見解を与える。

We consider a large class of shallow neural networks with randomly initialized parameters and rectified linear unit activation functions. We prove that these random neural networks are well-defined non-Gaussian processes. As a by-product, we demonstrate that these networks are solutions to stochastic differential equations driven by impulsive white noise (combinations of random Dirac measures). These processes are parameterized by the law of the weights and biases as well as the density of activation thresholds in each bounded region of the input domain. We prove that these processes are isotropic and wide-sense self-similar with Hurst exponent $3/2$. We also derive a remarkably simple closed-form expression for their autocovariance function. Our results are fundamentally different from prior work in that we consider a non-asymptotic viewpoint: The number of neurons in each bounded region of the input domain (i.e., the width) is itself a random variable with a Poisson law with mean proportional to the density parameter. Finally, we show that, under suitable hypotheses, as the expected width tends to infinity, these processes can converge in law not only to Gaussian processes, but also to non-Gaussian processes depending on the law of the weights. Our asymptotic results provide a new take on several classical results (wide networks converge to Gaussian processes) as well as some new ones (wide networks can converge to non-Gaussian processes).
翻訳日:2024-05-17 13:43:00 公開日:2024-05-16
# インフルエンサーカルテル

Influencer Cartels ( http://arxiv.org/abs/2405.10231v1 )

ライセンス: Link先を確認
Marit Hinnosaar, Toomas Hinnosaar, (参考訳) ソーシャルメディアのインフルエンサーは、世界中でマーケティングのシェアが増加している。 インフルエンサーカルテル(インフルエンサーカルテル)は、インフルエンサーのグループがエンゲージメントを膨らませることで広告収入を増大させる。 我々の理論モデルでは、インフルエンサーカルテルは、ソーシャルメディアのエンゲージメントをターゲットのオーディエンスに拡大したり、関係の低いオーディエンスにエンゲージメントを分散させたりすることで、消費者の福祉を改善することができる。 本研究では、インフルエンサーカルテルの新たなデータと機械学習ツールを組み合わせたモデルの有効性を実証的に検証し、消費者福祉を最大化するための政策的含意を導出する。

Social media influencers account for a growing share of marketing worldwide. We demonstrate the existence of a novel form of market failure in this advertising market: influencer cartels, where groups of influencers collude to increase their advertising revenue by inflating their engagement. Our theoretical model shows that influencer cartels can improve consumer welfare if they expand social media engagement to the target audience, or reduce welfare if they divert engagement to less relevant audiences. We validate the model empirically using novel data on influencer cartels combined with machine learning tools, and derive policy implications for how to maximize consumer welfare.
翻訳日:2024-05-17 13:43:00 公開日:2024-05-16
# iDRAMA-Scored-2024:2020年から2023年までのScored Social Media Platformのデータセット

iDRAMA-Scored-2024: A Dataset of the Scored Social Media Platform from 2020 to 2023 ( http://arxiv.org/abs/2405.10233v1 )

ライセンス: Link先を確認
Jay Patel, Pujan Paudel, Emiliano De Cristofaro, Gianluca Stringhini, Jeremy Blackburn, (参考訳) オンラインウェブコミュニティは、しばしばプラットフォームポリシー違反の禁止に直面し、代替プラットフォームへの移行を奨励する。 しかしこの移行は、新しいプラットフォームに対する毒性の増加と予期せぬ結果をもたらす可能性がある。 近年、多くの代替プラットフォームからデータを収集し、オフラインイベント、陰謀運動、ヘイトスピーチの伝播、ハラスメントにつながる協調的な取り組みを示している。 したがって、これらの代替プラットフォームを特徴づけ、理解することが重要となる。 この方向の研究を進めるために、私たちはScoredから大規模なデータセットを収集し、リリースしました。これは、禁止されたフリンジコミュニティ、例えばc/TheDonald(右翼の著名なコミュニティ)とc/GreatAwakening(陰謀的なコミュニティ)を保護したRedditプラットフォームです。 4年間にわたって、私たちはScoredから約5700万の投稿を収集しました。 さらに、これらのコミュニティ内での議論を特徴づける分野をさらに発展させるために、最先端のモデルによって生成されたデータセット内の全ての投稿の文埋め込みを提供する。 我々は、広範囲のデータ収集や処理を必要とせずに、これらのリソースを彼らの調査に役立てることを目指している。

Online web communities often face bans for violating platform policies, encouraging their migration to alternative platforms. This migration, however, can result in increased toxicity and unforeseen consequences on the new platform. In recent years, researchers have collected data from many alternative platforms, indicating coordinated efforts leading to offline events, conspiracy movements, hate speech propagation, and harassment. Thus, it becomes crucial to characterize and understand these alternative platforms. To advance research in this direction, we collect and release a large-scale dataset from Scored -- an alternative Reddit platform that sheltered banned fringe communities, for example, c/TheDonald (a prominent right-wing community) and c/GreatAwakening (a conspiratorial community). Over four years, we collected approximately 57M posts from Scored, with at least 58 communities identified as migrating from Reddit and over 950 communities created since the platform's inception. Furthermore, we provide sentence embeddings of all posts in our dataset, generated through a state-of-the-art model, to further advance the field in characterizing the discussions within these communities. We aim to provide these resources to facilitate their investigations without the need for extensive data collection and processing efforts.
翻訳日:2024-05-17 13:43:00 公開日:2024-05-16
# 量子状態学習は回路の低境界に影響を及ぼす

Quantum State Learning Implies Circuit Lower Bounds ( http://arxiv.org/abs/2405.10242v1 )

ライセンス: Link先を確認
Nai-Hui Chia, Daniel Liang, Fang Song, (参考訳) 我々は,状態トモグラフィ,擬似ランダム性,量子状態合成,回路下界の接続を確立する。 特に、$\mathfrak{C}$ を多項式サイズの非一様量子回路の族とし、$|\psi \rangle$ のコピーが与えられたとき、$|\psi \rangle$ が $\mathfrak{C}$ によって生成されるか、またはハールランダムであるかを区別するアルゴリズムが存在すると仮定する。 任意の固定定数$c$に対して、アルゴリズムが少なくとも$O(2^{n^c})$時間と$2^{n^{0.99}}$サンプルを使用するなら、$\mathsf{stateBQE} \not\subset \mathsf{state}\mathfrak{C}$である。 ここで、$\mathsf{stateBQE} := \mathsf{stateBQTIME}[2^{O(n)}]$と$\mathsf{state}\mathfrak{C}$は、古典的な入力と量子出力の問題を捉えるRosenhal and Yuen (ITCS 2022)によって導入された状態合成複雑性クラスである。 効率的なトモグラフィーは、ほぼ指数時間アルゴリズムであっても、Haarランダム状態に対して同様に効率的に区別するアルゴリズムである。 多項式サイズの回路で生成される全ての状態はサンプルと時間で、$O(n^{\omega(1)})と$O(n^{\omega(1)})と$2(n^{\omega(1)})で学習できるので、わずかに自明な量子状態トモグラフィーアルゴリズムでさえ量子状態合成に関する新しい言明をもたらすことが示される。 最後に、我々の証明のわずかな修正により、量子状態の区別アルゴリズムは、決定問題に対する下位境界を導出できることを示している。 このことは、非一様量子回路クラスに対する時間効率のトモグラフィーアルゴリズムが、限定的で部分的な進歩しか持たない理由を明かすのに役立っている。 Arunachalam et al (FOCS 2021) は、ブール関数の量子学習と古典回路クラスの回路下界との類似性を明らかにしたが、状態トモグラフィーと状態合成の目的で修正した。

We establish connections between state tomography, pseudorandomness, quantum state synthesis, and circuit lower bounds. In particular, let $\mathfrak{C}$ be a family of non-uniform quantum circuits of polynomial size and suppose that there exists an algorithm that, given copies of $|\psi \rangle$, distinguishes whether $|\psi \rangle$ is produced by $\mathfrak{C}$ or is Haar random, promised one of these is the case. For arbitrary fixed constant $c$, we show that if the algorithm uses at most $O(2^{n^c})$ time and $2^{n^{0.99}}$ samples then $\mathsf{stateBQE} \not\subset \mathsf{state}\mathfrak{C}$. Here $\mathsf{stateBQE} := \mathsf{stateBQTIME}[2^{O(n)}]$ and $\mathsf{state}\mathfrak{C}$ are state synthesis complexity classes as introduced by Rosenthal and Yuen (ITCS 2022), which capture problems with classical inputs but quantum output. Note that efficient tomography implies a similarly efficient distinguishing algorithm against Haar random states, even for nearly exponential-time algorithms. Because every state produced by a polynomial-size circuit can be learned with $2^{O(n)}$ samples and time, or $O(n^{\omega(1)})$ samples and $2^{O(n^{\omega(1)})}$ time, we show that even slightly non-trivial quantum state tomography algorithms would lead to new statements about quantum state synthesis. Finally, a slight modification of our proof shows that distinguishing algorithms for quantum states can imply circuit lower bounds for decision problems as well. This help sheds light on why time-efficient tomography algorithms for non-uniform quantum circuit classes has only had limited and partial progress. Our work parallels results by Arunachalam et al. (FOCS 2021) that revealed a similar connection between quantum learning of Boolean functions and circuit lower bounds for classical circuit classes, but modified for the purposes of state tomography and state synthesis.
翻訳日:2024-05-17 13:43:00 公開日:2024-05-16
# DocuMint: 小型言語モデルを用いたPythonのドキュメント生成

DocuMint: Docstring Generation for Python using Small Language Models ( http://arxiv.org/abs/2405.10243v1 )

ライセンス: Link先を確認
Bibek Poudel, Adam Cook, Sekou Traore, Shelah Ameli, (参考訳) 効果的なコミュニケーションは、特にドキュメントを通じて、ソフトウェア開発におけるコントリビュータ間のコラボレーションの心臓部となる。 言語モデル(LM)の最近の進歩により、そのエコシステムに新しいタイプのアクターが導入された。 本研究は, 精度, 簡潔さ, 明度を評価し, 数学式による定量的な評価と, 人間の評価による定性的な評価により, 高品質なドクストリングを生成するための小型言語モデル(SLM)の有効性について検討した。 さらに、大規模な教師付き微調整データセットであるDocuMintを10万のサンプルで紹介する。 定量的実験では、Llama 3 8Bは全ての測定値で最高の性能を達成し、簡潔さと明度はそれぞれ0.605と64.88であった。 しかし、人間による評価では、CodeGemma 7Bは全指標中10点中8.3点のスコアで最高となった。 DocuMintデータセットを使用したCodeGemma 2Bモデルの微調整により、すべてのメトリクスのパフォーマンスが大幅に改善され、精度は最大22.5%向上した。 微調整されたモデルとデータセットはHuggingFaceで見ることができ、コードはリポジトリで見ることができます。

Effective communication, specifically through documentation, is the beating heart of collaboration among contributors in software development. Recent advancements in language models (LMs) have enabled the introduction of a new type of actor in that ecosystem: LM-powered assistants capable of code generation, optimization, and maintenance. Our study investigates the efficacy of small language models (SLMs) for generating high-quality docstrings by assessing accuracy, conciseness, and clarity, benchmarking performance quantitatively through mathematical formulas and qualitatively through human evaluation using Likert scale. Further, we introduce DocuMint, as a large-scale supervised fine-tuning dataset with 100,000 samples. In quantitative experiments, Llama 3 8B achieved the best performance across all metrics, with conciseness and clarity scores of 0.605 and 64.88, respectively. However, under human evaluation, CodeGemma 7B achieved the highest overall score with an average of 8.3 out of 10 across all metrics. Fine-tuning the CodeGemma 2B model using the DocuMint dataset led to significant improvements in performance across all metrics, with gains of up to 22.5% in conciseness. The fine-tuned model and the dataset can be found in HuggingFace and the code can be found in the repository.
翻訳日:2024-05-17 13:43:00 公開日:2024-05-16
# ゼロディコード量子状態解析のためのグラフ理論フレームワーク

A Graph-Theoretical Framework to Analyse Zero Discord Quantum States ( http://arxiv.org/abs/2405.10245v1 )

ライセンス: Link先を確認
Anoopa Joshi, Parvinder Singh, Atul Kumar, (参考訳) 本稿では、正の半定性を達成するための行列とその前提条件を包括的に探求する。 この研究は、重み付きグラフの文脈における純粋量子状態に関する一連の定理を練り上げた。 本研究の主な目的は、量子不協和の研究のためのグラフ理論の枠組みを確立し、ユニタリ演算子を用いてゼロ量子不協和状態に必要な十分条件を特定することである。 本研究の目的は, 量子不協和の理解と, グラフ理論による量子情報理論への応用である。

This article comprehensively explores matrices and their prerequisites for achieving positive semidefiniteness. The study delves into a series of theorems concerning pure quantum states in the context of weighted graphs. The main objective of this study is to establish a graph-theoretic framework for the study of quantum discord and to identify the necessary and sufficient conditions for zero quantum discord states using unitary operators. This research aims to advance the understanding of quantum discord and its implications for quantum information theory with a graph-theoretic framework.
翻訳日:2024-05-17 13:43:00 公開日:2024-05-16
# 自然言語生成タスクのための大規模言語モデルの体系的評価

A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks ( http://arxiv.org/abs/2405.10251v1 )

ライセンス: Link先を確認
Xuanfan Ni, Piji Li, (参考訳) 最近の研究は、コモンセンス推論、数学的推論、コード生成といった分野における大きな言語モデル(LLM)を評価している。 しかしながら、我々の知る限りでは、自然言語生成(NLG)タスクにおけるLLMの性能を特に調査する研究は行われていない。 そこで本稿では,NLGタスクの文脈において,ChatGPT,ChatGLM,T5ベースモデル,LLaMAベースモデル,およびPythiaベースモデルなど,よく知られた高パフォーマンスLCMの包括的評価を行う。 対話生成とテキスト要約を含む英語と中国語のデータセットを選択する。 さらに,入力テンプレートと後処理戦略を組み込んだ共通評価設定を提案する。 本研究は, 詳細な分析を伴って, 両自動検査の結果を報告する。

Recent efforts have evaluated large language models (LLMs) in areas such as commonsense reasoning, mathematical reasoning, and code generation. However, to the best of our knowledge, no work has specifically investigated the performance of LLMs in natural language generation (NLG) tasks, a pivotal criterion for determining model excellence. Thus, this paper conducts a comprehensive evaluation of well-known and high-performing LLMs, namely ChatGPT, ChatGLM, T5-based models, LLaMA-based models, and Pythia-based models, in the context of NLG tasks. We select English and Chinese datasets encompassing Dialogue Generation and Text Summarization. Moreover, we propose a common evaluation setting that incorporates input templates and post-processing strategies. Our study reports both automatic results, accompanied by a detailed analysis.
翻訳日:2024-05-17 13:33:15 公開日:2024-05-16
# PRISM:スライドレベル病理組織学のための多モード生成基盤モデル

PRISM: A Multi-Modal Generative Foundation Model for Slide-Level Histopathology ( http://arxiv.org/abs/2405.10254v1 )

ライセンス: Link先を確認
George Shaikovski, Adam Casson, Kristen Severson, Eric Zimmermann, Yi Kan Wang, Jeremy D. Kunz, Juan A. Retamero, Gerard Oakley, David Klimstra, Christopher Kanan, Matthew Hanna, Michal Zelechowski, Julian Viret, Neil Tenenholtz, James Hall, Nicolo Fusi, Razik Yousfi, Peter Hamilton, William A. Moye, Eugene Vorontsov, Siqi Liu, Thomas J. Fuchs, (参考訳) 計算病理学の基礎モデルは、新しい臨床決定支援システムと精密医療のためのモデルの開発を解き放つことを約束する。 しかし、1つ以上のスライド画像のレベルで定義されるほとんどの臨床分析と、スライド画像全体に含まれる数千もの画像タイルを別々に処理する基礎モデルとの間にはミスマッチがある。 多数のタイルにまたがる情報を複数のスライド画像に集約するためにネットワークを訓練する必要があるため、これらのモデルへの影響は制限される。 本研究では,Virchhowタイルの埋め込みをベースとしたH&E-Stained Histopathology (PRISM) のスライドレベル基盤モデルを提案し,臨床報告テキストを事前学習に活用する。 タイルの埋め込みを用いて、PRISMは臨床報告を生成できるスライドレベルの埋め込みを生成し、いくつかのモードで使用することができる。 テキストプロンプトを用いて、PRISMはゼロショットがん検出とサブタイピング性能を、教師付きアグリゲータモデルのそれより上回るように達成する。 線形分類器を用いたスライド埋め込みを用いて、PRISMは教師付きアグリゲータモデルを上回る。 さらに、PRISMスライドエンコーダの微調整により、通常、トレーニングデータの低可用性に悩まされるタスクであるバイオマーカー予測のためのラベル効率のよいトレーニングが得られ、トレーニングデータの10%を初期化してトレーニングしたアグリゲータは、すべてのデータを使用する教師付きベースラインよりも優れていることを示す。

Foundation models in computational pathology promise to unlock the development of new clinical decision support systems and models for precision medicine. However, there is a mismatch between most clinical analysis, which is defined at the level of one or more whole slide images, and foundation models to date, which process the thousands of image tiles contained in a whole slide image separately. The requirement to train a network to aggregate information across a large number of tiles in multiple whole slide images limits these models' impact. In this work, we present a slide-level foundation model for H&E-stained histopathology, PRISM, that builds on Virchow tile embeddings and leverages clinical report text for pre-training. Using the tile embeddings, PRISM produces slide-level embeddings with the ability to generate clinical reports, resulting in several modes of use. Using text prompts, PRISM achieves zero-shot cancer detection and sub-typing performance approaching and surpassing that of a supervised aggregator model. Using the slide embeddings with linear classifiers, PRISM surpasses supervised aggregator models. Furthermore, we demonstrate that fine-tuning of the PRISM slide encoder yields label-efficient training for biomarker prediction, a task that typically suffers from low availability of training data; an aggregator initialized with PRISM and trained on as little as 10% of the training data can outperform a supervised baseline that uses all of the data.
翻訳日:2024-05-17 13:33:15 公開日:2024-05-16
# 等価皮膚分析のための公平な知識伝達に向けたバイアス&バイアスに基づくアプローチ

Biasing & Debiasing based Approach Towards Fair Knowledge Transfer for Equitable Skin Analysis ( http://arxiv.org/abs/2405.10256v1 )

ライセンス: Link先を確認
Anshul Pundhir, Balasubramanian Raman, Pravendra Singh, (参考訳) 深層学習モデル、特に畳み込みニューラルネットワーク(CNN)は皮膚疾患の診断において例外的な性能を示し、皮膚科医を上回っている。 しかし、彼らはまた、特に多様な肌の色や性別に関して、特定の人口統計学的特徴に関連する偏見を明らかにし、公平性や広範囲な展開を制限する懸念を喚起している。 研究者たちは、AIベースのソリューションの公正性を保証するために積極的に取り組んでいるが、既存の方法は公正性のために努力するときに精度の低下を引き起こす。 この問題を解決するために,学生ネットワークに公平な知識を伝達するための「二バイアスの教師」に基づくアプローチを提案する。 本手法は,学生ネットワークに存在するバイアスを,予測精度を損なうことなく軽減する。 実際、ほとんどの場合、我々の手法はベースラインモデルの精度を向上させる。 この目的を達成するために、偏りと偏りの喪失項を含む重み付き損失関数を開発した。 フェアネスを達成するための最先端アプローチを克服し、同時に精度を向上しました。 提案手法は,標準的な精度と公正度評価尺度を用いて,2つの皮膚科学データセット上で評価・検証されている。 再現性と今後の研究を促進するために、ソースコードを公開します。

Deep learning models, particularly Convolutional Neural Networks (CNNs), have demonstrated exceptional performance in diagnosing skin diseases, often outperforming dermatologists. However, they have also unveiled biases linked to specific demographic traits, notably concerning diverse skin tones or gender, prompting concerns regarding fairness and limiting their widespread deployment. Researchers are actively working to ensure fairness in AI-based solutions, but existing methods incur an accuracy loss when striving for fairness. To solve this issue, we propose a `two-biased teachers' (i.e., biased on different sensitive attributes) based approach to transfer fair knowledge into the student network. Our approach mitigates biases present in the student network without harming its predictive accuracy. In fact, in most cases, our approach improves the accuracy of the baseline model. To achieve this goal, we developed a weighted loss function comprising biasing and debiasing loss terms. We surpassed available state-of-the-art approaches to attain fairness and also improved the accuracy at the same time. The proposed approach has been evaluated and validated on two dermatology datasets using standard accuracy and fairness evaluation measures. We will make source code publicly available to foster reproducibility and future research.
翻訳日:2024-05-17 13:33:15 公開日:2024-05-16
# プライベートにしておく - オンラインテキストの教師なしプライバタイズ

Keep It Private: Unsupervised Privatization of Online Text ( http://arxiv.org/abs/2405.10260v1 )

ライセンス: Link先を確認
Calvin Bao, Marine Carpuat, (参考訳) 著者の難読化技術は、原作者の身元を隠すために自動的にテキストを書き直すことによって、オンラインコミュニケーションにおけるプライバシー保護を支援するという約束を掲げている。 しかしながら、難読化はNLP文学の狭い環境で評価され、主に非自然的な出力につながる表面的な編集操作で対処されてきた。 本研究では,音質,感覚,プライバシのバランスをとる書き直しを生成するために,強化学習を通じて大規模言語モデルを微調整する自動テキスト民営化フレームワークを提案する。 短命長テキストからなる68kの著者による大規模な英語Reddit投稿に対して,これを広範囲に評価した。 著者プロファイル長や著者検出戦略を含む評価条件における性能変化について検討する。 本手法は,自動計測と人的評価の両面から高いテキスト品質を維持し,複数の自動オーサシップ攻撃を回避した。

Authorship obfuscation techniques hold the promise of helping people protect their privacy in online communications by automatically rewriting text to hide the identity of the original author. However, obfuscation has been evaluated in narrow settings in the NLP literature and has primarily been addressed with superficial edit operations that can lead to unnatural outputs. In this work, we introduce an automatic text privatization framework that fine-tunes a large language model via reinforcement learning to produce rewrites that balance soundness, sense, and privacy. We evaluate it extensively on a large-scale test set of English Reddit posts by 68k authors composed of short-medium length texts. We study how the performance changes among evaluative conditions including authorial profile length and authorship detection strategy. Our method maintains high text quality according to both automated metrics and human evaluation, and successfully evades several automated authorship attacks.
翻訳日:2024-05-17 13:33:15 公開日:2024-05-16
# 相互作用の2相ダイナミクスがDNN学習過度特徴の出発点を説明する

Two-Phase Dynamics of Interactions Explains the Starting Point of a DNN Learning Over-Fitted Features ( http://arxiv.org/abs/2405.10262v1 )

ライセンス: Link先を確認
Junpeng Zhang, Qing Li, Liang Lin, Quanshi Zhang, (参考訳) 本稿では,ディープニューラルネットワーク(DNN)学習相互作用のダイナミクスについて検討する。 以前の研究では、各入力サンプルが与えられたとき、よく訓練されたDNNは、通常、サンプル内の入力変数間の少数の相互作用(非線形関係)を符号化するだけであることを発見、数学的に証明されている。 一連の定理は、DNNの推論がこれらの相互作用を推論の原始パターンとして使うのと等価であることを示すために導出された。 本稿では,DNNが2段階の相互作用を学習していることを明らかにする。 第1相は主に中位と高位の相互作用を罰し、第2相は徐々に増加する順序の相互作用を学習する。 2相現象をDNN学習における過度な特徴の出発点とみなすことができる。 このような現象は、異なるタスクのために訓練された様々なアーキテクチャを持つDNNによって広く共有されている。 したがって、2相ダイナミクスの発見は、DNNが徐々に異なる推論パターン(相互作用)を学習する方法の詳細なメカニズムを提供する。 特に,高次相互作用は低次相互作用よりも一般化力が弱いという主張も検証した。 これにより、DNNの一般化能力がトレーニング過程でどのように変化するかも説明できる。

This paper investigates the dynamics of a deep neural network (DNN) learning interactions. Previous studies have discovered and mathematically proven that given each input sample, a well-trained DNN usually only encodes a small number of interactions (non-linear relationships) between input variables in the sample. A series of theorems have been derived to prove that we can consider the DNN's inference equivalent to using these interactions as primitive patterns for inference. In this paper, we discover the DNN learns interactions in two phases. The first phase mainly penalizes interactions of medium and high orders, and the second phase mainly learns interactions of gradually increasing orders. We can consider the two-phase phenomenon as the starting point of a DNN learning over-fitted features. Such a phenomenon has been widely shared by DNNs with various architectures trained for different tasks. Therefore, the discovery of the two-phase dynamics provides a detailed mechanism for how a DNN gradually learns different inference patterns (interactions). In particular, we have also verified the claim that high-order interactions have weaker generalization power than low-order interactions. Thus, the discovered two-phase dynamics also explains how the generalization power of a DNN changes during the training process.
翻訳日:2024-05-17 13:33:15 公開日:2024-05-16
# 部分単元学習について

On Partially Unitary Learning ( http://arxiv.org/abs/2405.10263v1 )

ライセンス: Link先を確認
Mikhail Gennadievich Belov, Vladislav Gennadievich Malyshkin, (参考訳) ヒルベルト空間 $IN$ of $\left|\psi\right\rangle$ と $OUT$ of $\left|\phi\right\rangle$ の最適写像の問題は、(位相を含む)波動関数の一連の測定に基づいて、$\psi_l \to \phi_l$, $l=1\dots M$ を最適化問題として定式化し、全フィデリティ $\sum_{l=1}^{M} \omega^{(l)} \left|\langle\phi_l|\mathcal{U}|\psi_l\rangle\right|^2$ の確率保存制約を最大化する。 構成作用素 $\mathcal{U}$ は$IN$ to $OUT$ 量子チャネルと見なすことができ、次元 $\dim(OUT) \times \dim(IN)$ を $A^{OUT}=\mathcal{U} A^{IN} \mathcal{U}^{\dagger}$ として変換する。 この最適化問題の大域的な最大値を求める反復アルゴリズムを開発し,多くの問題に適用した。 アルゴリズムを実装するソフトウェア製品は、著者から入手可能である。

The problem of an optimal mapping between Hilbert spaces $IN$ of $\left|\psi\right\rangle$ and $OUT$ of $\left|\phi\right\rangle$ based on a set of wavefunction measurements (within a phase) $\psi_l \to \phi_l$, $l=1\dots M$, is formulated as an optimization problem maximizing the total fidelity $\sum_{l=1}^{M} \omega^{(l)} \left|\langle\phi_l|\mathcal{U}|\psi_l\rangle\right|^2$ subject to probability preservation constraints on $\mathcal{U}$ (partial unitarity). Constructed operator $\mathcal{U}$ can be considered as a $IN$ to $OUT$ quantum channel; it is a partially unitary rectangular matrix of the dimension $\dim(OUT) \times \dim(IN)$ transforming operators as $A^{OUT}=\mathcal{U} A^{IN} \mathcal{U}^{\dagger}$. An iteration algorithm finding the global maximum of this optimization problem is developed and it's application to a number of problems is demonstrated. A software product implementing the algorithm is available from the authors.
翻訳日:2024-05-17 13:33:15 公開日:2024-05-16
# シンプレクティック量子回路のアーキテクチャとランダム特性

Architectures and random properties of symplectic quantum circuits ( http://arxiv.org/abs/2405.10264v1 )

ライセンス: Link先を確認
Diego García-Martín, Paolo Braccia, M. Cerezo, (参考訳) パラメタライズドおよびランダムユニタリ(直交)$n$-qubit回路は量子情報において中心的な役割を果たす。 したがって、シンプレクティック変換を実装する回路が同様の注意を惹きつけると自然に仮定できる。 しかし、$\mathbb{SP}(d/2)$ -- $d\times d$ ユニタリシンプレクティック行列の群 -- は、これまで見過ごされてきた。 この作業では、この誤りを正そうとしています。 まず、シンプレクティック代数 $i\mathfrak{sp}(d/2)$ に対して、任意の生成子の集合 $\mathcal{G}$ を示す。 ここでは、そのような集合と、ユニタリ回路と直交回路の等価回路の2つの重要な違いを明らかにする。 すなわち、$\mathcal{G}$ の作用素は任意の局所シンプレクティックユニタリを生成できず、それらは変換不変ではない。 次に、シンプレクティック群とブラウアー代数の間のシュル=ワイル双対性をレビューし、ウィンガルテン計算のツールを用いて、ハールランダムシンプレクティック回路の出力におけるパウリ測度がガウス過程に収束できることを証明する。 副生成物として、そのような解析は、$\mathbb{SP}(d/2)$に対して$t$-designsを形成する回路におけるパウリ測度に対する濃度境界を与える。 そこで本研究では,浅いランダムシンプレクティック回路を解析するためのテンソルネットワークツールを提案する。

Parametrized and random unitary (or orthogonal) $n$-qubit circuits play a central role in quantum information. As such, one could naturally assume that circuits implementing symplectic transformation would attract similar attention. However, this is not the case, as $\mathbb{SP}(d/2)$ -- the group of $d\times d$ unitary symplectic matrices -- has thus far been overlooked. In this work, we aim at starting to right this wrong. We begin by presenting a universal set of generators $\mathcal{G}$ for the symplectic algebra $i\mathfrak{sp}(d/2)$, consisting of one- and two-qubit Pauli operators acting on neighboring sites in a one-dimensional lattice. Here, we uncover two critical differences between such set, and equivalent ones for unitary and orthogonal circuits. Namely, we find that the operators in $\mathcal{G}$ cannot generate arbitrary local symplectic unitaries and that they are not translationally invariant. We then review the Schur-Weyl duality between the symplectic group and the Brauer algebra, and use tools from Weingarten calculus to prove that Pauli measurements at the output of Haar random symplectic circuits can converge to Gaussian processes. As a by-product, such analysis provides us with concentration bounds for Pauli measurements in circuits that form $t$-designs over $\mathbb{SP}(d/2)$. To finish, we present tensor-network tools to analyze shallow random symplectic circuits, and we use these to numerically show that computational-basis measurements anti-concentrate at logarithmic depth.
翻訳日:2024-05-17 13:33:15 公開日:2024-05-16
# 2つの言語の物語:音声言語スーパービジョンによる大語彙連続手話認識

A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision ( http://arxiv.org/abs/2405.10266v1 )

ライセンス: Link先を確認
Charles Raude, K R Prajwal, Liliane Momeni, Hannah Bull, Samuel Albanie, Andrew Zisserman, Gül Varol, (参考訳) 本研究の目的は,大語彙連続手話認識(CSLR)と手話検索である。 この目的のために,符号付き言語と音声言語テキストの結合埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。 大規模語彙設定におけるCSLR評価を可能にするために,手作業で収集した新しいデータセットアノテーションを導入する。 これらのアノテーションは、6時間のテストビデオに対して連続的なサインレベルアノテーションを提供し、一般公開される予定である。 我々は、損失関数を慎重に選択することで、CSLRと検索タスクの両方のモデルが相互に有益であることを示し、CSLRは文脈を提供することでCSLRの性能を改善し、CSLRはよりきめ細かな監督により検索を改善する。 さらに,BOBSLや記号レベル擬似ラベル,英語字幕などの大語彙データセットから,弱くて騒々しい指導を活用できることのメリットを示す。 我々のモデルは、両方のタスクにおいて、過去の最先端よりも大幅に優れています。

In this work, our goals are two fold: large-vocabulary continuous sign language recognition (CSLR), and sign language retrieval. To this end, we introduce a multi-task Transformer model, CSLR2, that is able to ingest a signing sequence and output in a joint embedding space between signed language and spoken language text. To enable CSLR evaluation in the large-vocabulary setting, we introduce new dataset annotations that have been manually collected. These provide continuous sign-level annotations for six hours of test videos, and will be made publicly available. We demonstrate that by a careful choice of loss functions, training the model for both the CSLR and retrieval tasks is mutually beneficial in terms of performance -- retrieval improves CSLR performance by providing context, while CSLR improves retrieval with more fine-grained supervision. We further show the benefits of leveraging weak and noisy supervision from large-vocabulary datasets such as BOBSL, namely sign-level pseudo-labels, and English subtitles. Our model significantly outperforms the previous state of the art on both tasks.
翻訳日:2024-05-17 13:33:15 公開日:2024-05-16
# 遺伝的プログラミングにおけるシャープネスの最小化

Sharpness-Aware Minimization in Genetic Programming ( http://arxiv.org/abs/2405.10267v1 )

ライセンス: Link先を確認
Illya Bakurov, Nathan Haut, Wolfgang Banzhaf, (参考訳) シャープネス・アウェアの最小化(SAM)は、ディープニューラルネットワークをトレーニングするための正規化手順として最近導入された。 同時に、フィットネス(または損失)機能といわゆるフィットネスシャープネスを最小化する。 後者は、解の非線形挙動のフィットネスランドスケープ測度の幾何学と一般化の間の % の接続として機能し、すべてのフィットネスケース全体で一様に類似した損失値を持つ近傍にある解を見つけることによって、そのように働く。 本稿では,プログラムツリーの摂動入力と出力に乗じて,進化過程における2番目の最適化基準としてシャープネスを推定し,利用することにより,2つの簡単なアプローチで解のセマンティックな近傍を探索することにより,木遺伝プログラミング(TGP)にSAMを適用する。 TGPに対するSAMの変異の影響をよりよく理解するために、一般化能力、複雑性、多様性、最近提案された遺伝子型-フェノタイプマッピングなど、進化過程の多くの指標を収集し、樹木の冗長性の量を調べる。 実験結果から,TGPにおけるSAM適応の2つの提案のいずれかが有効であることが確認された。 (i)人口と樹木の大きさの顕著な減少 (二)樹木の冗長性の低下。 実世界のベンチマークで評価すると、エリートの解の一般化能力は低下しない。

Sharpness-Aware Minimization (SAM) was recently introduced as a regularization procedure for training deep neural networks. It simultaneously minimizes the fitness (or loss) function and the so-called fitness sharpness. The latter serves as a %connection between the geometry of the fitness landscape measure of the nonlinear behavior of a solution %and generalization and does so by finding solutions that lie in neighborhoods having uniformly similar loss values across all fitness cases. In this contribution, we adapt SAM for tree Genetic Programming (TGP) by exploring the semantic neighborhoods of solutions using two simple approaches By capitalizing upon perturbing input and output of program trees, sharpness can be estimated and used as a second optimization criterion during the evolution. To better understand the impact of this variant of SAM on TGP, we collect numerous indicators of the evolutionary process, including generalization ability, complexity, diversity, and a recently proposed genotype-phenotype mapping to study the amount of redundancy in trees. The experimental results demonstrate that using any of the two proposed SAM adaptations in TGP allows (i) a significant reduction of tree sizes in the population and (ii) a decrease in redundancy of the trees. When assessed on real-world benchmarks, the generalization ability of the elite solutions does not deteriorate.
翻訳日:2024-05-17 13:33:15 公開日:2024-05-16
# インフォームド・プルーニングによる自動フェデレーション学習

Automated Federated Learning via Informed Pruning ( http://arxiv.org/abs/2405.10271v1 )

ライセンス: Link先を確認
Christian Internò, Elena Raponi, Niki van Stein, Thomas Bäck, Markus Olhofer, Yaochu Jin, Barbara Hammer, (参考訳) フェデレートラーニング(FL)は、中央アグリゲータによって調整されたローカルMLモデルの協調トレーニングを可能にするため、ローカルデータを交換する必要がないため、機械学習(ML)における重要なシフトを表している。 しかし、エッジデバイスへの応用は、Deep Learning(DL)モデル固有の複雑さによって複雑化され、限られた計算能力とデータ通信の課題によって妨げられている。 モデルプルーニングは、限られたリソースを持つデバイス上でDLモデルを圧縮するための重要な手法として識別される。 それにもかかわらず、従来のプルーニング技術は手作業によるヒューリスティックに頼り、モデルのサイズ、速度、精度のバランスをとるために人間の専門知識を必要とする。 本研究では,ローカルクライアントとグローバルサーバの両方でDLモデルを動的に実行・圧縮するAutoFLIPという,インフォームドプルーニングを利用した自動フェデレーション学習手法を提案する。 フェデレートされた損失探索フェーズを活用して、さまざまなデータセットと損失にわたるモデル勾配の挙動を調査し、パラメータの意義に関する洞察を提供する。 実験では,強い非IIDデータを持つシナリオにおいて,計算制約に対処し,より優れたグローバルコンバージェンスを実現するためのAutoFLIPの能力を強調した。

Federated learning (FL) represents a pivotal shift in machine learning (ML) as it enables collaborative training of local ML models coordinated by a central aggregator, all without the need to exchange local data. However, its application on edge devices is hindered by limited computational capabilities and data communication challenges, compounded by the inherent complexity of Deep Learning (DL) models. Model pruning is identified as a key technique for compressing DL models on devices with limited resources. Nonetheless, conventional pruning techniques typically rely on manually crafted heuristics and demand human expertise to achieve a balance between model size, speed, and accuracy, often resulting in sub-optimal solutions. In this study, we introduce an automated federated learning approach utilizing informed pruning, called AutoFLIP, which dynamically prunes and compresses DL models within both the local clients and the global server. It leverages a federated loss exploration phase to investigate model gradient behavior across diverse datasets and losses, providing insights into parameter significance. Our experiments showcase notable enhancements in scenarios with strong non-IID data, underscoring AutoFLIP's capacity to tackle computational constraints and achieve superior global convergence.
翻訳日:2024-05-17 13:33:15 公開日:2024-05-16
# 話す顔:テキストから話す顔と音声を共同で合成する

Faces that Speak: Jointly Synthesising Talking Face and Speech from Text ( http://arxiv.org/abs/2405.10272v1 )

ライセンス: Link先を確認
Youngjoon Jang, Ji-Hoon Kim, Junseok Ahn, Doyeop Kwak, Hong-Sun Yang, Yoon-Cheol Ju, Il-Hwan Kim, Byeong-Yeol Kim, Joon Son Chung, (参考訳) 本研究の目的は、テキストから自然な音声と音声の出力を同時に生成することである。 本研究では,TFG (Talking Face Generation) とTTS (Text-to-Speech) システムを統合されたフレームワークに統合することで実現した。 課題は,(1)実世界のシナリオを表わす一連の頭部ポーズを生成すること,(2)同一人物の顔の動きの変化に拘わらず,声の一貫性を確保すること,である。 これらの問題に対処するために,条件付きフローマッチングに基づくモーションサンプリングを導入し,高品質なモーションコード生成を効率よく実現した。 さらに、TFGモデルから運動除去された特徴を利用して一様音声出力を出力するTSシステムの新しい条件付け手法を提案する。 提案手法は,入力テキストと正確に一致した自然な表情と音声を効果的に生成することを示す。 我々の知る限りでは、これは未確認のアイデンティティに一般化できるマルチモーダル合成システムを構築するための最初の試みである。

The goal of this work is to simultaneously generate natural talking faces and speech outputs from text. We achieve this by integrating Talking Face Generation (TFG) and Text-to-Speech (TTS) systems into a unified framework. We address the main challenges of each task: (1) generating a range of head poses representative of real-world scenarios, and (2) ensuring voice consistency despite variations in facial motion for the same identity. To tackle these issues, we introduce a motion sampler based on conditional flow matching, which is capable of high-quality motion code generation in an efficient way. Moreover, we introduce a novel conditioning method for the TTS system, which utilises motion-removed features from the TFG model to yield uniform speech outputs. Our extensive experiments demonstrate that our method effectively creates natural-looking talking faces and speech that accurately match the input text. To our knowledge, this is the first effort to build a multimodal synthesis system that can generalise to unseen identities.
翻訳日:2024-05-17 13:33:15 公開日:2024-05-16
# 非許容暗号への応用と同時ハール不識別性

Simultaneous Haar Indistinguishability with Applications to Unclonable Cryptography ( http://arxiv.org/abs/2405.10274v1 )

ライセンス: Link先を確認
Prabhanjan Ananth, Fatih Kaleoglu, Henry Yuen, (参考訳) 禁止できない暗号は、非閉鎖原理を利用して古典的に達成できない暗号プリミティブを構築することに関心がある。 プレーンモデルにおける識別不能なセキュリティを満足する鍵となる、ブロック不能なプリミティブの1つである暗号化の実現可能性を理解することは、この分野において大きなオープンな問題となっている。 これまでのところ、制限不能暗号の既存の構成は、量子ランダムなオラクルモデルか、あるいは新しい予想に基づいている。 我々は、非局所的な量子状態の識別に関する新しい質問への還元を通じて、ブロック不能な暗号化に対する新しいアプローチを提案する。 我々は、このタスクを同時的状態の区別不可能(undistinguishability)と呼ぶ。 我々の主な技術的成果は、各プレイヤーが独立してハールランダム状態を受ける場合と同一のハールランダム状態を受ける場合とを区別できないことを示すことである。 この結果を利用して、量子復号化キーを用いた不明瞭なセキュリティを満たす非拘束暗号の最初の構成を、平易なモデルで提示する。 また、単一復号器の暗号化やリーク耐性のある秘密の共有にも影響することを示す。

Unclonable cryptography is concerned with leveraging the no-cloning principle to build cryptographic primitives that are otherwise impossible to achieve classically. Understanding the feasibility of unclonable encryption, one of the key unclonable primitives, satisfying indistinguishability security in the plain model has been a major open question in the area. So far, the existing constructions of unclonable encryption are either in the quantum random oracle model or are based on new conjectures. We present a new approach to unclonable encryption via a reduction to a novel question about nonlocal quantum state discrimination: how well can non-communicating -- but entangled -- players distinguish between different distributions over quantum states? We call this task simultaneous state indistinguishability. Our main technical result is showing that the players cannot distinguish between each player receiving independently-chosen Haar random states versus all players receiving the same Haar random state. We leverage this result to present the first construction of unclonable encryption satisfying indistinguishability security, with quantum decryption keys, in the plain model. We also show other implications to single-decryptor encryption and leakage-resilient secret sharing.
翻訳日:2024-05-17 13:33:15 公開日:2024-05-16
# OPROを再考する: 最適化としての小型LCMの限界

Revisiting OPRO: The Limitations of Small-Scale LLMs as Optimizers ( http://arxiv.org/abs/2405.10276v1 )

ライセンス: Link先を確認
Tuo Zhang, Jinyue Yuan, Salman Avestimehr, (参考訳) 近年,大規模言語モデル (LLMs) の戦略的促進による有効性向上が目指されている。 特に、Prompting by Prompting(OPRO)アプローチは、最適化タスクがタスクの精度を最大化する命令を見つける際に、LLMをオプティマイザとして活用することにより、最先端のパフォーマンスを提供する。 本稿では,LLaMa-2 ファミリーや Mistral 7B といった比較的小型の LLM を用いた OPRO の自動プロンプトについて再検討する。 本研究により,OPRO は小規模な LLM において限定的な有効性を示し,推論能力は限定的であり,最適化能力は限定的であることがわかった。 我々は,モデル能力と計算コストの両方を考慮するために,将来的な自動プロンプトエンジニアリングを提案する。 さらに,小規模のLDMでは,目的と方法論を堅牢なプロンプトベースラインとして明確に概説し,現在進行中の研究における効率的かつ効果的なプロンプトエンジニアリングを確実にするための直接的な指示を推奨する。

Numerous recent works aim to enhance the efficacy of Large Language Models (LLMs) through strategic prompting. In particular, the Optimization by PROmpting (OPRO) approach provides state-of-the-art performance by leveraging LLMs as optimizers where the optimization task is to find instructions that maximize the task accuracy. In this paper, we revisit OPRO for automated prompting with relatively small-scale LLMs, such as LLaMa-2 family and Mistral 7B. Our investigation reveals that OPRO shows limited effectiveness in small-scale LLMs, with limited inference capabilities constraining optimization ability. We suggest future automatic prompting engineering to consider both model capabilities and computational costs. Additionally, for small-scale LLMs, we recommend direct instructions that clearly outline objectives and methodologies as robust prompt baselines, ensuring efficient and effective prompt engineering in ongoing research.
翻訳日:2024-05-17 13:33:15 公開日:2024-05-16
# マクロ電流からの光子放出

Photon emission from macroscopic currents ( http://arxiv.org/abs/2405.10279v1 )

ライセンス: Link先を確認
Rainer Dick, (参考訳) コヒーレント状態は、光子の観点から電磁波を記述するための量子光学の確立されたツールである。 しかし、これらは放射源の近距離場機構を記述していない。 代わりに、マクスウェル方程式の古典的な解を用いて近距離場状態の放射を記述する。 古典的な解は電流と放出される電磁場の間の線形関係を提供するが、量子レベルの状態の進化は光子作用素を含むユニタリ時間進化作用素によって進行する。 このbegsは、古典的な放射方程式がユニタリ量子進化とどのように関連しているか、そして基本光子の観点からアンテナや磁気コイルからのマクロ場を記述する方法について疑問を呈する。 本稿では,放射光発生器の一般化されたグラウバー状態の構築を通じて,両方の疑問に答える。

Coherent states are a well-established tool of quantum optics to describe electromagnetic waves in terms of photons. However, they do not describe the near-field regime of radiation sources. Instead, we generically use classical solutions of Maxwell's equations to describe radiation in the near-field regime. The classical solutions provide linear relations between currents and emitted electromagnetic fields, whereas evolution of states at the quantum level proceeds through unitary time evolution operators involving photon operators. This begs questions how the classical radiation equations relate to unitary quantum evolution, and how we can describe macroscopic fields from antennas or magnetic coils in terms of elementary photons. The present paper answers both questions through the construction of generalized Glauber states for radiation emitters.
翻訳日:2024-05-17 13:33:15 公開日:2024-05-16
# クォークグルーオン分類のための量子ビジョン変換器

Quantum Vision Transformers for Quark-Gluon Classification ( http://arxiv.org/abs/2405.10284v1 )

ライセンス: Link先を確認
Marçal Comajoan Cara, Gopal Ramesh Dahale, Zhongtian Dong, Roy T. Forestano, Sergei Gleyzer, Daniel Justice, Kyoungchul Kong, Tom Magorsch, Konstantin T. Matchev, Katia Matcheva, Eyup B. Unlu, (参考訳) 本稿では,アテンション機構と多層パーセプトロンの両方に量子回路を組み込んだハイブリッド型量子古典型視覚トランスフォーマアーキテクチャを提案する。 この研究は、次のHigh Luminosity Large Hadron Colliderのデータ分析における計算効率とリソース制約の重大な課題に対処し、アーキテクチャを潜在的な解決策として提示する。 特に,CMS Open Dataのマルチ検出器ジェット画像にモデルを適用し,本手法の評価を行った。 ゴールは、クォーク開始時とグルーオン開始時とを区別することである。 量子モデルをトレーニングし,数値シミュレーションにより評価した。 このアプローチを用いることで,ほぼ同程度のパラメータを考慮し,完全古典的アーキテクチャで得られたものと同等の分類性能を達成できる。

We introduce a hybrid quantum-classical vision transformer architecture, notable for its integration of variational quantum circuits within both the attention mechanism and the multi-layer perceptrons. The research addresses the critical challenge of computational efficiency and resource constraints in analyzing data from the upcoming High Luminosity Large Hadron Collider, presenting the architecture as a potential solution. In particular, we evaluate our method by applying the model to multi-detector jet images from CMS Open Data. The goal is to distinguish quark-initiated from gluon-initiated jets. We successfully train the quantum model and evaluate it via numerical simulations. Using this approach, we achieve classification performance almost on par with the one obtained with the completely classical architecture, considering a similar number of parameters.
翻訳日:2024-05-17 13:33:15 公開日:2024-05-16
# FFF:非常に強力なビジョン・ランゲージモデルにおけるFlawed Foundationsの対照的な事前学習結果の修正

FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models ( http://arxiv.org/abs/2405.10286v1 )

ライセンス: Link先を確認
Adrian Bulat, Yassine Ouali, Georgios Tzimiropoulos, (参考訳) 本稿では,視覚言語によるコントラスト事前学習に影響を及ぼす重要な要因として,ノイズやキャプションの品質が認識されているにもかかわらず,そのような問題に対処してトレーニングプロセスを改善する可能性について,まだ実現されていないことを示す。 具体的には、まず、負のペアの誤った割り当てと低いキャプション品質と多様性の2つの問題について研究・分析する。 そこで本研究では,複数の正のペアを持つトレーニングを必要とする,両問題に対処する効果的なソリューションを考案する。 最後に、このような要件に対処するために、シグモイドロスを用いたトレーニングを提案する。 画像認識の現在の状況(平均11データセットで$\sim + 6\%$)と画像検索(Flickr30kで$\sim + 19\%$、MSCOCOで$\sim + 15\%$)を大きく上回っている。

Despite noise and caption quality having been acknowledged as important factors impacting vision-language contrastive pre-training, in this paper, we show that the full potential of improving the training process by addressing such issues is yet to be realized. Specifically, we firstly study and analyze two issues affecting training: incorrect assignment of negative pairs, and low caption quality and diversity. Then, we devise effective solutions for addressing both problems, which essentially require training with multiple true positive pairs. Finally, we propose training with sigmoid loss to address such a requirement. We show very large gains over the current state-of-the-art for both image recognition ($\sim +6\%$ on average over 11 datasets) and image retrieval ($\sim +19\%$ on Flickr30k and $\sim +15\%$ on MSCOCO).
翻訳日:2024-05-17 13:23:28 公開日:2024-05-16
# 時間的ファクト抽出のためのインコンテキスト学習を用いたタイムラインに基づく文分割

Timeline-based Sentence Decomposition with In-Context Learning for Temporal Fact Extraction ( http://arxiv.org/abs/2405.10288v1 )

ライセンス: Link先を確認
Jianhao Chen, Haoyuan Ouyang, Junyang Ren, Wentao Ding, Wei Hu, Yuzhong Qu, (参考訳) ファクト抽出は知識グラフを構築する上で重要である。 近年,下流タスクにおける時間的事実の需要が増加し,時間的事実抽出のタスクが出現している。 本稿では,自然言語テキストから時間的事実を抽出する方法について述べる。 従来の研究は、複雑な文に時間と成果の対応を確立するという課題に対処できなかった。 このハードルを克服するために,大規模言語モデル(LLM)とテキスト内学習を用いたタイムラインに基づく文分解手法を提案する。 さらに, 直接的事実抽出のためのLCMの性能評価を行い, 不満足な結果を得た。 そこで本研究では,LLMの分解機能を,より小さな事前学習言語モデル(PLM)の従来の微調整に組み込む手法であるTLDREを紹介する。 評価を支援するために,複雑な時間的事実抽出データセットであるcomplexTREDを構築した。 実験の結果, TSDRE は HyperRED-Temporal データセットと ComplexTRED データセットの両方で最先端の結果が得られることがわかった。

Facts extraction is pivotal for constructing knowledge graphs. Recently, the increasing demand for temporal facts in downstream tasks has led to the emergence of the task of temporal fact extraction. In this paper, we specifically address the extraction of temporal facts from natural language text. Previous studies fail to handle the challenge of establishing time-to-fact correspondences in complex sentences. To overcome this hurdle, we propose a timeline-based sentence decomposition strategy using large language models (LLMs) with in-context learning, ensuring a fine-grained understanding of the timeline associated with various facts. In addition, we evaluate the performance of LLMs for direct temporal fact extraction and get unsatisfactory results. To this end, we introduce TSDRE, a method that incorporates the decomposition capabilities of LLMs into the traditional fine-tuning of smaller pre-trained language models (PLMs). To support the evaluation, we construct ComplexTRED, a complex temporal fact extraction dataset. Our experiments show that TSDRE achieves state-of-the-art results on both HyperRED-Temporal and ComplexTRED datasets.
翻訳日:2024-05-17 13:23:28 公開日:2024-05-16
# 強化学習による意思決定エージェントとしての微調整大視野モデル

Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning ( http://arxiv.org/abs/2405.10292v1 )

ライセンス: Link先を確認
Yuexiang Zhai, Hao Bai, Zipeng Lin, Jiayi Pan, Shengbang Tong, Yifei Zhou, Alane Suhr, Saining Xie, Yann LeCun, Yi Ma, Sergey Levine, (参考訳) 大きな視覚言語モデル (VLM) は、様々なシナリオにまたがる印象的な言語推論能力を示す。 しかし、この微調整パラダイムは、対話環境から多段階の目標指向タスクにおいて、最適な意思決定エージェントを効率的に学習できない可能性がある。 この課題に対処するために、強化学習(RL)を用いてVLMを微調整するアルゴリズムフレームワークを提案する。 具体的には、我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成し、VLMが最終的なテキストベースのアクションにつながる中間的推論ステップを効率的に探索できるようにする。 次に、オープンエンドテキスト出力を実行可能なアクションに解析して環境と対話し、目標指向のタスク報酬を得る。 最後に、我々のフレームワークはこれらのタスク報酬を使用して、VLM全体をRLで微調整します。 実験により,提案手法は様々なタスクにまたがるVLMエージェントの意思決定能力を向上し,GPT4-VやGeminiといった商用モデルよりも優れた7bモデルを実現することを実証した。 さらに,CoT推論は,CoT推論を除去することで全体の性能が大幅に低下するので,CoT推論が性能改善の重要な要素であることが判明した。

Large vision-language models (VLMs) fine-tuned on specialized visual instruction-following data have exhibited impressive language reasoning capabilities across various scenarios. However, this fine-tuning paradigm may not be able to efficiently learn optimal decision-making agents in multi-step goal-directed tasks from interactive environments. To address this challenge, we propose an algorithmic framework that fine-tunes VLMs with reinforcement learning (RL). Specifically, our framework provides a task description and then prompts the VLM to generate chain-of-thought (CoT) reasoning, enabling the VLM to efficiently explore intermediate reasoning steps that lead to the final text-based action. Next, the open-ended text output is parsed into an executable action to interact with the environment to obtain goal-directed task rewards. Finally, our framework uses these task rewards to fine-tune the entire VLM with RL. Empirically, we demonstrate that our proposed framework enhances the decision-making capabilities of VLM agents across various tasks, enabling 7b models to outperform commercial models such as GPT4-V or Gemini. Furthermore, we find that CoT reasoning is a crucial component for performance improvement, as removing the CoT reasoning results in a significant decrease in the overall performance of our method.
翻訳日:2024-05-17 13:23:28 公開日:2024-05-16
# 高度なAIへの社会適応

Societal Adaptation to Advanced AI ( http://arxiv.org/abs/2405.10295v1 )

ライセンス: Link先を確認
Jamie Bernardi, Gabriel Mukobi, Hilary Greaves, Lennart Heim, Markus Anderljung, (参考訳) 先進的なAIシステムからリスクを管理する既存の戦略は、AIシステムの開発方法と拡散方法に影響を与えることに集中することが多い。 しかし、高度なAI開発者の数が増えるにつれて、このアプローチは実現不可能になり、有益なユースケースだけでなく有害なものも妨げられる。 これに対し、我々は、先進的なAIへの社会適応の増加、すなわち、所定のAI能力の拡散レベルから期待される負の影響を減らすという、補完的なアプローチを推奨する。 我々は、AIシステムの潜在的に有害な使用を回避し、防御し、予防するための適応的介入を識別する概念的枠組みを導入し、選挙操作、サイバーテロリズム、AI意思決定者に対する制御の喪失などの例を示した。 我々は、社会がAIに適応するために実施できる3段階のサイクルについて議論する。 このサイクルを実装する社会の能力の増大は、高度なAIに対するレジリエンスを高める。 我々は、政府、産業、および第三者に対する具体的な勧告で締めくくります。

Existing strategies for managing risks from advanced AI systems often focus on affecting what AI systems are developed and how they diffuse. However, this approach becomes less feasible as the number of developers of advanced AI grows, and impedes beneficial use-cases as well as harmful ones. In response, we urge a complementary approach: increasing societal adaptation to advanced AI, that is, reducing the expected negative impacts from a given level of diffusion of a given AI capability. We introduce a conceptual framework which helps identify adaptive interventions that avoid, defend against and remedy potentially harmful uses of AI systems, illustrated with examples in election manipulation, cyberterrorism, and loss of control to AI decision-makers. We discuss a three-step cycle that society can implement to adapt to AI. Increasing society's ability to implement this cycle builds its resilience to advanced AI. We conclude with concrete recommendations for governments, industry, and third-parties.
翻訳日:2024-05-17 13:23:28 公開日:2024-05-16
# HW-GPT-Bench: 言語モデルのためのハードウェア対応アーキテクチャベンチマーク

HW-GPT-Bench: Hardware-Aware Architecture Benchmark for Language Models ( http://arxiv.org/abs/2405.10299v1 )

ライセンス: Link先を確認
Rhea Sanjay Sukthanker, Arber Zela, Benedikt Staffler, Jorg K. H. Franke, Frank Hutter, (参考訳) 言語モデルの拡大するサイズは、レイテンシ、エネルギー消費、GPUメモリ使用量、パフォーマンスなど、さまざまなハードウェアメトリクス間のトレードオフに関して、Desiderataを反映したさまざまな次元にわたる包括的な検査の必要性を生み出している。 特定のハードウェア制約のある最適なモデルを特定するために、異なる言語モデル構成のためのParetoフロンティアを確立することへの関心が高まっている。 特に、あるデバイスでレイテンシに優れたアーキテクチャは、別のデバイスで最適に動作しない可能性がある。 しかし、様々なハードウェア構成にわたる多数のアーキテクチャの徹底的なトレーニングと評価は、計算的に禁止されている。 この目的のために,ハードウェア対応言語モデルサロゲートベンチマークであるHW-GPT-Benchを提案する。このベンチマークでは,ニューラルネットワークサーチ(NAS)のウェイトシェアリング技術を利用して,異なるスケールの言語モデルを1つのモデルに含む,スーパーネットプロキシを効率的にトレーニングする。 5つのハードウェアメトリクスと3つの異なるモデルスケールを考慮して、これらのモデルを13デバイスにわたってプロファイリングします。 最後に、8つの異なる多目的NASアルゴリズムを用いてHW-GPT-Benchのユーザビリティを示し、その結果のParetoフロントの品質を評価する。 本研究の目的は,NASのための多目的手法の進歩と大規模言語モデルにおける構造的プルーニングの研究を促進・促進することである。

The expanding size of language models has created the necessity for a comprehensive examination across various dimensions that reflect the desiderata with respect to the tradeoffs between various hardware metrics, such as latency, energy consumption, GPU memory usage, and performance. There is a growing interest in establishing Pareto frontiers for different language model configurations to identify optimal models with specified hardware constraints. Notably, architectures that excel in latency on one device may not perform optimally on another. However, exhaustive training and evaluation of numerous architectures across diverse hardware configurations is computationally prohibitive. To this end, we propose HW-GPT-Bench, a hardware-aware language model surrogate benchmark, where we leverage weight-sharing techniques from Neural Architecture Search (NAS) to efficiently train a supernet proxy, encompassing language models of varying scales in a single model. We conduct profiling of these models across 13 devices, considering 5 hardware metrics and 3 distinct model scales. Finally, we showcase the usability of HW-GPT-Bench using 8 different multi-objective NAS algorithms and evaluate the quality of the resultant Pareto fronts. Through this benchmark, our objective is to propel and expedite research in the advancement of multi-objective methods for NAS and structural pruning in large language models.
翻訳日:2024-05-17 13:23:28 公開日:2024-05-16
# DINO 1.5: Open-Set Object Detection の "Edge" を推進

Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection ( http://arxiv.org/abs/2405.10300v1 )

ライセンス: Link先を確認
Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, Yuda Xiong, Hao Zhang, Feng Li, Peijun Tang, Kent Yu, Lei Zhang, (参考訳) 本稿では, IDEA Research が開発した高度なオープンセットオブジェクト検出モデルである Grounding DINO 1.5 について紹介する。 スイートには2つのモデルが含まれている: Grounding DINO 1.5 Pro、幅広いシナリオにわたるより強力な一般化機能のために設計された高性能モデル、Grounding DINO 1.5 Edge、エッジデプロイを必要とする多くのアプリケーションで要求される高速な速度に最適化された効率的なモデル。 Grounding DINO 1.5 Proモデルは、モデルアーキテクチャをスケールアップし、拡張されたビジョンバックボーンを統合し、トレーニングデータセットをグラウンドアノテーションで2000万以上のイメージに拡張することで、よりリッチなセマンティック理解を実現することで、前バージョンを進化させた。 Grounding DINO 1.5 Edgeモデルは、機能スケールを縮小した効率性のために設計されたが、同じ包括的なデータセットでトレーニングすることで堅牢な検出能力を維持している。 実験的な結果は、グラウンディングDINO 1.5 ProモデルがCOCO検出ベンチマークで54.3 AP、LVIS最小のゼロショット転送ベンチマークで55.7 APに達し、オープンセットオブジェクト検出のための新しいレコードが設定されたことにより、グラウンディングDINO 1.5の有効性を示す。 さらに、Grounding DINO 1.5 EdgeモデルはTensorRTで最適化されると75.2 FPSの速度を実現し、LVIS-minivalベンチマークで36.2 APのゼロショット性能を実現し、エッジコンピューティングのシナリオにより適している。 APIを使ったモデル例とデモがhttps://github.com/IDEA-Research/Grounding-DINO-1.5-APIで公開される。

This paper introduces Grounding DINO 1.5, a suite of advanced open-set object detection models developed by IDEA Research, which aims to advance the "Edge" of open-set object detection. The suite encompasses two models: Grounding DINO 1.5 Pro, a high-performance model designed for stronger generalization capability across a wide range of scenarios, and Grounding DINO 1.5 Edge, an efficient model optimized for faster speed demanded in many applications requiring edge deployment. The Grounding DINO 1.5 Pro model advances its predecessor by scaling up the model architecture, integrating an enhanced vision backbone, and expanding the training dataset to over 20 million images with grounding annotations, thereby achieving a richer semantic understanding. The Grounding DINO 1.5 Edge model, while designed for efficiency with reduced feature scales, maintains robust detection capabilities by being trained on the same comprehensive dataset. Empirical results demonstrate the effectiveness of Grounding DINO 1.5, with the Grounding DINO 1.5 Pro model attaining a 54.3 AP on the COCO detection benchmark and a 55.7 AP on the LVIS-minival zero-shot transfer benchmark, setting new records for open-set object detection. Furthermore, the Grounding DINO 1.5 Edge model, when optimized with TensorRT, achieves a speed of 75.2 FPS while attaining a zero-shot performance of 36.2 AP on the LVIS-minival benchmark, making it more suitable for edge computing scenarios. Model examples and demos with API will be released at https://github.com/IDEA-Research/Grounding-DINO-1.5-API
翻訳日:2024-05-17 13:23:28 公開日:2024-05-16
# コンフォーマルアライメント: 保証者による基礎モデルの信頼の時期を知る

Conformal Alignment: Knowing When to Trust Foundation Models with Guarantees ( http://arxiv.org/abs/2405.10301v1 )

ライセンス: Link先を確認
Yu Gui, Ying Jin, Zhimei Ren, (参考訳) ファンデーションモデルからのアウトプットを高精細なタスクにデプロイする前には、それらが人間の価値と一致していることを保証することが不可欠である。 例えば、放射線学レポート生成では、ビジョン言語モデルによって生成された報告は、医学的意思決定に使用する前に人間の評価と一致しなければならない。 本稿では,ユーザが指定したアライメント基準を満たす出力単位を識別する一般的なフレームワークであるConformal Alignmentを提案する。 基本モデルやデータ分布にかかわらず、選択された単位の所定の割合がアライメント基準を満たすことが保証される。 事前訓練されたモデルとモデル生成出力を持つ新しいユニットが与えられた場合、コンフォーマルアライメントは、アライメント予測器をトレーニングするために、接地トラストアライメント状態の参照データのセットを活用する。 次に、予測アライメントスコアがデータ依存しきい値を超えた新しいユニットを選択し、対応するアウトプットを信頼できるものとして認定する。 質問応答や放射線学レポート生成の応用を通して,本手法は軽度基準データを用いた軽量トレーニングにより,信頼性の高い出力を持つ単位を正確に識別できることを実証する。 そこで我々は,アライメント予測における様々な特徴の有意性について検討し,それらを標準モデルと組み合わせてアライメント予測器を構築する。

Before deploying outputs from foundation models in high-stakes tasks, it is imperative to ensure that they align with human values. For instance, in radiology report generation, reports generated by a vision-language model must align with human evaluations before their use in medical decision-making. This paper presents Conformal Alignment, a general framework for identifying units whose outputs meet a user-specified alignment criterion. It is guaranteed that on average, a prescribed fraction of selected units indeed meet the alignment criterion, regardless of the foundation model or the data distribution. Given any pre-trained model and new units with model-generated outputs, Conformal Alignment leverages a set of reference data with ground-truth alignment status to train an alignment predictor. It then selects new units whose predicted alignment scores surpass a data-dependent threshold, certifying their corresponding outputs as trustworthy. Through applications to question answering and radiology report generation, we demonstrate that our method is able to accurately identify units with trustworthy outputs via lightweight training over a moderate amount of reference data. En route, we investigate the informativeness of various features in alignment prediction and combine them with standard models to construct the alignment predictor.
翻訳日:2024-05-17 13:23:28 公開日:2024-05-16
# 教師なし領域シフト下における予測区間の最適集約

Optimal Aggregation of Prediction Intervals under Unsupervised Domain Shift ( http://arxiv.org/abs/2405.10302v1 )

ライセンス: Link先を確認
Jiawei Ge, Debarghya Mukherjee, Jianqing Fan, (参考訳) 機械学習モデルが動的環境にますます展開されるにつれて、分散シフトに関連する不確実性を評価し定量化することが最重要となる。 分散シフトは、基礎となるデータ生成プロセスが変化したときに発生し、モデルの性能のずれにつながる。 予測間隔は、与えられた予測に対する潜在的な結果の範囲を捉え、その基礎となる分布によって引き起こされる不確実性を特徴づける重要なツールとして機能する。 本稿では、教師なしドメインシフトの下で、対象ドメインの最小の幅と適切なカバレッジを持つ予測間隔を集約する手法を提案し、その下に、関連するソースドメインからのラベル付きサンプルと、対象ドメインからのラベル付き共変体をラベル付けした。 私たちの分析では、ソースとターゲットドメインが関連するシナリオを網羅しています。 一 有界密度比及び有界密度比 二 測度保存変換 提案手法は計算効率が高く,実装が容易である。 実世界のデータセットを通してメソッドのパフォーマンスを図示するだけでなく、理論的詳細についても調べる。 これには、予測間隔のカバレッジと幅に関して、厳密な理論的保証、有限サンプル境界の確立が含まれる。 提案手法は,実践的応用に優れ,信頼性と多種多様な文脈における有効性を確保するための,しっかりとした理論的枠組みによって支えられている。

As machine learning models are increasingly deployed in dynamic environments, it becomes paramount to assess and quantify uncertainties associated with distribution shifts. A distribution shift occurs when the underlying data-generating process changes, leading to a deviation in the model's performance. The prediction interval, which captures the range of likely outcomes for a given prediction, serves as a crucial tool for characterizing uncertainties induced by their underlying distribution. In this paper, we propose methodologies for aggregating prediction intervals to obtain one with minimal width and adequate coverage on the target domain under unsupervised domain shift, under which we have labeled samples from a related source domain and unlabeled covariates from the target domain. Our analysis encompasses scenarios where the source and the target domain are related via i) a bounded density ratio, and ii) a measure-preserving transformation. Our proposed methodologies are computationally efficient and easy to implement. Beyond illustrating the performance of our method through a real-world dataset, we also delve into the theoretical details. This includes establishing rigorous theoretical guarantees, coupled with finite sample bounds, regarding the coverage and width of our prediction intervals. Our approach excels in practical applications and is underpinned by a solid theoretical framework, ensuring its reliability and effectiveness across diverse contexts.
翻訳日:2024-05-17 13:23:28 公開日:2024-05-16
# 4次元パノプティカルシーングラフ生成

4D Panoptic Scene Graph Generation ( http://arxiv.org/abs/2405.10305v1 )

ライセンス: Link先を確認
Jingkang Yang, Jun Cen, Wenxuan Peng, Shuai Liu, Fangzhou Hong, Xiangtai Li, Kaiyang Zhou, Qifeng Chen, Ziwei Liu, (参考訳) 私たちは、第4次元、すなわち時間を通して前進しながら、三次元空間に住んでいます。 人工知能がこのような4D環境を包括的に理解できるようにするために,動的4D世界において知覚される生の視覚データを橋渡しし,高レベルの視覚的理解を行う新しい表現である4D Panoptic Scene Graph (PSG-4D)を導入する。 具体的には、PSG-4Dは、リッチな4D知覚データをノードに抽象化し、正確な位置とステータス情報を持つエンティティとエッジを表現し、時間的関係をキャプチャする。 この領域の研究を容易にするために,3K RGB-Dビデオと合計1Mフレームからなる豊富な注釈付きPSG-4Dデータセットを構築し,それぞれに4Dパノプティカルセグメンテーションマスクと細粒度でダイナミックなシーングラフをラベル付けした。 PSG-4Dを解決するために,PSG4DFormerを提案する。PSG4DFormerはトランスフォーマーをベースとしたモデルで,空間分割マスクを予測し,時間軸に沿ってマスクをトラックし,対応するシーングラフを関係成分を介して生成する。 新しいデータセットに対する大規模な実験により,PSG-4Dの今後の研究において,本手法が強力なベースラインとなる可能性が示唆された。 最後に,PSG-4Dシステムに大規模言語モデルを統合することにより,動的シーン理解を実現するための実世界のアプリケーション例を示す。

We are living in a three-dimensional space while moving forward through a fourth dimension: time. To allow artificial intelligence to develop a comprehensive understanding of such a 4D environment, we introduce 4D Panoptic Scene Graph (PSG-4D), a new representation that bridges the raw visual data perceived in a dynamic 4D world and high-level visual understanding. Specifically, PSG-4D abstracts rich 4D sensory data into nodes, which represent entities with precise location and status information, and edges, which capture the temporal relations. To facilitate research in this new area, we build a richly annotated PSG-4D dataset consisting of 3K RGB-D videos with a total of 1M frames, each of which is labeled with 4D panoptic segmentation masks as well as fine-grained, dynamic scene graphs. To solve PSG-4D, we propose PSG4DFormer, a Transformer-based model that can predict panoptic segmentation masks, track masks along the time axis, and generate the corresponding scene graphs via a relation component. Extensive experiments on the new dataset show that our method can serve as a strong baseline for future research on PSG-4D. In the end, we provide a real-world application example to demonstrate how we can achieve dynamic scene understanding by integrating a large language model into our PSG-4D system.
翻訳日:2024-05-17 13:23:28 公開日:2024-05-16
# 試行状態最適化を用いた量子ギャップ推定アルゴリズムにおける耐故障性

Fault Tolerance Embedded in a Quantum-Gap-Estimation Algorithm with Trial-State Optimization ( http://arxiv.org/abs/2405.10306v1 )

ライセンス: Link先を確認
Woo-Ram Lee, Nathan M. Myers, V. W. Scarola, (参考訳) 我々は、多体エネルギースペクトルのギャップを推定するハイブリッド量子アルゴリズムを構築し、それが本質的に大域的マルチキュービット除極雑音に対するフォールトトレラントであることを証明した。 アクティブな誤差補正を伴わない試行状態最適化を用いて、ノイズ閾値を超える精度の高い目標ギャップのスペクトルピークを増幅し、ギャップ推定誤差を低減できることを示す。 我々は,Qiskit Aerシミュレータを用いて,一般的な中回路ノイズチャネルのモデルを用いて耐故障性を検証する。 この結果から,近時雑音量子コンピュータにおける正確な量子シミュレーションの可能性を明らかにした。

We construct a hybrid quantum algorithm to estimate gaps in many-body energy spectra and prove that it is inherently fault-tolerant to global multi-qubit depolarizing noise. Using trial-state optimization without active error correction, we show that the spectral peak of an exact target gap can be amplified beyond the noise threshold, thereby reducing gap-estimate error. We numerically verify fault tolerance using the Qiskit Aer simulator with a model of common mid-circuit noise channels. Our results reveal the potential for accurate quantum simulations on near-term noisy quantum computers.
翻訳日:2024-05-17 13:23:28 公開日:2024-05-16
# 大規模離散行動空間に対する確率的Q-ラーニング

Stochastic Q-learning for Large Discrete Action Spaces ( http://arxiv.org/abs/2405.10310v1 )

ライセンス: Link先を確認
Fares Fourati, Vaneet Aggarwal, Mohamed-Slim Alouini, (参考訳) 大きな離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である。 Q-learningのような価値に基づくRLアプローチが広く採用されているにもかかわらず、各イテレーションにおけるすべてのアクションに対する値関数の最大化を必要とする計算負担が伴う。 この重荷は、大規模な問題に対処し、深層ニューラルネットワークを関数近似器として使用する場合、特に困難になる。 本稿では、各反復において、$n$アクション全体の最適化とは対照的に、サブ線形数の作用の可変確率集合(おそらく$\mathcal{O}(\log(n))$)を考える。 提案した確率的値ベースRL手法には、Stochastic Q-learning、StochDQN、StochDDQNなどがある。 確率的Q-ラーニングの理論収束を確立し、確率的最大化の分析を行う。 さらに,実験的な検証により,提案手法は様々な制御問題を含む多様な環境におけるベースライン手法よりも優れており,ほぼ最適平均リターンを著しく短縮できることを示す。

In complex environments with large discrete action spaces, effective decision-making is critical in reinforcement learning (RL). Despite the widespread use of value-based RL approaches like Q-learning, they come with a computational burden, necessitating the maximization of a value function over all actions in each iteration. This burden becomes particularly challenging when addressing large-scale problems and using deep neural networks as function approximators. In this paper, we present stochastic value-based RL approaches which, in each iteration, as opposed to optimizing over the entire set of $n$ actions, only consider a variable stochastic set of a sublinear number of actions, possibly as small as $\mathcal{O}(\log(n))$. The presented stochastic value-based RL methods include, among others, Stochastic Q-learning, StochDQN, and StochDDQN, all of which integrate this stochastic approach for both value-function updates and action selection. The theoretical convergence of Stochastic Q-learning is established, while an analysis of stochastic maximization is provided. Moreover, through empirical validation, we illustrate that the various proposed approaches outperform the baseline methods across diverse environments, including different control problems, achieving near-optimal average returns in significantly reduced time.
翻訳日:2024-05-17 13:23:28 公開日:2024-05-16
# AGIからどこまで離れてる?

How Far Are We From AGI ( http://arxiv.org/abs/2405.10313v1 )

ライセンス: Link先を確認
Tao Feng, Chuanyang Jin, Jingyu Liu, Kunlun Zhu, Haoqin Tu, Zirui Cheng, Guanyu Lin, Jiaxuan You, (参考訳) 人工知能(AI)の進化は、人間社会に大きな影響を与え、複数の分野において大きな進歩をもたらした。 しかし、AIに対する要求の増大により、AIの現在の提供の限界が強調され、人工知能(AGI)への動きが促進された。 AGIは、人間の知能に匹敵する効率と有効性で、さまざまな現実世界のタスクを実行する能力で特徴付けられ、AI進化における最重要マイルストーンを反映している。 既存の研究はAIの具体的な進歩を要約しているが、AIの定義、目標、発達軌道に関する包括的な議論は欠如している。 既存の調査論文とは違って,本論文では,AGIに近づいたことや,その実現に必要な戦略について,広範な調査,議論,オリジナルの観点から考察する。 まず、AGIに必要な機能フレームワークを明確にし、内部、インターフェース、システム次元を統合することから始めます。 AGIの実現には、より高度な能力と厳密な制約の遵守が必要であるため、これらの要因を調和させるために必要なAGIアライメント技術をさらに議論する。 特に、まずAGIの進行の重要レベルを定義し、続いて現状を定式化した評価フレームワークを作成し、最後にAGIの頂点に達する方法についてのロードマップを提示することで、AGIに責任を持ってアプローチすることの重要性を強調します。 さらに、AI統合のユビキタスな影響に関する明確な洞察を与えるため、複数のドメインにおけるAGIに対する既存の課題と潜在的な経路を概説する。 要約すると,本論文は,AGIの現状と今後の軌道の先駆的な探索として,AGIの総合的な理解を促進し,研究者や実践者の間でのより広範な公開議論を促進することを目的としている。

The evolution of artificial intelligence (AI) has profoundly impacted human society, driving significant advancements in multiple sectors. Yet, the escalating demands on AI have highlighted the limitations of AI's current offerings, catalyzing a movement towards Artificial General Intelligence (AGI). AGI, distinguished by its ability to execute diverse real-world tasks with efficiency and effectiveness comparable to human intelligence, reflects a paramount milestone in AI evolution. While existing works have summarized specific recent advancements of AI, they lack a comprehensive discussion of AGI's definitions, goals, and developmental trajectories. Different from existing survey papers, this paper delves into the pivotal questions of our proximity to AGI and the strategies necessary for its realization through extensive surveys, discussions, and original perspectives. We start by articulating the requisite capability frameworks for AGI, integrating the internal, interface, and system dimensions. As the realization of AGI requires more advanced capabilities and adherence to stringent constraints, we further discuss necessary AGI alignment technologies to harmonize these factors. Notably, we emphasize the importance of approaching AGI responsibly by first defining the key levels of AGI progression, followed by the evaluation framework that situates the status-quo, and finally giving our roadmap of how to reach the pinnacle of AGI. Moreover, to give tangible insights into the ubiquitous impact of the integration of AI, we outline existing challenges and potential pathways toward AGI in multiple domains. In sum, serving as a pioneering exploration into the current state and future trajectory of AGI, this paper aims to foster a collective comprehension and catalyze broader public discussions among researchers and practitioners on AGI.
翻訳日:2024-05-17 13:23:28 公開日:2024-05-16
# CAT3D:マルチビュー拡散モデルで3Dで何かを作る

CAT3D: Create Anything in 3D with Multi-View Diffusion Models ( http://arxiv.org/abs/2405.10314v1 )

ライセンス: Link先を確認
Ruiqi Gao, Aleksander Holynski, Philipp Henzler, Arthur Brussee, Ricardo Martin-Brualla, Pratul Srinivasan, Jonathan T. Barron, Ben Poole, (参考訳) 3D再構成の進歩により高品質な3Dキャプチャが可能になったが、ユーザーは数百から数千の画像を収集して3Dシーンを作成する必要がある。 CAT3D(CAT3D)は,この実世界のキャプチャプロセスを多視点拡散モデルでシミュレートし,任意のものを3Dで作成する手法である。 入力画像の数と対象とする新規視点のセットを考慮に入れた場合,本モデルはシーンの高度に一貫した新規視点を生成する。 これらのビューは、任意の視点からリアルタイムにレンダリング可能な3D表現を生成するために、ロバストな3D再構成技術への入力として使用できる。 CAT3Dは1分で3Dシーン全体を作成できる。 結果のプロジェクトページとインタラクティブなデモはhttps://cat3d.github.io.comでご覧ください。

Advances in 3D reconstruction have enabled high-quality 3D capture, but require a user to collect hundreds to thousands of images to create a 3D scene. We present CAT3D, a method for creating anything in 3D by simulating this real-world capture process with a multi-view diffusion model. Given any number of input images and a set of target novel viewpoints, our model generates highly consistent novel views of a scene. These generated views can be used as input to robust 3D reconstruction techniques to produce 3D representations that can be rendered from any viewpoint in real-time. CAT3D can create entire 3D scenes in as little as one minute, and outperforms existing methods for single image and few-view 3D scene creation. See our project page for results and interactive demos at https://cat3d.github.io .
翻訳日:2024-05-17 13:23:28 公開日:2024-05-16
# TransIC:オンライン・コレクションから学ぶシミュレート・ツー・リアル・ポリシー・トランスファー

TRANSIC: Sim-to-Real Policy Transfer by Learning from Online Correction ( http://arxiv.org/abs/2405.10315v1 )

ライセンス: Link先を確認
Yunfan Jiang, Chen Wang, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, (参考訳) シミュレーションの学習と実世界への学習は、ジェネラリストロボットを可能にする可能性がある。 このアプローチの鍵となる課題は、シミュレーション対現実(sim-to-real)ギャップに対処することである。 以前はドメイン固有の知識を事前に必要としていた。 このような知識を得るための簡単な方法は、人間が現実世界でロボットポリシーの実行を観察し、支援することである、と我々は主張する。 ロボットは人間から学習して、さまざまなシミュレートとリアルのギャップを埋める。 提案するTransICは,Human-in-the-loopフレームワークをベースとしたSIM-to-real転送を実現するためのデータ駆動型アプローチである。 TransICは、介入やオンライン修正を通じて、シミュレーションポリシーを強化し、さまざまなモデルのないsim-to-realギャップを均等に克服することを可能にする。 残留ポリシーは、人間の修正から学び、自律実行のためのシミュレーションポリシーと統合することができる。 本手法は,家具組立などの複雑で接触に富んだ操作作業において,シミュレートと現実の移動を実現することができることを示す。 シミュレーションや人間から学んだポリシーの相乗的統合を通じて、TransICは様々な、しばしば共存するsim-to-realギャップに対処するための総合的なアプローチとして有効である。 人間の努力によるスケーリングのような魅力的な特性を示す。 ビデオとコードはhttps://transic-robot.github.io/で公開されている。

Learning in simulation and transferring the learned policy to the real world has the potential to enable generalist robots. The key challenge of this approach is to address simulation-to-reality (sim-to-real) gaps. Previous methods often require domain-specific knowledge a priori. We argue that a straightforward way to obtain such knowledge is by asking humans to observe and assist robot policy execution in the real world. The robots can then learn from humans to close various sim-to-real gaps. We propose TRANSIC, a data-driven approach to enable successful sim-to-real transfer based on a human-in-the-loop framework. TRANSIC allows humans to augment simulation policies to overcome various unmodeled sim-to-real gaps holistically through intervention and online correction. Residual policies can be learned from human corrections and integrated with simulation policies for autonomous execution. We show that our approach can achieve successful sim-to-real transfer in complex and contact-rich manipulation tasks such as furniture assembly. Through synergistic integration of policies learned in simulation and from humans, TRANSIC is effective as a holistic approach to addressing various, often coexisting sim-to-real gaps. It displays attractive properties such as scaling with human effort. Videos and code are available at https://transic-robot.github.io/
翻訳日:2024-05-17 13:23:28 公開日:2024-05-16
# Toon3D:新しい視点からカートゥーンを見る

Toon3D: Seeing Cartoons from a New Perspective ( http://arxiv.org/abs/2405.10320v1 )

ライセンス: Link先を確認
Ethan Weber, Riley Peterlinz, Rohan Mathur, Frederik Warburg, Alexei A. Efros, Angjoo Kanazawa, (参考訳) 本研究では,非幾何学的に一貫したシーンの3次元構造を復元する。 我々は漫画やアニメの手描き画像に焦点をあてる。 多くの漫画は3Dレンダリングエンジンのないアーティストによって作られており、シーンの新しいイメージは手描きである。 手描き画像は、通常、世界の忠実な表現であるが、定性的な意味でしかなく、人間がオブジェクトやシーン3Dの複数の視点を一貫して描くことは困難である。 それでも、不整合入力から簡単に3Dシーンを認識できるのです! 本研究では,2次元図面の不整合を補正し,新たなワープされた図面が互いに整合しているような,可視な3次元構造を復元する。 当社のパイプラインは,ユーザフレンドリなアノテーションツール,カメラポーズ推定,高密度構造を復元するための画像変形で構成されている。 提案手法は視点カメラモデルに従順に画像をワープし,一貫した結果を新規な視点合成再構成手法にプラグインし,これまで描いたことのない視点から漫画を体験することを可能にする。 私たちのプロジェクトページはhttps://toon3d.studio/.comです。

In this work, we recover the underlying 3D structure of non-geometrically consistent scenes. We focus our analysis on hand-drawn images from cartoons and anime. Many cartoons are created by artists without a 3D rendering engine, which means that any new image of a scene is hand-drawn. The hand-drawn images are usually faithful representations of the world, but only in a qualitative sense, since it is difficult for humans to draw multiple perspectives of an object or scene 3D consistently. Nevertheless, people can easily perceive 3D scenes from inconsistent inputs! In this work, we correct for 2D drawing inconsistencies to recover a plausible 3D structure such that the newly warped drawings are consistent with each other. Our pipeline consists of a user-friendly annotation tool, camera pose estimation, and image deformation to recover a dense structure. Our method warps images to obey a perspective camera model, enabling our aligned results to be plugged into novel-view synthesis reconstruction methods to experience cartoons from viewpoints never drawn before. Our project page is https://toon3d.studio/.
翻訳日:2024-05-17 13:23:28 公開日:2024-05-16
# ディラック解に基づくマイクロアナリシスのための相対論的EELS散乱断面積

Relativistic EELS scattering cross-sections for microanalysis based on Dirac solutions ( http://arxiv.org/abs/2405.10151v1 )

ライセンス: Link先を確認
Zezhong Zhang, Ivan Lobato, Hamish Brown, Dirk Lamoen, Daen Jannis, Johan Verbeeck, Sandra Van Aert, Peter D. Nellist, (参考訳) 電子エネルギー損失分光(EELS)の豊富な情報は、高速電子がエネルギーと運動量を原子に伝達する複雑な非弾性散乱過程から来ており、基底状態からより高い非占有状態へ励起結合電子が放出される。 EELSの定量化には、エネルギーウィンドウに統合された断面積や、一般振動子強度(GOS)データベースから計算した理論的な差分断面積を実験パラメータで比較するのが一般的である。 以前のハートリー・フォックとDFTベースのGOSは、シュリンガーの原子軌道の解から計算されるが、完全な相対論的効果は含まない。 ここでは、強いスピン軌道結合を持つ重元素の核殻電子に対して特に重要である局所密度近似内でのディラック方程式を用いた完全な相対論的効果を含めることで、GOS集計におけるシュリンガー解の限界を超えることを試みる。 これは、現代の計算能力と並列化アルゴリズムを用いた全ての励起エッジに対して、周期表(Z = 118まで)のすべての要素に対してなされている。 高速入射電子の相対論的効果は加速電圧に比例した断面積を計算するために含まれた。 これらのグラフ化されたGOSをオープンソースライセンスの下で利用可能にし、両方の学術的ユーザの利益と商用ソリューションへの統合を可能にします。

The rich information of electron energy-loss spectroscopy (EELS) comes from the complex inelastic scattering process whereby fast electrons transfer energy and momentum to atoms, exciting bound electrons from their ground states to higher unoccupied states. To quantify EELS, the common practice is to compare the cross-sections integrated within an energy window or fit the observed spectrum with theoretical differential cross-sections calculated from a generalized oscillator strength (GOS) database with experimental parameters. The previous Hartree-Fock-based and DFT-based GOS are calculated from Schr\"odinger's solution of atomic orbitals, which does not include the full relativistic effects. Here, we attempt to go beyond the limitations of the Schr\"odinger solution in the GOS tabulation by including the full relativistic effects using the Dirac equation within the local density approximation, which is particularly important for core-shell electrons of heavy elements with strong spin-orbit coupling. This has been done for all elements in the periodic table (up to Z = 118) for all possible excitation edges using modern computing capabilities and parallelization algorithms. The relativistic effects of fast incoming electrons were included to calculate cross-sections that are specific to the acceleration voltage. We make these tabulated GOS available under an open-source license to the benefit of both academic users as well as allowing integration into commercial solutions.
翻訳日:2024-05-17 13:12:38 公開日:2024-05-16
# 距離画像に基づくポイントクラウドセグメンテーションにおける欠落値の充足

Filling Missing Values Matters for Range Image-Based Point Cloud Segmentation ( http://arxiv.org/abs/2405.10175v1 )

ライセンス: Link先を確認
Bike Chen, Chen Gong, Juha Röning, (参考訳) ポイントクラウドセグメンテーション(PCS)は、ロボットの知覚とナビゲーションタスクにおいて重要な役割を果たす。 大規模屋外点雲を効率的に理解するために、その範囲画像表現が一般的である。 このイメージライクな表現はコンパクトで構造化されており、レンジイメージベースのPCSモデルを実用的なものにしている。 しかし、範囲画像の望ましくない欠落値は、物体の形状やパターンを損なう。 この問題は、オブジェクトからコヒーレントで完全な幾何学的情報を学ぶ際に、モデルにとって困難を生じさせる。 その結果、PCSモデルは性能が劣るのみとなる。 この問題を深く掘り下げると、不合理なプロジェクションアプローチとデスクワーニングスキャンの使用は、主にレンジ画像に不要な値をもたらすことが分かる。 さらに、これまでのほとんどの作業は、PCSタスクの予期せぬ値の埋め合わせを考慮しなかった。 この問題を軽減するために、まず、生成した範囲画像の大量の欠落を回避すべく、展開する++(SU++)をスキャンする新しいプロジェクション手法を提案する。 次に, 距離依存型$K$-nearest 近傍補間 (K$NNI) という, 単純かつ効果的な手法を導入する。 最後に、FMVNet(Filling Missing Values Network)とFast FMVNetを紹介する。 SemanticKITTI、SemanticPOSS、nuScenesデータセットの大規模な実験結果から、提案したSU++と$K$NNIを使用することで、既存のレンジイメージベースのPCSモデルはベースラインモデルよりも一貫してパフォーマンスが向上することが示された。 さらに、FMVNetとFast FMVNetは、速度精度トレードオフの観点から最先端の性能を達成する。 提案手法は他の範囲の画像ベースタスクや実践的応用に適用できる。

Point cloud segmentation (PCS) plays an essential role in robot perception and navigation tasks. To efficiently understand large-scale outdoor point clouds, their range image representation is commonly adopted. This image-like representation is compact and structured, making range image-based PCS models practical. However, undesirable missing values in the range images damage the shapes and patterns of objects. This problem creates difficulty for the models in learning coherent and complete geometric information from the objects. Consequently, the PCS models only achieve inferior performance. Delving deeply into this issue, we find that the use of unreasonable projection approaches and deskewing scans mainly leads to unwanted missing values in the range images. Besides, almost all previous works fail to consider filling in the unexpected missing values in the PCS task. To alleviate this problem, we first propose a new projection method, namely scan unfolding++ (SU++), to avoid massive missing values in the generated range images. Then, we introduce a simple yet effective approach, namely range-dependent $K$-nearest neighbor interpolation ($K$NNI), to further fill in missing values. Finally, we introduce the Filling Missing Values Network (FMVNet) and Fast FMVNet. Extensive experimental results on SemanticKITTI, SemanticPOSS, and nuScenes datasets demonstrate that by employing the proposed SU++ and $K$NNI, existing range image-based PCS models consistently achieve better performance than the baseline models. Besides, both FMVNet and Fast FMVNet achieve state-of-the-art performance in terms of the speed-accuracy trade-off. The proposed methods can be applied to other range image-based tasks and practical applications.
翻訳日:2024-05-17 13:12:38 公開日:2024-05-16
# Aubry-André-Starkモデルにおける量子臨界性とキブルズークスケーリング

Quantum criticality and Kibble-Zurek scaling in the Aubry-André-Stark model ( http://arxiv.org/abs/2405.10199v1 )

ライセンス: Link先を確認
En-Wen Liang, Ling-Zhi Tang, Dan-Wei Zhang, (参考訳) 量子臨界性とキブル・ズールクスケーリング(KZS)をオーブリー・アンドレ・スターク(AAS)モデルで探求し、スタークの強度場が1次元準周期格子に$\varepsilon$を付加する。 我々は、非局在化-局在化遷移の臨界特性を特徴付けるために、局所化長、逆参加比(IPR)、基底と第1励起状態の間のエネルギーギャップのスケーリング解析および数値計算を行う。 注目すべきことに、我々のスケーリング分析は、臨界点付近で、ローカライゼーション長$\xi$が$\varepsilon$ as $\xi\propto\varepsilon^{-\nu}$と$\nu\approx0.3$でスケールしていることを示しています。 IPR $\mathcal{I}$ scales as $\mathcal{I}\propto\varepsilon^{s}$ with the critical exponent $s\approx0.098$。 エネルギーギャップ$\Delta E$は、純粋なAAモデルと同じ臨界指数$z\approx2.374$で$\Delta E\propto \varepsilon^{\nu z} としてスケールする。 さらに、アンダーソン局所化とスターク局所化の臨界領域間の重なり合いにおけるハイブリッドスケーリング関数を明らかにする。 さらに、AASモデルにおける局所化遷移の駆動力学について検討する。 スターク電位(準周期)を線形に変化させることで、局所化長とIPPの進化を計算し、その駆動速度への依存性を調べる。 基底状態からの駆動力学は、静的スケーリング解析から得られた臨界指数とKZSによってよく説明されている。 スタークポテンシャルと準周期ポテンシャルの両方が関係すると、KZS形式は2つのスケーリング変数を含む。 本研究は、局所化遷移における臨界現象の理解を拡張し、ハイブリッドモデルへのKZSの適用を一般化する。

We explore quantum criticality and Kibble-Zurek scaling (KZS) in the Aubry-Andre-Stark (AAS) model, where the Stark field of strength $\varepsilon$ is added onto the one-dimensional quasiperiodic lattice. We perform scaling analysis and numerical calculations of the localization length, inverse participation ratio (IPR), and energy gap between the ground and first excited states to characterize critical properties of the delocalization-localization transition. Remarkably, our scaling analysis shows that, near the critical point, the localization length $\xi$ scales with $\varepsilon$ as $\xi\propto\varepsilon^{-\nu}$ with $\nu\approx0.3$ a new critical exponent for the AAS model, which is different from the counterparts for both the pure Aubry-Andre (AA) model and Stark model. The IPR $\mathcal{I}$ scales as $\mathcal{I}\propto\varepsilon^{s}$ with the critical exponent $s\approx0.098$, which is also different from both two pure models. The energy gap $\Delta E$ scales as $\Delta E\propto \varepsilon^{\nu z}$ with the same critical exponent $z\approx2.374$ as that for the pure AA model. We further reveal hybrid scaling functions in the overlap between the critical regions of the Anderson and Stark localizations. Moreover, we investigate the driven dynamics of the localization transitions in the AAS model. By linearly changing the Stark (quasiperiodic) potential, we calculate the evolution of the localization length and the IPR, and study their dependence on the driving rate. We find that the driven dynamics from the ground state is well described by the KZS with the critical exponents obtained from the static scaling analysis. When both the Stark and quasiperiodic potentials are relevant, the KZS form includes the two scaling variables. This work extends our understanding of critical phenomena on localization transitions and generalizes the application of the KZS to hybrid models.
翻訳日:2024-05-17 13:12:38 公開日:2024-05-16
# クラウドソーシングによるLugandaテキスト音声モデルの構築

Building a Luganda Text-to-Speech Model From Crowdsourced Data ( http://arxiv.org/abs/2405.10211v1 )

ライセンス: Link先を確認
Sulaiman Kagumire, Andrew Katumba, Joyce Nakatumba-Nabende, John Quinn, (参考訳) ルガンダのようなアフリカの言語に対するTTS(Text-to-Speech)の開発は、主にTTSモデルの訓練に不可欠な高品質の単一話者録音が不足しているため、依然として限られている。 これまでの研究は、20歳から49歳の複数の話者のルガンダ・コモン・ボイス・レコードの活用に重点を置いていた。 生成した音声は理解可能であるが、スタジオグレードの録音で訓練されたモデルよりも品質が低い。 これは、コモン・ボイス・レコードの品質向上のために、データ前処理が不十分であったためである。 さらに、背景雑音だけでなく、様々なイントネーションによって、音声の収束がより困難になる。 本稿では,複数話者の接近音質を訓練することで,Luganda TTSの品質を向上させるとともに,トレーニングデータのさらなる前処理を行うことで,その精度を向上できることを示す。 具体的には, 主観的聴取と音声録音の比較により, 身近なイントネーションを持つ6人の女性話者を選定した。 録音開始から終了までのサイレント部分のトリミングに加えて,背景雑音を低減し,音質を向上させるために,事前学習音声強調モデルを適用した。 また,MOSを3.5以上の推定値でフィルタリングし,高い品質を示すために,事前学習した自己指導型平均オピニオンスコア(MOS)推定モデルを利用した。 9つのルーガンダ話者による主観的MOS評価は、既存の2.5MOSと比較して、我々のTSモデルの方が3.55MOSに優れていたことを示している。 さらに、公正な比較のために、我々のモデルは、単一話者(3.13 MOS)または2つの話者(3.22 MOS)で訓練されたモデルよりも優れている6つの話者で訓練された。 このことは、TTS品質を改善するために、1つの話者からのデータ不足を複数の話者からのデータで補う効果を示す。

Text-to-speech (TTS) development for African languages such as Luganda is still limited, primarily due to the scarcity of high-quality, single-speaker recordings essential for training TTS models. Prior work has focused on utilizing the Luganda Common Voice recordings of multiple speakers aged between 20-49. Although the generated speech is intelligible, it is still of lower quality than the model trained on studio-grade recordings. This is due to the insufficient data preprocessing methods applied to improve the quality of the Common Voice recordings. Furthermore, speech convergence is more difficult to achieve due to varying intonations, as well as background noise. In this paper, we show that the quality of Luganda TTS from Common Voice can improve by training on multiple speakers of close intonation in addition to further preprocessing of the training data. Specifically, we selected six female speakers with close intonation determined by subjectively listening and comparing their voice recordings. In addition to trimming out silent portions from the beginning and end of the recordings, we applied a pre-trained speech enhancement model to reduce background noise and enhance audio quality. We also utilized a pre-trained, non-intrusive, self-supervised Mean Opinion Score (MOS) estimation model to filter recordings with an estimated MOS over 3.5, indicating high perceived quality. Subjective MOS evaluations from nine native Luganda speakers demonstrate that our TTS model achieves a significantly better MOS of 3.55 compared to the reported 2.5 MOS of the existing model. Moreover, for a fair comparison, our model trained on six speakers outperforms models trained on a single-speaker (3.13 MOS) or two speakers (3.22 MOS). This showcases the effectiveness of compensating for the lack of data from one speaker with data from multiple speakers of close intonation to improve TTS quality.
翻訳日:2024-05-17 13:12:38 公開日:2024-05-16
# タスク対応型圧縮性表現に向けて

Towards Task-Compatible Compressible Representations ( http://arxiv.org/abs/2405.10244v1 )

ライセンス: Link先を確認
Anderson de Andrade, Ivan Bajić, (参考訳) 本研究では,学習可能なマルチタスク圧縮において,あるタスクで学習した表現が,期待したほど異なるタスクの速度歪み性能に寄与しないという問題を特定する。 我々はこの問題を予測的な$\mathcal{V}$-informationフレームワークを使って解釈する。 学習可能なスケーラブルコーディングでは、この共有表現を学習する際に入力再構成にも報いることで、入力再構成のためのサイド情報の利用が増加した。 我々は、入力再構成の文脈におけるこのアイデアの影響をより厳密に評価し、他のコンピュータビジョンタスクに拡張した。 我々はCOCO 2017のオブジェクト検出とCityscapesデータセットの深さ推定のために訓練された表現を用いて実験を行い、画像再構成とセマンティックセグメンテーションタスクを支援する。 その結果, 補足作業の速度歪み性能は有意に向上した。 さらに,提案した表現を用いて,基本タスクの性能も向上する。 提案手法は,下流プロセスとより互換性のあるより単純な表現を導出することを示す。

We identify an issue in multi-task learnable compression, in which a representation learned for one task does not positively contribute to the rate-distortion performance of a different task as much as expected, given the estimated amount of information available in it. We interpret this issue using the predictive $\mathcal{V}$-information framework. In learnable scalable coding, previous work increased the utilization of side-information for input reconstruction by also rewarding input reconstruction when learning this shared representation. We evaluate the impact of this idea in the context of input reconstruction more rigorously and extended it to other computer vision tasks. We perform experiments using representations trained for object detection on COCO 2017 and depth estimation on the Cityscapes dataset, and use them to assist in image reconstruction and semantic segmentation tasks. The results show considerable improvements in the rate-distortion performance of the assisted tasks. Moreover, using the proposed representations, the performance of the base tasks are also improved. Results suggest that the proposed method induces simpler representations that are more compatible with downstream processes.
翻訳日:2024-05-17 13:12:38 公開日:2024-05-16
# モダリティエキスパートの混在による脳病変分割の基礎モデル

A Foundation Model for Brain Lesion Segmentation with Mixture of Modality Experts ( http://arxiv.org/abs/2405.10246v1 )

ライセンス: Link先を確認
Xinru Zhang, Ni Ou, Berke Doga Basaran, Marco Visentin, Mengyun Qiao, Renyang Gu, Cheng Ouyang, Yaou Liu, Paul M. Matthew, Chuyang Ye, Wenjia Bai, (参考訳) 脳病変の分節は神経研究や診断において重要な役割を担っている。 脳病変は様々な病理学的変化によって引き起こされる可能性があるため、異なるタイプの脳病変は、異なる画像モダリティに異なる特徴を持つ傾向がある。 この複雑さのため、脳病変のセグメンテーション法はしばしばタスク固有の方法で開発される。 特定の病変タイプと画像のモダリティに対して、特定のセグメンテーションモデルを開発する。 しかし、タスク固有のモデルを使用することで、病変のタイプや画像のモダリティが事前に決定され、現実のシナリオへの展開が複雑になる。 そこで本研究では,様々な画像モダリティの入力データに対して,異なる種類の脳病変を自動的に分割できる3次元脳病変分割のための普遍的基礎モデルを提案する。 我々は,様々な画像モダリティに対応する複数のエキスパートネットワークを備えた,新しいMixture of Modality Experts (MoME) フレームワークを定式化する。 階層的なゲーティングネットワークは、専門家の予測を組み合わせて、専門的なコラボレーションを促進する。 さらに、各専門家ネットワークの劣化を回避し、その専門性を維持するために、訓練中のカリキュラム学習戦略を導入する。 提案手法は5つの画像モダリティと8種類の病変を含む9つの脳病変データセットを用いて評価した。 その結果、我々のモデルは最先端のユニバーサルモデルよりも優れており、未知のデータセットに有望な一般化を提供することが示された。

Brain lesion segmentation plays an essential role in neurological research and diagnosis. As brain lesions can be caused by various pathological alterations, different types of brain lesions tend to manifest with different characteristics on different imaging modalities. Due to this complexity, brain lesion segmentation methods are often developed in a task-specific manner. A specific segmentation model is developed for a particular lesion type and imaging modality. However, the use of task-specific models requires predetermination of the lesion type and imaging modality, which complicates their deployment in real-world scenarios. In this work, we propose a universal foundation model for 3D brain lesion segmentation, which can automatically segment different types of brain lesions for input data of various imaging modalities. We formulate a novel Mixture of Modality Experts (MoME) framework with multiple expert networks attending to different imaging modalities. A hierarchical gating network combines the expert predictions and fosters expertise collaboration. Furthermore, we introduce a curriculum learning strategy during training to avoid the degeneration of each expert network and preserve their specialization. We evaluated the proposed method on nine brain lesion datasets, encompassing five imaging modalities and eight lesion types. The results show that our model outperforms state-of-the-art universal models and provides promising generalization to unseen datasets.
翻訳日:2024-05-17 13:12:38 公開日:2024-05-16
# LLMが3Dの世界に進出する時:マルチモーダル大言語モデルによる3Dタスクの探索とメタ分析

When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models ( http://arxiv.org/abs/2405.10255v1 )

ライセンス: Link先を確認
Xianzheng Ma, Yash Bhalgat, Brandon Smart, Shuai Chen, Xinghui Li, Jian Ding, Jindong Gu, Dave Zhenyu Chen, Songyou Peng, Jia-Wang Bian, Philip H Torr, Marc Pollefeys, Matthias Nießner, Ian D Reid, Angel X. Chang, Iro Laina, Victor Adrian Prisacariu, (参考訳) 大規模言語モデル(LLM)が進化するにつれて、3D空間データ(3D-LLM)との統合は急速に進展し、物理空間の理解と相互作用に前例のない能力を提供している。 この調査は、LCMが3Dデータの処理、理解、生成を可能にする方法論を概観する。 インコンテキスト学習,ステップバイステップ推論,オープンボキャブラリ能力,広汎な世界知識など,LLMの独特なメリットを高く評価することで,具体的人工知能(AI)システムにおける空間的理解と相互作用を著しく向上させる可能性を強調した。 我々の研究は、点雲からNeural Radiance Fields (NeRF)まで、様々な3Dデータ表現にまたがっている。 3Dシーン理解、キャプション、質問応答、対話などのタスクや、空間的推論、計画、ナビゲーションのためのLLMベースのエージェントについて、LLMとの統合について検討する。 論文には、3Dと言語を統合する他の方法の簡単なレビューも含まれている。 本稿では,3D-LLMの潜在能力を最大限活用するための新しいアプローチの必要性を,メタアナリシスにより明らかにした。 そこで本稿では,複雑な3D世界に対する理解と対話における3D-LLMの能力を探究し,拡張する今後の研究のコースを図示することを目的としている。 この調査をサポートするために、私たちのトピックに関連する論文が整理され、リストアップされるプロジェクトページを構築しました。

As large language models (LLMs) evolve, their integration with 3D spatial data (3D-LLMs) has seen rapid progress, offering unprecedented capabilities for understanding and interacting with physical spaces. This survey provides a comprehensive overview of the methodologies enabling LLMs to process, understand, and generate 3D data. Highlighting the unique advantages of LLMs, such as in-context learning, step-by-step reasoning, open-vocabulary capabilities, and extensive world knowledge, we underscore their potential to significantly advance spatial comprehension and interaction within embodied Artificial Intelligence (AI) systems. Our investigation spans various 3D data representations, from point clouds to Neural Radiance Fields (NeRFs). It examines their integration with LLMs for tasks such as 3D scene understanding, captioning, question-answering, and dialogue, as well as LLM-based agents for spatial reasoning, planning, and navigation. The paper also includes a brief review of other methods that integrate 3D and language. The meta-analysis presented in this paper reveals significant progress yet underscores the necessity for novel approaches to harness the full potential of 3D-LLMs. Hence, with this paper, we aim to chart a course for future research that explores and expands the capabilities of 3D-LLMs in understanding and interacting with the complex 3D world. To support this survey, we have established a project page where papers related to our topic are organized and listed: https://github.com/ActiveVisionLab/Awesome-LLM-3D.
翻訳日:2024-05-17 13:12:38 公開日:2024-05-16
# エネルギー制限量子力学

Energy-limited quantum dynamics ( http://arxiv.org/abs/2405.10259v1 )

ライセンス: Link先を確認
Lauritz van Luijk, (参考訳) エネルギー制約のある量子系を考える。 一般に、量子チャネルと連続時間力学はエネルギー保存を満足する必要はない。 しかし、物理的に意味のあるチャネルは、システムに限られた量のエネルギーしか導入できず、連続時間力学は時間とともに徐々にエネルギーを増大させるだけである。 このような「エネルギー制限」チャネルやダイナミクスを系統的に研究する。 マルコフ力学では、エネルギー制限性はハイゼンベルク図形の単一の作用素の不等式と同値である。 出力エネルギーを追跡することにより、シロコフとウィンターのエネルギー制約作用素とダイヤモンドノルムが、エネルギー制限チャネルに対する準多重性の推定を満足することを示した。 これにより、有限次元および無限次元系の力学問題を定量的に解析する強力なツールキットが得られる。 応用として、高エネルギー状態の変動を考慮に入れなければならない通常の作用素/ダイヤモンドノルム推定よりも優れた量子速度制限と関連する問題に対する状態依存境界を導出する。

We consider quantum systems with energy constraints. In general, quantum channels and continuous-time dynamics need not satisfy energy conservation. Physically meaningful channels, however, can only introduce a finite amount of energy to the system, and continuous-time dynamics may only increase the energy gradually over time. We systematically study such "energy-limited" channels and dynamics. For Markovian dynamics, energy-limitedness is equivalent to a single operator inequality in the Heisenberg picture. By tracking the output energy, we observe that the energy-constrained operator and diamond norms of Shirokov and Winter satisfy submultiplicativity estimates with respect to energy-limited channels. This makes for a powerful toolkit for quantitative analyses of dynamical problems in finite and infinite-dimensional systems. As an application, we derive state-dependent bounds for quantum speed limits and related problems that outperform the usual operator/diamond norm estimates, which have to account for fluctuations in high-energy states.
翻訳日:2024-05-17 13:12:38 公開日:2024-05-16
# 核・超核力の魔法

The Magic in Nuclear and Hypernuclear Forces ( http://arxiv.org/abs/2405.10268v1 )

ライセンス: Link先を確認
Caroline E. P. Robin, Martin J. Savage, (参考訳) 核やエキゾチック物質における量子情報の役割の理解を深めるために、低エネルギーの強い相互作用過程における魔法(非安定化剤性)について検討する。 安定化状態は古典的コンピュータを用いて効率的に準備でき、絡み合った状態のクラスを含むため、量子シミュレーションのリソース要求を決定する魔法とゆらぎとともに魔法の魔法である。 散乱によって引き起こされる魔法のゆらぎの尺度として、S行列の「魔法の力」が導入された。 実験的に決定された散乱相のシフトと混合パラメータを用いて、核子-核子とハイパーオン-核子散乱のマジックパワーと、重陽子のマジックは興味深い特徴を示す。 The $Sigma^-$-baryon is identified as an potential candidate Catalyst for enhanced spread of magic and entanglement in dense matter, depend on in-medium decoherence。

Toward an improved understanding of the role of quantum information in nuclei and exotic matter, we examine the magic (non-stabilizerness) in low-energy strong interaction processes. As stabilizer states can be prepared efficiently using classical computers, and include classes of entangled states, it is magic and fluctuations in magic, along with entanglement, that determine resource requirements for quantum simulations. As a measure of fluctuations in magic induced by scattering, the "magic power" of the S-matrix is introduced. Using experimentally-determined scattering phase shifts and mixing parameters, the magic power in nucleon-nucleon and hyperon-nucleon scattering, along with the magic in the deuteron, are found to exhibit interesting features. The $\Sigma^-$-baryon is identified as a potential candidate catalyst for enhanced spreading of magic and entanglement in dense matter, depending on in-medium decoherence.
翻訳日:2024-05-17 13:12:38 公開日:2024-05-16
# ガウス状態に対するGKLSベクトル場ダイナミクス

GKLS Vector Field Dynamics for Gaussian States ( http://arxiv.org/abs/2405.10282v1 )

ライセンス: Link先を確認
Hans Cruz-Prado, Octavio Castaños, Giuseppe Marmo, Francisco Nettel, (参考訳) ガウス状態によって記述された系に対するGKLS生成器に付随するベクトル場を構築する。 このベクトル場は作用素の代数の双対空間上で定義され、位置と運動量の2次作用素に制限される。 GKLS動力学は分解原理、すなわち、このベクトル場を3つの部分、保守的ハミルトン成分、勾配的成分、チェ・クラウスベクトル場に分解できることを示した。 最後の2つの用語は、散逸に関連する「摂動」と見なされている。 散逸項の異なる調和振動子に対する例を示す。

We construct the vector field associated with the GKLS generator for systems described by Gaussian states. This vector field is defined on the dual space of the algebra of operators, restricted to operators quadratic in position and momentum. It is shown that the GKLS dynamics accepts a decomposition principle, that is, this vector field can be decomposed in three parts, a conservative Hamiltonian component, a gradient-like and a Choi-Krauss vector field. The last two terms are considered a "perturbation" associated with dissipation. Examples are presented for a harmonic oscillator with different dissipation terms.
翻訳日:2024-05-17 13:12:38 公開日:2024-05-16
# 行列積作用素ノルムを持つ格子上の相互作用キラルフェルミオン

Interacting chiral fermions on the lattice with matrix product operator norms ( http://arxiv.org/abs/2405.10285v1 )

ライセンス: Link先を確認
Jutho Haegeman, Laurens Lootens, Quinten Mortier, Alexander Stottmeister, Atsushi Ueda, Frank Verstraete, (参考訳) 行列積作用素の項で定義される半定ノルムを持つフォック空間を定義することにより、局所対称性を破ることなく格子上の1次元相互作用するキラルフェルミオンをシミュレートする形式を発展させる。 この形式主義は、ステーシーフェルミオンの第二量子化形式として理解することができ、したがってフェルミオンの倍問題に対する解を与え、ニールセン=二宮の定理を回避できる。 創発的理論は、ヘルミタン一般化固有値問題を引き起こし、局所量子ハミルトニアンをシミュレートするために用いられるようなテンソルネットワーク法を用いてシミュレートできるため、局所的な特徴を持つという事実により、エルミタンであることが証明される。 また,自由モデルのスケーリング限界がカイラルフェルミオン場を回復することを示した。 原理の証明として、ハバード型近傍相互作用を持つ周期環上の1つのワイルフェルミオンを考え、大きなシステムサイズのためのシステムの基底状態が効率的に決定可能であることを示す変分一般化DMRG符号を構築する。

We develop a formalism for simulating one-dimensional interacting chiral fermions on the lattice without breaking any local symmetries by defining a Fock space endowed with a semi-definite norm defined in terms of matrix product operators. This formalism can be understood as a second-quantized form of Stacey fermions, hence providing a possible solution for the fermion doubling problem and circumventing the Nielsen-Ninomiya theorem. We prove that the emerging theory is hermitian by virtue of the fact that it gives rise to a hermitian generalized eigenvalue problem and that it has local features as it can be simulated using tensor network methods similar to the ones used for simulating local quantum Hamiltonians. We also show that the scaling limit of the free model recovers the chiral fermion field. As a proof of principle, we consider a single Weyl fermion on a periodic ring with Hubbard-type nearest-neighbor interactions and construct a variational generalized DMRG code demonstrating that the ground states of the system for large system sizes can be determined efficiently.
翻訳日:2024-05-17 13:12:38 公開日:2024-05-16
# 下次収束は弱凸関数に部分微分収束をもたらす:一様速度保証を伴う

Subgradient Convergence Implies Subdifferential Convergence on Weakly Convex Functions: With Uniform Rates Guarantees ( http://arxiv.org/abs/2405.10289v1 )

ライセンス: Link先を確認
Feng Ruan, (参考訳) 非平滑で非凸確率最適化では、集団リスクにアプローチする際のサンプル平均推定値の定常点を解析するために、部分微分写像の均一収束を理解することが重要である。 しかし、この収束を特徴づけることは依然として根本的な課題である。 この研究は、経験的リスクが集団リスクに収束するにつれて、部分微分写像の均一収束と下次写像の均一収束を結びつけることによって、新しい視点を導入する。 確率的弱凸対象に対しては、任意の開集合において、級数(対応する部分微分集合から任意に選択される)の収束に関する一様有界は、ハウスドルフ計量によって測られる部分微分集合自体の収束に関する一様有界となることを証明している。 この手法を用いて,確率凸合成対象の偏微分集合に対する一様収束率を導出する。 我々の結果は、Hausdorff計量において、集団と有限サンプル部分微分が連続である必要があるが、それでも厳密な収束速度を提供する、文学における主要な分布仮定に頼らない。 これらの保証は、有限サンプル内のそのような目的の非滑らかな風景に対する新たな洞察をもたらす。

In nonsmooth, nonconvex stochastic optimization, understanding the uniform convergence of subdifferential mappings is crucial for analyzing stationary points of sample average approximations of risk as they approach the population risk. Yet, characterizing this convergence remains a fundamental challenge. This work introduces a novel perspective by connecting the uniform convergence of subdifferential mappings to that of subgradient mappings as empirical risk converges to the population risk. We prove that, for stochastic weakly-convex objectives, and within any open set, a uniform bound on the convergence of subgradients -- chosen arbitrarily from the corresponding subdifferential sets -- translates to a uniform bound on the convergence of the subdifferential sets itself, measured by the Hausdorff metric. Using this technique, we derive uniform convergence rates for subdifferential sets of stochastic convex-composite objectives. Our results do not rely on key distributional assumptions in the literature, which require the population and finite sample subdifferentials to be continuous in the Hausdorff metric, yet still provide tight convergence rates. These guarantees lead to new insights into the nonsmooth landscapes of such objectives within finite samples.
翻訳日:2024-05-17 13:12:38 公開日:2024-05-16
# 長い経路における断熱挙動の補正

Corrections to adiabatic behavior for long paths ( http://arxiv.org/abs/2405.10294v1 )

ライセンス: Link先を確認
Thomas D. Cohen, Hyunwoo Oh, (参考訳) 最終固有状態を作成するための断熱定理のコストと誤差を経路長の観点から論じる。 スペクトルギャップを持つハミルトニアンとその微分のノルムに関する以前の研究は、大規模システムにおける断熱的状態準備のコストを記述するために限られている。 我々は,非ゴー定理を考案することによって,断熱的量子計算の計算困難度を決定するのに,総時間は十分ではないと主張している。 時間周期ハミルトニアンの場合の結果、誤差が固定され、小さく保たれたときに経路長が増加するにつれて増大する計算コストのプロキシが存在することを示唆し、その挙動がどの程度一般であるかを推測する。

The cost and the error of the adiabatic theorem for preparing the final eigenstate are discussed in terms of path length. Previous studies in terms of the norm of the Hamiltonian and its derivatives with the spectral gap are limited to describe the cost of adiabatic state preparation for large systems. We argue that total time is not a good measure for determining the computational difficulty of adiabatic quantum computation by developing a no-go theorem. From the result of time-periodic Hamiltonian cases, we suggest that there are proxies for computational cost which typically grow as path length increases when the error is kept fixed and small and consider possible conjectures on how general the behavior is.
翻訳日:2024-05-17 13:12:38 公開日:2024-05-16
# アナロジスト:画像拡散モデルを用いたアウト・オブ・ザ・ボックス型ビジュアルインテクスト学習

Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model ( http://arxiv.org/abs/2405.10316v1 )

ライセンス: Link先を確認
Zheng Gu, Shiyuan Yang, Jing Liao, Jing Huo, Yang Gao, (参考訳) Visual In-Context Learning (ICL) は、アナログ推論を通じて、限られたサンプルペアで様々なタスクを遂行する能力によって、有望な研究領域として浮上している。 しかし、トレーニングベースのビジュアルICLは、見えないタスクに一般化する能力に限界があり、多様なタスクデータセットの収集が必要である。 一方、推論に基づく視覚的ICLカテゴリの既存の手法はテキストプロンプトのみに依存しており、与えられた例からきめ細かいコンテキスト情報をキャプチャできず、画像からテキストプロンプトに変換するのに時間がかかる。 これらの課題に対処するために,画像インペイントのために予め訓練されたテキスト間拡散モデルを用いて,視覚的およびテキスト的プロンプト技術の両方を活用する,新しい推論ベースの視覚的ICLアプローチであるAnaologistを提案する。 視覚的プロンプトのために,画像サンプル間の微細な構造レベルの類似を導出する自己注意クローニング法を提案する。 テキストプロンプトには、GPT-4Vの視覚的推論機能を活用し、テキストプロンプトを効率的に生成し、テキストプロンプトによって導かれるセマンティックレベルのアナロジーの精度を高めるために、クロスアテンションマスキング(CAM)操作を導入する。 提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。 また、汎用的で柔軟性があり、幅広い視覚的タスクをコンテキスト内で実行できる。 大規模実験により,既存手法よりも定性的かつ定量的に,本手法の優位性を実証した。

Visual In-Context Learning (ICL) has emerged as a promising research area due to its capability to accomplish various tasks with limited example pairs through analogical reasoning. However, training-based visual ICL has limitations in its ability to generalize to unseen tasks and requires the collection of a diverse task dataset. On the other hand, existing methods in the inference-based visual ICL category solely rely on textual prompts, which fail to capture fine-grained contextual information from given examples and can be time-consuming when converting from images to text prompts. To address these challenges, we propose Analogist, a novel inference-based visual ICL approach that exploits both visual and textual prompting techniques using a text-to-image diffusion model pretrained for image inpainting. For visual prompting, we propose a self-attention cloning (SAC) method to guide the fine-grained structural-level analogy between image examples. For textual prompting, we leverage GPT-4V's visual reasoning capability to efficiently generate text prompts and introduce a cross-attention masking (CAM) operation to enhance the accuracy of semantic-level analogy guided by text prompts. Our method is out-of-the-box and does not require fine-tuning or optimization. It is also generic and flexible, enabling a wide range of visual tasks to be performed in an in-context manner. Extensive experiments demonstrate the superiority of our method over existing approaches, both qualitatively and quantitatively.
翻訳日:2024-05-17 13:12:38 公開日:2024-05-16
# ニューラルパス表現を用いたテキスト・ツー・ベクター生成

Text-to-Vector Generation with Neural Path Representation ( http://arxiv.org/abs/2405.10317v1 )

ライセンス: Link先を確認
Peiying Zhang, Nanxuan Zhao, Jing Liao, (参考訳) ベクトルグラフィックスはデジタルアートで広く使われており、そのスケーラビリティとレイヤーワイドの性質からデザイナーに好まれている。 しかし、ベクトルグラフィックスの作成と編集には創造性と設計の専門知識が必要であり、時間を要する作業となっている。 テキスト・ツー・ベクター(T2V)生成の最近の進歩は、このプロセスをより使いやすくすることを目的としている。 しかし、既存のT2V法はベクトルグラフパスの制御点を直接最適化し、幾何学的制約が欠如しているため、しばしば交差やジャグリングの経路が生じる。 これらの制約を克服するために,2分岐変分オートエンコーダ(VAE)を設計し,シーケンスと画像の両モードから経路潜時空間を学習するニューラルパス表現を提案する。 ニューラルパスの組み合わせを最適化することにより、生成したSVGの表現性を保ちながら幾何的制約を組み込むことができる。 さらに,生成したSVGの視覚的およびトポロジ的品質を改善するための2段階経路最適化手法を提案する。 第1段階では、事前訓練されたテキスト・ツー・イメージ拡散モデルが、変分スコア蒸留(VSD)プロセスを通じて複雑なベクトルグラフィックスの初期生成を導く。 第2段階では、レイヤワイズ画像ベクトル化戦略を用いてグラフィクスを洗練し、より明確な要素と構造を実現する。 本手法の有効性を実験的に検証し,様々な応用例を示す。 プロジェクトページはhttps://intchous.github.io/T2V-NPR。

Vector graphics are widely used in digital art and highly favored by designers due to their scalability and layer-wise properties. However, the process of creating and editing vector graphics requires creativity and design expertise, making it a time-consuming task. Recent advancements in text-to-vector (T2V) generation have aimed to make this process more accessible. However, existing T2V methods directly optimize control points of vector graphics paths, often resulting in intersecting or jagged paths due to the lack of geometry constraints. To overcome these limitations, we propose a novel neural path representation by designing a dual-branch Variational Autoencoder (VAE) that learns the path latent space from both sequence and image modalities. By optimizing the combination of neural paths, we can incorporate geometric constraints while preserving expressivity in generated SVGs. Furthermore, we introduce a two-stage path optimization method to improve the visual and topological quality of generated SVGs. In the first stage, a pre-trained text-to-image diffusion model guides the initial generation of complex vector graphics through the Variational Score Distillation (VSD) process. In the second stage, we refine the graphics using a layer-wise image vectorization strategy to achieve clearer elements and structure. We demonstrate the effectiveness of our method through extensive experiments and showcase various applications. The project page is https://intchous.github.io/T2V-NPR.
翻訳日:2024-05-17 13:12:38 公開日:2024-05-16
# センサ信号に対する因果推論を用いた適応強化学習による半教師付き異常検出

Semi-supervised Anomaly Detection via Adaptive Reinforcement Learning-Enabled Method with Causal Inference for Sensor Signals ( http://arxiv.org/abs/2405.06925v2 )

ライセンス: Link先を確認
Xiangwei Chen, Ruliang Xiaoa, Zhixia Zeng, Zhipeng Qiu, Shi Zhang, Xin Du, (参考訳) センサ信号の半教師付き異常検出は、スマート製造におけるシステムの信頼性確保に不可欠である。 しかし、既存の手法はデータ相関に大きく依存しており、因果関係を無視し、要因の相違による潜在的な誤解につながっている。 さらに、現在の強化学習に基づく手法は、ラベル付きサンプルが限られている既知の未知の異常を効果的に識別することができるが、これらの手法は、事前知識の未活用、モデルの柔軟性の欠如、環境相互作用における報酬フィードバックの欠如など、いくつかの課題に直面している。 そこで本研究では,Tri-CRLAD(Tri-CRLAD:Tri-Assisted Causal Reinforcement Learning Anomaly Detector)と呼ばれる因果強化学習モデルを構築した。 このモデルは因果推論を利用して、データ中の固有の因果的特徴を抽出し、エージェントの事前知識の利用を高め、その一般化能力を向上させる。 さらに、Tri-CRLADは、歴史的類似性に基づくサンプリング戦略、適応しきい値平滑化調整戦略、適応決定報酬機構を含むトリプル決定支援機構を備えている。 これらのメカニズムはモデルの柔軟性と一般化能力をさらに強化し、様々な複雑で動的に変化する環境に効果的に対応できるようにする。 7つのセンサ信号データセットに対する実験結果から、Tri-CRLADは9つの最先端のベースライン法より優れていることが示された。 特にTri-CRLADは、最小限の既知の異常サンプルによる異常検出安定性を最大23倍改善し、半教師付き異常検出シナリオにおけるその可能性を強調している。 私たちのコードはhttps://github.com/Aoudsung/Tri-CRLAD.comで公開されています。

Semi-supervised anomaly detection for sensor signals is critical in ensuring system reliability in smart manufacturing. However, existing methods rely heavily on data correlation, neglecting causality and leading to potential misinterpretations due to confounding factors. Moreover, while current reinforcement learning-based methods can effectively identify known and unknown anomalies with limited labeled samples, these methods still face several challenges, such as under-utilization of priori knowledge, lack of model flexibility, and deficient reward feedback during environmental interactions. To address the above problems, this paper innovatively constructs a counterfactual causal reinforcement learning model, termed Triple-Assisted Causal Reinforcement Learning Anomaly Detector (Tri-CRLAD). The model leverages causal inference to extract the intrinsic causal feature in data, enhancing the agent's utilization of prior knowledge and improving its generalization capability. In addition, Tri-CRLAD features a triple decision support mechanism, including a sampling strategy based on historical similarity, an adaptive threshold smoothing adjustment strategy, and an adaptive decision reward mechanism. These mechanisms further enhance the flexibility and generalization ability of the model, enabling it to effectively respond to various complex and dynamically changing environments. Experimental results across seven diverse sensor signal datasets demonstrate that Tri-CRLAD outperforms nine state-of-the-art baseline methods. Notably, Tri-CRLAD achieves up to a 23\% improvement in anomaly detection stability with minimal known anomaly samples, highlighting its potential in semi-supervised anomaly detection scenarios. Our code is available at https://github.com/Aoudsung/Tri-CRLAD.
翻訳日:2024-05-17 13:02:53 公開日:2024-05-16
# 連続可変量子プロセスのためのZXグラフ計算

ZX Graphical Calculus for Continuous-Variable Quantum Processes ( http://arxiv.org/abs/2405.07246v3 )

ライセンス: Link先を確認
Hironari Nagayoshi, Warit Asavanant, Ryuhoh Ide, Kosuke Fukui, Atsushi Sakaguchi, Jun-ichi Yoshikawa, Nicolas C. Menicucci, Akira Furusawa, (参考訳) 連続可変(CV)量子情報処理は大規模フォールトトレラント量子計算の候補となる。 しかし、CV量子過程の解析は、主にハイゼンベルク図における作用素の進化の直接計算に依存しており、CV空間の特徴は直感的に研究されていない。 CV量子コンピューティングのさらなる探索の鍵となる要素は、視覚的直観と分析のための新しいツールをもたらす計算モデルの構築である。 本稿では、任意のCV量子過程を単純な有向グラフとして表現することのできる、ZX計算と呼ばれる量子ビット系の類似モデルに着想を得たグラフィカル・コンピューティング・モデルについて検討する。 本稿では,2つの異なる量子プロセス間の等価性が,ある場合において図形変換のシーケンスとしてどのように証明できるかを示すことによって,直感的にCVプロセスを理解するためのグラフィカルツールとしての我々のモデルの有用性を実証する。 また、計測に基づく量子コンピューティング、ガウスおよび非ガウス過程のキャラクタリゼーション、回路最適化などのモデルの適用可能性についても検討する。

Continuous-variable (CV) quantum information processing is a promising candidate for large-scale fault-tolerant quantum computation. However, analysis of CV quantum process relies mostly on direct computation of the evolution of operators in the Heisenberg picture, and the features of CV space has yet to be thoroughly investigated in an intuitive manner. One key ingredient for further exploration of CV quantum computing is the construction of a computational model that brings visual intuition and new tools for analysis. In this paper, we delve into a graphical computational model, inspired by a similar model for qubit-based systems called the ZX calculus, that enables the representation of arbitrary CV quantum process as a simple directed graph. We demonstrate the utility of our model as a graphical tool to comprehend CV processes intuitively by showing how equivalences between two distinct quantum processes can be proven as a sequence of diagrammatic transformations in certain cases. We also examine possible applications of our model, such as measurement-based quantum computing, characterization of Gaussian and non-Gaussian processes, and circuit optimization.
翻訳日:2024-05-17 13:02:53 公開日:2024-05-16
# OpenLLM-Ro -- ルーマニアのオープンソースLLMに関する技術報告

OpenLLM-Ro -- Technical Report on Open-source Romanian LLMs ( http://arxiv.org/abs/2405.07703v4 )

ライセンス: Link先を確認
Mihai Masala, Denis C. Ilie-Ablachim, Dragos Corlatescu, Miruna Zavelca, Marius Leordeanu, Horia Velicu, Marius Popescu, Mihai Dascalu, Traian Rebedea, (参考訳) 近年、LLM(Large Language Models)は、様々なタスクにおいて、ほぼ人間のようなパフォーマンスを実現している。 一部のLSMは多言語データで訓練されているが、ほとんどのトレーニングデータは英語で書かれている。 したがって、彼らの英語での演奏は、他の言語での演奏よりもはるかに多い。 本論文では,ルーマニア語を専門とする最初の基礎的・チャット型LLMの学習と評価について述べる。

In recent years, Large Language Models (LLMs) have achieved almost human-like performance on various tasks. While some LLMs have been trained on multilingual data, most of the training data is in English. Hence, their performance in English greatly exceeds their performance in other languages. This document presents our approach to training and evaluating the first foundational and chat LLM specialized for Romanian.
翻訳日:2024-05-17 13:02:53 公開日:2024-05-16
# 導波路における量子エミッタのサブ放射と超放射長距離励起輸送

Subradiance and Superradiant Long Range Excitation Transport among Quantum Emitter Ensembles in a Waveguide ( http://arxiv.org/abs/2405.07833v2 )

ライセンス: Link先を確認
Martin Fasser, Laurin Ostermann, Helmut Ritsch, Christoph Hotter, (参考訳) 自由空間とは対照的に、導波路では、量子エミッタ間の分散性および散逸性双極子-双極子相互作用は驚くほど長い距離にわたって周期的な挙動を示す。 本研究では、この長距離周期性を利用して高励起のサブラジアント状態を作り、導波路に結合した遠方のアンサンブル間の高速制御された集団エネルギー輸送を促進する手法を提案する。 十分に大きなアンサンブルでは、ファイバーモードへの集合超放射が自由空間に支配される。 多数のエミッタに対して、高速な横コヒーレントパルスは、最大50\%の励起を持つほぼ完全なサブラジアント状態を生成することができることを示す。 一方、1つのサブアンサンブルのコヒーレントな励起が総励起率50\%以上の場合、ほとんど損失がなく高速なエネルギー移動が基底状態のサブアンサンブルに現れる。 この輸送は、互いに相対的なアンサンブルの位置を制御することで強化または抑制することができ、またランダムな位置分布でも実現することができる。 最適に強化された場合、この高速移動は、後続の超吸収を伴う超放射能放出として現れるが、吸収後の超放射能崩壊は起こらない。 高励起サブラジアント状態とスーパーラジアント励起移動は、アクティブ原子時計、量子電池、量子情報プロトコル、ファイバーベースのラムゼースキームのような量子メロジカルな手順などの応用において適切な構成ブロックとして現れる。

In contrast to free space, in waveguides the dispersive and dissipative dipole-dipole interactions among quantum emitters exhibit a periodic behavior over remarkably long distances. We propose a novel setup exploiting this long-range periodicity in order to create highly excited subradiant states and facilitate fast controlled collective energy transport amongst far-apart ensembles coupled to a waveguide. For sufficiently large ensembles collective superradiant emission into the fiber modes dominates over its free space counterpart. We show that for a large number of emitters a fast transverse coherent pulse can create almost perfect subradiant states with up to $50\%$ excitation. On the other hand, for a coherent excitation of one sub-ensemble above an overall excitation fraction of $50\%$ we find a nearly lossless and fast energy transfer to the ground state sub-ensemble. This transport can be enhanced or suppressed by controlling the positions of the ensembles relative to each other, while it can also be realized with a random position distribution. In the optimally enhanced case this fast transfer appears as superradiant emission with subsequent superabsorption, yet, without a superradiant decay after the absorption. The highly excited subradiant states as well as the superradiant excitation transfer appear as suitable building blocks in applications like active atomic clocks, quantum batteries, quantum information protocols and quantum metrology procedures such as fiber-based Ramsey schemes.
翻訳日:2024-05-17 13:02:53 公開日:2024-05-16
# 異なるガウスに付随するHagedorn波束について

On Hagedorn wavepackets associated with different Gaussians ( http://arxiv.org/abs/2405.07880v2 )

ライセンス: Link先を確認
Jiří J. L. Vaníček, Zhan Tong Zhang, (参考訳) Hagedorn関数は、多次元圧縮および結合調和系の設定に対して、エルミート関数の慎重に構成された一般化である。 Hagedorn関数の重ね合わせによって形成されるウェーブパペットは、調和系とアンハーモニック系の変分において、時間依存のシュルンディンガー方程式を正確に解くのに成功している。 位置や運動エネルギーなどの典型的な観測可能量を評価するためには、単一のガウス中心を持つ正則ハゲゴルン函数を考えるのに十分である。 ここでは、スペクトル計算に必要な時間相関関数など、時間的に非局所的な量を評価するのに必要な重なり合いを含む、異なるガウスに関連付けられたヘッジル基底間の様々な関係を導出する。 まず、ボゴリューボフ変換を用いて、異なるガウス作用素に関連するはしご作用素間の可換関係を得る。 そして、数値的な二次式を使う代わりに、これらの可換関係を用いて、異なるガウス中心を持つハゲゴルン函数間の重なり合う積分の正確な反復関係を導出する。 最後に、我々の代数的手法の精度と効率を実証する数値実験を行い、分光学や化学力学の問題を扱いやすくする。

Hagedorn functions are carefully constructed generalizations of Hermite functions to the setting of many-dimensional squeezed and coupled harmonic systems. Wavepackets formed by superpositions of Hagedorn functions have been successfully used to solve the time-dependent Schr\"{o}dinger equation exactly in harmonic systems and variationally in anharmonic systems. For evaluating typical observables, such as position or kinetic energy, it is sufficient to consider orthonormal Hagedorn functions with a single Gaussian center. Here, we instead derive various relations between Hagedorn bases associated with different Gaussians, including their overlaps, which are necessary for evaluating quantities nonlocal in time, such as time correlation functions needed for computing spectra. First, we use the Bogoliubov transformation to obtain commutation relations between the ladder operators associated with different Gaussians. Then, instead of using numerical quadrature, we employ these commutation relations to derive exact recurrence relations for the overlap integrals between Hagedorn functions with different Gaussian centers. Finally, we present numerical experiments that demonstrate the accuracy and efficiency of our algebraic method as well as its suitability to treat problems in spectroscopy and chemical dynamics.
翻訳日:2024-05-17 13:02:53 公開日:2024-05-16
# 創発性エノンとフェルミオンにどの程度の絡み合いが必要か?

How much entanglement is needed for emergent anyons and fermions? ( http://arxiv.org/abs/2405.07970v2 )

ライセンス: Link先を確認
Zhi Li, Dongjin Lee, Beni Yoshida, (参考訳) エキゾチックな性質を持つ粒子は、長距離量子絡み合いにより、クォービットのような単純な成分からなる系に現れることが知られている。 本稿では,与えられた状態と短距離の絡み合い状態の最大重なりを定量化する幾何絡み合い測度(GEM)を用いて,創発性エノンやフェルミオンに必要な絡み合いの定量的評価を行う。 創発性エノン系の場合, ブレイディング統計に基づいて, GEMは微視的詳細によらず, システムサイズで線形にスケールすることを示す。 創発性エノンの現象は量子誤り補正(QEC)の枠組みでも理解することができる。 具体的には、任意の2次元安定化器符号のGEMは、符号距離において少なくとも2次でなければならないことを示す。 我々の証明は、文字列演算子を構築するための一般的な処方則に基づいており、創発性エノンとQECとの間の厳密で直接的な接続を確立する。 創発的なフェルミオンを持つ系では、基底状態部分空間が指数関数的に巨大であり、その符号化特性がかなり貧弱であるにもかかわらず、GEMはシステムサイズで線形にスケールすることも示している。 我々はまた、量子異常と絡み合いの興味深いリンクを確立した: 純粋または混合であるような1$-形式対称性を尊重する量子状態は、長距離の絡み合いを持ち、大きなGEMを持ち、非自明な混合状態相を提供する。

It is known that particles with exotic properties can emerge in systems made of simple constituents such as qubits, due to long-range quantum entanglement. In this paper, we provide quantitative characterizations of entanglement necessary for emergent anyons and fermions by using the geometric entanglement measure (GEM) which quantifies the maximal overlap between a given state and any short-range entangled states. For systems with emergent anyons, based on the braiding statistics, we show that the GEM scales linearly in the system size regardless of microscopic details. The phenomenon of emergent anyons can also be understood within the framework of quantum error correction (QEC). Specifically, we show that the GEM of any 2D stabilizer codes must be at least quadratic in the code distance. Our proof is based on a generic prescription for constructing string operators, establishing a rigorous and direct connection between emergent anyons and QEC. For systems with emergent fermions, despite that the ground state subspaces could be exponentially huge and their coding properties could be rather poor, we show that the GEM also scales linearly in the system size. Our results also establish an intriguing link between quantum anomaly and entanglement: a quantum state respecting anomalous $1$-form symmetries, be it pure or mixed, must be long-range entangled and have large GEM, offering a non-trivial class of intrinsically mixed state phases.
翻訳日:2024-05-17 13:02:53 公開日:2024-05-16
# AIベースのサイバーハラスメント検出ラボを設計したAIサイバーセキュリティ教育

AI-Cybersecurity Education Through Designing AI-based Cyberharassment Detection Lab ( http://arxiv.org/abs/2405.08125v2 )

ライセンス: Link先を確認
Ebuka Okpala, Nishant Vishwamitra, Keyan Guo, Song Liao, Long Cheng, Hongxin Hu, Yongkai Wu, Xiaohong Yuan, Jeannette Wade, Sajad Khorsandroo, (参考訳) サイバーハラスメントは、標的とするグループや個人に悪影響を及ぼす可能性があるため、批判的で社会的に関係のあるサイバーセキュリティ問題である。 サイバーハラスメントの理解、その検出、人工知能(AI)ベースのサイバーハラスメントシステムへの攻撃、およびサイバーハラスメント検知器の社会問題についての研究は進展しているが、このAI時代において、この新たな社会サイバーセキュリティに学生を巻き込む経験的学習教材を設計する上ではほとんど行われていない。 経験的学習の機会は通常、コンピュータ科学のようなSTEMプログラムのキャップストーンプロジェクトやエンジニアリングデザインコースを通じて提供される。 キャップストーンプロジェクトは経験的学習の優れた例だが、この新興社会サイバーセキュリティ問題の学際的な性質を考えると、AIの知識を必要とせずに非コンピュータの学生をエンゲージすることは困難である。 そのために私たちは,AIの知識をほとんどあるいは全く持たない非コンピュータの学生に経験的な学習体験を提供する,ハンズオンラボプラットフォームの開発を動機付け,このラボの開発で学んだ教訓について議論した。 2022年、ノースカロライナA&T州立大学の社会科学の学生が2学期(春と秋)にわたって使用したこの研究室では、学生は詳細な研究室マニュアルが与えられ、詳細なタスクを完了しようとしている。 このプロセスを通じて、学生はAIの概念とAIのサイバーハラスメント検出への応用を学ぶ。 プレサーベイとポストサーベイを使用して、学生にAIにおける知識やスキルの評価と、学習した概念の理解を依頼した。 その結果、学生はAIとサイバーハラスメントの概念を適度に理解していることがわかった。

Cyberharassment is a critical, socially relevant cybersecurity problem because of the adverse effects it can have on targeted groups or individuals. While progress has been made in understanding cyber-harassment, its detection, attacks on artificial intelligence (AI) based cyberharassment systems, and the social problems in cyberharassment detectors, little has been done in designing experiential learning educational materials that engage students in this emerging social cybersecurity in the era of AI. Experiential learning opportunities are usually provided through capstone projects and engineering design courses in STEM programs such as computer science. While capstone projects are an excellent example of experiential learning, given the interdisciplinary nature of this emerging social cybersecurity problem, it can be challenging to use them to engage non-computing students without prior knowledge of AI. Because of this, we were motivated to develop a hands-on lab platform that provided experiential learning experiences to non-computing students with little or no background knowledge in AI and discussed the lessons learned in developing this lab. In this lab used by social science students at North Carolina A&T State University across two semesters (spring and fall) in 2022, students are given a detailed lab manual and are to complete a set of well-detailed tasks. Through this process, students learn AI concepts and the application of AI for cyberharassment detection. Using pre- and post-surveys, we asked students to rate their knowledge or skills in AI and their understanding of the concepts learned. The results revealed that the students moderately understood the concepts of AI and cyberharassment.
翻訳日:2024-05-17 13:02:53 公開日:2024-05-16
# バイオメディカルNLPにおける検索型大規模言語モデルのベンチマーク:応用,ロバスト性,自己認識

Benchmarking Retrieval-Augmented Large Language Models in Biomedical NLP: Application, Robustness, and Self-Awareness ( http://arxiv.org/abs/2405.08151v2 )

ライセンス: Link先を確認
Mingchen Li, Zaifu Zhan, Han Yang, Yongkang Xiao, Jiatan Huang, Rui Zhang, (参考訳) 大規模言語モデル (LLM) は様々なバイオメディカル自然言語処理(NLP)タスクにおいて顕著な機能を示し、入力コンテキスト内の実演を利用して新しいタスクに適応している。 しかし、LLMはデモの選択に敏感である。 LLMに固有の幻覚的問題に対処するために、検索強化LLM(RAL)は、確立したデータベースから関連する情報を検索して解決策を提供する。 それにもかかわらず、既存の研究は、検索強化された大規模言語モデルが異なる生物医学的NLPタスクに与える影響の厳密な評価を欠いている。 この欠損は、バイオメディカルドメイン内でのALの機能の確認を困難にしている。 さらに、ALからのアウトプットは、バイオメディカル領域であまり研究されていない、ラベルのない、偽造的、あるいは多様な知識を回収することによって影響を受ける。 しかし、そのような知識は現実世界では一般的である。 最後に、自己認識能力の探索も、ALシステムにとって不可欠である。 そこで本研究では,3つの生物医学的課題(3つの抽出,リンク予測,分類,質問応答,自然言語推論)に対するラルの影響を体系的に検討する。 本研究では, ラベルのない頑健性, 反事実的堅牢性, 多様な頑健性, 否定的認識など, 4つの基本能力におけるラルのパフォーマンスを分析した。 そこで本研究では,生物医学的NLPタスクにおけるALSのパフォーマンスを評価するための評価枠組みを提案し,上記の基本能力に基づいて4つのテストベッドを構築した。 そして,9つのデータセット上の5つのタスクに対して,3つの異なるレトリバーを持つ3つの代表LSMを評価した。

Large language models (LLM) have demonstrated remarkable capabilities in various biomedical natural language processing (NLP) tasks, leveraging the demonstration within the input context to adapt to new tasks. However, LLM is sensitive to the selection of demonstrations. To address the hallucination issue inherent in LLM, retrieval-augmented LLM (RAL) offers a solution by retrieving pertinent information from an established database. Nonetheless, existing research work lacks rigorous evaluation of the impact of retrieval-augmented large language models on different biomedical NLP tasks. This deficiency makes it challenging to ascertain the capabilities of RAL within the biomedical domain. Moreover, the outputs from RAL are affected by retrieving the unlabeled, counterfactual, or diverse knowledge that is not well studied in the biomedical domain. However, such knowledge is common in the real world. Finally, exploring the self-awareness ability is also crucial for the RAL system. So, in this paper, we systematically investigate the impact of RALs on 5 different biomedical tasks (triple extraction, link prediction, classification, question answering, and natural language inference). We analyze the performance of RALs in four fundamental abilities, including unlabeled robustness, counterfactual robustness, diverse robustness, and negative awareness. To this end, we proposed an evaluation framework to assess the RALs' performance on different biomedical NLP tasks and establish four different testbeds based on the aforementioned fundamental abilities. Then, we evaluate 3 representative LLMs with 3 different retrievers on 5 tasks over 9 datasets.
翻訳日:2024-05-17 13:02:53 公開日:2024-05-16
# 光ファイバー・時間多重単一光子源を目指して

Towards a fiber-optic temporally multiplexed single photon source ( http://arxiv.org/abs/2405.08157v2 )

ライセンス: Link先を確認
Agustina G. Magnoni, Laura T. Knoll, Lina Wölcken, Julián Defant, Julián Morales, Miguel A. Larotonda, (参考訳) 光通信の波長範囲における連続波符号化光子源の時間多重化によるサブポアソン放射統計を用いた光子源の実装の可能性を示す。 我々は、シャーディング光子の時刻到着情報を用いて、全ファイバ組立体におけるシャーディング光子の遅延を積極的に修正し、出力を外部クロックと同期させる。 この同期動作系内では、一つの時間的補正段階が加わったことにより、隠蔽光子源の単一光子放出のメリットの数値が向上することを示した。 約1.8の輝度向上係数と信号-雑音比の増大を一致事故数比で定量化する。 これらの結果は、光通信帯域における古典的でない光子源の統合方法を明確にする。

We demonstrate the feasibility of implementing a photon source with sub-Poissonian emission statistics through temporal multiplexing of a continuous wave heralded photon source in the optical communications wavelength range. We use the time arrival information of a heralding photon to actively modify the delay of the heralded photon in an all-fiber assembly, in order to synchronize the output with with respect to an external clock. Within this synchronized operating regime we show that the addition of a single temporal correcting stage can improve the figure of merit for single photon emission of a heralded photon source. We obtain a brightness improvement factor of approximately 1.8 and an enhancement of the signal-to-noise ratio, quantified by the coincidence-to-accidental counts ratio. These results, clear the way for integrated optics non-classical photon sources in the optical communication band.
翻訳日:2024-05-17 13:02:53 公開日:2024-05-16
# グラフに基づく知識の探索:チャネル関係グラフによるマルチレベル特徴蒸留

Exploring Graph-based Knowledge: Multi-Level Feature Distillation via Channels Relational Graph ( http://arxiv.org/abs/2405.08547v2 )

ライセンス: Link先を確認
Zhiwei Wang, Jun Huang, Longhua Ma, Chengyu Wu, Hongyu Ma, (参考訳) 視覚的なタスクでは、大きな教師モデルは重要な特徴と深い情報を取得し、パフォーマンスを向上する。 しかし、この情報をより小さな学生モデルに蒸留すると、構造的差異と容量制限により性能が低下することが多い。 そこで本研究では,マルチレベル特徴アライメント戦略と注意誘導機構を含むグラフ知識に基づく蒸留フレームワークを提案する。 蒸留工程におけるスペクトル埋め込み (SE) は, 学生の特徴空間と教師ネットワークに類似した関係知識と構造的複雑さを融合させる重要な手法である。 この方法は、教師のグラフに基づく表現における理解を捉え、生徒モデルが教師モデルに存在する複雑な構造的依存関係をより正確に模倣できるようにする。 本手法は, 特定の蒸留地域のみに着目した手法と比較して, 教師モデルにおける重要な特徴だけでなく, 特徴集合間の関係や相互作用を捉え, 複雑な情報をグラフ構造にエンコードし, それらの情報間の動的関係をグローバルな視点から理解し活用する試みである。 実験により,CIFAR-100,MS-COCO,Pascal VOCデータセットの従来の特徴蒸留法よりも優れた性能を示し,その効率性と適用性を示した。

In visual tasks, large teacher models capture essential features and deep information, enhancing performance. However, distilling this information into smaller student models often leads to performance loss due to structural differences and capacity limitations. To tackle this, we propose a distillation framework based on graph knowledge, including a multi-level feature alignment strategy and an attention-guided mechanism to provide a targeted learning trajectory for the student model. We emphasize spectral embedding (SE) as a key technique in our distillation process, which merges the student's feature space with the relational knowledge and structural complexities similar to the teacher network. This method captures the teacher's understanding in a graph-based representation, enabling the student model to more accurately mimic the complex structural dependencies present in the teacher model. Compared to methods that focus only on specific distillation areas, our strategy not only considers key features within the teacher model but also endeavors to capture the relationships and interactions among feature sets, encoding these complex pieces of information into a graph structure to understand and utilize the dynamic relationships among these pieces of information from a global perspective. Experiments show that our method outperforms previous feature distillation methods on the CIFAR-100, MS-COCO, and Pascal VOC datasets, proving its efficiency and applicability.
翻訳日:2024-05-17 13:02:53 公開日:2024-05-16
# Neural Collapse with Differential Privacy: Curious Behaviors of NoisyGD with Near-perfect Representation Learning

Neural Collapse Meets Differential Privacy: Curious Behaviors of NoisyGD with Near-perfect Representation Learning ( http://arxiv.org/abs/2405.08920v2 )

ライセンス: Link先を確認
Chendi Wang, Yuqing Zhu, Weijie J. Su, Yu-Xiang Wang, (参考訳) De et al (2022) による最近の研究によると、公共データセットの事前学習による大規模表現学習は、特徴空間の高次元性にもかかわらず、下流タスクにおける差分プライベート(DP)学習を著しく向上させる。 この現象を理論的に説明するために,表現学習における階層型モデルの設定を考察し,ニューラルネットワーク(NC)と呼ばれる深層学習における学習特徴に関連する興味深い現象について考察した。 NCの枠組み内では、誤分類誤差が実際の特徴と理想的なものの間の距離がしきい値より小さい場合の次元に依存しないことを示す誤差境界を確立する。 さらに、最後のレイヤの機能の品質は、NCのフレームワーク内でトレーニング済みのさまざまなモデルの下で実証的に評価され、より強力なトランスフォーマーがより優れた機能表現をもたらすことを示す。 さらに,DPの微調整はDPのない微調整に比べ,特に摂動の存在下では頑健ではないことが明らかとなった。 これらの観測は、理論的分析と実験的評価の両方によって支持されている。 さらに,DP微調整の堅牢性を高めるため,特徴正規化や主成分分析(PCA)のような次元削減手法の採用など,いくつかの戦略を提案する。 実験では, 最終層の特徴に対してPCAを施すことにより, テスト精度を大幅に向上することを示した。

A recent study by De et al. (2022) has reported that large-scale representation learning through pre-training on a public dataset significantly enhances differentially private (DP) learning in downstream tasks, despite the high dimensionality of the feature space. To theoretically explain this phenomenon, we consider the setting of a layer-peeled model in representation learning, which results in interesting phenomena related to learned features in deep learning and transfer learning, known as Neural Collapse (NC). Within the framework of NC, we establish an error bound indicating that the misclassification error is independent of dimension when the distance between actual features and the ideal ones is smaller than a threshold. Additionally, the quality of the features in the last layer is empirically evaluated under different pre-trained models within the framework of NC, showing that a more powerful transformer leads to a better feature representation. Furthermore, we reveal that DP fine-tuning is less robust compared to fine-tuning without DP, particularly in the presence of perturbations. These observations are supported by both theoretical analyses and experimental evaluation. Moreover, to enhance the robustness of DP fine-tuning, we suggest several strategies, such as feature normalization or employing dimension reduction methods like Principal Component Analysis (PCA). Empirically, we demonstrate a significant improvement in testing accuracy by conducting PCA on the last-layer features.
翻訳日:2024-05-17 13:02:53 公開日:2024-05-16
# LLMを用いた低・非ソース言語のためのルールベース機械翻訳

LLM-Assisted Rule Based Machine Translation for Low/No-Resource Languages ( http://arxiv.org/abs/2405.08997v2 )

ライセンス: Link先を確認
Jared Coleman, Bhaskar Krishnamachari, Khalil Iskarous, Ruben Rosales, (参考訳) LLM-RBMT (LLM-Assisted Rule Based Machine Translation:LLM-Assisted Rule Based Machine Translation:LLM-RBMT)。 LLM-RBMTパラダイムを用いて、オーエンズ・バレー・パイユート(Oeens Valley Paiute, OVP)のための最初の言語教育/再生指向機械翻訳装置を設計する。 本稿では,ルールベース文ビルダー,英語翻訳者へのOVP,英語翻訳者へのOVP翻訳について詳細な評価を行う。 また、このパラダイムの可能性、その限界、そしてそれが開放する将来の研究への多くの道について論じる。

We propose a new paradigm for machine translation that is particularly useful for no-resource languages (those without any publicly available bilingual or monolingual corpora): LLM-RBMT (LLM-Assisted Rule Based Machine Translation). Using the LLM-RBMT paradigm, we design the first language education/revitalization-oriented machine translator for Owens Valley Paiute (OVP), a critically endangered Indigenous American language for which there is virtually no publicly available data. We present a detailed evaluation of the translator's components: a rule-based sentence builder, an OVP to English translator, and an English to OVP translator. We also discuss the potential of the paradigm, its limitations, and the many avenues for future research that it opens up.
翻訳日:2024-05-17 13:02:53 公開日:2024-05-16
# 忠実位置符号化による変圧器の改良

Improving Transformers using Faithful Positional Encoding ( http://arxiv.org/abs/2405.09061v2 )

ライセンス: Link先を確認
Tsuyoshi Idé, Jokin Labaien, Pin-Yu Chen, (参考訳) 本稿では,Transformerと呼ばれるニューラルネットワークアーキテクチャのための新しい位置符号化手法を提案する。 標準的な正弦波位置符号化とは違って,本手法は固体数学的根拠に基づいており,入力シーケンスの位置次数に関する情報が失われないように保証されている。 時系列分類タスクにおいて,新しい符号化手法が予測性能を体系的に向上することを示す。

We propose a new positional encoding method for a neural network architecture called the Transformer. Unlike the standard sinusoidal positional encoding, our approach is based on solid mathematical grounds and has a guarantee of not losing information about the positional order of the input sequence. We show that the new encoding approach systematically improves the prediction performance in the time-series classification task.
翻訳日:2024-05-17 13:02:53 公開日:2024-05-16
# グローバルローカル画像知覚スコア(GLIPS):AI生成画像の光写実的品質の評価

Global-Local Image Perceptual Score (GLIPS): Evaluating Photorealistic Quality of AI-Generated Images ( http://arxiv.org/abs/2405.09426v2 )

ライセンス: Link先を確認
Memoona Aziz, Umair Rehman, Muhammad Umair Danish, Katarina Grolinger, (参考訳) 本稿では,人間の視覚知覚に高度に適応したAI生成画像の写実的画像品質を評価するために,GLIPS(Global-Local Image Perceptual Score)を提案する。 FIDやKIDスコアといった従来の指標は、人間の評価と密接に一致していない。 提案手法は,局所的な類似性を評価するための高度なトランスフォーマーベースアテンション機構と,グローバルな分布類似性を評価するための最大平均離散性(MMD)を組み込んだものである。 GLIPSの性能を評価するために,光実写画像の品質に関する人間による研究を行った。 様々な生成モデルにわたる総合的なテストは、GLIPSが人間のスコアと相関する点において、FID、SSIM、MS-SSIMといった既存の指標を一貫して上回っていることを示している。 さらに,人間の評価基準とより密に整合させることにより,測定値の解釈可能性を高める改良されたスケーリング手法であるInterpolative Binning Scale (IBS)を導入する。 提案したメトリックとスケーリングのアプローチは,AI生成画像の信頼性向上だけでなく,画像生成技術の今後の拡張のための経路も提案する。

This paper introduces the Global-Local Image Perceptual Score (GLIPS), an image metric designed to assess the photorealistic image quality of AI-generated images with a high degree of alignment to human visual perception. Traditional metrics such as FID and KID scores do not align closely with human evaluations. The proposed metric incorporates advanced transformer-based attention mechanisms to assess local similarity and Maximum Mean Discrepancy (MMD) to evaluate global distributional similarity. To evaluate the performance of GLIPS, we conducted a human study on photorealistic image quality. Comprehensive tests across various generative models demonstrate that GLIPS consistently outperforms existing metrics like FID, SSIM, and MS-SSIM in terms of correlation with human scores. Additionally, we introduce the Interpolative Binning Scale (IBS), a refined scaling method that enhances the interpretability of metric scores by aligning them more closely with human evaluative standards. The proposed metric and scaling approach not only provides more reliable assessments of AI-generated images but also suggest pathways for future enhancements in image generation technologies.
翻訳日:2024-05-17 13:02:53 公開日:2024-05-16
# MMFusion:食道癌リンパ節転移診断のための多モード拡散モデル

MMFusion: Multi-modality Diffusion Model for Lymph Node Metastasis Diagnosis in Esophageal Cancer ( http://arxiv.org/abs/2405.09539v2 )

ライセンス: Link先を確認
Chengyu Wu, Chengkai Wang, Yaqi Wang, Huiyu Zhou, Yatao Zhang, Qifeng Wang, Shuai Wang, (参考訳) 食道癌は世界中で最も多いがんの1つであり、がん関連死亡率では第6位である。 正確なコンピューターによるがん進行の診断は、医師がパーソナライズされた治療計画を効果的にカスタマイズするのに役立ちます。 現在、CTベースのがん診断法は患者の病態を総合的に検査する能力に多くの注目を集めている。 しかし、マルチモーダルベースの手法は情報冗長性を導入し、性能が低下する可能性がある。 さらに、マルチモーダル表現間の効率的かつ効果的な相互作用をさらに探求する必要がある。 本研究では,CT画像を用いたリンパ節転移診断のためのマルチモーダルなヘテロジニアスグラフを用いた条件付き拡散モデルを提案する。 マルチモーダルな特徴間の複雑な関係を探索するために、不均一なグラフを構築する。 その後、情報冗長性を排除するために条件付き特徴誘導拡散法を適用した。 さらに, 悪性腫瘍とリンパ節画像の関連性, 優先性を明らかにすることを目的として, マスク付き関係表現学習戦略を提案する。 提案手法の有効性を実験的に検証した。 コードはhttps://github.com/wuchengyu123/MMFusion.comで公開されている。

Esophageal cancer is one of the most common types of cancer worldwide and ranks sixth in cancer-related mortality. Accurate computer-assisted diagnosis of cancer progression can help physicians effectively customize personalized treatment plans. Currently, CT-based cancer diagnosis methods have received much attention for their comprehensive ability to examine patients' conditions. However, multi-modal based methods may likely introduce information redundancy, leading to underperformance. In addition, efficient and effective interactions between multi-modal representations need to be further explored, lacking insightful exploration of prognostic correlation in multi-modality features. In this work, we introduce a multi-modal heterogeneous graph-based conditional feature-guided diffusion model for lymph node metastasis diagnosis based on CT images as well as clinical measurements and radiomics data. To explore the intricate relationships between multi-modal features, we construct a heterogeneous graph. Following this, a conditional feature-guided diffusion approach is applied to eliminate information redundancy. Moreover, we propose a masked relational representation learning strategy, aiming to uncover the latent prognostic correlations and priorities of primary tumor and lymph node image representations. Various experimental results validate the effectiveness of our proposed method. The code is available at https://github.com/wuchengyu123/MMFusion.
翻訳日:2024-05-17 13:02:53 公開日:2024-05-16
# エンタングルメントスペクトルの微細レベル抽出のためのサンプリング縮小密度行列

Sampling reduced density matrix to extract fine levels of entanglement spectrum ( http://arxiv.org/abs/2310.16709v4 )

ライセンス: Link先を確認
Bin-Bin Mao, Yi-Ming Ding, Zheng Yan, (参考訳) 低いエンタングルメントスペクトルは、高エンタングルド量子物質を位相的および共形場理論的性質で同定するためのクインテシデントフィンガーを与える。 しかし、絡み合い領域が長い結合鎖や2次元以上の環境との長い境界を取得すると、計算コストで絡み合いスペクトルを計算するための普遍的かつ実用的な方法が存在しない。 本稿では,このような難易度を克服し,低層微細絡み合いスペクトル(ES)の抽出に成功した新しい手法を提案する。 量子モンテカルロシミュレーションを用いて環境をトレースし、還元密度行列を対角化してESを得る。 我々は、長い結合スピン鎖による手法の強さと信頼性を示し、その長年の論争に答える。 我々のシミュレーション結果は、前例のないほど大きなシステムサイズで、環境自由度の高い絡み合いスペクトルの実用的な計算方法を確立した。

Low-lying entanglement spectrum provides the quintessential fingerprint to identify the highly entangled quantum matter with topological and conformal field-theoretical properties. However, when the entangling region acquires long boundary with the environment, such as that between long coupled chains or in two or higher dimensions, there unfortunately exists no universal yet practical method to compute the entanglement spectra with affordable computational cost. Here we propose a new scheme to overcome such difficulty and successfully extract the low-lying fine entanglement spectrum (ES). We trace out the environment via quantum Monte Carlo simulation and diagonalize the reduced density matrix to gain the ES. We demonstrate the strength and reliability of our method through long coupled spin chains and answer its long-standing controversy. Our simulation results, with unprecedentedly large system sizes, establish the practical computation scheme of the entanglement spectrum with a huge freedom degree of environment.
翻訳日:2024-05-17 11:06:24 公開日:2024-05-16
# 角運動量量子エンタングルを用いた固体高調波ガウス軌道の計算効率の良い分子積分

Computationally Efficient Molecular Integrals of Solid Harmonic Gaussian Orbitals Using Quantum Entanglement of Angular Momentum ( http://arxiv.org/abs/2404.16245v3 )

ライセンス: Link先を確認
Hang Hu, Gilles Peslherbe, Hsu Kiang Ooi, Anguang Hu, (参考訳) カルテシアン型基底集合による多中心分子積分の評価は、固体や分子の電子構造理論計算における長年のボトルネックとなっている。 我々は,固体調和基底関数(SHGO)を用いた分子クーロン積分の解法として,ベクトル結合およびベクトルアンカップリング法を開発した。 固体調和は角運動量の固有状態であり、分子積分を分解することができる。 固体調和加法、差分法、および積則を組み合わせることにより、計算にコストがかかる4中心積分を、原子位置に依存する角部と放射成分に分解することができる。 この方法で分子核クーロン積分を評価する際のポテンシャル速度比は、高い角運動量量子数を持つ原子軌道に対して最大4桁まで達することができる。 数学的効率の根底にある基礎は量子角運動量理論であり、ベクトルカップリングとベクトルアンカップリングの両方のスキームは、量子角運動量状態に作用するユニタリなクレブシュ・ゴルダン変換に対応し、そのエンタングル化の度合いに影響を与える。 これらの変換を通じて量子角運動量を導入することにより、状態の絡み合いが減少し、量子系にとっての絡み合いが小さくなればなるほど、シミュレートが容易になる。 この高効率な方法は、加速材料と分子の設計と発見のための新しい道を開く。

Evaluating multi-center molecular integrals with Cartesian Gaussian-type basis sets has been a long-standing bottleneck in electronic structure theory calculation for solids and molecules. We have developed a vector-coupling and vector-uncoupling scheme to solve molecular Coulomb integrals with solid harmonics basis functions(SHGO). Solid harmonics are eigenstates of angular momentum, making it possible to factorize molecular integrals. By combining solid harmonic addition, differential and product rules, the computationally costly multi-center four-center integrals can be factored into an angular part and a radial component dependent on the atomic positions. The potential speed-up ratio in evaluating molecular nuclear Coulomb integrals in our method can reach up to four orders of magnitude for atomic orbitals with high angular momentum quantum numbers. The foundation underpinning the mathematical efficiency is the quantum angular momentum theory, where both vector-coupling and vector-uncoupling schemes correspond to unitary Clebsch-Gordan transformations that act on quantum angular momentum states, influencing their degree of entanglement. By incorporating quantum angular momentum through these transformations, the entanglement of the states can be reduced, and the less entanglement there is for a quantum system, the easier it is to simulate. The highly efficient method unveiled here opens new avenues for accelerated material and molecule design and discovery.
翻訳日:2024-05-17 11:06:23 公開日:2024-05-16
# 自己アライメントによる大規模言語モデルを用いたロボットスキルの学習

Learning Reward for Robot Skills Using Large Language Models via Self-Alignment ( http://arxiv.org/abs/2405.07162v3 )

ライセンス: Link先を確認
Yuwei Zeng, Yao Mu, Lin Shao, (参考訳) 報酬関数の学習は、幅広いスキルのレパートリーを持つロボットを装備する上で、依然としてボトルネックとなっている。 大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。 しかし,提案した報酬関数は不正確であり,環境情報にさらに根ざす必要がある。 ヒトがいない場合に報酬をより効率的に学習する方法を提案した。 まず、LLMを用いて報酬の特徴とパラメータ化を提案し、次に反復的な自己調整プロセスを通じてパラメータを更新する。 特に、このプロセスは、実行フィードバックに基づいてLLMと学習報酬関数とのランキングの不整合を最小化する。 この手法は2つのシミュレーション環境で9つのタスクで検証された。 トレーニングの有効性と効率性に対して一貫した改善が示される一方で、代替の突然変異ベースの方法と比較して、GPTトークンをはるかに少なく消費する。

Learning reward functions remains the bottleneck to equip a robot with a broad repertoire of skills. Large Language Models (LLM) contain valuable task-related knowledge that can potentially aid in the learning of reward functions. However, the proposed reward function can be imprecise, thus ineffective which requires to be further grounded with environment information. We proposed a method to learn rewards more efficiently in the absence of humans. Our approach consists of two components: We first use the LLM to propose features and parameterization of the reward, then update the parameters through an iterative self-alignment process. In particular, the process minimizes the ranking inconsistency between the LLM and the learnt reward functions based on the execution feedback. The method was validated on 9 tasks across 2 simulation environments. It demonstrates a consistent improvement over training efficacy and efficiency, meanwhile consuming significantly fewer GPT tokens compared to the alternative mutation-based method.
翻訳日:2024-05-17 11:06:23 公開日:2024-05-16