このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240214となっている論文です。

PDF登録状況(公開日: 20240214)

TitleAuthorsAbstract論文公表日・翻訳日
# スピン1に対するワインバーグ・タッカー・ハマー方程式の負エネルギーおよびタキオン解

Negative-energy and tachyonic solutions in the Weinberg-Tucker-Hammer equation for spin 1 ( http://arxiv.org/abs/2404.01304v1 )

ライセンス: Link先を確認
Valeriy V. Dvoeglazov, (参考訳) 我々は、スピン1粒子に対するファインマン・ダイソンプロパゲータを構築するために、Weinberg-like equationsを記事[1]で考察した。 この構成は、パリティと双対変換によって異なる4つの体函数の系としてのワインバーグ場の概念に基づいている。 我々はまた、D. Ahluwalia et al と W. Rodrigues Jr. らによる論文の中で、S=1/2自己/反自己電荷共役状態を含む場作用素に対するファインマン・ダイソンプロパゲータの定義における最近の論争を分析した。 私はフォック空間(バルトやジイノの作品のように)の必要な倍化を提案し、対応するクリフォード・アルゲブラを拡張した。 一方、N. Deberghらの記事は、ディラック方程式と他のT-およびPT-共役の形式を2倍にするという我々の古い考えを考察した [5]。 代数方程式 Det (\hat p - m) =0 と u- および v- 4-スピナーに対する Det (\hat p + m) =0 は p_0= \pm E_p =\pm \sqrt{{\bf p}^2 +m^2} の解を持つ。 これは高スピン方程式にも当てはまる(あるいはより複雑な分散関係を持つこともある)。 一方、すべての本は (1/2,0)\oplus (0,1/2) 表現の u- と v- のスピノルの等式 p_0=E_p を考えるので、負エネルギー解の除去にディラック=ファインマン=シュテッケルベルク法を適用する。 負のエネルギー、タキオン、離散対称性の適切な形式を使わずに、相対論的量子力学を適切に考慮することは不可能であるように思われる。

We considered Weinberg-like equations in the article [1] in order to construct the Feynman-Dyson propagator for the spin-1 particles. This construction is based on the concept of the Weinberg field as a system of four field functions differing by parity and by dual transformations. We also analyzed the recent controversy in the definitions of the Feynman-Dyson propagator for the field operator containing the S=1/2 self/anti-self charge conjugate states in the papers by D. Ahluwalia et al and by W. Rodrigues Jr. et al. The solution to this mathematical controversy is obvious. I proposed the necessary doubling of the Fock Space (as in the Barut and Ziino works), thus extending the corresponding Clifford Algebra. Meanwhile, the N. Debergh et al article considered our old ideas of doubling the Dirac equation, and other forms of T- and PT-conjugation [5]. Both algebraic equation Det (\hat p - m) =0 and Det (\hat p + m) =0 for u- and v- 4-spinors have solutions with p_0= \pm E_p =\pm \sqrt{{\bf p}^2 +m^2}. The same is true for higher-spin equations (or they may even have more complicated dispersion relations). Meanwhile, every book considers the equality p_0=E_p for both u- and v- spinors of the (1/2,0)\oplus (0,1/2)) representation only, thus applying the Dirac-Feynman-Stueckelberg procedure for elimination of negative-energy solutions. It seems, that it is imposible to consider the relativistic quantum mechanics appropriately without negative energies, tachyons and appropriate forms of the discrete symmetries.
翻訳日:2024-07-01 12:08:31 公開日:2024-02-14
# HaLo-NeRF: 制約のない写真コレクションを探索するための幾何ガイド付きセマンティック学習

HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections ( http://arxiv.org/abs/2404.16845v1 )

ライセンス: Link先を確認
Chen Dudai, Morris Alper, Hana Bezalel, Rana Hanocka, Itai Lang, Hadar Averbuch-Elor, (参考訳) 写真家の群衆が撮影した写真を含むインターネット画像コレクションは、大規模な観光名所のデジタル探査を可能にすることを約束している。 しかし、先行研究は主に幾何学的再構築と可視化に焦点を当てており、ナビゲーションときめ細かい理解のためのセマンティックインターフェースを提供する際の言語の主要な役割を無視している。 制約付き3Dドメインでは、近年の手法は2次元視覚意味論の強い先行として視覚・言語モデルを活用している。 これらのモデルは、広い視覚的意味論の優れた理解を示すが、建築分野の専門知識が欠如していることから、観光名所を描いた制約のない写真収集に苦慮している。 本研究では,大規模ランドマークを描写したシーンのニューラル表現とシーン内の意味領域を記述するテキストを結合するローカライズシステムを提案する。 このようなモデルをきめ細かな知識で強化するために、類似のランドマークの画像と弱い関係のあるテキスト情報を含む大規模インターネットデータを活用する。 我々のアプローチは、空間に物理的に接地された画像が、新しい概念をローカライズするための強力な監視信号を提供するという前提に基づいており、その意味論は大きな言語モデルでインターネットのテキストメタデータから解き放たれる可能性がある。 我々は、シーンのビュー間の対応を利用して、これらのセマンティクスの空間的理解をブートストラップし、3D互換セグメンテーションのガイダンスを提供する。 以上の結果から,HaLo-NeRFは他の3次元モデルと強力な2次元セグメンテーションベースラインを超越して,建築ランドマークに関連するさまざまな意味概念を正確にローカライズできることが示唆された。 私たちのプロジェクトページはhttps://tau-vailab.github.io/HaLo-NeRF/です。

Internet image collections containing photos captured by crowds of photographers show promise for enabling digital exploration of large-scale tourist landmarks. However, prior works focus primarily on geometric reconstruction and visualization, neglecting the key role of language in providing a semantic interface for navigation and fine-grained understanding. In constrained 3D domains, recent methods have leveraged vision-and-language models as a strong prior of 2D visual semantics. While these models display an excellent understanding of broad visual semantics, they struggle with unconstrained photo collections depicting such tourist landmarks, as they lack expert knowledge of the architectural domain. In this work, we present a localization system that connects neural representations of scenes depicting large-scale landmarks with text describing a semantic region within the scene, by harnessing the power of SOTA vision-and-language models with adaptations for understanding landmark scene semantics. To bolster such models with fine-grained knowledge, we leverage large-scale Internet data containing images of similar landmarks along with weakly-related textual information. Our approach is built upon the premise that images physically grounded in space can provide a powerful supervision signal for localizing new concepts, whose semantics may be unlocked from Internet textual metadata with large language models. We use correspondences between views of scenes to bootstrap spatial understanding of these semantics, providing guidance for 3D-compatible segmentation that ultimately lifts to a volumetric scene representation. Our results show that HaLo-NeRF can accurately localize a variety of semantic concepts related to architectural landmarks, surpassing the results of other 3D models as well as strong 2D segmentation baselines. Our project page is at https://tau-vailab.github.io/HaLo-NeRF/.
翻訳日:2024-07-01 11:39:16 公開日:2024-02-14
# 胸部疾患分類における低ランク特徴の学習

Learning Low-Rank Feature for Thorax Disease Classification ( http://arxiv.org/abs/2404.18933v1 )

ライセンス: Link先を確認
Rajeev Goel, Utkarsh Nath, Yancheng Wang, Alvin C. Silva, Teresa Wu, Yingzhen Yang, (参考訳) 畳み込みニューラルネットワーク(CNN)やビジュアルトランスフォーマー(ViT)を含むディープニューラルネットワークは、医療画像領域において驚くべき成功を収めている。 本稿では胸部疾患分類について検討する。 疾患領域の特徴の効果的な抽出は, 放射線画像上の疾患分類に不可欠である。 コントラスト/回復学習による自己教師型学習など,さまざまなニューラルネットワークやトレーニング技術が, 放射線画像上の疾患分類に用いられているが, 疾患分類のための放射線画像に対して, ノイズや背景, あるいは非放電領域の悪影響を効果的に低減できるような, 原則的手法は存在しない。 本稿では,この課題に対処するために,全てのニューラルネットワークのトレーニングに適用可能な,新しい低ランク特徴学習法(LRFL)を提案する。 LRFL法は,すべての医学データセットで観測される低周波特性によって実験的に動機付けられ,低ランク特徴を持つニューラルネットワークに対して,我々の急激な一般化によって理論的に動機付けられている。 The empirical study, using a neural network as a ViT or a CNN pre-trained on unlabeled chest X-ray by Masked Autoencoders (MAE), this novel LRFL method using the pre-trained neural network and showed better classification results with the multiclass area under the receiver operating curve (mAUC) and classification accuracy。

Deep neural networks, including Convolutional Neural Networks (CNNs) and Visual Transformers (ViT), have achieved stunning success in medical image domain. We study thorax disease classification in this paper. Effective extraction of features for the disease areas is crucial for disease classification on radiographic images. While various neural architectures and training techniques, such as self-supervised learning with contrastive/restorative learning, have been employed for disease classification on radiographic images, there are no principled methods which can effectively reduce the adverse effect of noise and background, or non-disease areas, on the radiographic images for disease classification. To address this challenge, we propose a novel Low-Rank Feature Learning (LRFL) method in this paper, which is universally applicable to the training of all neural networks. The LRFL method is both empirically motivated by the low frequency property observed on all the medical datasets in this paper, and theoretically motivated by our sharp generalization bound for neural networks with low-rank features. In the empirical study, using a neural network such as a ViT or a CNN pre-trained on unlabeled chest X-rays by Masked Autoencoders (MAE), our novel LRFL method is applied on the pre-trained neural network and demonstrate better classification results in terms of both multiclass area under the receiver operating curve (mAUC) and classification accuracy.
翻訳日:2024-07-01 11:39:16 公開日:2024-02-14
# Sentient House: 談話のための設計

Sentient House: Designing for Discourse ( http://arxiv.org/abs/2406.09419v1 )

ライセンス: Link先を確認
Robert Collins, (参考訳) センタエント・ハウス・プロジェクト(Sentient House project)は、芸術家設計者が、家庭や周囲の環境において、広く普及する技術に対する批判的な視点を発達させる上で、市民がより深く関与するためのアプローチに関する調査である。 ワークショップ、調査、ラピッドプロトタイピング、批判的思考を含むインタラクションデザインアプローチを用いることで、この論文は批判的デザインのためのより参加的な雰囲気を開発するための枠組みを示唆している。 世界がよりつながり、賢くなっていくにつれ、市民の懸念は急速な進歩と解決主義に傾倒している。 これらのイニシアチブの多くは、政府や商業上の懸念によって支えられている。 この公的な参加から生み出されたデザインとアプローチは、よりアゴニスト的な議論の場を提供し、将来、テクノロジーが彼らに与える影響を疑問視し、対処するためのツールとアプローチを開発することを目的としている。 この研究の結果は、デジタルの未来をデザインする上で、大衆はより積極的な関与を受容し、デザイナーは、より透明で望ましい未来のために隠れた結果と代替経路を明らかにする上で、重要な要素になり得ることを示唆している。

The Sentient House project is an investigation into approaches that the artistdesigner can take to better involve the public in developing a critical perspective on pervasive technology in the home and the surrounding environment. Using Interaction Design approaches including workshops, surveys, rapidprototyping and critical thinking, this thesis suggests a framework for developing a more participatory atmosphere for Critical Design. As the world becomes more connected, and smarter, citizens concerns are being sidelined in favour of rapid progress and solutionism. Many of these initiatives are backed by government and commercial concerns who may not have the publics best interest at heart. The designs and approaches generated from this public participation seek to provide an outlet for a more agonistic debate and to develop tools and approaches to engage the public in questioning and addressing how technology affects them in the future. The outcomes of this research suggest that the public is receptive to a more active involvement in designing their digital future, and that the designer can be a critical component in revealing hidden consequences and alternative pathways for a more transparent and desirable future.
翻訳日:2024-07-01 07:50:27 公開日:2024-02-14
# HEAL-ViT:中距離気象予報用球面メッシュ上の視覚変換器

HEAL-ViT: Vision Transformers on a spherical mesh for medium-range weather forecasting ( http://arxiv.org/abs/2403.17016v1 )

ライセンス: Link先を確認
Vivek Ramavajjala, (参考訳) 近年、様々なMLアーキテクチャや技術が、熟練した中距離天気予報の製作に成功している。 特に、ViTベースのモデル(例えば、Pangu-Weather、FuXi)は、気象データをリチ線形グリッド上のマルチチャネル画像として扱うことで、ほぼ「アウト・オブ・ザ・ボックス」で動作するなど、強い性能を示している。 リチリニアグリッドは2次元画像に適しているが、気象データは本質的に球状であり、リチリニアグリッド上の極に大きく歪められているため、極付近のデータをモデル化するために使われる不均質な計算に繋がる。 グラフベースのメソッド(例えばGraphCast)は、経度緯度格子を球面メッシュにマッピングするので、この問題に苦しむことはないが、一般的にはメモリ集約であり、トレーニングや推論により多くの計算リソースを必要とする傾向にある。 空間的に均質であるが、球面メッシュは直交格子構造に暗黙的に依存するViTベースのモデルによって容易にモデル化されるわけではない。 そこで我々は, グラフベースモデルによる空間的均一性と, トランスフォーマーによる効率的な注意に基づくメカニズムの両面から, ViT モデルを用いた新しいアーキテクチャ HEAL-ViT を提案する。 HEAL-ViTは、主要な指標でECMWF IFSを上回った天気予報を生成し、他のML天気予報モデルよりも優れたバイアス蓄積とぼやけを示す。 さらに、HEAL-ViTの計算フットプリントを下げることで、他のモデルに加えて6時間予測モデルが必要であり、必要な運用予測の完全なセットを生成することができる。

In recent years, a variety of ML architectures and techniques have seen success in producing skillful medium range weather forecasts. In particular, Vision Transformer (ViT)-based models (e.g. Pangu-Weather, FuXi) have shown strong performance, working nearly "out-of-the-box" by treating weather data as a multi-channel image on a rectilinear grid. While a rectilinear grid is appropriate for 2D images, weather data is inherently spherical and thus heavily distorted at the poles on a rectilinear grid, leading to disproportionate compute being used to model data near the poles. Graph-based methods (e.g. GraphCast) do not suffer from this problem, as they map the longitude-latitude grid to a spherical mesh, but are generally more memory intensive and tend to need more compute resources for training and inference. While spatially homogeneous, the spherical mesh does not lend itself readily to be modeled by ViT-based models that implicitly rely on the rectilinear grid structure. We present HEAL-ViT, a novel architecture that uses ViT models on a spherical mesh, thus benefiting from both the spatial homogeneity enjoyed by graph-based models and efficient attention-based mechanisms exploited by transformers. HEAL-ViT produces weather forecasts that outperform the ECMWF IFS on key metrics, and demonstrate better bias accumulation and blurring than other ML weather prediction models. Further, the lowered compute footprint of HEAL-ViT makes it attractive for operational use as well, where other models in addition to a 6-hourly prediction model may be needed to produce the full set of operational forecasts required.
翻訳日:2024-04-01 02:44:33 公開日:2024-02-14
# NeuroBench:脳波ベースの認証研究における方法論の標準化のためのオープンソースのベンチマークフレームワーク

NeuroBench: An Open-Source Benchmark Framework for the Standardization of Methodology in Brainwave-based Authentication Research ( http://arxiv.org/abs/2402.08656v2 )

ライセンス: Link先を確認
Avinash Kumar Chaurasia, Matin Fallahi, Thorsten Strufe, Philipp Terhörst, Patricia Arias Cabarcos, (参考訳) 脳活動に基づく生体認証システムは、パスワードに代わるものや、現在の認証技術を補完するものとして提案されている。 個人の独自の脳波パターンを活用することで、これらのシステムは盗難に抵抗し、ハンズフリーでアクセス可能で、さらには取り消しも可能な認証ソリューションを作成することができる。 しかし、この分野では研究の流れが拡大しているにもかかわらず、再現性の問題によって急速な進歩が妨げられている。 パフォーマンス結果やシステム構成に関する標準的な報告スキームの欠如や、一般的な評価ベンチマークの欠如といった問題により、様々なバイオメトリックソリューションのコンパラビリティと適切な評価が困難になる。 さらに、ソースコードが公開されていない場合、バリアは将来の作業のために構築される。 このギャップを埋めるために、脳波ベースの認証モデルをベンチマークする柔軟なオープンソースツールであるNeuroBenchを紹介します。 9つの多様なデータセットが組み込まれ、包括的な前処理パラメータと機械学習アルゴリズムを実装し、2つの共通の敵モデル(既知の攻撃者対未知の攻撃者)下でのテストを可能にし、研究者が完全なパフォーマンスレポートと視覚化を生成することができる。 我々はNeuroBenchを用いて,本論文で提案されている浅層分類器と深層学習に基づくアプローチを調査し,複数のセッションで堅牢性をテストする。 我々は、未知の攻撃シナリオ(典型的には文献ではテストされていない)に対して、37.6%のEER(Equal Error Rate)の削減を観察し、脳波認証におけるセッション変動の重要性を強調した。 総じて,我々は,アルゴリズムの公正比較の合理化におけるNeuroBenchの有効性と妥当性を実証し,堅牢な方法論的手法による脳波に基づく認証の進歩を推し進めた。

Biometric systems based on brain activity have been proposed as an alternative to passwords or to complement current authentication techniques. By leveraging the unique brainwave patterns of individuals, these systems offer the possibility of creating authentication solutions that are resistant to theft, hands-free, accessible, and potentially even revocable. However, despite the growing stream of research in this area, faster advance is hindered by reproducibility problems. Issues such as the lack of standard reporting schemes for performance results and system configuration, or the absence of common evaluation benchmarks, make comparability and proper assessment of different biometric solutions challenging. Further, barriers are erected to future work when, as so often, source code is not published open access. To bridge this gap, we introduce NeuroBench, a flexible open source tool to benchmark brainwave-based authentication models. It incorporates nine diverse datasets, implements a comprehensive set of pre-processing parameters and machine learning algorithms, enables testing under two common adversary models (known vs unknown attacker), and allows researchers to generate full performance reports and visualizations. We use NeuroBench to investigate the shallow classifiers and deep learning-based approaches proposed in the literature, and to test robustness across multiple sessions. We observe a 37.6% reduction in Equal Error Rate (EER) for unknown attacker scenarios (typically not tested in the literature), and we highlight the importance of session variability to brainwave authentication. All in all, our results demonstrate the viability and relevance of NeuroBench in streamlining fair comparisons of algorithms, thereby furthering the advancement of brainwave-based authentication through robust methodological practices.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-14
# チームワークによるTEE作業 - 分散信頼によるオープンでレジリエントなリモートテスト

Teamwork Makes TEE Work: Open and Resilient Remote Attestation on Decentralized Trust ( http://arxiv.org/abs/2402.08908v1 )

ライセンス: Link先を確認
Xiaolin Zhang, Kailun Qin, Shipei Qu, Tengfei Wang, Chi Zhang, Dawu Gu, (参考訳) 遠隔検査(RA)により、信頼された実行環境(TEE)におけるアプリケーションの完全性と信頼性を検証できる。 既存のTEE RA設計では、リモートパーティの信頼を確立するために、単一のプロビジョニングされた秘密鍵と集中型検証器に依存する集中型信頼モデルを採用している。 しかし、このモデルは不安定であり、近年の先進攻撃では信頼できない。 さらに、ほとんどの設計は一度デプロイされた時点でのみ固定機能を提供しており、可用性やQoS(Quality of Service)など、さまざまなニーズに適応することが困難である。 そこで我々はオープンでレジリエントなTEE RAスキームであるJANUSを提案する。 信頼を分散化するために、我々はTEEに固有の信頼の根(RoT)としてPhysically Unclonable Function(PUF)を導入し、さらなる測定と暗号化の強化を提供します。 一方、ブロックチェーンとスマートコントラクトを使用して、分散検証と結果監査を実現しています。 さらに,JANUSが回復力を維持し,様々な状況下で柔軟なRAサービスを提供するための自動ターンアウト機構を設計する。 我々は、UCベースのセキュリティ証明を提供し、オープンソースプロトタイプを実装することで、JANUSのスケーラビリティと汎用性を実証する。

Remote Attestation (RA) enables the integrity and authenticity of applications in Trusted Execution Environment (TEE) to be verified. Existing TEE RA designs employ a centralized trust model where they rely on a single provisioned secret key and a centralized verifier to establish trust for remote parties. This model is however brittle and can be untrusted under advanced attacks nowadays. Besides, most designs only provide fixed functionalities once deployed, making them hard to adapt to different needs on availability, Quality of Service (QoS), etc. Therefore, we propose JANUS, an open and resilient TEE RA scheme. To decentralize trust, we, on one hand, introduce Physically Unclonable Function (PUF) as an intrinsic root of trust (RoT) in TEE to provide additional measurements and cryptographic enhancements. On the other hand, we use blockchain and smart contract to realize decentralized verification and result audit. Furthermore, we design an automated turnout mechanism that allows JANUS to remain resilient and offer flexible RA services under various situations. We provide a UC-based security proof and demonstrate the scalability and generality of JANUS by implementing an open-sourced prototype.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-14
# Seagull: プライバシ保護ネットワーク検証システム

Seagull: Privacy preserving network verification system ( http://arxiv.org/abs/2402.08956v1 )

ライセンス: Link先を確認
Jaber Daneshamooz, Melody Yu, Sucheer Maddury, (参考訳) インターネットバックボーンで使用されている現在のルーティングプロトコルは手動による設定に基づいており、エラーの影響を受けやすい。 これらの構成に関連した問題を緩和するため、アルゴリズムの精度と収束性を検証することが必須となり、問題のないシームレスな操作が保証される。 しかし、ネットワーク検証のプロセスは、プライバシとスケーラビリティに関する課題に直面している。 本稿では,BGPプロトコルが管理するインターネットバックボーンの構成の正しさを検証するために,プライバシ保護計算,特にマルチパーティ計算(MPC)を活用するという新たなアプローチを導入することで,これらの課題に対処する。 提案したソリューションはスケーラビリティの懸念に効果的に対処するだけでなく、堅牢なプライバシフレームワークも確立しています。 厳密な分析により,提案手法はクエリ結果以外の情報を開示せず,大規模ネットワークにおけるルーティングプロトコルの検証に係わる複雑さに対する包括的かつセキュアな解決策を提供する。

The current routing protocol used in the internet backbone is based on manual configuration, making it susceptible to errors. To mitigate these configuration-related issues, it becomes imperative to validate the accuracy and convergence of the algorithm, ensuring a seamless operation devoid of problems. However, the process of network verification faces challenges related to privacy and scalability. This paper addresses these challenges by introducing a novel approach: leveraging privacy-preserving computation, specifically multiparty computation (MPC), to verify the correctness of configurations in the internet backbone, governed by the BGP protocol. Not only does our proposed solution effectively address scalability concerns, but it also establishes a robust privacy framework. Through rigorous analysis, we demonstrate that our approach maintains privacy by not disclosing any information beyond the query result, thus providing a comprehensive and secure solution to the intricacies associated with routing protocol verification in large-scale networks.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-14
# 距離と境界値の距離による逆スペクトル攻撃の検出

Detecting Adversarial Spectrum Attacks via Distance to Decision Boundary Statistics ( http://arxiv.org/abs/2402.08986v1 )

ライセンス: Link先を確認
Wenwei Zhao, Xiaowen Li, Shangqing Zhao, Jie Xu, Yao Liu, Zhuo Lu, (参考訳) 機械学習は効率的な協調スペクトルセンシングに採用されている。 しかし、これは、敵の機械学習を利用した攻撃によって、敵のスペクトル攻撃と呼ばれる融合センターを欺く悪意のあるスペクトル感知値を生成するために、さらなるセキュリティリスクを引き起こす。 本稿では,逆スペクトル攻撃を検出するための効率的なフレームワークを提案する。 我々の設計では、核融合センターで観測される決定境界(DDB)の距離の概念を活用し、DDB分布のトレーニングとテストを比較して、敵対スペクトル攻撃を特定する。 我々は、機械学習に基づくスペクトルセンシングシステムのためのDDBを計算する計算効率の良い方法を作成する。 現実的なスペクトルデータに基づく実験結果から,本手法は典型的条件下では99 %の高検出率を実現し,1 %未満の誤報率を維持した。 さらに,スペクトルデータに基づくDDB計算法では,既存の距離計算法よりも計算効率が54 %--64 %向上した。 提案したDDBベースの検出フレームワークは、敵スペクトル攻撃によって生成された悪意ある検知値を特定するための実用的で効率的なソリューションを提供する。

Machine learning has been adopted for efficient cooperative spectrum sensing. However, it incurs an additional security risk due to attacks leveraging adversarial machine learning to create malicious spectrum sensing values to deceive the fusion center, called adversarial spectrum attacks. In this paper, we propose an efficient framework for detecting adversarial spectrum attacks. Our design leverages the concept of the distance to the decision boundary (DDB) observed at the fusion center and compares the training and testing DDB distributions to identify adversarial spectrum attacks. We create a computationally efficient way to compute the DDB for machine learning based spectrum sensing systems. Experimental results based on realistic spectrum data show that our method, under typical settings, achieves a high detection rate of up to 99\% and maintains a low false alarm rate of less than 1\%. In addition, our method to compute the DDB based on spectrum data achieves 54\%--64\% improvements in computational efficiency over existing distance calculation methods. The proposed DDB-based detection framework offers a practical and efficient solution for identifying malicious sensing values created by adversarial spectrum attacks.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-14
# 推論的資源セマンティクス

Inferentialist Resource Semantics ( http://arxiv.org/abs/2402.09217v1 )

ライセンス: Link先を確認
Alexander V. Gheorghiu, Tao Gu, David J. Pym, (参考訳) システムモデリングでは、システムは典型的にどのプロセスが実行されるかを示すリソースから構成される。 情報学における論理学の重要な用途の1つは、それらの振る舞いと性質を推論(おそらく自動化)するためにそのようなシステムをモデル化することである。 この目的のために、システムの資源と状態の観点から論理式を解釈する必要がある;そのような解釈は論理の資源意味論と呼ばれる。 本稿では、推論的行動の観点から意味が与えられるという推論主義が、資源意味論の汎用的で表現力豊かな枠組みをいかに実現しているかを示す。 特に、推論主義は、バンドル・インプリケーションの論理のアサーションに基づくアプローチ、プログラム検証の基礎(例えば、分離論理の基礎)、線形論理の有名な使用数を読むことをシームレスに取り入れている。 この統合により、共有および分離されたリソースを直感的で親しみやすい方法で推論できるだけでなく、システムコンポーネントの構成とインターフェースについても推論できる。

In systems modelling, a system typically comprises located resources relative to which processes execute. One important use of logic in informatics is in modelling such systems for the purpose of reasoning (perhaps automated) about their behaviour and properties. To this end, one requires an interpretation of logical formulae in terms of the resources and states of the system; such an interpretation is called a resource semantics of the logic. This paper shows how inferentialism -- the view that meaning is given in terms of inferential behaviour -- enables a versatile and expressive framework for resource semantics. Specifically, how inferentialism seamlessly incorporates the assertion-based approach of the logic of Bunched Implications, foundational in program verification (e.g., as the basis of Separation Logic), and the renowned number-of-uses reading of Linear Logic. This integration enables reasoning about shared and separated resources in intuitive and familiar ways, as well as about the composition and interfacing of system components.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-14
# フィジカル・インクリプティカル・インクリプティカル・インクリプティカル・インクリプティカル・インクリプティカル・インクリプティカル・インキュメンテーションの紹介

Introduction to Physically Unclonable Fuctions: Properties and Applications ( http://arxiv.org/abs/2402.09386v1 )

ライセンス: Link先を確認
M. Garcia-Bosque, G. Díez-Señorans, C. Sánchez-Azqueta, S. Celma, (参考訳) 過去数年間、ハードウェアセキュリティの分野では、揮発性秘密鍵の生成能力と低コストな認証を提供することにより、Physically Unclonable Function (PUF) が重要な研究領域となっている。 本稿では、その定義、特性、応用を含む、物理的に非許容な関数の紹介について述べる。 最後に、PUFの設計例として、リング発振器PUFの一般的な構造を示す。

During the last years, Physically Unclonable Functions (PUFs) have become a very important research area in the field of hardware security due to their capability of generating volatile secret keys as well as providing a low-cost authentication. In this paper, an introduction to Physically Unclonable Functions is given, including their definition, properties and applications. Finally, as an example of how to design a PUF, the general structure of a ring oscillator PUF is presented.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-14
# 個人予測の監査

Auditing Private Prediction ( http://arxiv.org/abs/2402.09403v1 )

ライセンス: Link先を確認
Karan Chadha, Matthew Jagielski, Nicolas Papernot, Christopher Choquette-Choo, Milad Nasr, (参考訳) 差分プライバシー(DP)は、アナルゴリズムの潜在的なプライバシー漏洩に関する理論的上限を提供する一方、実証的な監査は実用的な低い境界を確立する。 監査技術は、DPトレーニングアルゴリズムが存在する。 しかし、機械学習は推論時にプライベートにすることもできる。 各種毒素およびクエリ機能を持つ敵をインスタンス化する,プライベート予測の監査を行うための第1のフレームワークを提案する。 これにより、4つのプライベート予測アルゴリズム:PATE(Papernot et al , 2016)、CaPC(Choquette-Choo et al , 2020)、PromptPATE(Duan et al , 2023)、Private-kNN(Zhu et al , 2020)のプライバシー漏洩を調べることができる。 本稿では,Renyi DPを用いて,プライバシー漏洩を実証的に評価するための新しい手法を提案する。 私たちの実験は (i)私的予測のプライバシー分析を改善することができる。 二 中毒しやすいアルゴリズムは、プライバシーの侵害をはるかに高め、 (三) 敵に対するプライバシー漏洩は、完全制御の相手よりも、クエリ制御のない相手に対して著しく低い。

Differential privacy (DP) offers a theoretical upper bound on the potential privacy leakage of analgorithm, while empirical auditing establishes a practical lower bound. Auditing techniques exist forDP training algorithms. However machine learning can also be made private at inference. We propose thefirst framework for auditing private prediction where we instantiate adversaries with varying poisoningand query capabilities. This enables us to study the privacy leakage of four private prediction algorithms:PATE [Papernot et al., 2016], CaPC [Choquette-Choo et al., 2020], PromptPATE [Duan et al., 2023],and Private-kNN [Zhu et al., 2020]. To conduct our audit, we introduce novel techniques to empiricallyevaluate privacy leakage in terms of Renyi DP. Our experiments show that (i) the privacy analysis ofprivate prediction can be improved, (ii) algorithms which are easier to poison lead to much higher privacyleakage, and (iii) the privacy leakage is significantly lower for adversaries without query control than thosewith full control.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-14
# SHA3を用いたインメモリコンピューティングのための3次元メムリスタアーキテクチャ

A 3D Memristor Architecture for In-Memory Computing Demonstrated with SHA3 ( http://arxiv.org/abs/2402.09545v1 )

ライセンス: Link先を確認
Muayad J. Aljafar, Rasika Joshi, John M. Acken, (参考訳) セキュリティは、ハードウェアのサポートを必要とする問題の増加です。 Memristorsはハードウェアをサポートするセキュリティ実装の代替技術を提供する。 本稿では,メムリスタ技術のみを使用する実装に対して,SHA3で実証したハイブリッドCMOS-メムリスタ技術の利点を利用する,特定の手法を提案する。 提案手法では,SHA3を垂直クロスバーアレイに実装し,論理実装と円周回転(Rho演算)を容易にする。 Rho操作自体はCMOSマルチプレクサ(MUX)で実装されている。 提案するアクセラレータは待機電力フリーであり,従来のコンピュータのメモリアクセスボトルネックを回避する。 さらに、I/Oインタフェースの中間値が曖昧になり、サイズやエネルギの面で最先端のメムリスタベースの設計よりも優れています。 SHA3 の memristor 実装の実証は、情報セキュリティアプリケーションで memristor を利用するための衝動を提供する。

Security is a growing problem that needs hardware support. Memristors provide an alternative technology for hardware-supported security implementation. This paper presents a specific technique that utilizes the benefits of hybrid CMOS-memristors technology demonstrated with SHA3 over implementations that use only memristor technology. In the proposed technique, SHA3 is implemented in a set of perpendicular crossbar arrays structured to facilitate logic implementation and circular bit rotation (Rho operation), which is perhaps the most complex operation in SHA3 when carried out in memristor arrays. The Rho operation itself is implemented with CMOS multiplexers (MUXs). The proposed accelerator is standby power-free and circumvents the memory access bottleneck in conventional computers. In addition, our design obscures the intermediate values from the I/O interface and outperforms the state-of-the-art memristor-based designs in terms of size and energy. Demonstrating the memristor implementation of SHA3 provides an impetus for utilizing memristors in information security applications.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-14
# Schnorr承認ベースのセキュリティとプライバシ保護IoVデータ集約

Schnorr Approval-Based Secure and Privacy-Preserving IoV Data Aggregation ( http://arxiv.org/abs/2402.09621v1 )

ライセンス: Link先を確認
Rui Liu, Jianping Pan, (参考訳) インターネット・オブ・ビークルズ(IoV)における安全とプライバシー保護のためのデータ収集は、業界と学界の両方に焦点を合わせ続けている。 本稿では、2層アーキテクチャに基づく新しいSchnorr承認ベースのIoVデータアグリゲーションフレームワークを提案する。 このフレームワークでは、サーバは、車の生データ、実際のアイデンティティ、軌跡を推測することなく、クラスタからIoVデータを集約することができる。 特に、車両に高い計算コストを導入することを避けるために、同型暗号やデジタル偽名といった広く受け入れられている手法を導入することを避ける。 我々はSchnorrシグネチャスキームに基づく新しい概念であるデータ承認を提案する。 この承認により、クラスタヘッドによって実行される偽データ注入攻撃を防御することができる。 負債の分離も達成される。 評価の結果、このフレームワークは、計算と通信のコストの観点から、車両にとって安全で軽量であることが示された。

Secure and privacy-preserving data aggregation in the Internet of Vehicles (IoV) continues to be a focal point of interest in both the industry and academia. Aiming at tackling the challenges and solving the remaining limitations of existing works, this paper introduces a novel Schnorr approval-based IoV data aggregation framework based on a two-layered architecture. In this framework, a server can aggregate the IoV data from clusters without inferring the raw data, real identity and trajectories of vehicles. Notably, we avoid incorporating the widely-accepted techniques such as homomorphic encryption and digital pseudonym to avoid introducing high computation cost to vehicles. We propose a novel concept, data approval, based on the Schnorr signature scheme. With the approval, the fake data injection attack carried out by a cluster head can be defended against. The separation of liability is achieved as well. The evaluation shows that the framework is secure and lightweight for vehicles in terms of the computation and communication costs.
翻訳日:2024-03-25 11:19:24 公開日:2024-02-14
# ソーシャルネットワークによるeヘルス・インターベンションが子どもの健康習慣改善に及ぼす影響

Feasibility of Social-Network-Based eHealth Intervention on the Improvement of Healthy Habits among Children ( http://arxiv.org/abs/2403.12073v1 )

ライセンス: Link先を確認
José Alberto Benítez-Andrades, Natalia Arias, María Teresa García-Ordás, Marta Martínez-Martínez, Isaías García-Rodríguez, (参考訳) 本研究は、青年期の食事習慣と身体活動にeHealthソリューションが適用可能であることを示す。 参加者は11歳から15歳の子供だった。 介入群139名,対照群91名に対して,14週間に2校で介入を行った。 介入グループはユーザーアカウントとパスワードを通じてウェブにアクセスした。 彼らは友人関係を作り、コメントを投稿し、他のユーザーと交流し、毎日の栄養や身体活動に関する通知や情報を受け取り、習慣を改善するための(バーチャルな)報酬を得ることができた。 コントロールグループはこれらの機能にアクセスできなかった。 性別,年齢,体重指数,初期健康習慣の同質性について検討した。 事前および後測定は、アプリケーションWebサイトで自己レポートを通じて収集された。 多変量解析により, 介入群と対照群, PAQ-Aスコア, KIDMEDスコアに有意な変化が認められた。 eヘルスの介入は健康的な習慣を得るのに役立つと結論付けることができる。 これらの新たな習慣を順守する上での有効性を検証するためには、さらなる研究が必要である。

This study shows the feasibility of an eHealth solution for tackling eating habits and physical activity in the adolescent population. The participants were children from 11 to 15 years old. An intervention was carried out on 139 students in the intervention group and 91 students in the control group, in two schools during 14 weeks. The intervention group had access to the web through a user account and a password. They were able to create friendship relationships, post comments, give likes and interact with other users, as well as receive notifications and information about nutrition and physical activity on a daily basis and get (virtual) rewards for improving their habits. The control group did not have access to any of these features. The homogeneity of the samples in terms of gender, age, body mass index and initial health-related habits was demonstrated. Pre- and post-measurements were collected through self-reports on the application website. After applying multivariate analysis of variance, a significant alteration in the age-adjusted body mass index percentile was observed in the intervention group versus the control group, as well as in the PAQ-A score and the KIDMED score. It can be concluded that eHealth interventions can help to obtain healthy habits. More research is needed to examine the effectiveness in achieving adherence to these new habits.
翻訳日:2024-03-25 07:36:54 公開日:2024-02-14
# 量を超えて: 都市におけるインフラ品質規定の不平等を機械学習で評価する

Beyond Quantities: Machine Learning-based Characterization of Inequality in Infrastructure Quality Provision in Cities ( http://arxiv.org/abs/2403.12074v1 )

ライセンス: Link先を確認
Bo Li, Ali Mostafavi, (参考訳) 本研究の目的は,都市部におけるインフラ品質の不平等を特徴づけることである。 都市部におけるインフラの不平等を特徴づけることの重要性を認識し、都市開発計画を伝えるための定量化指標を提供したが、既存の手法の大半はインフラの量を測定することに集中しており、インフラがより良くなると仮定している。 また,既存の研究は,推定主観的重みに基づいて都市部におけるインフラ整備の状況を決定する指標に基づくアプローチに重点を置いている。 主観的重みから得られるインフラ量と指標の使用に焦点が当てられていることは、都市不平等や環境正義の考慮にかかわるインフラの不平等を適切に検証する能力を妨げている。 このギャップを認識し, 環境負荷を発生させるインフラストラクチャの特徴を同定する機械学習に基づく手法を提案し, モデルにより得られた重みを用いて, 都市の空間領域におけるインフラストラクチャ品質規定を算出し, インフラストラクチャ品質の不平等の程度を定量化する。 米国の5大都市圏におけるモデルの実装は、インフラ品質の不平等を特徴づけ、インフラ特徴の重みの都市固有の差異を捉えたアプローチの能力を実証している。 また、低所得層が居住する地域では、インフラ品質の供給が低く、インフラ品質の供給が都市格差の決定要因であることが示唆された。 したがって,提案手法は,データ駆動およびマシンインテリジェンスに基づく洞察に基づいて,インフラの公平性と環境正義を促進するため,統合都市設計戦略に効果的に活用することができる。

The objective of this study is to characterize inequality in infrastructure quality across urban areas. While a growing of body of literature has recognized the importance of characterizing infrastructure inequality in cities and provided quantified metrics to inform urban development plans, the majority of the existing approaches focus primarily on measuring the quantity of infrastructure, assuming that more infrastructure is better. Also, the existing research focuses primarily on index-based approaches in which the status of infrastructure provision in urban areas is determined based on assumed subjective weights. The focus on infrastructure quantity and use of indices obtained from subjective weights has hindered the ability to properly examine infrastructure inequality as it pertains to urban inequality and environmental justice considerations. Recognizing this gap, we propose a machine learning-based approach in which infrastructure features that shape environmental hazard exposure are identified and we use the weights obtained by the model to calculate an infrastructure quality provision for spatial areas of cities and accordingly, quantify the extent of inequality in infrastructure quality. The implementation of the model in five metropolitan areas in the U.S. demonstrates the capability of the proposed approach in characterizing inequality in infrastructure quality and capturing city-specific differences in the weights of infrastructure features. The results also show that areas in which low-income populations reside have lower infrastructure quality provision, suggesting the lower infrastructure quality provision as a determinant of urban disparities. Accordingly, the proposed approach can be effectively used to inform integrated urban design strategies to promote infrastructure equity and environmental justice based on data-driven and machine intelligence-based insights.
翻訳日:2024-03-25 07:36:54 公開日:2024-02-14
# Adversarial Nibbler: テキスト・画像生成における様々なハームの同定のためのオープンなレッドチーム化手法

Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation ( http://arxiv.org/abs/2403.12075v1 )

ライセンス: Link先を確認
Jessica Quaye, Alicia Parrish, Oana Inel, Charvi Rastogi, Hannah Rose Kirk, Minsuk Kahng, Erin van Liemt, Max Bartolo, Jess Tsang, Justin White, Nathan Clement, Rafael Mosquera, Juan Ciro, Vijay Janapa Reddi, Lora Aroyo, (参考訳) テキスト・ツー・イメージ(T2I)生成AIモデルが広範に普及するにつれて、攻撃的画像の生成を緩和するためには、非回避攻撃に対するモデルロバスト性を評価することが重要である。 単純に敵対する'プロンプトに焦点を合わせることで(不確実な理由から安全でない画像を生成するためにT2Iモデルをトリガーする)、人間の創造性が明らかにするのに適した、一連の困難な安全問題を分離する。 この目的のために、私たちは、暗黙的に敵対的なプロンプトのさまざまなセットをクラウドソーシングするための、レッドチーム方式のAdversarial Nibbler Challengeを構築しました。 我々は、最先端のT2Iモデルの集合を組み立て、害を識別し注釈するシンプルなユーザーインターフェースを採用し、様々な集団を巻き込み、標準テストで見過ごされる可能性のある長期の安全問題を捉えました。 この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。 本稿では,我々の方法論の詳細な説明,新たな攻撃戦略の体系的研究,および課題参加者が明らかにした安全障害の議論について述べる。 また、データセットからのインサイトを簡単に探索し、導出するための視覚化ツールもリリースしています。 最初のチャレンジラウンドでは、安全のためにマシンアノテーションを使用した10万以上のプロンプトイメージペアが実現した。 1.5kサンプルのサブセットには、ハーフタイプとアタックスタイルの豊富な人間のアノテーションが含まれている。 有害と思われる画像の14%は、機械によって「安全」と誤記されている。 我々は,T2Iモデルの堅牢性確保の複雑さを強調する新たな攻撃戦略を特定した。 本研究は,新たな脆弱性が出現するにつれて,継続的な監査と適応の必要性を強調した。 我々は,本研究が積極的かつ反復的な安全性評価を可能にし,T2Iモデルの責任ある開発を促進すると確信している。

With the rise of text-to-image (T2I) generative AI models reaching wide audiences, it is critical to evaluate model robustness against non-obvious attacks to mitigate the generation of offensive images. By focusing on ``implicitly adversarial'' prompts (those that trigger T2I models to generate unsafe images for non-obvious reasons), we isolate a set of difficult safety issues that human creativity is well-suited to uncover. To this end, we built the Adversarial Nibbler Challenge, a red-teaming methodology for crowdsourcing a diverse set of implicitly adversarial prompts. We have assembled a suite of state-of-the-art T2I models, employed a simple user interface to identify and annotate harms, and engaged diverse populations to capture long-tail safety issues that may be overlooked in standard testing. The challenge is run in consecutive rounds to enable a sustained discovery and analysis of safety pitfalls in T2I models. In this paper, we present an in-depth account of our methodology, a systematic study of novel attack strategies and discussion of safety failures revealed by challenge participants. We also release a companion visualization tool for easy exploration and derivation of insights from the dataset. The first challenge round resulted in over 10k prompt-image pairs with machine annotations for safety. A subset of 1.5k samples contains rich human annotations of harm types and attack styles. We find that 14% of images that humans consider harmful are mislabeled as ``safe'' by machines. We have identified new attack strategies that highlight the complexity of ensuring T2I model robustness. Our findings emphasize the necessity of continual auditing and adaptation as new vulnerabilities emerge. We are confident that this work will enable proactive, iterative safety assessments and promote responsible development of T2I models.
翻訳日:2024-03-25 07:36:54 公開日:2024-02-14
# ボイジャー:DFL攻撃を緩和するためのMTDベースのアグリゲーションプロトコル

Voyager: MTD-Based Aggregation Protocol for Mitigating Poisoning Attacks on DFL ( http://arxiv.org/abs/2310.08739v2 )

ライセンス: Link先を確認
Chao Feng, Alberto Huertas Celdran, Michael Vuong, Gerome Bovet, Burkhard Stiller, (参考訳) 中央集権的および分散的連邦学習(FL)の堅牢性をターゲットにした悪意のある攻撃に対する懸念が高まっているため、新たな防衛戦略が必要である。 集中型アプローチとは対照的に、分散FL(DFL)は、ネットワークトポロジとローカルデータセット情報を活用する利点があり、移動目標防衛(MTD)ベースのアプローチの探索を可能にする。 本研究はDFLモデルのロバスト性に対するネットワークトポロジーの影響に関する理論的解析である。 これらの知見からインスピレーションを得て,ネットワークトポロジ接続を操作することにより,DFLモデルの毒性攻撃に対する堅牢性を向上させるために,ボイジャーと呼ばれる3段階のMTDベースのアグリゲーションプロトコルを提案する。 ボイジャーには、異常検知器、ネットワークトポロジーエクスプローラー、接続展開器の3つの主要コンポーネントがある。 ネットワーク内で異常モデルが検出されると、トポロジエクスプローラーは、より信頼できる参加者との接続を形成して、モデルを保護することによって戦略的に応答する。 実験的評価により、ボイジャーは参加者に大きな資源と計算負荷を課すことなく、様々な毒殺攻撃を効果的に軽減することが示された。 これらの知見は,DFLの文脈における強力な防御機構として,反応性MTDを提案する。

The growing concern over malicious attacks targeting the robustness of both Centralized and Decentralized Federated Learning (FL) necessitates novel defensive strategies. In contrast to the centralized approach, Decentralized FL (DFL) has the advantage of utilizing network topology and local dataset information, enabling the exploration of Moving Target Defense (MTD) based approaches. This work presents a theoretical analysis of the influence of network topology on the robustness of DFL models. Drawing inspiration from these findings, a three-stage MTD-based aggregation protocol, called Voyager, is proposed to improve the robustness of DFL models against poisoning attacks by manipulating network topology connectivity. Voyager has three main components: an anomaly detector, a network topology explorer, and a connection deployer. When an abnormal model is detected in the network, the topology explorer responds strategically by forming connections with more trustworthy participants to secure the model. Experimental evaluations show that Voyager effectively mitigates various poisoning attacks without imposing significant resource and computational burdens on participants. These findings highlight the proposed reactive MTD as a potent defense mechanism in the context of DFL.
翻訳日:2024-03-19 02:33:12 公開日:2024-02-14
# 教師なし学習手法による金融犯罪の共謀:反モニー洗浄のためのクラスタリングと次元化

Combating Financial Crimes with Unsupervised Learning Techniques: Clustering and Dimensionality Reduction for Anti-Money Laundering ( http://arxiv.org/abs/2403.00777v1 )

ライセンス: Link先を確認
Ahmed N. Bakry, Almohammady S. Alsharkawy, Mohamed S. Farag, and Kamal R. Raslan(参考訳) AML(Anti-Money Laundering)は、金融システムの整合性を確保するための重要なタスクである。 AMLの1つの重要な特徴は、その振る舞いに基づいてハイリスクグループを特定することである。 教師なし学習、特にクラスタリングは、このタスクにとって有望なソリューションです。 However, the use of hundreds of features todescribe behavior results in a highdimensional dataset that negatively impacts clustering performance.In this paper, we investigate the effectiveness of combining clustering method agglomerative hierarchicalclustering with four dimensionality reduction techniques -Independent Component Analysis (ICA), andKernel Principal Component Analysis (KPCA), Singular Value Decomposition (SVD), Locality Preserving Projections (LPP)- to overcome the issue of high-dimensionality in AML data and improve clusteringresults. 本研究では,AMLデータの次元性を最も効果的に削減し,クラスタリングに基づくAMLシステムの精度を向上させることを目的とした。 実験の結果,KPCAは凝集階層クラスタリングと組み合わせることで,他の次元低減技術よりも優れていた。 この優位性は多くの状況において観察され、3つの異なる検証指標によって確認される。

Anti-Money Laundering (AML) is a crucial task in ensuring the integrity of financial systems. One keychallenge in AML is identifying high-risk groups based on their behavior. Unsupervised learning, particularly clustering, is a promising solution for this task. However, the use of hundreds of features todescribe behavior results in a highdimensional dataset that negatively impacts clustering performance.In this paper, we investigate the effectiveness of combining clustering method agglomerative hierarchicalclustering with four dimensionality reduction techniques -Independent Component Analysis (ICA), andKernel Principal Component Analysis (KPCA), Singular Value Decomposition (SVD), Locality Preserving Projections (LPP)- to overcome the issue of high-dimensionality in AML data and improve clusteringresults. This study aims to provide insights into the most effective way of reducing the dimensionality ofAML data and enhance the accuracy of clustering-based AML systems. The experimental results demonstrate that KPCA outperforms other dimension reduction techniques when combined with agglomerativehierarchical clustering. This superiority is observed in the majority of situations, as confirmed by threedistinct validation indices.
翻訳日:2024-03-11 00:22:51 公開日:2024-02-14
# グラフニューラルネットワークによるオブジェクト中心ビジネスプロセスの異常事象の検出

Detecting Anomalous Events in Object-centric Business Processes via Graph Neural Networks ( http://arxiv.org/abs/2403.00775v1 )

ライセンス: Link先を確認
Alessandro Niro and Michael Werner(参考訳) 異常の検出は、ビジネスプロセスにおける非効率性、エラー、不正を識別するために重要である。 従来のプロセスマイニングのアプローチでは、単一のケース概念に基づいた、連続したイベントログの分析に重点を置いている。 しかし、多くの現実世界のプロセス実行はグラフのような構造を示し、イベントは複数のケースに関連付けられる。 イベントログのフラット化には、実際のイベントデータとのギャップを生成し、イベントログに異常を人工的に導入する単一のケース識別子を選択する必要がある。 オブジェクト中心のプロセスマイニングは、異なるケースにイベントを関連付けることによって、これらの制限を避ける。 本研究では,グラフニューラルネットワークとオブジェクト中心のプロセスマイニングによって提供される拡張情報を活用する,ビジネスプロセスにおける異常検出のための新しいフレームワークを提案する。 まず、オブジェクト中心のイベントログのプロセス依存性を属性グラフとして再構成し、次に、グラフ畳み込みオートエンコーダアーキテクチャを用いて異常事象を検出する。 その結果,行動タイプと属性レベルでの異常検出において有望な性能が得られたが,事象の時間的順序における異常検出に苦慮した。

Detecting anomalies is important for identifying inefficiencies, errors, or fraud in business processes. Traditional process mining approaches focus on analyzing 'flattened', sequential, event logs based on a single case notion. However, many real-world process executions exhibit a graph-like structure, where events can be associated with multiple cases. Flattening event logs requires selecting a single case identifier which creates a gap with the real event data and artificially introduces anomalies in the event logs. Object-centric process mining avoids these limitations by allowing events to be related to different cases. This study proposes a novel framework for anomaly detection in business processes that exploits graph neural networks and the enhanced information offered by object-centric process mining. We first reconstruct and represent the process dependencies of the object-centric event logs as attributed graphs and then employ a graph convolutional autoencoder architecture to detect anomalous events. Our results show that our approach provides promising performance in detecting anomalies at the activity type and attributes level, although it struggles to detect anomalies in the temporal order of events.
翻訳日:2024-03-11 00:22:37 公開日:2024-02-14
# ソーシャルネットワークデータを用いた地域インフレーション分析

Regional inflation analysis using social network data ( http://arxiv.org/abs/2403.00774v1 )

ライセンス: Link先を確認
Vasilii Chsherbakov Ilia Karpov(参考訳) インフレは、どの国や地域の人口にも大きな影響を与える最も重要なマクロ経済指標の1つである。 インフレは様々な要因に影響され、そのうちの1つはインフレ期待である。 多くの中央銀行はインフレ目標体制の中で金融政策を実施しながら、この要因を考慮に入れている。 現在、多くの人々がインターネット、特にソーシャルネットワークのアクティブユーザーとなっている。 人々が検索し、読み、議論することは、主に彼らにとって特に関心のある問題だけである、という仮説がある。 価格のダイナミクスがユーザーの議論の焦点になっていると仮定することは理にかなっている。 したがって、こうした議論はインフレ期待に関するより迅速な情報の提供源と見なすことができる。 本研究は,vkontakte ソーシャルネットワークの非構造化データに基づいて,上向きおよび下向きのインフレーション傾向(omsk 地域の例)を分析する。 2010年1月から2022年5月までに850万以上の投稿のサンプルが収集された。 著者らはこの問題を解決するためにBERTニューラルネットワークを使用した。 これらのモデルはベンチマーク(ロジスティック回帰、決定木分類器など)よりも優れた結果を示した。 異なるコンテキストにおけるキーワードの非インフレ型と非インフレ型を定義することができ、shapメソッドで可視化することができる。 この分析は、地域レベルでのインフレプロセスに関する追加の運用情報を提供する。 同時に、この作業の限界は、ロシアのすべての地域での同様のモデルの初等訓練の時間と電力コストである。

Inflation is one of the most important macroeconomic indicators that have a great impact on the population of any country and region. Inflation is influenced by range of factors, one of which is inflation expectations. Many central banks take this factor into consideration while implementing monetary policy within the inflation targeting regime. Nowadays, a lot of people are active users of the Internet, especially social networks. There is a hypothesis that people search, read, and discuss mainly only those issues that are of particular interest to them. It is logical to assume that the dynamics of prices may also be in the focus of user discussions. So, such discussions could be regarded as an alternative source of more rapid information about inflation expectations. This study is based on unstructured data from Vkontakte social network to analyze upward and downward inflationary trends (on the example of the Omsk region). The sample of more than 8.5 million posts was collected between January 2010 and May 2022. The authors used BERT neural networks to solve the problem. These models demonstrated better results than the benchmarks (e.g., logistic regression, decision tree classifier, etc.). It makes possible to define pro-inflationary and disinflationary types of keywords in different contexts and get their visualization with SHAP method. This analysis provides additional operational information about inflationary processes at the regional level The proposed approach can be scaled for other regions. At the same time the limitation of the work is the time and power costs for the initial training of similar models for all regions of Russia.
翻訳日:2024-03-11 00:22:19 公開日:2024-02-14
# 医療AIにおける一般化 : 臨床大言語モデルの評価

Generalization in Healthcare AI: Evaluation of a Clinical Large Language Model ( http://arxiv.org/abs/2402.10965v1 )

ライセンス: Link先を確認
Salman Rahman, Lavender Yao Jiang, Saadia Gabriel, Yindalon Aphinyanaphongs, Eric Karl Oermann and Rumi Chunara(参考訳) 大規模言語モデル(LLM)の進歩は、患者のケアの改善、臨床的意思決定、医師と管理者のワークフローの強化のための医療の新たな機会を提供する。 しかしながら、これらのモデルの可能性は、臨床環境や人口にわたって効果的に一般化する能力に大きく依存する。 これらの課題の理由をよりよく理解し,緩和的アプローチを提示するために,病院間の多様性と患者特性に着目した30日間の完全寛解予測の結果を分析し,[HOSPITAL]の臨床ノートに基づいて訓練した臨床LLMを評価した。 対象は, 行政・未特定保険患者, 高齢者, および, コンコービディティの高い患者で, 患者数が少ない病院では, 一般化が低かった。 一般化の欠如の原因を明らかにするため,本研究では,微調整,ノート内容(ノート数),患者特性(コーディビディティレベル,年齢,保険タイプ,区),健康システム(ホスピタル,全30日間の読解率,死亡率)のサンプルサイズについて検討した。 特徴の識別には記述統計と教師付き分類を用いた。 その結果, サンプルサイズ, 患者年齢, コンボビデンス数, ノート中の単語数などが, 一般化に関連する重要な要因であることがわかった。 最後に,局所ファインチューニング(Hospital specific),インスタンスベースの拡張ファインチューニング,クラスタベースのファインチューニングを比較した。 これらのうち、局所的な微調整が最も効果的であり、aucは0.25%から11.74%に増加した。 本研究は、社会学的に重要な医療分野における大規模言語モデルの展開を促進するための新たな洞察を与え、より広い人口に対するその性能を向上させる。

Advances in large language models (LLMs) provide new opportunities in healthcare for improved patient care, clinical decision-making, and enhancement of physician and administrator workflows. However, the potential of these models importantly depends on their ability to generalize effectively across clinical environments and populations, a challenge often underestimated in early development. To better understand reasons for these challenges and inform mitigation approaches, we evaluated ClinicLLM, an LLM trained on [HOSPITAL]'s clinical notes, analyzing its performance on 30-day all-cause readmission prediction focusing on variability across hospitals and patient characteristics. We found poorer generalization particularly in hospitals with fewer samples, among patients with government and unspecified insurance, the elderly, and those with high comorbidities. To understand reasons for lack of generalization, we investigated sample sizes for fine-tuning, note content (number of words per note), patient characteristics (comorbidity level, age, insurance type, borough), and health system aspects (hospital, all-cause 30-day readmission, and mortality rates). We used descriptive statistics and supervised classification to identify features. We found that, along with sample size, patient age, number of comorbidities, and the number of words in notes are all important factors related to generalization. Finally, we compared local fine-tuning (hospital specific), instance-based augmented fine-tuning and cluster-based fine-tuning for improving generalization. Among these, local fine-tuning proved most effective, increasing AUC by 0.25% to 11.74% (most helpful in settings with limited data). Overall, this study provides new insights for enhancing the deployment of large language models in the societally important domain of healthcare, and improving their performance for broader populations.
翻訳日:2024-02-25 17:09:31 公開日:2024-02-14
# アルコール消費研究における感性分析とシナリオテストのための意味的ソーシャルネットワーク分析ツール

A Semantic Social Network Analysis Tool for Sensitivity Analysis and What-If Scenario Testing in Alcohol Consumption Studies ( http://arxiv.org/abs/2402.12390v1 )

ライセンス: Link先を確認
Jos\'e Alberto Ben\'itez-Andrades, Alejandro Rodr\'iguez-Gonz\'alez, Carmen Benavides, Leticia S\'anchez-Valde\'on and Isa\'ias Garc\'ia(参考訳) ソーシャル・ネットワーク・アナリティクス(sna)は、社会行動科学の分野において、個人間で確立された社会的関係を特徴づけ、研究するために開発された一連の技術である。 SNA分析を行うソーシャルネットワークを構築する際、個人とその関係の特徴を抽出するために、データ収集の初期プロセスを実現する。 これは、後に研究を行うのに必要なSNA措置を得るために使用される様々な種類の質問を含むアンケートを完了することで行われる。 そして、多くの異なるネットワークが質問を生成し、その応答を対応する特性と関係にマッピングする可能性を持っている。 様々なバリエーションがこれらの質問に導入され(それらが提示される方法、各応答に与えられる重みなど)、結果として生じるネットワークに影響を及ぼす可能性がある。 これらの異なるバリエーションは、プロセスが時間がかかり、エラーが発生しやすいため、手動で行うのは難しい。 本稿では,このような感性学習を容易にするために,意味的知識表現技術を用いた。 ツールの基礎は概念構造であり、「オントロジー」と呼ばれ、異なる概念とその定義を表現することができる。 このツールは、他の類似のツールと比較され、このアプローチの利点が強調され、青少年のアルコール摂取習慣に関するsna研究の具体的な例が示されている。

Social Network Analysis (SNA) is a set of techniques developed in the field of social and behavioral sciences research, in order to characterize and study the social relationships that are established among a set of individuals. When building a social network for performing an SNA analysis, an initial process of data gathering is achieved in order to extract the characteristics of the individuals and their relationships. This is usually done by completing a questionnaire containing different types of questions that will be later used to obtain the SNA measures needed to perform the study. There are, then, a great number of different possible network generating questions and also many possibilities for mapping the responses to the corresponding characteristics and relationships. Many variations may be introduced into these questions (the way they are posed, the weights given to each of the responses, etc.) that may have an effect on the resulting networks. All these different variations are difficult to achieve manually, because the process is time-consuming and error prone. The tool described in this paper uses semantic knowledge representation techniques in order to facilitate this kind of sensitivity studies. The base of the tool is a conceptual structure, called "ontology" that is able to represent the different concepts and their definitions. The tool is compared to other similar ones, and the advantages of the approach are highlighted, giving some particular examples from an ongoing SNA study about alcohol consumption habits in adolescents.
翻訳日:2024-02-25 16:52:56 公開日:2024-02-14
# 看護学生の感情能力を評価するための熱赤外イメージング : 事例研究による最初のアプローチ

Thermal Infrared Imaging to Evaluate Emotional Competences in Nursing Students: A First Approach through a Case Study ( http://arxiv.org/abs/2402.10968v1 )

ライセンス: Link先を確認
Pilar Marqu\'es-S\'anchez, Cristina Li\'ebana-Presa, Jos\'e Alberto Ben\'itez-Andrades, Raquel Gund\'in-Gallego, Lorena \'Alvarez-Barrio and Pablo Rodr\'iguez-Gonz\'alvez(参考訳) 看護研究においては, 学術的成功と質の高い患者ケアの双方において, 感情的スキルを発達させることが重要である。 サーモグラフィのような技術は、これらのスキルを評価し、強化するために看護教育に役立ちます。 本研究は,看護学生の情緒的スキルのモニタリングと改善におけるサーモグラフィーの有効性を事例研究により評価することを目的とする。 ケーススタディでは、ビデオや音楽を含む様々な感情刺激に学生を露出させ、顔の温度変化を測定しました。 これらの変化は、順応、刺激、反応の3段階にわたるFLIR E6カメラを用いて記録された。 温度や湿度などの環境要因も記録されている。 異なる感情に対して異なる熱反応が観察された。 例えば、ビデオ刺激による気候化段階では、額の温度は正の感情(34.5\textdegree Cから34.5\textdegree C)と負の感情(36.1\textdegree Cから35.1\textdegree C)の間で変化した。 しかし、両方の刺激(34.7 度Cから35.0 度C、怒り35.0 度Cから35.0 度C)と反応相(35.0 度Cから35.0 度C、怒り34.8 度Cから35.0 度C)の温度変化があった。 音楽刺激はまた様々な熱パターン(34.2\textdegree Cから33.9\textdegree Cから33.4\textdegree C、怒り33.8\textdegree Cから33.4\textdegree Cから33.8\textdegree C)を誘発した。 サーモグラフィーでは, 鼻領域を除き, 感情刺激に対する一貫した熱的パターンがみられ, 看護教育における非侵襲的, 定量的, アクセシブルな感情スキルトレーニング法として適していると考えられた。

During nursing studies, it is crucial to develop emotional skills for both academic success and quality patient care. Utilizing technologies like thermography can be instrumental in nursing education to assess and enhance these skills. The study aims to evaluate the effectiveness of thermography in monitoring and improving the emotional skills of nursing students through a case study approach. The case study involved exposing a student to various emotional stimuli, including videos and music, and measuring facial temperature changes. These changes were recorded using a FLIR E6 camera across three phases: acclimatization, stimulus, and response. Environmental factors such as temperature and humidity were also recorded. Distinct thermal responses were observed for different emotions. For instance, during the acclimatization phase with video stimuli, forehead temperatures varied between positive emotions (joy: 34.5\textdegree C to 34.5\textdegree C) and negative emotions (anger: 36.1\textdegree C to 35.1\textdegree C). However, there was a uniform change in temperature during both stimulus (joy: 34.7\textdegree C to 35.0\textdegree C, anger: 35.0\textdegree C to 35.0\textdegree C) and response phases (joy: 35.0\textdegree C to 35.0\textdegree C, anger: 34.8\textdegree C to 35.0\textdegree C). Music stimuli also induced varying thermal patterns (joy: 34.2\textdegree C to 33.9\textdegree C to 33.4\textdegree C, anger: 33.8\textdegree C to 33.4\textdegree C to 33.8\textdegree C).Thermography revealed consistent thermal patterns in response to emotional stimuli, with the exception of the nose area, suggesting its suitability as a non-invasive, quantifiable, and accessible method for emotional skill training in nursing education.
翻訳日:2024-02-25 16:52:19 公開日:2024-02-14
# セマンティック技術を用いた青年期アルコール使用障害のパーソナライズとリスク評価のためのソーシャルネットワーク分析

Social network analysis for personalized characterization and risk assessment of alcohol use disorders in adolescents using semantic technologies ( http://arxiv.org/abs/2402.10967v1 )

ライセンス: Link先を確認
Jos\'e Alberto Ben\'itez-Andrades, Isa\'ias Garc\'ia-Rodr\'iguez, Carmen Benavides, H\'ector Alaiz-Moret\'on and Alejandro Rodr\'iguez-Gonz\'alez(参考訳) アルコール使用障害(英語: Alcohol Use disorder, AUD)は、特に青年期における公衆衛生機関の主要な関心事である。 青年期のアルコール摂取は、友人や親がアルコールを飲むのを見ることの影響を受けていることが知られている。 この事実に基づいて、青年期のアルコール摂取に関する多くの研究は、若者が関与するさまざまなソーシャルネットワーク(ピア、友人、家族など)の研究にソーシャル・ネットワーク・アナリティクス(SNA)技術を用いている。 これらの研究には、アンケートによるデータ収集の初期段階と、SNAによる分析フェーズが必要である。 このプロセスには、時間とエラーが発生しやすい多くの手動データハンドリングステージが含まれる。 情報を表現するための知識工学技術(ドメインオントロジーの構築を含む)を使用することで、初期データ収集からsna研究の結果まで、すべてのアクティビティの自動化が可能になる。 本稿では,知識モデルの構築方法を示し,従来の手法を用いて得られた結果を,この完全自動化モデルと比較し,後者の主な利点を詳述する。 SNA分析では,知識工学的手法を用いて得られた結果の妥当性を,UCINET,Cytoscape,Pajek,Gephiを用いて手作業で得られた結果と比較し,知識モデルの精度を検証した。

Alcohol Use Disorder (AUD) is a major concern for public health organizations worldwide, especially as regards the adolescent population. The consumption of alcohol in adolescents is known to be influenced by seeing friends and even parents drinking alcohol. Building on this fact, a number of studies into alcohol consumption among adolescents have made use of Social Network Analysis (SNA) techniques to study the different social networks (peers, friends, family, etc.) with whom the adolescent is involved. These kinds of studies need an initial phase of data gathering by means of questionnaires and a subsequent analysis phase using the SNA techniques. The process involves a number of manual data handling stages that are time consuming and error-prone. The use of knowledge engineering techniques (including the construction of a domain ontology) to represent the information, allows the automation of all the activities, from the initial data collection to the results of the SNA study. This paper shows how a knowledge model is constructed, and compares the results obtained using the traditional method with this, fully automated model, detailing the main advantages of the latter. In the case of the SNA analysis, the validity of the results obtained with the knowledge engineering approach are compared to those obtained manually using the UCINET, Cytoscape, Pajek and Gephi to test the accuracy of the knowledge model.
翻訳日:2024-02-25 16:51:36 公開日:2024-02-14
# 符号付き逆多重ネットワーク:クラスタリングと推論

Signed Diverse Multiplex Networks: Clustering and Inference ( http://arxiv.org/abs/2402.10242v1 )

ライセンス: Link先を確認
Marianna Pensky(参考訳) 本稿では, 一般ランダムドット製品グラフ (GRDPG) の変種である Signed Generalized Random Dot Product Graph (SGRDPG) モデルを紹介する。 設定は多重バージョンに拡張され、すべてのレイヤが同じノードのコレクションを持ち、SGRDPGに従う。 ネットワークのレイヤーの唯一の共通な特徴は、それらが共通の部分空間構造を持つ群に分割することができることであるが、そうでなければ接続確率のすべての行列は全て異なることができる。 上記の設定は非常に柔軟で、特定のケースとして様々な既存の多重ネットワークモデルを含んでいる。 その論文は2つの目的を果たす。 第一に,ネットワーク構築過程においてエッジの兆候を維持することが,推定とクラスタリングの精度向上につながり,その結果,脳ネットワークの分析などの現実世界の問題に取り組む上で有用であることを示す。 第二に、新しいアルゴリズムを用いることで、より単純な多重化ネットワークモデルで達成された同等または優れた精度を保証する。 理論的な保証に加えて、これらの特徴は数値シミュレーションと実データ例を用いて示される。

The paper introduces a Signed Generalized Random Dot Product Graph (SGRDPG) model, which is a variant of the Generalized Random Dot Product Graph (GRDPG), where, in addition, edges can be positive or negative. The setting is extended to a multiplex version, where all layers have the same collection of nodes and follow the SGRDPG. The only common feature of the layers of the network is that they can be partitioned into groups with common subspace structures, while otherwise all matrices of connection probabilities can be all different. The setting above is extremely flexible and includes a variety of existing multiplex network models as its particular cases. The paper fulfills two objectives. First, it shows that keeping signs of the edges in the process of network construction leads to a better precision of estimation and clustering and, hence, is beneficial for tackling real world problems such as analysis of brain networks. Second, by employing novel algorithms, our paper ensures equivalent or superior accuracy than has been achieved in simpler multiplex network models. In addition to theoretical guarantees, both of those features are demonstrated using numerical simulations and a real data example.
翻訳日:2024-02-19 18:58:19 公開日:2024-02-14
# 確率的グラフィカルモデルによるチーム崩壊の理解

Understanding team collapse via probabilistic graphical models ( http://arxiv.org/abs/2402.10243v1 )

ライセンス: Link先を確認
Iasonas Nikolaou, Konstantinos Pelechrinis, Evimaria Terzi(参考訳) 本研究では,チームダイナミクスを捉えるグラフィカルモデルを開発する。 モデルを分析し,そのパラメータをデータから学習する方法を示す。 我々のモデルを用いて、計算の観点からチームの崩壊現象を研究する。 シミュレーションと実世界の実験を使って、チームの崩壊の主な原因を見つけます。 回復力のあるチーム、すなわち崩壊を避けるチームを構築するという原則も提供します。 最後に、当社のモデルを使用してnbaチームの構造を分析し、関心のあるゲームに深く掘り下げます。

In this work, we develop a graphical model to capture team dynamics. We analyze the model and show how to learn its parameters from data. Using our model we study the phenomenon of team collapse from a computational perspective. We use simulations and real-world experiments to find the main causes of team collapse. We also provide the principles of building resilient teams, i.e., teams that avoid collapsing. Finally, we use our model to analyze the structure of NBA teams and dive deeper into games of interest.
翻訳日:2024-02-19 18:43:14 公開日:2024-02-14
# 何故かという問いに対するダイナミックな見方

A Dynamical View of the Question of Why ( http://arxiv.org/abs/2402.10240v1 )

ライセンス: Link先を確認
Mehdi Fatemi and Sindhu Gowda(参考訳) 確率過程によって生成される多変量時系列データにおける因果推論に対処する。 既存のアプローチは静的な設定に限られており、時間の経過とともに変化の連続性と放出が無視される。 対照的に、時間経過中の事象間の因果関係を直接確立する学習パラダイムを提案する。 因果関係を計算し,強化学習問題として扱うための2つの重要な補題を提案する。 本手法は拡散過程における因果関係の解明と定量化のための公式および計算ツールを提供し,離散時間マルコフ決定過程などの重要な設定を仮定する。 最後に、かなり複雑な実験とせん断学習によって、我々のフレームワークは因果関係を明らかにし、定量化する。

We address causal reasoning in multivariate time series data generated by stochastic processes. Existing approaches are largely restricted to static settings, ignoring the continuity and emission of variations across time. In contrast, we propose a learning paradigm that directly establishes causation between events in the course of time. We present two key lemmas to compute causal contributions and frame them as reinforcement learning problems. Our approach offers formal and computational tools for uncovering and quantifying causal relationships in diffusion processes, subsuming various important settings such as discrete-time Markov decision processes. Finally, in fairly intricate experiments and through sheer learning, our framework reveals and quantifies causal links, which otherwise seem inexplicable.
翻訳日:2024-02-19 18:43:09 公開日:2024-02-14
# 粒子追跡のための言語モデル

A Language Model for Particle Tracking ( http://arxiv.org/abs/2402.10239v1 )

ライセンス: Link先を確認
Andris Huang, Yash Melkani, Paolo Calafiura, Alina Lazar, Daniel Thomas Murnane, Minh-Tuan Pham, Xiangyang Ju(参考訳) 粒子追跡は大型ハドロン衝突型加速器のほぼ全ての物理解析プログラムにおいて重要である。 深層学習モデルは粒子追跡関連タスクに広く利用されている。 しかし、現在の実践は、教師付き学習技術を用いて、1つのタスクのために1つのディープラーニングモデルを設計および訓練することである。 トレーニングされたモデルは、トレーニングされたタスクに対してうまく機能するが、一般化能力は、あるいはほとんど示さない。 我々はこれらのモデルを言語モデルに統合することを提案する。 本稿では,粒子追跡のためのBERTモデルをトレーニング可能なトークン化検出器表現を提案する。 トレーニングされたBERTモデル、すなわちTrackingBERTは、他のタスクに使用できる遅延検出モジュールの埋め込みを提供する。 この研究は、粒子検出器理解の基礎モデルを開発するための第一歩である。

Particle tracking is crucial for almost all physics analysis programs at the Large Hadron Collider. Deep learning models are pervasively used in particle tracking related tasks. However, the current practice is to design and train one deep learning model for one task with supervised learning techniques. The trained models work well for tasks they are trained on but show no or little generalization capabilities. We propose to unify these models with a language model. In this paper, we present a tokenized detector representation that allows us to train a BERT model for particle tracking. The trained BERT model, namely TrackingBERT, offers latent detector module embedding that can be used for other tasks. This work represents the first step towards developing a foundational model for particle detector understanding.
翻訳日:2024-02-19 18:42:56 公開日:2024-02-14
# 不安定火炎進化のための時間拡張演算子のパラメトリック学習

Parametric Learning of Time-Advancement Operators for Unstable Flame Evolution ( http://arxiv.org/abs/2402.10238v1 )

ライセンス: Link先を確認
Rixin Yu and Erdzan Hodzic(参考訳) 本研究では機械学習,特にフーリエニューラル・オペレータ(FNO)と畳み込みニューラル・ニューラルネットワーク(CNN)を適用し,パラメトリック偏微分方程式(PDE)の時間適応演算子を学習する。 我々の焦点は、PDEパラメータを表す追加入力を処理するために既存の演算子学習方法を拡張することである。 目標は、短期的なソリューションを正確に予測し、様々なパラメータ条件下で堅牢な長期統計を提供し、計算コストの節約と工学シミュレーションの発展を促進する統一学習アプローチを作ることである。 本研究では,FNO と CNN に基づくパラメトリック学習手法を開発し,一次元PDE のパラメトリック依存解時間適応演算子と,Navier-Stokes 方程式の直接数値シミュレーションから得られた現実的な火炎前進化データの有効性を評価する。

This study investigates the application of machine learning, specifically Fourier Neural Operator (FNO) and Convolutional Neural Network (CNN), to learn time-advancement operators for parametric partial differential equations (PDEs). Our focus is on extending existing operator learning methods to handle additional inputs representing PDE parameters. The goal is to create a unified learning approach that accurately predicts short-term solutions and provides robust long-term statistics under diverse parameter conditions, facilitating computational cost savings and accelerating development in engineering simulations. We develop and compare parametric learning methods based on FNO and CNN, evaluating their effectiveness in learning parametric-dependent solution time-advancement operators for one-dimensional PDEs and realistic flame front evolution data obtained from direct numerical simulations of the Navier-Stokes equations.
翻訳日:2024-02-19 18:42:45 公開日:2024-02-14
# 多様性探索を用いたセルオートマタにおけるセンサモレータの発見

Discovering Sensorimotor Agency in Cellular Automata using Diversity Search ( http://arxiv.org/abs/2402.10236v1 )

ライセンス: Link先を確認
Gautier Hamon, Mayalen Etcheverry, Bert Wang-Chak Chan, Cl\'ement Moulin-Frier, Pierre-Yves Oudeyer(参考訳) 人工生命の研究分野は、オートポエリス、エージェンシー、自己規制といった生命のような現象がコンピュータシミュレーションで自己組織化できるかを研究する。 細胞性オートマトン (CA) では、初期状態から「身体」、「脳」、「知覚」、「行動」などの存在を伴わない、頑健な「個人的」を自己組織する環境ルールを見つけることができるかどうかが重要視されている。 本稿では,機械学習の最近の進歩を活かし,多様性探索,カリキュラム学習,勾配降下といったアルゴリズムを組み合わせることで,このような「個人的構造」の探索を自動化し,外部の障害に対してコヒーレントな方法で反応し,その完全性を維持することができるようにした。 この手法により,CAにおける環境条件の体系的把握が可能であり,このような基礎的なエージェントの自己組織化につながることを示す。 複数の実験を通して, 検出されたエージェントは驚くほど頑健な運動能力を持ち, 身体の完全性を維持し, 様々な障害物の中を移動できることを示した。 それらはまた、スケールの変化、ランダムな更新、トレーニング中に見えない環境からの摂動に頑健な、強力な一般化能力を示す。 このアプローチがAIと合成バイオエンジニアリングの新しい視点をいかに開放するかについて議論する。

The research field of Artificial Life studies how life-like phenomena such as autopoiesis, agency, or self-regulation can self-organize in computer simulations. In cellular automata (CA), a key open-question has been whether it it is possible to find environment rules that self-organize robust "individuals" from an initial state with no prior existence of things like "bodies", "brain", "perception" or "action". In this paper, we leverage recent advances in machine learning, combining algorithms for diversity search, curriculum learning and gradient descent, to automate the search of such "individuals", i.e. localized structures that move around with the ability to react in a coherent manner to external obstacles and maintain their integrity, hence primitive forms of sensorimotor agency. We show that this approach enables to find systematically environmental conditions in CA leading to self-organization of such basic forms of agency. Through multiple experiments, we show that the discovered agents have surprisingly robust capabilities to move, maintain their body integrity and navigate among various obstacles. They also show strong generalization abilities, with robustness to changes of scale, random updates or perturbations from the environment not seen during training. We discuss how this approach opens new perspectives in AI and synthetic bioengineering.
翻訳日:2024-02-19 18:42:28 公開日:2024-02-14
# 外部性を考慮したデータ市場均衡

Equilibrium of Data Markets with Externality ( http://arxiv.org/abs/2302.08012v3 )

ライセンス: Link先を確認
Safwan Hossain, Yiling Chen(参考訳) 私たちは現実世界のデータ市場をモデル化し、売り手は固定価格を投稿し、買い手は任意の販売者から自由に購入できる。 ここで重要な要素は、データ購入によって互いに負の外部性バイヤーが引き起こされることだ。 購入者が事前評価を知っておく単純な設定から始めると、このような外部性の存在下での純粋なナッシュ均衡の存在と福祉性の両方を特徴付ける。 結果として、現在のデータ市場の限界を反映しつつも、取引コストを通じて介入するプラットフォームは、標準クラスの外部機能に対して、強力な福祉保証を備えた純粋な均衡につながることを証明しています。 次に、市場の相互作用を通じてバリュエーションを学習するより現実的な環境を考えます。 我々の介入はここでも実現可能であり、個人および累積ユーティリティメトリクスの双方に関して、少ない後悔を達成するための学習アルゴリズムを検討する。 最後に、この介入の約束を、よりリッチな外部性モデルで分析する。

We model real-world data markets, where sellers post fixed prices and buyers are free to purchase from any set of sellers, as a simultaneous game. A key component here is the negative externality buyers induce on one another due to data purchases. Starting with a simple setting where buyers know their valuations a priori, we characterize both the existence and welfare properties of the pure Nash equilibrium in the presence of such externality. While the outcomes are bleak without any intervention, mirroring the limitations of current data markets, we prove that for a standard class of externality functions, platforms intervening through a transaction cost can lead to a pure equilibrium with strong welfare guarantees. We next consider a more realistic setting where buyers learn their valuations over time through market interactions. Our intervention is feasible here as well, and we consider learning algorithms to achieve low regret concerning both individual and cumulative utility metrics. Lastly, we analyze the promises of this intervention under a much richer externality model.
翻訳日:2024-02-17 00:24:52 公開日:2024-02-14
# 物理インフォームドニューラルネットワークを用いた微小地震源イメージング

Microseismic source imaging using physics-informed neural networks with hard constraints ( http://arxiv.org/abs/2304.04315v2 )

ライセンス: Link先を確認
Xinquan Huang, Tariq Alkhalifah(参考訳) 微動源イメージングは受動的地震モニタリングにおいて重要な役割を果たす。 しかし、このプロセスは、疎測定データを扱う際に、エイリアスによって失敗しがちである。 そこで本研究では,物理に変形したニューラルネットワーク(pinns)を基盤とした直接型マイクロサイスミックイメージングフレームワークを提案する。 PINNを用いてマルチ周波数波動場を表現し,その逆フーリエ変換を用いて音源画像の抽出を行う。 より具体的には、周波数領域の波動場の表現をハード制約により本質的に境界条件(表面の測定データ)を満たすように修正し、PINNにおけるデータのバランスの困難さやPDE損失を回避するのに役立つ。 さらに,PINNの収束性を高めるために,深さに関する因果損失実装を提案する。 オーバースラストモデルを用いた数値実験により、単一または複数ソースおよびパッシブ監視環境においても、信頼性が高く正確なソースイメージングが可能となった。 時間反転法と比較して,提案法の結果は数値的手法と一致しているが,ノイズが少ない。 さらに,本手法をモニタリングフィールドデータの水理破砕に応用し,より少ないアーティファクトで精度良くソースを画像化できることを実証する。

Microseismic source imaging plays a significant role in passive seismic monitoring. However, such a process is prone to failure due to aliasing when dealing with sparsely measured data. Thus, we propose a direct microseismic imaging framework based on physics-informed neural networks (PINNs), which can generate focused source images, even with very sparse recordings. We use the PINNs to represent a multi-frequency wavefield and then apply inverse Fourier transform to extract the source image. To be more specific, we modify the representation of the frequency-domain wavefield to inherently satisfy the boundary conditions (the measured data on the surface) by means of a hard constraint, which helps to avoid the difficulty in balancing the data and PDE losses in PINNs. Furthermore, we propose the causality loss implementation with respect to depth to enhance the convergence of PINNs. The numerical experiments on the Overthrust model show that the method can admit reliable and accurate source imaging for single- or multiple- sources and even in passive monitoring settings. Compared with the time-reversal method, the results of the proposed method are consistent with numerical methods but less noisy. Then, we further apply our method to hydraulic fracturing monitoring field data, and demonstrate that our method can correctly image the source with fewer artifacts.
翻訳日:2024-02-17 00:11:55 公開日:2024-02-14
# 外周非感受性カルマンフィルタの理論と応用

Outlier-Insensitive Kalman Filtering: Theory and Applications ( http://arxiv.org/abs/2309.09505v2 )

ライセンス: Link先を確認
Shunit Truzman, Guy Revach, Nir Shlezinger, Itzik Klein(参考訳) 雑音観測による力学系の状態推定は多くの応用において基本的な課題である。 一般に、線形カルマンフィルタ(KF)を用いて対処されるが、このフィルタは凸2次目的関数の感度のため、観測における外れ値の存在下で性能が著しく低下する可能性がある。 このような挙動を緩和するために、外れ値検出アルゴリズムを適用することができる。 本研究では,kfの標準更新ステップの短い反復処理のみを必要としつつ,異常値の有害な影響を緩和するパラメータフリーアルゴリズムを提案する。 そこで我々は,各ポテンシャル外乱を未知のばらつきを持つ正規プロセスとしてモデル化し,期待最大化あるいは交互最大化アルゴリズムによるオンライン推定を適用した。 シミュレーションとフィールド実験により,提案手法の競合性能を実証し,その頑健さを他のアルゴリズムと比較してフィルタシナリオの外れ値に示す。

State estimation of dynamical systems from noisy observations is a fundamental task in many applications. It is commonly addressed using the linear Kalman filter (KF), whose performance can significantly degrade in the presence of outliers in the observations, due to the sensitivity of its convex quadratic objective function. To mitigate such behavior, outlier detection algorithms can be applied. In this work, we propose a parameter-free algorithm which mitigates the harmful effect of outliers while requiring only a short iterative process of the standard update step of the KF. To that end, we model each potential outlier as a normal process with unknown variance and apply online estimation through either expectation maximization or alternating maximization algorithms. Simulations and field experiment evaluations demonstrate competitive performance of our method, showcasing its robustness to outliers in filtering scenarios compared to alternative algorithms.
翻訳日:2024-02-17 00:02:04 公開日:2024-02-14
# 任意のスピン1/2ハミルトニアンに対する量子モンテカルロアルゴリズム

A quantum Monte Carlo algorithm for arbitrary spin-1/2 Hamiltonians ( http://arxiv.org/abs/2307.06503v2 )

ライセンス: Link先を確認
Lev Barash, Arman Babakhani, Itay Hen(参考訳) 任意のスピン-1/2$ハミルトニアンをシミュレートする汎用パラメータフリー量子モンテカルロ(qmc)アルゴリズムを提案する。 マルコフ連鎖の平衡への収束を確保するため、我々は明確で単純な自動プロトコルを考案し、QMCの更新を確実にエルゴード化し、詳細なバランスを満足する。 三角格子上のXYモデルのシミュレーション,トーリック符号,ランダムな$k$-ローカルハミルトニアンなど,いくつかの例を考察して,本手法の適用性と汎用性を実証する。 私たちはプログラムコードをGitHubで自由にアクセスできるようにした。

We present a universal parameter-free quantum Monte Carlo (QMC) algorithm designed to simulate arbitrary spin-$1/2$ Hamiltonians. To ensure the convergence of the Markov chain to equilibrium for every conceivable case, we devise a clear and simple automated protocol that produces QMC updates that are provably ergodic and satisfy detailed balance. We demonstrate the applicability and versatility of our method by considering several illustrative examples, including the simulation of the XY model on a triangular lattice, the toric code, and random $k$-local Hamiltonians. We have made our program code freely accessible on GitHub.
翻訳日:2024-02-17 00:01:50 公開日:2024-02-14
# 逆推論のためのDeep Computational Modelを用いた心筋梗塞心電図双極子の実現に向けて

Towards Enabling Cardiac Digital Twins of Myocardial Infarction Using Deep Computational Models for Inverse Inference ( http://arxiv.org/abs/2307.04421v3 )

ライセンス: Link先を確認
Lei Li, Julia Camps, Zhinuo (Jenny) Wang, Abhirup Banerjee, Marcel Beetz, Blanca Rodriguez, and Vicente Grau(参考訳) 心臓デジタル双生児(CDT)は、非侵襲的に心臓機能の個別評価を提供する可能性があり、心筋梗塞(MI)のパーソナライズされた診断と治療計画のための有望なアプローチである。 正確な心筋組織特性の推測は、MIの信頼性の高いCDTを作成する上で重要である。 本研究は,CDTプラットフォーム内の心電図(ECG)から心筋組織特性を推定できる可能性を検討した。 このプラットフォームは、心MRIや心電図などのマルチモーダルデータを統合し、推測された組織特性の精度と信頼性を高める。 コンピュータシミュレーションに基づく感度解析を行い,心電図の模擬QRS複合体に対する梗塞位置,大きさ,横隔膜度,電気的交流度変化の影響を系統的に検討し,アプローチの限界を確立する。 次に,2分岐変分オートエンコーダと推論モデルからなる新しい深部計算モデルを提案し,シミュレーションQRSから脳梗塞の位置と分布を推定する。 提案モデルは,左室壁と境界域を推定するために0.457 \pm 0.317と0.302 \pm 0.273の平均サイススコアを達成する。 感度解析は、梗塞の特徴と電気生理学的特徴の複雑な関係の理解を深める。 in silico 実験の結果,このモデルでは逆推論の関係を効果的に捉え,将来臨床応用の可能性も示唆された。 原稿が出版されたら、コードは公開される予定だ。

Cardiac digital twins (CDTs) have the potential to offer individualized evaluation of cardiac function in a non-invasive manner, making them a promising approach for personalized diagnosis and treatment planning of my-ocardial infarction (MI). The inference of accurate myocardial tissue properties is crucial in creating a reliable CDT of MI. In this work, we investigate the feasibility of inferring myocardial tissue properties from the electrocardiogram (ECG) within a CDT platform. The platform integrates multi-modal data, such as cardiac MRI and ECG, to enhance the accuracy and reliability of the inferred tissue properties. We perform a sensitivity analysis based on computer simulations, systematically exploring the effects of infarct location, size, degree of transmurality, and electrical ac-tivity alteration on the simulated QRS complex of ECG, to establish the limits of the approach. We subsequently present a novel deep computational model, comprising a dual-branch variational autoencoder and an inference model, to infer infarct location and distribution from the simulated QRS. The proposed model achieves mean Dice scores of 0.457 \pm 0.317 and 0.302 \pm 0.273 for the inference of left ventricle scars and border zone, respectively. The sensitivity analysis enhances our understanding of the complex relationship between infarct characteristics and electrophysiological features. The in silico experimental results show that the model can effectively capture the relationship for the inverse inference, with promising potential for clinical application in the future. The code will be released publicly once the manuscript is accepted for publication.
翻訳日:2024-02-17 00:01:19 公開日:2024-02-14
# ハイブリッド測地力学:量子物質に結合した古典重力のハミルトン的記述

Hybrid Geometrodynamics: A Hamiltonian description of classical gravity coupled to quantum matter ( http://arxiv.org/abs/2307.00922v2 )

ライセンス: Link先を確認
J. L. Alonso, C. Bouthelier-Madre, J. Clemente-Gallardo, D. Mart\'inez-Crespo(参考訳) 我々は、一般相対性理論と古典的物質(測地力学)に結合したハミルトンの一般相対性理論を、曲線時空における量子場理論によって記述される場合に一般化するが、重力は、空間超曲面とその関連する運動量に関する古典的計量テンソル場によって記述される。 したがって、我々のアプローチでは、事象の多様体を除いて非動的背景構造は存在せず、重力と量子の次数は、その力学を厳密に結合しない。 フレームワークのハミルトニアンの性質を考えると、量子状態の多様体上の超曲面変形の生成子を扱う。 この構成は、重力変数の集合上の量子状態の集合のフィブレーションの微分幾何学に大きく依存している。 この研究の重要な特徴は、物質場と hida 分布の空間上のガウス測度を用いて、異なる測度を持つすべての可能なヒルベルト空間に対する共通超空間を定義し、曲線時空における qft のシュロディンガー波動汎函数像を適切に特徴付けることである。 これにより、真空状態や重力の自由度に依存する測度の場合には、異なるヒルベルト空間内の状態とアシュテカールの複素構造に関連する状態とを関連付けることができる。 これは、フィブリエーションに対する量子エルミート接続を包含することで達成され、これは物理的に深い意味を持つ。 構成の最も顕著な物理的特徴は、量子状態のノルム保存(全動力学が非ユニタリであるとしても)、ハイブリッド保存量を明確に同定すること、幾何学上の量子物質の動的反作用の記述、そしてその逆もまた、重力場が反作用無しに持つ物理的性質を変更することである。

We generalize the Hamiltonian picture of General Relativity coupled to classical matter, known as geometrodynamics, to the case where such matter is described by a Quantum Field Theory in Curved Spacetime, but gravity is still described by a classical metric tensor field over a spatial hypersurface and its associated momentum. Thus, in our approach there is no non-dynamic background structure, apart from the manifold of events, and the gravitational and quantum degrees of freedom have their dynamics inextricably coupled. Given the Hamiltonian natureof the framework, we work with the generators of hypersurface deformations over the manifold of quantum states. The construction relies heavily on the differential geometry of a fibration of the set of quantum states over the set of gravitational variables. An important feature of this work is the use of Gaussian measures over the space of matter fields and of Hida distributions to define a common superspace to all possible Hilbert spaces with different measures, to properly characterize the Schrodinger wave functional picture of QFT in curved spacetime. This allows us to relate states within different Hilbert spaces in the case of vacuum states or measures that depend on the gravitational degrees of freedom, as the ones associated to Ashtekar's complex structure. This is achieved through the inclusion of a quantum Hermitian connection for the fibration, which will have profound physical implications. The most remarkable physical features of the construction are norm conservation of the quantum state (even if the total dynamics are non-unitary), the clear identification of the hybrid conserved quantities and the description of a dynamical backreaction of quantum matter on geometry and vice versa, which shall modify the physical properties the gravitational field would have in the absence of backreaction.
翻訳日:2024-02-17 00:00:15 公開日:2024-02-14
# 排他性の基本グラフの量子極大はベルのシナリオでは到達できない

The quantum maxima for the basic graphs of exclusivity are not reachable in Bell scenarios ( http://arxiv.org/abs/2305.19247v2 )

ライセンス: Link先を確認
Lucas E. A. Porto, Rafael Rabelo, Marcelo Terra Cunha, Ad\'an Cabello(参考訳) ベルの非局所性やコッチェン・スペックカーの文脈性を示す一連の事象の確率の条件は、事象の排他性のグラフは5つ以上の頂点、奇数孔またはそれらの補数、奇数対孔(odd antiholes)と呼ばれる誘導的奇数サイクルを含むことである。 この観点では、排他性グラフが奇孔または反ホールである事象は文脈性の構成要素である。 任意の奇数の穴や反ホールに対して、量子力学によって許される確率の割り当ては、特定の文脈性シナリオで達成できる。 しかし、任意の奇妙なブラックホールに対して、量子最大値を達成する確率はベルのシナリオでは達成できないことが証明される。 私たちはまた、最も単純な奇妙なアンチホールについても証明します。 これにより、ビルディングブロックの任意の量子最大値がベルのシナリオでは達成できないという予想が導かれる。 この結果、なぜ確率割当が量子であるのかという問題は決定可能であるのに対して、ベルシナリオ内の確率割当が量子であるかどうかは一般に決定不可能である。 これはまた、特定のシナリオに言及せずに定義された確率の量子集合の原理を特定することから始めると、量子相関の原理がよりシンプルになる理由を理解するのに役立つ。

A necessary condition for the probabilities of a set of events to exhibit Bell nonlocality or Kochen-Specker contextuality is that the graph of exclusivity of the events contains induced odd cycles with five or more vertices, called odd holes, or their complements, called odd antiholes. From this perspective, events whose graph of exclusivity are odd holes or antiholes are the building blocks of contextuality. For any odd hole or antihole, any assignment of probabilities allowed by quantum mechanics can be achieved in specific contextuality scenarios. However, here we prove that, for any odd hole, the probabilities that attain the quantum maxima cannot be achieved in Bell scenarios. We also prove it for the simplest odd antiholes. This leads us to the conjecture that the quantum maxima for any of the building blocks cannot be achieved in Bell scenarios. This result sheds light on why the problem of whether a probability assignment is quantum is decidable, while whether a probability assignment within a given Bell scenario is quantum is, in general, undecidable. This also helps to undertand why identifying principles for quantum correlations is simpler when we start by identifying principles for quantum sets of probabilities defined with no reference to specific scenarios.
翻訳日:2024-02-16 23:58:09 公開日:2024-02-14
# パリティ時対称二量体の有効サイズ

Effective size of a parity-time symmetric dimer ( http://arxiv.org/abs/2401.01309v2 )

ライセンス: Link先を確認
Li Ge(参考訳) パリティ時間(PT)対称二量体は、パリティと時間反転操作の組み合わせによって不変となる非エルミート系の特異な性質を強調するために導入された。 また、様々な対称性と位相的に保護された構造、特に統合フォトニックプラットフォームの構築ブロックでもある。 名前の通り、2つの結合振動子で構成されており、自然界では光学、機械、電子などである。 本稿では, 格子運動量に逆比例する格子点の数で定義される有効サイズが, エネルギー量子化の観点から見れば, 2 ではなく, 驚くほど3 であることを示す。 より具体的には、1次元連結鎖の複素エネルギーレベルと$N$ PT-二量体はシステムサイズ$12N$で決定され、単一のPT-二量体の場合では3に減少する。 エネルギー量子化条件は様々な非エルミート系で確立されているが、ここで報告されているように、正確かつ明示的に量子化された複素エネルギーはいまだに乏しい。 また、非エルミート粒子ホール対称性やキラル対称性を含むPT二量体および連結PT二量体鎖の他の対称性についても論じる。

Parity-time (PT) symmetric dimers were introduced to highlight the unusual properties of non-Hermitian systems that are invariant after a combined parity and time reversal operation. They are also the building blocks of a variety of symmetry and topologically protected structures, especially on integrated photonic platforms. As the name suggests, it consists of two coupled oscillators, which can be optical, mechanical, electronic, and so on in nature. In this article, we show that its effective size, defined by the number of lattice sites inversely proportional to the lattice momentum, is surprisingly three instead of two from the perspective of energy quantization. More specifically, we show analytically that the complex energy levels of a one-dimensional concatenated chain with $N$ PT-dimers are determined by a system size of $1+2N$, which reduces to three in the case of a single PT-dimer. We note that while energy quantization conditions were established in various non-Hermitian systems, exact and explicitly quantized complex energies as reported here are still scarce. In connection, we also discuss the other symmetries of a PT-dimer and concatenated PT-dimer chain, including non-Hermitian particle-hole symmetry and chiral symmetry.
翻訳日:2024-02-16 23:37:31 公開日:2024-02-14
# ベイズ型多状態ベネット受入比法

Bayesian Multistate Bennett Acceptance Ratio Methods ( http://arxiv.org/abs/2310.20699v3 )

ライセンス: Link先を確認
Xinqiang Ding(参考訳) 多状態ベネット受容比(MBAR)法は熱力学状態のエネルギーを計算するための一般的な手法である。 本稿では,MBAR法のベイズ一般化であるBayesMBARを紹介する。 熱力学状態からサンプリングされた構成と事前分布を統合することにより、ベイズMBARは自由エネルギーの後方分布を計算する。 後方分布を用いて自由エネルギー推定を導出し,それらの不確実性を計算する。 特に、均一な事前分布を使用する場合、BayesMBARはMBARの結果を回復するが、より正確な不確実性推定を提供する。 さらに、自由エネルギーに関する事前知識が利用可能であれば、非一様事前分布を用いてこの情報を推定手順に組み込むことができる。 例えば、自由エネルギー表面の滑らかさに関する事前の知識を取り入れることで、BayesMBARはMBAR法よりも正確な推定値を提供することを示す。 MBARが自由エネルギー計算に広く使われていることを考えると、ベイズMBARは自由エネルギー計算の様々な応用に欠かせないツールであると予想する。

The multistate Bennett acceptance ratio (MBAR) method is a prevalent approach for computing free energies of thermodynamic states. In this work, we introduce BayesMBAR, a Bayesian generalization of the MBAR method. By integrating configurations sampled from thermodynamic states with a prior distribution, BayesMBAR computes a posterior distribution of free energies. Using the posterior distribution, we derive free energy estimations and compute their associated uncertainties. Notably, when a uniform prior distribution is used, BayesMBAR recovers the MBAR's result but provides more accurate uncertainty estimates. Additionally, when prior knowledge about free energies is available, BayesMBAR can incorporate this information into the estimation procedure by using non-uniform prior distributions. As an example, we show that, by incorporating the prior knowledge about the smoothness of free energy surfaces, BayesMBAR provides more accurate estimates than the MBAR method. Given MBAR's widespread use in free energy calculations, we anticipate BayesMBAR to be an essential tool in various applications of free energy calculations.
翻訳日:2024-02-16 23:33:21 公開日:2024-02-14
# 破壊し、イミットし、修正する:人間のような攻撃を発生させるロバスト性

Break it, Imitate it, Fix it: Robustness by Generating Human-Like Attacks ( http://arxiv.org/abs/2310.16955v2 )

ライセンス: Link先を確認
Aradhana Sinha, Ananth Balashankar, Ahmad Beirami, Thi Avrahami, Jilin Chen, Alex Beutel(参考訳) 現実世界の自然言語処理システムは、人間の敵に対して堅牢である必要がある。 トレーニングのための人間の敵の例を集めることは、効果的だが高価なソリューションである。 一方で、単語置換のような小さな摂動による合成攻撃の訓練は、実際に人間の敵に対する堅牢性を改善するものではない。 本稿では,限定的な人的対人例を用いて,より有用な対人例を大規模に生成する対人訓練フレームワークを提案する。 本稿では、ANLIとヘイトスピーチ検出ベンチマークのデータセット上で、このシステムの利点を実証する。 人的攻撃のみの訓練に比べ、我々の合成敵の訓練は、将来のラウンドのモデルロバスト性を向上する。 anliでは、現在の攻撃セット(44.1%$\,\to\,$50.1%)と、将来の2回の人為攻撃(32.5%$\,\to\,43.4%、29.4%$\,\to\,$40.2%)において精度が向上している。 ヘイトスピーチ検出では、現在の攻撃(0.76$\to$ 0.84)と将来のラウンド(0.77$\to$ 0.79)でAUCが上昇する。 既存の人間の敵の分布を学習しない方法からの攻撃は、ロバスト性を低下させる。

Real-world natural language processing systems need to be robust to human adversaries. Collecting examples of human adversaries for training is an effective but expensive solution. On the other hand, training on synthetic attacks with small perturbations - such as word-substitution - does not actually improve robustness to human adversaries. In this paper, we propose an adversarial training framework that uses limited human adversarial examples to generate more useful adversarial examples at scale. We demonstrate the advantages of this system on the ANLI and hate speech detection benchmark datasets - both collected via an iterative, adversarial human-and-model-in-the-loop procedure. Compared to training only on observed human attacks, also training on our synthetic adversarial examples improves model robustness to future rounds. In ANLI, we see accuracy gains on the current set of attacks (44.1%$\,\to\,$50.1%) and on two future unseen rounds of human generated attacks (32.5%$\,\to\,$43.4%, and 29.4%$\,\to\,$40.2%). In hate speech detection, we see AUC gains on current attacks (0.76 $\to$ 0.84) and a future round (0.77 $\to$ 0.79). Attacks from methods that do not learn the distribution of existing human adversaries, meanwhile, degrade robustness.
翻訳日:2024-02-16 23:32:42 公開日:2024-02-14
# 量子散逸ダイナミクスにおける多重時間スケールの理解:量子軌道からの洞察

Understanding multiple timescales in quantum dissipative dynamics: Insights from quantum trajectories ( http://arxiv.org/abs/2402.04524v2 )

ライセンス: Link先を確認
Matthew Gerry, Michael J. Kewming, and Dvira Segal(参考訳) ほぼ縮退したエネルギー準位を持つ開量子系は、リンドブラッド型量子マスター方程式でモデル化されたとしても、平衡へのアプローチにおいて長寿命の準安定状態を示すことが示されている。 これはリウヴィリアン固有値の違いによる時間スケールの劇的な分離の結果である。 これらの準安定状態はしばしば非ゼロコヒーレンスを持ち、系が熱平衡に達すると、長い時間でしか死なない。 この効果をもたらす2つの異なる状況について検討する: 散逸的ダイナミクスは、ほぼ退化部分空間内でのみ状態が結合する状態と、それらが分離されたほぼ退化部分空間の間の有限エネルギー分割を飛び越える状態である。 それぞれのケースにおいて、基底の変化は、エネルギー固有ベイジよりもシステム-バス相互作用の影響を自然に捉え、別々の時間スケールが別々のプロセス(例えば非エネルギー固有ベイジへのデコヒーレンス、初期状態への人口相関の崩壊)と関連していることを示す表現につながることがしばしば見出される。 このアプローチは、量子軌道の検査と組み合わせることで、コヒーレント振動、熱緩和、デコヒーレンスが同時に発生する場合のオープンシステムの進化がどのように特徴づけられるかを直感的に示す。

Open quantum systems with nearly degenerate energy levels have been shown to exhibit long-lived metastable states in the approach to equilibrium, even when modelled with certain Lindblad-form quantum master equations. This is a result of dramatic separation of timescales due to differences between Liouvillian eigenvalues. These metastable states often have nonzero coherences which die off only in the long time limit once the system reaches thermal equilibrium. We examine two distinct situations that give rise to this effect: one in which dissipative dynamics couple together states only within a nearly degenerate subspace, and one in which they give rise to jumps over finite energy splittings, between separate nearly degenerate subspaces. We find, in each case, that a change of basis can often lead to a representation which more naturally captures the impact of the system-bath interaction than does the energy eigenbasis, revealing that separate timescales are associated with separate processes (e.g. decoherence into a non-energy eigenbasis, decay of population correlations to the initial state). This approach is paired with the inspection of quantum trajectories, which further provide intuition as to how open system evolution is characterized when coherent oscillations, thermal relaxation, and decoherence all occur simultaneously.
翻訳日:2024-02-16 23:24:17 公開日:2024-02-14
# 過剰リスクを伴う頑健なマルチタスク学習

Robust Multi-Task Learning with Excess Risks ( http://arxiv.org/abs/2402.02009v2 )

ライセンス: Link先を確認
Yifei He, Shiji Zhou, Guojun Zhang, Hyokun Yun, Yi Xu, Belinda Zeng, Trishul Chilimbi, Han Zhao(参考訳) マルチタスク学習(MTL)は、全てのタスク損失の凸結合を最適化することにより、複数のタスクのジョイントモデルを学ぶことを検討する。 従来の手法では、各損失に基づいてタスク重みを動的に調整し、困難なタスクを優先順位付けする適応重み更新方式を採用している。 しかし、ラベルノイズが存在すると、これらのアルゴリズムは、比較的大きなベイズ最適誤差を持つノイズタスクに過度な重みを割り当てる傾向があるため、他のタスクをオーバーシャドウし、ボード全体にパフォーマンスが低下する、という大きな課題に直面している。 この制限を克服するため,我々は,タスク重みをコンバージェンスまでの距離で更新する過度なリスクベースのタスクバランシング手法であるexcessmtl(余剰リスクを伴うマルチタスク学習)を提案する。 直感的には、ExcessMTLは収束からさらに遠い訓練の悪いタスクにより高い重みを割り当てる。 余剰リスクを推定するために,テイラー近似を用いた効率的かつ正確な手法を開発した。 理論的には,提案アルゴリズムは収束保証とパレート定常性を実現する。 実験により,提案アルゴリズムを様々なMTLベンチマークで評価し,ラベルノイズの存在下での既存手法よりも優れた性能を示す。

Multi-task learning (MTL) considers learning a joint model for multiple tasks by optimizing a convex combination of all task losses. To solve the optimization problem, existing methods use an adaptive weight updating scheme, where task weights are dynamically adjusted based on their respective losses to prioritize difficult tasks. However, these algorithms face a great challenge whenever label noise is present, in which case excessive weights tend to be assigned to noisy tasks that have relatively large Bayes optimal errors, thereby overshadowing other tasks and causing performance to drop across the board. To overcome this limitation, we propose Multi-Task Learning with Excess Risks (ExcessMTL), an excess risk-based task balancing method that updates the task weights by their distances to convergence instead. Intuitively, ExcessMTL assigns higher weights to worse-trained tasks that are further from convergence. To estimate the excess risks, we develop an efficient and accurate method with Taylor approximation. Theoretically, we show that our proposed algorithm achieves convergence guarantees and Pareto stationarity. Empirically, we evaluate our algorithm on various MTL benchmarks and demonstrate its superior performance over existing methods in the presence of label noise.
翻訳日:2024-02-16 23:23:50 公開日:2024-02-14
# セルオートマトンオントロジー、ビット、量子ビットおよびディラック方程式

Cellular automaton ontology, bits, qubits, and the Dirac equation ( http://arxiv.org/abs/2401.08253v2 )

ライセンス: Link先を確認
Hans-Thomas Elze(参考訳) 量子力学のセルオートマトン解釈のコーナーストーンは、置換によって進化する存在論的状態である。 我々はこれを古典的なイジングスピンチェーンでレビューし、説明する。 連続体極限におけるワイル方程式と関係があることが示されている。 しかし、離散スピンやビットのモデルは、わずかに変形しただけでは、重ね合わせを生成して量子ビットのモデルになることは避けられない。 本研究では, 質量項に関連しない信号速度の変化について検討する。 後者を組み込むために、ディラック方程式を 1+1 次元で考慮し、その基礎となる独立決定論的「ネックレスのネックレス」オートマトンを、オントロジ的とみなす。

Cornerstones of the Cellular Automaton Interpretation of Quantum Mechanics are its ontological states that evolve by permutations, in this way never creating would-be quantum mechanical superposition states. We review and illustrate this with a classical Ising spin chain. It is shown that it can be related to the Weyl equation in the continuum limit. Yet, the model of discrete spins or bits unavoidably becomes a model of qubits by generating superpositions, if only slightly deformed. We study modifications of its signal velocity which, however, do not relate to mass terms. To incorporate the latter, we consider the Dirac equation in 1+1 dimensions and sketch an underlying discrete deterministic "necklace of necklaces" automaton that qualifies as ontological.
翻訳日:2024-02-16 23:21:13 公開日:2024-02-14
# 地下インセンティブレビューサービスを理解する

Understanding Underground Incentivized Review Services ( http://arxiv.org/abs/2102.04217v4 )

ライセンス: Link先を確認
Rajvardhan Oak and Zubair Shafiq(参考訳) 詐欺のヒューマンファクターはhciやセキュリティコミュニティによって研究されてきたが、ほとんどの研究は被害者の視点や予防戦略を理解することを目的としている。 さらに、フィッシング、スパム、いじめといった、狭い問題にも焦点が当てられている。 本研究では,hciレンズによる電子商取引プラットフォームにおけるレビュー詐欺の理解を目指している。 実際の詐欺師(N=36エージェントとN=38レビュアー)による調査を通じて、ChatGPTのようなAIツールの使用を含む、削除の試みに抵抗しながら、詐欺師が操作をスケールするために使用する高度な採用、実行、報告メカニズムを明らかにする。 これらのサービスが運用する通信チャネルの取り締まりは,インセンティブ付レビューの対処に有効であることが判明した。 この研究は、インセンティブ付きレビューの複雑なランドスケープに光を当て、地下サービスの仕組みとその除去努力に対するレジリエンスに関する洞察を提供する。

While human factors in fraud have been studied by the HCI and security communities, most research has been directed to understanding either the victims' perspectives or prevention strategies, and not on fraudsters, their motivations and operation techniques. Additionally, the focus has been on a narrow set of problems: phishing, spam and bullying. In this work, we seek to understand review fraud on e-commerce platforms through an HCI lens. Through surveys with real fraudsters (N=36 agents and N=38 reviewers), we uncover sophisticated recruitment, execution, and reporting mechanisms fraudsters use to scale their operation while resisting takedown attempts, including the use of AI tools like ChatGPT. We find that countermeasures that crack down on communication channels through which these services operate are effective in combating incentivized reviews. This research sheds light on the complex landscape of incentivized reviews, providing insights into the mechanics of underground services and their resilience to removal efforts.
翻訳日:2024-02-16 21:33:04 公開日:2024-02-14
# cGANを用いた高次元IMUセンサデータ生成による治療活動におけるヒト活動認識の強化

cGAN-Based High Dimensional IMU Sensor Data Generation for Enhanced Human Activity Recognition in Therapeutic Activities ( http://arxiv.org/abs/2302.07998v2 )

ライセンス: Link先を確認
Mohammad Mohammadzadeh, Ali Ghadami, Alireza Taheri, Saeed Behzadipour(参考訳) 人間の活動認識は、リハビリテーション、健康モニタリング、人間とコンピュータの相互作用といった応用のための中核技術である。 ウェアラブルデバイス、特にIMUセンサーは、人間の動きの豊富な特徴を合理的なコストで提供し、活動認識に活用することができる。 活動認識のための堅牢な分類器の開発は、研究者にとって常に関心を集めてきた。 1つの大きな問題は、通常、トレーニングデータの欠如であり、深い分類器の開発は困難であり、時には不可能である。 本研究では,リハビリテーション活動に関連するIMU信号を生成するために,TheraGANと呼ばれる新しいGANネットワークを開発した。 生成された信号は、6チャンネルIMU、すなわち角速度と線形加速度のデータを含む。 また、単純なアクティビティの導入により、さまざまな長さのアクティビティの生成プロセスが簡略化された。 生成した信号を評価するために、知覚的類似性分析、実データから手作業で抽出した特徴の比較、視覚検査、生成したデータが実データに基づいて訓練された3つの深層分類器の性能に与える影響の調査など、定性的かつ定量的な研究を行った。 その結果,生成された信号は実信号によく似ており,生成されたデータを加えると,すべてのネットワークの性能が大幅に向上した。 テストされたネットワークの中で、LSTM分類器は最も顕著な改善を示し、13.27%の高速化を実現し、データ不足の課題に効果的に対処した。 これは、不均衡で不十分なデータ問題に対して、より堅牢な分類器を構築するツールとして、生成されたデータとTheraGANの有効性を示す。

Human activity recognition is a core technology for applications such as rehabilitation, health monitoring, and human-computer interactions. Wearable devices, especially IMU sensors, provide rich features of human movements at a reasonable cost, which can be leveraged in activity recognition. Developing a robust classifier for activity recognition has always been of interest to researchers. One major problem is that there is usually a deficit of training data, which makes developing deep classifiers difficult and sometimes impossible. In this work, a novel GAN network called TheraGAN was developed to generate IMU signals associated with rehabilitation activities. The generated signal comprises data from a 6-channel IMU, i.e., angular velocities and linear accelerations. Also, introducing simple activities simplified the generation process for activities of varying lengths. To evaluate the generated signals, several qualitative and quantitative studies were conducted, including perceptual similarity analysis, comparing manually extracted features to those from real data, visual inspection, and an investigation into how the generated data affects the performance of three deep classifiers trained on the generated and real data. The results showed that the generated signals closely mimicked the real signals, and adding generated data resulted in a significant improvement in the performance of all tested networks. Among the tested networks, the LSTM classifier demonstrated the most significant improvement, achieving a 13.27% boost, effectively addressing the challenge of data scarcity. This shows the validity of the generated data as well as TheraGAN as a tool to build more robust classifiers in case of imbalanced and insufficient data problems.
翻訳日:2024-02-16 21:28:09 公開日:2024-02-14
# 感度境界付きパーソナライズページランクによる差分プライベートグラフ学習

Differentially Private Graph Learning via Sensitivity-Bounded Personalized PageRank ( http://arxiv.org/abs/2207.06944v3 )

ライセンス: Link先を確認
Alessandro Epasto, Vahab Mirrokni, Bryan Perozzi, Anton Tsitsulin, Peilin Zhong(参考訳) パーソナライズされたPageRank(PPR)は、ノードランキング、ラベル付け、グラフ埋め込みといったグラフ表現の教師なし学習の基本的なツールである。 しかし、データプライバシは最近の最も重要な懸念の1つだが、既存のPPRアルゴリズムはユーザーのプライバシを保護するように設計されていない。 PPRは入力グラフエッジに対して非常に敏感であり、一方のエッジの違いはPPRベクトルに大きな変化をもたらし、潜在的にプライベートユーザデータを漏洩させる可能性がある。 本研究では,近似PRを出力し,入力エッジに有意な感度を持つアルゴリズムを提案する。 さらに,入力グラフが大きな度合いを持つ場合,このアルゴリズムは非プライベートなアルゴリズムと類似の精度を達成できることを示す。 我々の感度バウンドPPRは、差分プライベート(DP)PPRランキング、DPノード分類、DPノード埋め込みなど、グラフ学習のいくつかのツールのプライベートアルゴリズムを直接意味している。 理論的解析を補完するため,アルゴリズムの実用性能を実証的に検証した。

Personalized PageRank (PPR) is a fundamental tool in unsupervised learning of graph representations such as node ranking, labeling, and graph embedding. However, while data privacy is one of the most important recent concerns, existing PPR algorithms are not designed to protect user privacy. PPR is highly sensitive to the input graph edges: the difference of only one edge may cause a big change in the PPR vector, potentially leaking private user data. In this work, we propose an algorithm which outputs an approximate PPR and has provably bounded sensitivity to input edges. In addition, we prove that our algorithm achieves similar accuracy to non-private algorithms when the input graph has large degrees. Our sensitivity-bounded PPR directly implies private algorithms for several tools of graph learning, such as, differentially private (DP) PPR ranking, DP node classification, and DP node embedding. To complement our theoretical analysis, we also empirically verify the practical performances of our algorithms.
翻訳日:2024-02-16 21:24:58 公開日:2024-02-14
# Pairwise-Distance Estimator を用いた回帰アンサンブルモデルにおける高効率なてんかん不確かさ推定

Efficient Epistemic Uncertainty Estimation in Regression Ensemble Models Using Pairwise-Distance Estimators ( http://arxiv.org/abs/2308.13498v3 )

ライセンス: Link先を確認
Lucas Berry, David Meger(参考訳) 本研究は,ペアワイズ距離推定器(PaiDEs)を用いた回帰タスクのアンサンブルモデルに対して,感情的不確実性推定のための効率的なアプローチを提案する。 モデル成分間の対距離を利用して、これらの推定器はエントロピーの境界を確立する。 我々はこの能力を活用し,ベイズ能動学習(BALD)の性能を向上させる。 特に、サンプルベースのモンテカルロ推定器とは異なり、PaiDEsは最大100倍の速度でてんかんの不確実性を推定し、同時に非常に多くの入力をカバーし、より高い次元で優れた性能を示す。 1D正弦波データ, $\textit{Pendulum}$, $\textit{Hopper}$, $\textit{Ant}$, $\textit{Humanoid}$。 各実験環境において,認識的不確実性推定におけるpayesの利点を示すために,アクティブラーニングフレームワークが適用された。 本手法を既存のアクティブラーニング手法と比較し,高次元回帰タスクに匹敵する手法を見出した。

This work introduces an efficient novel approach for epistemic uncertainty estimation for ensemble models for regression tasks using pairwise-distance estimators (PaiDEs). Utilizing the pairwise-distance between model components, these estimators establish bounds on entropy. We leverage this capability to enhance the performance of Bayesian Active Learning by Disagreement (BALD). Notably, unlike sample-based Monte Carlo estimators, PaiDEs exhibit a remarkable capability to estimate epistemic uncertainty at speeds up to 100 times faster while covering a significantly larger number of inputs at once and demonstrating superior performance in higher dimensions. To validate our approach, we conducted a varied series of regression experiments on commonly used benchmarks: 1D sinusoidal data, $\textit{Pendulum}$, $\textit{Hopper}$, $\textit{Ant}$ and $\textit{Humanoid}$. For each experimental setting, an active learning framework was applied to demonstrate the advantages of PaiDEs for epistemic uncertainty estimation. We compare our approach to existing active learning methods and find that our approach outperforms on high-dimensional regression tasks.
翻訳日:2024-02-16 21:16:43 公開日:2024-02-14
# 要件完全性を改善する - 大規模言語モデルによる自動支援

Improving Requirements Completeness: Automated Assistance through Large Language Models ( http://arxiv.org/abs/2308.03784v2 )

ライセンス: Link先を確認
Dipeeka Luitel, Shabnam Hassani, Mehrdad Sabetzadeh(参考訳) 自然言語(NL)は、おそらくシステムやソフトウェア要件を表現する最も一般的な媒体である。 NL要求の不完全性を検出することは大きな課題である。 不完全性を特定する1つのアプローチは、要求と外部ソースを比較することである。 LLMは、NL要求の潜在的な不完全性を検出するために、外部の知識源として有用か? 本稿では,BERTを用いてこの問題について考察する。 具体的には,BERT のマスク付き言語モデル (MLM) を用いて,要求条件におけるマスク付きスロットを埋めるための文脈的予測を生成する。 不完全性をシミュレートするために、要求からコンテンツを取り除き、未保持コンテンツに存在するが開示コンテンツには存在しない用語を予測するBERTの能力を評価する。 BERTはマスクごとに複数の予測を生成することができる。 最初のコントリビューションは、マスクごとの最適な予測数を決定し、要求の欠落を効果的に識別することと、予測に存在するノイズを緩和することのバランスを崩すことです。 第2の貢献は、処理後のbert予測に対する機械学習ベースのフィルタの設計と、さらにノイズの低減に関するものです。 PUREデータセットから40の要求仕様を用いて実証評価を行った。 その結果, (1) BERTの予測は, 要件から逸脱している用語を効果的に強調し, (2) BERT は関連する用語を識別する上で, より単純なベースラインを上回り, 3) フィルタは予測のノイズを大幅に低減し, 要求の完全性チェックツールとしてのBERTの有効性を高めた。

Natural language (NL) is arguably the most prevalent medium for expressing systems and software requirements. Detecting incompleteness in NL requirements is a major challenge. One approach to identify incompleteness is to compare requirements with external sources. Given the rise of large language models (LLMs), an interesting question arises: Are LLMs useful external sources of knowledge for detecting potential incompleteness in NL requirements? This article explores this question by utilizing BERT. Specifically, we employ BERT's masked language model (MLM) to generate contextualized predictions for filling masked slots in requirements. To simulate incompleteness, we withhold content from the requirements and assess BERT's ability to predict terminology that is present in the withheld content but absent in the disclosed content. BERT can produce multiple predictions per mask. Our first contribution is determining the optimal number of predictions per mask, striking a balance between effectively identifying omissions in requirements and mitigating noise present in the predictions. Our second contribution involves designing a machine learning-based filter to post-process BERT's predictions and further reduce noise. We conduct an empirical evaluation using 40 requirements specifications from the PURE dataset. Our findings indicate that: (1) BERT's predictions effectively highlight terminology that is missing from requirements, (2) BERT outperforms simpler baselines in identifying relevant yet missing terminology, and (3) our filter significantly reduces noise in the predictions, enhancing BERT's effectiveness as a tool for completeness checking of requirements.
翻訳日:2024-02-16 21:15:26 公開日:2024-02-14
# 胸部x線レポート生成における縦断データと意味的類似性

Longitudinal Data and a Semantic Similarity Reward for Chest X-Ray Report Generation ( http://arxiv.org/abs/2307.09758v3 )

ライセンス: Link先を確認
Aaron Nicolson, Jason Dowling, and Bevan Koopman(参考訳) 放射線学者の燃え尽き率は、部分的には解釈と報告を必要とする胸部X線(CXR)の多さから高い。 CXRの自動レポート生成は、この手間な作業で放射線科医を助け、患者のケアを改善する可能性がある。 現在のCXRレポートジェネレータの診断不正確さは、臨床試験に対する考慮を妨げている。 診断精度を向上させるために,放射線科医のワークフローの側面を統合したcxrレポート生成器を提案する。 これは、患者の以前のCXR研究から得られる縦断的履歴を条件付け、患者の研究から複数のCXRを条件付けし、セクション埋め込みとセパレータトークンでレポートセクションを区別することで、放射線学のワークフローを模倣する。 強化学習に対する報奨はCXR-BERT(CXR-BERT)を利用する。 この報酬によるトレーニングは、モデルに放射線学的報告の臨床的意味を学ばせます。 また、過剰なフォーマット化によって導入された文献におけるCXRレポート生成モデルの大部分の評価に関する問題点も強調する。 我々は,MIMIC-CXRおよびIU X線データセットについて,放射線学者の報告評価とより密接な相関を示す指標を用いて実験を行った。 その結果, 大規模言語モデル, 強化学習, マルチタスク学習などの最先端モデルよりも, 放射線科医と定量的に一致した放射線学レポートを生成できることがわかった。 本モデルにより,CXRレポート生成は臨床治験に一歩近づいた。 私たちのHugging Faceチェックポイント(https://huggingface.co/aehrc/cxrmate)とコード(https://github.com/aehrc/cxrmate)が公開されている。

The burnout rate of radiologists is high in part due to the large and ever growing number of Chest X-rays (CXRs) needing interpretation and reporting. Promisingly, automatic CXR report generation has the potential to aid radiologists with this laborious task and improve patient care. The diagnostic inaccuracy of current CXR report generators prevents their consideration for clinical trials. To improve diagnostic accuracy, we propose a CXR report generator that integrates aspects of the radiologist workflow and is trained with our proposed reward for reinforcement learning. It imitates the radiologist workflow by conditioning on the longitudinal history available from a patient's previous CXR study, conditioning on multiple CXRs from a patient's study, and differentiating between report sections with section embeddings and separator tokens. Our reward for reinforcement learning leverages CXR-BERT -- which captures the clinical semantic similarity between reports. Training with this reward forces our model to learn the clinical semantics of radiology reporting. We also highlight issues with the evaluation of a large portion of CXR report generation models in the literature introduced by excessive formatting. We conduct experiments on the publicly available MIMIC-CXR and IU X-ray datasets with metrics shown to be more closely correlated with radiologists' assessment of reporting. The results demonstrate that our model generates radiology reports that are quantitatively more aligned with those of radiologists than state-of-the-art models, such as those utilising large language models, reinforcement learning, and multi-task learning. Through this, our model brings CXR report generation one step closer to clinical trial consideration. Our Hugging Face checkpoint (https://huggingface.co/aehrc/cxrmate) and code (https://github.com/aehrc/cxrmate) are publicly available.
翻訳日:2024-02-16 21:14:36 公開日:2024-02-14
# 強化学習エージェントのためのパーソナライズドパスリコース

Personalized Path Recourse for Reinforcement Learning Agents ( http://arxiv.org/abs/2312.08724v2 )

ライセンス: Link先を確認
Dat Hong, Tong Wang(参考訳) 本稿では,強化学習エージェントのためのリコースパスを生成する新しい手法であるパーソナライズドパス・リコースを紹介する。 目標は、エージェントの本来のパスと高い類似性を確保し、エージェントにパーソナライズされることを保証しながら、所望の目標を達成するための行動の経路(例えば、エージェントの本来のパスよりも良い結果)を編集することである。 パーソナライズとは、新しい経路が、そのポリシー機能からエージェントが観察した行動パターンに合わせて調整される範囲を指す。 パーソナライズされたリコースエージェントを訓練して,目標,類似性,パーソナライズを考慮した報酬関数を用いて,パーソナライズされたパスを生成する。 提案手法は強化学習と教師付き学習の両方に適用でき、事前決定された目標を達成するために行動のシーケンスやデータのシーケンスを修正または改善する。 この方法は様々な設定で評価される。 実験により、我々のモデルはより良い結果をもたらすだけでなく、異なるエージェントの行動にも適応することが示された。

This paper introduces Personalized Path Recourse, a novel method that generates recourse paths for a reinforcement learning agent. The goal is to edit a given path of actions to achieve desired goals (e.g., better outcomes compared to the agent's original path) while ensuring a high similarity to the agent's original paths and being personalized to the agent. Personalization refers to the extent to which the new path is tailored to the agent's observed behavior patterns from their policy function. We train a personalized recourse agent to generate such personalized paths, which are obtained using reward functions that consider the goal, similarity, and personalization. The proposed method is applicable to both reinforcement learning and supervised learning settings for correcting or improving sequences of actions or sequences of data to achieve a pre-determined goal. The method is evaluated in various settings. Experiments show that our model not only recourses for a better outcome but also adapts to different agents' behavior.
翻訳日:2024-02-16 21:04:38 公開日:2024-02-14
# 超長時系列予測のための超ポーラブル変圧器予習

Extrapolatable Transformer Pre-training for Ultra Long Time-Series Forecasting ( http://arxiv.org/abs/2312.00817v2 )

ライセンス: Link先を確認
Ziyang Song, Qincheng Lu, Hao Xu, David L. Buckeridge, Yue Li(参考訳) BERTやGPTのような大規模事前学習モデル(PTM)は、最近自然言語処理やコンピュータビジョンの分野で大きな成功を収めている。 しかし、時系列データにおけるPTMの開発は遅れている。 これは、既存のトランスフォーマーベースのアーキテクチャ、特に大規模データを扱うためのスケーラビリティと長期的な時間依存を捉える能力の限界を強調するものだ。 本研究では,Timely Generative Pre-trained Transformer (TimelyGPT)を提案する。 timelygptは、トレンドや周期パターンを時系列表現にエンコードするためにxpos(expolatable position)を組み込む。 また、再帰的注意と時間的畳み込みモジュールを統合し、グローバルローカルな時間依存を効果的に捉える。 実験の結果,TimelyGPTは経時的電子健康記録(EHR)でよく見られる生体信号と不規則サンプリング時系列データを連続的に監視し,モデル化に優れていた。 超長期予測実験において、TimelyGPTは、2,000のタイムステップしか持たない短いルックアップウィンドウ(即興)を与えられた睡眠段階遷移中の体温の6,000までの正確な外挿を達成する。 さらに,モントリオール住民からランダムに採取された489,000人の患者からなるpophrと呼ばれる縦型医療管理データベース上で,timelygptの予測能力を示した。 今回我々は,TimelyGPTを,長期患者の健康状態予測や患者のリスク軌跡予測など,幅広い健康領域で有用であると想定した。

Large-scale pre-trained models (PTMs) such as BERT and GPT have recently achieved great success in Natural Language Processing and Computer Vision domains. However, the development of PTMs on time-series data is lagging behind. This underscores the limitations of the existing transformer-based architectures, particularly their scalability to handle large-scale data and ability to capture long-term temporal dependencies. In this study, we present Timely Generative Pre-trained Transformer (TimelyGPT). TimelyGPT employs an extrapolatable position (xPos) embedding to encode trend and periodic patterns into time-series representations. It also integrates recurrent attention and temporal convolution modules to effectively capture global-local temporal dependencies. Our experiments show that TimelyGPT excels in modeling continuously monitored biosignals and irregularly-sampled time series data commonly observed in longitudinal electronic health records (EHRs). In ultra-long-term forecasting experiment, TimelyGPT achieves accurate extrapolation up to 6,000 timesteps of body temperature during the sleep stage transition given a short look-up window (i.e., prompt) containing only 2,000 timesteps. We further demonstrated TimelyGPT's forecasting capabilities on a preprocessed longitudinal healthcare administrative database called PopHR consisting of 489,000 patients randomly sampled from Montreal population. Together, we envision TimelyGPT to be useful in a broad spectrum of health domains including long-term patient health state forecasting and patient risk trajectory prediction.
翻訳日:2024-02-16 21:03:55 公開日:2024-02-14
# 絶対政策最適化

Absolute Policy Optimization ( http://arxiv.org/abs/2310.13230v4 )

ライセンス: Link先を確認
Weiye Zhao, Feihan Li, Yifan Sun, Rui Chen, Tianhao Wei, Changliu Liu(参考訳) 近年,信頼領域の政治強化学習は,複雑な制御タスクやゲームシナリオに対処する上で,目覚ましい成果を上げている。 しかし、このカテゴリの現代の最先端のアルゴリズムは、期待されるパフォーマンスの改善を強調し、最悪のパフォーマンス結果を制御する能力が欠如している。 この制限に対処するために,信頼性の高い低い性能の確率境界における単調改善の保証につながる新たな目的関数を導入する。 この画期的な理論的進歩に基づいて,我々は絶対政策最適化(apo)と呼ばれる実用的なソリューションをさらに導入する。 本実験は,継続制御ベンチマークタスクに挑戦する手法の有効性を実証し,atariゲームのマスタリングへの適用性を拡張する。 以上の結果から,APOとPAPOの効率性は,最先端のポリシー勾配アルゴリズムよりも著しく優れており,最悪の性能と期待される性能が大幅に向上していることがわかった。

In recent years, trust region on-policy reinforcement learning has achieved impressive results in addressing complex control tasks and gaming scenarios. However, contemporary state-of-the-art algorithms within this category primarily emphasize improvement in expected performance, lacking the ability to control over the worst-case performance outcomes. To address this limitation, we introduce a novel objective function, optimizing which leads to guaranteed monotonic improvement in the lower probability bound of performance with high confidence. Building upon this groundbreaking theoretical advancement, we further introduce a practical solution called Absolute Policy Optimization (APO). Our experiments demonstrate the effectiveness of our approach across challenging continuous control benchmark tasks and extend its applicability to mastering Atari games. Our findings reveal that APO as well as its efficient variation Proximal Absolute Policy Optimization (PAPO) significantly outperforms state-of-the-art policy gradient algorithms, resulting in substantial improvements in worst-case performance, as well as expected performance.
翻訳日:2024-02-16 21:01:55 公開日:2024-02-14
# ClickSAM: 超音波画像分割のためのクリックプロンプトを用いた微調整セグメンテーションモデル

ClickSAM: Fine-tuning Segment Anything Model using click prompts for ultrasound image segmentation ( http://arxiv.org/abs/2402.05902v3 )

ライセンス: Link先を確認
Aimee Guo, Grace Fei, Hemanth Pasupuleti, and Jing Wang(参考訳) 新たにリリースされたsegment anything model(sam)は、セグメンテーション精度、入力プロンプトの多様性、トレーニング能力、効率的なモデル設計のため、画像処理で使用される一般的なツールである。 しかし、現在のモデルは医療画像、特に超音波画像に適合しない多様なデータセットで訓練されている。 超音波画像にはノイズが多く、重要な構造を分割することは困難である。 このプロジェクトでは,超音波画像のクリックプロンプトを用いて,セグメンテーションモデル(Segment Anything Model)を微調整するClickSAMを開発した。 ClickSAMには2つのトレーニングステージがある。第1ステージは、接地輪郭を中心としたワンクリックプロンプトでトレーニングされ、第2ステージは、追加のプラスクリックプロンプトと負クリックプロンプトによるモデルパフォーマンスの改善に焦点を当てている。 第1段階の予測を地対面と比較することにより、真正、偽正、偽負のセグメントを算出する。 正の正負のセグメントと偽の負のセグメントで正のクリックを生成し、偽の正のセグメントで負のクリックを生成する。 次に,Centroidal Voronoi Tessellationアルゴリズムを用いて,第2段階のトレーニングにおいてモデル性能を向上させるために使用するセグメント毎に,正および負のクリックプロンプトを収集する。 クリックトレイン法では、ClickSAMは他の超音波画像分割モデルと比較して優れた性能を示す。

The newly released Segment Anything Model (SAM) is a popular tool used in image processing due to its superior segmentation accuracy, variety of input prompts, training capabilities, and efficient model design. However, its current model is trained on a diverse dataset not tailored to medical images, particularly ultrasound images. Ultrasound images tend to have a lot of noise, making it difficult to segment out important structures. In this project, we developed ClickSAM, which fine-tunes the Segment Anything Model using click prompts for ultrasound images. ClickSAM has two stages of training: the first stage is trained on single-click prompts centered in the ground-truth contours, and the second stage focuses on improving the model performance through additional positive and negative click prompts. By comparing the first stage predictions to the ground-truth masks, true positive, false positive, and false negative segments are calculated. Positive clicks are generated using the true positive and false negative segments, and negative clicks are generated using the false positive segments. The Centroidal Voronoi Tessellation algorithm is then employed to collect positive and negative click prompts in each segment that are used to enhance the model performance during the second stage of training. With click-train methods, ClickSAM exhibits superior performance compared to other existing models for ultrasound image segmentation.
翻訳日:2024-02-16 20:53:54 公開日:2024-02-14
# Sports-QA: 複雑・専門スポーツのための大規模ビデオ質問回答ベンチマーク

Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports ( http://arxiv.org/abs/2401.01505v3 )

ライセンス: Link先を確認
Haopeng Li, Andong Deng, Qiuhong Ke, Jun Liu, Hossein Rahmani, Yulan Guo, Bernt Schiele, Chen Chen(参考訳) 質問応答のためのスポーツビデオの推論は、プレイヤーのトレーニングや情報検索など、多くのアプリケーションで重要なタスクである。 しかし、関連するデータセットの欠如と、それがもたらす挑戦的な性質のために、このタスクは検討されていない。 ビデオ質問応答(VideoQA)のためのほとんどのデータセットは、専門的なアクション理解と微粒な動き分析を必要とするスポーツシナリオには適用できない日常ビデオの一般的および粗粒度の理解に焦点を当てている。 本稿では,スポーツビデオQAタスクに特化して設計されたSports-QAという最初のデータセットを紹介する。 Sports-QAデータセットには、説明、時系列、因果関係、反事実条件など、さまざまな種類の質問が含まれている。 さらに,スポーツビデオQAタスクの特徴に対処するために,質問応答のための時間情報の特定の尺度に自動的にフォーカスできるオートフォーカストランス (AFT) を提案する。 我々は,ベースライン研究や異なる手法の評価など,スポーツQAに関する広範な実験を行った。 その結果,AFTは最先端の性能を達成できた。

Reasoning over sports videos for question answering is an important task with numerous applications, such as player training and information retrieval. However, this task has not been explored due to the lack of relevant datasets and the challenging nature it presents. Most datasets for video question answering (VideoQA) focus mainly on general and coarse-grained understanding of daily-life videos, which is not applicable to sports scenarios requiring professional action understanding and fine-grained motion analysis. In this paper, we introduce the first dataset, named Sports-QA, specifically designed for the sports VideoQA task. The Sports-QA dataset includes various types of questions, such as descriptions, chronologies, causalities, and counterfactual conditions, covering multiple sports. Furthermore, to address the characteristics of the sports VideoQA task, we propose a new Auto-Focus Transformer (AFT) capable of automatically focusing on particular scales of temporal information for question answering. We conduct extensive experiments on Sports-QA, including baseline studies and the evaluation of different methods. The results demonstrate that our AFT achieves state-of-the-art performance.
翻訳日:2024-02-16 20:50:14 公開日:2024-02-14
# PixTrack: NeRFテンプレートと特徴量アライメントによる6DoFオブジェクトの精密追跡

PixTrack: Precise 6DoF Object Pose Tracking using NeRF Templates and Feature-metric Alignment ( http://arxiv.org/abs/2209.03910v2 )

ライセンス: Link先を確認
Prajwal Chidananda, Saurabh Nair, Douglas Lee, Adrian Kaehler(参考訳) 本稿では、新しいビュー合成と深い特徴量アライメントを用いた視覚に基づくオブジェクトポーズ追跡フレームワークPixTrackを提案する。 我々はSfMベースの再ローカライズパラダイムに従い、追跡対象を正則に表現するためにニューラルラジアンスフィールドを使用する。 提案手法は,データアノテーションや軌道平滑化を必要とせずに,単眼RGB画像とRGB-D画像の両方のオブジェクトを高精度かつ頑健かつジッタフリーな6DoFで推定できることを示す。 また,提案手法は計算効率が高く,単純なCPUマルチプロセッシングによるアルゴリズムの変更を伴わないマルチオブジェクト追跡が容易である。 私たちのコードは、https://github.com/GiantAI/pixtrackで利用可能です。

We present PixTrack, a vision based object pose tracking framework using novel view synthesis and deep feature-metric alignment. We follow an SfM-based relocalization paradigm where we use a Neural Radiance Field to canonically represent the tracked object. Our evaluations demonstrate that our method produces highly accurate, robust, and jitter-free 6DoF pose estimates of objects in both monocular RGB images and RGB-D images without the need of any data annotation or trajectory smoothing. Our method is also computationally efficient making it easy to have multi-object tracking with no alteration to our algorithm through simple CPU multiprocessing. Our code is available at: https://github.com/GiantAI/pixtrack
翻訳日:2024-02-16 19:01:21 公開日:2024-02-14
# ASI:ディープラーニングモデル評価のための精度安定度指標

ASI: Accuracy-Stability Index for Evaluating Deep Learning Models ( http://arxiv.org/abs/2311.15332v2 )

ライセンス: Link先を確認
Wei Dai, Daniel Berleant(参考訳) モデル導入が継続する深層学習研究の文脈では、効果的で効率的な評価の必要性が依然として最重要である。 既存の手法は、しばしば精度の指標を強調し、安定性を見越す。 これを解決するために,深層学習モデルの精度と安定性を両立させる定量的尺度であるASI(Acuracy-Stability Index)を提案する。 実験により, ASIの応用が実証され, ASI, 平均精度, 変動係数を可視化する3次元表面モデルが提示された。 本稿では,深層学習モデルの精度と安定性を正確に評価するための新しい手法として,深層学習モデルの定量的ベンチマーク指標の重要な課題について述べる。 本稿は,潜在的な弱さに関する議論を終え,今後の研究方向性を概説する。

In the context of deep learning research, where model introductions continually occur, the need for effective and efficient evaluation remains paramount. Existing methods often emphasize accuracy metrics, overlooking stability. To address this, the paper introduces the Accuracy-Stability Index (ASI), a quantitative measure incorporating both accuracy and stability for assessing deep learning models. Experimental results demonstrate the application of ASI, and a 3D surface model is presented for visualizing ASI, mean accuracy, and coefficient of variation. This paper addresses the important issue of quantitative benchmarking metrics for deep learning models, providing a new approach for accurately evaluating accuracy and stability of deep learning models. The paper concludes with discussions on potential weaknesses and outlines future research directions.
翻訳日:2024-02-16 18:55:44 公開日:2024-02-14
# 2022/23年ウクライナ・マリウポリにおけるマルチモーダルセンチネル1および2データによる都市変動のモニタリング

Monitoring of Urban Changes with multi-modal Sentinel 1 and 2 Data in Mariupol, Ukraine, in 2022/23 ( http://arxiv.org/abs/2309.08607v2 )

ライセンス: Link先を確認
Georg Zitzlsberger and Michal Podhoranyi(参考訳) 都市の変化を常に監視する能力は、都市拡大のトレンドの検出や都市部の活力の追跡など、社会経済的に重要な関心事である。 特に現在の紛争地域や災害地域では、こうした知見が現在の状況を把握するための貴重な情報を提供する。 しかし、空間や時間におけるデータの可用性が制限されることが多い。 我々は、マルチモーダルのSentinel 1と2のデータで操作するDeep Neural Network(DNN)を用いた以前の研究に基づいて構築した。 本研究は,2022/23年の高時間分解能センチネル時系列を用いて,現在のウクライナ・マリプオールの紛争帯の監視に適用可能であることを実証し,議論した。 競合ゾーンへの転送は、最近の超高解像度(VHR)データの限られた可用性のために困難だった。 現在の作業には2つの目標があった。 まず、古いVHRデータの転送学習が十分であることを示した。 これにより、時間制約が緩和されるにつれて、ますます高価なデータが利用可能になることが保証された。 第2に, アブレーション研究において, 観察の損失の影響を解析し, 本手法のレジリエンスを実証した。 これは選択された紛争の直前にセンチネル1Bが故障したため特に興味を引いた。 本研究は,古いVHRデータを用いた都市変動モニタリングが,現在の紛争帯において可能であることを実証した。 また,マルチモード入力にも拘わらず,SAR(Synthetic Aperture Radar)観測よりも光マルチスペクトルに頼っていた。

The ability to constantly monitor urban changes is of significant socio-economic interest, like detecting trends in urban expansion or tracking the vitality of urban areas. Especially in present conflict zones or disaster areas, such insights provide valuable information to keep track of the current situation. However, they are often subject to limited data availability in space and time. We built on our previous work, which used a transferred Deep Neural Network (DNN) operating on multi-modal Sentinel 1 and 2 data. In the current study, we have demonstrated and discussed its applicability in monitoring the present conflict zone of Mariupol, Ukraine, with high-temporal resolution Sentinel time series for the years 2022/23. A transfer to that conflict zone was challenging due to the limited availability of recent Very High Resolution (VHR) data. The current work had two objectives. First, transfer learning with older and publicly available VHR data was shown to be sufficient. That guaranteed the availability of more and less expensive data as time constraints were relaxed. Second, in an ablation study, we analyzed the effects of loss of observations to demonstrate the resiliency of our method. That was of particular interest due to the malfunctioning of Sentinel 1B shortly before the selected conflict. Our study demonstrated that urban change monitoring is possible for present conflict zones after transferring with older VHR data. It also indicated that, despite the multi-modal input, our method was more dependent on optical multispectral than Synthetic Aperture Radar (SAR) observations but resilient to loss of observations.
翻訳日:2024-02-16 18:53:26 公開日:2024-02-14
# llmと抽象化と推論コーパス : 成功、失敗、およびオブジェクト指向表現の重要性

LLMs and the Abstraction and Reasoning Corpus: Successes, Failures, and the Importance of Object-based Representations ( http://arxiv.org/abs/2305.18354v2 )

ライセンス: Link先を確認
Yudong Xu, Wenhao Li, Pashootan Vaezipoor, Scott Sanner, Elias B. Khalil(参考訳) 大言語モデル(LLM)は単純な抽象的推論問題を解くことができるか? 本稿では,抽象・推論コーパス(ARC)におけるGPTの体系的解析を通じて,対象,目標状態,カウント,基本幾何学といった概念の「中核的な知識」を必要とする限定例から,抽象推論能力の代表的なベンチマークである。 GPT-4は、2次元の入力出力グリッドに対してテキストエンコーディングを使用する場合、最も簡単なARCタスクの13/50しか解決しない。 故障解析の結果,GPT-4のオブジェクトを識別する能力は,タスクのテキストエンコーディング内のオブジェクトを表すテキストのシーケンシャルな性質に大きく影響されていることが明らかとなった。 この仮説を検証するために、GPTに基づく推論よりも1次元(アレイのような)タスクで構成された新しいベンチマークである1D-ARCを設計し、実際は(2D)ARCよりも優れた性能を発揮する。 この問題を軽減するために,外部ツールによるオブジェクトベース表現を提案し,解決されたarcタスクのパフォーマンスと,より簡単な1d-arcでのほぼ完全なスコアをほぼ倍増させる。 最先端の GPT-4 は 1D-ARC や単純な ARC サブセットのような非言語領域で完全に「推論」できないが,オブジェクトベース表現の使用は推論能力を大幅に向上させることができる。 可視化、GPTログ、データはhttps://khalil-research.github.io/LLM4ARCで公開されている。

Can a Large Language Model (LLM) solve simple abstract reasoning problems? We explore this broad question through a systematic analysis of GPT on the Abstraction and Reasoning Corpus (ARC), a representative benchmark of abstract reasoning ability from limited examples in which solutions require some "core knowledge" of concepts such as objects, goal states, counting, and basic geometry. GPT-4 solves only 13/50 of the most straightforward ARC tasks when using textual encodings for their two-dimensional input-output grids. Our failure analysis reveals that GPT-4's capacity to identify objects and reason about them is significantly influenced by the sequential nature of the text that represents an object within a text encoding of a task. To test this hypothesis, we design a new benchmark, the 1D-ARC, which consists of one-dimensional (array-like) tasks that are more conducive to GPT-based reasoning, and where it indeed performs better than on the (2D) ARC. To alleviate this issue, we propose an object-based representation that is obtained through an external tool, resulting in nearly doubling the performance on solved ARC tasks and near-perfect scores on the easier 1D-ARC. Although the state-of-the-art GPT-4 is unable to "reason" perfectly within non-language domains such as the 1D-ARC or a simple ARC subset, our study reveals that the use of object-based representations can significantly improve its reasoning ability. Visualizations, GPT logs, and data are available at https://khalil-research.github.io/LLM4ARC.
翻訳日:2024-02-16 18:51:14 公開日:2024-02-14
# UMOEA/D:分解に基づく一様パレート対象の多目的進化アルゴリズム

UMOEA/D: A Multiobjective Evolutionary Algorithm for Uniform Pareto Objectives based on Decomposition ( http://arxiv.org/abs/2402.09486v1 )

ライセンス: Link先を確認
Xiaoyuan Zhang and Xi Lin and Yichi Zhang and Yifan Chen and Qingfu Zhang(参考訳) 多目的最適化(MOO)は、パレートフロント(PF)が様々な好みで最適を表示するように構成される多くのアプリケーションで一般的である。 従来の手法ではパレート目的(pf上の粒子)の集合をpf全体を表すのによく使う。 しかしながら、PFにおけるパレート目標の実証的な分布は研究されることはめったになく、従来の手法では多様で代表的なパレート目標の生成を暗黙的に妨げている。 このギャップを埋めるために、本稿では、従来のMOOアプローチで見られる限られた多様性を緩和するために、PF上のPareto目標を構成することを提案する。 私たちはMOO問題に対する ``uniformity' の概念を正式に定義した最初の人です。 ニューラルネットワークを用いてパレート前面の極小距離を最適化し, 漸近的および非漸近的に均一なパレート目標を導出する。 提案手法は実世界および合成問題の実験を通じて検証され, 高品質なパレート目標の生成の有効性と, 既存の最先端手法よりも優れた性能を示す。 詳細なモデル実装とコードは、公開時にオープンソース化される予定である。

Multiobjective optimization (MOO) is prevalent in numerous applications, in which a Pareto front (PF) is constructed to display optima under various preferences. Previous methods commonly utilize the set of Pareto objectives (particles on the PF) to represent the entire PF. However, the empirical distribution of the Pareto objectives on the PF is rarely studied, which implicitly impedes the generation of diverse and representative Pareto objectives in previous methods. To bridge the gap, we suggest in this paper constructing \emph{uniformly distributed} Pareto objectives on the PF, so as to alleviate the limited diversity found in previous MOO approaches. We are the first to formally define the concept of ``uniformity" for an MOO problem. We optimize the maximal minimal distances on the Pareto front using a neural network, resulting in both asymptotically and non-asymptotically uniform Pareto objectives. Our proposed method is validated through experiments on real-world and synthetic problems, which demonstrates the efficacy in generating high-quality uniform Pareto objectives and the encouraging performance exceeding existing state-of-the-art methods. The detailed model implementation and the code are scheduled to be open-sourced upon publication.
翻訳日:2024-02-16 18:43:45 公開日:2024-02-14
# 現代ホップフィールドモデルの計算極限について:細粒度複素度解析

On Computational Limits of Modern Hopfield Models: A Fine-Grained Complexity Analysis ( http://arxiv.org/abs/2402.04520v2 )

ライセンス: Link先を確認
Jerry Yao-Chieh Hu, Thomas Lin, Zhao Song, Han Liu(参考訳) 細粒度複雑性解析から現代のホップフィールドモデルのメモリ検索ダイナミクスの計算限界について検討する。 我々の重要な貢献は、パターンのノルムに基づく全ての近代ホプフィールドモデルの効率における相転移の挙動を特徴づけることである。 具体的には,入力クエリパターンとメモリパターンのノルムの上限基準を定式化する。 この基準の下には、Strong Exponential Time hypothesis (SETH) を仮定して、現代のホップフィールドモデルの準四進的(効率的な)変種が存在する。 この理論を提示するために, 効率のよい基準が成り立つとき, 低ランク近似を用いた現代ホップフィールドモデルの効率的な構成の形式的例を示す。 これには、計算時間に対する低いバウンダリの導出、ストアドメモリパターンの$\Max\{#、入力クエリシーケンス$\}$の長さとの線形スケーリングが含まれる。 さらに,メモリ検索エラーのバウンドと指数的メモリ容量を証明した。

We investigate the computational limits of the memory retrieval dynamics of modern Hopfield models from the fine-grained complexity analysis. Our key contribution is the characterization of a phase transition behavior in the efficiency of all possible modern Hopfield models based on the norm of patterns. Specifically, we establish an upper bound criterion for the norm of input query patterns and memory patterns. Only below this criterion, sub-quadratic (efficient) variants of the modern Hopfield model exist, assuming the Strong Exponential Time Hypothesis (SETH). To showcase our theory, we provide a formal example of efficient constructions of modern Hopfield models using low-rank approximation when the efficient criterion holds. This includes a derivation of a lower bound on the computational time, scaling linearly with $\Max\{$# of stored memory patterns, length of input query sequence$\}$. In addition, we prove its memory retrieval error bound and exponential memory capacity.
翻訳日:2024-02-16 18:41:27 公開日:2024-02-14
# 行と円を超えて:大規模言語モデルにおける幾何学的推論ギャップを明らかにする

Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large Language Models ( http://arxiv.org/abs/2402.03877v2 )

ライセンス: Link先を確認
Spyridon Mouselinos, Henryk Michalewski, Mateusz Malinowski(参考訳) 大規模言語モデル(LLM)は、数学的およびアルゴリズム的なタスクにおいて、絶え間なく増加する能力を示すが、その幾何学的推論スキルは過小評価されている。 構築幾何学的問題解決におけるllmsの能力について,人間の数学的推論の発展における最も基本的なステップの1つについて検討する。 我々の研究は、同様の分野での多くの成功にもかかわらず、最先端のLLMがこの領域で直面する顕著な課題を明らかにします。 LLMは対象の変数選択に偏りを示し、2次元空間的関係に苦慮し、しばしば物体とその配置を誤って表現し幻覚させる。 そこで本研究では,内部対話を行うことで,既存の推論能力を高めるllmsベースのマルチエイジェントシステムを定式化した枠組みを提案する。 この研究は、幾何学的推論におけるLLMの現在の限界を強調し、自己補正、協調、多様な役割専門化を通じて幾何学的推論能力を改善する。

Large Language Models (LLMs) demonstrate ever-increasing abilities in mathematical and algorithmic tasks, yet their geometric reasoning skills are underexplored. We investigate LLMs' abilities in constructive geometric problem-solving one of the most fundamental steps in the development of human mathematical reasoning. Our work reveals notable challenges that the state-of-the-art LLMs face in this domain despite many successes in similar areas. LLMs exhibit biases in target variable selection and struggle with 2D spatial relationships, often misrepresenting and hallucinating objects and their placements. To this end, we introduce a framework that formulates an LLMs-based multi-agents system that enhances their existing reasoning potential by conducting an internal dialogue. This work underscores LLMs' current limitations in geometric reasoning and improves geometric reasoning capabilities through self-correction, collaboration, and diverse role specializations.
翻訳日:2024-02-16 18:41:12 公開日:2024-02-14
# トレーニング済みのモデルは改善されましたか? マルチヘッド後部アプローチ

Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach ( http://arxiv.org/abs/2401.02987v4 )

ライセンス: Link先を確認
Prince Aboagye, Yan Zheng, Junpeng Wang, Uday Singh Saini, Xin Dai, Michael Yeh, Yujie Fan, Zhongfang Zhuang, Shubham Jain, Liang Wang and Wei Zhang(参考訳) 事前訓練されたモデルの出現は、自然言語処理(NLP)とコンピュータビジョンを関係データセットに大きく影響した。 伝統的に、これらのモデルは微調整された下流タスクによって評価される。 しかし、このことはこれらのモデルをより効率的に効率的に評価する方法の疑問を提起する。 本研究では、各エンティティに関連するメタ特徴を世界的知識の源として活用し、モデルからエンティティ表現を採用する新しいアプローチを検討する。 本稿では,これらの表現とメタ特徴の一貫性を,事前学習モデルの評価指標として用いることを提案する。 提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。

The emergence of pre-trained models has significantly impacted Natural Language Processing (NLP) and Computer Vision to relational datasets. Traditionally, these models are assessed through fine-tuned downstream tasks. However, this raises the question of how to evaluate these models more efficiently and more effectively. In this study, we explore a novel approach where we leverage the meta-features associated with each entity as a source of worldly knowledge and employ entity representations from the models. We propose using the consistency between these representations and the meta-features as a metric for evaluating pre-trained models. Our method's effectiveness is demonstrated across various domains, including models with relational datasets, large language models and image models.
翻訳日:2024-02-16 18:39:04 公開日:2024-02-14
# 古典影に対するバイアス付き推定チャネル

Biased Estimator Channels for Classical Shadows ( http://arxiv.org/abs/2402.09511v1 )

ライセンス: Link先を確認
Zhenyu Cai, Adrian Chapman, Hamza Jnane, B\'alint Koczor(参考訳) 量子系から古典的情報を抽出することは極めて重要であり、古典的影は、比較的少ない測定値を用いて大量の情報を抽出することができる。 従来の影推定器は偏りがなく、無限サンプル極限の真の平均に近づく。 本研究では,従来の陰影推定器を再スケーリングすることで,有限サンプル状態における誤差を低減できるバイアス付きスキームを意図的に導入する。 このアプローチは実装が簡単で、量子リソースを必要としない。 私たちは、平均ケースと最悪のケースシナリオを分析的に証明し、それが原則として、常に推定者に偏りを与える価値があることを厳格に証明します。 提案手法は,12量子ビットスピンリング問題における量子シミュレーションタスクにおいて,非局所摂動の期待値の推定が偏りのあるスキームを用いて,より効率的に行えることを示す。

Extracting classical information from quantum systems is of fundamental importance, and classical shadows allow us to extract a large amount of information using relatively few measurements. Conventional shadow estimators are unbiased and thus approach the true mean in the infinite-sample limit. In this work, we consider a biased scheme, intentionally introducing a bias by rescaling the conventional classical shadows estimators can reduce the error in the finite-sample regime. The approach is straightforward to implement and requires no quantum resources. We analytically prove average case as well as worst- and best-case scenarios, and rigorously prove that it is, in principle, always worth biasing the estimators. We illustrate our approach in a quantum simulation task of a $12$-qubit spin-ring problem and demonstrate how estimating expected values of non-local perturbations can be significantly more efficient using our biased scheme.
翻訳日:2024-02-16 18:31:42 公開日:2024-02-14
# AIと人間は真にコミュニケーションできるのか?

Can AI and humans genuinely communicate? ( http://arxiv.org/abs/2402.09494v1 )

ライセンス: Link先を確認
Constant Bonard(参考訳) AIと人間は真にコミュニケーションできるのか? 本稿では、背景を述べ、私の提案を動機づけた上で(第1節から第3節まで)、「メンタル・ビヘイビア・方法論」(第4節と第5節)と呼ぶこの問いに答える方法を探る。 この方法論は以下の3つのステップに従っている: まず、人間のコミュニケーションに(より一般的にはコミュニケーションとは対照的に)精神的な能力が十分であるかを綴る。 次に、振る舞いがこれらの能力を示すかどうかをテストするのに必要な実験パラダイムを綴ります。 第3に、これらのパラダイムを適用して、AIが関連する振る舞いを表示するかどうかをテストする。 最初の2つのステップが成功し、AIが人間のような結果でテストに合格すれば、このAIと人間が真にコミュニケーションできる証拠となる。 このメンタル行動方法論は、標準的なディープニューラルネットワークのようなブラックボックスアルゴリズムの動作を理解する必要がないという利点がある。 これは、人間の脳がどのように働くかを理解しなくても、人間が真にコミュニケーションできるという事実に匹敵するものです。 この方法論にも欠点があり、いくつか議論します(第6節)。

Can AI and humans genuinely communicate? In this article, after giving some background and motivating my proposal (sections 1 to 3), I explore a way to answer this question that I call the "mental-behavioral methodology" (sections 4 and 5). This methodology follows the following three steps: First, spell out what mental capacities are sufficient for human communication (as opposed to communication more generally). Second, spell out the experimental paradigms required to test whether a behavior exhibits these capacities. Third, apply or adapt these paradigms to test whether an AI displays the relevant behaviors. If the first two steps are successfully completed, and if the AI passes the tests with human-like results, this constitutes evidence that this AI and humans can genuinely communicate. This mental-behavioral methodology has the advantage that we don't need to understand the workings of black-box algorithms, such as standard deep neural networks. This is comparable to the fact that we don't need to understand how human brains work to know that humans can genuinely communicate. This methodology also has its disadvantages and I will discuss some of them (section 6).
翻訳日:2024-02-16 18:31:19 公開日:2024-02-14
# pmgda:選好に基づく多重勾配降下アルゴリズム

PMGDA: A Preference-based Multiple Gradient Descent Algorithm ( http://arxiv.org/abs/2402.09492v1 )

ライセンス: Link先を確認
Xiaoyuan Zhang and Xi Lin and Qingfu Zhang(参考訳) マルチタスク学習や多目的強化学習など、多くの多目的機械学習アプリケーションにおいて、意思決定者の所定の好みに正確に一致するパレート最適解を見つけることが望ましい。 これらの問題は、しばしば利用可能な勾配情報を持つ大規模であるが、既存のアルゴリズムではうまく扱えない。 この問題に取り組むため,本論文では,意思決定者が求める正確なパレート最適解を求めるための,新しい予測と修正の枠組みを提案する。 提案フレームワークでは,複数の目的関数と同時最適化可能なユーザ固有の選好にソリューションを整合させるために,探索進行に制約関数を導入する。 実験の結果,提案手法は,標準ベンチマーク,マルチタスク,多目的強化学習問題に対して,数千以上の決定変数を用いたpareto最適解を効率的に見つけることができることがわかった。 コードは \url{https://github.com/xzhang2523/pmgda} で入手できる。

It is desirable in many multi-objective machine learning applications, such as multi-task learning and multi-objective reinforcement learning, to find a Pareto optimal solution that can exactly match a given preference of decision-makers. These problems are often large-scale with available gradient information but cannot be handled very well by the existing algorithms. To tackle this critical issue, this paper proposes a novel predict-and-correct framework for locating the exact Pareto optimal solutions required by a decision maker. In the proposed framework, a constraint function is introduced in the search progress to align the solution with a user-specific preference, which can be optimized simultaneously with multiple objective functions. Experimental results show that our proposed method can efficiently find exact Pareto optimal solutions for standard benchmarks, multi-task, and multi-objective reinforcement learning problems with more than thousands of decision variables. Code is available at: \url{https://github.com/xzhang2523/pmgda}.
翻訳日:2024-02-16 18:30:44 公開日:2024-02-14
# モノのインターネットと機械学習に基づく知的農業用温室制御システム

Intelligent Agricultural Greenhouse Control System Based on Internet of Things and Machine Learning ( http://arxiv.org/abs/2402.09488v1 )

ライセンス: Link先を確認
Cangqing Wang(参考訳) 本研究は,モノのインターネット(IoT)と機械学習の融合に根ざした,高度な農業用温室制御システムを概念化し,実行しようとする試みである。 温室内固有の環境パラメータの綿密なモニタリングと機械学習アルゴリズムの統合により、温室内の環境は適切に調節される。 予想された成果は、作物の生育効率と収量の向上と、資源のウェーブステージの削減である。 世界人口の増大と気候変動の激化を背景に、農業は前例のない課題に直面している。 従来の農業パラダイムは、食品の安全性と生産効率の欠如に対処できないことが証明されている。 この背景から、温室農業は、収穫量を増大させ、品質を洗練させ、天然資源への依存を減らし、作物栽培の制御された緩和策として実現可能なソリューションとして現れている[b1]。 しかし、温室農業は様々な課題に直面している。 伝統的な温室管理戦略は、経験的知識と事前定義されたルールに基づいており、パーソナライズされた規制を欠いているため、リソースの効率が低下する。 温室内環境のリアルタイムモニタリングと精密制御が、急成長する農業の規模で最重要視されている。 この課題を克服するため、この研究はIoT技術と機械学習アルゴリズムを温室農業に導入し、農業生産の効率性と持続可能性を高めるためのインテリジェントな農業用温室制御システムの構築を目指している。

This study endeavors to conceptualize and execute a sophisticated agricultural greenhouse control system grounded in the amalgamation of the Internet of Things (IoT) and machine learning. Through meticulous monitoring of intrinsic environmental parameters within the greenhouse and the integration of machine learning algorithms, the conditions within the greenhouse are aptly modulated. The envisaged outcome is an enhancement in crop growth efficiency and yield, accompanied by a reduction in resource wastage. In the backdrop of escalating global population figures and the escalating exigencies of climate change, agriculture confronts unprecedented challenges. Conventional agricultural paradigms have proven inadequate in addressing the imperatives of food safety and production efficiency. Against this backdrop, greenhouse agriculture emerges as a viable solution, proffering a controlled milieu for crop cultivation to augment yields, refine quality, and diminish reliance on natural resources [b1]. Nevertheless, greenhouse agriculture contends with a gamut of challenges. Traditional greenhouse management strategies, often grounded in experiential knowledge and predefined rules, lack targeted personalized regulation, thereby resulting in resource inefficiencies. The exigencies of real-time monitoring and precise control of the greenhouse's internal environment gain paramount importance with the burgeoning scale of agriculture. To redress this challenge, the study introduces IoT technology and machine learning algorithms into greenhouse agriculture, aspiring to institute an intelligent agricultural greenhouse control system conducive to augmenting the efficiency and sustainability of agricultural production.
翻訳日:2024-02-16 18:29:57 公開日:2024-02-14
# 4レベル原子系における電磁キラリティ誘起負屈折率の代数的解析

Algebraic analysis of electromagnetic chirality-induced negative refractive index in a four-level atomic system ( http://arxiv.org/abs/2402.09484v1 )

ライセンス: Link先を確認
Shun-Cai Zhao, Qi-Xuan Wu, Ai-Ling Gong(参考訳) 本稿では4レベル原子媒体における電磁キラリティ誘起負屈折率の代数的解析について述べる。 1つの円偏極における複素屈折率の数学的議論から、引数がデカルト座標系の第2四分域にある場合、同時に負の誘電率と透過性を持たない負の屈折率を得ることができ、原子レベルでの2つの等しい遷移周波数へのプローブ場結合は不要であることが判明した。 この結果、量子光学によるストリング条件は負の屈折率に低下した。 応用として、電磁的キラリティ誘導による負の屈折率を得るための新しい手法を与える可能性がある。

This paper presents a algebraic analysis of electromagnetic chirality-induced negative refractive index in a four-level atomic medium. According to analyze mathematically its argument of the complex refractive index for one circular polarization, it found that the negative refractive index without simultaneously negative permittivity and permeability can be obtained when the argument is in the second quadrant of the cartesian coordinate system, and that the probe field coupling to two equal transition frequencies in the atomic level doesn't require. This undoubtedly reduced stringent conditions to negative refractive index by quantum optics. As an application, our scheme may possibly give a novel approach to obtain negative refractive index by electromagnetic chirality-inducing.
翻訳日:2024-02-16 18:29:26 公開日:2024-02-14
# エッジ強化拡散によるディープニューラルネットワークのテクスチャバイアスの低減

Reducing Texture Bias of Deep Neural Networks via Edge Enhancing Diffusion ( http://arxiv.org/abs/2402.09530v1 )

ライセンス: Link先を確認
Edgar Heinert, Matthias Rottmann, Kira Maag, Karsten Kahl(参考訳) 画像処理のための畳み込みニューラルネットワーク(CNN)は、一般的にテクスチャバイアスと呼ばれる局所的なテクスチャパターンに焦点を当てる傾向がある。 これまでの文献では画像分類の課題に焦点が当てられていたが、それを超えて、セマンティックセグメンテーションにおけるCNNのテクスチャバイアスを研究する。 本研究では,テクスチャの少ない前処理画像に対してcnnを訓練し,テクスチャバイアスを低減することを提案する。 形状情報を保存しながらテクスチャを抑制することが課題である。 そこで本研究では,画像圧縮に最初に導入した異方性画像拡散法であるエッジ強調拡散法(eed)を用いて,既存のデータセットの重複を低減したテクスチャを生成する。 CNNとビジョントランスフォーマーモデルの両方で、オリジナルデータとCityscapesデータセットとCARLA駆動シミュレータのEED処理データに基づいて、広範囲にわたる数値的研究を行う。 cnnの強いテクスチャ依存性と変圧器の適度なテクスチャ依存性を観察した。 EED処理された画像上のCNNのトレーニングにより、モデルはテクスチャに関して完全に無知になり、テクスチャの再帰に関するレジリエンスを示すことができる。 さらに,セマンティックセグメンテーションにおける連結成分のレベルでの性能低下を解析し,EED前処理がドメインの一般化や対向ロバスト性に与える影響について検討する。

Convolutional neural networks (CNNs) for image processing tend to focus on localized texture patterns, commonly referred to as texture bias. While most of the previous works in the literature focus on the task of image classification, we go beyond this and study the texture bias of CNNs in semantic segmentation. In this work, we propose to train CNNs on pre-processed images with less texture to reduce the texture bias. Therein, the challenge is to suppress image texture while preserving shape information. To this end, we utilize edge enhancing diffusion (EED), an anisotropic image diffusion method initially introduced for image compression, to create texture reduced duplicates of existing datasets. Extensive numerical studies are performed with both CNNs and vision transformer models trained on original data and EED-processed data from the Cityscapes dataset and the CARLA driving simulator. We observe strong texture-dependence of CNNs and moderate texture-dependence of transformers. Training CNNs on EED-processed images enables the models to become completely ignorant with respect to texture, demonstrating resilience with respect to texture re-introduction to any degree. Additionally we analyze the performance reduction in depth on a level of connected components in the semantic segmentation and study the influence of EED pre-processing on domain generalization as well as adversarial robustness.
翻訳日:2024-02-16 18:19:12 公開日:2024-02-14
# 多様体密度関数 : 多様体学習の検証のための本質的手法

The Manifold Density Function: An Intrinsic Method for the Validation of Manifold Learning ( http://arxiv.org/abs/2402.09529v1 )

ライセンス: Link先を確認
Benjamin Holmgren, Eli Quist, Jordan Schupbach, Brittany Terese Fasy, Bastian Rieck(参考訳) 本稿では,多様体学習手法を検証するための本質的手法である多様体密度関数を紹介する。 我々の手法は、リプリーの$K$関数を適応して拡張し、多様体学習アルゴリズムの出力が潜在多様体の構造を捉える程度の範囲を教師なしの設定で分類する。 我々の多様体密度関数はリーマン多様体の広いクラスに一般化する。 特に、ガウス・ボンネットの定理を用いて多様体密度関数を一般の2次元多様体に拡張し、超曲面に対する多様体密度関数が第一ラプラス固有値を用いてうまく近似されていることを示す。 我々は望ましい収束性および堅牢性を証明する。

We introduce the manifold density function, which is an intrinsic method to validate manifold learning techniques. Our approach adapts and extends Ripley's $K$-function, and categorizes in an unsupervised setting the extent to which an output of a manifold learning algorithm captures the structure of a latent manifold. Our manifold density function generalizes to broad classes of Riemannian manifolds. In particular, we extend the manifold density function to general two-manifolds using the Gauss-Bonnet theorem, and demonstrate that the manifold density function for hypersurfaces is well approximated using the first Laplacian eigenvalue. We prove desirable convergence and robustness properties.
翻訳日:2024-02-16 18:18:48 公開日:2024-02-14
# このコミットを理解するのを手伝って! --コンテキスト化されたコードレビューのビジョン

Help Me to Understand this Commit! -- A Vision for Contextualized Code Reviews ( http://arxiv.org/abs/2402.09528v1 )

ライセンス: Link先を確認
Michael Unterkalmsteiner, Deepika Badampudi, Ricardo Britto, Nauman bin Ali(参考訳) 背景: Modern Code Review (MCR)は高品質なソフトウェアを提供し、開発者間で知識を共有するための重要なコンポーネントです。 効果的なレビューには、異なる視点から変更をコンテキスト化するために、コードとレビュアーからの要求を深く理解する必要がある。 Aim: 開発者がコードの変更を理解するのを支援するソリューションに関する調査はたくさんありますが、多くは狭く専門的な洞察しか提供せず、意味のある方法で集約された情報しか提供していません。 したがって、MCRにおけるコード理解を改善するためのビジョンを提供する。 方法: MCRコード理解を改善するための提案を提案する研究論文53件を分類した。 我々は、この分類、以前の研究でコードレビュアーが表現したニーズ、そして外挿のための文献で見つからなかった情報を用いています。 結果:4種類のサポートシステムを特定し,文脈的コードレビューのための環境を提案する。 さらに,このような環境がコードレビューの有効性をいかに改善するかを,一連のシナリオで示す。 結論: 現在の研究は主に、開発者に狭いサポートを提供することに焦点を当てています。 我々は,コンテキストと開発者の認知的負荷を軽減することで,mcrをどのように改善できるかというビジョンを概説する。 私たちのビジョンが開発環境の今後の進歩を育むことを願っています。

Background: Modern Code Review (MCR) is a key component for delivering high-quality software and sharing knowledge among developers. Effective reviews require an in-depth understanding of the code and demand from the reviewers to contextualize the change from different perspectives. Aim: While there is a plethora of research on solutions that support developers to understand changed code, we have observed that many provide only narrow, specialized insights and very few aggregate information in a meaningful manner. Therefore, we aim to provide a vision of improving code understanding in MCR. Method: We classified 53 research papers suggesting proposals to improve MCR code understanding. We use this classification, the needs expressed by code reviewers from previous research, and the information we have not found in the literature for extrapolation. Results: We identified four major types of support systems and suggest an environment for contextualized code reviews. Furthermore, we illustrate with a set of scenarios how such an environment would improve the effectiveness of code reviews. Conclusions: Current research focuses mostly on providing narrow support for developers. We outline a vision for how MCR can be improved by using context and reducing the cognitive load on developers. We hope our vision can foster future advancements in development environments.
翻訳日:2024-02-16 18:18:35 公開日:2024-02-14
# ヒッグス同定のための誘導量子圧縮

Guided Quantum Compression for Higgs Identification ( http://arxiv.org/abs/2402.09524v1 )

ライセンス: Link先を確認
Vasilis Belis, Patrick Odagiu, Michele Grossi, Florentin Reiter, G\"unther Dissertori, Sofia Vallecorsa(参考訳) 量子機械学習は、データ分析の基本的な新しい、有望なアプローチを提供する。 しかし、多くのデータセットは、現在利用可能な量子コンピュータには複雑すぎる。 したがって、量子機械学習アプリケーションは、量子モデルにデータを渡す前に、従来の次元性低減アルゴリズム、例えばオートエンコーダを頼りにする。 古典的オートエンコーダを独立した前処理ステップとして使用すると,量子機械学習アルゴリズムの分類性能が著しく低下することを示す。 この問題を改善するために,プリプロセッシングアルゴリズムと量子分類アルゴリズムを単一の学習可能なモデルに統一した,ガイド付き量子圧縮モデルを設計した。 このモデルの有用性は、従来のアプローチが有効でないLHCにおける陽子-陽子衝突におけるヒッグス粒子の同定に利用することで実証される。 逆に、ガイド付き量子圧縮モデルは、この分類問題の解法に優れ、精度が良い。 さらに、このモデルでは、低レベルのキネマティック機能のみを使用する場合、古典的なベンチマークよりも優れたパフォーマンスを示す。

Quantum machine learning provides a fundamentally novel and promising approach to analyzing data. However, many data sets are too complex for currently available quantum computers. Consequently, quantum machine learning applications conventionally resort to dimensionality reduction algorithms, e.g., auto-encoders, before passing data through the quantum models. We show that using a classical auto-encoder as an independent preprocessing step can significantly decrease the classification performance of a quantum machine learning algorithm. To ameliorate this issue, we design an architecture that unifies the preprocessing and quantum classification algorithms into a single trainable model: the guided quantum compression model. The utility of this model is demonstrated by using it to identify the Higgs boson in proton-proton collisions at the LHC, where the conventional approach proves ineffective. Conversely, the guided quantum compression model excels at solving this classification problem, achieving a good accuracy. Additionally, the model developed herein shows better performance compared to the classical benchmark when using only low-level kinematic features.
翻訳日:2024-02-16 18:18:16 公開日:2024-02-14
# 多体系における量子絡み合い入門

Introduction to quantum entanglement in many-body systems ( http://arxiv.org/abs/2402.09523v1 )

ライセンス: Link先を確認
Anubhav Kumar Srivastava, Guillem M\"uller-Rigat, Maciej Lewenstein, Grzegorz Rajchel-Mieldzio\'c(参考訳) 量子力学の形式主義は、日々の認識に挑戦する新しい革新的な概念を導入した。 おそらく、古典的に再現できない相関を説明する量子絡み合いは、それらの中で最も注目すべきものである。 その基本的な側面に加えて、絡み合いも資源であり、量子シミュレータやコンピュータのような創発的な技術に拍車をかける。 本章の目的は,多元的シナリオ,すなわち多自由度に分散した絡み合いに着目し,そのテーマを教育的に紹介することである。 この設定の組合せの複雑さにより、粒子は相互作用し、様々な方法で絡み合うことができる。 まず、絡み合い理論から必要な数学的ツールと基本的な概念を提供することから始める。 この章の一部は、絡み合った国家の分類と秩序化に費やされる。 次に、テンソルネットワーク状態や量子エンハンスセンシングに有用な対称状態などの凝縮マター理論において有用な様々な絡み合い構造に注目した。 最後に,このような相関を実験で検出し,検証するための最先端の手法と,関連する例について述べる。

The quantum mechanics formalism introduced new revolutionary concepts challenging our everyday perceptions. Arguably, quantum entanglement, which explains correlations that cannot be reproduced classically, is the most notable of them. Besides its fundamental aspect, entanglement is also a resource, fueling emergent technologies such as quantum simulators and computers. The purpose of this chapter is to give a pedagogical introduction to the topic with a special emphasis on the multipartite scenario, i.e., entanglement distributed among many degrees of freedom. Due to the combinatorial complexity of this setting, particles can interact and become entangled in a plethora of ways, which we characterize here. We start by providing the necessary mathematical tools and elementary concepts from entanglement theory. A part of this chapter will be devoted to classifying and ordering entangled states. Then, we focus on various entanglement structures useful in condensed-matter theory such as tensor-network states or symmetric states useful for quantum-enhanced sensing. Finally, we discuss state-of-the-art methods to detect and certify such correlations in experiments, with some relevant illustrative examples.
翻訳日:2024-02-16 18:18:02 公開日:2024-02-14
# 密度行列作用素のクリロフ複雑性

Krylov complexity of density matrix operators ( http://arxiv.org/abs/2402.09522v1 )

ライセンス: Link先を確認
Pawel Caputa, Hyun-Sik Jeong, Sinong Liu, Juan F. Pedraza and Le-Chen Qu(参考訳) 量子システムにおける複雑性の定量化は近年、krylov complexity (c_k$) や spread complexity (c_s$) といったkrylovベースの尺度が注目を浴びている。 本研究では,密度行列演算子で表される状態の複雑さを考慮し,それらの相互作用を考察する。 問題の設定後、一般的な2次元ヒルベルト空間、量子ビット状態、量子調和振動子、ランダム行列理論にまたがる解析的および数値的な例を分析し、洞察力のある関係を明らかにする。 一般的な純状態については, (I) モーメント生成関数と生存振幅の対応, (II) 早期に$C_K$ と $2C_S$ の等価性を示す。 さらに、最大に絡み合った純状態に対しては、$c_k$のモーメント生成関数がスペクトル形式因子となり、遅くとも$c_k$は、$n$-次元ヒルベルト空間内の$nc_s$ for $n\geq2$と関連している。 特に、$C_K = 2C_S$が$N=2$のとき、すべての時間にわたって保持されることを確認する。 ランダム行列理論のレンズを通して,中間時間での複素間の偏差を議論し,生存振幅のレベルで平均化アプローチの微妙な点を強調する。

Quantifying complexity in quantum systems has witnessed a surge of interest in recent years, with Krylov-based measures such as Krylov complexity ($C_K$) and Spread complexity ($C_S$) gaining prominence. In this study, we investigate their interplay by considering the complexity of states represented by density matrix operators. After setting up the problem, we analyze a handful of analytical and numerical examples spanning generic two-dimensional Hilbert spaces, qubit states, quantum harmonic oscillators, and random matrix theories, uncovering insightful relationships. For generic pure states, our analysis reveals two key findings: (I) a correspondence between moment-generating functions (of Lanczos coefficients) and survival amplitudes, and (II) an early-time equivalence between $C_K$ and $2C_S$. Furthermore, for maximally entangled pure states, we find that the moment-generating function of $C_K$ becomes the Spectral Form Factor and, at late-times, $C_K$ is simply related to $NC_S$ for $N\geq2$ within the $N$-dimensional Hilbert space. Notably, we confirm that $C_K = 2C_S$ holds across all times when $N=2$. Through the lens of random matrix theories, we also discuss deviations between complexities at intermediate times and highlight subtleties in the averaging approach at the level of the survival amplitude.
翻訳日:2024-02-16 18:17:45 公開日:2024-02-14
# 1次元以上の格子模型におけるケネディ・田崎変換と非可逆対称性

Kennedy-Tasaki transformation and non-invertible symmetry in lattice models beyond one dimension ( http://arxiv.org/abs/2402.09520v1 )

ライセンス: Link先を確認
Aswin Parayil Mana, Yabo Li, Hiroki Sukeno, Tzu-Chieh Wei(参考訳) 1次元横場イジングモデルの構成を一般化する高次元サブシステム対称モデルにおいて、クラマース・ワニエ双対変換の(逐次回路と対称部分空間への射影による)明示的な作用素表現を与える。 クラマース・ワニエ双対作用素を用いて、サブシステムで保護された位相位相位相を自発的なサブシステム対称性の破れ位相にマッピングするケネディ・タサキ変換も構成し、前者の対称性群は$\mathbb{Z}_2\times\mathbb{Z}_2$または$\mathbb{Z}_2$である。 このことは最近提案された1次元ケネディ・タサキ変換の図面を、ギャグと積層対称性で保護された位相位相を高次元に含む操作の合成として一般化する。

We give an explicit operator representation (via a sequential circuit and projection to symmetry subspaces) of Kramers-Wannier duality transformation in higher-dimensional subsystem symmetric models generalizing the construction in the 1D transverse-field Ising model. Using the Kramers-Wannier duality operator, we also construct the Kennedy-Tasaki transformation that maps subsystem symmetry-protected topological phases to spontaneous subsystem symmetry breaking phases, where the symmetry group for the former is either $\mathbb{Z}_2\times\mathbb{Z}_2$ or $\mathbb{Z}_2$. This generalizes the recently proposed picture of one-dimensional Kennedy-Tasaki transformation as a composition of manipulations involving gauging and stacking symmetry-protected topological phases to higher dimensions.
翻訳日:2024-02-16 18:17:16 公開日:2024-02-14
# 量子混合状態におけるレプリカトポロジカル秩序と量子誤差補正

Replica topological order in quantum mixed states and quantum error correction ( http://arxiv.org/abs/2402.09516v1 )

ライセンス: Link先を確認
Zhuan Li, Roger S. K. Mong(参考訳) トポロジカルフェーズは量子計算と量子エラー補正のための有望なプラットフォームを提供する。 しかし、純粋な状態と異なり、混合状態における位相的順序の記述は、比較的未解明のままである。 我々の研究は、混合状態の密度行列のn$コピーを含む混合状態における複製位相次数の2つの定義を与える。 我々のフレームワークは、符号化可能な情報の種類によって、混合状態の位相秩序を量子的、古典的、あるいは自明に分類する。 デコヒーレンスの存在下でのトーリック符号モデルの場合、各位相に対して量子チャネルを関連付け、符号空間の構造を記述する。 量子トポロジーの段階では、量子情報を復元するポスト選択に基づく誤り訂正プロトコルが存在するが、古典トポロジーの段階では、量子情報は分解され、完全には回復できない。 混合状態を射影絡み合ったペア状態(PEPS)として記述し、その境界状態の対称性保護された位相秩序をバルクトポロジーに同定することにより、これを実現できる。 我々は、我々の発見が1ドルの限界まで外挿できる程度について議論する。

Topological phases of matter offer a promising platform for quantum computation and quantum error correction. Nevertheless, unlike its counterpart in pure states, descriptions of topological order in mixed states remain relatively under-explored. Our work give two definitions for replica topological order in mixed states, which involve $n$ copies of density matrices of the mixed state. Our framework categorizes topological orders in mixed states as either quantum, classical, or trivial, depending on the type of information that can be encoded. For the case of the toric code model in the presence of decoherence, we associate for each phase a quantum channel and describes the structure of the code space. We show that in the quantum-topological phase, there exists a postselection-based error correction protocol that recovers the quantum information, while in the classical-topological phase, the quantum information has decohere and cannot be fully recovered. We accomplish this by describing the mixed state as a projected entangled pairs state (PEPS) and identifying the symmetry-protected topological order of its boundary state to the bulk topology. We discuss the extent that our findings can be extrapolated to $n \to 1$ limit.
翻訳日:2024-02-16 18:16:57 公開日:2024-02-14
# arranged, inpaint, and refine: コンテンツベースのコントロールによる長期的な音楽オーディオの生成と編集

Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls ( http://arxiv.org/abs/2402.09508v1 )

ライセンス: Link先を確認
Liwei Lin, Gus Xia, Yixiao Zhang, Junyan Jiang(参考訳) コントロール可能な音楽生成は、人間-AI音楽の共同創造において重要な役割を果たす。 大規模言語モデル(llm)は高品質な音楽の生成に期待が持たれているが、自己回帰型生成に重点を置くことで、音楽編集作業における有用性が制限される。 このギャップを埋めるために,パラメータ効率の良いファインチューニング(PEFT)手法を提案する。 このアプローチにより、自動回帰型言語モデルは、音楽の塗装タスクをシームレスに扱うことができる。 さらに,PEFT法はフレームレベルのコンテンツベース制御を統合し,トラックコンディショニングと楽譜コンディショニングを容易にする。 本手法を自己回帰型音楽生成モデルであるファイン・チューン・ミュージックゲンに適用する。 実験では、複数の音楽編集タスクにまたがる有望な結果を実証し、将来のAI駆動の音楽編集ツールをより柔軟なコントロールを提供する。 デモページ\footnote{\url{https://kikyo-16.github.io/air/} 関連スポンサーコンテンツ 私たちの仕事とソースコードを例示します。 オンラインで入手できる。

Controllable music generation plays a vital role in human-AI music co-creation. While Large Language Models (LLMs) have shown promise in generating high-quality music, their focus on autoregressive generation limits their utility in music editing tasks. To bridge this gap, we introduce a novel Parameter-Efficient Fine-Tuning (PEFT) method. This approach enables autoregressive language models to seamlessly address music inpainting tasks. Additionally, our PEFT method integrates frame-level content-based controls, facilitating track-conditioned music refinement and score-conditioned music arrangement. We apply this method to fine-tune MusicGen, a leading autoregressive music generation model. Our experiments demonstrate promising results across multiple music editing tasks, offering more flexible controls for future AI-driven music editing tools. A demo page\footnote{\url{https://kikyo-16.github.io/AIR/}.} showcasing our work and source codes\footnote{\url{https://github.com/Kikyo-16/airgen}.} are available online.
翻訳日:2024-02-16 18:16:36 公開日:2024-02-14
# 同軸共振器を用いた超伝導量子メモリ

Superconducting Quantum Memory with a Suspended Coaxial Resonator ( http://arxiv.org/abs/2402.09504v1 )

ライセンス: Link先を確認
Lev Krayzman, Chan U Lei, Suhas Ganjam, James Teoh, Luigi Frunzio, Robert J. Schoelkopf(参考訳) 量子情報を格納するための有望な方法は、マイクロ波共振器のボソニック励起に符号化することである。 これにより、長いコヒーレンス時間、低遅延率、および量子エラー訂正に対するハードウェア効率のよいアプローチが提供される。 超伝導マイクロ波共振器の製作には、2つの主要な方法がある:伝統的にバルク材料で加工され、薄膜でリソグラフィーで製造される。 3次元共振器は損失チャネルが少なく、大きなモードボリュームを持つため、損失部への関与は少ないが、高い材料品質に達することが困難である。 オンチップ共振器は低損失の薄膜を用いることができるが、磁場をより狭くすることで、誘電体基板からのより多くの参加と追加の損失チャネルをもたらす。 本研究では, 誘電体足場が3dパッケージ内で薄膜導体を支え, バルク機械キャビティの低表面参加を高品質に組み合わせ, 薄膜回路の材料を制御できる設計について述べる。 トランスモン量子ビットを含む別個のチップを組み込むことで、量子メモリを実現し、1光子寿命をミリ秒以上で測定する。 このハイブリッド3Dアーキテクチャは、パッケージの重要性を緩和し、分離交換可能なqubitとresonatorデバイスによるモジュール構成を可能にするため、スケーリングにいくつかの利点がある。

A promising way to store quantum information is by encoding it in the bosonic excitations of microwave resonators. This provides for long coherence times, low dephasing rates, as well as a hardware-efficient approach to quantum error correction. There are two main methods used to make superconducting microwave resonators: traditionally machined out of bulk material, and lithographically fabricated on-chip in thin film. 3D resonators have few loss channels and larger mode volumes, and therefore smaller participations in the lossy parts, but it can be challenging to reach high material qualities. On-chip resonators can use low-loss thin films, but confine the field more tightly, resulting in higher participations and additional loss channels from the dielectric substrate. In this work, we present a design in which a dielectric scaffold supports a thin-film conductor within a 3D package, thus combining the low surface participations of bulk-machined cavities with the high quality and control over materials of thin-film circuits. By incorporating a separate chip containing a transmon qubit, we realize a quantum memory and measure single-photon lifetimes in excess of a millisecond. This hybrid 3D architecture has several advantages for scaling, as it relaxes the importance of the package and permits modular construction with separately-replaceable qubit and resonator devices.
翻訳日:2024-02-16 18:16:12 公開日:2024-02-14
# 知能機械の形式的不確定特性について

On Formally Undecidable Traits of Intelligent Machines ( http://arxiv.org/abs/2402.09500v1 )

ライセンス: Link先を確認
Matthew Fox(参考訳) Alfonseca et al. (2021) による研究に基づいて、任意の人工知能マシンが特定の振る舞いを示すことを論理的に証明するために必要な条件について研究する。 これを実現するために、形式言語の理論とその性質のような数学的に異なる形式論を展開する。 我々の形式主義は、我々が機械の欲しがる特性(知性、包括性、道徳性など)について話すだけでなく、与えられた任意の機械がそのような特性を持っているかどうかを論理的に判断するために必要な条件を詳述する正確な手段を与える。 Alfonseca et al. (2021) の結果とは対照的に、計算可能性理論からのライスの定理は一般に、任意の機械が与えられた特性を持つか否かを決定するのに使用できない。 したがって、任意の機械が知的か、包含か、道徳かを決めることは論理的に不可能であるとは限らない。

Building on work by Alfonseca et al. (2021), we study the conditions necessary for it to be logically possible to prove that an arbitrary artificially intelligent machine will exhibit certain behavior. To do this, we develop a formalism like -- but mathematically distinct from -- the theory of formal languages and their properties. Our formalism affords a precise means for not only talking about the traits we desire of machines (such as them being intelligent, contained, moral, and so forth), but also for detailing the conditions necessary for it to be logically possible to decide whether a given arbitrary machine possesses such a trait or not. Contrary to Alfonseca et al.'s (2021) results, we find that Rice's theorem from computability theory cannot in general be used to determine whether an arbitrary machine possesses a given trait or not. Therefore, it is not necessarily the case that deciding whether an arbitrary machine is intelligent, contained, moral, and so forth is logically impossible.
翻訳日:2024-02-16 18:15:49 公開日:2024-02-14
# 機械学習による産後尿失禁予防のための最も影響のある変数の検出

Detection of the most influential variables for preventing postpartum urinary incontinence using machine learning techniques ( http://arxiv.org/abs/2402.09498v1 )

ライセンス: Link先を確認
Jos\'e Alberto Ben\'itez-Andrades, Mar\'ia Teresa Garc\'ia-Ord\'as, Mar\'ia \'Alvarez-Gonz\'alez, Raquel Leir\'os-Rodr\'iguez and Ana F L\'opez Rodr\'iguez(参考訳) 背景: 産後尿失禁(PUI)は産後女性に共通する問題である。 以前の研究では、潜在的な関連変数が特定されていたが、妊娠中の特定の内因性および外因性患者変数の分析が欠如していた。 目的:本研究の目的は,本質的,外生的,複合的な変数群に着目し,機械学習を用いてPUIの最も影響力のある変数を評価することである。 方法: 93名の妊婦のデータを機械学習とオーバーサンプリング技術を用いて分析した。 尿失禁の発生,頻度,尿失禁の強度,ストレス尿失禁の4変数が予測された。 結果: 尿失禁は70%, 頻度は77%, 強度は71%, ストレス尿失禁は93%であった。 結論:本研究は、外部変数をPUI問題の重要な予測因子として強調する。 これは、妊娠中の健康な習慣を通じてPUI予防が達成可能であることを示唆している。

Background: Postpartum urinary incontinence (PUI) is a common issue among postnatal women. Previous studies identified potential related variables, but lacked analysis on certain intrinsic and extrinsic patient variables during pregnancy. Objective: The study aims to evaluate the most influential variables in PUI using machine learning, focusing on intrinsic, extrinsic, and combined variable groups. Methods: Data from 93 pregnant women were analyzed using machine learning and oversampling techniques. Four key variables were predicted: occurrence, frequency, intensity of urinary incontinence, and stress urinary incontinence. Results: Models using extrinsic variables were most accurate, with 70% accuracy for urinary incontinence, 77% for frequency, 71% for intensity, and 93% for stress urinary incontinence. Conclusions: The study highlights extrinsic variables as significant predictors of PUI issues. This suggests that PUI prevention might be achievable through healthy habits during pregnancy, although further research is needed for confirmation.
翻訳日:2024-02-16 18:15:30 公開日:2024-02-14
# セキュアコード生成のための命令チューニング

Instruction Tuning for Secure Code Generation ( http://arxiv.org/abs/2402.09497v1 )

ライセンス: Link先を確認
Jingxuan He, Mark Vero, Gabriela Krasnopolska, Martin Vechev(参考訳) 現代の言語モデル(LM)は日常や専門的な文脈、特にプログラミングにおいて広く受け入れられている。 この導入を可能にする重要な手順は命令チューニングであり、ユーザ命令や人間の好みに従うように訓練することで、LMの実用性を大幅に向上させる。 しかし、既存の命令チューニングスキームは、生成されたコードのセキュリティという重要な側面を見落としている。 その結果、最先端の命令調整ldmでさえ、安全でないコードを頻繁に生成し、重大なセキュリティリスクをもたらします。 この作業では、このギャップに対処するためにSafeCoderを導入します。 SafeCoderは、自動パイプラインを使用して収集した多種多様な高品質データセットを使用して、セキュリティ中心の微調整を実行します。 セキュリティの微調整と標準命令チューニングを統合し,セキュリティとユーティリティの協調最適化を容易にする。 その単純さにもかかわらず、SafeCoderは様々な人気のあるLMやデータセットで有効であることを示す。 実用性を維持しながら、セキュリティを劇的に改善(約30%向上)することができる。

Modern language models (LMs) have gained widespread acceptance in everyday and professional contexts, particularly in programming. An essential procedure enabling this adoption is instruction tuning, which substantially enhances LMs' practical utility by training them to follow user instructions and human preferences. However, existing instruction tuning schemes overlook a crucial aspect: the security of generated code. As a result, even the state-of-the-art instruction-tuned LMs frequently produce unsafe code, posing significant security risks. In this work, we introduce SafeCoder to address this gap. SafeCoder performs security-centric fine-tuning using a diverse and high-quality dataset that we collected using an automated pipeline. We integrate the security fine-tuning with standard instruction tuning, to facilitate a joint optimization of both security and utility. Despite its simplicity, we show that SafeCoder is effective across a variety of popular LMs and datasets. It is able to drastically improve security (by about 30%), while preserving utility.
翻訳日:2024-02-16 18:15:12 公開日:2024-02-14
# フラッド検出のためのネットワーク機能の可能性について

On the Potential of Network-Based Features for Fraud Detection ( http://arxiv.org/abs/2402.09495v1 )

ライセンス: Link先を確認
Catayoun Azarm, Erman Acar, Mickey van Zeelt(参考訳) オンライン取引詐欺は企業や消費者に重大な課題をもたらし、重大な損失を被る。 従来のルールベースのシステムは、不正な戦術の進化に追随し、高い偽陽性率と誤検出につながる。 機械学習技術は、過去のデータを利用して不正パターンを識別することで、有望なソリューションを提供する。 本稿では、パーソナライズされたPageRank(PPR)アルゴリズムを用いて、財務アカウント間の関係を分析し、詐欺の社会的ダイナミクスを捉える。 主な目的は、従来の特徴と不正検出モデルにおけるPPRの追加を比較することである。 その結果,PPRの統合はモデルの予測能力を向上し,ベースラインモデルを上回ることが示唆された。 さらに、ppr機能はユニークで価値のある情報を提供し、その高い特徴重要性スコアによって証明される。 機能安定性分析は、トレーニングとテストデータセット間で一貫した機能分布を確認する。

Online transaction fraud presents substantial challenges to businesses and consumers, risking significant financial losses. Conventional rule-based systems struggle to keep pace with evolving fraud tactics, leading to high false positive rates and missed detections. Machine learning techniques offer a promising solution by leveraging historical data to identify fraudulent patterns. This article explores using the personalised PageRank (PPR) algorithm to capture the social dynamics of fraud by analysing relationships between financial accounts. The primary objective is to compare the performance of traditional features with the addition of PPR in fraud detection models. Results indicate that integrating PPR enhances the model's predictive power, surpassing the baseline model. Additionally, the PPR feature provides unique and valuable information, evidenced by its high feature importance score. Feature stability analysis confirms consistent feature distributions across training and test datasets.
翻訳日:2024-02-16 18:14:57 公開日:2024-02-14
# フィンランドの小学校学生の機械学習概念

Finnish primary school students' conceptions of machine learning ( http://arxiv.org/abs/2402.09582v1 )

ライセンス: Link先を確認
Pekka Mertala, Janne Fagerlund, Jukka Lehtoranta, Emilia Mattila, Tiina Korhonen(参考訳) 目的 本稿は、小学校の学生がMLについてどのような概念を持っているかについて、人間がコンピュータを教えるという考えを概念的に「プリメド」していないかを検討する。 フィンランドの小学校197人の質的調査回答を,退行法を用いて分析した。 MLは学習機械(34%)、MLはコーディング(7.6%)、MLは学習機械(37.1%)である。 意味 この知見は, 概念的手がかりがなければ, 子どものML概念は様々であり, MLのような誤解を含むこともあることを示唆している。 この発見は、コンピュータ科学教育における重要な概念の明確かつ体系的な利用の重要性を強調している。 研究者の他に、この研究は教師、教師教育者、カリキュラム開発者、政策立案者に対する洞察を提供する。 フィンランドの小学校197人の質的調査回答を,退行法を用いて分析した。 MLは学習機械(34%)、MLはコーディング(7.6%)、MLは学習機械(37.1%)である。 意味 この知見は, 概念的手がかりがなければ, 子どものML概念は様々であり, MLのような誤解を含むこともあることを示唆している。 この発見は、コンピュータ科学教育における重要な概念の明確かつ体系的な利用の重要性を強調している。 研究者の他に、この研究は教師、教師教育者、カリキュラム開発者、政策立案者に対する洞察を提供する。

Objective This study investigates what kind of conceptions primary school students have about ML if they are not conceptually "primed" with the idea that in ML, humans teach computers. Method Qualitative survey responses from 197 Finnish primary schoolers were analyzed via an abductive method. Findings We identified three partly overlapping ML conception categories, starting from the most accurate one: ML is about teaching machines (34%), ML is about coding (7.6%), and ML is about learning via or about machines (37.1%). Implications The findings suggest that without conceptual clues, children's conceptions of ML are varied and may include misconceptions such as ML is about learning via or about machines. The findings underline the importance of clear and systematic use of key concepts in computer science education. Besides researchers, this study offers insights for teachers, teacher educators, curriculum developers, and policymakers. Method Qualitative survey responses from 197 Finnish primary schoolers were analyzed via an abductive method. Findings We identified three partly overlapping ML conception categories, starting from the most accurate one: ML is about teaching machines (34%), ML is about coding (7.6%), and ML is about learning via or about machines (37.1%). Implications The findings suggest that without conceptual clues, children's conceptions of ML are varied and may include misconceptions such as ML is about learning via or about machines. The findings underline the importance of clear and systematic use of key concepts in computer science education. Besides researchers, this study offers insights for teachers, teacher educators, curriculum developers, and policymakers.
翻訳日:2024-02-16 18:09:12 公開日:2024-02-14
# Neyman-Pearson分類における分布自由率

Distribution-Free Rates in Neyman-Pearson Classification ( http://arxiv.org/abs/2402.09560v1 )

ライセンス: Link先を確認
Mohammadreza M. Kalan, Samory Kpotufe(参考訳) 誤差 w.r.t. 分布 $\mu_1$ が低誤差 w.r.t. 分布 $\mu_0$ となるような不均衡な分類設定をモデル化するNeyman-Pearson分類の問題を考える。 固定化されたVCクラス $\mathcal{H}$ が最小化されるとき、分布自由率、すなわちすべてのペアの空間上の最小値 $(\mu_0, \mu_1)$ が完全に特徴づけられる。 このレートは、単純な幾何学的条件、三点分離条件、VC次元にゆるく関連しているものとして、ハードクラスとイージークラス $\mathcal{H}$ の二分法を含む。

We consider the problem of Neyman-Pearson classification which models unbalanced classification settings where error w.r.t. a distribution $\mu_1$ is to be minimized subject to low error w.r.t. a different distribution $\mu_0$. Given a fixed VC class $\mathcal{H}$ of classifiers to be minimized over, we provide a full characterization of possible distribution-free rates, i.e., minimax rates over the space of all pairs $(\mu_0, \mu_1)$. The rates involve a dichotomy between hard and easy classes $\mathcal{H}$ as characterized by a simple geometric condition, a three-points-separation condition, loosely related to VC dimension.
翻訳日:2024-02-16 18:08:46 公開日:2024-02-14
# 時系列表現学習改善のための双方向生成前学習

Bidirectional Generative Pre-training for Improving Time Series Representation Learning ( http://arxiv.org/abs/2402.09558v1 )

ライセンス: Link先を確認
Ziyang Song, Qincheng Lu, He Zhu, Yue Li(参考訳) 差別的タスクのための時系列表現の学習は長年の課題だった。 現在の事前学習方法は、一方向の次トーケン予測またはランダムなマスク付きトークン予測で制限される。 交互変圧器層における直交予測と先行予測の両方による時系列データの事前学習を行う双方向時間生成予行変圧器(bitimelygpt)という新しいアーキテクチャを提案する。 この事前学習タスクは、時系列のオリジナル分布とデータ形状を保存する。 さらに、フルランクの前方および後方の注意行列はより表現力のある表現能力を示す。 生体信号データを用いて、BiTimelyGPTは神経機能、疾患診断、生理的兆候を予測する上で優れた性能を示す。 注意ヒートマップを可視化することにより,事前学習したbitimelygptは,タスクを微調整した後でさえ,時系列から識別セグメントを識別できることを観察する。

Learning time-series representations for discriminative tasks has been a long-standing challenge. Current pre-training methods are limited in either unidirectional next-token prediction or randomly masked token prediction. We propose a novel architecture called Bidirectional Timely Generative Pre-trained Transformer (BiTimelyGPT), which pre-trains on time-series data by both next-token and previous-token predictions in alternating transformer layers. This pre-training task preserves original distribution and data shapes of the time-series. Additionally, the full-rank forward and backward attention matrices exhibit more expressive representation capabilities. Using biosignal data, BiTimelyGPT demonstrates superior performance in predicting neurological functionality, disease diagnosis, and physiological signs. By visualizing the attention heatmap, we observe that the pre-trained BiTimelyGPT can identify discriminative segments from time-series sequences, even more so after fine-tuning on the task.
翻訳日:2024-02-16 18:08:33 公開日:2024-02-14
# 静的解析によるディープラーニングのためのソースコード表現の強化

Enhancing Source Code Representations for Deep Learning with Static Analysis ( http://arxiv.org/abs/2402.09557v1 )

ライセンス: Link先を確認
Xueting Guan, Christoph Treude(参考訳) コード分類、要約、バグ検出などのプログラム解析タスクに適用されるディープラーニング技術は、広く関心を集めている。 しかし、従来のアプローチでは、ソースコードを自然言語のテキストとして扱い、構造的あるいは意味的な詳細を無視することもあった。 さらに、ソースコードを表す現在のほとんどのメソッドは、有益な追加のコンテキストを考慮せずに、コードにのみフォーカスする。 本稿では,静的解析とバグレポートや設計パターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合することを検討する。 我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加し,コード分類やコードクローン検出などの共通ソフトウェアエンジニアリングタスクのパフォーマンスを大幅に向上させる,リッチなソースコード表現を作成する。 既存のオープンソースコードデータを活用することで,ソースコードの表現と処理が向上し,タスク性能が向上する。

Deep learning techniques applied to program analysis tasks such as code classification, summarization, and bug detection have seen widespread interest. Traditional approaches, however, treat programming source code as natural language text, which may neglect significant structural or semantic details. Additionally, most current methods of representing source code focus solely on the code, without considering beneficial additional context. This paper explores the integration of static analysis and additional context such as bug reports and design patterns into source code representations for deep learning models. We use the Abstract Syntax Tree-based Neural Network (ASTNN) method and augment it with additional context information obtained from bug reports and design patterns, creating an enriched source code representation that significantly enhances the performance of common software engineering tasks such as code classification and code clone detection. Utilizing existing open-source code data, our approach improves the representation and processing of source code, thereby improving task performance.
翻訳日:2024-02-16 18:08:18 公開日:2024-02-14
# スタートアップにおけるアジャイルプラクティスの利用

Use of Agile Practices in Start-ups ( http://arxiv.org/abs/2402.09555v1 )

ライセンス: Link先を確認
Eriks Klotins, Michael Unterkalmsteiner, Panagiota Chatzipetrou, Tony Gorschek, Rafael Prikladnicki, Nirnaya Tripathi, Leandro Bento Pompermaier(参考訳) Context Softwareのスタートアップは、革新的なソフトウェア製品やサービスを開発、ローンチする能力を示している。 小さくてモチベーションの高いチームと不確実性のあるプロジェクトスコープは、スタートアップがアジャイルプラクティスを採用するのに適しています。 目的 スタートアップがアジャイルプラクティスをどのように使うのか、そしてそれらのプラクティスの使用にどのような影響があるのかを調査する。 方法 ケースサーベイを使用して、84のスタートアップケースと56のアジャイルプラクティスを分析します。 統計的手法を適用して,アジャイルプラクティスとチーム,製品要因の使用と,統計的に有意な関連性をテストする。 結果,バックログの開発,バージョン管理,コードリファクタリング,ユーザストーリの開発が,最も頻繁に報告されているプラクティスであることが示唆された。 私たちは、アジャイルプラクティス、チーム、プロダクトファクターの22の関連を特定しました。 アジャイルプラクティスの使用は、ソースコードと製品品質全体に影響を及ぼす。 優れたエンジニアリングプラクティスに対するチームの肯定的あるいは否定的な態度は、特定のアジャイルプラクティスの採用または拒絶の指標となる。 そこで本研究では, 今後の研究で研究できるいくつかの提案について検討する。 結論 私たちは、スタートアップはアジャイルプラクティスを使うが、特定の方法論に従わないと結論づける。 個々のアジャイルプラクティスの採用と効果について、よりきめ細かい研究を行う機会を特定します。 スタートアップの実践者は、全体的な品質の向上、チームパフォーマンスの厳格なコントロール、リソース利用の観点から、アジャイルプラクティスの恩恵を受けることができます。

Context Software start-ups have shown their ability to develop and launch innovative software products and services. Small, motivated teams and uncertain project scope makes start-ups good candidates for adopting Agile practices. Objective We explore how start-ups use Agile practices and what effects can be associated with the use of those practices. Method We use a case survey to analyze 84 start-up cases and 56 Agile practices. We apply statistical methods to test for statistically significant associations between the use of Agile practices, team, and product factors. Results Our results suggest that development of the backlog, use of version control, code refactoring, and development of user stories are the most frequently reported practices. We identify 22 associations between the use of Agile practices, team, and product factors. The use of Agile practices is associated with effects on source code and overall product quality. A team's positive or negative attitude towards best engineering practices is a significant indicator for either adoption or rejection of certain Agile practices. To explore the relationships in our findings, we set forth a number of propositions that can be investigated in future research. Conclusions We conclude that start-ups use Agile practices, however without following any specific methodology. We identify the opportunity for more fine-grained studies into the adoption and effects of individual Agile practices. Start-up practitioners could benefit from Agile practices in terms of better overall quality, tighter control over team performance, and resource utilization.
翻訳日:2024-02-16 18:08:03 公開日:2024-02-14
# 火災やその他の緊急事態を予測する統計的・機械学習モデル

Statistical and Machine Learning Models for Predicting Fire and Other Emergency Events ( http://arxiv.org/abs/2402.09553v1 )

ライセンス: Link先を確認
Dilli Prasad Sharma, Nasim Beigi-Mohammadi, Hongxiang Geng, Dawn Dixon, Rob Madro, Phil Emmenegger, Carlos Tobar, Jeff Li, Alberto Leon-Garcia(参考訳) 都市の緊急イベントは、個人、家族、およびコミュニティにかなりの経済的損失をもたらす。 イベントの正確かつタイムリーな予測は、緊急事態発生の予知と緩和において、緊急火災と救助サービスに役立つ。 本稿では,カナダ・エドモントン市における各種緊急イベントの予測モデルの構築について述べる。 提案する手法は (i)データ収集及びデータセットの開発 (ii)各イベントタイプとその時空間レベルの異なる特性の記述的分析 (iii)相関係数分析と特徴重要度分析に基づく特徴分析と選択 (4)時間分解能と空間分解能の異なる各事象種別の発生確率予測モデルの開発。 事象タイプと社会経済・人口統計データの関連性を分析し,各事象タイプに対する予測因子の集合を同定し,負の二項回帰を伴う予測モデルを構築した。 我々は,近隣および消防署のサービスエリアレベルで評価を行う。 以上の結果から,週および月毎の予測誤差が許容されるイベントタイプの大部分において,モデルが良好に動作することが示された。 評価の結果, 消防署のレベルでは予測精度が一定であることから, これらの期間の資源配分を計画するために, 消防庁による管理に利用することができることがわかった。 また、COVID-19パンデミックがイベントの発生およびイベント予測モデルの精度に与える影響についても検討した。 以上の結果から,COVID-19はイベント予測モデルの性能に大きな影響を及ぼした。

Emergency events in a city cause considerable economic loss to individuals, their families, and the community. Accurate and timely prediction of events can help the emergency fire and rescue services in preparing for and mitigating the consequences of emergency events. In this paper, we present a systematic development of predictive models for various types of emergency events in the City of Edmonton, Canada. We present methods for (i) data collection and dataset development; (ii) descriptive analysis of each event type and its characteristics at different spatiotemporal levels; (iii) feature analysis and selection based on correlation coefficient analysis and feature importance analysis; and (iv) development of prediction models for the likelihood of occurrence of each event type at different temporal and spatial resolutions. We analyze the association of event types with socioeconomic and demographic data at the neighborhood level, identify a set of predictors for each event type, and develop predictive models with negative binomial regression. We conduct evaluations at neighborhood and fire station service area levels. Our results show that the models perform well for most of the event types with acceptable prediction errors for weekly and monthly periods. The evaluation shows that the prediction accuracy is consistent at the level of the fire station, so the predictions can be used in management by fire rescue service departments for planning resource allocation for these time periods. We also examine the impact of the COVID-19 pandemic on the occurrence of events and on the accuracy of event predictor models. Our findings show that COVID-19 had a significant impact on the performance of the event prediction models.
翻訳日:2024-02-16 18:07:43 公開日:2024-02-14
# 合理性レポートカード:大規模言語モデルの経済合理性の評価

Rationality Report Cards: Assessing the Economic Rationality of Large Language Models ( http://arxiv.org/abs/2402.09552v1 )

ライセンス: Link先を確認
Narun Raman, Taylor Lundy, Samuel Amouyal, Yoav Levine, Kevin Leyton-Brown, Moshe Tennenholtz(参考訳) LLMを意思決定の「エージェント」として使うことへの関心が高まっている。 どのモデルを使うべきか、どのように促すべきか、イントロスペクションやチェーン・オブ・シークレットの推論など、多くの自由度が含まれています。 より広義には、LLMエージェントが信頼できるかどうかを判断するためには、そのようなエージェントの経済的合理性を評価するための方法論が必要である。 本稿では,提案する。 まず、合理的な意思決定に関する経済文献を調査し、エージェントが提示すべき大きな粒度の「要素」とそれらの間の依存関係を分類する。 次に、これらの要素に対してLLMの性能を定量的に評価し、ユーザが提供するルーリックと組み合わせて「合理性レポートカード」を生成するベンチマーク分布を提案する。 最後に,14種類の異なるllmを用いた大規模実験の結果について述べる。

There is increasing interest in using LLMs as decision-making "agents." Doing so includes many degrees of freedom: which model should be used; how should it be prompted; should it be asked to introspect, conduct chain-of-thought reasoning, etc? Settling these questions -- and more broadly, determining whether an LLM agent is reliable enough to be trusted -- requires a methodology for assessing such an agent's economic rationality. In this paper, we provide one. We begin by surveying the economic literature on rational decision making, taxonomizing a large set of fine-grained "elements" that an agent should exhibit, along with dependencies between them. We then propose a benchmark distribution that quantitatively scores an LLMs performance on these elements and, combined with a user-provided rubric, produces a "rationality report card." Finally, we describe the results of a large-scale empirical experiment with 14 different LLMs, characterizing the both current state of the art and the impact of different model sizes on models' ability to exhibit rational behavior.
翻訳日:2024-02-16 18:07:22 公開日:2024-02-14
# オフラインポリシ学習を改善するためのデータセットクラスタリング

Dataset Clustering for Improved Offline Policy Learning ( http://arxiv.org/abs/2402.09550v1 )

ライセンス: Link先を確認
Qiang Wang, Yixin Deng, Francisco Roldan Sanchez, Keru Wang, Kevin McGuinness, Noel O'Connor, and Stephen J. Redmond(参考訳) オフラインポリシー学習は、環境と追加のオンラインインタラクションなしで、事前に収集したデータセットから意思決定ポリシーを見つけることを目的としている。 トレーニングデータセットが固定されると、その品質は学習したポリシーのパフォーマンスの重要な決定要因となります。 本稿では,マルチビヘイビア(multi-behavior)と呼ぶデータセットの特徴について検討し,異なる振る舞いを示す複数のポリシーを用いてデータセットが収集されることを示す。 対照的に、ユニビヘイビアデータセットは1つのポリシーだけで収集される。 ユニビヘイビアデータセットから学んだポリシーは、例が少なく、多様性の低いユニビヘイビアデータセットにもかかわらず、一般的にマルチビヘイビアデータセットから学んだポリシーよりも優れています。 そこで本研究では,マルチビヘイビアデータセットを複数のユニビヘイビアサブセットに分割し,下流政策学習の恩恵を受ける行動認識型ディープクラスタリング手法を提案する。 我々の手法は柔軟で効果的であり、クラスタ数を適応的に推定し、高いクラスタリング精度を示し、様々な連続制御タスクデータセットに対して平均0.987の調整ランダムインデックスを達成できる。 最後に、データセットクラスタリングを用いたポリシー学習例を示し、オフラインポリシー学習コミュニティに利益をもたらす可能性のあるいくつかのシナリオについて論じる。

Offline policy learning aims to discover decision-making policies from previously-collected datasets without additional online interactions with the environment. As the training dataset is fixed, its quality becomes a crucial determining factor in the performance of the learned policy. This paper studies a dataset characteristic that we refer to as multi-behavior, indicating that the dataset is collected using multiple policies that exhibit distinct behaviors. In contrast, a uni-behavior dataset would be collected solely using one policy. We observed that policies learned from a uni-behavior dataset typically outperform those learned from multi-behavior datasets, despite the uni-behavior dataset having fewer examples and less diversity. Therefore, we propose a behavior-aware deep clustering approach that partitions multi-behavior datasets into several uni-behavior subsets, thereby benefiting downstream policy learning. Our approach is flexible and effective; it can adaptively estimate the number of clusters while demonstrating high clustering accuracy, achieving an average Adjusted Rand Index of 0.987 across various continuous control task datasets. Finally, we present improved policy learning examples using dataset clustering and discuss several potential scenarios where our approach might benefit the offline policy learning community.
翻訳日:2024-02-16 18:07:05 公開日:2024-02-14
# 量子プログラムのデバッグに有効なツールの必要性について

On the need for effective tools for debugging quantum programs ( http://arxiv.org/abs/2402.09547v1 )

ライセンス: Link先を確認
Olivia Di Matteo(参考訳) 量子現象をコンピューティングに組み込む能力は、間違いを犯す新しい方法のホストを解放します。 この研究は、量子プログラムのデバッグに関する既存の研究とアプローチを調査している。 次に,今後の課題研究と新しいツールや手法の開発を動機付けることを目的とした,自己経験に基づく一連の例を示す。

The ability to incorporate quantum phenomena in computing unlocks a host of new ways to make mistakes. This work surveys existing studies and approaches to debugging quantum programs. It then presents a set of examples that stem from first-hand experience, intended to motivate future research on the subject and the development of novel tools and techniques.
翻訳日:2024-02-16 18:06:44 公開日:2024-02-14
# 都市環境のナビゲーションにおける大規模言語モデル(llm)の安全性

How Secure Are Large Language Models (LLMs) for Navigation in Urban Environments? ( http://arxiv.org/abs/2402.09546v1 )

ライセンス: Link先を確認
Congcong Wen, Jiazhao Liang, Shuaihang Yuan, Hao Huang, Yi Fang(参考訳) ロボット工学と自動化の分野では,Large Language Models (LLM) に基づくナビゲーションシステムが近年,目覚ましい性能を示している。 しかし、これらのシステムのセキュリティ面は比較的注目を集めていない。 本論文は,自動運転,ロジスティクス,緊急サービスに広く応用されていることから,都市屋外環境におけるllmに基づくナビゲーションモデルの脆弱性の探索を開拓する。 具体的には,従来のナビゲーションプロンプトに勾配由来の接尾辞を付加することによりLCMに基づくナビゲーションモデルを操作する新しいナビゲーション・プロンプト・サフィックス(NPS)アタックを導入する。 様々なLSMを用いた航法モデルについて総合的な実験を行った。 この結果はTouchdownとMap2Seqのストリートビューデータセットから得られたもので、ホワイトボックスとブラックボックスの両方の攻撃に直面した3つの指標で顕著なパフォーマンス低下を示している。 これらの結果はNPSアタックの一般化性と転送可能性を強調し、LLMベースのナビゲーションシステムにおけるセキュリティ強化の必要性を強調した。 最初の対策として,ナビゲーション関連キーワードに着目したナビゲーション・プロンプト・エンジニアリング(NPE)防衛戦略を提案する。 最初の発見は、この戦略が航行の安全性を高めることを示しているが、より広い研究コミュニティは、これらのシステムが直面する現実世界の課題に効果的に取り組むために、より強力な防御方法を開発する必要がある。

In the field of robotics and automation, navigation systems based on Large Language Models (LLMs) have recently shown impressive performance. However, the security aspects of these systems have received relatively less attention. This paper pioneers the exploration of vulnerabilities in LLM-based navigation models in urban outdoor environments, a critical area given the technology's widespread application in autonomous driving, logistics, and emergency services. Specifically, we introduce a novel Navigational Prompt Suffix (NPS) Attack that manipulates LLM-based navigation models by appending gradient-derived suffixes to the original navigational prompt, leading to incorrect actions. We conducted comprehensive experiments on an LLMs-based navigation model that employs various LLMs for reasoning. Our results, derived from the Touchdown and Map2Seq street-view datasets under both few-shot learning and fine-tuning configurations, demonstrate notable performance declines across three metrics in the face of both white-box and black-box attacks. These results highlight the generalizability and transferability of the NPS Attack, emphasizing the need for enhanced security in LLM-based navigation systems. As an initial countermeasure, we propose the Navigational Prompt Engineering (NPE) Defense strategy, concentrating on navigation-relevant keywords to reduce the impact of adversarial suffixes. While initial findings indicate that this strategy enhances navigational safety, there remains a critical need for the wider research community to develop stronger defense methods to effectively tackle the real-world challenges faced by these systems.
翻訳日:2024-02-16 18:06:39 公開日:2024-02-14
# layerwise proximal replay: オンライン連続学習のための近位点法

Layerwise Proximal Replay: A Proximal Point Method for Online Continual Learning ( http://arxiv.org/abs/2402.09542v1 )

ライセンス: Link先を確認
Jason Yoo, Yunpeng Liu, Frank Wood, Geoff Pleiss(参考訳) オンライン連続学習では、ニューラルネットワークは非i.d.データストリームから漸進的に学習する。 ほぼ全てのオンライン連続学習手法は、過去のデータに対する破滅的な忘れ込みと過小評価を同時に防止するために経験リプレイを用いている。 経験的なリプレイで訓練されたネットワークは不安定な最適化軌道を持つ傾向があり、全体的な精度を損なう。 驚くべきことに、これらの不安定性は、リプレイバッファが以前のトレーニング例をすべて格納している場合でも持続する。 最適化幾何の簡単な修正により、これらの不安定性を最小化する。 我々のソリューションであるLayerwise Proximal Replay (LPR)は、新しいデータとリプレイデータからの学習のバランスを保ちながら、過去のデータの隠されたアクティベーションの段階的な変更のみを可能にします。 LPRは、利用可能なリプレイメモリの量に関係なく、複数の問題設定にまたがるリプレイベースのオンライン連続学習手法を一貫して改善することを示した。

In online continual learning, a neural network incrementally learns from a non-i.i.d. data stream. Nearly all online continual learning methods employ experience replay to simultaneously prevent catastrophic forgetting and underfitting on past data. Our work demonstrates a limitation of this approach: networks trained with experience replay tend to have unstable optimization trajectories, impeding their overall accuracy. Surprisingly, these instabilities persist even when the replay buffer stores all previous training examples, suggesting that this issue is orthogonal to catastrophic forgetting. We minimize these instabilities through a simple modification of the optimization geometry. Our solution, Layerwise Proximal Replay (LPR), balances learning from new and replay data while only allowing for gradual changes in the hidden activation of past data. We demonstrate that LPR consistently improves replay-based online continual learning methods across multiple problem settings, regardless of the amount of available replay memory.
翻訳日:2024-02-16 18:06:12 公開日:2024-02-14
# テストアーティファクトの品質評価 : 第3次研究

Assessing test artifact quality -- A tertiary study ( http://arxiv.org/abs/2402.09541v1 )

ライセンス: Link先を確認
Huynh Khanh Vi Tran, Michael Unterkalmsteiner, J\"urgen B\"orstler, Nauman bin Ali(参考訳) コンテキスト: 現代のソフトウェア開発は、高品質なソフトウェアをより頻繁に提供するために、ますますソフトウェアテストに依存しています。 これにより、ソフトウェアテスト、テストスイート、テストケースの中心的なアーティファクトの品質に対する高い要求が生まれます。 目的: さまざまな視点に関係のあるテストケース/適合品質の次元を捉える包括的なモデルを開発することを目的としている。 方法: ソフトウェアテストアーティファクトの品質に関する既存の二次研究を識別・分析するために,体系的な文献レビューを実施した。 結果: 二次研究は49件であった。 これらの49件の研究のうち,本研究の質評価は半数に満たず,結果合成時の一次研究の質を考慮に入れたものは3つに過ぎなかった。 本稿では,テストケース/適合品質が調査される環境を特徴付けるために使用できるコンテキスト次元と要因の集約について述べる。 また,文献およびISO/IEC 25010:2011の知見に基づいて,品質特性と測定値を定義した総合的なテストケース/スーツ品質モデルも提供する。 結論: 本論文で提示されたテストアーティファクトの品質モデルを用いて,テストアーティファクトの品質評価と改善イニシアチブの実践を支援する。 furtherm information and software technology 139 (2021): 106620ore このモデルは、研究結果を研究や実践にもっとアクセスしやすくするために、コンテキスト特性を文書化するためのフレームワークとしても使用できる。

Context: Modern software development increasingly relies on software testing for an ever more frequent delivery of high quality software. This puts high demands on the quality of the central artifacts in software testing, test suites and test cases. Objective: We aim to develop a comprehensive model for capturing the dimensions of test case/suite quality, which are relevant for a variety of perspectives. Method: We have carried out a systematic literature review to identify and analyze existing secondary studies on quality aspects of software testing artifacts. Results: We identified 49 relevant secondary studies. Of these 49 studies, less than half did some form of quality appraisal of the included primary studies and only 3 took into account the quality of the primary study when synthesizing the results. We present an aggregation of the context dimensions and factors that can be used to characterize the environment in which the test case/suite quality is investigated. We also provide a comprehensive model of test case/suite quality with definitions for the quality attributes and measurements based on findings in the literature and ISO/IEC 25010:2011. Conclusion: The test artifact quality model presented in the paper can be used to support test artifact quality assessment and improvement initiatives in practice. Furtherm Information and Software Technology 139 (2021): 106620ore, the model can also be used as a framework for documenting context characteristics to make research results more accessible for research and practice.
翻訳日:2024-02-16 18:05:53 公開日:2024-02-14
# なぜ大きなepsilonを持つディファレンシャルプライバシは、実用的なメンバーシップ推論攻撃を防御するのか?

Why Does Differential Privacy with Large Epsilon Defend Against Practical Membership Inference Attacks? ( http://arxiv.org/abs/2402.09540v1 )

ライセンス: Link先を確認
Andrew Lowy, Zhuohang Li, Jing Liu, Toshiaki Koike-Akino, Kieran Parsons, Ye Wang(参考訳) 小さいプライバシパラメータの$\epsilon$に対して、$\epsilon$-differential privacy (dp)は、メンバーシップ推論攻撃(mia)が機械学習モデルのトレーニングに使用されたかどうかを決定するのに成功できない、強力な最悪のケースを提供する。 dpの保証は最悪のケースです。 a) 攻撃者がデータセットの1人以外のすべての記録を既に知っている場合でも、保持する。 b) すべてのデータセットに一様に格納する。 実践的な攻撃者は、プライベートなデータの正確な知識(ほぼすべて)を欠いているかもしれないし、私たちのデータセットは、ある意味では、最悪の場合のデータセットよりも、防御が容易かもしれない。 このような考察は、大きなプライバシーパラメータを持つDPモデルの産業展開(例えば$\epsilon \geq 7$)を動機付けており、大きな$\epsilon$のDPが最先端のMIAに対して防衛に成功できることを実証的に観察している。 例えば、$\epsilon \geq 7$の理論的プライバシー保証は本質的に空白である。 本稿では,この理論と実践のギャップを埋め,大きなDPパラメータが実用的なMIAを防止できる理由を理解することを目的とする。 この問題に取り組むため,我々はpractical membership privacy (pmp) という新しいプライバシー概念を提案する。 PMPは、プライベートデータの内容に関する実践的な攻撃者の不確実性をモデル化する。 PMPパラメータは、与えられたデータセット上の実用的なMIAの成功率の観点から自然な解釈を持つ。 本稿では,2つの基本DP機構,指数的メカニズムとガウス的メカニズムのPMPパラメータを定量的に解析する。 分析の結果,大きなDPパラメータはより小さなPMPパラメータに変換されることが多く,実用的なMIAに対して強いプライバシが保証されることがわかった。 本研究は,DPパラメータの選択における実践者への原則的ガイダンスである。

For small privacy parameter $\epsilon$, $\epsilon$-differential privacy (DP) provides a strong worst-case guarantee that no membership inference attack (MIA) can succeed at determining whether a person's data was used to train a machine learning model. The guarantee of DP is worst-case because: a) it holds even if the attacker already knows the records of all but one person in the data set; and b) it holds uniformly over all data sets. In practical applications, such a worst-case guarantee may be overkill: practical attackers may lack exact knowledge of (nearly all of) the private data, and our data set might be easier to defend, in some sense, than the worst-case data set. Such considerations have motivated the industrial deployment of DP models with large privacy parameter (e.g. $\epsilon \geq 7$), and it has been observed empirically that DP with large $\epsilon$ can successfully defend against state-of-the-art MIAs. Existing DP theory cannot explain these empirical findings: e.g., the theoretical privacy guarantees of $\epsilon \geq 7$ are essentially vacuous. In this paper, we aim to close this gap between theory and practice and understand why a large DP parameter can prevent practical MIAs. To tackle this problem, we propose a new privacy notion called practical membership privacy (PMP). PMP models a practical attacker's uncertainty about the contents of the private data. The PMP parameter has a natural interpretation in terms of the success rate of a practical MIA on a given data set. We quantitatively analyze the PMP parameter of two fundamental DP mechanisms: the exponential mechanism and Gaussian mechanism. Our analysis reveals that a large DP parameter often translates into a much smaller PMP parameter, which guarantees strong privacy against practical MIAs. Using our findings, we offer principled guidance for practitioners in choosing the DP parameter.
翻訳日:2024-02-16 18:05:15 公開日:2024-02-14
# 学んだ教訓から学ぶ--失敗から学ぶことに関する予備的研究

Learning From Lessons Learned: Preliminary Findings From a Study of Learning From Failure ( http://arxiv.org/abs/2402.09538v1 )

ライセンス: Link先を確認
Jonathan Sillito, Matt Pope(参考訳) 様々な不確実性、創発的行動、継続的な変化のために、多くの社会技術システムの信頼性は、(1)組織がシステム障害を分析して学習し、(2)システムの技術的部分と人的部分の両方を学習に基づいて共同開発する反復的かつ協調的なプロセスに依存している。 多くの組織は、失敗から学ぶためのプロセスを定義しており、多くの場合、十分に厳しいと判断されたシステム障害後に行われた事後分析を含む。 確立されたプロセスとツールサポートにもかかわらず、予備研究と専門的な経験から、失敗から学んだことを取り入れ、社会技術システムの信頼性を向上することは容易ではないことが示唆されている。 このコラボレーションプロセスと関連する課題をより深く理解するために、私たちは、チームが失敗から学ぶ方法の研究を行っています。 複数の組織からインシデントレポートを集め、関連する経験を持つエンジニアやマネージャとのインタビューを行っています。 私たちの分析的関心は、失敗や関連する学習プロセス、学習するものの使い方を反映して、チームから学んだことにあります。 当社のデータ収集と分析はまだ完了していないが、これまでに13件のインシデントレポートと7件のインタビューを分析した。 本稿では,(1)予備的な知見を提示し,(2)より広範な研究計画について概説する。

Due to various sources of uncertainty, emergent behavior, and ongoing changes, the reliability of many socio-technical systems depends on an iterative and collaborative process in which organizations (1) analyze and learn from system failures, and then (2) co-evolve both the technical and human parts of their systems based on what they learn. Many organizations have defined processes for learning from failure, often involving postmortem analyses conducted after any system failures that are judged to be sufficiently severe. Despite established processes and tool support, our preliminary research, and professional experience, suggest that it is not straightforward to take what was learned from a failure and successfully improve the reliability of the socio-technical system. To better understand this collaborative process and the associated challenges, we are conducting a study of how teams learn from failure. We are gathering incident reports from multiple organizations and conducting interviews with engineers and managers with relevant experience. Our analytic interest is in what is learned by teams as they reflect on failures, the learning processes involved, and how they use what is learned. Our data collection and analysis are not yet complete, but we have so far analyzed 13 incident reports and seven interviews. In this short paper we (1) present our preliminary findings, and (2) outline our broader research plans.
翻訳日:2024-02-16 18:04:19 公開日:2024-02-14
# パスシグネチャによる量子状態の識別強化

Quantum state discrimination enhanced by path signature ( http://arxiv.org/abs/2402.09532v1 )

ライセンス: Link先を確認
Shuxiang Cao, Zhen Shao, Jian-Qing Zheng, Mohammed Alghadeer, Simone D Fasciati, Michele Piscitelli, Sajjad Taravati, Mustafa Bakr, Terry Lyons and Peter Leek(参考訳) 量子状態の識別は量子技術において重要な役割を担い、量子エラー補正、気象学、センシングに不可欠である。 従来の方法は読み出し信号の統合や生信号の分類に依存していたが,確率時系列の解析ツールであるパスシグネチャ法に基づいて,読み出し中の状態遷移に関する情報を抽出する手法を開発した。 ハードウェア実験では、トランスモンクトリット状態読み出し忠実度が85.9$\pm$ 1.0%から91.0$\pm$ 0.5%に向上した。 この手法は量子技術の基礎となる可能性を秘めている。

Quantum state discrimination plays an essential role in quantum technology, crucial for quantum error correction, metrology, and sensing. While conventional methods rely on integrating readout signals or classifying raw signals, we developed a method to extract information about state transitions during readout, based on the path signature method, a tool for analyzing stochastic time series. The hardware experiments demonstrate an improvement in transmon qutrit state readout fidelity from 85.9 $\pm$ 1.0% to 91.0 $\pm$ 0.5%, without the need for additional hardware. This method has the potential to become a foundational tool for quantum technology.
翻訳日:2024-02-16 18:03:00 公開日:2024-02-14
# LogicPrpBank: 論理的含意と等価性のためのコーパス

LogicPrpBank: A Corpus for Logical Implication and Equivalence ( http://arxiv.org/abs/2402.09609v1 )

ライセンス: Link先を確認
Zhexiong Liu, Jing Zhang, Jiaying Lu, Wenjing Ma, Joyce C Ho(参考訳) 論理的推論は問題解決と意思決定において極めて重要である。 言語モデル(lms)は複数の推論タスク(例えば、コモンセンス推論)を扱う能力を示しているが、複雑な数学的問題、特に命題論理を推論する能力はほとんど未熟である。 この探索の欠如は、注釈付きコーパスの可用性が限られているためである。 本稿では,7093 Propositional Logic Statements (PLSs) を6つの数学科目で含む提案論理コーパス LogicPrpBank を紹介し,論理的含意と等価性を推論する新たな課題について検討する。 私たちは logicprpbank を広く使用されている lms でベンチマークし、我々のコーパスがこの困難なタスクに有用なリソースを提供し、モデル改善の余地が十分にあることを示す。

Logic reasoning has been critically needed in problem-solving and decision-making. Although Language Models (LMs) have demonstrated capabilities of handling multiple reasoning tasks (e.g., commonsense reasoning), their ability to reason complex mathematical problems, specifically propositional logic, remains largely underexplored. This lack of exploration can be attributed to the limited availability of annotated corpora. Here, we present a well-labeled propositional logic corpus, LogicPrpBank, containing 7093 Propositional Logic Statements (PLSs) across six mathematical subjects, to study a brand-new task of reasoning logical implication and equivalence. We benchmark LogicPrpBank with widely-used LMs to show that our corpus offers a useful resource for this challenging task and there is ample room for model improvement.
翻訳日:2024-02-16 17:56:20 公開日:2024-02-14
# 薬物分子と指標の翻訳における大規模言語モデルの利用の可能性

Emerging Opportunities of Using Large Language Language Models for Translation Between Drug Molecules and Indications ( http://arxiv.org/abs/2402.09588v1 )

ライセンス: Link先を確認
David Oniani, Jordan Hilsman, Chengxi Zang, Junmei Wang, Lianjin Cai, Jan Zawala, Yanshan Wang(参考訳) 薬物分子は、生物の精神状態や身体状態を変化させる物質である。 承認されたすべての薬物は、その薬が特定の医療状態の治療に使用されることを指示する。 生成的人工知能(AI)技術であるLarge Language Model(LLM)は、最近、分子とそれらのテキスト記述を翻訳する効果を実証しているが、薬物分子と指標間の翻訳を促進する研究や、薬物発見プロセスに多大な恩恵をもたらす研究のギャップが残っている。 特定の指標から薬物を生成する能力は、特定の疾患や標的をターゲットにした薬物の発見を可能にし、最終的には患者により良い治療を与える。 本稿ではまず,薬物分子とそれに対応する指標を翻訳する新しいタスクを提案し,その上で既存のLSMを試験する。 具体的には、T5 LLMの9つのバリエーションを検討し、ChEMBL と DrugBank から得られた2つの公開データセットで評価する。 実験では,このタスクにllmを用いた初期結果を示し,最先端の展望を示す。 私たちはまた、現在の制限を強調し、このタスクのパフォーマンスを改善する可能性のある将来の仕事について議論します。 指標から分子を作り出すことは、疾患のより効率的なターゲティングを可能にし、薬物発見のコストを大幅に削減し、生成的AIの時代における薬物発見の分野に革命をもたらす可能性がある。

A drug molecule is a substance that changes the organism's mental or physical state. Every approved drug has an indication, which refers to the therapeutic use of that drug for treating a particular medical condition. While the Large Language Model (LLM), a generative Artificial Intelligence (AI) technique, has recently demonstrated effectiveness in translating between molecules and their textual descriptions, there remains a gap in research regarding their application in facilitating the translation between drug molecules and indications, or vice versa, which could greatly benefit the drug discovery process. The capability of generating a drug from a given indication would allow for the discovery of drugs targeting specific diseases or targets and ultimately provide patients with better treatments. In this paper, we first propose a new task, which is the translation between drug molecules and corresponding indications, and then test existing LLMs on this new task. Specifically, we consider nine variations of the T5 LLM and evaluate them on two public datasets obtained from ChEMBL and DrugBank. Our experiments show the early results of using LLMs for this task and provide a perspective on the state-of-the-art. We also emphasize the current limitations and discuss future work that has the potential to improve the performance on this task. The creation of molecules from indications, or vice versa, will allow for more efficient targeting of diseases and significantly reduce the cost of drug discovery, with the potential to revolutionize the field of drug discovery in the era of generative AI.
翻訳日:2024-02-16 17:56:04 公開日:2024-02-14
# DeepATLAS: バイオメディカルデータのワンショットローカライゼーション

DeepATLAS: One-Shot Localization for Biomedical Data ( http://arxiv.org/abs/2402.09587v1 )

ライセンス: Link先を確認
Peter D. Chang(参考訳) 本稿では,高次元バイオメディカルデータの領域における局所化タスクに対するDeepATLASの基礎モデルを提案する。 提案された自己教師付き目標が収束すると、事前訓練されたモデルが入力を解剖学的に一貫性のある埋め込みにマッピングし、任意の点や点の集合(例えば、箱やセグメンテーション)をワンショットまたは少数ショットのアプローチで識別する。 代表的ベンチマークとして,51,000以上のラベル付き3次元CT検査で事前訓練したDeepATLASモデルは,標準教師付き学習モデルの性能に適合または超え,50以上の解剖学的構造に対して高い1ショットセグメンテーション性能を示す。 半教師付きまたはより伝統的な微調整戦略を用いて少量のラベル付きデータを追加することにより、さらなる精度の向上が達成できる。

This paper introduces the DeepATLAS foundational model for localization tasks in the domain of high-dimensional biomedical data. Upon convergence of the proposed self-supervised objective, a pretrained model maps an input to an anatomically-consistent embedding from which any point or set of points (e.g., boxes or segmentations) may be identified in a one-shot or few-shot approach. As a representative benchmark, a DeepATLAS model pretrained on a comprehensive cohort of 51,000+ unlabeled 3D computed tomography exams yields high one-shot segmentation performance on over 50 anatomic structures across four different external test sets, either matching or exceeding the performance of a standard supervised learning model. Further improvements in accuracy can be achieved by adding a small amount of labeled data using either a semisupervised or more conventional fine-tuning strategy.
翻訳日:2024-02-16 17:55:39 公開日:2024-02-14
# WERank:重み正規化を用いた自己指導型学習におけるランク劣化防止に向けて

WERank: Towards Rank Degradation Prevention for Self-Supervised Learning Using Weight Regularization ( http://arxiv.org/abs/2402.09586v1 )

ライセンス: Link先を確認
Ali Saheb Pasand, Reza Moravej, Mahdi Biparva, Ali Ghodsi(参考訳) 自己監督学習(SSL)における表現品質を補完する一般的な現象は、学習された表現を表現空間の低次元部分空間にマッピングする次元崩壊(ランク劣化とも呼ばれる)である。 State-of-the-Art SSLメソッドは、次元的な崩壊と完全なランク維持の遅れに悩まされている。 この問題を防ぐための最近のアプローチでは、対照的な損失、正規化手法、アーキテクチャ手法が提案されている。 本稿では,ネットワークの重みパラメータに関する新しい正規化器であるwerankを提案する。 本研究では,次元崩壊防止のための正規化手法の有効性を示す実証的証拠と数学的正当性を示す。 適切なデータ拡張の欠如により次元的崩壊がより顕著になるグラフsslに対するwerankの影響を検証する。 werank は,ssl プリトレーニング時にbyol が上位レベルを達成するのに有効であり,その結果,評価調査において下流精度が向上することを示す。 アブレーション研究と実験分析は,提案手法の性能向上の背景となる要因に光を当てた。

A common phenomena confining the representation quality in Self-Supervised Learning (SSL) is dimensional collapse (also known as rank degeneration), where the learned representations are mapped to a low dimensional subspace of the representation space. The State-of-the-Art SSL methods have shown to suffer from dimensional collapse and fall behind maintaining full rank. Recent approaches to prevent this problem have proposed using contrastive losses, regularization techniques, or architectural tricks. We propose WERank, a new regularizer on the weight parameters of the network to prevent rank degeneration at different layers of the network. We provide empirical evidence and mathematical justification to demonstrate the effectiveness of the proposed regularization method in preventing dimensional collapse. We verify the impact of WERank on graph SSL where dimensional collapse is more pronounced due to the lack of proper data augmentation. We empirically demonstrate that WERank is effective in helping BYOL to achieve higher rank during SSL pre-training and consequently downstream accuracy during evaluation probing. Ablation studies and experimental analysis shed lights on the underlying factors behind the performance gains of the proposed approach.
翻訳日:2024-02-16 17:55:20 公開日:2024-02-14
# 建築エネルギーシステムにおける大規模言語モデルに基づく解釈型機械学習制御

Large Language Model-Based Interpretable Machine Learning Control in Building Energy Systems ( http://arxiv.org/abs/2402.09584v1 )

ライセンス: Link先を確認
Liang Zhang, Zhelun Chen(参考訳) HVACシステムにおける機械学習制御(MLC)の可能性は、その不透明な性質と推論メカニズムによって妨げられている。 この課題に対処するために,モデルとその推論の透明性と理解を高める機械学習(ML)の分野である解釈可能な機械学習(IML)を調査し,HVACシステムにおけるLCCの信頼性と産業的応用を改善する。 具体的には、Shapley値の原理とLarge Language Models(LLMs)のコンテキスト内学習機能を組み合わせた革新的なフレームワークを開発した。 Shapleyの価値観はMLモデルにおける様々な特徴の貢献を区別する上で有効であるが、LCMはMLCにおけるルールベースの部分の深い理解を提供し、それらを組み合わせることで、これらの洞察を一貫性のある人間に理解可能な物語へとパッケージ化する。 本稿では,仮想テストベッドにおける需要応答イベント下での予測制御に基づく事前冷却モデルの実現可能性を示すケーススタディを提案する。 以上の結果から,本フレームワークはルールに基づく合理性に応じて制御信号を生成し,説明する。

The potential of Machine Learning Control (MLC) in HVAC systems is hindered by its opaque nature and inference mechanisms, which is challenging for users and modelers to fully comprehend, ultimately leading to a lack of trust in MLC-based decision-making. To address this challenge, this paper investigates and explores Interpretable Machine Learning (IML), a branch of Machine Learning (ML) that enhances transparency and understanding of models and their inferences, to improve the credibility of MLC and its industrial application in HVAC systems. Specifically, we developed an innovative framework that combines the principles of Shapley values and the in-context learning feature of Large Language Models (LLMs). While the Shapley values are instrumental in dissecting the contributions of various features in ML models, LLM provides an in-depth understanding of rule-based parts in MLC; combining them, LLM further packages these insights into a coherent, human-understandable narrative. The paper presents a case study to demonstrate the feasibility of the developed IML framework for model predictive control-based precooling under demand response events in a virtual testbed. The results indicate that the developed framework generates and explains the control signals in accordance with the rule-based rationale.
翻訳日:2024-02-16 17:54:58 公開日:2024-02-14
# ディープフェイク、国家安全保障上の脅威と人権侵害に対処へ

Combatting deepfakes: Policies to address national security threats and rights violations ( http://arxiv.org/abs/2402.09581v1 )

ライセンス: Link先を確認
Andrea Miotti and Akash Wasil(参考訳) 本稿では、ディープフェイクからの脅威に対処するための政策勧告を提供する。 まず、ディープフェイクの背景情報を提供し、それらがもたらす害をレビューする。 我々は、現在ディープフェイクが、性的虐待の材料を増殖させ、詐欺を犯し、有権者の振る舞いを操り、国家の安全を脅かすためにどのように使われているかを説明する。 第2に、ディープフェイクに対処するための従来の立法案をレビューする。 第3に,ディープフェイクサプライチェーンの複数の部分に対処することに焦点を当てた包括的政策提案を行う。 deepfakeサプライチェーンは、少数のモデル開発者、モデルプロバイダ、計算プロバイダから始まり、数十億のdeepfakeクリエーターを含むように拡張される。 我々は、このサプライチェーンをより詳細に記述し、サプライチェーンの各ステップのエンティティがディープフェイクの生成と増殖を防ぐために合理的な措置をとるべきかを述べる。 最後に、提案の潜在的な反論に対処する。 全体的に、ディープフェイクは世界の安全と個人の自由に対する深刻な脅威を増すだろう。 これらの脅威に対処するため、我々は政策立案者にディープフェイクサプライチェーンの複数の部分に対処する法律を制定するよう求めます。

This paper provides policy recommendations to address threats from deepfakes. First, we provide background information about deepfakes and review the harms they pose. We describe how deepfakes are currently used to proliferate sexual abuse material, commit fraud, manipulate voter behavior, and pose threats to national security. Second, we review previous legislative proposals designed to address deepfakes. Third, we present a comprehensive policy proposal that focuses on addressing multiple parts of the deepfake supply chain. The deepfake supply chain begins with a small number of model developers, model providers, and compute providers, and it expands to include billions of potential deepfake creators. We describe this supply chain in greater detail and describe how entities at each step of the supply chain ought to take reasonable measures to prevent the creation and proliferation of deepfakes. Finally, we address potential counterpoints of our proposal. Overall, deepfakes will present increasingly severe threats to global security and individual liberties. To address these threats, we call on policymakers to enact legislation that addresses multiple parts of the deepfake supply chain.
翻訳日:2024-02-16 17:54:35 公開日:2024-02-14
# 機械学習に基づく無線測位における複雑さの低減:最小記述特徴

Complexity Reduction in Machine Learning-Based Wireless Positioning: Minimum Description Features ( http://arxiv.org/abs/2402.09580v1 )

ライセンス: Link先を確認
Myeung Suk Oh, Anindya Bijoy Das, Taejoon Kim, David J. Love, and Christopher G. Brinton(参考訳) 近年,無線測位(WP)への深層学習アプローチの研究が進められている。 これらのWPアルゴリズムは、様々なチャネル条件に対して高い精度と堅牢な性能を示してきたが、大きな欠点もある。 本研究では,深層学習に基づくWPの複雑さを大幅に低減する位置決めニューラルネットワーク(P-NN)の設計を行う。 我々の特徴選択は、wp の運用に必要な情報を伝えるための最大電力測定とその時間的位置に基づいている。 また,信号ビンの選択に関する情報理論を用いて,期待される情報量と分類能力のバランスを最適化し,特徴空間のサイズを適応的に選択する手法を開発した。 計算結果から,P-NNは全電力遅延プロファイル(PDP)を利用する深層学習ベースラインに対して,性能・複雑性トレードオフにおいて大きな優位性を示す。

A recent line of research has been investigating deep learning approaches to wireless positioning (WP). Although these WP algorithms have demonstrated high accuracy and robust performance against diverse channel conditions, they also have a major drawback: they require processing high-dimensional features, which can be prohibitive for mobile applications. In this work, we design a positioning neural network (P-NN) that substantially reduces the complexity of deep learning-based WP through carefully crafted minimum description features. Our feature selection is based on maximum power measurements and their temporal locations to convey information needed to conduct WP. We also develop a novel methodology for adaptively selecting the size of feature space, which optimizes over balancing the expected amount of useful information and classification capability, quantified using information-theoretic measures on the signal bin selection. Numerical results show that P-NN achieves a significant advantage in performance-complexity tradeoff over deep learning baselines that leverage the full power delay profile (PDP).
翻訳日:2024-02-16 17:54:14 公開日:2024-02-14
# 大規模言語モデルによる建築エネルギーモデリングの促進:探索と事例研究

Advancing Building Energy Modeling with Large Language Models: Exploration and Case Studies ( http://arxiv.org/abs/2402.09579v1 )

ライセンス: Link先を確認
Liang Zhang, Zhelun Chen, Vitaly Ford(参考訳) 人工知能の急速な進歩は、ChatGPTのような大規模言語モデルの出現を助長し、特別なエンジニアリングモデリング、特に物理学に基づく建築エネルギーモデリングへの潜在的な応用を提供する。 本稿では,ChatGPTとEnergyPlusの融合に着目し,大規模言語モデルとエネルギーモデリングソフトウェアの構築の革新的統合について検討する。 文献レビューは、エネルギーモデリングの構築における彼らの応用に関する限定的な研究にもかかわらず、エンジニアリングモデリングにおける大規模言語モデルの導入の傾向を明らかにするために最初に行われた。 我々は、エネルギーモデリングの課題に対処する上で、大きな言語モデルの可能性を強調し、潜在的な応用を概説する。 1)シミュレーション入力生成, 2)シミュレーション出力解析と可視化 3) 誤り解析を行う。 4) 共シミュレーション。 5) シミュレーション知識の抽出・訓練、及び 6)シミュレーション最適化。 3つのケーススタディは、大規模な言語モデルのビルディングエネルギモデリングタスクの自動化と最適化における転換可能性を明らかにし、持続可能なビルディングプラクティスとエネルギ効率の発展における人工知能の重要な役割を強調する。 ケーススタディでは、パフォーマンスの向上とエンジニアリング努力の削減のために、適切な大規模言語モデルの選択が不可欠であることが示されています。 大きな言語モデルの直接的な使用に加えて、3つの特定のテクニックが使用された。 1) 迅速なエンジニアリング。 2)検索増強世代,及び 3)マルチエージェント大規模言語モデル。 この発見は、将来の人工知能研究における多分野的なアプローチを提唱し、エネルギーモデリングの構築を超えて、他の専門的なエンジニアリングモデリングにまで及んでいる。

The rapid progression in artificial intelligence has facilitated the emergence of large language models like ChatGPT, offering potential applications extending into specialized engineering modeling, especially physics-based building energy modeling. This paper investigates the innovative integration of large language models with building energy modeling software, focusing specifically on the fusion of ChatGPT with EnergyPlus. A literature review is first conducted to reveal a growing trend of incorporating of large language models in engineering modeling, albeit limited research on their application in building energy modeling. We underscore the potential of large language models in addressing building energy modeling challenges and outline potential applications including 1) simulation input generation, 2) simulation output analysis and visualization, 3) conducting error analysis, 4) co-simulation, 5) simulation knowledge extraction and training, and 6) simulation optimization. Three case studies reveal the transformative potential of large language models in automating and optimizing building energy modeling tasks, underscoring the pivotal role of artificial intelligence in advancing sustainable building practices and energy efficiency. The case studies demonstrate that selecting the right large language model techniques is essential to enhance performance and reduce engineering efforts. Besides direct use of large language models, three specific techniques were utilized: 1) prompt engineering, 2) retrieval-augmented generation, and 3) multi-agent large language models. The findings advocate a multidisciplinary approach in future artificial intelligence research, with implications extending beyond building energy modeling to other specialized engineering modeling.
翻訳日:2024-02-16 17:53:57 公開日:2024-02-14
# 蝶による変化:群貯留層変圧器による遠視予測

Changes by Butterflies: Farsighted Forecasting with Group Reservoir Transformer ( http://arxiv.org/abs/2402.09573v1 )

ライセンス: Link先を確認
Md Kowsher and Jia Xu(参考訳) カオスでは、2つの初期条件の間の小さなばらつきが時間とともに指数的な増幅を示し、蝶効果として知られる遠方の結果をもたらす。 したがって、遠い未来は不確実性に満ちており、予測が難しい。 グループ貯水池変圧器を導入し、カオスにおける2つの課題を克服し、より正確かつ堅牢に長期イベントを予測する。 貯水池を変圧器に取り付け、任意の長さの歴史的長さを効率的に処理し、貯水池群を拡張して初期化変動による不確実性を低減する。 NLinear, Pyformer, Informer, Autoformer, and the baseline Transformerなどの多変量時系列のDNNモデルにおいて,ETTh, ETTm, 空気質などの様々な分野における誤差の最大-89.43\%を達成し, バタフライ学習のアンサンブルにより, 予測がより適切かつ確実なものに向上できることを実証した。

In Chaos, a minor divergence between two initial conditions exhibits exponential amplification over time, leading to far-away outcomes, known as the butterfly effect. Thus, the distant future is full of uncertainty and hard to forecast. We introduce Group Reservoir Transformer to predict long-term events more accurately and robustly by overcoming two challenges in Chaos: (1) the extensive historical sequences and (2) the sensitivity to initial conditions. A reservoir is attached to a Transformer to efficiently handle arbitrarily long historical lengths, with an extension of a group of reservoirs to reduce the uncertainty due to the initialization variations. Our architecture consistently outperforms state-of-the-art DNN models in multivariate time series, including NLinear, Pyformer, Informer, Autoformer, and the baseline Transformer, with an error reduction of up to -89.43\% in various fields such as ETTh, ETTm, and air quality, demonstrating that an ensemble of butterfly learning, the prediction can be improved to a more adequate and certain one, despite of the traveling time to the unknown future.
翻訳日:2024-02-16 17:53:32 公開日:2024-02-14
# 非コントラストCTスキャンの自動プラーク検出とアガストンスコア推定:多施設共同研究

Automated Plaque Detection and Agatston Score Estimation on Non-Contrast CT Scans: A Multicenter Study ( http://arxiv.org/abs/2402.09569v1 )

ライセンス: Link先を確認
Andrew M. Nguyen, Jianfei Liu, Tejas Sudharshan Mathai, Peter C. Grayson, Ronald M. Summers(参考訳) 冠動脈石灰化(CAC)は、心臓血管疾患(CVD)の強力な、独立した予測因子である。 しかし、手動によるCACの評価は、しばしば放射線学的専門知識、時間、侵襲的な画像技術を必要とする。 本研究の目的は,3次元マルチクラスnnU-Netを用いた非造影CTボリュームの自動心プラーク検出モデルを検証することである。 3つの病院でCT検査を行い,3つのデータセットを収集した。 心臓,大動脈,肺の分画はTotalSegmentatorを用いて決定し,冠状動脈と心臓弁のプラークは801巻で手動でラベル付けされた。 本研究では,nU-Netセマンティックセグメンテーションパイプラインを用いて冠状動脈と弁のプラークを検出する方法について述べる。 線形補正により、nU-Net深層学習法は胸部非造影CTスキャンでAgatstonスコアを正確に推定することができる。 手動アガトソンスコアと比較すると、自動アガトストンスコアは+16 HU(R2 = 0.97)で0.841の線形回帰の傾きを示した。 これらの結果は,ctスキャンによる自動アガットストンスコア計算を先行研究よりも改善した。

Coronary artery calcification (CAC) is a strong and independent predictor of cardiovascular disease (CVD). However, manual assessment of CAC often requires radiological expertise, time, and invasive imaging techniques. The purpose of this multicenter study is to validate an automated cardiac plaque detection model using a 3D multiclass nnU-Net for gated and non-gated non-contrast chest CT volumes. CT scans were performed at three tertiary care hospitals and collected as three datasets, respectively. Heart, aorta, and lung segmentations were determined using TotalSegmentator, while plaques in the coronary arteries and heart valves were manually labeled for 801 volumes. In this work we demonstrate how the nnU-Net semantic segmentation pipeline may be adapted to detect plaques in the coronary arteries and valves. With a linear correction, nnU-Net deep learning methods may also accurately estimate Agatston scores on chest non-contrast CT scans. Compared to manual Agatson scoring, automated Agatston scoring indicated a slope of the linear regression of 0.841 with an intercept of +16 HU (R2 = 0.97). These results are an improvement over previous work assessing automated Agatston score computation in non-gated CT scans.
翻訳日:2024-02-16 17:53:08 公開日:2024-02-14
# TAI-GAN : 動的PETフレーム間運動補正における早期から早期のフレーム変換のための時間的および解剖学的インフォームドジェネレーターネットワーク

TAI-GAN: A Temporally and Anatomically Informed Generative Adversarial Network for early-to-late frame conversion in dynamic cardiac PET inter-frame motion correction ( http://arxiv.org/abs/2402.09567v1 )

ライセンス: Link先を確認
Xueqi Guo, Luyao Shi, Xiongchao Chen, Qiong Liu, Bo Zhou, Huidong Xie, Yi-Hwa Liu, Richard Palyo, Edward J. Miller, Albert J. Sinusas, Lawrence H. Staib, Bruce Spottiswoode, Chi Liu, Nicha C. Dvornek(参考訳) ルビジウム82(82-Rb)心筋灌流画像を用いた心ポジトロン断層撮影(PET)におけるフレーム間移動は、心筋血流定量化と冠動脈疾患の診断精度に影響を及ぼす。 しかし,高速トレーサ速度によるフレーム間分布の変動は,特に強度ベースの画像登録技術が失敗する初期のフレームでは,フレーム間動作補正において大きな課題となる。 そこで本研究では,全対一マッピングを用いた時間的および解剖学的に情報を得た生成的敵ネットワーク(tai-gan)と呼ばれる新しい手法を提案する。 TAI-GANは、時間的情報から生成されたチャネルワイドパラメータを符号化する機能的線形変調層と、解剖学的情報として機能する局所シフトを伴う粗い心臓セグメンテーションマスクから構成される。 提案手法は臨床用82-Rb PETデータセットを用いて評価し, この結果から, TAI-GANは実際の参照フレームに匹敵する高画質の変換早期フレームを生成できることが示唆された。 TAI-GAN変換後, 従来の深層学習法と深部学習法を併用した運動推定精度とその後の心筋血流量(MBF)を, 元のフレームと比較して改善した。

Inter-frame motion in dynamic cardiac positron emission tomography (PET) using rubidium-82 (82-Rb) myocardial perfusion imaging impacts myocardial blood flow (MBF) quantification and the diagnosis accuracy of coronary artery diseases. However, the high cross-frame distribution variation due to rapid tracer kinetics poses a considerable challenge for inter-frame motion correction, especially for early frames where intensity-based image registration techniques often fail. To address this issue, we propose a novel method called Temporally and Anatomically Informed Generative Adversarial Network (TAI-GAN) that utilizes an all-to-one mapping to convert early frames into those with tracer distribution similar to the last reference frame. The TAI-GAN consists of a feature-wise linear modulation layer that encodes channel-wise parameters generated from temporal information and rough cardiac segmentation masks with local shifts that serve as anatomical information. Our proposed method was evaluated on a clinical 82-Rb PET dataset, and the results show that our TAI-GAN can produce converted early frames with high image quality, comparable to the real reference frames. After TAI-GAN conversion, the motion estimation accuracy and subsequent myocardial blood flow (MBF) quantification with both conventional and deep learning-based motion correction methods were improved compared to using the original frames.
翻訳日:2024-02-16 17:52:47 公開日:2024-02-14
# graph-skeleton: 約1%のノードが10億規模のグラフを表現できる

Graph-Skeleton: ~1% Nodes are Sufficient to Represent Billion-Scale Graph ( http://arxiv.org/abs/2402.09565v1 )

ライセンス: Link先を確認
Linfeng Cao, Haoran Deng, Chunping Wang, Lei Chen, Yang Yang(参考訳) web上のグラフデータのユビキタス性により、webグラフマイニングはホットな研究スポットとなっている。 それでも、実アプリケーションにおける大規模webグラフの普及は、ストレージ、計算能力、グラフモデル設計に重大な課題をもたらす。 グラフモデルのスケーラビリティを高めるための多くの研究にもかかわらず、学術研究と実用的なWebグラフマイニングアプリケーションの間には大きなギャップが残っている。 主な原因の1つは、ほとんどの産業シナリオでは、Webグラフのノードのごく一部しか実際に分析する必要がなく、そこでこれらのノードをターゲットノード、他のノードをバックグラウンドノードとします。 本稿では,大量のWebグラフデータから背景ノードを適切にフェッチし,凝縮させることが,障害を根本的に解決するための経済的なショートカットになり得ることを論じる。 そこで本研究では,対象ノードの分類において,大規模バックグラウンドノード圧縮の問題を初めて検討する。 対象ノード分類における背景ノードが果たす2つの重要な役割は,対象ノード間の構造的接続性の向上と,対象ノードとの特徴相関である。 次に, 背景ノードを適切に取得し, 背景ノードの意味的, 位相的情報を類似する局所構造に集約したグラフ骨格1モデルを提案する。 各種Webグラフデータセットの大規模な実験により,提案手法の有効性と有効性を示す。 特に、0.24億のノードを持つMAG240Mデータセットの場合、生成したスケルトングラフは、元のグラフの1.8%のノードしか含んでおらず、非常に同等のパフォーマンスを達成する。

Due to the ubiquity of graph data on the web, web graph mining has become a hot research spot. Nonetheless, the prevalence of large-scale web graphs in real applications poses significant challenges to storage, computational capacity and graph model design. Despite numerous studies to enhance the scalability of graph models, a noticeable gap remains between academic research and practical web graph mining applications. One major cause is that in most industrial scenarios, only a small part of nodes in a web graph are actually required to be analyzed, where we term these nodes as target nodes, while others as background nodes. In this paper, we argue that properly fetching and condensing the background nodes from massive web graph data might be a more economical shortcut to tackle the obstacles fundamentally. To this end, we make the first attempt to study the problem of massive background nodes compression for target nodes classification. Through extensive experiments, we reveal two critical roles played by the background nodes in target node classification: enhancing structural connectivity between target nodes, and feature correlation with target nodes. Followingthis, we propose a novel Graph-Skeleton1 model, which properly fetches the background nodes, and further condenses the semantic and topological information of background nodes within similar target-background local structures. Extensive experiments on various web graph datasets demonstrate the effectiveness and efficiency of the proposed method. In particular, for MAG240M dataset with 0.24 billion nodes, our generated skeleton graph achieves highly comparable performance while only containing 1.8% nodes of the original graph.
翻訳日:2024-02-16 17:52:20 公開日:2024-02-14
# 超流動$^4$Heの乱流をモデル化する$T = 0$極限の粗固壁を過ぎる

Modelling turbulent flow of superfluid $^4$He past a rough solid wall in the $T = 0$ limit ( http://arxiv.org/abs/2402.09562v1 )

ライセンス: Link先を確認
Matthew J Doyle and Andrei I Golov and Paul M Walmsley and Andrew W Baggaley(参考訳) 本稿では,純超流動体$^4$heの流れ中の渦絡みの渦フィラメントモデルを用いて,幅$d = 1$ mm のチャネルを介して,種々の印加速度 $v$ のチャネルを通り,数値的研究を行う。 平坦なチャネル壁は、壁で終端する渦が永久に固定されるように顕微鏡的に粗いと仮定され、渦は、画像との自己再接続によって、ピン付き端から解放される。 連続したタングルは80秒で、臨界速度である$v_c \sim 0.20$ cm s$^{-1} = 20 \kappa/d$よりも高い値を示した。 粗粒度速度分布は, 壁面における非零すべり速度が$\sim$ 0.20 cm s$^{-1}$であるにもかかわらず, 古典的放物線形状に類似した。 摩擦力は適用速度に比例することがわかった。 有効運動粘度は$\sim 0.1\kappa$であり、実効レイノルズ数は$\mathrm{re'} < 15$である。 分極渦長の分画は, 流路の中央の0点と, 壁面のせん断流域内における$\sim$ 60%, 壁面から$\sim D/4$の範囲で変化した。 そこで我々は,渦絡みとピン止め粗面との相対運動による渦画像を含む渦再結合により,短距離スケールで燃焼される偏極超量子(vinen)乱流の状態について検討した。

We present a numerical study, using the vortex filament model, of vortex tangles in a flow of pure superfluid $^4$He in the $T = 0$ limit through a channel of width $D = 1$ mm for various applied velocities $V$. The flat channel walls are assumed to be microscopically rough such that vortices terminating at the walls are permanently pinned; vortices are liberated from their pinned ends exclusively through self-reconnection with their images. Sustained tangles were observed, for a period of 80 s, above the critical velocity $V_c \sim 0.20$ cm s$^{-1} = 20 \kappa/D$. The coarse-grained velocity profile was akin to a classical parabolic profile of the laminar Poiseuille flow, albeit with a non-zero slip velocity $\sim$ 0.20 cm s$^{-1}$ at the walls. The friction force was found to be proportional to the applied velocity. The effective kinematic viscosity was $\sim 0.1\kappa$, and effective Reynolds numbers within $\mathrm{Re'} < 15$. The fraction of the polarized vortex length varied between zero in the middle of the channel and $\sim$ 60% within the shear flow regions $\sim D/4$ from the walls. Therefore, we studied a state of polarized ultraquantum (Vinen) turbulence fuelled at short lengthscales by vortex reconnections, including those with vortex images due to the relative motion between the vortex tangle and the pinning rough surface.
翻訳日:2024-02-16 17:51:54 公開日:2024-02-14
# パッチに基づく適応時間フィルタと残差評価

Patch-based adaptive temporal filter and residual evaluation ( http://arxiv.org/abs/2402.09561v1 )

ライセンス: Link先を確認
Weiying Zhao, Paul Riot, Charles-Alban Deledalle, Henri Ma\^itre, Jean-Marie Nicolas, Florence Tupin(参考訳) コヒーレントイメージングシステムでは、スペックルは信号依存ノイズであり、画像の外観を強く劣化させる。 異なる波長、解像度、入射率、偏光の異なるセンサーから大量のSARデータが取得されている。 我々は、非局所フィルタリング戦略を時間領域に拡張し、よく登録されたマルチ時間SAR画像を利用するパッチベースの適応時間フィルタ(PATF)を提案する。 パッチベース一般化確率比試験を処理し、マルチテンポラルデノナイジング結果に対する変化対象の影響を抑制する。 そして、類似性は指数関数で対応する重みに変換される。 認知値は時間重み付き平均で計算される。 空間適応型denoising法は、時系列が制限された場合のパッチベースの重み付き時間平均画像を改善することができる。 時間列が十分に大きい場合には、空間適応型 denoising ステップが任意となる。 参照画像がない場合,ノイズ像と雑音像の比画像を調べるためにパッチベースの自己共分散残差評価法を提案し,残りの構造的内容を求める。 自動的に処理でき、均質な領域の教師あり選択に依存しない。 また、全画像のグローバルスコアも提供する。 その結果,提案手法の有効性と残留評価法の有用性が示唆された。

In coherent imaging systems, speckle is a signal-dependent noise that visually strongly degrades images' appearance. A huge amount of SAR data has been acquired from different sensors with different wavelengths, resolutions, incidences and polarizations. We extend the nonlocal filtering strategy to the temporal domain and propose a patch-based adaptive temporal filter (PATF) to take advantage of well-registered multi-temporal SAR images. A patch-based generalised likelihood ratio test is processed to suppress the changed object effects on the multitemporal denoising results. Then, the similarities are transformed into corresponding weights with an exponential function. The denoised value is calculated with a temporal weighted average. Spatial adaptive denoising methods can improve the patch-based weighted temporal average image when the time series is limited. The spatial adaptive denoising step is optional when the time series is large enough. Without reference image, we propose using a patch-based auto-covariance residual evaluation method to examine the ratio image between the noisy and denoised images and look for possible remaining structural contents. It can process automatically and does not rely on a supervised selection of homogeneous regions. It also provides a global score for the whole image. Numerous results demonstrate the effectiveness of the proposed time series denoising method and the usefulness of the residual evaluation method.
翻訳日:2024-02-16 17:51:18 公開日:2024-02-14
# 生成大言語モデルにおける確率的推論

Probabilistic Reasoning in Generative Large Language Models ( http://arxiv.org/abs/2402.09614v1 )

ライセンス: Link先を確認
Aliakbar Nafar, Kristen Brent Venable, Parisa Kordjamshidi(参考訳) 本稿では,Large Language Models (LLM) が,確率値を介して明示的に定量化される不確実性を含む情報を含むテキストを推論する際に直面する課題について考察する。 この種の推論は、日常的な会話から医学的意思決定まで、さまざまな文脈に関係している。 llmsの数学的推論能力は改善されているものの、確率的推論に関しては非常に困難である。 この問題に対処するために,我々はまず,LLMの確率論的推論能力をテストするために設計された新しいデータセットであるBayesian Linguistic Inference Dataset(BLInD)を紹介する。 次に、この新たなデータセットを活用して、確率的推論を含むタスクに対するLLMの特定の制限を徹底的に説明し、Pythonコード、確率的推論アルゴリズム、確率論的論理プログラミングなど、問題を異なる形式的表現にマッピングするいくつかの戦略を示す。 結論として,ブラインド法と因果推論質問応答データセットの適応についての評価を行い,その実用性について考察した。

This paper considers the challenges that Large Language Models (LLMs) face when reasoning over text that includes information involving uncertainty explicitly quantified via probability values. This type of reasoning is relevant to a variety of contexts ranging from everyday conversations to medical decision-making. Despite improvements in the mathematical reasoning capabilities of LLMs, they still exhibit significant difficulties when it comes to probabilistic reasoning. To deal with this problem, we first introduce the Bayesian Linguistic Inference Dataset (BLInD), a new dataset specifically designed to test the probabilistic reasoning capabilities of LLMs. We then leverage this new dataset to thoroughly illustrate the specific limitations of LLMs for tasks involving probabilistic reasoning and present several strategies that map the problem to different formal representations, including Python code, probabilistic inference algorithms, and probabilistic logical programming. We conclude by providing an evaluation of our methods on BLInD and on an adaptation of a causal reasoning question-answering dataset, which further shows their practical effectiveness.
翻訳日:2024-02-16 17:44:00 公開日:2024-02-14
# PEFTをインフォームするための定量化タスクミスアライメント:CLIPにおける領域一般化とカタストロフィックフォーミングの探索

Quantified Task Misalignment to Inform PEFT: An Exploration of Domain Generalization and Catastrophic Forgetting in CLIP ( http://arxiv.org/abs/2402.09613v1 )

ライセンス: Link先を確認
Laura Niss, Kevin Vogt-Lowell, Theodoros Tsiligkaridis(参考訳) 基礎モデルは、多くのタスクに対してよく機能するジェネラリストとして提示される。 これらのモデルの微調整は、限られたデータであっても、タスク固有のパフォーマンスがさらに向上するが、より広範な一般化のコストがかかる。 本稿では,CLIPモデルにおけるタスク難易度と,ドメイン一般化のレンズと破滅的忘れ込みのレンズによるパラメータ効率の高い微調整手法の性能の関係を解析する。 ゼロショット画像とテキスト埋め込みのシルエットスコアは、正しい画像/ラベル埋め込みの平均コサイン類似度よりもタスク難易度が良いことを示し、タスク難易度、微調整方法、ドメイン一般化、破滅的な忘れることの観察可能な関係について論じる。 さらに,A-CLIPと呼ばれる注意重みのサブセットのみを訓練する簡易な手法では,領域一般化と破滅的忘れ込みのバランスがとれることを示した。

Foundations models are presented as generalists that often perform well over a myriad of tasks. Fine-tuning these models, even on limited data, provides an additional boost in task-specific performance but often at the cost of their wider generalization, an effect termed catastrophic forgetting. In this paper, we analyze the relation between task difficulty in the CLIP model and the performance of several simple parameter-efficient fine-tuning methods through the lens of domain generalization and catastrophic forgetting. We provide evidence that the silhouette score of the zero-shot image and text embeddings is a better measure of task difficulty than the average cosine similarity of correct image/label embeddings, and discuss observable relationships between task difficulty, fine-tuning method, domain generalization, and catastrophic forgetting. Additionally, the averaged results across tasks and performance measures demonstrate that a simplified method that trains only a subset of attention weights, which we call A-CLIP, yields a balance between domain generalization and catastrophic forgetting.
翻訳日:2024-02-16 17:43:43 公開日:2024-02-14
# プライバシーを意識した手話翻訳の大規模化に向けて

Towards Privacy-Aware Sign Language Translation at Scale ( http://arxiv.org/abs/2402.09611v1 )

ライセンス: Link先を確認
Phillip Rust and Bowen Shi and Skyler Wang and Necati Cihan Camg\"oz and Jean Maillard(参考訳) 手話翻訳(SLT)の進歩の大きな障害は、データ不足である。 現在Webで利用可能な手話データの多くは、調整されたキャプションがないため、教師付きモデルのトレーニングには使用できない。 さらに、大規模Webスクラッドデータセットを使用したSLTのスケーリングは、生体情報の存在によるプライバシーリスクを伴い、SLT技術の責任を負う開発が考慮されるべきである。 本研究では,プライバシを意識したSLTを大規模に扱うための2段階フレームワークを提案する。 SSVP-SLTは、匿名ビデオと無注釈ビデオに自己教師付きビデオ事前トレーニングを応用し、次いで並列データセット上で教師付きSLTファインタニングを行う。 SSVP-SLTは、How2Signデータセット上で、最先端の微調整とゼロショットフリーのSLT性能を実現し、3 BLEU-4以上の最強のベースラインを上回ります。 制御実験に基づき,sltに対する顔の難読化による自己教師付き事前学習と匿名化の利点と限界について検討した。

A major impediment to the advancement of sign language translation (SLT) is data scarcity. Much of the sign language data currently available on the web cannot be used for training supervised models due to the lack of aligned captions. Furthermore, scaling SLT using large-scale web-scraped datasets bears privacy risks due to the presence of biometric information, which the responsible development of SLT technologies should account for. In this work, we propose a two-stage framework for privacy-aware SLT at scale that addresses both of these issues. We introduce SSVP-SLT, which leverages self-supervised video pretraining on anonymized and unannotated videos, followed by supervised SLT finetuning on a curated parallel dataset. SSVP-SLT achieves state-of-the-art finetuned and zero-shot gloss-free SLT performance on the How2Sign dataset, outperforming the strongest respective baselines by over 3 BLEU-4. Based on controlled experiments, we further discuss the advantages and limitations of self-supervised pretraining and anonymization via facial obfuscation for SLT.
翻訳日:2024-02-16 17:43:21 公開日:2024-02-14
# 正方形神経系による精密, 高速, 表現豊かなポアソン点過程

Exact, Fast and Expressive Poisson Point Processes via Squared Neural Families ( http://arxiv.org/abs/2402.09608v1 )

ライセンス: Link先を確認
Russell Tsuchida and Cheng Soon Ong and Dino Sejdinovic(参考訳) 2層ニューラルネットワークの2乗ノルムによる強度関数のパラメータ化により、正方形ニューラルポアソン点過程(SNEPPP)を導入する。 隠れた層が固定され、第2の層が単一ニューロンを持つ場合、我々のアプローチは従来の正方形ガウス過程やカーネル手法に似ているが、隠れた層を学習することでさらなる柔軟性が期待できる。 興味のある場合の多くは、統合強度関数は閉じた形式を持ち、隠れたニューロンの数で二次的に計算できる。 これまでに議論されたよりもはるかに多くのケースを列挙する。 我々のアプローチは、二乗あるいは指数化されたカーネルメソッドやガウスプロセスの実装よりもメモリと時間効率が良い。 インテンシティ関数の最終層の再パラメータ化における最大確率と最大後方推定は、投影勾配降下を用いて(強く)凸最適化問題を解くことで得られる。 実および合成ベンチマークでSNEPPPを実証し、ソフトウェア実装を提供する。 https://github.com/RussellTsuchida/snefy

We introduce squared neural Poisson point processes (SNEPPPs) by parameterising the intensity function by the squared norm of a two layer neural network. When the hidden layer is fixed and the second layer has a single neuron, our approach resembles previous uses of squared Gaussian process or kernel methods, but allowing the hidden layer to be learnt allows for additional flexibility. In many cases of interest, the integrated intensity function admits a closed form and can be computed in quadratic time in the number of hidden neurons. We enumerate a far more extensive number of such cases than has previously been discussed. Our approach is more memory and time efficient than naive implementations of squared or exponentiated kernel methods or Gaussian processes. Maximum likelihood and maximum a posteriori estimates in a reparameterisation of the final layer of the intensity function can be obtained by solving a (strongly) convex optimisation problem using projected gradient descent. We demonstrate SNEPPPs on real, and synthetic benchmarks, and provide a software implementation. https://github.com/RussellTsuchida/snefy
翻訳日:2024-02-16 17:43:04 公開日:2024-02-14
# 結合したコード、クォービットを保存する

Concatenate codes, save qubits ( http://arxiv.org/abs/2402.09606v1 )

ライセンス: Link先を確認
Satoshi Yoshida, Shiro Tamiya, Hayata Yamasaki(参考訳) フォールトトレラント量子計算(FTQC)の必須要件は、空間オーバーヘッド、しきい値、モジュラリティなど、その現実的な実現に関連するすべての重要な要素の公平なバランスを達成するための、全プロトコル設計である。 表面コードや結合されたステインコードなど、従来のプロトコルでftqcを実現する上での大きな障害は、論理キュービットあたりに必要な物理キュービット数という空間オーバーヘッドである。 高速量子低密度パリティチェック(LDPC)符号に基づくプロトコルは、空間オーバーヘッドを削減する手段としてかなりの注目を集めるが、量子LDPC符号に対する既存のフォールトトレラントプロトコルは、他の要因を犠牲にしている。 ここでは,これらの要件を同時に満たす新しいフォールトトレラントプロトコルを構築し,量子LDPC符号ではなく,連結符号の手法の最近の進歩に基づいて,一定の空間オーバーヘッド,高いしきい値,モジュールアーキテクチャ設計における柔軟性を実現する。 特に、物理エラー率0.1\%$の下では、surfaceコードのプロトコルと比較して、論理的なcnotエラー率10^{-10}$と10^{-24}$をそれぞれ90 \%$と907 \%$とする。 さらに、本プロトコルは従来の回路レベルの誤差モデルで2.4 \%$のしきい値を達成し、表面コードよりも大幅に優れる。 連結コードの使用は、FTQCアーキテクチャのモジュラリティに不可欠な抽象レイヤも自然に導入する。 これらの結果から,実際のプロトコル設計における他の必須要件を満たしつつ,FTQCの実現において量子ビットを著しく節約する方法が提案されている。

The essential requirement for fault-tolerant quantum computation (FTQC) is the total protocol design to achieve a fair balance of all the critical factors relevant to its practical realization, such as the space overhead, the threshold, and the modularity. A major obstacle in realizing FTQC with conventional protocols, such as those based on the surface code and the concatenated Steane code, has been the space overhead, i.e., the required number of physical qubits per logical qubit. Protocols based on high-rate quantum low-density parity-check (LDPC) codes gather considerable attention as a way to reduce the space overhead, but problematically, the existing fault-tolerant protocols for such quantum LDPC codes sacrifice the other factors. Here we construct a new fault-tolerant protocol to meet these requirements simultaneously based on more recent progress on the techniques for concatenated codes rather than quantum LDPC codes, achieving a constant space overhead, a high threshold, and flexibility in modular architecture designs. In particular, under a physical error rate of $0.1\%$, our protocol reduces the space overhead to achieve the logical CNOT error rates $10^{-10}$ and $10^{-24}$ by more than $90 \%$ and $97 \%$, respectively, compared to the protocol for the surface code. Furthermore, our protocol achieves the threshold of $2.4 \%$ under a conventional circuit-level error model, substantially outperforming that of the surface code. The use of concatenated codes also naturally introduces abstraction layers essential for the modularity of FTQC architectures. These results indicate that the code-concatenation approach opens a way to significantly save qubits in realizing FTQC while fulfilling the other essential requirements for the practical protocol design.
翻訳日:2024-02-16 17:42:46 公開日:2024-02-14
# InTEntを用いた医用画像分割:単一画像テスト時間適応のための統合エントロピー重み付け

Medical Image Segmentation with InTEnt: Integrated Entropy Weighting for Single Image Test-Time Adaptation ( http://arxiv.org/abs/2402.09604v1 )

ライセンス: Link先を確認
Haoyu Dong and Nicholas Konz and Hanxue Gu and Maciej A. Mazurowski(参考訳) テスト時間適応(TTA)とは、テスト中にトレーニングされたモデルを新しいドメインに適応させることである。 既存のTTA技術は、同じドメインから複数のテストイメージを持つことに頼っているが、医療画像などの現実のアプリケーションでは、データ取得が高価であり、撮像条件が頻繁に変化する。 ここでは,単一のラベルなしテスト画像のみを用いて医用画像分割モデルを適用するという課題にアプローチする。 予測のエントロピーを直接最小化するほとんどのTTAアプローチは、この設定ではパフォーマンスを著しく向上させることができず、また、バッチ正規化(BN)層統計学は、単一のテストドメイン例しか持たないため、非常に重要で不安定な要素であると見なされる。 そこで本研究では,そのエントロピー統計を重み付けしたトレーニングとテスト統計の間の対象領域統計の様々な推定値を用いた予測に対して,textit{integrate} を提案する。

Test-time adaptation (TTA) refers to adapting a trained model to a new domain during testing. Existing TTA techniques rely on having multiple test images from the same domain, yet this may be impractical in real-world applications such as medical imaging, where data acquisition is expensive and imaging conditions vary frequently. Here, we approach such a task, of adapting a medical image segmentation model with only a single unlabeled test image. Most TTA approaches, which directly minimize the entropy of predictions, fail to improve performance significantly in this setting, in which we also observe the choice of batch normalization (BN) layer statistics to be a highly important yet unstable factor due to only having a single test domain example. To overcome this, we propose to instead \textit{integrate} over predictions made with various estimates of target domain statistics between the training and test statistics, weighted based on their entropy statistics.
翻訳日:2024-02-16 17:42:15 公開日:2024-02-14
# スケーラブルグラフ自己教師付き学習

Scalable Graph Self-Supervised Learning ( http://arxiv.org/abs/2402.09603v1 )

ライセンス: Link先を確認
Ali Saheb Pasand, Reza Moravej, Mahdi Biparva, Raika Karimi, Ali Ghodsi(参考訳) 正規化におけるグラフの自己監視学習(SSL)法では、グラフ内のノード数や埋め込み次元によって計算複雑性が増大する。 本研究では,非競合グラフSSLのスケーラビリティを緩和するため,最大化項付き学習前損失関数の共分散行列の計算コストを削減する手法を提案する。 本研究は,グラフノードや次元サンプリングによる損失計算に伴うコスト削減に重点を置いている。 次元サンプリングが正確な損失計算をもたらす理由を理論的に考察し,新しい手法を数学的に導出して支援する。 我々は,実世界グラフの大規模化によりssl事前学習が困難であることが判明した,ノードレベルのグラフ予測タスクにおける実験的なセットアップを開発した。 本実験は, ダウンストリーム性能を低下させることなく, ノード, 次元サンプリングにより損失計算に伴うコストを低減できることを実証した。 その結果,サンプリングによるダウンストリームパフォーマンスの向上が確認できた。 アブレーション研究と実験分析により,実験セットアップにおける異なる因子の役割が解明された。

In regularization Self-Supervised Learning (SSL) methods for graphs, computational complexity increases with the number of nodes in graphs and embedding dimensions. To mitigate the scalability of non-contrastive graph SSL, we propose a novel approach to reduce the cost of computing the covariance matrix for the pre-training loss function with volume-maximization terms. Our work focuses on reducing the cost associated with the loss computation via graph node or dimension sampling. We provide theoretical insight into why dimension sampling would result in accurate loss computations and support it with mathematical derivation of the novel approach. We develop our experimental setup on the node-level graph prediction tasks, where SSL pre-training has shown to be difficult due to the large size of real world graphs. Our experiments demonstrate that the cost associated with the loss computation can be reduced via node or dimension sampling without lowering the downstream performance. Our results demonstrate that sampling mostly results in improved downstream performance. Ablation studies and experimental analysis are provided to untangle the role of the different factors in the experimental setup.
翻訳日:2024-02-16 17:41:52 公開日:2024-02-14
# ノード分類のための低ランクグラフコントラスト学習

Low-Rank Graph Contrastive Learning for Node Classification ( http://arxiv.org/abs/2402.09600v1 )

ライセンス: Link先を確認
Yancheng Wang, Yingzhen Yang(参考訳) グラフニューラルネットワーク(GNN)はノード表現の学習に広く使われており、ノード分類などの様々なタスクにおいて優れた性能を示している。 しかし、実世界のグラフデータに必然的に存在するノイズは、近年の研究によって明らかにされたGNNの性能を著しく低下させる。 本研究では,新しい,堅牢なGNNエンコーダであるLow-Rank Graph Contrastive Learning (LR-GCL)を提案する。 本手法は2つのステップでトランスダクティブノード分類を行う。 まず、LR-GCLという名前の低ランクGCLエンコーダを、低ランク正規化を用いた原型コントラスト学習により訓練する。 次に、lr-gclによって生成された特徴を用いて、グラフ内のラベルなしノードを分類する線形トランスダクティブ分類アルゴリズムを用いる。 我々のLR-GCLはグラフデータとそのラベルの低周波特性にインスパイアされ、また我々の急激な一般化によるトランスダクティブ学習の動機付けでもある。 我々の知識を最大限に活用するために、我々の理論的結果は、強い経験的性能によって支持されるグラフ対照的学習における低ランク学習の利点を理論的に証明する最初のものである。 公開ベンチマークでの大規模な実験は、LR-GCLの優れた性能と学習ノード表現の堅牢性を示している。 LR-GCLのコードは \url{https://anonymous.4open.science/r/Low-Rank_Graph_Contrastive_Learning-64A6/} で公開されている。

Graph Neural Networks (GNNs) have been widely used to learn node representations and with outstanding performance on various tasks such as node classification. However, noise, which inevitably exists in real-world graph data, would considerably degrade the performance of GNNs revealed by recent studies. In this work, we propose a novel and robust GNN encoder, Low-Rank Graph Contrastive Learning (LR-GCL). Our method performs transductive node classification in two steps. First, a low-rank GCL encoder named LR-GCL is trained by prototypical contrastive learning with low-rank regularization. Next, using the features produced by LR-GCL, a linear transductive classification algorithm is used to classify the unlabeled nodes in the graph. Our LR-GCL is inspired by the low frequency property of the graph data and its labels, and it is also theoretically motivated by our sharp generalization bound for transductive learning. To the best of our knowledge, our theoretical result is among the first to theoretically demonstrate the advantage of low-rank learning in graph contrastive learning supported by strong empirical performance. Extensive experiments on public benchmarks demonstrate the superior performance of LR-GCL and the robustness of the learned node representations. The code of LR-GCL is available at \url{https://anonymous.4open.science/r/Low-Rank_Graph_Contrastive_Learning-64A6/}.
翻訳日:2024-02-16 17:41:36 公開日:2024-02-14
# MCMCによる学習

MCMC-driven learning ( http://arxiv.org/abs/2402.09598v1 )

ライセンス: Link先を確認
Alexandre Bouchard-C\^ot\'e, Trevor Campbell, Geoff Pleiss, Nikola Surjanovic(参考訳) 本論文はマルコフ連鎖モンテカルロのハンドブックの章として現れることを目的としている。 この章の目標は、マルコフ連鎖モンテカルロ(MCMC)と機械学習$\unicode{x2014}$の交差点における様々な問題を統一することであり、これにはブラックボックスの変分推論、適応MCMC、フロー構築の正規化と輸送支援MCMC、サロゲート様のMCMC、ビッグデータによるMCMCのコアセット構築、マルコフ連鎖勾配勾配、マルコフのスコアクライミング、より多くの$\unicode{x2014}$within one common frameworkが含まれる。 これにより、それぞれの理論と手法を翻訳して一般化することができる。

This paper is intended to appear as a chapter for the Handbook of Markov Chain Monte Carlo. The goal of this chapter is to unify various problems at the intersection of Markov chain Monte Carlo (MCMC) and machine learning$\unicode{x2014}$which includes black-box variational inference, adaptive MCMC, normalizing flow construction and transport-assisted MCMC, surrogate-likelihood MCMC, coreset construction for MCMC with big data, Markov chain gradient descent, Markovian score climbing, and more$\unicode{x2014}$within one common framework. By doing so, the theory and methods developed for each may be translated and generalized.
翻訳日:2024-02-16 17:41:11 公開日:2024-02-14
# 標準的な血液検査結果と喫煙状況に基づく肺医レベル肺がん検出 : 説明可能な機械学習アプローチを用いて

Pulmonologists-Level lung cancer detection based on standard blood test results and smoking status using an explainable machine learning approach ( http://arxiv.org/abs/2402.09596v1 )

ライセンス: Link先を確認
Ricco Noel Hansen Flyckt, Louise Sjodsholm, Margrethe H{\o}stgaard Bang Henriksen, Claus Lohman Brasen, Ali Ebrahimi, Ole Hilberg, Torben Fr{\o}strup Hansen, Uffe Kock Wiil, Lars Henrik Jensen, Abdolrahman Peimankar(参考訳) 肺癌(lc)はがん関連死亡の主な原因であり、主に後期診断が原因である。 早期発見の効果的な戦略は最重要事項である。 近年,機械学習 (ML) は, 様々な疾患の発見を容易にすることで, 医療における大きな可能性を示している。 本研究では,LC検出のための動的アンサンブル選択(DES)に基づくMLモデルを開発した。 このモデルは、デンマークのリスクの高い大集団の血液サンプル分析と喫煙履歴データを活用する。 この研究には、2009年から2018年までデンマーク南部地域でlcの疑いで調査されたすべての患者が含まれている。 我々は,DESモデルによる予測を,5人の肺科医による診断と比較した。 38,944例中9,940例はLCが2,505例 (25\%) であった。 desモデルは、roc曲線 0.77$\pm$0.01、感度 76.2\%$\pm$2.4\%、特異度 63.8\%$\pm$2.3\%、正の予測値 41.6\%$\pm$1.2\%、f\textsubscript{1}-score 53.8\%$\pm$1.1\% の領域を達成した。 desモデルは5人の肺科医を上回り、感度は平均より9\%高かった。 本モデルでは,喫煙状況,年齢,総カルシウム濃度,好中球数,乳酸脱水素酵素をLC検出の最も重要な因子として同定した。 その結果, LC検出におけるML法の適用は, 肺科医の成績を上回った。 将来のリスクアセスメントモデルに臨床および実験室のデータを組み込むことは、意思決定を改善し、タイムリーな参照を容易にする。

Lung cancer (LC) remains the primary cause of cancer-related mortality, largely due to late-stage diagnoses. Effective strategies for early detection are therefore of paramount importance. In recent years, machine learning (ML) has demonstrated considerable potential in healthcare by facilitating the detection of various diseases. In this retrospective development and validation study, we developed an ML model based on dynamic ensemble selection (DES) for LC detection. The model leverages standard blood sample analysis and smoking history data from a large population at risk in Denmark. The study includes all patients examined on suspicion of LC in the Region of Southern Denmark from 2009 to 2018. We validated and compared the predictions by the DES model with diagnoses provided by five pulmonologists. Among the 38,944 patients, 9,940 had complete data of which 2,505 (25\%) had LC. The DES model achieved an area under the roc curve of 0.77$\pm$0.01, sensitivity of 76.2\%$\pm$2.4\%, specificity of 63.8\%$\pm$2.3\%, positive predictive value of 41.6\%$\pm$1.2\%, and F\textsubscript{1}-score of 53.8\%$\pm$1.1\%. The DES model outperformed all five pulmonologists, achieving a sensitivity 9\% higher than their average. The model identified smoking status, age, total calcium levels, neutrophil count, and lactate dehydrogenase as the most important factors for the detection of LC. The results highlight the successful application of the ML approach in detecting LC, surpassing pulmonologists' performance. Incorporating clinical and laboratory data in future risk assessment models can improve decision-making and facilitate timely referrals.
翻訳日:2024-02-16 17:40:52 公開日:2024-02-14
# 超伝導量子回路における高速オンデマンド熱状態生成

Rapid on-demand generation of thermal states in superconducting quantum circuits ( http://arxiv.org/abs/2402.09594v1 )

ライセンス: Link先を確認
Timm Fabian M\"orstedt, Wallace Santos Teixeira, Arto Viitanen, Heidi Kivij\"arvi, Maaria Tiiri, Miika Rasola, Andras Marton Gunyho, Suman Kundu, Louis Lattier, Vasilii Vadimov, Gianluigi Catelani, Vasilii Sevriuk, Johannes Heinsoo, Jukka R\"abin\"a, Joachim Ankerhold, Mikko M\"ott\"onen(参考訳) 単一接合型量子回路冷凍機(qcr)をその場調整可能な環境として用いたトランスモンの熱状態の高速生成実験を行った。 単発読み出しにより,QCR駆動パルスによって制御される個体群分布を,第3の励起状態まで監視する。 弱い駆動状態では冷却が可能であるが、高振幅パルスは100 ns以内の110 mKから500 mKまでの温度からボルツマン分布の人口を生成することができる。 我々の研究で提案しているように、この高速で効率的な温度制御は量子熱エンジンを実証する魅力的な機会を提供する。 また, 熱支援量子アルゴリズムおよび量子アニール法において, 効率の良い散逸状態調製と回路深度低減の方法も検討した。

We experimentally demonstrate the fast generation of thermal states of a transmon using a single-junction quantum-circuit refrigerator (QCR) as an in-situ-tunable environment. Through single-shot readout, we monitor the transmon up to its third-excited state, assessing population distributions controlled by QCR drive pulses. Whereas cooling can be achieved in the weak-drive regime, high-amplitude pulses can generate Boltzmann-distributed populations from a temperature of 110 mK up to 500 mK within 100 ns. As we propose in our work, this fast and efficient temperature control provides an appealing opportunity to demonstrate a quantum heat engine. Our results also pave the way for efficient dissipative state preparation and for reducing the circuit depth in thermally assisted quantum algorithms and quantum annealing.
翻訳日:2024-02-16 17:40:19 公開日:2024-02-14
# ソーシャルネットワーク分析を含む複雑な医療調査研究の自動データ収集、キュレーション、可視化のためのwebベースのツール

A Web-Based Tool for Automatic Data Collection, Curation, and Visualization of Complex Healthcare Survey Studies including Social Network Analysis ( http://arxiv.org/abs/2402.09592v1 )

ライセンス: Link先を確認
Jos\'e Alberto Ben\'itez-Andrades, Jos\'e Emilio Labra, Enedina Quiroga, Vicente Mart\'in, Isa\'ias Garc\'ia, Pilar Marqu\'es-S\'anchez and Carmen Benavides(参考訳) 近年、アルコール摂取や薬物乱用、特に若者への懸念が高まっている。 これらの青年が没頭する社会環境の分析と、監査、fas、キッドスクリーンなどのアンケートを用いてアルコール乱用リスクや個人的状況、認知度を決定する一連の尺度を用いて、ある個人の消費行動に関する現在の状況について洞察を得ることが可能である。 しかし、この分析を実現するためには、アンケートの作成、データ収集、キュレーションと表現、後の分析と視覚化のプロセスを容易にするツールの使用が必要である。 本研究は,異なるフェーズを直感的なシステムに統合することで,各アンケートやテクニックの基盤となる複雑さを隠蔽し,その結果を柔軟かつ視覚的に提示し,プロセス中のデータの手動処理を回避し,各プロセスの容易化を図るWebベースのプラットフォームの設計と構築について述べる。 このアプローチの利点が示され、いくつかのタスクが時間の消費とエラーによるデータの操作によって達成された以前の状況と比較される。

There is a great concern nowadays regarding alcohol consumption and drug abuse, especially in young people. Analyzing the social environment where these adolescents are immersed, as well as a series of measures determining the alcohol abuse risk or personal situation and perception using a number of questionnaires like AUDIT, FAS, KIDSCREEN, and others, it is possible to gain insight into the current situation of a given individual regarding his/her consumption behavior. But this analysis, in order to be achieved, requires the use of tools that can ease the process of questionnaire creation, data gathering, curation and representation, and later analysis and visualization to the user. This research presents the design and construction of a web-based platform able to facilitate each of the mentioned processes by integrating the different phases into an intuitive system with a graphical user interface that hides the complexity underlying each of the questionnaires and techniques used and presenting the results in a flexible and visual way, avoiding any manual handling of data during the process. Advantages of this approach are shown and compared to the previous situation where some of the tasks were accomplished by time consuming and error prone manipulations of data.
翻訳日:2024-02-16 17:40:05 公開日:2024-02-14
# ランダム幾何グラフの幾何学的再構成

Reconstructing the Geometry of Random Geometric Graphs ( http://arxiv.org/abs/2402.09591v1 )

ライセンス: Link先を確認
Han Huang, Pakawut Jiradilok, Elchanan Mossel(参考訳) ランダム幾何学グラフは、距離空間上で定義されたランダムグラフモデルである。 そのようなモデルは、計量空間から最初のサンプリング点で定義され、各標本点のペアを、距離に依存する確率と、ペア間で独立に接続する。 本研究では, 基底空間が低次元多様体であると仮定し, 接続確率が, 多様体の任意の埋め込みにおける点間のユークリッド距離を, $\mathbb{r}^n$ で厳密に減少させる関数であることを仮定して, サンプルグラフから基底空間の幾何学を効率的に再構成する方法を示す。 我々の研究は多様体学習に関する大きな研究の成果を補完するものであり、多様体にサンプリングされたサンプル点から多様体を(ほぼ)距離とともに回収することを目的としている。

Random geometric graphs are random graph models defined on metric spaces. Such a model is defined by first sampling points from a metric space and then connecting each pair of sampled points with probability that depends on their distance, independently among pairs. In this work, we show how to efficiently reconstruct the geometry of the underlying space from the sampled graph under the manifold assumption, i.e., assuming that the underlying space is a low dimensional manifold and that the connection probability is a strictly decreasing function of the Euclidean distance between the points in a given embedding of the manifold in $\mathbb{R}^N$. Our work complements a large body of work on manifold learning, where the goal is to recover a manifold from sampled points sampled in the manifold along with their (approximate) distances.
翻訳日:2024-02-16 17:39:41 公開日:2024-02-14
# MLTCP:DNNトレーニングのための混雑制御

MLTCP: Congestion Control for DNN Training ( http://arxiv.org/abs/2402.09589v1 )

ライセンス: Link先を確認
Sudarsanan Rajasekaran, Sanjoli Narang, Anton A. Zabreyko, Manya Ghobadi(参考訳) 共有GPUクラスタにおけるDNNトレーニングジョブを高速化するために,今日の混雑制御アルゴリズムを強化する手法であるMLTCPを提案する。 MLTCPは、ネットワーク帯域幅と競合するジョブの通信フェーズを相互にインターリーブし、ネットワークを効率的に活用する。 DNNトレーニングフローは、各トレーニングイテレーションで送信されるバイト数に基づいて、その混雑ウィンドウサイズをスケールする必要があります。 MLTCPは、Reno、CUBIC、DCQCNに30-60行のコードを追加することで、競合するフローの数や各フローの開始時間に関係なく、数回のトレーニングイテレーションで異なるジョブのフローをインターリーブ状態に安定化する。 一般的なDNNトレーニングジョブを用いた実験では,MLTCPが平均2倍,99分の1のトレーニングイテレーション時間を最大4倍加速することを示した。

We present MLTCP, a technique to augment today's congestion control algorithms to accelerate DNN training jobs in shared GPU clusters. MLTCP enables the communication phases of jobs that compete for network bandwidth to interleave with each other, thereby utilizing the network efficiently. At the heart of MLTCP lies a very simple principle based on a key conceptual insight: DNN training flows should scale their congestion window size based on the number of bytes sent at each training iteration. We show that integrating this principle into today's congestion control protocols is straightforward: by adding 30-60 lines of code to Reno, CUBIC, or DCQCN, MLTCP stabilizes flows of different jobs into an interleaved state within a few training iterations, regardless of the number of competing flows or the start time of each flow. Our experiments with popular DNN training jobs demonstrate that enabling MLTCP accelerates the average and 99th percentile training iteration time by up to 2x and 4x, respectively.
翻訳日:2024-02-16 17:39:25 公開日:2024-02-14
# 不均一軌道の等角化適応予測

Conformalized Adaptive Forecasting of Heterogeneous Trajectories ( http://arxiv.org/abs/2402.09623v1 )

ライセンス: Link先を確認
Yanfei Zhou, Lars Lindemann, Matteo Sesia(参考訳) 本稿では,新しいランダム軌道の全経路を十分に高い確率でカバーできる同時予測帯域を生成する新しい共形法を提案する。 多様な物体の挙動がほぼ予測不可能な動作計画アプリケーションにおいて、信頼可能な不確実性推定の必要性から、オンラインの単一時系列と複数時系列の共形予測と、回帰における不整合性に対処するアイデアをブレンドする。 この解はどちらも原則であり、正確な有限サンプル保証を提供し、しばしば以前の方法よりもより情報的な予測をもたらす。

This paper presents a new conformal method for generating simultaneous forecasting bands guaranteed to cover the entire path of a new random trajectory with sufficiently high probability. Prompted by the need for dependable uncertainty estimates in motion planning applications where the behavior of diverse objects may be more or less unpredictable, we blend different techniques from online conformal prediction of single and multiple time series, as well as ideas for addressing heteroscedasticity in regression. This solution is both principled, providing precise finite-sample guarantees, and effective, often leading to more informative predictions than prior methods.
翻訳日:2024-02-16 17:27:44 公開日:2024-02-14
# ノイズの存在下での量子プローブと複素量子系の非古典的相関

Non-classical correlations between a quantum probe and complex quantum systems in presence of noise ( http://arxiv.org/abs/2402.09618v1 )

ライセンス: Link先を確認
Bijoy John Mathew, Sanchit Srivastava and Anil Shaji(参考訳) 大規模でマクロなシステムと相互作用する量子プローブシステム内で発生する非古典的相関は、後者における量子的特徴の存在を示唆することができる。 理論モデルでは、光合成細菌が引き起こした絡み合いが光によってどのように観測されるかが検討されている。 最近では、ターディグレードがトランスモンキュービットに絡み合っていた。 小型の量子プローブが大規模システムと相互作用し、マクロシステムにおける量子性のシグネチャを現実的に検出できるクーピング強度やノイズレベルに関する規則を規定する、そのようなシステムのためのノイズを含む詳細なモデルを考える。

Non-classical correlations generated within a quantum probe system when it interacts with a large, macroscopic system can signal the presence of quantum features in the latter. Theoretical models have considered how entanglement generated in photosynthetic bacteria can be probed using light that interacts with them. More recently, a tardigrade was entangled to a transmon qubit. We consider a detailed model including noise for such systems wherein a small quantum probe interacts with a large system in order to delineate the regimes with respect to couping strengths and noise levels in which such signatures of quantumness in macroscopic systems can realistically be detected.
翻訳日:2024-02-16 17:27:31 公開日:2024-02-14
# LLM強化ユーザアイテムインタラクション:最適化レコメンデーションのためのエッジ情報を活用する

LLM-Enhanced User-Item Interactions: Leveraging Edge Information for Optimized Recommendations ( http://arxiv.org/abs/2402.09617v1 )

ライセンス: Link先を確認
Xinyuan Wang, Liang Wu, Liangjie Hong, Hao Liu, Yanjie Fu(参考訳) 大規模言語モデルの異常な性能は、NLPの分野での研究環境を再構築するだけでなく、様々な領域でその例外的な応用可能性を示している。 しかしながら、グラフデータから関係をマイニングする上でのこれらのモデルのポテンシャルは未検討のままである。 近年の人気のある研究分野であるグラフニューラルネットワークは、関係採掘について多くの研究を行っている。 しかし、グラフニューラルネットワークにおける最先端の研究は、大規模言語モデルと効果的に統合されていないため、グラフ関係マイニングタスクの効率と能力は限られている。 主な課題は、グラフのエッジ情報を深く活用できないことであり、これは複雑なノード関係を理解する上で重要である。 このギャップは LLM がグラフ構造から有意義な洞察を引き出す可能性を制限するものであり、より複雑なグラフ解析における適用性を制限する。 我々は,既存のLLMをグラフデータのマイニングや理解に活用する方法に注目し,これらの手法を推薦タスクに適用する。 我々は,LLMの強い文脈表現能力とGNNの関係抽出と解析機能を組み合わせた,グラフデータのマイニングのための革新的なフレームワークを提案する。 具体的には,グラフデータのリレーショナル情報を自然言語表現に統合し,グラフデータ内の接続情報をより直感的に把握する新しいプロンプト構築フレームワークを設計する。 さらに,グラフデータにおける接続情報への注目度を高めるため,llmにグラフ関係理解・分析機能を導入する。 実世界のデータセットに対する評価は、グラフデータにおける接続情報を理解するフレームワークの能力を示している。

The extraordinary performance of large language models has not only reshaped the research landscape in the field of NLP but has also demonstrated its exceptional applicative potential in various domains. However, the potential of these models in mining relationships from graph data remains under-explored. Graph neural networks, as a popular research area in recent years, have numerous studies on relationship mining. Yet, current cutting-edge research in graph neural networks has not been effectively integrated with large language models, leading to limited efficiency and capability in graph relationship mining tasks. A primary challenge is the inability of LLMs to deeply exploit the edge information in graphs, which is critical for understanding complex node relationships. This gap limits the potential of LLMs to extract meaningful insights from graph structures, limiting their applicability in more complex graph-based analysis. We focus on how to utilize existing LLMs for mining and understanding relationships in graph data, applying these techniques to recommendation tasks. We propose an innovative framework that combines the strong contextual representation capabilities of LLMs with the relationship extraction and analysis functions of GNNs for mining relationships in graph data. Specifically, we design a new prompt construction framework that integrates relational information of graph data into natural language expressions, aiding LLMs in more intuitively grasping the connectivity information within graph data. Additionally, we introduce graph relationship understanding and analysis functions into LLMs to enhance their focus on connectivity information in graph data. Our evaluation on real-world datasets demonstrates the framework's ability to understand connectivity information in graph data.
翻訳日:2024-02-16 17:27:20 公開日:2024-02-14
# API Pack: APIコール生成のための多言語データセット

API Pack: A Massive Multilingual Dataset for API Call Generation ( http://arxiv.org/abs/2402.09615v1 )

ライセンス: Link先を確認
Zhen Guo, Adriana Meza Soria, Wei Sun, Yikang Shen, Rameswar Panda(参考訳) 大規模言語モデルのapi呼び出し生成機能向上を目的とした,100万以上の命令apiコールペアを備えた多言語データセットであるapi packを紹介する。 実験を通じて,汎用コーディングにおける全体的な習熟度を維持しつつ,この特化タスクのモデル強化におけるAPI Packの有効性を示す。 たった20,000のPythonインスタンス上で微調整されたCodeLlama-13Bは、未確認のAPI呼び出しを生成する際にそれぞれGPT-3.5とGPT-4よりも10%以上精度が5%高い。 100kの例へのスケーリングは、トレーニング中に見えない新しいAPIへの一般化を改善する。 さらに、言語ごとの広範なデータを必要としない言語間APIコール生成も実現している。 データセット、微調整されたモデル、全体的なコードベースはhttps://github.com/anonymous_url.orgで公開されている。

We introduce API Pack, a multilingual dataset featuring over one million instruction-API call pairs aimed at advancing large language models' API call generation capabilities. Through experiments, we demonstrate API Pack's efficacy in enhancing models for this specialized task while maintaining their overall proficiency at general coding. Fine-tuning CodeLlama-13B on just 20,000 Python instances yields over 10% and 5% higher accuracy than GPT-3.5 and GPT-4 respectively in generating unseen API calls. Scaling to 100k examples improves generalization to new APIs not seen during training. In addition, cross-lingual API call generation is achieved without needing extensive data per language. The dataset, fine-tuned models, and overall code base are publicly available at https://github.com/anonymous_url.
翻訳日:2024-02-16 17:26:55 公開日:2024-02-14
# Loopy-SLAM:ループクロージャ付き高密度ニューラルネットワークSLAM

Loopy-SLAM: Dense Neural SLAM with Loop Closures ( http://arxiv.org/abs/2402.09944v1 )

ライセンス: Link先を確認
Lorenzo Liso, Erik Sandstr\"om, Vladimir Yugay, Luc Van Gool, Martin R. Oswald(参考訳) ニューラルrgbdスラム技術は、密集した同時ローカライゼーションとマッピング(slam)において有望であるが、カメラトラッキング中にエラーが蓄積し、歪んだマップが発生するなどの課題に直面している。 これに対し,ポーズをグローバルに最適化するLoopy-SLAMと高密度3Dモデルを導入する。 データ駆動型ポイントベースサブマップ生成法とトリガーループクロージャを用いたフレーム・ツー・モデルトラッキングを用いて,グローバル位置認識を行う。 ロバストポーズグラフ最適化は局所部分写像を厳密に整列するために用いられる。 我々の表現はポイントベースであるため、グリッドベースのマッピング構造を用いる手法で一般的に必要とされるマッピングに使用される入力フレームの履歴全体を格納することなく、マップの修正を効率的に行うことができる。 合成Replicaおよび実世界のTUM-RGBDおよびScanNetデータセットの評価は、既存の高密度ニューラルネットワークRGBD SLAM法と比較して、追跡、マッピング、レンダリングの精度の競争力または優れた性能を示す。 プロジェクトページ: notchla.github.io/Loopy-SLAM

Neural RGBD SLAM techniques have shown promise in dense Simultaneous Localization And Mapping (SLAM), yet face challenges such as error accumulation during camera tracking resulting in distorted maps. In response, we introduce Loopy-SLAM that globally optimizes poses and the dense 3D model. We use frame-to-model tracking using a data-driven point-based submap generation method and trigger loop closures online by performing global place recognition. Robust pose graph optimization is used to rigidly align the local submaps. As our representation is point based, map corrections can be performed efficiently without the need to store the entire history of input frames used for mapping as typically required by methods employing a grid based mapping structure. Evaluation on the synthetic Replica and real-world TUM-RGBD and ScanNet datasets demonstrate competitive or superior performance in tracking, mapping, and rendering accuracy when compared to existing dense neural RGBD SLAM methods. Project page: notchla.github.io/Loopy-SLAM.
翻訳日:2024-02-16 15:37:39 公開日:2024-02-14
# TorchQL: マシンラーニングにおける統合制約のプログラミングフレームワーク

TorchQL: A Programming Framework for Integrity Constraints in Machine Learning ( http://arxiv.org/abs/2308.06686v3 )

ライセンス: Link先を確認
Aaditya Naik, Adam Stein, Yinjun Wu, Mayur Naik, Eric Wong(参考訳) 機械学習アプリケーションでエラーを見つけるには、データの振る舞いを徹底的に調査する必要がある。 実践者が使用する既存のアプローチは、しばしばアドホックであり、このプロセスのスケールアップに必要な抽象化が欠如している。 本稿では、機械学習アプリケーションの正確性を評価し改善するプログラミングフレームワークであるTorchQLを紹介する。 TorchQLを使用することで、マシンラーニングモデルやデータセットに対する整合性制約を指定およびチェックするためのクエリの記述が可能になる。 リレーショナル代数と関数型プログラミングをシームレスに統合し、8つの直感的演算子のみを使用して高度に表現的なクエリを可能にする。 本研究では,ビデオフレームを横断する物体の時間的不整合を自律運転で発見すること,時系列医療記録におけるデータインプテーションエラーの検出,実世界画像におけるデータラベルエラーの検出,言語モデルのバイアスと制約結果の評価など,多様なユースケースにおけるtorchqlを評価した。 我々の実験によると、TorchQLはPandasやMongoDBのようなベースラインよりも最大13倍高速なクエリ実行を可能にし、ネイティブPythonよりも最大40%短いクエリを実行できます。 また、ユーザ調査を実施して、torchqlがpythonに慣れた開発者が複雑な整合性制約を指定できるほど自然であることを確認しました。

Finding errors in machine learning applications requires a thorough exploration of their behavior over data. Existing approaches used by practitioners are often ad-hoc and lack the abstractions needed to scale this process. We present TorchQL, a programming framework to evaluate and improve the correctness of machine learning applications. TorchQL allows users to write queries to specify and check integrity constraints over machine learning models and datasets. It seamlessly integrates relational algebra with functional programming to allow for highly expressive queries using only eight intuitive operators. We evaluate TorchQL on diverse use-cases including finding critical temporal inconsistencies in objects detected across video frames in autonomous driving, finding data imputation errors in time-series medical records, finding data labeling errors in real-world images, and evaluating biases and constraining outputs of language models. Our experiments show that TorchQL enables up to 13x faster query executions than baselines like Pandas and MongoDB, and up to 40% shorter queries than native Python. We also conduct a user study and find that TorchQL is natural enough for developers familiar with Python to specify complex integrity constraints.
翻訳日:2024-02-16 12:23:58 公開日:2024-02-14
# 雑音拡散復元はラプラス作用素の前方および逆問題に取り組む

Denoising Diffusion Restoration Tackles Forward and Inverse Problems for the Laplace Operator ( http://arxiv.org/abs/2402.08563v2 )

ライセンス: Link先を確認
Amartya Mukherjee, Melissa M. Stadt, Lena Podina, Mohammad Kohandel, Jun Liu(参考訳) 拡散モデルは、ノイズの多い入力を現実的なイメージにマッピングする生成モデルの有望なクラスとして登場した。 近年では偏微分方程式(pdes)の解を生成するために用いられている。 しかし、それらは、例えばポアソン方程式のようなラプラス作用素の逆問題といまだに苦労している。 本稿では,拡散復元モデル(DDRM)を用いて,PDEの逆解と前方解に対する新しいアプローチを提案する。 DDRMは線形演算子の特異値分解(SVD)を利用して元のクリーン信号を復元するために線形逆問題に用いられた。 同様に、ラプラシアン作用素の固有値と固有関数を利用してポアソン方程式の解とパラメータを復元するアプローチを提案する。 以上の結果から,除音拡散復元は解とパラメータの推定を大幅に改善することが示された。 我々の研究は、PDEを解くための基礎物理学の原理と拡散モデルの統合の先駆者となった。

Diffusion models have emerged as a promising class of generative models that map noisy inputs to realistic images. More recently, they have been employed to generate solutions to partial differential equations (PDEs). However, they still struggle with inverse problems in the Laplacian operator, for instance, the Poisson equation, because the eigenvalues that are large in magnitude amplify the measurement noise. This paper presents a novel approach for the inverse and forward solution of PDEs through the use of denoising diffusion restoration models (DDRM). DDRMs were used in linear inverse problems to restore original clean signals by exploiting the singular value decomposition (SVD) of the linear operator. Equivalently, we present an approach to restore the solution and the parameters in the Poisson equation by exploiting the eigenvalues and the eigenfunctions of the Laplacian operator. Our results show that using denoising diffusion restoration significantly improves the estimation of the solution and parameters. Our research, as a result, pioneers the integration of diffusion models with the principles of underlying physics to solve PDEs.
翻訳日:2024-02-16 12:18:43 公開日:2024-02-14
# MAGNETO:人間の活動認識のためのエッジAI - プライバシとパーソナライゼーション

MAGNETO: Edge AI for Human Activity Recognition -- Privacy and Personalization ( http://arxiv.org/abs/2402.07180v2 )

ライセンス: Link先を確認
Jingwei Zuo, George Arvanitakis, Mthandazo Ndhlovu and Hakim Hacid(参考訳) HAR(Human Activity Recognition)は、機械学習(ML)技術によって大幅に進歩した、確立された分野である。 企業はHARを消費者製品に統合することに成功しているが、一般的にはユーザーレベルでのパーソナライズを制限する事前定義されたアクティビティセットに依存している。 新しいデータでモデルを更新するためのインクリメンタルな学習の進歩にもかかわらず、これはしばしばクラウド上で起こり、クラウドとエッジデバイス間の定期的なデータ転送を必要とするため、データのプライバシの問題に繋がる。 本稿では,HARタスクをクラウドからエッジへプッシュするエッジAIプラットフォームであるMAGNETOを提案する。 MAGNETOは、クラウドとデータ交換することなく、Edgeデバイス上でインクリメンタルなヒューマンアクティビティ学習を可能にする。 これにより、強力なプライバシ保証、低処理レイテンシ、ユーザに対する高度なパーソナライズが可能になる。 特に、AndroidデバイスでMAGNETOを実演し、データ収集から結果の可視化に至るまで、パイプライン全体を検証する。

Human activity recognition (HAR) is a well-established field, significantly advanced by modern machine learning (ML) techniques. While companies have successfully integrated HAR into consumer products, they typically rely on a predefined activity set, which limits personalizations at the user level (edge devices). Despite advancements in Incremental Learning for updating models with new data, this often occurs on the Cloud, necessitating regular data transfers between cloud and edge devices, thus leading to data privacy issues. In this paper, we propose MAGNETO, an Edge AI platform that pushes HAR tasks from the Cloud to the Edge. MAGNETO allows incremental human activity learning directly on the Edge devices, without any data exchange with the Cloud. This enables strong privacy guarantees, low processing latency, and a high degree of personalization for users. In particular, we demonstrate MAGNETO in an Android device, validating the whole pipeline from data collection to result visualization.
翻訳日:2024-02-16 12:14:59 公開日:2024-02-14
# 自然言語強化学習

Natural Language Reinforcement Learning ( http://arxiv.org/abs/2402.07157v2 )

ライセンス: Link先を確認
Xidong Feng, Ziyu Wan, Mengyue Yang, Ziyan Wang, Girish A. Koushik, Yali Du, Ying Wen, Jun Wang(参考訳) 強化学習(rl)は意思決定タスクの学習方針において顕著な能力を示している。 しかしながら、RLはサンプル効率の低下、解釈可能性の欠如、疎い監視信号などの問題によってしばしば妨げられる。 これらの制約に対処するために、人間の学習プロセスからインスピレーションを得て、RLの原理と自然言語表現を革新的に組み合わせた自然言語強化学習(NLRL)を導入する。 具体的には、NLRLはタスク目的、ポリシー、値関数、ベルマン方程式、自然言語空間におけるポリシー反復といったRL概念を再定義する。 GPT-4のような大規模言語モデル(LLM)の最新の進歩により,NLRLを実用的に実装する方法について述べる。 表状MDPに対する最初の実験は、NLRLフレームワークの有効性、効率、解釈可能性を示している。

Reinforcement Learning (RL) has shown remarkable abilities in learning policies for decision-making tasks. However, RL is often hindered by issues such as low sample efficiency, lack of interpretability, and sparse supervision signals. To tackle these limitations, we take inspiration from the human learning process and introduce Natural Language Reinforcement Learning (NLRL), which innovatively combines RL principles with natural language representation. Specifically, NLRL redefines RL concepts like task objectives, policy, value function, Bellman equation, and policy iteration in natural language space. We present how NLRL can be practically implemented with the latest advancements in large language models (LLMs) like GPT-4. Initial experiments over tabular MDPs demonstrate the effectiveness, efficiency, and also interpretability of the NLRL framework.
翻訳日:2024-02-16 12:14:42 公開日:2024-02-14
# ニューラルコントラクトダイナミクスの学習:拡張線形化とグローバル保証

Learning Neural Contracting Dynamics: Extended Linearization and Global Guarantees ( http://arxiv.org/abs/2402.08090v2 )

ライセンス: Link先を確認
Sean Jaffe and Alexander Davydov and Deniz Lapsekili and Ambuj Singh and Francesco Bullo(参考訳) 学習力学系における大域的安定性とロバスト性保証は、不確実性に直面したシステムの健全性を保証するために不可欠である。 拡張線形化契約力学(ELCD)は,グローバルな契約性を保証するニューラルネットワークベースの力学系である。 ELCDの鍵となる特徴は、非線形ベクトル場の拡張線型化のパラメトリゼーションである。 最も基本的な形では、ELCDは保証される (i)グローバルに指数関数的に安定する (ii)均衡収縮、及び (iii)ある計量に関して世界規模で契約する。 データ空間におけるより一般的なメトリクスに対する縮約を可能にするため、データ空間と潜在空間の間の微分同相を訓練し、潜在空間における縮約を強制し、データ空間における大域的縮約性を保証する。 我々は、elcdのパフォーマンスを$$d、$$$d、$$$d lasaデータセットで実証した。

Global stability and robustness guarantees in learned dynamical systems are essential to ensure well-behavedness of the systems in the face of uncertainty. We present Extended Linearized Contracting Dynamics (ELCD), the first neural network-based dynamical system with global contractivity guarantees in arbitrary metrics. The key feature of ELCD is a parametrization of the extended linearization of the nonlinear vector field. In its most basic form, ELCD is guaranteed to be (i) globally exponentially stable, (ii) equilibrium contracting, and (iii) globally contracting with respect to some metric. To allow for contraction with respect to more general metrics in the data space, we train diffeomorphisms between the data space and a latent space and enforce contractivity in the latent space, which ensures global contractivity in the data space. We demonstrate the performance of ELCD on the $2$D, $4$D, and $8$D LASA datasets.
翻訳日:2024-02-16 10:12:09 公開日:2024-02-14
# 衛星画像からの大規模領域の大規模無監督時空間意味解析

Large-scale unsupervised spatio-temporal semantic analysis of vast regions from satellite images sequences ( http://arxiv.org/abs/2208.13504v3 )

ライセンス: Link先を確認
Carlos Echegoyen, Aritz P\'erez, Guzm\'an Santaf\'e, Unai P\'erez-Goya and Mar\'ia Dolores Ugarte(参考訳) 衛星画像の時系列は、興味のある領域を分析するために非常に貴重で豊富な資源である。 しかしながら、大規模な知識の自動獲得は、正確なラベル付きデータの欠如、地形エンティティの定義と可変性、画像とそれらの融合の固有の複雑さなど、さまざまな要因により難しい課題である。 本研究では,衛星画像のシーケンスから大規模領域の時空間的分類を行うための,教師なしで一般的な手法を提案する。 我々のアプローチは、深層埋め込みと時系列クラスタリングを組み合わせることで、地上のセマンティックな特性と時間の経過とともに進化を捉え、関心領域の包括的理解を提供する。 提案手法は, 埋め込みを改良し, その基礎となる時空間パターンを活用するために考案された新しい手法によって拡張される。 この手法を用いて、スペイン北部の220 km$^2$の地域を異なる設定で詳細に分析する。 その結果, 気候, 植物学, 水文学的な要因を中心に, 広い地域がコンパクトで構造的に結びついている土地の広い直感的な見方が得られた。

Temporal sequences of satellite images constitute a highly valuable and abundant resource for analyzing regions of interest. However, the automatic acquisition of knowledge on a large scale is a challenging task due to different factors such as the lack of precise labeled data, the definition and variability of the terrain entities, or the inherent complexity of the images and their fusion. In this context, we present a fully unsupervised and general methodology to conduct spatio-temporal taxonomies of large regions from sequences of satellite images. Our approach relies on a combination of deep embeddings and time series clustering to capture the semantic properties of the ground and its evolution over time, providing a comprehensive understanding of the region of interest. The proposed method is enhanced by a novel procedure specifically devised to refine the embedding and exploit the underlying spatio-temporal patterns. We use this methodology to conduct an in-depth analysis of a 220 km$^2$ region in northern Spain in different settings. The results provide a broad and intuitive perspective of the land where large areas are connected in a compact and well-structured manner, mainly based on climatic, phytological, and hydrological factors.
翻訳日:2024-02-15 20:43:54 公開日:2024-02-14
# 低ランクマルコフ決定過程における効率的な表現選択:オンラインからオフラインRLへ

Provably Efficient Representation Selection in Low-rank Markov Decision Processes: From Online to Offline RL ( http://arxiv.org/abs/2106.11935v2 )

ライセンス: Link先を確認
Weitong Zhang and Jiafan He and Dongruo Zhou and Amy Zhang and Quanquan Gu(参考訳) 深層強化学習(DRL)の成功は、探索と搾取作業に適した表現を学ぶ能力にある。 表現の選択が強化学習(RL)の効率をどのように向上させるかを理解するため,遷移カーネルを双線形形式で表現できる低ランクマルコフ決定過程(MDP)の表現選択について検討した。 オンラインとオフラインの両方で表現学習を行うための効率的なアルゴリズムであるReLEXを提案する。 具体的には、ReLEXのオンライン版であるReLEX-UCBは、表現選択なしで、常に最先端のアルゴリズムよりも悪く動作し、表現関数クラスが状態-アクション空間全体にわたって"カバレッジ"プロパティを持つ場合、常に後悔することを示す。 オフラインのReLEX-LCBに対して、表現クラスが状態-作用空間をカバーし、ギャップ依存的なサンプル複雑性を実現することができれば、アルゴリズムが最適なポリシーを見つけることができることを示す。 これはオフラインrlでの表現学習のためのサンプルの複雑さが一定である最初の結果である。

The success of deep reinforcement learning (DRL) lies in its ability to learn a representation that is well-suited for the exploration and exploitation task. To understand how the choice of representation can improve the efficiency of reinforcement learning (RL), we study representation selection for a class of low-rank Markov Decision Processes (MDPs) where the transition kernel can be represented in a bilinear form. We propose an efficient algorithm, called ReLEX, for representation learning in both online and offline RL. Specifically, we show that the online version of ReLEX, called ReLEX-UCB, always performs no worse than the state-of-the-art algorithm without representation selection, and achieves a strictly better constant regret if the representation function class has a "coverage" property over the entire state-action space. For the offline counterpart, ReLEX-LCB, we show that the algorithm can find the optimal policy if the representation class can cover the state-action space and achieves gap-dependent sample complexity. This is the first result with constant sample complexity for representation learning in offline RL.
翻訳日:2024-02-15 20:43:32 公開日:2024-02-14
# 最適化されたオンライン学習

Optimistically Tempered Online Learning ( http://arxiv.org/abs/2301.07530v2 )

ライセンス: Link先を確認
Maxime Haddouche and Olivier Wintenberger and Benjamin Guedj(参考訳) 専門家のアドバイスを活用するために最適化オンライン学習アルゴリズムが開発された。 しかし、グラデーションベースのオンラインアルゴリズムによって提供される学習情報に対して、そのようなアドバイスの妥当性を疑うのは妥当である。 本研究では,専門家に対する信頼感の仮定に挑戦し,オンラインアルゴリズムのot適応と同様に,オンライン学習フレームワーク \emph{optimistically tempered} (ot)を開発した。 我々のアルゴリズムは動的後悔境界という形で健全な理論的保証を伴い、最終的にはotアプローチの有用性を実験的に検証する。

Optimistic Online Learning algorithms have been developed to exploit expert advices, assumed optimistically to be always useful. However, it is legitimate to question the relevance of such advices \emph{w.r.t.} the learning information provided by gradient-based online algorithms. In this work, we challenge the confidence assumption on the expert and develop the \emph{optimistically tempered} (OT) online learning framework as well as OT adaptations of online algorithms. Our algorithms come with sound theoretical guarantees in the form of dynamic regret bounds, and we eventually provide experimental validation of the usefulness of the OT approach.
翻訳日:2024-02-15 20:40:13 公開日:2024-02-14
# 置換同変量子ニューラルネットワークの理論的保証

Theoretical Guarantees for Permutation-Equivariant Quantum Neural Networks ( http://arxiv.org/abs/2210.09974v3 )

ライセンス: Link先を確認
Louis Schatzki, Martin Larocca, Quynh T. Nguyen, Frederic Sauvage, M. Cerezo(参考訳) 量子機械学習モデルの大きな約束にもかかわらず、その潜在能力を解き放つ前に克服しなければならない課題がいくつかある。 例えば、量子ニューラルネットワーク(qnn)に基づくモデルは、トレーニング環境において、局所的な極小と不毛の高原に苦しむ可能性がある。 近年、幾何量子機械学習(GQML)の新たな分野が、これらの問題の潜在的な解決策として浮上している。 GQMLのキーとなる洞察は、同変QNNのようなアーキテクチャを設計し、問題の対称性を符号化すべきであるということである。 ここでは、置換対称性(つまり対称性の群$S_n$)の問題に焦点を当て、$S_n$-equivariant QNNを構築する方法を示す。 我々は,その性能に関する分析研究を行い,不毛高原に苦しむことのないこと,過小パラメータ化に迅速に到達し,少量のデータからうまく一般化できることを証明した。 この結果を検証するために,グラフ状態分類タスクの数値シミュレーションを行う。 我々の研究は、同変QNNに対する最初の理論的保証を提供し、GQMLの極端なパワーとポテンシャルを示している。

Despite the great promise of quantum machine learning models, there are several challenges one must overcome before unlocking their full potential. For instance, models based on quantum neural networks (QNNs) can suffer from excessive local minima and barren plateaus in their training landscapes. Recently, the nascent field of geometric quantum machine learning (GQML) has emerged as a potential solution to some of those issues. The key insight of GQML is that one should design architectures, such as equivariant QNNs, encoding the symmetries of the problem at hand. Here, we focus on problems with permutation symmetry (i.e., the group of symmetry $S_n$), and show how to build $S_n$-equivariant QNNs. We provide an analytical study of their performance, proving that they do not suffer from barren plateaus, quickly reach overparametrization, and generalize well from small amounts of data. To verify our results, we perform numerical simulations for a graph state classification task. Our work provides the first theoretical guarantees for equivariant QNNs, thus indicating the extreme power and potential of GQML.
翻訳日:2024-02-15 20:39:59 公開日:2024-02-14
# FedMT: 混合型ラベルによるフェデレーションラーニング

FedMT: Federated Learning with Mixed-type Labels ( http://arxiv.org/abs/2210.02042v3 )

ライセンス: Link先を確認
Qiong Zhang, Aline Talhouk, Gang Niu, Xiaoxiao Li(参考訳) フェデレーション学習(fl)では、分類器(ディープネットワークなど)は複数のセンタからデータを交換することなくデータセット上でトレーニングされ、サンプル効率が向上する。 FLの古典的な設定では、トレーニングに関わるすべてのセンターで同じラベル付け基準が使用される。 この制約はFLの適用性を著しく制限する。 例えば、疾患診断に使用される基準は、古典的なFL設定と一致しない臨床センターによって異なる傾向にある。 本稿では,各センターで異なるラベル付け基準を適用可能な混合型ラベル付きFLの重要かつ未探索な設定を考える。 混合型ラベルを用いたモデル学習を効果的かつ効率的に行うために,これらのラベル空間間の基礎となる対応を利用して,FedAvgのような様々なFL手法と容易に組み合わせることができる理論誘導型およびモデル依存型アプローチを提案する。 オーバーパラメータ化されたReLUネットワークに基づく収束解析を提案する。 提案手法はラベル投影における線形収束を達成できることを示し,新しい設定のパラメータが収束率に与える影響を実証する。 提案手法を評価し, ベンチマークおよび医療データを用いて理論的知見を検証した。

In federated learning (FL), classifiers (e.g., deep networks) are trained on datasets from multiple centers without exchanging data across them, and thus improves sample efficiency. In the classical setting of FL, the same labeling criterion is usually employed across all centers being involved in training. This constraint greatly limits the applicability of FL. For example, standards used for disease diagnosis are more likely to be different across clinical centers, which mismatches the classical FL setting. In this paper, we consider an important yet under-explored setting of FL, namely FL with mixed-type labels where different labeling criteria can be employed by various centers, leading to inter-center label space differences and challenging existing FL methods designed for the classical setting. To effectively and efficiently train models with mixed-type labels, we propose a theory-guided and model-agnostic approach that can make use of the underlying correspondence between those label spaces and can be easily combined with various FL methods such as FedAvg. We present convergence analysis based on over-parameterized ReLU networks. We show that the proposed method can achieve linear convergence in label projection, and demonstrate the impact of the parameters of our new setting on the convergence rate. The proposed method is evaluated and the theoretical findings are validated on benchmark and medical datasets.
翻訳日:2024-02-15 20:39:41 公開日:2024-02-14
# 可変共分散規則化は自己監督表現におけるペアワイズ独立を強制する

Variance Covariance Regularization Enforces Pairwise Independence in Self-Supervised Representations ( http://arxiv.org/abs/2209.14905v2 )

ライセンス: Link先を確認
Gr\'egoire Mialon, Randall Balestriero, and Yann LeCun(参考訳) VICReg、Barlow Twins、W-MSEといった自己監督学習(SSL)手法は、プロジェクタの出力の共分散行列を制約または規則化することにより、共同埋め込みアーキテクチャの崩壊を避ける。 本研究は, 可変共分散正規化(VCReg)を作成した戦略の重要な特性を明らかにする。 より正確には、MLPプロジェクタと組み合わされた {\em VCRegは、学習された表現の特徴間のペアワイズ独立を強制することを示す。 この結果は、プロジェクタの出力に適用されるvcregを、プロジェクタの入力に適用されるカーネル独立性基準にブリッジすることで生じる。 研究成果を実証的に検証する (i)プロジェクタの特性が対独立性を好む証拠を提出する。 (II)ドメイン外一般化に有利なペア独立性を示す。 3)VCRegのスコープは独立成分分析の解法としてSSLを超えていることを実証する。 これはSSLにおけるMLPプロジェクタに関する最初の理論的動機と説明を提供する。

Self-Supervised Learning (SSL) methods such as VICReg, Barlow Twins or W-MSE avoid collapse of their joint embedding architectures by constraining or regularizing the covariance matrix of their projector's output. This study highlights important properties of such strategy, which we coin Variance-Covariance regularization (VCReg). More precisely, we show that {\em VCReg combined to a MLP projector enforces pairwise independence between the features of the learned representation}. This result emerges by bridging VCReg applied on the projector's output to kernel independence criteria applied on the projector's input. We empirically validate our findings where (i) we put in evidence which projector's characteristics favor pairwise independence, (ii) we demonstrate pairwise independence to be beneficial for out-of-domain generalization, (iii) we demonstrate that the scope of VCReg goes beyond SSL by using it to solve Independent Component Analysis. This provides the first theoretical motivation and explanation of MLP projectors in SSL.
翻訳日:2024-02-15 20:39:18 公開日:2024-02-14
# FakeNews: GANによるリアルな3Dボリュームデータの生成 -- 体系的レビューと分類

FakeNews: GAN-based generation of realistic 3D volumetric data -- A systematic review and taxonomy ( http://arxiv.org/abs/2207.01390v2 )

ライセンス: Link先を確認
Andr\'e Ferreira, Jianning Li, Kelsey L. Pomykala, Jens Kleesiek, Victor Alves, Jan Egger(参考訳) ディープラーニングベースのアプローチなど,データ駆動型アルゴリズムの大量増加に伴い,高品質なデータの利用が注目されている。 容積データは、疾患の診断から治療モニタリングまで、医療において非常に重要である。 データセットが十分であれば、これらのタスクを医師を助けるためにモデルをトレーニングすることができる。 残念ながら、大量のデータが利用できないシナリオがあります。 例えば、まれな疾患やプライバシ上の問題は、データ可用性の制限につながる可能性がある。 非医療分野では、十分な高品質なデータを得るための高コストも懸念される。 これらの問題の解決策は、GAN(Generative Adversarial Networks)を用いたリアルな合成データの生成である。 これらのメカニズムの存在は、特に医療における優れた資産であり、データは高品質で現実的で、プライバシーの問題がない必要がある。 したがって、ボリュームgansに関する出版物の大部分は医療領域内にある。 本稿では,GANを用いたリアルなボリューム合成データを生成する作業の概要について述べる。 そこで我々は,これらの分野におけるganに基づく手法を,共通アーキテクチャ,損失関数,評価指標とともに概説する。 本稿では,新しい分類法,評価法,課題,研究の機会について紹介する。

With the massive proliferation of data-driven algorithms, such as deep learning-based approaches, the availability of high-quality data is of great interest. Volumetric data is very important in medicine, as it ranges from disease diagnoses to therapy monitoring. When the dataset is sufficient, models can be trained to help doctors with these tasks. Unfortunately, there are scenarios where large amounts of data is unavailable. For example, rare diseases and privacy issues can lead to restricted data availability. In non-medical fields, the high cost of obtaining enough high-quality data can also be a concern. A solution to these problems can be the generation of realistic synthetic data using Generative Adversarial Networks (GANs). The existence of these mechanisms is a good asset, especially in healthcare, as the data must be of good quality, realistic, and without privacy issues. Therefore, most of the publications on volumetric GANs are within the medical domain. In this review, we provide a summary of works that generate realistic volumetric synthetic data using GANs. We therefore outline GAN-based methods in these areas with common architectures, loss functions and evaluation metrics, including their advantages and disadvantages. We present a novel taxonomy, evaluations, challenges, and research opportunities to provide a holistic overview of the current state of volumetric GANs.
翻訳日:2024-02-15 20:38:31 公開日:2024-02-14
# 個体群間の分布安定性の向上

Enhancing Distributional Stability among Sub-populations ( http://arxiv.org/abs/2206.02990v2 )

ライセンス: Link先を確認
Jiashuo Liu, Jiayun Wu, Jie Peng, Xiaoyu Wu, Yang Zheng, Bo Li, Peng Cui(参考訳) 分散シフト下での機械学習アルゴリズムの安定性向上は、OOD(Out-of-Distribution)一般化問題の中心にある。 因果学習から派生した最近の不変学習は、複数の訓練環境と厳密な不変性を追求している。 直感的には合理的だが、環境の可用性と品質に関する強い仮定は、厳密な不変性を学ぶためになされる。 本研究では,このような制約を緩和する「分布安定性」の概念を考案する。 サブ集団間の予測機構の安定性を所定の規模まで定量化する。 そこで本研究では,学習可能性の仮定を提案し,分布シフト下での一般化誤差を導出する。 理論解析から着想を得て,予測メカニズム(Y|X$-shifts)におけるモデルの安定性を向上する,新しい安定リスク最小化(SRM)アルゴリズムを提案する。 実験結果は我々の直観と一致し,アルゴリズムの有効性を検証する。 コードはhttps://github.com/LJSthu/SRMにある。

Enhancing the stability of machine learning algorithms under distributional shifts is at the heart of the Out-of-Distribution (OOD) Generalization problem. Derived from causal learning, recent works of invariant learning pursue strict invariance with multiple training environments. Although intuitively reasonable, strong assumptions on the availability and quality of environments are made to learn the strict invariance property. In this work, we come up with the ``distributional stability" notion to mitigate such limitations. It quantifies the stability of prediction mechanisms among sub-populations down to a prescribed scale. Based on this, we propose the learnability assumption and derive the generalization error bound under distribution shifts. Inspired by theoretical analyses, we propose our novel stable risk minimization (SRM) algorithm to enhance the model's stability w.r.t. shifts in prediction mechanisms ($Y|X$-shifts). Experimental results are consistent with our intuition and validate the effectiveness of our algorithm. The code can be found at https://github.com/LJSthu/SRM.
翻訳日:2024-02-15 20:38:14 公開日:2024-02-14
# Frank-Wolfe を用いたニューラルネットワークの圧縮学習

Compression-aware Training of Neural Networks using Frank-Wolfe ( http://arxiv.org/abs/2205.11921v2 )

ライセンス: Link先を確認
Max Zimmer and Christoph Spiegel and Sebastian Pokutta(参考訳) 既存のニューラルネットワークプルーニングアプローチの多くは、トレーニング全体を通じてスパースソリューションに収束するために、リトレーニングまたは強いバイアスの誘発に頼っている。 第3のパラダイムである'compression-aware'トレーニングは、再トレーニングを避けながら、単一の集中トレーニング実行を使用して、幅広い圧縮比に堅牢な最先端の高密度モデルを得ることを目的としている。 本稿では, コンボリューションフィルタのプルーニングと低ランク行列分解に対して頑健性を誘導しながら, 解の収束を促進する, 規範制約の多彩な族と確率的frank-wolfe (sfw) アルゴリズムに基づく枠組みを提案する。 本手法は,既存の圧縮認識手法よりも優れており,低ランク行列分解の場合,核ノルム正規化に基づく手法に比べて計算資源が大幅に少ない。 Pokutta et al. (2020) が示唆しているように, SFWの学習速度を動的に調整することは, SFW訓練モデルの収束と堅牢性に不可欠であり, その実践の理論的基盤を確立している。

Many existing Neural Network pruning approaches rely on either retraining or inducing a strong bias in order to converge to a sparse solution throughout training. A third paradigm, 'compression-aware' training, aims to obtain state-of-the-art dense models that are robust to a wide range of compression ratios using a single dense training run while also avoiding retraining. We propose a framework centered around a versatile family of norm constraints and the Stochastic Frank-Wolfe (SFW) algorithm that encourage convergence to well-performing solutions while inducing robustness towards convolutional filter pruning and low-rank matrix decomposition. Our method is able to outperform existing compression-aware approaches and, in the case of low-rank matrix decomposition, it also requires significantly less computational resources than approaches based on nuclear-norm regularization. Our findings indicate that dynamically adjusting the learning rate of SFW, as suggested by Pokutta et al. (2020), is crucial for convergence and robustness of SFW-trained models and we establish a theoretical foundation for that practice.
翻訳日:2024-02-15 20:37:09 公開日:2024-02-14
# 純粋量子チャネルの分極に基づく量子極安定化符号は量子コンピューティングには役に立たない

Quantum polar stabilizer codes based on polarization of pure quantum channel don't work for quantum computing ( http://arxiv.org/abs/2204.11655v3 )

ライセンス: Link先を確認
Zhengzhong Yi, Zhipeng Liang, Yulin Wu and Xuan Wang(参考訳) シャノン容量を漸近的に達成できる古典的な極性符号に触発された研究者たちは、量子極性コードと呼ばれる量子情報フィールドにおける類似物を見つけようとしている。 しかし、量子コンピューティングに適用可能な量子極性符号化スキームは誰も設計していない。 前の研究には2つの直観がある。 1つ目は、古典的極性符号化回路を量子回路に直接変換することで、純粋な量子チャネルの分極現象が生まれるということです。 第二に、この量子分極現象に基づき、量子コンピューティングに適用できる量子極符号化スキームを設計することができる。 第2の直観の後、いくつかの先行研究があるが、いずれも実験によって検証されていない。 本稿では,第2の直観に従い,安定化器符号の理論を用いて,従来よりも合理的な量子極安定化器符号構築アルゴリズムを提案する。 残念なことに、シミュレーション実験では、このより合理的な構成アルゴリズムから得られる安定化符号でさえ動作せず、2番目の直観がデッドエンドにつながることを示している。 第2の直観が機能しない理由の解析に基づいて,古典的極性符号の考え方を借用し,高い符号化率で量子安定化符号を設計するための今後の方向性を示す。 この方向に従って、純パウリX, Z, Y雑音に対する符号率0.5の量子安定器符号のクラスを見つける。

Inspired by classical polar codes, whose coding rate can asymptotically achieve the Shannon capacity, researchers are trying to find its analogue in quantum information field, which are called quantum polar codes. However, no one has designed a quantum polar coding scheme which applies to quantum computing yet. There are two intuitions in previous research. The first is that directly converting classical polar coding circuits to quantum ones will produce polarization phenomenon of pure quantum channel, which has been proved in our previous work. The second is that based on this quantum polarization phenomenon one can design a quantum polar coding scheme that applies to quantum computing. There are several previous work following the second intuition, none of which has been verified by experiments. In this paper, we follow the second intuition and propose a more reasonable quantum polar stabilizer code construction algorithm than any previous ones by using the theory of stabilizer codes. Unfortunately, simulation experiments show that even the stabilizer codes obtained from this more reasonable construction algorithm don't work, which implies that the second intuition leads to a dead end. Based on the analysis on why the second intuition don't work, we provide a possible future direction of designing quantum stabilizer codes with high coding rate by borrowing the idea of classical polar codes. following this direction, we find a class of quantum stabilizer codes with coding rate 0.5 for pure Pauli X, Z and Y noise.
翻訳日:2024-02-15 20:36:27 公開日:2024-02-14
# 登録報告:ソフトウェア工学実験における金融インセンティブの異なるスキームの利用実験

Registered Report: A Laboratory Experiment on Using Different Financial-Incentivization Schemes in Software-Engineering Experimentation ( http://arxiv.org/abs/2202.10985v4 )

ライセンス: Link先を確認
Jacob Kr\"uger (1), G\"ul \c{C}al{\i}kl{\i} (2), Dmitri Bershadskyy (3), Robert Heyer (3), Sarah Zabel (3 and 4), Siegmar Otto (3 and 4) ((1) Ruhr-University Bochum Germany (2) University of Glasgow UK, (3) Otto-von-Guericke University Magdeburg Germany, (4) University of Hohenheim Germany)(参考訳) ソフトウェアエンジニアリングにおける実証的研究は、しばしばオープンソース開発者や産業コラボレーションによって行われる。 この結果、経済的インセンティブ(例えば金、ブーチャー)を参加者の行動を動機づける戦略として使う実験はほとんどなく、経済や心理学など他の研究コミュニティで一般的に行われている。 SIGSOFT Empirical Standardsの現行版でさえ、調査の完了のみの報酬について言及しているが、実際の世界を模倣したり、実験中に現実的な行動を動機付けるためのものではない。 したがって、金融インセンティブがソフトウェアエンジニアリングの実験に有効であるかどうかについての理解の欠如がある。 この問題に対処するため,我々は,制御された実験室実験を行うための調査を計画している。 正確には、調査によって、実験中のコードレビュータスク中の4つのペイオフ機能(すなわち、実験における選択やパフォーマンスのマッピング)として採用するインセンティブ化スキーム、(1)従業員が好むスキーム、(2)実際に採用されるスキーム、(3)パフォーマンス非依存のスキーム、(4)オープンソースのシナリオを模倣したスキームを導き出す。 対象間の設計を用いて、異なるスキームが参加者のパフォーマンスに与える影響を検討する。 私たちのコントリビューションは、実験における開発者に対する金銭的インセンティブの影響、実世界のシナリオ、実験の設計における研究者の指導、開発者補償のための組織などを理解するのに役立ちます。

Empirical studies in software engineering are often conducted with open-source developers or in industrial collaborations. Seemingly, this resulted in few experiments using financial incentives (e.g., money, vouchers) as a strategy to motivate the participants' behavior; which is typically done in other research communities, such as economics or psychology. Even the current version of the SIGSOFT Empirical Standards does mention payouts for completing surveys only, but not for mimicking the real-world or motivating realistic behavior during experiments. So, there is a lack of understanding regarding whether financial incentives can or cannot be useful for software-engineering experimentation. To tackle this problem, we plan a survey based on which we will conduct a controlled laboratory experiment. Precisely, we will use the survey to elicit incentivization schemes we will employ as (up to) four payoff functions (i.e., mappings of choices or performance in an experiment to a monetary payment) during a code-review task in the experiment: (1) a scheme that employees prefer, (2) a scheme that is actually employed, (3) a scheme that is performance-independent, and (4) a scheme that mimics an open-source scenario. Using a between-subject design, we aim to explore how the different schemes impact the participants' performance. Our contributions help understand the impact of financial incentives on developers in experiments as well as real-world scenarios, guiding researchers in designing experiments and organizations in compensating developers.
翻訳日:2024-02-15 20:35:16 公開日:2024-02-14
# gaas量子ドット型エンタングル光子における電荷の光中立化

Photoneutralization of charges in GaAs quantum dot based entangled photon emitters ( http://arxiv.org/abs/2110.02346v3 )

ライセンス: Link先を確認
Jingzhong Yang, Tom Fandrich, Frederik Benthin, Robert Keil, Nand Lal Sharma, Weijie Nie, Caspar Hopfmann, Oliver G. Schmidt, Michael Zopf, Fei Ding(参考訳) 対光量子エンタングルメントの半導体ベースのエミッタは、フォトニック量子技術の有望な構成要素である。 それらは、多光子放出が少ないオンデマンドで離散的なフォトニック状態を生成する能力、ほぼ一元的なエンタングルメント忠実性、高い単一光子識別性で知られている。 しかし、量子ドットは通常、発光の点滅に悩まされ、ソースの効率を低下させ、量子ネットワークにおけるスケーラブルな応用を妨げる。 本稿では,中性二励起子の2光子共鳴励起下でのGaAs/AlGaAs量子ドット中における中性励起子放出の断続性について検討・調整する。 我々は、量子ドット放射の波長可変ゲートレーザーに対するスペクトルおよび量子光学的応答について検討し、電荷捕獲による固有のクーロン遮断による点滅を明らかにする。 その結果, 量子ドット近傍の自由電子とホールのバランスを制御し, 量子効率を30%向上させることにより, 発光焼入れを積極的に抑制できることが判明した。

Semiconductor-based emitters of pairwise photonic entanglement are a promising constituent of photonic quantum technologies. They are known for the ability to generate discrete photonic states on-demand with low multiphoton emission, near-unity entanglement fidelity, and high single photon indistinguishability. However, quantum dots typically suffer from luminescence blinking, lowering the efficiency of the source and hampering their scalable application in quantum networks. In this paper, we investigate and adjust the intermittence of the neutral exciton emission in a GaAs/AlGaAs quantum dot under two-photon resonant excitation of the neutral biexciton. We investigate the spectral and quantum optical response of the quantum dot emission to an additional wavelength tunable gate laser, revealing blinking caused by the intrinsic Coulomb blockade due to charge capture processes. Our finding demonstrates that the emission quenching can be actively suppressed by controlling the balance of free electrons and holes in the vicinity of the quantum dot and thereby significantly increasing the quantum efficiency by 30%.
翻訳日:2024-02-15 20:34:44 公開日:2024-02-14
# 量子回路は2次元多体局在遷移点を再現する

Quantum Circuits Reproduce Experimental Two-dimensional Many-body Localization Transition Point ( http://arxiv.org/abs/2108.08268v3 )

ライセンス: Link先を確認
Joey Li, Amos Chan, Thorsten B. Wahl(参考訳) 多くの研究は多体局在 (mbl) の存在を1次元で示しているが、高次元の強乱システムの運命は現在の議論の主題である。 最新の実験と最近の数値研究により、このようなシステムは、少なくとも実際は関連する時間スケールで、多体局所的に振る舞うことが示されている。しかし、これまでの理論的アプローチでは、実験的に測定されたMBLの特徴を定量的に再現することは、その妥当性を示す重要な要件である。 本研究では,フェルミイオン光格子実験で実現される2次元mbl系の固有状態の完全集合を近似するための変分法としてフェルミイオン量子回路を用いる。 エンタングルメントに基づく特徴量を用いて,実験値とよく一致した相転移点を求める。 さらに,従来の文献では解決されていない重要な特徴である充填率依存性mbl相図を計算した。 我々のアプローチは基礎となる電荷密度波の実験を最もよく捉え、平均局在長を計算し、将来の実験と比較することができる。

While many studies point towards the existence of many-body localization (MBL) in one dimension, the fate of higher-dimensional strongly disordered systems is a topic of current debate. The latest experiments as well as several recent numerical studies indicate that such systems behave many-body localized -- at least on practically relevant time scales. However, thus far, theoretical approaches have been unable to quantitatively reproduce experimentally measured MBL features -- an important requirement to demonstrate their validity. In this work, we use fermionic quantum circuits as a variational method to approximate the full set of eigenstates of two-dimensional MBL systems realized in fermionic optical lattice experiments. Using entanglement-based features, we obtain a phase transition point in excellent agreement with the experimentally measured value. Moreover, we calculate, the filling fraction-dependent MBL phase diagram, an important feature which has not been addressed in previous literature. We argue that our approach best captures the underlying charge-density-wave experiments and compute the mean localization lengths, which can be compared to future experiments.
翻訳日:2024-02-15 20:34:27 公開日:2024-02-14
# 層状材料を用いた光学系の定常2状態系

Stationary Two-State System in Optics using Layered Materials ( http://arxiv.org/abs/2303.08395v3 )

ライセンス: Link先を確認
Ken-ichi Sasaki(参考訳) グラフェンの場合のように、電子が平らな表面に閉じ込められた状態で電気力学が量子化されると、マクスウェル方程式の1つがハミルトニアンの局所成分として現れる。 局所ハミルトニアンに対する残留ゲージ不変性により、物理的状態に対する非自明な制約が生じることを示した。 我々は、エネルギー期待値ゼロの2つの定常量子状態を構成する。1つは、古典光学でよく知られた現象である光の散乱と吸収を再現し、もう1つは光子生成と基本的に関連している。 ハミルトニアンによれば、これらの2つの状態は分離できず、2つの状態系を形成する。 しかし、2つの状態が分離する特定の数の曲面が存在する。 この数は 2/\pi \alpha$ であり、$\pi \alpha$ は単一の表面の吸収確率である。 このような分離された場合に現れる物理を探求するために、パリティ、軸(擬似)ゲージ場、表面変形といった概念を利用して、対称性を考慮した2状態系に影響を与えるある種の摂動について検討する。

When electrodynamics is quantized in a situation where electrons are confined to a flat surface, as in the case of graphene, one of the Maxwell's equations emerges as a local component of the Hamiltonian. We demonstrate that, owing to the residual gauge invariance for the local Hamiltonian, nontrivial constraints on physical states arise. We construct two stationary quantum states with a zero energy expectation value: one replicates the scattering and absorption of light, a phenomenon familiar in classical optics, while the other is more fundamentally associated with photon creation. According to the Hamiltonian, these two states are inseparable, forming a two-state system. However, there exists a specific number of surfaces for which the two states become decoupled. This number is $2/\pi \alpha$, where $\pi \alpha$ is the absorption probability of a single surface. To explore the physics that can emerge in such decoupled cases, we investigate certain perturbations that can influence a two-state system based on symmetry considerations, utilizing concepts such as parity, axial (pseudo) gauge fields, and surface deformation.
翻訳日:2024-02-15 20:26:45 公開日:2024-02-14
# ledetection: セミ教師付き少数ショットオブジェクト検出のためのシンプルなフレームワーク

LEDetection: A Simple Framework for Semi-Supervised Few-Shot Object Detection ( http://arxiv.org/abs/2303.05739v3 )

ライセンス: Link先を確認
Phi Vu Tran(参考訳) Few-shot Object Detection (FSOD) は、いくつかの例から新しい概念を検出することを目的とした課題である。 fsodに対する既存のアプローチはすべて、新しいオブジェクトに適応するために豊富なベースラベルを仮定している。 本稿では,ベースラベルと新規ラベルが同時に不足する現実的なシナリオを考慮し,半教師付きFSODの新しい課題について考察する。 我々は,提案するラベル効率検出フレームワークにおけるラベルなしデータの有用性を探究し,領域提案による半教師付きfsodの高速化能力を見出した。 この発見に動機づけられたsofter teacherは,疑似ラベルと領域提案の一貫性学習を組み合わせたロバストな検出器であり,ラベルのないデータを活用することで,ラベルの豊富さに頼らずにfsodを改善する。 厳密な実験により、SoftER Teacherは、必要なベースラベルの10%しか必要とせず、以前のアプローチで観測された破滅的な忘れをせずに、強力な教師付き検出器の新たな性能を上回ることが示されている。 また, 半教師検出と少数ショット検出の間には, より強力な半教師検出がより効果的な少数ショット検出に繋がる可能性が示唆されている。

Few-shot object detection (FSOD) is a challenging problem aimed at detecting novel concepts from few exemplars. Existing approaches to FSOD all assume abundant base labels to adapt to novel objects. This paper studies the new task of semi-supervised FSOD by considering a realistic scenario in which both base and novel labels are simultaneously scarce. We explore the utility of unlabeled data within our proposed label-efficient detection framework and discover its remarkable ability to boost semi-supervised FSOD by way of region proposals. Motivated by this finding, we introduce SoftER Teacher, a robust detector combining pseudo-labeling with consistency learning on region proposals, to harness unlabeled data for improved FSOD without relying on abundant labels. Rigorous experiments show that SoftER Teacher surpasses the novel performance of a strong supervised detector using only 10% of required base labels, without catastrophic forgetting observed in prior approaches. Our work also sheds light on a potential relationship between semi-supervised and few-shot detection suggesting that a stronger semi-supervised detector leads to a more effective few-shot detector.
翻訳日:2024-02-15 20:26:26 公開日:2024-02-14
# 因果深層学習

Causal Deep Learning ( http://arxiv.org/abs/2303.02186v2 )

ライセンス: Link先を確認
Jeroen Berrevoets, Krzysztof Kacprzyk, Zhaozhi Qian, Mihaela van der Schaar(参考訳) 因果関係は多くの現実世界の問題を解決する方法を真に変える可能性がある。 しかし、因果関係は多くの場合、実際にテストできない重要な仮定を必要とするため、今のところその可能性はほとんど解かれていない。 この課題に対処するため、私たちは因果関係に関する新しい考え方を提案します。 Our causal deep learning framework spans three dimensions: (1) a structural dimension, which incorporates partial yet testable causal knowledge rather than assuming either complete or no causal knowledge among the variables of interest; (2) a parametric dimension, which encompasses parametric forms that capture the type of relationships among the variables of interest; and (3) a temporal dimension, which captures exposure times or how the variables of interest interact (possibly causally) over time. 因果深い学習は、変数間の非依存性を含む部分的因果的知識を活用し、興味のある変数間の因果的関係を定量的に特徴づけ(おそらく時間とともに)、様々な実世界の問題を進行させることができる。 私たちのフレームワークは、どの仮定がテスト可能で、どれがテストできないかを明確に特定します。 私たちの定式化を使用することで、因果関係表現を組み合わせるか、連鎖させることで、これらのソリューションを構築するのに必要な仮定を追跡することなく、因果関係深層学習を通じて、医療、経済、ビジネス、環境科学、教育における現実世界の影響を後押しすることができる。

Causality has the potential to truly transform the way we solve a large number of real-world problems. Yet, so far, its potential largely remains to be unlocked as causality often requires crucial assumptions which cannot be tested in practice. To address this challenge, we propose a new way of thinking about causality -- we call this causal deep learning. Our causal deep learning framework spans three dimensions: (1) a structural dimension, which incorporates partial yet testable causal knowledge rather than assuming either complete or no causal knowledge among the variables of interest; (2) a parametric dimension, which encompasses parametric forms that capture the type of relationships among the variables of interest; and (3) a temporal dimension, which captures exposure times or how the variables of interest interact (possibly causally) over time. Causal deep learning enables us to make progress on a variety of real-world problems by leveraging partial causal knowledge (including independencies among variables) and quantitatively characterising causal relationships among variables of interest (possibly over time). Our framework clearly identifies which assumptions are testable and which ones are not, such that the resulting solutions can be judiciously adopted in practice. Using our formulation we can combine or chain together causal representations to solve specific problems without losing track of which assumptions are required to build these solutions, pushing real-world impact in healthcare, economics and business, environmental sciences and education, through causal deep learning.
翻訳日:2024-02-15 20:26:05 公開日:2024-02-14
# 多エージェントシステムにおける逐次決定過程の因果説明

Causal Explanations for Sequential Decision-Making in Multi-Agent Systems ( http://arxiv.org/abs/2302.10809v4 )

ライセンス: Link先を確認
Balint Gyevnar, Cheng Wang, Christopher G. Lucas, Shay B. Cohen, Stefano V. Albrecht(参考訳) マルチエージェントシステムにおける因果説明(causal explanations in multi-agent systems)、すなわち、より信頼できる自律エージェントを構築するために、動的に連続するマルチエージェントシステムにおいてエージェントの決定を因果自然言語で説明するためのフレームワークである。 固定因果構造を仮定する以前の作業とは異なり、CEMAはシステムの状態を前方シミュレーションするためにのみ確率論的モデルを必要とする。 このようなモデルを用いて、CEMAはエージェントの決定の背後にある健全な原因を特定する反事実世界をシミュレートする。 自動走行の動作計画におけるCEMAの評価を行い,様々なシミュレーションシナリオで検証した。 CEMAは,多数のエージェントが存在する場合でも,エージェントの意思決定の背景にある原因を正しくかつ堅牢に特定し,CEMAの説明が自律走行車に対する参加者の信頼に肯定的な影響を及ぼし,他の参加者から引き出された高品質のベースライン説明と評価されていることを示す。 HEADDデータセットとしてアノテーションで収集した説明をリリースします。

We present CEMA: Causal Explanations in Multi-Agent systems; a framework for creating causal natural language explanations of an agent's decisions in dynamic sequential multi-agent systems to build more trustworthy autonomous agents. Unlike prior work that assumes a fixed causal structure, CEMA only requires a probabilistic model for forward-simulating the state of the system. Using such a model, CEMA simulates counterfactual worlds that identify the salient causes behind the agent's decisions. We evaluate CEMA on the task of motion planning for autonomous driving and test it in diverse simulated scenarios. We show that CEMA correctly and robustly identifies the causes behind the agent's decisions, even when a large number of other agents is present, and show via a user study that CEMA's explanations have a positive effect on participants' trust in autonomous vehicles and are rated as high as high-quality baseline explanations elicited from other participants. We release the collected explanations with annotations as the HEADD dataset.
翻訳日:2024-02-15 20:25:39 公開日:2024-02-14
# 時間差学習の統計的利点について

On the Statistical Benefits of Temporal Difference Learning ( http://arxiv.org/abs/2301.13289v3 )

ライセンス: Link先を確認
David Cheikhi and Daniel Russo(参考訳) アクションに関するデータセットと結果として生じる長期的な報酬が与えられた場合、直接推定アプローチは、トレーニングデータの予測誤差を最小化する値関数に適合する。 時間差学習(TD)法は、連続した時間ステップにおける推定値の時間的矛盾を最小化することにより、値関数に適合する。 有限状態マルコフ連鎖に焦点をあてて、このアプローチの統計的利点の鮮明な漸近理論を提供する。 まず,直観的な逆軌道プーリング係数が,推定値の平均二乗誤差のパーセント減少を完全に特徴付けることを示す。 問題構造によっては、削減は巨大または存在しない可能性がある。 次に、tdの誤差は、新しい尺度(問題の軌道横断時間)の観点で境界化されており、問題の時間軸よりもずっと小さい可能性がある。

Given a dataset on actions and resulting long-term rewards, a direct estimation approach fits value functions that minimize prediction error on the training data. Temporal difference learning (TD) methods instead fit value functions by minimizing the degree of temporal inconsistency between estimates made at successive time-steps. Focusing on finite state Markov chains, we provide a crisp asymptotic theory of the statistical advantages of this approach. First, we show that an intuitive inverse trajectory pooling coefficient completely characterizes the percent reduction in mean-squared error of value estimates. Depending on problem structure, the reduction could be enormous or nonexistent. Next, we prove that there can be dramatic improvements in estimates of the difference in value-to-go for two states: TD's errors are bounded in terms of a novel measure - the problem's trajectory crossing time - which can be much smaller than the problem's time horizon.
翻訳日:2024-02-15 20:25:17 公開日:2024-02-14
# マルコフ決定過程のための最適決定木政策

Optimal Decision Tree Policies for Markov Decision Processes ( http://arxiv.org/abs/2301.13185v2 )

ライセンス: Link先を確認
Dani\"el Vos and Sicco Verwer(参考訳) 強化学習政策の解釈可能性は多くの実世界の課題に不可欠であるが、そのような解釈可能な政策の学習は難しい問題である。 特に、決定木やルールリストのようなルールベースのポリシーは、その非微分性のために最適化が難しい。 既存の手法では検証可能な決定木ポリシーを学習できるが、学習者が最適な決定木を生成する保証はない。 本研究では,マルコフ決定過程(MPD)のサイズ制限決定木の最適化について検討し,最適MDP決定木を提案する。 ユーザ定義サイズ制限とMDP定式化 OMDT が与えられた場合、Mixed-Integer Linear Programming を用いて、決定木に対する期待値の値引きを直接最大化する。 異なるMDPに対する最適決定木ポリシーを訓練することにより、既存の模倣学習手法の最適性ギャップを経験的に研究し、それらが準最適に実行されることを確認する。 これは模倣学習が本質的に欠如していること、すなわち、複雑なポリシーはサイズ制限木を使って表現できないことによるものである。 そのような場合、期待した戻りのためにツリーを直接最適化する方がよい。 一般的に、機械学習モデルの性能と解釈可能性の間にはトレードオフがあるが、3の深さに制限されたOMDTは、しばしば最適限に近い性能を示す。

Interpretability of reinforcement learning policies is essential for many real-world tasks but learning such interpretable policies is a hard problem. Particularly rule-based policies such as decision trees and rules lists are difficult to optimize due to their non-differentiability. While existing techniques can learn verifiable decision tree policies there is no guarantee that the learners generate a decision that performs optimally. In this work, we study the optimization of size-limited decision trees for Markov Decision Processes (MPDs) and propose OMDTs: Optimal MDP Decision Trees. Given a user-defined size limit and MDP formulation OMDT directly maximizes the expected discounted return for the decision tree using Mixed-Integer Linear Programming. By training optimal decision tree policies for different MDPs we empirically study the optimality gap for existing imitation learning techniques and find that they perform sub-optimally. We show that this is due to an inherent shortcoming of imitation learning, namely that complex policies cannot be represented using size-limited trees. In such cases, it is better to directly optimize the tree for expected return. While there is generally a trade-off between the performance and interpretability of machine learning models, we find that OMDTs limited to a depth of 3 often perform close to the optimal limit.
翻訳日:2024-02-15 20:24:59 公開日:2024-02-14
# 回転波近似の改ざん

Taming the Rotating Wave Approximation ( http://arxiv.org/abs/2301.02269v2 )

ライセンス: Link先を確認
Daniel Burgarth, Paolo Facchi, Robin Hillier, Marilena Ligab\`o(参考訳) 光と物質の間の相互作用は、量子力学の最も古い研究分野の1つであり、新しい洞察と応用を提供し続ける分野である。 キャビティと回路の量子電気力学の到来により、量子テクノロジーのほとんどの実装の基礎となる強い光・物質結合を達成することができる。 しかし、量子情報処理は、有用なアプリケーションにスケーラブルな(フォールトトレラント)ために、全エラー率の比率を必要とする高い要求もある。 誤差はモデリングからも生じるため、量子論の重要な近似である量子ラビモデルの回転波近似 (rwa) の中心段階の一つとなり、jaynes-cummings hamiltonian へと繋がる。 RWAは、しばしば光-物質相互作用を理解するのに非常に良いものであり、非常に有用であるが、それが悪い近似であることを示す実験的な証拠も増えている。 ここでは、より難しい質問に答える:どの実験パラメータがRWAであるか、そしておそらく定性的に適切だが、スケーラブルな量子技術の要求に合致するほど十分ではない。 例えば、エラーは少なくともいつ、そしてせいぜい1%なのか? これに対応するために、我々はrwaを改ざんする厳密な非摂動境界を開発する。 これらの境界は, 結合強度と発振周波数の比だけでなく, 初期状態における光子の平均数にも依存することがわかった。 これは、フォトンドレッシングブロッホ・シーゲルトシフトに関する最近の実験を裏付ける。 我々は、数百個の光子による制御可能な空洞状態の報告と、さらに多くのフォック空間を探索する量子誤差訂正符号により、このrwaの状態依存性が量子計算の分野に益々関連し、その結果がこれらの実験をよりよく理解するための道を開くと論じている。

The interaction between light and matter is one of the oldest research areas of quantum mechanics, and a field that just keeps on delivering new insights and applications. With the arrival of cavity and circuit quantum electrodynamics we can now achieve strong light-matter couplings which form the basis of most implementations of quantum technology. But quantum information processing also has high demands requiring total error rates of fractions of percentage in order to be scalable (fault-tolerant) to useful applications. Since errors can also arise from modelling, this has brought into center stage one of the key approximations of quantum theory, the Rotating Wave Approximation (RWA) of the quantum Rabi model, leading to the Jaynes-Cummings Hamiltonian. While the RWA is often very good and incredibly useful to understand light-matter interactions, there is also growing experimental evidence of regimes where it is a bad approximation. Here, we ask and answer a harder question: for which experimental parameters is the RWA, although perhaps qualitatively adequate, already not good enough to match the demands of scalable quantum technology? For example, when is the error at least, and when at most, 1%? To answer this, we develop rigorous non-perturbative bounds taming the RWA. We find that these bounds not only depend, as expected, on the ratio of the coupling strength and the oscillator frequency, but also on the average number of photons in the initial state. This confirms recent experiments on photon-dressed Bloch-Siegert shifts. We argue that with experiments reporting controllable cavity states with hundreds of photons and with quantum error correcting codes exploring more and more of Fock space, this state-dependency of the RWA is increasingly relevant for the field of quantum computation, and our results pave the way towards a better understanding of those experiments.
翻訳日:2024-02-15 20:24:37 公開日:2024-02-14
# 実践ツールとしてのボヘミアン力学

Bohmian Mechanics as a Practical Tool ( http://arxiv.org/abs/2212.09671v3 )

ライセンス: Link先を確認
Xabier Oianguren-Asua, Carlos F. Destefani, Matteo Villani, David K. Ferry, Xavier Oriols(参考訳) 本章では,ボヘミアの力学とその微視的現実を記述する能力が,たとえ測定がなくても,現象学的にアクセス可能な情報(コペンハーゲン理論の支持者にも有用である)の予測を支援するために,計算ツールとして活用できる,いくつかのホットスポットを探索する。 As a first example, we will see how a Stochastic Schr\"odinger Equation, when used to compute the reduced density matrix of a non-Markovian open quantum system, necessarily seems to employ the Bohmian concept of a conditional wavefunction. We will see that by dressing these conditional wavefunctions with an interpretation, the Bohmian theory can prove to be a useful tool to build general quantum frameworks, like a high-frequency electron transport model. As a second example, we will introduce how a Copenhagen "observable operator" can be derived from numerical properties of the Bohmian trajectories, which within Bohmian mechanics, are well-defined even for an "unmeasured" system. 実際に最も重要なことは、たとえこれらの数に存在論的意味が与えられなくても、それらをシミュレートできるだけでなく、弱い値の実験で運用的に決定できるということに気づくことである。 したがって、それらは従う量子理論に関係なく量子系を特徴づける実用的な数となる。

In this chapter, we will take a trip around several hot-spots where Bohmian mechanics and its capacity to describe the microscopic reality, even in the absence of measurements, can be harnessed as computational tools, in order to help in the prediction of phenomenologically accessible information (also useful for the followers of the Copenhagen theory). As a first example, we will see how a Stochastic Schr\"odinger Equation, when used to compute the reduced density matrix of a non-Markovian open quantum system, necessarily seems to employ the Bohmian concept of a conditional wavefunction. We will see that by dressing these conditional wavefunctions with an interpretation, the Bohmian theory can prove to be a useful tool to build general quantum frameworks, like a high-frequency electron transport model. As a second example, we will introduce how a Copenhagen "observable operator" can be derived from numerical properties of the Bohmian trajectories, which within Bohmian mechanics, are well-defined even for an "unmeasured" system. Most importantly in practice, even if these numbers are given no ontological meaning, not only we will be able to simulate (thus, predict and talk about) them, but we will see that they can be operationally determined in a weak value experiment. Therefore, they will be practical numbers to characterize a quantum system irrespective of the followed quantum theory.
翻訳日:2024-02-15 20:23:39 公開日:2024-02-14
# 深層学習画像分類におけるデータとクラス別不確かさ推定のためのテスト時混合化

Test-Time Mixup Augmentation for Data and Class-Specific Uncertainty Estimation in Deep Learning Image Classification ( http://arxiv.org/abs/2212.00214v3 )

ライセンス: Link先を確認
Hansang Lee, Haeil Lee, Helen Hong, and Junmo Kim(参考訳) 訓練されたディープラーニングネットワークの不確実性推定は,学習効率の最適化とネットワーク予測の信頼性評価に有用である。 本稿では,ttma(test-time mixup augmentation)を用いたディープラーニング画像分類における不確かさ推定手法を提案する。 既往歴不確実性における正誤予測を識別する能力を向上させるため,データに混合増幅を適用し,予測されたラベルヒストグラムのエントロピーを測定することによりTTMAデータ不確実性(TTMA-DU)を導入する。 TTMA-DUに加えて,TTMAクラス固有不確実性(TTMA-CSU)を提案する。 提案手法をisic-18皮膚病変診断データセットとcifar-100実世界の画像分類データセットで検証した。 実験により,(1)TTMA-DUは,混合摂動による既存の不確実性対策と比較して,正しい予測と誤予測をより効果的に区別し,(2)TTMA-CSUは,両データセットのクラス混乱とクラス類似性に関する情報を提供する。

Uncertainty estimation of trained deep learning networks is valuable for optimizing learning efficiency and evaluating the reliability of network predictions. In this paper, we propose a method for estimating uncertainty in deep learning image classification using test-time mixup augmentation (TTMA). To improve the ability to distinguish correct and incorrect predictions in existing aleatoric uncertainty, we introduce TTMA data uncertainty (TTMA-DU) by applying mixup augmentation to test data and measuring the entropy of the predicted label histogram. In addition to TTMA-DU, we propose TTMA class-specific uncertainty (TTMA-CSU), which captures aleatoric uncertainty specific to individual classes and provides insight into class confusion and class similarity within the trained network. We validate our proposed methods on the ISIC-18 skin lesion diagnosis dataset and the CIFAR-100 real-world image classification dataset. Our experiments show that (1) TTMA-DU more effectively differentiates correct and incorrect predictions compared to existing uncertainty measures due to mixup perturbation, and (2) TTMA-CSU provides information on class confusion and class similarity for both datasets.
翻訳日:2024-02-15 20:23:18 公開日:2024-02-14
# 任意混合データに対する高次元非指向グラフィカルモデル

High-Dimensional Undirected Graphical Models for Arbitrary Mixed Data ( http://arxiv.org/abs/2211.11700v2 )

ライセンス: Link先を確認
Konstantin G\"obler and Anne Miloschewski and Mathias Drton and Sach Mukherjee(参考訳) グラフィカルモデルは、複雑な多変量データの変数間の関係を探索する上で重要なツールである。 このようなグラフィカルモデルを学ぶ方法は、高次元を含む全ての変数が連続的または離散的である場合によく発達する。 しかし、多くのアプリケーションでは、データは異なるタイプの変数(例えば、連続、カウント、バイナリ、順序数など)にまたがる。 すべての変数が基礎となるガウス変数の変換としてモデル化される潜在ガウスコプラモデルは有用なアプローチである。 最近の進歩は、バイナリ連続ケースにどのように取り組めるかを示しているが、一般的な混合変数型構造は依然として困難である。 本研究では,ポリコリックおよびポリセリアル相関に関する古典的考えを,潜在ガウスコプラフレームワークで活用できるという,シンプルかつ有用な観察を行う。 この観察に基づいて,完全混合型の変数を持つデータに対して柔軟でスケーラブルな手法を提案する。 本研究は,英国のバイオバンクから得られたcovid-19リスク要因に関するデータに対して,広範囲なシミュレーションを行い,理論的および実証的手法の重要な特性について検討する。

Graphical models are an important tool in exploring relationships between variables in complex, multivariate data. Methods for learning such graphical models are well developed in the case where all variables are either continuous or discrete, including in high-dimensions. However, in many applications data span variables of different types (e.g. continuous, count, binary, ordinal, etc.), whose principled joint analysis is nontrivial. Latent Gaussian copula models, in which all variables are modeled as transformations of underlying jointly Gaussian variables, represent a useful approach. Recent advances have shown how the binary-continuous case can be tackled, but the general mixed variable type regime remains challenging. In this work, we make the simple yet useful observation that classical ideas concerning polychoric and polyserial correlations can be leveraged in a latent Gaussian copula framework. Building on this observation we propose flexible and scalable methodology for data with variables of entirely general mixed type. We study the key properties of the approaches theoretically and empirically, via extensive simulations as well an illustrative application to data from the UK Biobank concerning COVID-19 risk factors.
翻訳日:2024-02-15 20:22:35 公開日:2024-02-14
# 深層強化学習によるジョブショップスケジューリングの改善ヒューリスティック

Deep Reinforcement Learning Guided Improvement Heuristic for Job Shop Scheduling ( http://arxiv.org/abs/2211.10936v3 )

ライセンス: Link先を確認
Cong Zhang, Zhiguang Cao, Wen Song, Yaoxin Wu, Jie Zhang(参考訳) ジョブショップスケジューリング問題(JSSP)を解決するための深層強化学習(DRL)の最近の研究は、建設ヒューリスティックスに焦点を当てている。 しかし、基礎となるグラフ表現スキームは、各構成ステップにおける部分解のモデリングに適さないため、その性能は依然として最適とは程遠い。 本稿では,完全解の符号化にグラフ表現を用いる JSSP を解くための DRL 誘導型改良ヒューリスティックを提案する。 本研究では,2つのモジュールからなるグラフニューラルネットワークに基づく表現スキームの設計を行い,改善プロセス中に遭遇したグラフの動的トポロジ情報と異なるノードの種類を効果的に把握する。 改善中のソリューション評価を高速化するため,複数のソリューションを同時に評価できる新しいメッセージパッシング機構を提案する。 本手法の計算複雑性は問題の大きさに応じて線形にスケールすることを示す。 従来のベンチマーク実験では,本手法で学習した改善方針が,最先端のdrlベース手法よりも大きなマージンを示した。

Recent studies in using deep reinforcement learning (DRL) to solve Job-shop scheduling problems (JSSP) focus on construction heuristics. However, their performance is still far from optimality, mainly because the underlying graph representation scheme is unsuitable for modelling partial solutions at each construction step. This paper proposes a novel DRL-guided improvement heuristic for solving JSSP, where graph representation is employed to encode complete solutions. We design a Graph Neural-Network-based representation scheme, consisting of two modules to effectively capture the information of dynamic topology and different types of nodes in graphs encountered during the improvement process. To speed up solution evaluation during improvement, we present a novel message-passing mechanism that can evaluate multiple solutions simultaneously. We prove that the computational complexity of our method scales linearly with problem size. Experiments on classic benchmarks show that the improvement policy learned by our method outperforms state-of-the-art DRL-based methods by a large margin.
翻訳日:2024-02-15 20:22:09 公開日:2024-02-14
# 卵を割らないブラックボックス分類器の回避

Evading Black-box Classifiers Without Breaking Eggs ( http://arxiv.org/abs/2306.02895v2 )

ライセンス: Link先を確認
Edoardo Debenedetti, Nicholas Carlini and Florian Tram\`er(参考訳) 決定に基づく回避攻撃は、ブラックボックス分類器に繰り返し問い合わせて敵の例を生成する。 先行作業は、分類器に対するクエリの総数によって、そのような攻撃のコストを測定する。 私たちはこの指標に欠陥があると主張している。 ほとんどのセキュリティクリティカルな機械学習システムは、"悪い"データ(マルウェア、有害コンテンツなど)の排除を目指している。 このようなシステムへのクエリには、基本的に非対称なコストがかかる:"悪い"として検出されたクエリは、追加のセキュリティフィルタをトリガーする(例えば、使用制限やアカウントサスペンションなど)ため、より高いコストがかかる。 しかし、既存の決定に基づく攻撃は多数の"悪い"クエリを発行しており、セキュリティクリティカルなシステムに対して効果が低い可能性が高い。 次に、悪質なクエリの数を$1.5$~$7.3\times$で減らす新しい攻撃をデザインします。 したがって、現実的なコストメトリクスの下でより効果的であるブラックボックス攻撃を構築するためのオープンな問題であると考えています。

Decision-based evasion attacks repeatedly query a black-box classifier to generate adversarial examples. Prior work measures the cost of such attacks by the total number of queries made to the classifier. We argue this metric is flawed. Most security-critical machine learning systems aim to weed out "bad" data (e.g., malware, harmful content, etc). Queries to such systems carry a fundamentally asymmetric cost: queries detected as "bad" come at a higher cost because they trigger additional security filters, e.g., usage throttling or account suspension. Yet, we find that existing decision-based attacks issue a large number of "bad" queries, which likely renders them ineffective against security-critical systems. We then design new attacks that reduce the number of bad queries by $1.5$-$7.3\times$, but often at a significant increase in total (non-bad) queries. We thus pose it as an open problem to build black-box attacks that are more effective under realistic cost metrics.
翻訳日:2024-02-15 20:15:07 公開日:2024-02-14
# 高次元マーク付き時間点過程の条件生成モデル

Conditional Generative Modeling for High-dimensional Marked Temporal Point Processes ( http://arxiv.org/abs/2305.12569v3 )

ライセンス: Link先を確認
Zheng Dong, Zekai Fan, Shixiang Zhu(参考訳) ポイントプロセスはシーケンシャルなイベントモデリングのための汎用フレームワークを提供する。 しかし、既存のポイントプロセスモデルの計算課題と制約付き表現力は、より広範な応用の可能性を妨げている。 この制限は、テキストや画像などの多次元または高次元のマークに関連するイベントデータを扱う際に特に顕著になる。 そこで本研究では,高次元マークを用いたポイントプロセスモデリングのためのイベント生成フレームワークを提案する。 条件強度や確率密度関数を明示的に指定することなく,イベントの分布を捉えることを目的とする。 代わりに、イベントの履歴を入力として取り込んだ条件付きジェネレータを使用し、以前の観測結果から得られるであろう高品質な後続イベントを生成する。 提案するフレームワークには,多次元あるいは高次元のイベント空間における複雑なダイナミクスを捉えるための表現力や,モデル学習やサンプル生成における例外的な効率性など,数多くのメリットがある。 その結果,他の最先端のベースラインに比べて優れた性能を示した。

Point processes offer a versatile framework for sequential event modeling. However, the computational challenges and constrained representational power of the existing point process models have impeded their potential for wider applications. This limitation becomes especially pronounced when dealing with event data that is associated with multi-dimensional or high-dimensional marks such as texts or images. To address this challenge, this study proposes a novel event-generation framework for modeling point processes with high-dimensional marks. We aim to capture the distribution of events without explicitly specifying the conditional intensity or probability density function. Instead, we use a conditional generator that takes the history of events as input and generates the high-quality subsequent event that is likely to occur given the prior observations. The proposed framework offers a host of benefits, including considerable representational power to capture intricate dynamics in multi- or even high-dimensional event space, as well as exceptional efficiency in learning the model and generating samples. Our numerical results demonstrate superior performance compared to other state-of-the-art baselines.
翻訳日:2024-02-15 20:14:34 公開日:2024-02-14
# 任意遅延を伴う非定常オンライン凸最適化

Non-stationary Online Convex Optimization with Arbitrary Delays ( http://arxiv.org/abs/2305.12131v2 )

ライセンス: Link先を確認
Yuanyu Wan and Chang Yao and Mingli Song and Lijun Zhang(参考訳) オンライン凸最適化(oco: online convex optimization)は、勾配や他の関数の情報を任意に遅延させる任意の遅延を伴うが、近年注目を集めている。 定常環境に着目した従来の研究とは違って,非定常環境におけるOCOの遅延を調査し,コンパレータのシーケンスに対する動的後悔を最小限に抑えることを目的とする。 そこで本研究では,まず各遅延勾配に対して,到着順に応じて勾配降下ステップを実行する単純なアルゴリズムであるdogdを提案する。 その単純さにもかかわらず、我々の新しい分析では、doddの動的後悔は、穏やかな仮定の下で自動的に$o(\sqrt{\bar{d}t}(p_t+1))$、最悪の場合では$o(\sqrt{dt}(p_t+1))$、$\bar{d}$と$d$がそれぞれ平均と最大遅延を表し、$t$は時間軸であり、$p_t$は比較者の経路の長さである。 さらに,DOGDが達成した動的後悔境界を$O(\sqrt{\bar{d}T(P_T+1)})$と$O(\sqrt{dT(P_T+1)})$に削減する改良アルゴリズムを開発した。 重要なアイデアは、異なる学習率で複数のdogdを実行し、遅延したパフォーマンスに基づいて最良を追跡するためにmeta-algorithmを使用することである。 最後に,改良したアルゴリズムが最悪の場合,一致する下界を導出することにより最適であることを実証する。

Online convex optimization (OCO) with arbitrary delays, in which gradients or other information of functions could be arbitrarily delayed, has received increasing attention recently. Different from previous studies that focus on stationary environments, this paper investigates the delayed OCO in non-stationary environments, and aims to minimize the dynamic regret with respect to any sequence of comparators. To this end, we first propose a simple algorithm, namely DOGD, which performs a gradient descent step for each delayed gradient according to their arrival order. Despite its simplicity, our novel analysis shows that the dynamic regret of DOGD can be automatically bounded by $O(\sqrt{\bar{d}T}(P_T+1))$ under mild assumptions, and $O(\sqrt{dT}(P_T+1))$ in the worst case, where $\bar{d}$ and $d$ denote the average and maximum delay respectively, $T$ is the time horizon, and $P_T$ is the path length of comparators. Furthermore, we develop an improved algorithm, which reduces those dynamic regret bounds achieved by DOGD to $O(\sqrt{\bar{d}T(P_T+1)})$ and $O(\sqrt{dT(P_T+1)})$, respectively. The key idea is to run multiple DOGD with different learning rates, and utilize a meta-algorithm to track the best one based on their delayed performance. Finally, we demonstrate that our improved algorithm is optimal in the worst case by deriving a matching lower bound.
翻訳日:2024-02-15 20:14:18 公開日:2024-02-14
# グラフ上の転送演算子:スペクトルクラスタリングとbeyond

Transfer operators on graphs: Spectral clustering and beyond ( http://arxiv.org/abs/2305.11766v2 )

ライセンス: Link先を確認
Stefan Klus, Maia Trower(参考訳) グラフとネットワークは、輸送ネットワーク、集積回路、電力グリッド、引用グラフ、生物学的および人工的なニューラルネットワークなどの複雑な相互接続システムのモデリングと分析において重要な役割を果たす。 グラフクラスタリングアルゴリズムは、強く連結された頂点のグループを検出し、粗粒モデルを導出するために使うことができる。 グラフ上のkoopman演算子やperron-frobenius演算子のような転送演算子を定義し、それらのスペクトル特性を研究し、これらの演算子のガレルキン射影を導入し、データからどのように縮小表現を推定できるかを示す。 特に、無向グラフのスペクトルクラスタリングをクープマン作用素の固有関数を用いて解釈し、一般化された転送作用素に基づく有向グラフの新しいクラスタリングアルゴリズムを提案する。 本研究では,複数のベンチマーク問題に対するアルゴリズムの有効性を実証し,クラスタの異なる解釈を提供する。

Graphs and networks play an important role in modeling and analyzing complex interconnected systems such as transportation networks, integrated circuits, power grids, citation graphs, and biological and artificial neural networks. Graph clustering algorithms can be used to detect groups of strongly connected vertices and to derive coarse-grained models. We define transfer operators such as the Koopman operator and the Perron-Frobenius operator on graphs, study their spectral properties, introduce Galerkin projections of these operators, and illustrate how reduced representations can be estimated from data. In particular, we show that spectral clustering of undirected graphs can be interpreted in terms of eigenfunctions of the Koopman operator and propose novel clustering algorithms for directed graphs based on generalized transfer operators. We demonstrate the efficacy of the resulting algorithms on several benchmark problems and provide different interpretations of clusters.
翻訳日:2024-02-15 20:13:22 公開日:2024-02-14
# CM-MaskSD:画像セグメント参照のためのクロスモダリティ仮設自己蒸留

CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image Segmentation ( http://arxiv.org/abs/2305.11481v3 )

ライセンス: Link先を確認
Wenxuan Wang, Jing Liu, Xingjian He, Yisi Zhang, Chen Chen, Jiachen Shen, Yan Zhang, Jiangyun Li(参考訳) 参照画像セグメンテーション(RIS)は、所与の自然言語表現に基づいた画像から所望のオブジェクトをセグメントする基本的な視覚言語タスクである。 画像とテキストの間に本質的に異なるデータ特性があるため、既存の手法のほとんどは、細粒度の視覚言語アライメントに向けた複雑な設計を導入するか、あるいは高密度なアライメントが欠如しているため、スケーラビリティの問題や過度なセグメンテーションやアンダーセグメンテーションのようなミスセグメンテーションの問題を引き起こす。 risタスクで効果的かつ効率的な細粒化機能アライメントを実現するために, 自己蒸留を併用したマスク型マルチモーダルモデリングの可能性を検討し, cm-masksdと呼ばれる新しいクロスモダリティマスク型自己蒸留フレームワークを提案し, クリップモデルから画像テキスト意味アライメントの伝達知識を継承し, セグメント精度を向上させるためのパッチワード特徴アライメントを実現する。 さらに,本手法では,主セグメント分割枝と導入した自己蒸留枝との重みを共有でき,マルチモーダル特徴をコーディネートするための無視可能なパラメータのみを導入するため,モデル性能をほぼパラメータフリーで大幅に向上させることができる。 RISタスクに対する3つのベンチマークデータセット(RefCOCO、RefCOCO+、G-Ref)の総合的な実験により、提案したフレームワークが従来の最先端手法よりも優れていることを示す。

Referring image segmentation (RIS) is a fundamental vision-language task that intends to segment a desired object from an image based on a given natural language expression. Due to the essentially distinct data properties between image and text, most of existing methods either introduce complex designs towards fine-grained vision-language alignment or lack required dense alignment, resulting in scalability issues or mis-segmentation problems such as over- or under-segmentation. To achieve effective and efficient fine-grained feature alignment in the RIS task, we explore the potential of masked multimodal modeling coupled with self-distillation and propose a novel cross-modality masked self-distillation framework named CM-MaskSD, in which our method inherits the transferred knowledge of image-text semantic alignment from CLIP model to realize fine-grained patch-word feature alignment for better segmentation accuracy. Moreover, our CM-MaskSD framework can considerably boost model performance in a nearly parameter-free manner, since it shares weights between the main segmentation branch and the introduced masked self-distillation branches, and solely introduces negligible parameters for coordinating the multimodal features. Comprehensive experiments on three benchmark datasets (i.e. RefCOCO, RefCOCO+, G-Ref) for the RIS task convincingly demonstrate the superiority of our proposed framework over previous state-of-the-art methods.
翻訳日:2024-02-15 20:12:37 公開日:2024-02-14
# トラップイオンプロセッサ上の非可換位相秩序とアノン

Non-Abelian Topological Order and Anyons on a Trapped-Ion Processor ( http://arxiv.org/abs/2305.03766v2 )

ライセンス: Link先を確認
Mohsin Iqbal, Nathanan Tantivasadakarn, Ruben Verresen, Sara L. Campbell, Joan M. Dreiling, Caroline Figgatt, John P. Gaebler, Jacob Johansen, Michael Mills, Steven A. Moses, Juan M. Pino, Anthony Ransford, Mary Rowe, Peter Siegfried, Russell P. Stutz, Michael Foss-Feig, Ashvin Vishwanath, and Henrik Dreyer(参考訳) 非可換位相次数 (non-abelian topological order, to) は、それらが交換される順序を記憶できる準粒子を含む、顕著な性質を持つ物質の対流状態である。 これらの正準励起は、フォールトトレラント量子コンピュータのブロックを構築することを約束している。 しかし、多くの努力にもかかわらず、非アベリアTOとその励起は、アベリアTOのより単純な準粒子や欠陥とは異なり、解明され続けている。 本研究では,非可換環を初めて非あいまいに実現し,そのアノンの制御を実証する。 QuantinuumのH2トラップイオン量子プロセッサ上の適応回路を用いて、27量子ビットのカゴメ格子上にD_4$TOの基底状態波動関数を生成し、サイト当たりの忠実度は9,8.4 %$を超える。 時空におけるボローム環に沿ったエノンの生成と移動により、エノン干渉計は本質的に非アベリアのブレイディング過程を検出する。 さらに、トーラスの周りの非アベリオンをトンネルすると、22の基底状態がすべて生成され、1つのエノンが励起状態となる。 この研究は非可換の直観に反する性質を示し、量子デバイスでの研究を可能にする。

Non-Abelian topological order (TO) is a coveted state of matter with remarkable properties, including quasiparticles that can remember the sequence in which they are exchanged. These anyonic excitations are promising building blocks of fault-tolerant quantum computers. However, despite extensive efforts, non-Abelian TO and its excitations have remained elusive, unlike the simpler quasiparticles or defects in Abelian TO. In this work, we present the first unambiguous realization of non-Abelian TO and demonstrate control of its anyons. Using an adaptive circuit on Quantinuum's H2 trapped-ion quantum processor, we create the ground state wavefunction of $D_4$ TO on a kagome lattice of 27 qubits, with fidelity per site exceeding $98.4\%$. By creating and moving anyons along Borromean rings in spacetime, anyon interferometry detects an intrinsically non-Abelian braiding process. Furthermore, tunneling non-Abelions around a torus creates all 22 ground states, as well as an excited state with a single anyon -- a peculiar feature of non-Abelian TO. This work illustrates the counterintuitive nature of non-Abelions and enables their study in quantum devices.
翻訳日:2024-02-15 20:11:33 公開日:2024-02-14
# LongForm: 逆命令による効果的なインストラクションチューニング

LongForm: Effective Instruction Tuning with Reverse Instructions ( http://arxiv.org/abs/2304.08460v2 )

ライセンス: Link先を確認
Abdullatif K\"oksal, Timo Schick, Anna Korhonen, Hinrich Sch\"utze(参考訳) インストラクションチューニングにより、言語モデルはより効果的に一般化され、ユーザの意図に従うことができる。 しかし、命令データを取得することは費用がかかり難い。 以前の作業では、高価なヒューマンアノテーション、アライメント問題を伴うクラウドソースデータセット、llmによる騒がしいサンプル生成などの手法が採用されている。 逆命令によって生成されるLongForm-Cデータセットを紹介する。 逆命令を用いた人書きコーパスの例を LLM で生成する。 まず、C4やウィキペディアなどのコーパスから多種多様な人文文書を選択し、LLMを通してこれらの文書の指示を生成する。 このアプローチは、自然出力と長いテキスト生成に適した、安価でクリーンな命令チューニングデータセットを提供する。 我々のモデルは、ストーリー/レシピ生成や長文質問応答といったタスクを指導することなく、10倍の言語モデルより優れています。 さらに、longformモデルは、flan-t5やalpacaのような事前の命令調整モデルを大きく上回り、言語理解能力をさらに向上させる。 最後に,本モデルは多言語命令を効果的に追従し,回答することができる。 データとモデルを公開しています。 https://github.com/akoksal/longform.com/。

Instruction tuning enables language models to more effectively generalize and better follow user intent. However, obtaining instruction data is costly and challenging. Prior work employs methods such as expensive human annotation, crowd-sourced datasets with alignment issues, and generating noisy examples via LLMs. We introduce the LongForm-C dataset, which is created by reverse instructions. We generate instructions via LLMs for human-written corpus examples using reverse instructions. First we select a diverse set of human-written documents from corpora such as C4 and Wikipedia; then we generate instructions for these documents via LLMs. This approach provides a cheaper and cleaner instruction-tuning dataset with natural output and one suitable for long text generation. Our models outperform 10x larger language models without instruction tuning on tasks such as story/recipe generation and long-form question answering. Moreover, LongForm models outperform prior instruction-tuned models such as FLAN-T5 and Alpaca by a large margin, and improve language understanding capabilities further. Finally, our models can effectively follow and answer multilingual instructions; we demonstrate this for news generation. We publicly release our data and models: https://github.com/akoksal/LongForm.
翻訳日:2024-02-15 20:10:43 公開日:2024-02-14
# 実生活エネルギー取引戦略の最適化のためのオンライン強化学習

On-line reinforcement learning for optimization of real-life energy trading strategy ( http://arxiv.org/abs/2303.16266v3 )

ライセンス: Link先を確認
{\L}ukasz Lepak and Pawe{\l} Wawrzy\'nski(参考訳) 多くの小規模生産者によって再生可能エネルギー源からエネルギーのシェアが増大している。 これらの源の効率は不安定であり、ある程度ランダムにエネルギー市場のバランスの問題を悪化させる。 多くの国では、このバランスはデイアヘッド(DA)エネルギー市場で行われる。 本稿では,中規模プロシューマーによるDAエネルギー市場の自動取引について考察する。 我々は、この活動をマルコフ決定プロセスとしてモデル化し、実際の戦略に適用可能なフレームワークをオフラインデータで最適化する。 我々は,天気予報を含む将来の価格に影響を及ぼす可能性のある,利用可能な環境情報を提供する貿易戦略を設計する。 我々はこの戦略を最適化するために最先端強化学習(RL)アルゴリズムを用いる。 また、単純なパラメトリック取引戦略を合成し、進化的アルゴリズムを用いて最適化する。 その結果、当社のRLベースの戦略が市場利益が最も高いことを示唆している。

An increasing share of energy is produced from renewable sources by many small producers. The efficiency of those sources is volatile and, to some extent, random, exacerbating the problem of energy market balancing. In many countries, this balancing is done on the day-ahead (DA) energy markets. This paper considers automated trading on the DA energy market by a medium-sized prosumer. We model this activity as a Markov Decision Process and formalize a framework in which an applicable in real-life strategy can be optimized with off-line data. We design a trading strategy that is fed with the available environmental information that can impact future prices, including weather forecasts. We use state-of-the-art reinforcement learning (RL) algorithms to optimize this strategy. For comparison, we also synthesize simple parametric trading strategies and optimize them with an evolutionary algorithm. Results show that our RL-based strategy generates the highest market profits.
翻訳日:2024-02-15 20:09:51 公開日:2024-02-14
# 線形混合mdpのための最適地平線なし報酬フリー探索法

Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs ( http://arxiv.org/abs/2303.10165v2 )

ライセンス: Link先を確認
Junkai Zhang and Weitong Zhang and Quanquan Gu(参考訳) そこでは,(1)探索段階では,エージェントは環境と相互作用するが報酬にはアクセスできない,(2)計画段階では報酬関数が与えられ,探索段階で収集されたサンプルに基づいて,ほぼ最適方針が求められる,という2つのフェーズでエージェントが機能する線形関数近似を用いた報酬不要強化学習(RL)について検討する。 既存の報酬のないアルゴリズムのサンプルの複雑さは計画の地平線に依存するため、長期計画の地平線rl問題では役に立たない。 本稿では,線形混合マルコフ決定過程(MDP)を学習するための新たな報奨自由アルゴリズムを提案し,その遷移確率を既知の特徴写像の線形結合としてパラメータ化する。 提案アルゴリズムのコアとなるのは,探索駆動擬似回帰による不確実性重み付き値目標回帰と,アレタリックおよびエピステマティック不確実性に対する高次モーメント推定器である。 合計報酬が$$$に制限されている場合、我々のアルゴリズムは$\tilde O(d^2\varepsilon^{-2})$のエピソードを探索するだけで、$\varepsilon$-Optimal Policyを見つけることができる。 このアルゴリズムのサンプル複雑性は計画の地平線に多対数依存性しか持たず、従って「ホライゾンフリー」である。 さらに, アルゴリズムのサンプル複雑性を対数因子に合わせることで, アルゴリズムが最適であることを示す,$\Omega(d^2\varepsilon^{-2})$ sample complexity lower boundを提供する。

We study reward-free reinforcement learning (RL) with linear function approximation, where the agent works in two phases: (1) in the exploration phase, the agent interacts with the environment but cannot access the reward; and (2) in the planning phase, the agent is given a reward function and is expected to find a near-optimal policy based on samples collected in the exploration phase. The sample complexities of existing reward-free algorithms have a polynomial dependence on the planning horizon, which makes them intractable for long planning horizon RL problems. In this paper, we propose a new reward-free algorithm for learning linear mixture Markov decision processes (MDPs), where the transition probability can be parameterized as a linear combination of known feature mappings. At the core of our algorithm is uncertainty-weighted value-targeted regression with exploration-driven pseudo-reward and a high-order moment estimator for the aleatoric and epistemic uncertainties. When the total reward is bounded by $1$, we show that our algorithm only needs to explore $\tilde O( d^2\varepsilon^{-2})$ episodes to find an $\varepsilon$-optimal policy, where $d$ is the dimension of the feature mapping. The sample complexity of our algorithm only has a polylogarithmic dependence on the planning horizon and therefore is "horizon-free". In addition, we provide an $\Omega(d^2\varepsilon^{-2})$ sample complexity lower bound, which matches the sample complexity of our algorithm up to logarithmic factors, suggesting that our algorithm is optimal.
翻訳日:2024-02-15 20:09:21 公開日:2024-02-14
# さらなるPAC-Bayes境界:有界損失、一般的な尾の挙動による損失、時効性

More PAC-Bayes bounds: From bounded losses, to losses with general tail behaviors, to anytime-validity ( http://arxiv.org/abs/2306.12214v3 )

ライセンス: Link先を確認
Borja Rodr\'iguez-G\'alvez, Ragnar Thobaben, Mikael Skoglund(参考訳) 本稿では,異なる種類の損失に対する新しい高確率PAC-Bayes境界を提案する。 まず、有界範囲の損失に対して、すべてのパラメータ値に対して一様に保持されるカトーニ境界の強化版を復元する。 これは、以前の文献の限界よりも解釈可能で密接な、新しい速い速度と混合率の境界をもたらす。 特に、高速速度境界はシーガー-ラングフォード境界と同値である。 次に,損失の累積生成関数が有界なときのPAC-Bayes Chernoffアナログと,損失の第2モーメントが有界なときの有界という2つの新しいパラメータフリー境界を導入する。 これらの2つの境界は、「確率」パラメータ最適化問題に対する事象の空間の離散化に基づく新しい手法を用いて得られる。 このテクニックは、パラメータ空間上のグリッド上で最適化する以前のアプローチよりもシンプルで汎用的です。 最後に,既存の任意の境界に適用可能な単純な手法を用いて,これまでのすべての結果をanytime-valid境界まで拡張する。

In this paper, we present new high-probability PAC-Bayes bounds for different types of losses. Firstly, for losses with a bounded range, we recover a strengthened version of Catoni's bound that holds uniformly for all parameter values. This leads to new fast rate and mixed rate bounds that are interpretable and tighter than previous bounds in the literature. In particular, the fast rate bound is equivalent to the Seeger--Langford bound. Secondly, for losses with more general tail behaviors, we introduce two new parameter-free bounds: a PAC-Bayes Chernoff analogue when the loss' cumulative generating function is bounded, and a bound when the loss' second moment is bounded. These two bounds are obtained using a new technique based on a discretization of the space of possible events for the "in probability" parameter optimization problem. This technique is both simpler and more general than previous approaches optimizing over a grid on the parameters' space. Finally, we extend all previous results to anytime-valid bounds using a simple technique applicable to any existing bound.
翻訳日:2024-02-15 20:01:32 公開日:2024-02-14
# $\texttt{causalAssembly}$: ベンチマークによる因果発見のための実運用データの生成

$\texttt{causalAssembly}$: Generating Realistic Production Data for Benchmarking Causal Discovery ( http://arxiv.org/abs/2306.10816v2 )

ライセンス: Link先を確認
Konstantin G\"obler, Tobias Windisch, Mathias Drton, Tim Pychynski, Steffen Sonntag, Martin Roth(参考訳) 因果発見のためのアルゴリズムは、最近急速に進歩し、複雑なデータを処理するためのフレキシブルな非パラメトリックな手法に着目している。 これらの進歩により、異なるアルゴリズムによって学習された因果関係の適切な実証的検証が必要となる。 しかし、ほとんどの実データソースでは真の因果関係は不明である。 この問題は、適切な高品質データのリリースに関するプライバシーの懸念によってさらに複雑になっている。 これらの課題に対処するのに役立ち、製造コンテキストのアセンブリラインから測定値を含む複雑なデータセットを収集する。 この線は、基礎となる物理学の詳細な研究に基づいて、基礎となる真理の因果関係を提供できる多くの物理過程からなる。 我々は,集合線データと関連する基底真理情報を用いて,因果発見手法のベンチマークを支援する半合成的製造データを生成するシステムを構築する。 これを実現するために,我々は,観測変数の因果モデルに厳密に固執する連接分布に組み合わさった条件分布を柔軟に推定し,表現するために分布ランダム林を用いる。 データ生成のための推定条件とツールは、Pythonライブラリ $\texttt{causalAssembly}$で利用可能です。 このライブラリを用いて、よく知られた因果探索アルゴリズムをベンチマークする方法を示す。

Algorithms for causal discovery have recently undergone rapid advances and increasingly draw on flexible nonparametric methods to process complex data. With these advances comes a need for adequate empirical validation of the causal relationships learned by different algorithms. However, for most real data sources true causal relations remain unknown. This issue is further compounded by privacy concerns surrounding the release of suitable high-quality data. To help address these challenges, we gather a complex dataset comprising measurements from an assembly line in a manufacturing context. This line consists of numerous physical processes for which we are able to provide ground truth causal relationships on the basis of a detailed study of the underlying physics. We use the assembly line data and associated ground truth information to build a system for generation of semisynthetic manufacturing data that supports benchmarking of causal discovery methods. To accomplish this, we employ distributional random forests in order to flexibly estimate and represent conditional distributions that may be combined into joint distributions that strictly adhere to a causal model over the observed variables. The estimated conditionals and tools for data generation are made available in our Python library $\texttt{causalAssembly}$. Using the library, we showcase how to benchmark several well-known causal discovery algorithms.
翻訳日:2024-02-15 20:01:14 公開日:2024-02-14
# 線形ランダムスパンニング木を用いた高速かつ効果的なGNN訓練

Fast and Effective GNN Training with Linearized Random Spanning Trees ( http://arxiv.org/abs/2306.04828v3 )

ライセンス: Link先を確認
Francesco Bonchi, Claudio Gentile, Francesco Paolo Nerini, Andr\'e Panisson, Fabio Vitale(参考訳) 本稿では,グラフ理論に根ざした強力なツールである有効耐性に基づいて,ノード分類タスクでgnnをトレーニングするための新しい効率的かつスケーラブルなフレームワークを提案する。 本手法は,ランダムスパンディングツリーの広範なシーケンス上でgnn重みを段階的に洗練し,元のグラフの本質的な位相情報とノード情報を保持するパスグラフに好適に変換する。 これらの経路グラフのスパース性は、GNN訓練の計算負担を大幅に軽減する。 これはスケーラビリティを向上するだけでなく、オーバースカッシングやオーバースムーシング、小さなトレーニングセットの仕組みの過度な適合によるパフォーマンス劣化といった一般的な問題にも効果的に対処する。 我々は,多数の実世界のグラフベンチマークに関する広範な実験を行い,このフレームワークをグラフ畳み込みネットワークに適用し,幅広いベースラインに対するトレーニング速度とテスト精度の同時向上を示す。

We present a new effective and scalable framework for training GNNs in node classification tasks, based on the effective resistance, a powerful tool solidly rooted in graph theory. Our approach progressively refines the GNN weights on an extensive sequence of random spanning trees, suitably transformed into path graphs that retain essential topological and node information of the original graph. The sparse nature of these path graphs substantially lightens the computational burden of GNN training. This not only enhances scalability but also effectively addresses common issues like over-squashing, over-smoothing, and performance deterioration caused by overfitting in small training set regimes. We carry out an extensive experimental investigation on a number of real-world graph benchmarks, where we apply our framework to graph convolutional networks, showing simultaneous improvement of both training speed and test accuracy over a wide pool of representative baselines.
翻訳日:2024-02-15 20:00:53 公開日:2024-02-14
# 非標的メタボロミックデータの自動アライメントのための最適輸送法

Optimal transport for automatic alignment of untargeted metabolomic data ( http://arxiv.org/abs/2306.03218v3 )

ライセンス: Link先を確認
Marie Breeur, George Stepaniants, Pekka Keski-Rahkonen, Philippe Rigollet, and Vivian Viallon(参考訳) 液体クロマトグラフィー質量分析法(lc-ms)による非標的代謝物プロファイリングは、生物種数、薬物開発、疾患診断、リスク予測など幅広い代謝物を測定する。 しかし、LC-MSの低スループットは、バイオマーカー発見、アノテーション、実験的な比較において大きな課題となり、複数のデータセットのマージが必要になる。 現在のデータプーリング手法は、データバリエーションやハイパーパラメータ依存に対する脆弱性のため、実用的な制限に直面している。 本稿では,LC-MSデータセットを最適なトランスポートで自動的に組み合わせる,フレキシブルでユーザフレンドリなアルゴリズムであるGromovMatcherを紹介する。 特徴強度相関構造を利用することで、gromovmatcherは既存のアプローチよりも優れたアライメント精度と堅牢性を提供する。 このアルゴリズムは、最小限のハイパーパラメータチューニングを必要とする数千の機能にスケールする。 本手法を肝・膵癌の実験的研究に応用し,患者アルコール摂取に関連する代謝的特徴の共有を見出し,gromovmatcherが複数のがんタイプに関連するライフスタイルリスク因子に関連するバイオマーカーの探索をいかに促進するかを実証した。

Untargeted metabolomic profiling through liquid chromatography-mass spectrometry (LC-MS) measures a vast array of metabolites within biospecimens, advancing drug development, disease diagnosis, and risk prediction. However, the low throughput of LC-MS poses a major challenge for biomarker discovery, annotation, and experimental comparison, necessitating the merging of multiple datasets. Current data pooling methods encounter practical limitations due to their vulnerability to data variations and hyperparameter dependence. Here we introduce GromovMatcher, a flexible and user-friendly algorithm that automatically combines LC-MS datasets using optimal transport. By capitalizing on feature intensity correlation structures, GromovMatcher delivers superior alignment accuracy and robustness compared to existing approaches. This algorithm scales to thousands of features requiring minimal hyperparameter tuning. Applying our method to experimental patient studies of liver and pancreatic cancer, we discover shared metabolic features related to patient alcohol intake, demonstrating how GromovMatcher facilitates the search for biomarkers associated with lifestyle risk factors linked to several cancer types.
翻訳日:2024-02-15 20:00:36 公開日:2024-02-14
# 分散SGDアルゴリズムの安定性と一般化保証の改善

Improved Stability and Generalization Guarantees of the Decentralized SGD Algorithm ( http://arxiv.org/abs/2306.02939v2 )

ライセンス: Link先を確認
Batiste Le Bars, Aur\'elien Bellet, Marc Tommasi, Kevin Scaman, Giovanni Neglia(参考訳) 本稿では,アルゴリズムの安定性に基づく分散確率勾配 Descent (D-SGD) の新しい一般化誤差解析法を提案する。 その結果,分散化による不安定性の増大と,疎結合な通信グラフが一般化に与える影響が示唆された。 逆に、凸、強凸、非凸関数に対して、D-SGDは古典的なSGDと類似した一般化境界を常に回復できることを示し、グラフの選択は重要でないことを示唆する。 そして、この結果は最悪のケース解析の結果であり、一般凸関数に対して洗練されたデータ依存の一般化を提供する。 この新たなバウンドは、グラフの選択によって特定のレジームにおける最悪のケースバウンドを実際に改善することができること、そして驚くほど、接続の悪いグラフが有益であることを示している。

This paper presents a new generalization error analysis for Decentralized Stochastic Gradient Descent (D-SGD) based on algorithmic stability. The obtained results overhaul a series of recent works that suggested an increased instability due to decentralization and a detrimental impact of poorly-connected communication graphs on generalization. On the contrary, we show, for convex, strongly convex and non-convex functions, that D-SGD can always recover generalization bounds analogous to those of classical SGD, suggesting that the choice of graph does not matter. We then argue that this result is coming from a worst-case analysis, and we provide a refined data-dependent generalization bound for general convex functions. This new bound reveals that the choice of graph can in fact improve the worst-case bound in certain regimes, and that surprisingly, a poorly-connected graph can even be beneficial.
翻訳日:2024-02-15 20:00:16 公開日:2024-02-14
# ニューラルネットワークアンサンブルに対する入力勾配空間粒子推論

Input-gradient space particle inference for neural network ensembles ( http://arxiv.org/abs/2306.02775v2 )

ライセンス: Link先を確認
Trung Trinh, Markus Heinonen, Luigi Acerbi, Samuel Kaski(参考訳) ディープ・アンサンブル(Deep Ensembles, DE)は、単一ニューラルネットワーク上の摂動に対する精度の向上、校正、堅牢性を示す。 パーティクルベース変分推論(ParVI)法は,ネットワーク類似性カーネルに基づく反発項を形式化し,多様性を高める。 しかし, 過パラメータ化により重量空間反発は非効率であり, 直接関数空間反発はdesよりもほとんど改善しないことがわかった。 そこで本研究では,1次入力勾配の空間で反発を行うparviに基づくアンサンブル学習法であるfordeを提案する。 入力勾配は、翻訳までの関数を特徴付け、重みよりも寸法がはるかに小さいため、アンサンブル部材が機能的に異なることが保証される。 直感的には、入力勾配の多様化は各ネットワークに異なる特徴を学習させ、アンサンブルの堅牢性を改善することが期待されている。 画像分類データセットと転写学習タスクの実験により、FORDEは入力摂動による共変量シフトの下での精度と校正において、金標準のDESや他のアンサンブル法を著しく上回っていることが示された。

Deep Ensembles (DEs) demonstrate improved accuracy, calibration and robustness to perturbations over single neural networks partly due to their functional diversity. Particle-based variational inference (ParVI) methods enhance diversity by formalizing a repulsion term based on a network similarity kernel. However, weight-space repulsion is inefficient due to over-parameterization, while direct function-space repulsion has been found to produce little improvement over DEs. To sidestep these difficulties, we propose First-order Repulsive Deep Ensemble (FoRDE), an ensemble learning method based on ParVI, which performs repulsion in the space of first-order input gradients. As input gradients uniquely characterize a function up to translation and are much smaller in dimension than the weights, this method guarantees that ensemble members are functionally different. Intuitively, diversifying the input gradients encourages each network to learn different features, which is expected to improve the robustness of an ensemble. Experiments on image classification datasets and transfer learning tasks show that FoRDE significantly outperforms the gold-standard DEs and other ensemble methods in accuracy and calibration under covariate shift due to input perturbations.
翻訳日:2024-02-15 19:59:58 公開日:2024-02-14
# 深部確率力学

Deep Stochastic Mechanics ( http://arxiv.org/abs/2305.19685v3 )

ライセンス: Link先を確認
Elena Orlova, Aleksei Ustimenko, Ruoxi Jiang, Peter Y. Lu, Rebecca Willett(参考訳) 本稿では,確率力学と生成拡散モデルに着想を得た時間発展型schr\"odinger方程式の数値シミュレーションのための新しいディープラーニング手法を提案する。 問題次元で指数関数的にスケールする計算複雑性を示す既存の手法とは異なり、本手法はマルコフ拡散からサンプリングすることで波動関数の潜在低次元構造に適応できる。 潜在次元によっては、より高次元の計算複雑性がはるかに低い可能性がある。 さらに, 確率的量子力学のための新しい方程式を提案し, 次元数に関して線形計算複雑性をもたらす。 数値シミュレーションは,量子力学における他の深層学習手法と比較して,理論的な知見を検証し,本手法の大きな利点を示す。

This paper introduces a novel deep-learning-based approach for numerical simulation of a time-evolving Schr\"odinger equation inspired by stochastic mechanics and generative diffusion models. Unlike existing approaches, which exhibit computational complexity that scales exponentially in the problem dimension, our method allows us to adapt to the latent low-dimensional structure of the wave function by sampling from the Markovian diffusion. Depending on the latent dimension, our method may have far lower computational complexity in higher dimensions. Moreover, we propose novel equations for stochastic quantum mechanics, resulting in linear computational complexity with respect to the number of dimensions. Numerical simulations verify our theoretical findings and show a significant advantage of our method compared to other deep-learning-based approaches used for quantum mechanics.
翻訳日:2024-02-15 19:59:11 公開日:2024-02-14
# ニューラルフーリエ変換:等変表現学習への一般的なアプローチ

Neural Fourier Transform: A General Approach to Equivariant Representation Learning ( http://arxiv.org/abs/2305.18484v2 )

ライセンス: Link先を確認
Masanori Koyama and Kenji Fukumizu and Kohei Hayashi and Takeru Miyato(参考訳) 対称性学習はデータの隠れ構造を抽出するための効果的なアプローチであることが証明されており、その中心的な役割は等分散関係である。 しかし、現在の研究のほとんどは、アーキテクチャ理論とデータ形式に関する対応する仮定に基づいている。 ニューラルフーリエ変換 (neural fourier transform, nft) は, 集団がデータに対してどのように作用するかを明示的に知ることなく, 集団の潜在線形作用を学習する一般的なフレームワークである。 NFTの理論的基礎を述べるとともに、同値学習においてユビキタスに仮定された線形同変特徴の存在は、データ空間上の群不変カーネルの存在と等価であることを示す。 また,動作群に関する知識のレベルが異なる典型的シナリオにおけるNFTの適用を実証するための実験結果も提供する。

Symmetry learning has proven to be an effective approach for extracting the hidden structure of data, with the concept of equivariance relation playing the central role. However, most of the current studies are built on architectural theory and corresponding assumptions on the form of data. We propose Neural Fourier Transform (NFT), a general framework of learning the latent linear action of the group without assuming explicit knowledge of how the group acts on data. We present the theoretical foundations of NFT and show that the existence of a linear equivariant feature, which has been assumed ubiquitously in equivariance learning, is equivalent to the existence of a group invariant kernel on the dataspace. We also provide experimental results to demonstrate the application of NFT in typical scenarios with varying levels of knowledge about the acting group.
翻訳日:2024-02-15 19:58:42 公開日:2024-02-14
# 脳腫瘍分離(BraTS)チャレンジ2023:小児(CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs)に焦点を当てて

The Brain Tumor Segmentation (BraTS) Challenge 2023: Focus on Pediatrics (CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs) ( http://arxiv.org/abs/2305.17033v5 )

ライセンス: Link先を確認
Anahita Fathi Kazerooni, Nastaran Khalili, Xinyang Liu, Debanjan Haldar, Zhifan Jiang, Syed Muhammed Anwar, Jake Albrecht, Maruf Adewole, Udunna Anazodo, Hannah Anderson, Sina Bagheri, Ujjwal Baid, Timothy Bergquist, Austin J. Borja, Evan Calabrese, Verena Chung, Gian-Marco Conte, Farouk Dako, James Eddy, Ivan Ezhov, Ariana Familiar, Keyvan Farahani, Shuvanjan Haldar, Juan Eugenio Iglesias, Anastasia Janas, Elaine Johansen, Blaise V Jones, Florian Kofler, Dominic LaBella, Hollie Anne Lai, Koen Van Leemput, Hongwei Bran Li, Nazanin Maleki, Aaron S McAllister, Zeke Meier, Bjoern Menze, Ahmed W Moawad, Khanak K Nandolia, Julija Pavaine, Marie Piraud, Tina Poussaint, Sanjay P Prabhu, Zachary Reitman, Andres Rodriguez, Jeffrey D Rudie, Ibraheem Salman Shaikh, Lubdha M. Shah, Nakul Sheth, Russel Taki Shinohara, Wenxin Tu, Karthik Viswanathan, Chunhao Wang, Jeffrey B Ware, Benedikt Wiestler, Walter Wiggins, Anna Zapaishchykova, Mariam Aboian, Miriam Bornhorst, Peter de Blank, Michelle Deutsch, Maryam Fouladi, Lindsey Hoffman, Benjamin Kann, Margot Lazow, Leonie Mikael, Ali Nabavizadeh, Roger Packer, Adam Resnick, Brian Rood, Arastoo Vossough, Spyridon Bakas, Marius George Linguraru(参考訳) 小児の中枢神経系腫瘍は、小児のがん関連死の最も一般的な原因である。 小児の高次グリオーマに対する5年間の生存率は20\%未満である。 希少性のため、診断が遅れることが多く、治療は主に歴史的治療の概念に基づいており、臨床試験には複数施設の協力が必要である。 MICCAI Brain tumor Segmentation (BraTS) Challengeは、成人グリオーマのセグメンテーションと分析のための12年間の歴史を持つ、目覚ましいコミュニティベンチマークイベントである。 本稿では,小児の脳腫瘍に対する最初のbratsチャレンジであるcbtn-connect-dipgr-asnr-miccai brats-peds 2023 challengeについて述べる。 brats-peds 2023 チャレンジは、brats 2023 クラスタ全体で使用される標準化された定量的性能評価指標を用いて、小児脳グリオーマの体積分節化アルゴリズムの開発をベンチマークすることに焦点を当てている。 BraTS-PEDsマルチパラメトリック構造MRI(mpMRI)トレーニングデータから知識を得たモデルは、高次小児グリオーマの別個の検証と未確認検査mpMRIデータに基づいて評価される。 CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023チャレンジは、臨床治験に役立つ自動セグメンテーション技術の開発と、最終的には脳腫瘍の子どものケアにつながる。

Pediatric tumors of the central nervous system are the most common cause of cancer-related death in children. The five-year survival rate for high-grade gliomas in children is less than 20\%. Due to their rarity, the diagnosis of these entities is often delayed, their treatment is mainly based on historic treatment concepts, and clinical trials require multi-institutional collaborations. The MICCAI Brain Tumor Segmentation (BraTS) Challenge is a landmark community benchmark event with a successful history of 12 years of resource creation for the segmentation and analysis of adult glioma. Here we present the CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023 challenge, which represents the first BraTS challenge focused on pediatric brain tumors with data acquired across multiple international consortia dedicated to pediatric neuro-oncology and clinical trials. The BraTS-PEDs 2023 challenge focuses on benchmarking the development of volumentric segmentation algorithms for pediatric brain glioma through standardized quantitative performance evaluation metrics utilized across the BraTS 2023 cluster of challenges. Models gaining knowledge from the BraTS-PEDs multi-parametric structural MRI (mpMRI) training data will be evaluated on separate validation and unseen test mpMRI dataof high-grade pediatric glioma. The CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023 challenge brings together clinicians and AI/imaging scientists to lead to faster development of automated segmentation techniques that could benefit clinical trials, and ultimately the care of children with brain tumors.
翻訳日:2024-02-15 19:58:25 公開日:2024-02-14
# ランダム共陽性行列は正の確率で完全に正である

A random copositive matrix is completely positive with positive probability ( http://arxiv.org/abs/2305.16224v2 )

ライセンス: Link先を確認
Igor Klep, Tea \v{S}trekelj, Alja\v{z} Zalar(参考訳) n\times n$ 対称行列 $a$ は二次形式 $x^tax$ が非負のorthant に対して非負であれば同値である。 共正行列の錐は、完全に正の行列の錐、すなわち非負の成分を持ついくつかの(おそらく長方形)行列に対して$BB^T$という形のすべての行列を含む。 ブレーカーマンの真の代数幾何学にインスパイアされた凸幾何学の技法と道具を用いて証明された主な結果は、n$が無限大に進むにつれて、2つの円錐の体積半径の比は厳密に正であることを示す。 その結果、正の半定値行列の円錐、非負の成分を持つ行列、それらの交叉およびミンコフスキー和など、それらの間に挟まれた任意の2つの円錐の体積半径の比についても同じことが成り立つ。

An $n\times n$ symmetric matrix $A$ is copositive if the quadratic form $x^TAx$ is nonnegative on the nonnegative orthant. The cone of copositive matrices strictly contains the cone of completely positive matrices, i.e., all matrices of the form $BB^T$ for some (possibly rectangular) matrix $B$ with nonnegative entries. The main result, proved using Blekherman's real algebraic geometry inspired techniques and tools of convex geometry, shows that asymptotically, as $n$ goes to infinity, the ratio of volume radii of the two cones is strictly positive. Consequently, the same holds true for the ratio of volume radii of any two cones sandwiched between them, e.g., the cones of positive semidefinite matrices, matrices with nonnegative entries, their intersection and their Minkowski sum.
翻訳日:2024-02-15 19:57:53 公開日:2024-02-14
# 時変処理のための相反的生成モデル

Counterfactual Generative Models for Time-Varying Treatments ( http://arxiv.org/abs/2305.15742v3 )

ライセンス: Link先を確認
Shenghao Wu, Wenbin Zhou, Minshuo Chen, Shixiang Zhu(参考訳) 公衆衛生や臨床科学の意思決定には,治療の反事実的成果を推定することが不可欠である。 多くの場合、治療はシーケンシャルな時間的変化で行われ、その結果は指数関数的に増加する。 さらに、現代の応用では、結果は高次元であり、従来の平均治療効果推定では個人差を捉えることができない。 そこで本研究では, 時変処理下において, 明示的な密度推定を必要とせず, 対物サンプルを生成できる条件付き生成フレームワークを提案する。 本手法は,逆確率再重み付けに基づく損失関数による観測分布と反事実分布の分布ミスマッチを慎重に解決し,誘導拡散や条件変動オートエンコーダといった最先端条件生成モデルとの統合を支援する。 合成データと実世界のデータの両方を用いて,本手法の徹底的な評価を行う。 提案手法は,高品質な反ファクトサンプルを生成でき,最先端のベースラインよりも優れていることを示す。

Estimating the counterfactual outcome of treatment is essential for decision-making in public health and clinical science, among others. Often, treatments are administered in a sequential, time-varying manner, leading to an exponentially increased number of possible counterfactual outcomes. Furthermore, in modern applications, the outcomes are high-dimensional and conventional average treatment effect estimation fails to capture disparities in individuals. To tackle these challenges, we propose a novel conditional generative framework capable of producing counterfactual samples under time-varying treatment, without the need for explicit density estimation. Our method carefully addresses the distribution mismatch between the observed and counterfactual distributions via a loss function based on inverse probability re-weighting, and supports integration with state-of-the-art conditional generative models such as the guided diffusion and conditional variational autoencoder. We present a thorough evaluation of our method using both synthetic and real-world data. Our results demonstrate that our method is capable of generating high-quality counterfactual samples and outperforms the state-of-the-art baselines.
翻訳日:2024-02-15 19:57:33 公開日:2024-02-14
# David氏がGoliathを支援する - 小さな特殊化と大規模な一般拡散LM間の推論時間コラボレーション

David helps Goliath: Inference-Time Collaboration Between Small Specialized and Large General Diffusion LMs ( http://arxiv.org/abs/2305.14771v2 )

ライセンス: Link先を確認
Xiaochuang Han, Sachin Kumar, Yulia Tsvetkov, Marjan Ghazvininejad(参考訳) 拡散に基づく言語モデルは、自己回帰型LMの代替として有望なものとして登場しつつある。 自己回帰型LMは、スケーリングと命令ベース学習の恩恵を受けてきたが、既存の拡散型LMの研究は小規模で行われている。 本研究は,最近提案された拡散モデルssd-lmから始まり,0.4bから13bのパラメータに拡張し,そのトレーニングと推論効率を向上させるための手法を提案し,モデルに命令に従うよう微調整する手法を提案する。 より強力で汎用的な拡散 LM を武器とした本研究の主な貢献 - SSD-2 -- は、より小さく、専門的で、文脈化された拡散 LM を用いた大規模汎用拡散 LM の推論時に容易にアンサンブルするためのアプローチである。 SSD-2は、個々のユーザがカスタマイズしてデプロイできる100倍の小型モデルで、新しいアンサンブルを促進する。 自己回帰モデルと比較して、拡散LM間の協調はより効果的であり、双方向コンテキストを動的に組み込む能力により、高品質なモデル応答をもたらす。

Diffusion-based language models are emerging as a promising alternative to autoregressive LMs: they approach the competence of autoregressive LMs while offering nuanced controllability at inference time. While autoregressive LMs have benefited immensely from scaling and instruction-based learning, existing studies of diffusion LMs have been conducted on a smaller scale. Starting with a recently proposed diffusion model SSD-LM, in this work we first explore methods to scale it from 0.4B to 13B parameters, proposing techniques to improve its training and inference efficiency, and to finetune the model to follow instructions. Armed with a more powerful, general purpose diffusion LM, we introduce the primary contribution of this work -- SSD-2 -- an approach to easily ensemble at inference time a large general-purpose diffusion LM with smaller, but specialized and contextualized diffusion LMs. We show that SSD-2 facilitates novel ensembles with 100x smaller models that can be customized and deployed by individual users. We find that compared to autoregressive models, the collaboration between diffusion LMs is more effective, leading to higher-quality model responses due to their ability to dynamically incorporate bi-directional contexts.
翻訳日:2024-02-15 19:57:13 公開日:2024-02-14
# バドミントンゲーム解析のための全深度システム

An All Deep System for Badminton Game Analysis ( http://arxiv.org/abs/2308.12645v2 )

ライセンス: Link先を確認
Po-Yung Chou, Yu-Chun Lo, Bo-Zheng Xie, Cheng-Hung Lin, Yu-Yung Kao(参考訳) CoachAI Badminton 2023 Track1イニシアチブは、バドミントンマッチビデオ内のイベントを自動的に検出する。 小さな物体、特にシャトルコックの検出は非常に重要であり、挑戦の中で高い精度を必要とする。 このような検出は、ヒット数、ヒット時間、ヒット位置などのタスクに不可欠である。 しかし、シャトルコック検出モデルであるトラックネットを改訂した後も、対象検出モデルは所望の精度に届かないままである。 この問題に対処するために,ノイズの多い検出データから発生する問題に対処するために,さまざまなディープラーニング手法を実装した。 本報告では,我々が行った検出モデルの修正と11タスクへのアプローチについて詳述する。 特に、当社のシステムは1.0点中0.78点を達成しました。 ソースコードはgithub https://github.com/jean50621/badminton_challengeで公開しました。

The CoachAI Badminton 2023 Track1 initiative aim to automatically detect events within badminton match videos. Detecting small objects, especially the shuttlecock, is of quite importance and demands high precision within the challenge. Such detection is crucial for tasks like hit count, hitting time, and hitting location. However, even after revising the well-regarded shuttlecock detecting model, TrackNet, our object detection models still fall short of the desired accuracy. To address this issue, we've implemented various deep learning methods to tackle the problems arising from noisy detectied data, leveraging diverse data types to improve precision. In this report, we detail the detection model modifications we've made and our approach to the 11 tasks. Notably, our system garnered a score of 0.78 out of 1.0 in the challenge. We have released our source code in Github https://github.com/jean50621/Badminton_Challenge
翻訳日:2024-02-15 19:49:39 公開日:2024-02-14
# U-Netを用いたスパースビュー肺腫瘍CT画像の画質向上

Improving image quality of sparse-view lung tumor CT images with U-Net ( http://arxiv.org/abs/2307.15506v4 )

ライセンス: Link先を確認
Annika Ries, Tina Dorosti, Johannes Thalhammer, Daniel Sasse, Andreas Sauter, Felix Meurer, Ashley Benne, Tobias Lasser, Franz Pfeiffer, Florian Schaff, Daniela Pfeiffer(参考訳) 背景: 肺転移検出のためのU-Netを用いて, スパースビューCT画像の画質(IQ)を向上し, 視数, IQ, 診断信頼性の最良のトレードオフを判定することを目的とした。 方法: 62.8$\pm$ 10.6 (約$\pm$ 標準偏差) の41名の被験者のct画像, 23名, 肺転移34名, 健常7名 (2016-2018) をふりかえりに選択し, 前方に2,048ビューシンノグラムを投影した。 16, 32, 64, 18, 256, 512 ビューのフィルタバックプロジェクションを用いて, 種々のアンダーサンプリングレベルの6つのスパースビューCTデータサブセットをシノグラムから再構成した。 2フレームのU-Netを訓練し,22名の疾患患者の8,658枚の画像から各サブサンプリングレベルについて評価した。 19名 (病型12名, 健康7名) を対象に, スキャン毎の代表画像を選択した。 これらのスライス(サブサンプリング)は、U-Netのポストプロセッシングを伴わない全てのレベルで、3つの読者に提示された。 iqと診断信頼度は予め定義された尺度でランク付けされた。 感性およびDice類似度係数(DSC)を用いて主観的結節セグメンテーションを評価し, クラスタ化Wilcoxon符号ランク試験を行った。 結果:64個のプロジェクションのスパースビュー画像は0.89感度と0.81DSCとなり、U-Netで後処理した画像は0.94感度と0.85DSC(p = 0.400)に改善された。 診断にIQは不十分であった。 視野の増大については、スパースビューと後処理画像の間にはかなりの差はなかった。 結論: iqと放射線技師の信頼を満足のいくレベルで維持しながら、投影ビューを2,048から64に減らすことができる。

Background: We aimed at improving image quality (IQ) of sparse-view computed tomography (CT) images using a U-Net for lung metastasis detection and determining the best tradeoff between number of views, IQ, and diagnostic confidence. Methods: CT images from 41 subjects aged 62.8 $\pm$ 10.6 years (mean $\pm$ standard deviation), 23 men, 34 with lung metastasis, 7 healthy, were retrospectively selected (2016-2018) and forward projected onto 2,048-view sinograms. Six corresponding sparse-view CT data subsets at varying levels of undersampling were reconstructed from sinograms using filtered backprojection with 16, 32, 64, 128, 256, and 512 views. A dual-frame U-Net was trained and evaluated for each subsampling level on 8,658 images from 22 diseased subjects. A representative image per scan was selected from 19 subjects (12 diseased, 7 healthy) for a single-blinded multireader study. These slices, for all levels of subsampling, with and without U-Net postprocessing, were presented to three readers. IQ and diagnostic confidence were ranked using predefined scales. Subjective nodule segmentation was evaluated using sensitivity and Dice similarity coefficient (DSC); clustered Wilcoxon signed-rank test was used. Results: The 64-projection sparse-view images resulted in 0.89 sensitivity and 0.81 DSC, while their counterparts, postprocessed with the U-Net, had improved metrics (0.94 sensitivity and 0.85 DSC) (p = 0.400). Fewer views led to insufficient IQ for diagnosis. For increased views, no substantial discrepancies were noted between sparse-view and postprocessed images. Conclusions: Projection views can be reduced from 2,048 to 64 while maintaining IQ and the confidence of the radiologists on a satisfactory level.
翻訳日:2024-02-15 19:48:58 公開日:2024-02-14
# mlic++: 学習画像圧縮のための線形複雑性注意に基づくマルチリファレンスエントロピーモデリング

MLIC++: Linear Complexity Attention-based Multi-Reference Entropy Modeling for Learned Image Compression ( http://arxiv.org/abs/2307.15421v8 )

ライセンス: Link先を確認
Wei Jiang, Jiayu Yang, Yongqi Zhai, Feng Gao, Ronggang Wang(参考訳) 近年,学習画像圧縮の性能が向上している。 潜在表現の分布を推定するエントロピーモデルは、速度分散性能を向上させる上で重要な役割を果たす。 しかし、既存のグローバルコンテキストモジュールは、大域相関を捉えるために計算集約的な二次複雑性計算に依存する。 この二次的な複雑さは高解像度画像符号化の可能性に制限を課す。 さらに、局所的、大域的、チャネル的コンテキストを単一のエントロピーモデル内で許容可能な線形複雑度で効果的に捉えることは課題である。 これらの制約に対処するため,線形複雑度注意に基づくマルチ参照エントロピーモデル(MEM++)を提案する。 MEM++は、潜在表現に固有の様々な相関関係を効果的にキャプチャする。 具体的には、潜在表現をまず複数のスライスに分割する。 特定のスライスを圧縮する場合、以前圧縮されたスライスはそのチャネルワイズコンテキストとして機能する。 性能を犠牲にすることなくローカルコンテキストをキャプチャするために,新しいチェッカーボードアテンションモジュールを導入する。 さらに,グローバルコンテキストを捉えるために,ソフトマックス操作の分解を利用した線形複雑性注意に基づくグローバル相関手法を提案する。 予め復号されたスライスのアテンションマップは暗黙的に計算され、現在のスライスにおけるグローバル相関を予測するために使用される。 MEM++に基づく画像圧縮モデルMLIC++を提案する。 大規模な実験により、我々のMLIC++は最先端のパフォーマンスを実現し、PSNRのVTM-17.0と比較して、KodakデータセットのBDレートを13.39%削減した。 さらに、MLIC++はリニアGPUメモリを解像度で表示し、高解像度の画像符号化に非常に適している。 コードと事前訓練されたモデルはhttps://github.com/JiangWeibeta/MLIC.comで入手できる。

Recently, learned image compression has achieved impressive performance. The entropy model, which estimates the distribution of the latent representation, plays a crucial role in enhancing rate-distortion performance. However, existing global context modules rely on computationally intensive quadratic complexity computations to capture global correlations. This quadratic complexity imposes limitations on the potential of high-resolution image coding. Moreover, effectively capturing local, global, and channel-wise contexts with acceptable even linear complexity within a single entropy model remains a challenge. To address these limitations, we propose the Linear Complexity Attention-based Multi-Reference Entropy Model (MEM++). MEM++ effectively captures the diverse range of correlations inherent in the latent representation. Specifically, the latent representation is first divided into multiple slices. When compressing a particular slice, the previously compressed slices serve as its channel-wise contexts. To capture local contexts without sacrificing performance, we introduce a novel checkerboard attention module. Additionally, to capture global contexts, we propose the linear complexity attention-based global correlations capturing by leveraging the decomposition of the softmax operation. The attention map of the previously decoded slice is implicitly computed and employed to predict global correlations in the current slice. Based on MEM++, we propose image compression model MLIC++. Extensive experimental evaluations demonstrate that our MLIC++ achieves state-of-the-art performance, reducing BD-rate by 13.39% on the Kodak dataset compared to VTM-17.0 in PSNR. Furthermore, MLIC++ exhibits linear GPU memory consumption with resolution, making it highly suitable for high-resolution image coding. Code and pre-trained models are available at https://github.com/JiangWeibeta/MLIC.
翻訳日:2024-02-15 19:47:53 公開日:2024-02-14
# 回転電界におけるスピンワン系のベリー相

Berry phase of spin-one system in a rotating electric field ( http://arxiv.org/abs/2307.15093v2 )

ライセンス: Link先を確認
Abdaljalel Alizzi, Zurab K. Silagadze and Artem Uskov(参考訳) スピン1のモデル系における回転電界におけるベリー相の発生を十分に詳細に検討する。 目標は、この興味深い問題に最初に遭遇した学生を助けることにある。

We consider in sufficient detail how the Berry phase arises in a rotating electric field in a model system with spin one. The goal is to help the student who first encountered this interesting problem, which is fraught with some subtleties that require attention in order not to go astray.
翻訳日:2024-02-15 19:47:16 公開日:2024-02-14
# 量子コンピューティングのdyadicフラグメントにおけるsum-over-pathの書き換えと完全性

Rewriting and Completeness of Sum-Over-Paths in Dyadic Fragments of Quantum Computing ( http://arxiv.org/abs/2307.14223v3 )

ライセンス: Link先を確認
Renaud Vilmart(参考訳) sum-over-paths"形式主義は、量子系を記述する線形写像を象徴的に操作する方法であり、そのような系の形式的検証に使用されるツールである。 ここでは、定式化のための新しい書き直し規則を述べ、量子力学の最も単純な普遍的な断片である "Toffoli-Hadamard" に対して完備であることを示す。 書き直しは終了しているが、confluent(断片の普遍性から期待される)ではないことを示す。 我々は、Sum-over-Pathsとグラフィカル言語ZH-calculusの接続を利用し、また、公理化が後者にどのように変換されるかを示す。 提案する書き直しルールの一般化を提供し,実際に用語を削減しようとする場合に有用であることを示すとともに,これらの新しいルールをグラフィカルに理解する方法を示す。 量子フーリエ変換において特に用いられる量子計算のdyadicフラグメントの完全性を達成するために書き直しシステムを拡張し、dyadic倍数$\pi$の位相ゲートを toffoli-hadamard ゲート集合に付加する方法を示す。 最後に、ゲートベースの量子計算を解析するために設計されたシステムではネイティブではないが、ハミルトニアンベースの量子計算を考える際に必要となる任意の項の和と結合の方法を示す。

The "Sum-Over-Paths" formalism is a way to symbolically manipulate linear maps that describe quantum systems, and is a tool that is used in formal verification of such systems. We give here a new set of rewrite rules for the formalism, and show that it is complete for "Toffoli-Hadamard", the simplest approximately universal fragment of quantum mechanics. We show that the rewriting is terminating, but not confluent (which is expected from the universality of the fragment). We do so using the connection between Sum-over-Paths and graphical language ZH-calculus, and also show how the axiomatisation translates into the latter. We provide generalisations of the presented rewrite rules, that can prove useful when trying to reduce terms in practice, and we show how to graphically make sense of these new rules. We show how to enrich the rewrite system to reach completeness for the dyadic fragments of quantum computation, used in particular in the Quantum Fourier Transform, and obtained by adding phase gates with dyadic multiples of $\pi$ to the Toffoli-Hadamard gate-set. Finally, we show how to perform sums and concatenation of arbitrary terms, something which is not native in a system designed for analysing gate-based quantum computation, but necessary when considering Hamiltonian-based quantum computation.
翻訳日:2024-02-15 19:46:58 公開日:2024-02-14
# 不定因数順序下におけるブール関数の量子クエリ複素性

Quantum Query Complexity of Boolean Functions under Indefinite Causal Order ( http://arxiv.org/abs/2307.10285v3 )

ライセンス: Link先を確認
Alastair A. Abbott, Mehdi Mhalla, Pierre Pocreau(参考訳) 量子回路の標準モデルは、演算が一定のシーケンシャルな順序で適用されると仮定している。 近年,この制約を緩和して因果不確定な計算が得られる可能性が注目されている。 例えば、量子スイッチは、演算の順序をコヒーレントに制御するために量子システムを使用する。 アドホックな計算と情報理論の利点がいくつか実証され、より統一された複雑性理論の枠組みで利点が得られるかという疑問が提起されている。 本稿では,一般高次量子計算におけるブール関数の問合せ複雑性の研究により,この問題に対処する。 この目的のために,量子回路から量子スーパーマップへのクエリ複雑性の枠組みを一般化し,等価な基盤上で異なるモデルを比較する。 最近導入された因果順序の量子制御を持つ量子回路のクラスは、クエリの複雑さの低減には至らず、因果不定のスーパーマップから生じる潜在的な利点は、量子回路の場合のように多項式法によって境界づけられることが示される。 それでも、因果不確定なスーパーマップを利用する場合、2つのクエリで計算できる最小誤差が厳密に低い関数がある。

The standard model of quantum circuits assumes operations are applied in a fixed sequential "causal" order. In recent years, the possibility of relaxing this constraint to obtain causally indefinite computations has received significant attention. The quantum switch, for example, uses a quantum system to coherently control the order of operations. Several ad hoc computational and information-theoretical advantages have been demonstrated, raising questions as to whether advantages can be obtained in a more unified complexity theoretic framework. In this paper, we approach this problem by studying the query complexity of Boolean functions under general higher order quantum computations. To this end, we generalise the framework of query complexity from quantum circuits to quantum supermaps to compare different models on an equal footing. We show that the recently introduced class of quantum circuits with quantum control of causal order cannot lead to any reduction in query complexity, and that any potential advantage arising from causally indefinite supermaps can be bounded by the polynomial method, as is the case with quantum circuits. Nevertheless, we find some functions for which the minimum error with which they can be computed using two queries is strictly lower when exploiting causally indefinite supermaps.
翻訳日:2024-02-15 19:46:11 公開日:2024-02-14
# 機械学習を用いた複合混合物のvocs解析のための金属酸化物系ガスセンサアレイ

Metal Oxide-based Gas Sensor Array for the VOCs Analysis in Complex Mixtures using Machine Learning ( http://arxiv.org/abs/2307.06556v2 )

ライセンス: Link先を確認
Shivam Singh, Sajana S, Poornima, Gajje Sreelekha, Chandranath Adak, Rajendra P. Shukla and Vinayak Kamble(参考訳) 呼吸から揮発性有機化合物(voc)の検出は、非侵襲的に疾患を早期に発見するための有効な経路になりつつある。 本稿では, 混合液中の4つの異なるvocを機械学習により識別する3つの金属酸化物電極を用いたセンサアレイを提案する。 金属酸化物センサアレイはエタノール,アセトン,トルエン,クロロホルムなど様々なVOC濃度を呈していた。 個々のガスとその混合物から得られたデータセットをランダムフォレスト(rf)、k-ネアレスト近傍(knn)、決定木、線形回帰、ロジスティック回帰、ナイーブベイズ、線形判別分析、ニューラルネットワーク、サポートベクターマシンといった複数の機械学習アルゴリズムを用いて分析した。 KNNとRFはガス混合物中の様々な化学物質の分類において99%以上の精度を示した。 回帰分析において、knは、複素混合物中のアセトン、トルエン、エタノール、クロロホルムの濃度を予測するために、r2値が 0.99 以上、lodが 0.012, 0.015, 0.014, 0.025 ppm で最良の結果を得た。 そこで,本手法を応用したアレイは,疾患診断と治療監視のために4つのガスの濃度を同時に分類し,予測できることを実証した。

Detection of Volatile Organic Compounds (VOCs) from the breath is becoming a viable route for the early detection of diseases non-invasively. This paper presents a sensor array with three metal oxide electrodes that can use machine learning methods to identify four distinct VOCs in a mixture. The metal oxide sensor array was subjected to various VOC concentrations, including ethanol, acetone, toluene and chloroform. The dataset obtained from individual gases and their mixtures were analyzed using multiple machine learning algorithms, such as Random Forest (RF), K-Nearest Neighbor (KNN), Decision Tree, Linear Regression, Logistic Regression, Naive Bayes, Linear Discriminant Analysis, Artificial Neural Network, and Support Vector Machine. KNN and RF have shown more than 99% accuracy in classifying different varying chemicals in the gas mixtures. In regression analysis, KNN has delivered the best results with R2 value of more than 0.99 and LOD of 0.012, 0.015, 0.014 and 0.025 PPM for predicting the concentrations of varying chemicals Acetone, Toluene, Ethanol, and Chloroform, respectively in complex mixtures. Therefore, it is demonstrated that the array utilizing the provided algorithms can classify and predict the concentrations of the four gases simultaneously for disease diagnosis and treatment monitoring.
翻訳日:2024-02-15 19:45:51 公開日:2024-02-14
# 偏微分方程式に対するリー対称性をもつ自己教師付き学習

Self-Supervised Learning with Lie Symmetries for Partial Differential Equations ( http://arxiv.org/abs/2307.05432v2 )

ライセンス: Link先を確認
Gr\'egoire Mialon, Quentin Garrido, Hannah Lawrence, Danyal Rehman, Yann LeCun, Bobak T. Kiani(参考訳) 微分方程式の機械学習は、計算的に効率的な数値解法に代わる方法であり、科学や工学に幅広い影響を及ぼす可能性がある。 現在のアルゴリズムは通常、所定の設定に合わせたシミュレーショントレーニングデータを必要とするが、代わりに不均一なソースから有用な情報や、乱雑で不完全な実際の力学系観測から学ぶことができる。 本研究では、コンピュータビジョンにおいて顕著な成功を収めた教師なし表現学習のフレームワークである自己教師付き学習(SSL)のための共同埋め込み手法を実装することにより、異種データからPDEの汎用表現を学習する。 我々の表現は、PDEの係数の回帰などの不変タスクに対するベースラインアプローチよりも優れており、ニューラルソルバのタイムステッピング性能も向上している。 提案手法がPDEの汎用基盤モデルの開発に有効であることを期待する。 コード:https://github.com/facebookresearch/SSLForPDEs。

Machine learning for differential equations paves the way for computationally efficient alternatives to numerical solvers, with potentially broad impacts in science and engineering. Though current algorithms typically require simulated training data tailored to a given setting, one may instead wish to learn useful information from heterogeneous sources, or from real dynamical systems observations that are messy or incomplete. In this work, we learn general-purpose representations of PDEs from heterogeneous data by implementing joint embedding methods for self-supervised learning (SSL), a framework for unsupervised representation learning that has had notable success in computer vision. Our representation outperforms baseline approaches to invariant tasks, such as regressing the coefficients of a PDE, while also improving the time-stepping performance of neural solvers. We hope that our proposed methodology will prove useful in the eventual development of general-purpose foundation models for PDEs. Code: https://github.com/facebookresearch/SSLForPDEs.
翻訳日:2024-02-15 19:45:27 公開日:2024-02-14
# 公開データを用いた最適微分プライベートモデルトレーニング

Optimal Differentially Private Model Training with Public Data ( http://arxiv.org/abs/2306.15056v2 )

ライセンス: Link先を確認
Andrew Lowy, Zeman Li, Tianjian Huang, Meisam Razaviyayn(参考訳) 差分プライバシー(DP)は、機械学習モデルのトレーニングがプライベートデータをリークしないことを保証する。 実際には、プライバシーの懸念のない補助的な公開データにアクセスできるかもしれません。 この作業では、所定の量の公開データにアクセスし、以下の基本的なオープンな質問を解決します。 1. 外部公開データにアクセスしながらプライベートデータセット上でトレーニングされたDPモデルの最適(Worst-case)エラーは何か。 2. DPモデルトレーニングの実践に公共データをどのように活用するか。 これらの疑問は、純粋および近似DPの局所モデルと中心モデルの両方において考察する。 最初の質問に答えるために、平均推定、経験的リスク最小化、確率的凸最適化という3つの基本的な問題の最適誤差率を特徴付ける(ログ係数まで)下限と上限を厳密に証明する。 プライベートデータを捨てて公開モデルをトレーニングするか、プライベートデータのように公開データを扱い、最適なDPアルゴリズムを用いて、最適なエラー率(ログファクタまで)を達成することができることを示す。 2つ目の問題に対処するために、上述した漸近的最適アプローチよりも「さらに最適な」新しいアルゴリズム(例えば、より良い定数)を開発する。 局所DP平均推定では、アルゴリズムは定数を含む \ul{optimal である。 経験的に、我々のアルゴリズムは最先端技術に勝る利点を示している。

Differential privacy (DP) ensures that training a machine learning model does not leak private data. In practice, we may have access to auxiliary public data that is free of privacy concerns. In this work, we assume access to a given amount of public data and settle the following fundamental open questions: 1. What is the optimal (worst-case) error of a DP model trained over a private data set while having access to side public data? 2. How can we harness public data to improve DP model training in practice? We consider these questions in both the local and central models of pure and approximate DP. To answer the first question, we prove tight (up to log factors) lower and upper bounds that characterize the optimal error rates of three fundamental problems: mean estimation, empirical risk minimization, and stochastic convex optimization. We show that the optimal error rates can be attained (up to log factors) by either discarding private data and training a public model, or treating public data like it is private and using an optimal DP algorithm. To address the second question, we develop novel algorithms that are "even more optimal" (i.e. better constants) than the asymptotically optimal approaches described above. For local DP mean estimation, our algorithm is \ul{optimal including constants}. Empirically, our algorithms show benefits over the state-of-the-art.
翻訳日:2024-02-15 19:44:53 公開日:2024-02-14
# Hyp-OW:ハイパーボリック距離を用いた階層構造学習の爆発によるオープンワールド物体検出

Hyp-OW: Exploiting Hierarchical Structure Learning with Hyperbolic Distance Enhances Open World Object Detection ( http://arxiv.org/abs/2306.14291v3 )

ライセンス: Link先を確認
Thang Doan, Xin Li, Sima Behpour, Wenbin He, Liang Gou, Liu Ren(参考訳) open world object detection (owod)は、標準的なオブジェクト検出タスクの範囲を超えた、挑戦的で現実的なタスクである。 既知のオブジェクトと未知のオブジェクトの両方を検出し、将来のタスクのために学習知識を統合する。 しかし、「未知」のレベルは文脈によって大きく異なる。 例えば、木は一般的に、自動運転シーンの背景の一部と見なされるが、家庭の文脈では重要かもしれない。 このコンテキスト情報は、既に既知のクラスに埋め込まれるべきである。 言い換えれば、発見すべき既知の項目と未知の項目の間に、意味的あるいは潜在的な構造関係が存在するべきである。 そこで本研究では,SuperClass Regularizerを用いて既知の項目の階層的表現を学習し,モデル化するHyp-OWを提案する。 この表現を活用することで、類似度距離に基づくレザベリングモジュールを使用して、未知のオブジェクトを効果的に検出できる。 ベンチマークデータセットに関する広範な実験は、hyp-owの有効性を示し、既知の検出と未知検出の両方(最大6%)の改善を達成している。 これらの発見は、新しく設計されたベンチマークで特に顕著であり、既知のオブジェクトと未知のオブジェクトの間に強い階層構造が存在する。 私たちのコードはhttps://github.com/boschresearch/Hyp-OWにある。

Open World Object Detection (OWOD) is a challenging and realistic task that extends beyond the scope of standard Object Detection task. It involves detecting both known and unknown objects while integrating learned knowledge for future tasks. However, the level of "unknownness" varies significantly depending on the context. For example, a tree is typically considered part of the background in a self-driving scene, but it may be significant in a household context. We argue that this contextual information should already be embedded within the known classes. In other words, there should be a semantic or latent structure relationship between the known and unknown items to be discovered. Motivated by this observation, we propose Hyp-OW, a method that learns and models hierarchical representation of known items through a SuperClass Regularizer. Leveraging this representation allows us to effectively detect unknown objects using a similarity distance-based relabeling module. Extensive experiments on benchmark datasets demonstrate the effectiveness of Hyp-OW, achieving improvement in both known and unknown detection (up to 6 percent). These findings are particularly pronounced in our newly designed benchmark, where a strong hierarchical structure exists between known and unknown objects. Our code can be found at https://github.com/boschresearch/Hyp-OW
翻訳日:2024-02-15 19:44:32 公開日:2024-02-14
# SoK:ブラックボックス攻撃の評価における落とし穴

SoK: Pitfalls in Evaluating Black-Box Attacks ( http://arxiv.org/abs/2310.17534v2 )

ライセンス: Link先を確認
Fnu Suya, Anshuman Suri, Tingwei Zhang, Jingtao Hong, Yuan Tian, David Evans(参考訳) 多くの研究が画像分類器のブラックボックス攻撃を研究している。 しかし、これらの著作は敵の知識に異なる仮定をしており、現在の文献には脅威モデルを中心とした結束した組織が欠けている。 この領域の知識を体系化するために,フィードバック粒度の軸,対話的クエリへのアクセス,攻撃者が利用可能な補助データの品質と量にまたがる脅威空間に関する分類法を提案する。 私たちの新しい分類は3つの重要な洞察を提供する。 1) 広範囲にわたる文献に拘わらず,未調査の脅威空間は数多く存在するが,十分に検討された状況から手法を適用することでは容易に解決できない。 我々は、完全な信頼度ベクトルにアクセスするための十分に検討された設定から技術を適応させることにより、トップk信頼度スコアへのアクセスをあまり意識しない設定で新たな最先端を確立し、予測ラベルのみを取得するより制限的な設定にまだ不足していることを示し、さらなる研究の必要性を強調する。 2) 異なる攻撃の脅威モデルを特定することで, 先行の最先端の主張に挑戦する強力なベースラインが明らかになる。 本稿では,当初より弱いベースライン(対話型クエリアクセス)をサロゲートモデルにより拡張し,各論文のクレームを効果的にオーバーターンすることでこれを実証する。 3)本分類は,モデルインバージョンや抽出攻撃といった関連分野とよく結びつく攻撃的知識間の相互作用を明らかにする。 我々は、他の領域の進歩が潜在的に強力なブラックボックス攻撃を可能にする方法について論じる。 最後に,ローカルアタック実行時のファクタリングによる攻撃成功のより現実的な評価の必要性を強調した。 このアプローチは、特定の攻撃が著しく高い成功率を達成する可能性を示し、多様で難しい設定で攻撃を評価する必要性を示し、より良い選択基準の必要性を強調している。

Numerous works study black-box attacks on image classifiers. However, these works make different assumptions on the adversary's knowledge and current literature lacks a cohesive organization centered around the threat model. To systematize knowledge in this area, we propose a taxonomy over the threat space spanning the axes of feedback granularity, the access of interactive queries, and the quality and quantity of the auxiliary data available to the attacker. Our new taxonomy provides three key insights. 1) Despite extensive literature, numerous under-explored threat spaces exist, which cannot be trivially solved by adapting techniques from well-explored settings. We demonstrate this by establishing a new state-of-the-art in the less-studied setting of access to top-k confidence scores by adapting techniques from well-explored settings of accessing the complete confidence vector, but show how it still falls short of the more restrictive setting that only obtains the prediction label, highlighting the need for more research. 2) Identification the threat model of different attacks uncovers stronger baselines that challenge prior state-of-the-art claims. We demonstrate this by enhancing an initially weaker baseline (under interactive query access) via surrogate models, effectively overturning claims in the respective paper. 3) Our taxonomy reveals interactions between attacker knowledge that connect well to related areas, such as model inversion and extraction attacks. We discuss how advances in other areas can enable potentially stronger black-box attacks. Finally, we emphasize the need for a more realistic assessment of attack success by factoring in local attack runtime. This approach reveals the potential for certain attacks to achieve notably higher success rates and the need to evaluate attacks in diverse and harder settings, highlighting the need for better selection criteria.
翻訳日:2024-02-15 19:37:07 公開日:2024-02-14
# 量子統計クエリによる量子プロセス学習

Learning Quantum Processes with Quantum Statistical Queries ( http://arxiv.org/abs/2310.02075v2 )

ライセンス: Link先を確認
Chirag Wadhwa and Mina Doosti(参考訳) 複雑な量子プロセスの学習は、量子コンピューティングと量子機械学習の多くの領域において中心的な課題であり、量子ベンチマーク、暗号解析、変分量子アルゴリズムに応用されている。 本稿では,量子統計クエリ(QSQ)モデル内で量子プロセス学習を研究するための最初の学習フレームワークを紹介し,量子プロセス(QPSQ)に対する統計クエリの最初の公式定義を提供する。 このフレームワークにより,任意の量子プロセスに対する効率的なqpsq学習器の提案が可能となる。 また,本アルゴリズムの有効性を示す数値シミュレーションも提供する。 新たなフレームワークでは,一意的な2つの設計を学習するための指数的クエリ複雑性の低い境界,一意なユニタリーを学習するための2つの指数的低境界を証明した。 このフレームワークの実践的関連性は暗号の応用を通じて実証されており、CR-QPUFのセキュアなインスタンス化を証明しつつ、CR-QPUFの大規模クラスにおける脆弱性を強調している。 これは量子ハードウェアセキュリティの分野における重要なオープンな問題に対処する。 この研究は、量子プロセスの学習可能性を理解するための重要なステップであり、セキュリティへの影響に光を当てている。

Learning complex quantum processes is a central challenge in many areas of quantum computing and quantum machine learning, with applications in quantum benchmarking, cryptanalysis, and variational quantum algorithms. This paper introduces the first learning framework for studying quantum process learning within the Quantum Statistical Query (QSQ) model, providing the first formal definition of statistical queries to quantum processes (QPSQs). The framework allows us to propose an efficient QPSQ learner for arbitrary quantum processes accompanied by a provable performance guarantee. We also provide numerical simulations to demonstrate the efficacy of this algorithm. In our new framework, we prove exponential query complexity lower bounds for learning unitary 2-designs, and a doubly exponential lower bound for learning haar-random unitaries. The practical relevance of this framework is exemplified through application in cryptography, highlighting vulnerabilities of a large class of Classical-Readout Quantum Physical Unclonable Functions (CR-QPUFs), while proving a secure instantiation of CR-QPUFs must exist. This addresses an important open question in the field of quantum hardware security. This work marks a significant step towards understanding the learnability of quantum processes and shedding light on their security implications.
翻訳日:2024-02-15 19:36:37 公開日:2024-02-14
# AI画像検出器のロバスト性:基本限界と実用的攻撃

Robustness of AI-Image Detectors: Fundamental Limits and Practical Attacks ( http://arxiv.org/abs/2310.00076v2 )

ライセンス: Link先を確認
Mehrdad Saberi, Vinu Sankar Sadasivan, Keivan Rezaei, Aounon Kumar, Atoosa Chegini, Wenxiao Wang, Soheil Feizi(参考訳) 生成型AIモデルの最近の進歩を踏まえると、偽物の悪用を防ぐために、真偽のコンテンツをAI生成したものと区別することが不可欠になっている。 AI生成画像の識別には様々な技術が導入されており、透かしは有望なアプローチとして現れている。 本稿では,透かしや分類器を用いたディープフェイク検出器を含むAI画像検出器の堅牢性について解析する。 微妙な画像摂動を導入する透かし法(低摂動予算法)では、拡散浄化攻撃の適用により、回避誤差率(非透かし画像として検出される透かし画像の割合)と偽造誤差率(非透かし画像として検出される非透かし画像の割合)の基本的なトレードオフを明らかにする。 また, 拡散浄化が画像に最小限の変更を加えることで, 低摂動予算の透かしを効果的に除去することを示す実証的証拠を提供する。 拡散浄化攻撃は画像に顕著な変化が加えられる高摂動透かし法には効果がない。 本稿では,透かしの除去に成功したモデル置換逆行攻撃を開発する。 さらに,ウォーターマーキング手法は,攻撃者が実際のイメージをウォーターマーキングと認識し,開発者の評判を損なうようなスプーフィング攻撃に対して脆弱であることを示す。 特に、透かし方法へのブラックボックスアクセスにより、透かし付きノイズ画像を生成して実画像に追加することができ、誤って透かしとして分類される。 最後に,分類器に基づくディープフェイク検出器のロバスト性と信頼性との根本的なトレードオフを特徴付けるために理論を拡張し,実験により実証する。

In light of recent advancements in generative AI models, it has become essential to distinguish genuine content from AI-generated one to prevent the malicious usage of fake materials as authentic ones and vice versa. Various techniques have been introduced for identifying AI-generated images, with watermarking emerging as a promising approach. In this paper, we analyze the robustness of various AI-image detectors including watermarking and classifier-based deepfake detectors. For watermarking methods that introduce subtle image perturbations (i.e., low perturbation budget methods), we reveal a fundamental trade-off between the evasion error rate (i.e., the fraction of watermarked images detected as non-watermarked ones) and the spoofing error rate (i.e., the fraction of non-watermarked images detected as watermarked ones) upon an application of diffusion purification attack. To validate our theoretical findings, we also provide empirical evidence demonstrating that diffusion purification effectively removes low perturbation budget watermarks by applying minimal changes to images. The diffusion purification attack is ineffective for high perturbation watermarking methods where notable changes are applied to images. In this case, we develop a model substitution adversarial attack that can successfully remove watermarks. Moreover, we show that watermarking methods are vulnerable to spoofing attacks where the attacker aims to have real images identified as watermarked ones, damaging the reputation of the developers. In particular, with black-box access to the watermarking method, a watermarked noise image can be generated and added to real images, causing them to be incorrectly classified as watermarked. Finally, we extend our theory to characterize a fundamental trade-off between the robustness and reliability of classifier-based deep fake detectors and demonstrate it through experiments.
翻訳日:2024-02-15 19:36:16 公開日:2024-02-14
# 生成型分類器の興味深い性質

Intriguing properties of generative classifiers ( http://arxiv.org/abs/2309.16779v2 )

ライセンス: Link先を確認
Priyank Jaini and Kevin Clark and Robert Geirhos(参考訳) オブジェクトを認識するのに最適なパラダイムは何か -- 差別的推論(速くても、学習をショートカットする傾向がある)、あるいは生成モデル(遅いが、より堅牢な)を使用することは? 我々は、テキストから画像へのモデルを分類器に変換するジェネレーティブモデリングの最近の進歩の上に構築する。 これにより、行動を研究し、識別モデルと人間の心理物理学データと比較することができる。 生成型分類器の創発的特徴として, 記録破りのヒト様形状バイアス(99%が画像n), 人レベルでの分布精度, 最先端のヒト分類誤りの対応, 知覚錯覚の理解の4点を挙げる。 以上の結果から,人間の物体認識のモデル化のパラダイムは差別的推論であるが,ゼロショット生成モデルは人間の物体認識データを驚くほどよく近似していることが示唆された。

What is the best paradigm to recognize objects -- discriminative inference (fast but potentially prone to shortcut learning) or using a generative model (slow but potentially more robust)? We build on recent advances in generative modeling that turn text-to-image models into classifiers. This allows us to study their behavior and to compare them against discriminative models and human psychophysical data. We report four intriguing emergent properties of generative classifiers: they show a record-breaking human-like shape bias (99% for Imagen), near human-level out-of-distribution accuracy, state-of-the-art alignment with human classification errors, and they understand certain perceptual illusions. Our results indicate that while the current dominant paradigm for modeling human object recognition is discriminative inference, zero-shot generative models approximate human object recognition data surprisingly well.
翻訳日:2024-02-15 19:35:41 公開日:2024-02-14
# 深層学習に基づくアトラクション盆地の解析

Deep Learning-based Analysis of Basins of Attraction ( http://arxiv.org/abs/2309.15732v2 )

ライセンス: Link先を確認
David Valle, Alexandre Wagemakers, Miguel A.F. Sanju\'an(参考訳) 本研究は,様々な力学系における盆地の複雑さと予測不可能性を特徴づけることの課題に対処する。 主な焦点は、この分野における畳み込みニューラルネットワーク(CNN)の効率性を示すことである。 従来の手法は、力学系の様々なパラメータにまたがるアトラクションの複数の流域を解析する際に計算的に要求される。 本研究は,従来の手法に比べて優れた性能を示しながら,CNNアーキテクチャを用いた革新的な手法を提案する。 我々は,様々なcnnモデルの比較分析を行い,先行手法の有効性を認めつつ,提案手法の有効性を強調した。 この発見はCNNの可能性を示すだけでなく、力学系における多様な行動の探索を進める上での意義も強調している。

This research addresses the challenge of characterizing the complexity and unpredictability of basins within various dynamical systems. The main focus is on demonstrating the efficiency of convolutional neural networks (CNNs) in this field. Conventional methods become computationally demanding when analyzing multiple basins of attraction across different parameters of dynamical systems. Our research presents an innovative approach that employs CNN architectures for this purpose, showcasing their superior performance in comparison to conventional methods. We conduct a comparative analysis of various CNN models, highlighting the effectiveness of our proposed characterization method while acknowledging the validity of prior approaches. The findings not only showcase the potential of CNNs but also emphasize their significance in advancing the exploration of diverse behaviors within dynamical systems.
翻訳日:2024-02-15 19:35:24 公開日:2024-02-14
# SAMから学ぶ: 正規化によるSim2Real適応の基礎モデル

Learning from SAM: Harnessing a Foundation Model for Sim2Real Adaptation by Regularization ( http://arxiv.org/abs/2309.15562v2 )

ライセンス: Link先を確認
Mayara E. Bonani, Max Schwarz, Sven Behnke(参考訳) 対象とするドメインのトレーニングデータがほとんどなく、アノテーションを取得するのにコストがかかるロボットアプリケーションでは、ドメイン適応が特に重要である。 本稿では,アノテートされたソースドメインデータ(例えば合成生成)が利用可能なシナリオに対して,自己教師付きドメイン適応を行う手法を提案する。 本手法は意味的セグメンテーションタスクを対象とし,セグメンテーション基盤モデル(セグメンテーション任意のモデル)を用いて無注釈データのセグメンテーション情報を取得する。 我々は、教師なしの局所特徴学習の最近の進歩から着想を得て、対象領域における特徴表現を正規化するための検出セグメント上の不変分散損失を提案する。 重要なのは、この損失構造とネットワークアーキテクチャは、Segment Anythingが生成した重複セグメントとオーバーセグメンテーションを扱うことができる。 提案手法の利点は,YCB-VideoとHomebrewedDBのデータセットが先行作業よりも優れており,実際のアノテーションで訓練されたネットワークでさえも優れていることを示す。 さらに,モデルアブレーションによる洞察を提供し,カスタムロボットアプリケーションへの適用性を示す。

Domain adaptation is especially important for robotics applications, where target domain training data is usually scarce and annotations are costly to obtain. We present a method for self-supervised domain adaptation for the scenario where annotated source domain data (e.g. from synthetic generation) is available, but the target domain data is completely unannotated. Our method targets the semantic segmentation task and leverages a segmentation foundation model (Segment Anything Model) to obtain segment information on unannotated data. We take inspiration from recent advances in unsupervised local feature learning and propose an invariance-variance loss over the detected segments for regularizing feature representations in the target domain. Crucially, this loss structure and network architecture can handle overlapping segments and oversegmentation as produced by Segment Anything. We demonstrate the advantage of our method on the challenging YCB-Video and HomebrewedDB datasets and show that it outperforms prior work and, on YCB-Video, even a network trained with real annotations. Additionally, we provide insight through model ablations and show applicability to a custom robotic application.
翻訳日:2024-02-15 19:35:12 公開日:2024-02-14
# 長期ビデオのためのメモリ効率の良い連続学習オブジェクトセグメンテーション

Memory-Efficient Continual Learning Object Segmentation for Long Video ( http://arxiv.org/abs/2309.15274v2 )

ライセンス: Link先を確認
Amir Nazemi, Mohammad Javad Shafiee, Zahra Gharaee, Paul Fieguth(参考訳) 近年の最先端の半教師付きビデオオブジェクトセグメンテーション (VOS) 法では, 先行フレームからの情報が現在のフレームのセグメンテーションに使用される場合, 対象オブジェクトセグメンテーション精度が大幅に向上している。 特に、そのようなメモリベースのアプローチは、モデルが外観変化(表現フロート)や閉塞をより効果的に扱うのに役立つ。 理想的には、最大パフォーマンスを得るためには、Online VOSメソッドは、前のフレーム(または抽出された情報)のすべてまたはほとんどをメモリに格納し、後のフレームでオンライン学習に使用する必要がある。 このような解決策は長いビデオでは実現不可能であり、必要なメモリサイズは制限なく増大し、メモリが制限され、対象オブジェクトがビデオを通して反復的な表現ドリフトを経験した場合、そのような手法は失敗する可能性がある。 本稿では,オンラインVOS手法のメモリ要求を低減し,長ビデオのモデリング精度と一般化を向上する2つの新しい手法を提案する。 本稿では,事前学習した知識を保存するための連続学習技術の成功に触発されて,限られたメモリを対象とするオンラインVOSの性能を向上させるGated-Regularizer Continual Learning (GRCL) と,記憶に格納された情報から効率よく得られるオンラインVOS手法を活用するRestruction-based Memory Selection Continual Learning (RMSCL) を提案する。 また,提案する2つの手法のハイブリッド・コンビネーションの性能解析を行った。 実験の結果,提案手法は,DAVIS16,DAVIS17,YouTube-VOS18などの短ビデオデータセットに匹敵する性能を維持しつつ,長ビデオデータセットのロバスト性を向上し,オンラインVOSモデルの性能を8%以上向上させることができることがわかった。

Recent state-of-the-art semi-supervised Video Object Segmentation (VOS) methods have shown significant improvements in target object segmentation accuracy when information from preceding frames is used in segmenting the current frame. In particular, such memory-based approaches can help a model to more effectively handle appearance changes (representation drift) or occlusions. Ideally, for maximum performance, Online VOS methods would need all or most of the preceding frames (or their extracted information) to be stored in memory and be used for online learning in later frames. Such a solution is not feasible for long videos, as the required memory size grows without bound, and such methods can fail when memory is limited and a target object experiences repeated representation drifts throughout a video. We propose two novel techniques to reduce the memory requirement of Online VOS methods while improving modeling accuracy and generalization on long videos. Motivated by the success of continual learning techniques in preserving previously-learned knowledge, here we propose Gated-Regularizer Continual Learning (GRCL), which improves the performance of any Online VOS subject to limited memory, and a Reconstruction-based Memory Selection Continual Learning (RMSCL), which empowers Online VOS methods to efficiently benefit from stored information in memory. We also analyze the performance of a hybrid combination of the two proposed methods. Experimental results show that the proposed methods are able to improve the performance of Online VOS models by more than 8%, with improved robustness on long-video datasets while maintaining comparable performance on short-video datasets such as DAVIS16, DAVIS17, and YouTube-VOS18.
翻訳日:2024-02-15 19:34:51 公開日:2024-02-14
# On-The-Fly SfM: 捉えたものは何か?

On-the-Fly SfM: What you capture is What you get ( http://arxiv.org/abs/2309.11883v2 )

ライセンス: Link先を確認
Zongqian Zhan, Rui Xia, Yifei Yu, Yibo Xu, Xin Wang(参考訳) 過去数十年間、Structure from Motion (SfM)で多くの成果が達成されてきた。 しかし、その大半はオフラインで動作し、イメージはまずキャプチャされ、scmパイプラインにまとめられ、ポーズとスパースポイントクラウドを得る。 画像キャプチャ中にオンラインSfMを実行すると、新たに撮影されたOn-the-Fly画像は、対応するポーズとポイント、すなわち、取得したものをオンラインで推定する。 具体的には,新しいフライイン画像の高速画像検索のために,学習に基づくグローバル特徴を用いた教師なし学習の語彙木を用いる。 次に、最小二乗(LSM)を有するロバストな特徴マッチング機構を示し、画像登録性能を向上させる。 最後に、新しいフライイン画像の連結画像の影響を調査することで、効率的な階層的局所バンドル調整(BA)が最適化に使用される。 大規模な実験結果から、オンザフライのSfMは、オンラインで撮影しながら画像の堅牢な登録を目標とすることができる。

Over the last decades, ample achievements have been made on Structure from motion (SfM). However, the vast majority of them basically work in an offline manner, i.e., images are firstly captured and then fed together into a SfM pipeline for obtaining poses and sparse point cloud. In this work, on the contrary, we present an on-the-fly SfM: running online SfM while image capturing, the newly taken On-the-Fly image is online estimated with the corresponding pose and points, i.e., what you capture is what you get. Specifically, our approach firstly employs a vocabulary tree that is unsupervised trained using learning-based global features for fast image retrieval of newly fly-in image. Then, a robust feature matching mechanism with least squares (LSM) is presented to improve image registration performance. Finally, via investigating the influence of newly fly-in image's connected neighboring images, an efficient hierarchical weighted local bundle adjustment (BA) is used for optimization. Extensive experimental results demonstrate that on-the-fly SfM can meet the goal of robustly registering the images while capturing in an online way.
翻訳日:2024-02-15 19:34:05 公開日:2024-02-14
# ホログラフィーの限界と量子情報プロトコルの補正

Holographic Limitations and Corrections to Quantum Information Protocols ( http://arxiv.org/abs/2309.09939v4 )

ライセンス: Link先を確認
Stefano Pirandola(参考訳) 我々は、ベッケンシュタイン境界やススキンド球面エントロピー境界のようなホログラフィック境界による絡み合い分布、量子テレポーテーション、および量子通信に課される制限について論じる。 連続可変(CV)量子情報に対して、ホログラフィック補正の単純適用が確立された結果を妨げていることを示す。 これらの補正は完全cvテレポーテーションを不可能にし、損失のある量子チャネルのテレポーテーションシミュレーションにおける一様収束を妨げ、量子通信に修正されたplobバウンドを課す。 これらの数学的補正は、実用的量子技術に直ちには影響しないが、量子情報理論のより深い理論的理解には重要である。

We discuss the limitations imposed on entanglement distribution, quantum teleportation, and quantum communication by holographic bounds, such as the Bekenstein bound and Susskind's spherical entropy bound. For continuous-variable (CV) quantum information, we show how the naive application of holographic corrections disrupts well-established results. These corrections render perfect CV teleportation impossible, preclude uniform convergence in the teleportation simulation of lossy quantum channels, and impose a revised PLOB bound for quantum communication. While these mathematical corrections do not immediately impact practical quantum technologies, they are critical for a deeper theoretical understanding of quantum information theory.
翻訳日:2024-02-15 19:33:41 公開日:2024-02-14
# DevGPT:Developer-ChatGPT対話の研究

DevGPT: Studying Developer-ChatGPT Conversations ( http://arxiv.org/abs/2309.03914v2 )

ライセンス: Link先を確認
Tao Xiao, Christoph Treude, Hideaki Hata, Kenichi Matsumoto(参考訳) 本稿では,ソフトウェア開発者が大規模言語モデル(LLM)であるChatGPTとどのように相互作用するかを探索するデータセットであるDevGPTを紹介する。 このデータセットは、19,106のコードスニペットを含むchatgptからの29,778のプロンプトとレスポンスを含んでおり、ソースコード、コミット、イシュー、プルリクエスト、ディスカッション、hacker newsスレッドなどの対応するソフトウェア開発成果物とリンクしている。 この包括的なデータセットは、GitHubとHacker Newsから収集された共有のChatGPT会話から派生したもので、ChatGPTと開発者インタラクションのダイナミクス、問い合わせの性質、これらのインタラクションが作業に与える影響を理解するための豊富なリソースを提供する。 DevGPTは、開発者クエリの研究、コード生成と問題解決におけるChatGPTの有効性、AI支援プログラミングの幅広い影響を可能にする。 このデータセットを提供することで、ソフトウェアエンジニアリング、特に開発者がChatGPTのようなLLMを理解、改善するための新しい研究の道を開くことができる。

This paper introduces DevGPT, a dataset curated to explore how software developers interact with ChatGPT, a prominent large language model (LLM). The dataset encompasses 29,778 prompts and responses from ChatGPT, including 19,106 code snippets, and is linked to corresponding software development artifacts such as source code, commits, issues, pull requests, discussions, and Hacker News threads. This comprehensive dataset is derived from shared ChatGPT conversations collected from GitHub and Hacker News, providing a rich resource for understanding the dynamics of developer interactions with ChatGPT, the nature of their inquiries, and the impact of these interactions on their work. DevGPT enables the study of developer queries, the effectiveness of ChatGPT in code generation and problem solving, and the broader implications of AI-assisted programming. By providing this dataset, the paper paves the way for novel research avenues in software engineering, particularly in understanding and improving the use of LLMs like ChatGPT by developers.
翻訳日:2024-02-15 19:33:10 公開日:2024-02-14
# データ駆動物理研究の中間場である高エネルギー物理学の還元シミュレーション

Reduced Simulations for High-Energy Physics, a Middle Ground for Data-Driven Physics Research ( http://arxiv.org/abs/2309.03780v2 )

ライセンス: Link先を確認
Uraz Odyurt, Stephen Nicholas Swatman, Ana-Lucia Varbanescu, Sascha Caron(参考訳) サブ原子粒子軌道再構成(追跡)は高エネルギー物理実験において重要な課題である。 トラッキングは計算が困難で、従来のアルゴリズムに依存したフィールド化ソリューションは線形にスケールしない。 機械学習(ML)支援ソリューションは有望な答えだ。 我々は,複雑性を低減した問題記述とその表現するデータによって,解探索のワークフローが促進されることを論じる。 我々は,複雑性低減型検出器モデルとしてREDVID(REDuced VIrtual Detector)と粒子衝突イベントシミュレータコンボを提供する。 REDVIDは、合成データを効率よく生成し、MLモデル設計の課題を単純化するためのシミュレーション・イン・ザ・ループとして意図されている。 物理精度のシミュレーションとは対照的に,システムレベルの設定に関して,本ツールの完全なパラメトリックな性質は,さまざまなレベルで研究や教育のために簡易なデータを生成することを可能にする。 計算量の減少により,様々なシミュレーションベンチマークに計算コストの数値を提供することにより,redvidの計算効率を示す。 ml支援ソリューション設計のためのシミュレーションと生成ツールとして、redvidは高度に柔軟で再利用可能なオープンソースである。 REDVIDで生成された参照データセットが公開されている。 REDVIDで生成されたデータにより、複数の新しいMLモデルの設計が迅速に開発され、現在進行中である。

Subatomic particle track reconstruction (tracking) is a vital task in High-Energy Physics experiments. Tracking is exceptionally computationally challenging and fielded solutions, relying on traditional algorithms, do not scale linearly. Machine Learning (ML) assisted solutions are a promising answer. We argue that a complexity-reduced problem description and the data representing it, will facilitate the solution exploration workflow. We provide the REDuced VIrtual Detector (REDVID) as a complexity-reduced detector model and particle collision event simulator combo. REDVID is intended as a simulation-in-the-loop, to both generate synthetic data efficiently and to simplify the challenge of ML model design. The fully parametric nature of our tool, with regards to system-level configuration, while in contrast to physics-accurate simulations, allows for the generation of simplified data for research and education, at different levels. Resulting from the reduced complexity, we showcase the computational efficiency of REDVID by providing the computational cost figures for a multitude of simulation benchmarks. As a simulation and a generative tool for ML-assisted solution design, REDVID is highly flexible, reusable and open-source. Reference data sets generated with REDVID are publicly available. Data generated using REDVID has enabled rapid development of multiple novel ML model designs, which is currently ongoing.
翻訳日:2024-02-15 19:32:49 公開日:2024-02-14
# Dual-Activated Lightweight Attention ResNet50による乳癌画像の自動分類

Dual-Activated Lightweight Attention ResNet50 for Automatic Histopathology Breast Cancer Image Classification ( http://arxiv.org/abs/2308.13150v6 )

ライセンス: Link先を確認
Suxing Liu, Anusha Achuthan, Ali Fawzi, Galib Muhammad Shahriar Himel(参考訳) 病理組織像における乳癌の自動分類技術は、正確な診断と治療計画において重要な役割を担っている。 近年,ResNetアーキテクチャに基づく病理画像分類手法が広く提案されており,低レベル特徴情報と高レベル特徴情報を組み合わせることにより,スキップ接続を用いた分類精度を大幅に向上させている。 しかし、従来のResNetアーキテクチャはデータ不均衡や解釈可能性といった課題に悩まされており、それは依然としてクロスドメインな知識と医療専門家の協力を必要としている。 本研究では,Dual-Activated Lightweight Attention ResNet50 (DALAResNet50) を用いた乳癌の新しい分類法を提案する。 提案手法は,事前学習したdeep resnet50法と軽量アテンション機構を組み合わせて,resnet50のレイヤ4にアテンションモジュールを埋め込み,recuryreluとreluアクティベーション関数に基づく2つの完全接続層を追加して特徴学習能力を高めることで分類を行う。 提案したDALAResNet50アプローチは,40X,100X,200X,400Xの乳がん組織像を用いて,それぞれ98.5%,98.7%,97.9%,94.3%の精度で乳がん組織像の評価を行った。 DALAResNet50アプローチは、SEResNet50、DensNet121、VGG16、VGG16Inception、ViT、Swin-Transformer、Dinov2_Vitb14、ResNet50モデルといった一般的なディープラーニングアプローチで包括的に評価された。 DALAResNet50の報告結果は、精度、精度、リコール、F1スコア、GMeanに対する比較アプローチよりも優れており、異なる倍率と不均衡な乳癌データセットを扱う場合の顕著な堅牢性と幅広い適用性を示している。

Automatic breast cancer classification technology in histopathology images plays a crucial role in accurate diagnosis and treatment planning. Recently, histopathology image classification approaches based on ResNet architecture have been widely proposed as they vastly improve the classification accuracy using skip connection to prevent vanishing gradient issues by combining low-level and high-level feature information. However, traditional ResNet architecture suffers from challenges such as data imbalance and interpretability, which still require cross-domain knowledge and collaboration among medical experts. This study proposes a new breast cancer classification method using a Dual-Activated Lightweight Attention ResNet50 (DALAResNet50) approach to address data imbalance and interpretability challenges effectively. The proposed approach combines a pre-trained deep ResNet50 method and a lightweight attention mechanism to accomplish the classification by embedding an attention module in layer 4 of ResNet50 and adding two fully connected layers based on LeakyReLU and ReLU activation functions to enhance the ability of feature learning. The proposed DALAResNet50 approach has been evaluated on breast cancer histopathology images derived from BreakHis Datase at magnification factors of 40X, 100X, 200X, and 400X, achieving accuracies of 98.5%, 98.7%, 97.9%, and 94.3%, respectively. The DALAResNet50 approach was comprehensively assessed with popular deep learning approaches such as SEResNet50, DensNet121, VGG16, VGG16Inception, ViT, Swin-Transformer, Dinov2_Vitb14, and ResNet50 models. The reported results of DALAResNet50 outperform the compared approaches regarding precision, accuracy, recall, F1 score, and GMean, demonstrating significant robustness and broad applicability when dealing with different magnifications and unbalanced breast cancer datasets
翻訳日:2024-02-15 19:32:29 公開日:2024-02-14
# エネルギー機能付き知識蒸留の識別能力の最大化

Maximizing Discrimination Capability of Knowledge Distillation with Energy Function ( http://arxiv.org/abs/2311.14334v2 )

ライセンス: Link先を確認
Seonghak Kim, Gyeongdo Ham, Suin Lee, Donggon Jang, and Daeshik Kim(参考訳) 実産業で大きな計算コストを必要とする最新のコンピュータビジョン技術を適用するためには,知識蒸留法(kds)が不可欠である。 既存のlogitベースのkdsは、データセット内のすべてのサンプルに一定の温度スケーリングを適用し、各サンプルに固有の知識の利用を制限する。 提案手法では,データセットをエネルギースコアに基づいて2つのカテゴリ(低エネルギーと高エネルギーのサンプル)に分類する。 実験により,低エネルギー試料は高い信頼度を示し,特定の予測値を示し,高エネルギー試料は低い信頼度スコアを生じることを確認した。 非目標クラス予測を調整して最適な知識を蒸留するために,低エネルギー試料に高温を施し,より滑らかな分布と低い温度を高エネルギー試料に適用し,より鋭い分布を実現する。 従来のロジットベースの手法や特徴ベースの手法と比較して、エネルギーベースのKD(Energy KD)は、様々なデータセット上でより良いパフォーマンスを実現する。 特に、エネルギkdは、多くの困難なサンプルを含むcifar-100-ltとimagenetデータセットを大幅に改善している。 さらに,性能向上のための高エネルギーデータ拡張(HE-DA)を提案する。 我々は,20~50%のデータセットを拡張すれば有意義な性能改善が可能であり,リソース制限されたデバイスで使用できることを示唆する。 本稿は, 知識の蒸留とデータ拡張にエネルギー関数を利用する最初の試みであり, 今後の研究に大きく貢献すると考えられる。

To apply the latest computer vision techniques that require a large computational cost in real industrial applications, knowledge distillation methods (KDs) are essential. Existing logit-based KDs apply the constant temperature scaling to all samples in dataset, limiting the utilization of knowledge inherent in each sample individually. In our approach, we classify the dataset into two categories (i.e., low energy and high energy samples) based on their energy score. Through experiments, we have confirmed that low energy samples exhibit high confidence scores, indicating certain predictions, while high energy samples yield low confidence scores, meaning uncertain predictions. To distill optimal knowledge by adjusting non-target class predictions, we apply a higher temperature to low energy samples to create smoother distributions and a lower temperature to high energy samples to achieve sharper distributions. When compared to previous logit-based and feature-based methods, our energy-based KD (Energy KD) achieves better performance on various datasets. Especially, Energy KD shows significant improvements on CIFAR-100-LT and ImageNet datasets, which contain many challenging samples. Furthermore, we propose high energy-based data augmentation (HE-DA) for further improving the performance. We demonstrate that meaningful performance improvement could be achieved by augmenting only 20-50% of dataset, suggesting that it can be employed on resource-limited devices. To the best of our knowledge, this paper represents the first attempt to make use of energy function in knowledge distillation and data augmentation, and we believe it will greatly contribute to future research.
翻訳日:2024-02-15 19:24:42 公開日:2024-02-14
# 静止画像を超えて:時間的特徴と入力分散弾性

Beyond still images: Temporal features and input variance resilience ( http://arxiv.org/abs/2311.00800v2 )

ライセンス: Link先を確認
Amir Hosein Fadaei, Mohammad-Reza A. Dehaqani(参考訳) 伝統的に、視覚モデルは主に静的画像から抽出された空間的特徴に依存しており、脳が自然な視覚で処理する時空間的特徴の連続の流れから逸脱している。 多くのビデオ理解モデルが登場したが、時空間的特徴を持つ画像理解モデルにビデオを取り込むことは制限されている。 我々の研究は、入力の変化に対して顕著なレジリエンスを示す自然視からインスピレーションを得て、ビデオで訓練された視覚理解のための脳誘発モデルの開発に焦点を当てている。 その結果,静止画ではなく映像で学習し,時間的特徴を含むモデルが,入力メディアの様々な変化に対してより弾力的になることがわかった。

Traditionally, vision models have predominantly relied on spatial features extracted from static images, deviating from the continuous stream of spatiotemporal features processed by the brain in natural vision. While numerous video-understanding models have emerged, incorporating videos into image-understanding models with spatiotemporal features has been limited. Drawing inspiration from natural vision, which exhibits remarkable resilience to input changes, our research focuses on the development of a brain-inspired model for vision understanding trained with videos. Our findings demonstrate that models that train on videos instead of still images and include temporal features become more resilient to various alternations on input media.
翻訳日:2024-02-15 19:24:15 公開日:2024-02-14
# DrM: 休眠率最小化による視覚強化学習の習得

DrM: Mastering Visual Reinforcement Learning through Dormant Ratio Minimization ( http://arxiv.org/abs/2310.19668v2 )

ライセンス: Link先を確認
Guowei Xu, Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Zhecheng Yuan, Tianying Ji, Yu Luo, Xiaoyu Liu, Jiaxin Yuan, Pu Hua, Shuzhen Li, Yanjie Ze, Hal Daum\'e III, Furong Huang, Huazhe Xu(参考訳) 視覚強化学習(RL)は連続制御タスクにおいて有望である。 その進歩にもかかわらず、現在のアルゴリズムは、サンプル効率、漸近的性能、ランダム種の選択に対する堅牢性など、事実上あらゆるパフォーマンス面で満足できない。 本稿では、初期訓練中に持続的不活性を示すエージェントである既存の視覚的RL法の主な欠点を特定し、効果的に探索する能力を制限する。 さらに,この重要な観察により,運動的不活発な探索に対するエージェントの傾きと,その政策ネットワークにおける神経活動の欠如との間に有意な相関が明らかとなった。 この不活性を定量化するために、RLエージェントのネットワークにおける不活性を測定するために、休眠比を計量として採用する。 また, 報酬信号によらず, 休眠比がエージェントの活動レベルのスタンドアロン指標として機能することを実証的に認識する。 上記の知見を生かしたdrmは,エージェントの探索・探索トレードオフを積極的に最小化することにより,3つのコアメカニズムを用いてガイドする手法である。 実験によると、DrMはDeepMind Control Suite、MetaWorld、Adroitを含む3つの連続制御ベンチマーク環境において、壊れた種(合計76種)なしでサンプル効率と漸近性能を大幅に改善する。 最も重要なことは、drmはdeepmindコントロールスイートの犬とマニピュレータドメインの両方のタスクを一貫して解決する最初のモデルフリーなアルゴリズムである。

Visual reinforcement learning (RL) has shown promise in continuous control tasks. Despite its progress, current algorithms are still unsatisfactory in virtually every aspect of the performance such as sample efficiency, asymptotic performance, and their robustness to the choice of random seeds. In this paper, we identify a major shortcoming in existing visual RL methods that is the agents often exhibit sustained inactivity during early training, thereby limiting their ability to explore effectively. Expanding upon this crucial observation, we additionally unveil a significant correlation between the agents' inclination towards motorically inactive exploration and the absence of neuronal activity within their policy networks. To quantify this inactivity, we adopt dormant ratio as a metric to measure inactivity in the RL agent's network. Empirically, we also recognize that the dormant ratio can act as a standalone indicator of an agent's activity level, regardless of the received reward signals. Leveraging the aforementioned insights, we introduce DrM, a method that uses three core mechanisms to guide agents' exploration-exploitation trade-offs by actively minimizing the dormant ratio. Experiments demonstrate that DrM achieves significant improvements in sample efficiency and asymptotic performance with no broken seeds (76 seeds in total) across three continuous control benchmark environments, including DeepMind Control Suite, MetaWorld, and Adroit. Most importantly, DrM is the first model-free algorithm that consistently solves tasks in both the Dog and Manipulator domains from the DeepMind Control Suite as well as three dexterous hand manipulation tasks without demonstrations in Adroit, all based on pixel observations.
翻訳日:2024-02-15 19:24:02 公開日:2024-02-14
# 因果表現学習における一般識別性と達成可能性

General Identifiability and Achievability for Causal Representation Learning ( http://arxiv.org/abs/2310.15450v2 )

ライセンス: Link先を確認
Burak Var{\i}c{\i}, Emre Acart\"urk, Karthikeyan Shanmugam, Ali Tajer(参考訳) 本稿では、一般的な非パラメトリック潜時因果モデルと、潜時データを観測データにマッピングする一般変換モデルに基づく因果表現学習(CRL)に焦点を当てる。 潜在因果グラフにおけるノード毎の2つのハード非結合の介入を用いて、識別可能性と達成可能性を確立する。 特に、どの一対の介入環境が同じノードを介入しているか(hence, uncoupled)を知らない。 この論文は、未結合の介入の下で潜在因果モデルと変数の完全回復が保証されることを示す。 達成可能性のために、観測データと介入データを使用し、証明可能な保証付き潜在因果モデルと変数を復元するアルゴリズムが設計されている。 このアルゴリズムは、異なる環境におけるスコアの変動を利用して、変圧器の逆数と後続変数を推定する。 さらに、分析では、同じノードが介入した環境のペアに関するメタデータが知られている場合の、2つのハード結合による介入の識別可能性結果が復元される。 また,観測データが得られる場合,既存の文献で採用されている追加の忠実性の仮定は不要であることを示す。

This paper focuses on causal representation learning (CRL) under a general nonparametric latent causal model and a general transformation model that maps the latent data to the observational data. It establishes identifiability and achievability results using two hard uncoupled interventions per node in the latent causal graph. Notably, one does not know which pair of intervention environments have the same node intervened (hence, uncoupled). For identifiability, the paper establishes that perfect recovery of the latent causal model and variables is guaranteed under uncoupled interventions. For achievability, an algorithm is designed that uses observational and interventional data and recovers the latent causal model and variables with provable guarantees. This algorithm leverages score variations across different environments to estimate the inverse of the transformer and, subsequently, the latent variables. The analysis, additionally, recovers the identifiability result for two hard coupled interventions, that is when metadata about the pair of environments that have the same node intervened is known. This paper also shows that when observational data is available, additional faithfulness assumptions that are adopted by the existing literature are unnecessary.
翻訳日:2024-02-15 19:22:57 公開日:2024-02-14
# LINC:一階論理子と言語モデルを組み合わせた論理的推論のためのニューロシンボリックアプローチ

LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers ( http://arxiv.org/abs/2310.15164v2 )

ライセンス: Link先を確認
Theo X. Olausson and Alex Gu and Benjamin Lipkin and Cedegao E. Zhang and Armando Solar-Lezama and Joshua B. Tenenbaum and Roger Levy(参考訳) 論理的推論、すなわち、前提から結論の真理値を推論することは、科学、数学、社会に大きな影響を与える可能性がある人工知能にとって重要なタスクである。 LLM(Large Language Models)がそのような推論をより効果的に行うためのプロンプトベースの戦略が提案されているが、それでも不満足に見え、しばしば微妙で予測不可能な方法で失敗する。 本稿では,モジュール型神経シンボリックプログラミング (linc: logical inference via neurosymbolic computation) とよばれるタスクを再構成することの有効性について検討する。 LINCでは、LLMはセマンティックパーザとして機能し、前提と結論を自然言語から一階述語論理の式に翻訳する。 これらの式は、デダクティブ推論を象徴する外部定理証明器にオフロードされる。 このアプローチを活用することで、ほぼ全ての実験条件下で、FOLIOとProofWriterのバランスの取れたサブセットの3つのモデルに対する大幅なパフォーマンス向上が観察できる。 ProofWriterでは、比較的小さなオープンソースのStarCoder+ (15.5Bパラメータ)をLINCで拡張し、それぞれ38%と10%の確率でGPT-3.5とGPT-4より優れている。 GPT-4を使用すると、LINCはProofWriterではCoTよりも26%高く、FOLIOでは比較的高いスコアを示した。 さらなる分析により、両手法ともこのデータセットでほぼ同じ頻度で成功するが、それぞれ異なる、補完的な障害モードを示すことが判明した。 そこで我々は,LLMを記号型プロデューサと併用することで,自然言語に対する論理的推論にどのように取り組むことができるかを示す有望な証拠を提供する。 すべての対応するコードはhttps://github.com/benlipkin/lincで公開されている。

Logical reasoning, i.e., deductively inferring the truth value of a conclusion from a set of premises, is an important task for artificial intelligence with wide potential impacts on science, mathematics, and society. While many prompting-based strategies have been proposed to enable Large Language Models (LLMs) to do such reasoning more effectively, they still appear unsatisfactory, often failing in subtle and unpredictable ways. In this work, we investigate the validity of instead reformulating such tasks as modular neurosymbolic programming, which we call LINC: Logical Inference via Neurosymbolic Computation. In LINC, the LLM acts as a semantic parser, translating premises and conclusions from natural language to expressions in first-order logic. These expressions are then offloaded to an external theorem prover, which symbolically performs deductive inference. Leveraging this approach, we observe significant performance gains on FOLIO and a balanced subset of ProofWriter for three different models in nearly all experimental conditions we evaluate. On ProofWriter, augmenting the comparatively small open-source StarCoder+ (15.5B parameters) with LINC even outperforms GPT-3.5 and GPT-4 with Chain-of-Thought (CoT) prompting by an absolute 38% and 10%, respectively. When used with GPT-4, LINC scores 26% higher than CoT on ProofWriter while performing comparatively on FOLIO. Further analysis reveals that although both methods on average succeed roughly equally often on this dataset, they exhibit distinct and complementary failure modes. We thus provide promising evidence for how logical reasoning over natural language can be tackled through jointly leveraging LLMs alongside symbolic provers. All corresponding code is publicly available at https://github.com/benlipkin/linc
翻訳日:2024-02-15 19:22:24 公開日:2024-02-14
# 結合型古典振動子の変動パラメトリック駆動は散逸量子ビットをシミュレートできる

Fluctuating parametric drive of coupled classical oscillators can simulate dissipative qubits ( http://arxiv.org/abs/2310.13631v2 )

ライセンス: Link先を確認
Lorenzo Bernazzani and Guido Burkard(参考訳) 内部パラメータの確率的ゆらぎを受ける2つの結合発振器からなるシステムについて検討した。 特に、2レベル系(TLS)の量子力学、すなわち2つの結合振動子によって提供される量子ビットの古典的類似が、散逸性量子系の力学をシミュレートするために拡張できるかどうかという疑問に答える。 ナノメカニクスの文脈では、散逸フリーケースのアナロジーは、例えば2重クランプまたはカンチレバー弦共振器や光浮上粒子など、複数の実験装置で既にテストされている。 この古典的アナロジーのよく知られた結果は、アナログ量子システムの緩和時間とデコヒーレンス時間は、量子tlsの一般的な場合とは対照的に$t_1=t_2$である。 この基本量子的特徴、すなわち$T_1\neq T_2$は、上記の古典システムでも内部パラメータに確率的変動を加えることで実装可能であることを示す。 さらに, この理論を重ね合わせナノ粒子やナノ弦共振器に適用することで, それらの制御系において確率的貢献を実装できることを示す。

We investigate a system composed of two coupled oscillators subject to stochastic fluctuations in its internal parameters. In particular, we answer the question whether the well-known classical analogy of the quantum dynamics of two-level systems (TLS), i.e. qubits, provided by two coupled oscillators can be extended to simulate the dynamics of dissipative quantum systems. In the context of nanomechanics, the analogy in the dissipation free case has already been tested in multiple experimental setups, e.g., doubly clamped or cantilever string resonators and optically levitated particles. A well-known result of this classical analogy is that the relaxation and decoherence times of the analog quantum system must be equal, i.e. $T_1=T_2$, in contrast to the general case of quantum TLS. We show that this fundamentally quantum feature, i.e. $T_1\neq T_2$, can be implemented as well in the aforementioned classical systems by adding stochastic fluctuations in their internal parameters. Moreover, we show that these stochastic contributions can be engineered in the control apparatus of those systems, discussing, in particular, the application of this theory to levitated nanoparticles and to nanostring resonators.
翻訳日:2024-02-15 19:21:22 公開日:2024-02-14
# 分布型ランダム林におけるmmdに基づく変数重要度

MMD-based Variable Importance for Distributional Random Forest ( http://arxiv.org/abs/2310.12115v2 )

ライセンス: Link先を確認
Cl\'ement B\'enard and Jeffrey N\"af and Julie Josse(参考訳) 分布ランダムフォレスト(DRF)は、入力変数の多変量出力の完全な条件分布を推定する柔軟な森林ベースの手法である。 本稿では,drfsに対する可変重要度アルゴリズムについて,定評のあるドロップ・リリーン原理とmmd距離に基づいて述べる。 従来の重要度尺度は出力平均に影響を与える変数のみを検出するが、我々のアルゴリズムは出力分布に影響を与える変数をより一般的に検出する。 導入した重要度尺度は一貫性があり,実データとシミュレーションデータの両方において高い経験的性能を示し,競争相手を上回っている。 特に,本アルゴリズムは再帰的特徴除去による変数の選択に極めて効率的であり,条件付き出力分布の正確な推定を行うために,少数の変数セットを提供できる。

Distributional Random Forest (DRF) is a flexible forest-based method to estimate the full conditional distribution of a multivariate output of interest given input variables. In this article, we introduce a variable importance algorithm for DRFs, based on the well-established drop and relearn principle and MMD distance. While traditional importance measures only detect variables with an influence on the output mean, our algorithm detects variables impacting the output distribution more generally. We show that the introduced importance measure is consistent, exhibits high empirical performance on both real and simulated data, and outperforms competitors. In particular, our algorithm is highly efficient to select variables through recursive feature elimination, and can therefore provide small sets of variables to build accurate estimates of conditional output distributions.
翻訳日:2024-02-15 19:20:26 公開日:2024-02-14
# DPZero: バックプロパゲーションのない言語モデルのプライベートな微調整

DPZero: Private Fine-Tuning of Language Models without Backpropagation ( http://arxiv.org/abs/2310.09639v2 )

ライセンス: Link先を確認
Liang Zhang, Bingcong Li, Kiran Koshy Thekumparampil, Sewoong Oh, Niao He(参考訳) ドメイン固有データに対する細調整の大規模言語モデル(LLM)の広範な実践は、メモリとプライバシの2つの大きな課題に直面している。 第一に、LSMのサイズが大きくなるにつれて、バックプロパゲーションによる勾配に基づくトレーニング手法のメモリ要求が著しく高くなる。 第二に、LLMがトレーニングデータを記憶する傾向を考えると、微調整データの潜在的に敏感な情報の再帰を防ぐことが重要である。 前方パスのみに依存するゼロ次メソッドは、トレーニング中のメモリ消費を大幅に削減する。 しかし, 標準偏差勾配降下法と直接結合すると, モデルサイズが大きくなる。 このギャップを埋めるために,次元非依存率を持つ新しいプライベートなゼロ次アルゴリズムdpzeroを導入する。 DPZeroのメモリ効率は、6つの下流タスクでプライベートに微調整されたRoBERTaで実証される。

The widespread practice of fine-tuning large language models (LLMs) on domain-specific data faces two major challenges in memory and privacy. First, as the size of LLMs continues to grow, the memory demands of gradient-based training methods via backpropagation become prohibitively high. Second, given the tendency of LLMs to memorize training data, it is important to protect potentially sensitive information in the fine-tuning data from being regurgitated. Zeroth-order methods, which rely solely on forward passes, substantially reduce memory consumption during training. However, directly combining them with standard differentially private gradient descent suffers from growing model size. To bridge this gap, we introduce DPZero, a novel private zeroth-order algorithm with nearly dimension-independent rates. The memory efficiency of DPZero is demonstrated in privately fine-tuning RoBERTa on six downstream tasks.
翻訳日:2024-02-15 19:20:11 公開日:2024-02-14
# min max相関クラスタリングのための4近似アルゴリズム

A 4-approximation algorithm for min max correlation clustering ( http://arxiv.org/abs/2310.09196v3 )

ライセンス: Link先を確認
Holger Heidrich, Jannik Irmai, Bjoern Andres(参考訳) 本稿では,min max相関クラスタリング問題に対する下限法を提案し,この手法に基づき,完全グラフのための組合せ4近似アルゴリズムを提案する。 これは、組合せアルゴリズム(davies et al., 2023a)のための線形プログラム定式化(kalhan et al., 2019)と40を用いて、以前の最もよく知られた5の近似保証を改善する。 我々はこのアルゴリズムをヒューリスティックな結合によって拡張し、いくつかのベンチマークデータセット上でのソリューション品質と実行時の技術状況を改善することを実証的に示す。

We introduce a lower bounding technique for the min max correlation clustering problem and, based on this technique, a combinatorial 4-approximation algorithm for complete graphs. This improves upon the previous best known approximation guarantees of 5, using a linear program formulation (Kalhan et al., 2019), and 40, for a combinatorial algorithm (Davies et al., 2023a). We extend this algorithm by a greedy joining heuristic and show empirically that it improves the state of the art in solution quality and runtime on several benchmark datasets.
翻訳日:2024-02-15 19:19:55 公開日:2024-02-14
# 進化的動的最適化と機械学習

Evolutionary Dynamic Optimization and Machine Learning ( http://arxiv.org/abs/2310.08748v3 )

ライセンス: Link先を確認
Abdennour Boulesnane(参考訳) 進化計算(Evolutionary Computation, EC)は、人工知能の強力な分野として出現し、徐々に発展する自然のメカニズムに触発されている。 しかし、ECアプローチは、停滞、多様性喪失、計算複雑性、人口の初期化、早期収束といった課題に直面していることが多い。 これらの限界を克服するために、研究者は学習アルゴリズムと進化的手法を統合した。 この統合は、反復探索中にECアルゴリズムによって生成された貴重なデータを活用し、検索空間と人口動態に関する洞察を提供する。 同様に、進化的アルゴリズムと機械学習(ML)の関係は相反するものであり、ECメソッドはノイズ、不正確、動的目的関数によって特徴づけられる複雑なMLタスクを最適化する特別な機会を提供する。 進化機械学習(EML)として知られるこれらのハイブリッド技術は、MLプロセスの様々な段階に適用されている。 EC技術はデータバランシング、機能選択、モデルのトレーニング最適化といったタスクにおいて重要な役割を果たす。 さらにMLタスクは、進化的動的最適化(EDO)が価値のある動的最適化を必要とすることが多い。 本稿では,EDOとMLの相互統合を包括的に検討する。 この研究の目的は、進化的学習コミュニティへの関心を刺激し、この分野における革新的な貢献を促すことである。

Evolutionary Computation (EC) has emerged as a powerful field of Artificial Intelligence, inspired by nature's mechanisms of gradual development. However, EC approaches often face challenges such as stagnation, diversity loss, computational complexity, population initialization, and premature convergence. To overcome these limitations, researchers have integrated learning algorithms with evolutionary techniques. This integration harnesses the valuable data generated by EC algorithms during iterative searches, providing insights into the search space and population dynamics. Similarly, the relationship between evolutionary algorithms and Machine Learning (ML) is reciprocal, as EC methods offer exceptional opportunities for optimizing complex ML tasks characterized by noisy, inaccurate, and dynamic objective functions. These hybrid techniques, known as Evolutionary Machine Learning (EML), have been applied at various stages of the ML process. EC techniques play a vital role in tasks such as data balancing, feature selection, and model training optimization. Moreover, ML tasks often require dynamic optimization, for which Evolutionary Dynamic Optimization (EDO) is valuable. This paper presents the first comprehensive exploration of reciprocal integration between EDO and ML. The study aims to stimulate interest in the evolutionary learning community and inspire innovative contributions in this domain.
翻訳日:2024-02-15 19:19:43 公開日:2024-02-14
# AttributionLab: 制御可能な環境における特徴属性の忠実性

AttributionLab: Faithfulness of Feature Attribution Under Controllable Environments ( http://arxiv.org/abs/2310.06514v2 )

ライセンス: Link先を確認
Yang Zhang, Yawei Li, Hannah Brown, Mina Rezaei, Bernd Bischl, Philip Torr, Ashkan Khakzar, Kenji Kawaguchi(参考訳) feature attributionは、関連する入力特徴を識別することでニューラルネットワークの出力を説明する。 帰属は忠実でなければならず、帰属された特徴は出力に影響を与える入力特徴を反映する必要がある。 忠実性をテストする最近のトレンドの1つは、設計されたデータと既知の関連する特徴のモデルに適合し、帰属と根拠真理の入力特徴を比較することである。 本稿では,ネットワークを設計し,手動で重みを設定することでこの問題を解決し,データの設計を行う。 設定であるattributionlabは、忠実性の健全性チェックとして機能する:もし、attributionメソッドが制御された環境では忠実でない場合、野生では信頼できない。 この環境は、帰属法を解析し、改善を提案する制御実験のための実験室でもある。

Feature attribution explains neural network outputs by identifying relevant input features. The attribution has to be faithful, meaning that the attributed features must mirror the input features that influence the output. One recent trend to test faithfulness is to fit a model on designed data with known relevant features and then compare attributions with ground truth input features.This idea assumes that the model learns to use all and only these designed features, for which there is no guarantee. In this paper, we solve this issue by designing the network and manually setting its weights, along with designing data. The setup, AttributionLab, serves as a sanity check for faithfulness: If an attribution method is not faithful in a controlled environment, it can be unreliable in the wild. The environment is also a laboratory for controlled experiments by which we can analyze attribution methods and suggest improvements.
翻訳日:2024-02-15 19:19:23 公開日:2024-02-14
# 繰り返しdelegated Choiceのレグレト解析

Regret Analysis of Repeated Delegated Choice ( http://arxiv.org/abs/2310.04884v3 )

ライセンス: Link先を確認
MohammadTaghi Hajiaghayi, Mohammad Mahdavi, Keivan Rezaei, Suho Shin(参考訳) 本稿では,クラインバーグとクラインバーグのオンライン学習型であるec'18を最初に検討した,反復委譲選択問題について述べる。 このモデルでは、プリンシパルは効率の良いものを探すために外因性の解の集合を持つエージェントと繰り返し相互作用する。 それぞれの解はプリンシパルとエージェントの両方に様々な効用を与えることができ、エージェントは利己的な方法で自身の効用を最大化するための解を提案できる。 この動作を緩和するために、プリンシパルは、特定のソリューションセットをスクリーンアウトする適格なセットを発表する。 しかし、プリンシパルは、あらかじめ解の分布に関する情報を持っていない。 したがって、プリンシパルは、分布を効率的に学習する様々な許容集合を動的に発表する。 プリンシパルの目的は、後ろ向きの最適許容集合と比較して累積後悔を最小限にすることである。 問題設定の2つの次元について検討し、エージェントがミオプティカルに振る舞うか、ラウンドをまたいで戦略化するか、解が決定論的あるいは確率的効用をもたらすかを検討する。 本分析では,主に,主教がサブリニア的後悔を回復できる体制を特徴付け,各体制における反復委任手続の興亡に光を当てる。

We present a study on a repeated delegated choice problem, which is the first to consider an online learning variant of Kleinberg and Kleinberg, EC'18. In this model, a principal interacts repeatedly with an agent who possesses an exogenous set of solutions to search for efficient ones. Each solution can yield varying utility for both the principal and the agent, and the agent may propose a solution to maximize its own utility in a selfish manner. To mitigate this behavior, the principal announces an eligible set which screens out a certain set of solutions. The principal, however, does not have any information on the distribution of solutions in advance. Therefore, the principal dynamically announces various eligible sets to efficiently learn the distribution. The principal's objective is to minimize cumulative regret compared to the optimal eligible set in hindsight. We explore two dimensions of the problem setup, whether the agent behaves myopically or strategizes across the rounds, and whether the solutions yield deterministic or stochastic utility. Our analysis mainly characterizes some regimes under which the principal can recover the sublinear regret, thereby shedding light on the rise and fall of the repeated delegation procedure in various regimes.
翻訳日:2024-02-15 19:19:07 公開日:2024-02-14
# オンラインVQAにおけるGPT-4VとGeminiの評価

An Evaluation of GPT-4V and Gemini in Online VQA ( http://arxiv.org/abs/2312.10637v2 )

ライセンス: Link先を確認
Mengchen Liu, Chongyan Chen, Danna Gurari(参考訳) 大規模マルチモーダルモデル(LMM)の可能性には多くの興奮があるが、その真の能力と限界を確立するためには包括的評価が不可欠である。 この目的を達成するために,オンライン質問応答コミュニティから得られた新しい視覚的質問応答データセットを用いて,最先端のLMMであるGPT-4VとGeminiを評価した。 画像タイプや必要な画像処理機能など,約2000の視覚的質問に対して,7種類のメタデータを生成し,詳細な解析を行う。 ゼロショットパフォーマンス分析では,いずれのモデルでも最も難しい質問の種類が強調される。例えば, "puzzling" トピックに関連する質問, "identification" ユーザ意図,"sheet music" イメージタイプ,あるいは gpt-4 による "hard" というラベルがある。

While there is much excitement about the potential of large multimodal models (LMM), a comprehensive evaluation is critical to establish their true capabilities and limitations. In support of this aim, we evaluate two state-of-the-art LMMs, GPT-4V and Gemini, on a new visual question answering dataset sourced from an authentic online question answering community. We conduct fine-grained analysis by generating seven types of metadata for nearly 2,000 visual questions, such as image type and the required image processing capabilities. Our zero-shot performance analysis highlights the types of questions that are most challenging for both models, including questions related to "puzzling" topic, with "Identification" user intention, with "Sheet Music" image type, or labeled as "hard" by GPT-4.
翻訳日:2024-02-15 19:10:41 公開日:2024-02-14
# 単一および積分多スペクトル空中画像の融合

Fusion of Single and Integral Multispectral Aerial Images ( http://arxiv.org/abs/2311.17515v5 )

ライセンス: Link先を確認
Mohamed Youssef, Oliver Bimber(参考訳) 複数の入力チャネルから最も重要なサルエント情報を適切に融合することは、多くの航空画像処理に不可欠である。 マルチスペクトル記録は様々なスペクトル範囲の特徴を呈するが、合成開口センシングは閉塞した特徴を可視化する。 我々は,従来の空中画像から最も重要な特徴を,合成開口センシングによる閉塞除去の結果として得られる積分空中画像とを融合する,第1および第2次ハイブリッド(モデルと学習に基づく)アーキテクチャを提案する。 環境の空間的参照と、通常、密集した植生によって隠される、目立たない標的の特徴を組み合わせる。 本手法は, 相互情報, 視覚情報忠実度, ピーク信号対雑音比などの共通指標において, 最先端の2チャネル・マルチチャネル融合手法を視覚的に定量的に上回っている。 提案モデルは、手動で調整したパラメータを必要とせず、任意の数とスペクトルチャネルの任意の組み合わせに拡張することができ、異なるユースケースに対応するために再構成可能である。 本研究では,探索・救助,山火事検出,野生生物観測の例を示す。

An adequate fusion of the most significant salient information from multiple input channels is essential for many aerial imaging tasks. While multispectral recordings reveal features in various spectral ranges, synthetic aperture sensing makes occluded features visible. We present a first and hybrid (model- and learning-based) architecture for fusing the most significant features from conventional aerial images with the ones from integral aerial images that are the result of synthetic aperture sensing for removing occlusion. It combines the environment's spatial references with features of unoccluded targets that would normally be hidden by dense vegetation. Our method outperforms state-of-the-art two-channel and multi-channel fusion approaches visually and quantitatively in common metrics, such as mutual information, visual information fidelity, and peak signal-to-noise ratio. The proposed model does not require manually tuned parameters, can be extended to an arbitrary number and arbitrary combinations of spectral channels, and is reconfigurable for addressing different use cases. We demonstrate examples for search and rescue, wildfire detection, and wildlife observation.
翻訳日:2024-02-15 19:10:24 公開日:2024-02-14
# CLOMO: 大規模言語モデルによる対実論理修正

CLOMO: Counterfactual Logical Modification with Large Language Models ( http://arxiv.org/abs/2311.17438v3 )

ライセンス: Link先を確認
Yinya Huang, Ruixin Hong, Hongming Zhang, Wei Shao, Zhicheng Yang, Dong Yu, Changshui Zhang, Xiaodan Liang, Linqi Song(参考訳) 本研究では,大規模言語モデル(LLM)の対実的推論能力の領域を探索する。 我々の主な目的は、LLM内の反現実的思考過程を育成し、それらのプロセスの有効性を厳格に評価することである。 具体的には、新しいタスク、CLOMO(Counterfactual Logical Modification)と、高品質な人間注釈ベンチマークを紹介する。 このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければならない。 生成モデルの反事実能力を評価するために, タスクをマルチチョイス問題としてモデル化するのではなく, llmの自然言語出力を直接評価するための, 革新的な評価指標, logicaware counterfactual scoreを提案する。 分析の結果,提案手法は人間の好みとよく一致することがわかった。 実験の結果,LLMは論理的対実的思考において顕著な能力を示すが,現在の能力と人的パフォーマンスとの間には明確なギャップが残っていることがわかった。

In this study, we delve into the realm of counterfactual reasoning capabilities of large language models (LLMs). Our primary objective is to cultivate the counterfactual thought processes within LLMs and rigorously assess these processes for their validity. Specifically, we introduce a novel task, Counterfactual Logical Modification (CLOMO), and a high-quality human-annotated benchmark. In this task, LLMs must adeptly alter a given argumentative text to uphold a predetermined logical relationship. To effectively evaluate a generation model's counterfactual capabilities, we propose an innovative evaluation metric, the LogicAware Counterfactual Score to directly evaluate the natural language output of LLMs instead of modeling the task as a multiple-choice problem. Analysis shows that the proposed automatic metric aligns well with human preference. Our experimental results show that while LLMs demonstrate a notable capacity for logical counterfactual thinking, there remains a discernible gap between their current abilities and human performance.
翻訳日:2024-02-15 19:10:05 公開日:2024-02-14
# (Ir)AIの合理性:最先端、研究課題、オープンな質問

(Ir)rationality in AI: State of the Art, Research Challenges and Open Questions ( http://arxiv.org/abs/2311.17165v2 )

ライセンス: Link先を確認
Olivia Macmillan-Scott and Mirco Musolesi(参考訳) 合理性の概念は人工知能の分野の中心である。 人間の推論をシミュレートしたいのか、それとも境界のある最適性を達成することを目指すのかに関わらず、一般的には人工エージェントを可能な限り合理的なものにしたいと考えています。 AIにおける概念の中心性にもかかわらず、合理的なエージェントを構成するものの統一された定義は存在しない。 この記事では、人工知能における合理性と不合理性に関する調査を行い、この分野におけるオープンな疑問を取り上げます。 他の分野における合理性の理解は、人工知能、特に経済学、哲学、心理学におけるその概念に影響を与えてきた。 人工エージェントの挙動に着目し,特定のシナリオにおいて最適であることを示す不合理行動を考える。 識別と相互作用の両面で不合理なエージェントを扱うためにいくつかの方法が開発されているが、この分野での作業は限られている。 現在までに開発されている手法、すなわち敵対的シナリオは、人工エージェントとの相互作用に適合するように適応することができる。 我々はさらに,人間と人工エージェントの相互作用と,この相互作用において合理性が果たす役割について論じる。

The concept of rationality is central to the field of artificial intelligence. Whether we are seeking to simulate human reasoning, or the goal is to achieve bounded optimality, we generally seek to make artificial agents as rational as possible. Despite the centrality of the concept within AI, there is no unified definition of what constitutes a rational agent. This article provides a survey of rationality and irrationality in artificial intelligence, and sets out the open questions in this area. The understanding of rationality in other fields has influenced its conception within artificial intelligence, in particular work in economics, philosophy and psychology. Focusing on the behaviour of artificial agents, we consider irrational behaviours that can prove to be optimal in certain scenarios. Some methods have been developed to deal with irrational agents, both in terms of identification and interaction, however work in this area remains limited. Methods that have up to now been developed for other purposes, namely adversarial scenarios, may be adapted to suit interactions with artificial agents. We further discuss the interplay between human and artificial agents, and the role that rationality plays within this interaction; many questions remain in this area, relating to potentially irrational behaviour of both humans and artificial agents.
翻訳日:2024-02-15 19:09:47 公開日:2024-02-14
# 集中グラフニューラルネットワークによるロバストな大規模ネットワーク定位

Attentional Graph Neural Networks for Robust Massive Network Localization ( http://arxiv.org/abs/2311.16856v2 )

ライセンス: Link先を確認
Wenzhong Yan, Juntao Wang, Feng Yin, Yang Tian, Abdelhak M. Zoubir(参考訳) 近年、グラフニューラルネットワーク(GNN)が機械学習の分類タスクの顕著なツールとして登場している。 しかし、回帰処理におけるそれらの応用はいまだ未定である。 本稿では,GNNを適応性と頑健性によって逐次学習タスクに革命をもたらす手法であるアテンション機構と統合し,ネットワークローカライゼーション(英語版)という難解な非線形回帰問題に対処する。 まず,重度のノンライン・オブ・アイズ(nlos)条件下においても異常な精度を示すグラフ畳み込みネットワーク(gcn)に基づく新たなネットワークローカライズ手法を導入し,オフライン校正やnlos識別の手間を軽減した。 我々はさらに,限定された柔軟性の向上とgcn方式のハイパーパラメータに対する高感度化を目的とした注意グラフニューラルネットワーク(agnn)モデルを提案する。 AGNNは2つの重要なモジュールから構成されており、それぞれがGCNベースのメソッドに関連する特定の問題に対処するために異なる注意アーキテクチャで設計されている。 実験により,提案したGCN法とAGNNモデルの有効性,およびAGNNモデルの強化効果について検証した。 さらに、動的注意と計算複雑性の観点からAGNNモデルの性能改善について検討する。

In recent years, Graph neural networks (GNNs) have emerged as a prominent tool for classification tasks in machine learning. However, their application in regression tasks remains underexplored. To tap the potential of GNNs in regression, this paper integrates GNNs with attention mechanism, a technique that revolutionized sequential learning tasks with its adaptability and robustness, to tackle a challenging nonlinear regression problem: network localization. We first introduce a novel network localization method based on graph convolutional network (GCN), which exhibits exceptional precision even under severe non-line-of-sight (NLOS) conditions, thereby diminishing the need for laborious offline calibration or NLOS identification. We further propose an attentional graph neural network (AGNN) model, aimed at improving the limited flexibility and mitigating the high sensitivity to the hyperparameter of the GCN-based method. The AGNN comprises two crucial modules, each designed with distinct attention architectures to address specific issues associated with the GCN-based method, rendering it more practical in real-world scenarios. Experimental results substantiate the efficacy of our proposed GCN-based method and AGNN model, as well as the enhancements of AGNN model. Additionally, we delve into the performance improvements of AGNN model by analyzing it from the perspectives of dynamic attention and computational complexity.
翻訳日:2024-02-15 19:09:27 公開日:2024-02-14
# 分散二レベル最適化の通信複雑性について

On the Communication Complexity of Decentralized Bilevel Optimization ( http://arxiv.org/abs/2311.11342v2 )

ライセンス: Link先を確認
Yihan Zhang, My T. Thai, Jie Wu, Hongchang Gao(参考訳) 分散二レベル最適化は、機械学習に広く応用されて以来、ここ数年で積極的に研究されてきた。 しかし、既存のアルゴリズムは確率的過次性の推定によって引き起こされる通信の複雑さに悩まされ、実際のタスクに限定する。 この問題に対処するために,不均質な設定下で分散確率的二段階勾配降下アルゴリズムを開発し,各ラウンドと少数の通信ラウンドの通信コストを低減した。 したがって、不均一性に関する強い仮定なしに、既存のアルゴリズムよりもはるかに優れた通信複雑性を実現することができる。 我々の知る限りでは、これは不均一な条件下でこれらの理論結果を達成する最初の確率的アルゴリズムである。 実験結果から,本アルゴリズムの有効性が確認された。

Decentralized bilevel optimization has been actively studied in the past few years since it has widespread applications in machine learning. However, existing algorithms suffer from large communication complexity caused by the estimation of stochastic hypergradient, limiting their application to real-world tasks. To address this issue, we develop a novel decentralized stochastic bilevel gradient descent algorithm under the heterogeneous setting, which enjoys a small communication cost in each round and a small number of communication rounds. As such, it can achieve a much better communication complexity than existing algorithms without any strong assumptions regarding heterogeneity. To the best of our knowledge, this is the first stochastic algorithm achieving these theoretical results under the heterogeneous setting. At last, the experimental results confirm the efficacy of our algorithm.
翻訳日:2024-02-15 19:08:45 公開日:2024-02-14
# LLMのオンライン化 - 機会と課題

Online Advertisements with LLMs: Opportunities and Challenges ( http://arxiv.org/abs/2311.07601v2 )

ライセンス: Link先を確認
Soheil Feizi, MohammadTaghi Hajiaghayi, Keivan Rezaei, Suho Shin(参考訳) 本稿では,オンライン広告システムにおけるLarge Language Models(LLM)の活用の可能性について検討する。 我々は、プライバシー、レイテンシ、信頼性、およびそのようなシステムが満たさなければならないユーザーと広告主の満足度といった必須要件を精査する。 さらに,修正,入札,予測,オークションモジュールからなるLCM広告の一般的なフレームワークを紹介する。 各モジュールに対する異なる設計上の考慮事項が提示され、その実用性と実装に固有の技術的課題を詳細に検討する。 最後に,ユーザへの広告の魅力を著しく高める手段として,llmに基づく動的創造的最適化の展望を考察し,さらなる課題について考察する。

This paper explores the potential for leveraging Large Language Models (LLM) in the realm of online advertising systems. We delve into essential requirements including privacy, latency, reliability as well as the satisfaction of users and advertisers which such a system must fulfill. We further introduce a general framework for LLM advertisement, consisting of modification, bidding, prediction, and auction modules. Different design considerations for each module is presented, with an in-depth examination of their practicality and the technical challenges inherent to their implementation. Finally, we explore the prospect of LLM-based dynamic creative optimization as a means to significantly enhance the appeal of advertisements to users and discuss its additional challenges.
翻訳日:2024-02-15 19:08:34 公開日:2024-02-14
# 多体物理学の量子シミュレーションにおける誤りの特徴付けプロトコル

A protocol to characterize errors in quantum simulation of many-body physics ( http://arxiv.org/abs/2311.03452v2 )

ライセンス: Link先を確認
Aditya Prakash, Bharath Hebbe Madhusudhana(参考訳) マルチボディシステムの量子シミュレーション、特に超低温原子と閉じ込められたイオンを用いると、量子制御のユニークな形態が示され、ハミルトンによって生成されるマルチキュービットゲートの直接の実装である。 結果として、十分に確立されたゲートベンチマーク技術はこの形での量子制御には適さないため、ベンチマークに関してもユニークな課題に直面している。 ここでは,対象多体ハミルトニアンの対称性を量子シミュレーションにおける実験誤差のベンチマークと特徴付けに利用できることを示す。 我々は2種類の誤りを考察する。 (i)適用ハミルトニアン及び適用ハミルトニアンにおける系統的誤差から生じる一元的誤差 (ii) 応用ハミルトニアンにおけるランダムなショットツーショット変動から生じる正準非マルコフ誤差 理想的には時間的に一定である対象ハミルトニアン自体の期待値のダイナミクスを用いてこれらの誤差を特徴づけることができることを示す。 誤差が存在する場合、ターゲットハミルトニアンの期待値は、演算子熱化仮説(OTH)を満たすときに特徴的な熱化ダイナミクスを示す。 すなわち、短い時間における振動と、長い時間限界における定常値への緩和である。 定常状態値はコヒーレント誤差の特徴付けに利用できるが、振動の振幅は非マルコフ誤差を推定するために用いられる。 これらのエラーを特徴付けるスケーラブルな実験プロトコルを開発した。

Quantum simulation of many-body systems, particularly using ultracold atoms and trapped ions, presents a unique form of quantum control -- it is a direct implementation of a multi-qubit gate generated by the Hamiltonian. As a consequence, it also faces a unique challenge in terms of benchmarking, because the well-established gate benchmarking techniques are unsuitable for this form of quantum control. Here we show that the symmetries of the target many-body Hamiltonian can be used to benchmark and characterize experimental errors in the quantum simulation. We consider two forms of errors: (i) unitary errors arising out of systematic errors in the applied Hamiltonian and (ii) canonical non-Markovian errors arising out of random shot-to-shot fluctuations in the applied Hamiltonian. We show that the dynamics of the expectation value of the target Hamiltonian itself, which is ideally constant in time, can be used to characterize these errors. In the presence of errors, the expectation value of the target Hamiltonian shows a characteristic thermalization dynamics, when it satisfies the operator thermalization hypothesis (OTH). That is, an oscillation in the short time followed by relaxation to a steady-state value in the long time limit. We show that while the steady-state value can be used to characterize the coherent errors, the amplitude of the oscillations can be used to estimate the non-Markovian errors. We develop scalable experimental protocols to characterize these errors.
翻訳日:2024-02-15 19:07:45 公開日:2024-02-14
# コミュニティ検出のための対比的非負行列因子化

Contrastive Deep Nonnegative Matrix Factorization for Community Detection ( http://arxiv.org/abs/2311.02357v2 )

ライセンス: Link先を確認
Yuecheng Li, Jialong Chen, Chuan Chen, Lei Yang, Zibin Zheng(参考訳) 近年,非負行列因子化(NMF)がコミュニティ検出に広く採用されている。 しかし、既存のNMFベースの手法には以下の3つの問題がある。 1) 本来のネットワークを直接コミュニティメンバーシップ空間に変換するため,階層的な情報を把握することが困難である。 2) ネットワークのトポロジにのみ注意を払い、ノード属性を無視することが少なくない。 3)地域社会発見に必要なグローバルな構造情報を学習することは困難である。 そこで我々はContrastive Deep Non negative Matrix Factorization (CDNMF) という新しいコミュニティ検出アルゴリズムを提案する。 まず、情報抽出能力を強化するため、NMFをより深めます。 その後,コントラスト学習に触発され,ネットワークトポロジーとノード属性を2つのコントラストビューとして創造的に構成する。 さらに,debiased negative sampling layerを用いて,コミュニティレベルでのノード類似性を学習し,コミュニティ検出のためのモデルの適合性を高める。 3つの公開実数グラフデータセットについて実験を行い,提案手法は最先端手法よりも優れた結果を得た。 コードはhttps://github.com/6lyc/cdnmf.git。

Recently, nonnegative matrix factorization (NMF) has been widely adopted for community detection, because of its better interpretability. However, the existing NMF-based methods have the following three problems: 1) they directly transform the original network into community membership space, so it is difficult for them to capture the hierarchical information; 2) they often only pay attention to the topology of the network and ignore its node attributes; 3) it is hard for them to learn the global structure information necessary for community detection. Therefore, we propose a new community detection algorithm, named Contrastive Deep Nonnegative Matrix Factorization (CDNMF). Firstly, we deepen NMF to strengthen its capacity for information extraction. Subsequently, inspired by contrastive learning, our algorithm creatively constructs network topology and node attributes as two contrasting views. Furthermore, we utilize a debiased negative sampling layer and learn node similarity at the community level, thereby enhancing the suitability of our model for community detection. We conduct experiments on three public real graph datasets and the proposed model has achieved better results than state-of-the-art methods. Code available at https://github.com/6lyc/CDNMF.git.
翻訳日:2024-02-15 19:07:24 公開日:2024-02-14
# バイトレベルの精度を持つエンコーダ・デコーダ基礎モデルを用いたDNAの自然言語理解

Understanding the Natural Language of DNA using Encoder-Decoder Foundation Models with Byte-level Precision ( http://arxiv.org/abs/2311.02333v2 )

ライセンス: Link先を確認
Aditya Malusare and Harish Kothandaraman and Dipesh Tamboli and Nadia A. Lanman and Vaneet Aggarwal(参考訳) 本稿では、エンコーダ・デコーダトランスフォーマアーキテクチャを用いて、dna配列をバイトレベルの精度で解析するアンサンブルヌクレオチドヌクレオチドバイトレベルエンコーダ・デコーダ(enbed)基礎モデルを提案する。 ENBEDは、エンコーダのみまたはデコーダのみのアーキテクチャで以前のゲノムモデルを一般化し、シーケンスからシーケンスへの変換が可能な効率的なモデルを開発するために、注意のサブクアドラルな実装を使用する。 We use Masked Language Modeling to pre-train the foundation model using reference genome sequences and apply it in the following downstream tasks: (1) identification of enhancers, promotors and splice sites, (2) recognition of sequences containing base call mismatches and insertion/deletion errors, an advantage over tokenization schemes involving multiple base pairs, which lose the ability to analyze with byte-level precision, (3) identification of biological function annotations of genomic sequences, and (4) generating mutations of the Influenza virus using the encoder-decoder architecture and validating them against real-world observations. これらの課題のそれぞれにおいて、既存の最先端の成果と比較して顕著な改善が示される。

This paper presents the Ensemble Nucleotide Byte-level Encoder-Decoder (ENBED) foundation model, analyzing DNA sequences at byte-level precision with an encoder-decoder Transformer architecture. ENBED uses a sub-quadratic implementation of attention to develop an efficient model capable of sequence-to-sequence transformations, generalizing previous genomic models with encoder-only or decoder-only architectures. We use Masked Language Modeling to pre-train the foundation model using reference genome sequences and apply it in the following downstream tasks: (1) identification of enhancers, promotors and splice sites, (2) recognition of sequences containing base call mismatches and insertion/deletion errors, an advantage over tokenization schemes involving multiple base pairs, which lose the ability to analyze with byte-level precision, (3) identification of biological function annotations of genomic sequences, and (4) generating mutations of the Influenza virus using the encoder-decoder architecture and validating them against real-world observations. In each of these tasks, we demonstrate significant improvement as compared to the existing state-of-the-art results.
翻訳日:2024-02-15 19:07:03 公開日:2024-02-14
# 長距離絡み付き有限局所深さ回路における不毛高原の欠如

Absence of barren plateaus in finite local-depth circuits with long-range entanglement ( http://arxiv.org/abs/2311.01393v2 )

ライセンス: Link先を確認
Hao-Kai Zhang, Shuo Liu, and Shi-Xin Zhang(参考訳) 基底状態の準備は古典的には一般のハミルトニアンには難解である。 量子デバイスにおいて、浅いパラメータ化回路は、変分量子固有解法というパラダイムの下で短距離の絡み合った状態を得るために効果的に訓練することができる。 このレターでは、局所的な2次元設計からなる任意の量子回路に対して、回路勾配のばらつきに関する一般的な下界を与える。 統一された枠組みに基づき,局所ハミルトニアンの基底状態に対する有限局所深さ回路(fldc)の訓練において,不毛高原が存在しないことを証明した。 FLDCは、トポロジカルに順序づけられた状態のような長距離の絡み合った基底状態を生成するために、従来の回路深さの奥深くでもよいが、その局所的な深さは有限である。 一般的にfldcは2次元以上の既存のテンソルネットワーク法によって局所観測可能量を効率的に推定するために古典的にシミュレーションすることはできない。 解析結果を広範囲な数値シミュレーションで検証し,一般化トーリック符号モデルを用いた変分訓練の有効性を示す。

Ground state preparation is classically intractable for general Hamiltonians. On quantum devices, shallow parameterized circuits can be effectively trained to obtain short-range entangled states under the paradigm of variational quantum eigensolver, while deep circuits are generally untrainable due to the barren plateau phenomenon. In this Letter, we give a general lower bound on the variance of circuit gradients for arbitrary quantum circuits composed of local 2-designs. Based on our unified framework, we prove the absence of barren plateaus in training finite local-depth circuits (FLDC) for the ground states of local Hamiltonians. FLDCs are allowed to be deep in the conventional circuit depth to generate long-range entangled ground states, such as topologically ordered states, but their local depths are finite, i.e., there is only a finite number of gates acting on individual qubits. This characteristic sets FLDC apart from shallow circuits: FLDC in general cannot be classically simulated to estimate local observables efficiently by existing tensor network methods in two and higher dimensions. We validate our analytical results with extensive numerical simulations and demonstrate the effectiveness of variational training using the generalized toric code model.
翻訳日:2024-02-15 19:06:45 公開日:2024-02-14
# 可変相互作用によるボソニックダイナミクスの有限性決定

Deciding finiteness of bosonic dynamics with tunable interactions ( http://arxiv.org/abs/2401.00069v2 )

ライセンス: Link先を確認
David Edward Bruschi, Andr\'e Xuereb and Robert Zeier(参考訳) この研究では、ボソニック量子力学の分解に動機付けられ、対応するリー代数(無限次元かもしれない)を研究する。 このような因子分解を特徴付けるために、これらのリー代数の条件を有限次元とする。 各自由ハミルトン項がそれ自体が生成リー代数の元である場合を考える。 提案手法では,スキュー・エルミートボソニック作用素を適切な部分空間に体系的に分割し,リー代数自体の次元を測るために用いられるスキュー・エルミート作用素の特定の列を構成する新しいツールを開発する。 この結果の意義は、特定のハミルトニアンの独立制御生成子のみを制約する条件に依存するため、生成されたリー代数の有限性を検証する効果的なアルゴリズムを提供する。 さらに、この結果は、生成および消滅作用素の多項式をワイル代数(weyl algebra)と呼ぶ数学的仕事と密接に結びついている。 私たちの研究は、量子制御と量子技術に関連するボソニックダイナミクスの分解をよりよく理解するための道を開くものです。

In this work we are motivated by factorization of bosonic quantum dynamics and we study the corresponding Lie algebras, which can potentially be infinite dimensional. To characterize such factorization, we identify conditions for these Lie algebras to be finite dimensional. We consider cases where each free Hamiltonian term is itself an element of the generated Lie algebra. In our approach, we develop new tools to systematically divide skew-hermitian bosonic operators into appropriate subspaces, and construct specific sequences of skew-hermitian operators that are used to gauge the dimensionality of the Lie algebras themselves. The significance of our result relies on conditions that constrain only the independently controlled generators in a particular Hamiltonian, thereby providing an effective algorithm for verifying the finiteness of the generated Lie algebra. In addition, our results are tightly connected to mathematical work where the polynomials of creation and annihilation operators are known as the Weyl algebra. Our work paves the way for better understanding factorization of bosonic dynamics relevant to quantum control and quantum technology.
翻訳日:2024-02-15 18:59:52 公開日:2024-02-14
# 逆攻撃によるテキスト・画像生成における非対称バイアス

Asymmetric Bias in Text-to-Image Generation with Adversarial Attacks ( http://arxiv.org/abs/2312.14440v2 )

ライセンス: Link先を確認
Haz Sameen Shahgir, Xianghao Kong, Greg Ver Steeg, Yue Dong(参考訳) コンテンツ生成におけるテキスト・ツー・イメージ(T2I)モデルの普及は、敵対的攻撃に対する堅牢性を含む安全性を慎重に検査する必要がある。 敵対的な攻撃に関する広範な研究にもかかわらず、その効果の理由は未調査のままである。 本稿では,T2Iモデルに対する敵攻撃に関する実証的研究を行い,攻撃成功率(ASR)に関連する要因の分析に焦点をあてる。 敵接尾辞と2つの勾配に基づく攻撃アルゴリズムを用いた新たな攻撃目標であるエンティティスワップを導入する。 人間と自動評価は、エンティティスワップ上でのASRの非対称性を明らかにし、例えば、「雨の中で踊る人間」というプロンプトで「人間」を「ロボット」に置き換えるのは容易であるが、逆の置換は極めて困難である。 さらに、モデルの信念から敵対的ASRへの示唆的信号を確立するための測度を提案する。 敵の攻撃で成功確率が60%になる状況と、この確率が5%以下に低下する状況を明らかにする。

The widespread use of Text-to-Image (T2I) models in content generation requires careful examination of their safety, including their robustness to adversarial attacks. Despite extensive research on adversarial attacks, the reasons for their effectiveness remain underexplored. This paper presents an empirical study on adversarial attacks against T2I models, focusing on analyzing factors associated with attack success rates (ASR). We introduce a new attack objective - entity swapping using adversarial suffixes and two gradient-based attack algorithms. Human and automatic evaluations reveal the asymmetric nature of ASRs on entity swap: for example, it is easier to replace "human" with "robot" in the prompt "a human dancing in the rain." with an adversarial suffix, but the reverse replacement is significantly harder. We further propose probing metrics to establish indicative signals from the model's beliefs to the adversarial ASR. We identify conditions that result in a success probability of 60% for adversarial attacks and others where this likelihood drops below 5%.
翻訳日:2024-02-15 18:59:07 公開日:2024-02-14
# AdvST: 単一ドメインの一般化のためのデータ拡張の再検討

AdvST: Revisiting Data Augmentations for Single Domain Generalization ( http://arxiv.org/abs/2312.12720v2 )

ライセンス: Link先を確認
Guangtao Zheng, Mengdi Huai, Aidong Zhang(参考訳) single domain generalization (sdg) は、単一のソースドメインのデータを使用して、未知のターゲットドメインシフトに対して堅牢なモデルをトレーニングすることを目的としている。 データ拡張はSDGに対する効果的なアプローチであることが証明されている。 しかし、Translateやinvertのような標準拡張の実用性はSDGでは十分に活用されておらず、実際、これらの拡張はデータ前処理の一部として使用される。 このような拡張を,分散領域シフトに対するモデルの堅牢性を高めるために利用するのは直感的ですが,これらの拡張によってもたらされるメリットを享受するための原則的なアプローチには欠けています。 ここでは,学習可能なパラメータを用いた標準データ拡張を,画像の形状や色など,サンプルの特定の意味を操作可能な意味変換として概念化する。 次に,セマンティクス変換によってソースドメインデータを強化し,拡張データを用いて頑健なモデルを学習する,セマンティクス変換(advst)を用いた逆学習を提案する。 理論的には、AdvSTは、セマンティクス変換のパラメータによって誘導されるセマンティクス分布の集合上で定義された分布的に堅牢な最適化目標を本質的に最適化する。 我々はadvstが対象ドメインデータのカバレッジを拡大するサンプルを生成できることを実証する。 最先端のメソッドと比較すると、AdvSTは単純なメソッドであるにもかかわらず驚くほど競争力があり、Digits、PACS、DomainNetデータセット上で最高の平均SDGパフォーマンスを達成する。 私たちのコードはhttps://github.com/gtzheng/AdvST.comで利用可能です。

Single domain generalization (SDG) aims to train a robust model against unknown target domain shifts using data from a single source domain. Data augmentation has been proven an effective approach to SDG. However, the utility of standard augmentations, such as translate, or invert, has not been fully exploited in SDG; practically, these augmentations are used as a part of a data preprocessing procedure. Although it is intuitive to use many such augmentations to boost the robustness of a model to out-of-distribution domain shifts, we lack a principled approach to harvest the benefit brought from multiple these augmentations. Here, we conceptualize standard data augmentations with learnable parameters as semantics transformations that can manipulate certain semantics of a sample, such as the geometry or color of an image. Then, we propose Adversarial learning with Semantics Transformations (AdvST) that augments the source domain data with semantics transformations and learns a robust model with the augmented data. We theoretically show that AdvST essentially optimizes a distributionally robust optimization objective defined on a set of semantics distributions induced by the parameters of semantics transformations. We demonstrate that AdvST can produce samples that expand the coverage on target domain data. Compared with the state-of-the-art methods, AdvST, despite being a simple method, is surprisingly competitive and achieves the best average SDG performance on the Digits, PACS, and DomainNet datasets. Our code is available at https://github.com/gtzheng/AdvST.
翻訳日:2024-02-15 18:58:05 公開日:2024-02-14
# POND:情報認識型プロンプトチューニングによるマルチソース時系列ドメイン適応

POND: Multi-Source Time Series Domain Adaptation with Information-Aware Prompt Tuning ( http://arxiv.org/abs/2312.12276v2 )

ライセンス: Link先を確認
Junxiang Wang, Guangji Bai, Wei Cheng, Zhengzhang Chen, Liang Zhao, and Haifeng Chen(参考訳) 時系列領域適応(time series domain adaptation)は、人間の活動認識、睡眠ステージ分類、機械障害診断など、さまざまな応用において重要かつ複雑な課題である。 複雑な問題に対処するために提案された多くのドメイン適応技術にもかかわらず、それらは主に単一のソースドメインからのドメイン適応にフォーカスしています。 しかし、改善の可能性があるため、複数のドメインからのドメイン適応を調べることがより重要である。 これに対処するには、3つの重要な課題を克服する必要がある。 ドメイン固有の情報をドメイン適応に利用するための探索の欠如, 2) 時間とともに変化するドメイン固有の情報を学ぶのが困難である。 学習したドメイン固有情報を評価するのが困難である。 本稿では,これらの課題を同時に解決するために,時系列領域適応のためのプロンプトを利用する最初のフレームワークであるpond(promply-based domain discrimination)を提案する。 特に、チャレンジ1に取り組むために、プロンプトチューニングを時系列分析に拡張し、すべてのソースドメインから共通およびドメイン固有の情報をキャプチャするプロンプトを学習する。 チャレンジ2に対処するため,各ソース領域に条件付きモジュールを導入し,時系列入力データからプロンプトを生成する。 チャレンジ3では、適切なプロンプトを選択するための2つの基準を提案し、ドメイン適応に最適なソースドメインを選択するのに使用される。 提案したPONDモデルの有効性とロバスト性は、4つのデータセットを含む50のシナリオにまたがる実験により広く検証される。 実験結果から,提案モデルがf1-scoreにおいて,最先端の比較手法を最大66%上回ることがわかった。

Time series domain adaptation stands as a pivotal and intricate challenge with diverse applications, including but not limited to human activity recognition, sleep stage classification, and machine fault diagnosis. Despite the numerous domain adaptation techniques proposed to tackle this complex problem, they primarily focus on domain adaptation from a single source domain. Yet, it is more crucial to investigate domain adaptation from multiple domains due to the potential for greater improvements. To address this, three important challenges need to be overcome: 1). The lack of exploration to utilize domain-specific information for domain adaptation, 2). The difficulty to learn domain-specific information that changes over time, and 3). The difficulty to evaluate learned domain-specific information. In order to tackle these challenges simultaneously, in this paper, we introduce PrOmpt-based domaiN Discrimination (POND), the first framework to utilize prompts for time series domain adaptation. Specifically, to address Challenge 1, we extend the idea of prompt tuning to time series analysis and learn prompts to capture common and domain-specific information from all source domains. To handle Challenge 2, we introduce a conditional module for each source domain to generate prompts from time series input data. For Challenge 3, we propose two criteria to select good prompts, which are used to choose the most suitable source domain for domain adaptation. The efficacy and robustness of our proposed POND model are extensively validated through experiments across 50 scenarios encompassing four datasets. Experimental results demonstrate that our proposed POND model outperforms all state-of-the-art comparison methods by up to $66\%$ on the F1-score.
翻訳日:2024-02-15 18:56:57 公開日:2024-02-14
# 離散的プロンプトの線形結合による連続的プロンプト生成

Continuous Prompt Generation from Linear Combination of Discrete Prompt Embeddings ( http://arxiv.org/abs/2312.10323v2 )

ライセンス: Link先を確認
Pascal Passigan, Kidus Yohannes, Joshua Pereira(参考訳) 継続的プロンプトの経時的品質は、予想外の予測不可能な振る舞いがトレーニング後に現れるため、その解釈可能性の重要性を強調している。 本稿では,離散的プロンプト埋め込みによる連続的プロンプトの構築方法を提案し,連続的プロンプト解釈可能性と推論精度の改善を評価する。 手動で設計した離散プロンプトのセット $\mathcal{D}$ に対して、各プロンプトをテンソル形式にトークン化し埋め込み、これらのプロンプトの線形結合が自然言語理解タスクのより高い性能に対応するような重みを予測するモデルを訓練する。

The wayward quality of continuous prompts stresses the importance of their interpretability as unexpected and unpredictable behaviors appear following training, especially in the context of large language models automating people-sensitive tasks such as resume screening. In this paper we present a novel method of constructing continuous prompts via discrete prompt embeddings and evaluate improvements to continuous prompt interpretability and inference accuracy. For a set of manually designed discrete prompts $\mathcal{D}$, which we tokenize and embed each into tensor form, we train a model to predict the weights such that the linear combinations of those prompts correspond to higher performance on natural language understanding tasks.
翻訳日:2024-02-15 18:56:32 公開日:2024-02-14
# $\alpha$-Bi$_4$Br$_4$における位相ヒンジモードの輸送応答

Transport response of topological hinge modes in $\alpha$-Bi$_4$Br$_4$ ( http://arxiv.org/abs/2312.09487v2 )

ライセンス: Link先を確認
Md Shafayat Hossain, Qi Zhang, Zhiwei Wang, Nikhil Dhale, Wenhao Liu, Maksim Litskevich, Brian Casas, Nana Shumiya, Jia-Xin Yin, Tyler A. Cochran, Yongkai Li, Yu-Xiao Jiang, Ying Yang, Guangming Cheng, Zi-Jia Cheng, Xian P. Yang, Nan Yao, Titus Neupert, Luis Balicas, Yugui Yao, Bing Lv, M. Zahid Hasan(参考訳) 電子位相相は、絶縁された3次元バルクの境界に導電性表面状態が存在するユニークな性質で有名である。 表面状態の輸送応答は広く研究されているが、トポロジ的ヒンジモードの応答は解明されていない。 ここでは、層状位相絶縁体$\alpha$-bi$_4$br$_4$を調べ、絶縁バルクおよび表面エネルギーギャップに存在するギャップのない位相ヒンジ状態における量子輸送の最初の証拠を提供する。 我々の磁気抵抗測定では、h/e周期的(hはプランク定数、eは電子電荷を表す)アハロノフ・ボーム振動が明らかである。 観察された周期性は、位相コヒーレント電子伝播の密閉領域を直接反射し、サンプルヒンジで囲まれた領域と一致し、ヒンジを囲む電子の量子干渉の説得力のある証拠を与える。 特に、h/e振動は、トポロジーと対称性によって許容されるヒンジモードに沿った干渉経路に従って磁場配向の関数として発展し、走査型トンネル顕微鏡画像によるヒンジモードの位置と一致している。 興味深いことに、このトポロジカル絶縁体における量子輸送の実証は、フレーク幾何学を用いて達成することができ、高温でも頑健であることを示す。 本研究は, 位相的特性と量子コヒーレンスを両立させた位相的ヒンジモードの量子輸送応答を総合的に明らかにし, 効率的な量子電子デバイスの開発に直接適用できることを示した。

Electronic topological phases are renowned for their unique properties, where conducting surface states exist on the boundary of an insulating three-dimensional bulk. While the transport response of the surface states has been extensively studied, the response of the topological hinge modes remains elusive. Here, we investigate a layered topological insulator $\alpha$-Bi$_4$Br$_4$, and provide the first evidence for quantum transport in gapless topological hinge states existing within the insulating bulk and surface energy gaps. Our magnetoresistance measurements reveal pronounced h/e periodic (where h denotes Planck's constant and e represents the electron charge) Aharonov-Bohm oscillation. The observed periodicity, which directly reflects the enclosed area of phase-coherent electron propagation, matches the area enclosed by the sample hinges, providing compelling evidence for the quantum interference of electrons circumnavigating around the hinges. Notably, the h/e oscillations evolve as a function of magnetic field orientation, following the interference paths along the hinge modes that are allowed by topology and symmetry, and in agreement with the locations of the hinge modes according to our scanning tunneling microscopy images. Remarkably, this demonstration of quantum transport in a topological insulator can be achieved using a flake geometry and we show that it remains robust even at elevated temperatures. Our findings collectively reveal the quantum transport response of topological hinge modes with both topological nature and quantum coherence, which can be directly applied to the development of efficient quantum electronic devices.
翻訳日:2024-02-15 18:56:17 公開日:2024-02-14
# 意味的能力モデルとsmtに基づくプロセス計画の自動作成

Automated Process Planning Based on a Semantic Capability Model and SMT ( http://arxiv.org/abs/2312.08801v2 )

ライセンス: Link先を確認
Aljosha K\"ocher, Luis Miguel Vieira da Silva, Alexander Fay(参考訳) 製造システムや自律ロボットの研究において、「能力」という用語はシステム機能の機械解釈可能な仕様として用いられる。 本研究領域のアプローチは,機能要件,効果,行動の解釈に関連するすべての情報をキャプチャする情報モデルを開発する。 これらのアプローチは、様々な種類のプロセスと多数のベンダーから生じる多様性を克服することを目的としている。 しかしながら、これらのモデルと関連する手法は、自動化されたプロセス計画のためのソリューションを提供していない。 代わりに、これはAI計画アプローチの典型的なタスクであり、残念なことに、それぞれの計画問題記述を作成するのに高い労力を要する。 本稿では,これら2つのトピックを組み合わせたアプローチを提案する。 意味能力モデルから始めて,AI計画問題を自動的に生成する。 計画問題は、Satisfiability Modulo Theoriesを用いて符号化され、必要パラメータ値を含む有効な機能シーケンスを見つけるために既存のソルバを使用する。 このアプローチはまた、計画決定を理解するために、既存の人間の専門知識を統合し、人間オペレーターに説明を提供する可能性も提供する。

In research of manufacturing systems and autonomous robots, the term capability is used for a machine-interpretable specification of a system function. Approaches in this research area develop information models that capture all information relevant to interpret the requirements, effects and behavior of functions. These approaches are intended to overcome the heterogeneity resulting from the various types of processes and from the large number of different vendors. However, these models and associated methods do not offer solutions for automated process planning, i.e. finding a sequence of individual capabilities required to manufacture a certain product or to accomplish a mission using autonomous robots. Instead, this is a typical task for AI planning approaches, which unfortunately require a high effort to create the respective planning problem descriptions. In this paper, we present an approach that combines these two topics: Starting from a semantic capability model, an AI planning problem is automatically generated. The planning problem is encoded using Satisfiability Modulo Theories and uses an existing solver to find valid capability sequences including required parameter values. The approach also offers possibilities to integrate existing human expertise and to provide explanations for human operators in order to help understand planning decisions.
翻訳日:2024-02-15 18:55:45 公開日:2024-02-14
# 神経言語エージェントのdiff履歴

diff History for Neural Language Agents ( http://arxiv.org/abs/2312.07540v2 )

ライセンス: Link先を確認
Ulyana Piterbarg, Lerrel Pinto, Rob Fergus(参考訳) ニューラルネットワークモデル(LM)は、汎用的なエンボディドコントロールのためのエキサイティングなソリューションを提供する。 しかし、LMベースのコントローラを使用する場合、重要な技術的な問題が発生する。環境観測はテキストに変換しなければならない。 その結果、lmエージェントの事前作業は、相互作用履歴や命令チューニングに対する最小限のニーズだけでなく、観察サイズが小さい制限されたドメインに限定される。 本稿では,これらの問題に対する単純かつ効果的な解決法であるdiff historyを提案する。 unix diffコマンドを連続したテキスト観察に適用することにより、lmポリシーを促すのに使用される対話履歴を抽象化し、テキスト入力の内容が環境の厳格な変化に焦点を合わせることができる。 意思決定のための長期的推論を必要とする未解決のビデオゲームであるNetHackでは、diff履歴をチューニングしたLMが、ニューラルエージェントの最先端のパフォーマンスと一致し、以前の作業よりも1800倍少ないトレーニング例を必要とする。 簡単なテキスト観察を伴う単純なbabyai-text環境であっても、差分履歴はプロンプトの長さを増加させるが、その表現は低サンプル命令チューニングの効率を25%向上させる。 さらに,異なるチューニングデータセットサイズにまたがってdiff履歴が好適にスケールすることを示す。 コードとデータをhttps://diffhistory.github.ioにオープンソースとして公開しています。

Neural Language Models (LMs) offer an exciting solution for general-purpose embodied control. However, a key technical issue arises when using an LM-based controller: environment observations must be converted to text, which coupled with history, results in long and verbose textual prompts. As a result, prior work in LM agents is limited to restricted domains with small observation size as well as minimal needs for interaction history or instruction tuning. In this paper, we introduce diff history, a simple and highly effective solution to these issues. By applying the Unix diff command on consecutive text observations in the interaction histories used to prompt LM policies, we can both abstract away redundant information and focus the content of textual inputs on the salient changes in the environment. On NetHack, an unsolved video game that requires long-horizon reasoning for decision-making, LMs tuned with diff history match state-of-the-art performance for neural agents while needing 1800x fewer training examples compared to prior work. Even on the simpler BabyAI-Text environment with concise text observations, we find that although diff history increases the length of prompts, the representation it provides offers a 25% improvement in the efficiency of low-sample instruction tuning. Further, we show that diff history scales favorably across different tuning dataset sizes. We open-source our code and data to https://diffhistory.github.io.
翻訳日:2024-02-15 18:55:26 公開日:2024-02-14
# 悪い生徒が優れた教師を作る: アクティブラーニングは大規模視覚理解を加速する

Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding ( http://arxiv.org/abs/2312.05328v3 )

ライセンス: Link先を確認
Talfan Evans, Shreya Pathak, Hamza Merzic, Jonathan Schwarz, Ryutaro Tanno, Olivier J. Henaff(参考訳) パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。 アクティブラーニング手法は、最も関連する例で学習を優先順位付けすることで、データ効率を向上させることを目的としている。 その魅力にもかかわらず、これらの手法は1つのアルゴリズムが示されていないため、まだ広く採用されていない。 a) モデルとタスクをまたいだ一般化 b) 大規模データセットへのスケール c) データ選択のオーバーヘッドを考慮した場合、全体のFLOP貯蓄を得る。 本研究では,これら3つの特性を満足する手法を提案し,より小型で安価なプロキシモデルを用いて,より大規模モデルのトレーニングのためのデータ優先に使用されるデータポイントの"リーナビリティ"スコアを推定する。 その結果,jft と multimodal モデルで一様に訓練された視覚分類器と同じ性能に達するためには,トレーニング更新が 46% と 51% 削減され,計算総数が 25% 削減された。 最後に,最近のデータキュレーションと学習の目標を補完するデータ優先化手法を見いだし,複数のマルチモーダル転送タスクにおいて新たな最先端を実現する。

Power-law scaling indicates that large-scale training with uniform sampling is prohibitively slow. Active learning methods aim to increase data efficiency by prioritizing learning on the most relevant examples. Despite their appeal, these methods have yet to be widely adopted since no one algorithm has been shown to a) generalize across models and tasks b) scale to large datasets and c) yield overall FLOP savings when accounting for the overhead of data selection. In this work we propose a method which satisfies these three properties, leveraging small, cheap proxy models to estimate "learnability" scores for datapoints, which are used to prioritize data for the training of much larger models. As a result, our models require 46% and 51% fewer training updates and up to 25% less total computation to reach the same performance as uniformly trained visual classifiers on JFT and multimodal models on ALIGN. Finally, we find our data-prioritization scheme to be complementary with recent data-curation and learning objectives, yielding a new state-of-the-art in several multimodal transfer tasks.
翻訳日:2024-02-15 18:55:02 公開日:2024-02-14
# 最適化のためのスピン状態と強制運動の局所性評価

Characterization of Locality in Spin States and Forced Moves for Optimizations ( http://arxiv.org/abs/2312.02544v2 )

ライセンス: Link先を確認
Yoshiki Sato, Makiko Konoshima, Hirotaka Tamura, Jun Ohkubo(参考訳) イジングの定式化は組合せ最適化の問題を解決するために広く使われており、様々な量子または半導体ベースのハードウェアが最近利用可能になった。 組合せ最適化問題において、エネルギーランドスケープにおける局所最小値の存在は、世界最小値を求めるために問題となる。 最適化の目的はボルツマン分布から正確なサンプリングを得ることではなく、したがって詳細なバランス条件を満たす必要はないことに留意する。 この事実に照らして,我々は局所的ミニマから効率的に抜け出すアルゴリズムを開発したが,正確なサンプリングは得られない。 この目的のために、我々は、特定のハードウェアで容易に得ることのできる、現在の状態における局所性を特徴付ける機能を利用する。 さらに,提案アルゴリズムは拒絶フリーのアルゴリズムに基づいているため,計算コストは低い。 本研究では,提案アルゴリズムの詳細を提示した後,提案手法の有効性を示す数値実験の結果を報告する。

Ising formulations are widely utilized to solve combinatorial optimization problems, and a variety of quantum or semiconductor-based hardware has recently been made available. In combinatorial optimization problems, the existence of local minima in energy landscapes is problematic to use to seek the global minimum. We note that the aim of the optimization is not to obtain exact samplings from the Boltzmann distribution, and there is thus no need to satisfy detailed balance conditions. In light of this fact, we develop an algorithm to get out of the local minima efficiently while it does not yield the exact samplings. For this purpose, we utilize a feature that characterizes locality in the current state, which is easy to obtain with a type of specialized hardware. Furthermore, as the proposed algorithm is based on a rejection-free algorithm, the computational cost is low. In this work, after presenting the details of the proposed algorithm, we report the results of numerical experiments that demonstrate the effectiveness of the proposed feature and algorithm.
翻訳日:2024-02-15 18:54:28 公開日:2024-02-14
# シーケンスモデリングのためのトランスの表現力と機構の理解

Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling ( http://arxiv.org/abs/2402.00522v3 )

ライセンス: Link先を確認
Mingze Wang, Weinan E(参考訳) 長大,スパース,複雑なメモリを有するシーケンスモデリングのための変圧器の近似特性を体系的に研究する。 点生成自己着脱,位置符号化,フィードフォワード層などのトランスフォーマーの異なる成分が,その表現力にどのような影響を及ぼすかを調査し,それらの組み合わせ効果を明示的な近似率の確立を通じて検討する。 本研究は,トランスフォーマーにおけるクリティカルパラメータの役割を明らかにする。レイヤ数やアテンションヘッド数などである。

We conduct a systematic study of the approximation properties of Transformer for sequence modeling with long, sparse and complicated memory. We investigate the mechanisms through which different components of Transformer, such as the dot-product self-attention, positional encoding and feed-forward layer, affect its expressive power, and we study their combined effects through establishing explicit approximation rates. Our study reveals the roles of critical parameters in the Transformer, such as the number of layers and the number of attention heads, and these insights also provide natural suggestions for alternative architectures.
翻訳日:2024-02-15 18:46:01 公開日:2024-02-14
# 今私に会えますか。 ランダム基準センサを用いたシナリオベースシミュレーションによる自動運転車の盲点推定

Can you see me now? Blind spot estimation for autonomous vehicles using scenario-based simulation with random reference sensors ( http://arxiv.org/abs/2402.00467v2 )

ライセンス: Link先を確認
Marc Uecker and J.Marius Z\"ollner(参考訳) 本稿では,自律走行車や自動走行車やロボットのセンサ・セットアップにおける盲点推定手法を提案する。 幾何学的近似に依存する従来の手法と比較して,本手法は高精度かつ詳細な3次元シミュレーション環境を用いて,より現実的なカバレッジ推定を行う。 目的シナリオの高忠実度シミュレーションからLiDARセンサやカメラ深度画像からの点雲を利用して,正確な可視性推定を行う。 モンテカルロを基準とした基準センサシミュレーションにより,ブラインドスポットサイズをカバレッジの指標として正確に推定し,任意の位置における物体の検出確率を推定できる。

In this paper, we introduce a method for estimating blind spots for sensor setups of autonomous or automated vehicles and/or robotics applications. In comparison to previous methods that rely on geometric approximations, our presented approach provides more realistic coverage estimates by utilizing accurate and detailed 3D simulation environments. Our method leverages point clouds from LiDAR sensors or camera depth images from high-fidelity simulations of target scenarios to provide accurate and actionable visibility estimates. A Monte Carlo-based reference sensor simulation enables us to accurately estimate blind spot size as a metric of coverage, as well as detection probabilities of objects at arbitrary positions.
翻訳日:2024-02-15 18:45:50 公開日:2024-02-14
# 単一分布分類モデルによる食品画像中の複数の成分の認識

Recognizing Multiple Ingredients in Food Images Using a Single-Ingredient Classification Model ( http://arxiv.org/abs/2401.14579v2 )

ライセンス: Link先を確認
Kun Fu, and Ying Dai(参考訳) 食品画像の認識には,調理方法や切断方法の異なる食材の空間配置や形状の変化など,独特の課題がある。 本研究では,食品画像から区切られた成分を認識するための高度なアプローチを提案する。 この方法は、位置決めおよびスライドウィンドウ技術を用いて、成分の候補領域をローカライズする。 次に、これらの領域をcnn(convolutional neural network)ベースの単一冗長分類モデルを用いて、単一冗長画像のデータセット上でトレーニングされた成分クラスに割り当てる。 マルチingredient recognitionにおける処理速度の課題に対処するために,分類モデルの効率を向上させる新しいモデルプルーニング法を提案する。 その後、2つの新しいアルゴリズムを組み込んだ意思決定スキームによって、多元的識別を実現する。 New Food Ingredients List FOODS 2021" という本に従って設計された単一独立画像データセットは、110の多様なカテゴリにわたる9982のイメージを含み、材料形状の多様性を強調している。 さらに,本手法の性能評価を行うために,多言語画像データセットを開発した。 実験により, 本手法の有効性, 特に複数の成分の認識能力の向上が示された。 これは食品画像分析の分野で重要な進歩を示している。

Recognizing food images presents unique challenges due to the variable spatial layout and shape changes of ingredients with different cooking and cutting methods. This study introduces an advanced approach for recognizing ingredients segmented from food images. The method localizes the candidate regions of the ingredients using the locating and sliding window techniques. Then, these regions are assigned into ingredient classes using a CNN (Convolutional Neural Network)-based single-ingredient classification model trained on a dataset of single-ingredient images. To address the challenge of processing speed in multi-ingredient recognition, a novel model pruning method is proposed that enhances the efficiency of the classification model. Subsequently, the multi-ingredient identification is achieved through a decision-making scheme, incorporating two novel algorithms. The single-ingredient image dataset, designed in accordance with the book entitled "New Food Ingredients List FOODS 2021", encompasses 9982 images across 110 diverse categories, emphasizing variety in ingredient shapes. In addition, a multi-ingredient image dataset is developed to rigorously evaluate the performance of our approach. Experimental results validate the effectiveness of our method, particularly highlighting its improved capability in recognizing multiple ingredients. This marks a significant advancement in the field of food image analysis.
翻訳日:2024-02-15 18:45:39 公開日:2024-02-14
# YOLOv8, DeiT, SimCLRによるギリシア語パピルス文字の検出と認識

Detecting and recognizing characters in Greek papyri with YOLOv8, DeiT and SimCLR ( http://arxiv.org/abs/2401.12513v2 )

ライセンス: Link先を確認
Robert Turnbull and Evelyn Mannix(参考訳) 目的:パピルス写本のファクシミリ画像から個々の文字を分離・認識する能力は,デジタル解析の豊富な機会をもたらす。 このため、第17回国際文書分析・認識会議(international conference on document analysis and recognition)において「パピリに関するギリシア文字の検出と認識に関するicdar 2023コンペティション」が開催された。 本稿では,コンペへの応募について論じる。 方法: YOLOv8モデルのアンサンブルを用いて個々の文字を検出して分類し, トランスフォーマーベースのDeiTアプローチと, 自己教師型学習手法であるSimCLRを用いて学習したResNet-50モデルを含む, キャラクタの予測を改良する2つのアプローチを用いた。 結果: 平均平均精度(mAP)は51.4%, 平均精度(mAP)は42.2%, 検出精度(mAP)は51.4%であった。 ユニオンしきい値0.5のより緩やかな交差点において,検出と分類の両方において,平均平均精度と平均平均リコール結果が最高であった。 結論: 研究結果は, 歴史写本における文字認識の自動化の可能性を示すものである。 我々は、Oxyrhynchus Papyriから4,500枚以上の画像で予測パイプラインを実行し、アプローチの有用性を説明し、結果を複数のフォーマットで公開しました。

Purpose: The capacity to isolate and recognize individual characters from facsimile images of papyrus manuscripts yields rich opportunities for digital analysis. For this reason the `ICDAR 2023 Competition on Detection and Recognition of Greek Letters on Papyri' was held as part of the 17th International Conference on Document Analysis and Recognition. This paper discusses our submission to the competition. Methods: We used an ensemble of YOLOv8 models to detect and classify individual characters and employed two different approaches for refining the character predictions, including a transformer based DeiT approach and a ResNet-50 model trained on a large corpus of unlabelled data using SimCLR, a self-supervised learning method. Results: Our submission won the recognition challenge with a mAP of 42.2%, and was runner-up in the detection challenge with a mean average precision (mAP) of 51.4%. At the more relaxed intersection over union threshold of 0.5, we achieved the highest mean average precision and mean average recall results for both detection and classification. Conclusion: The results demonstrate the potential for these techniques for automated character recognition on historical manuscripts. We ran the prediction pipeline on more than 4,500 images from the Oxyrhynchus Papyri to illustrate the utility of our approach, and we release the results publicly in multiple formats.
翻訳日:2024-02-15 18:45:19 公開日:2024-02-14
# 大きな言語モデルはヌルショット学習者です

Large Language Models are Null-Shot Learners ( http://arxiv.org/abs/2401.08273v2 )

ライセンス: Link先を確認
Pittawat Taveekitworachai, Febri Abdullah, Ruck Thawonmas(参考訳) 本稿ではヌルショットプロンプトを提案する。 Null-shot promptingは、LLMに与えられたコンテキスト内に存在しない"Examples"セクションの情報を使ってタスクを実行するように指示することで、大きな言語モデル(LLM)の幻覚を悪用する。 LLMの日常的かつ批判的な利用には幻覚の低減が不可欠であり、かつ無視できないが、これらのLLMがまだ幻覚化している現状では、実際に幻覚を利用して、標準のゼロショットプロンプトに比べてタスクの実行性能を向上させることが可能である。 8つのllmによる実験では、読み取り理解、算術推論、クローズドブックの質問応答など、8つのデータセットの大部分でパフォーマンスが向上している。 LLM間の相対的な性能向上における観察上の矛盾は、各モデルに固有の幻覚の程度が異なることを示す可能性がある。 これらの違いは、既存のベンチマークデータセットを使用してLLMにおける幻覚の度合いを検出する手段として、null-shot promptingを利用することができることを示している。 また、ゼロショット・チェーン・オブ・シント・プロンプトのアイデアを取り入れたヌルショット・プロンプトの修正版の実験を含むアブレーション研究も行った。

This paper presents null-shot prompting. Null-shot prompting exploits hallucination in large language models (LLMs) by instructing LLMs to utilize information from the "Examples" section that never exists within the provided context to perform a task. While reducing hallucination is crucial and non-negligible for daily and critical uses of LLMs, we propose that in the current landscape in which these LLMs still hallucinate, it is possible, in fact, to exploit hallucination to increase performance in performing tasks compared to standard zero-shot prompting. Experiments with eight LLMs show improvements in performance across the majority of eight datasets, including reading comprehension, arithmetic reasoning, and closed-book question answering. The observed inconsistency in increased relative performance across the LLMs also potentially indicates a different degree of inherent hallucination in each model. These differences show that it is possible to utilize null-shot prompting as a way to detect degrees of hallucination in LLMs using existing benchmarking datasets. We also perform ablation studies, including experimenting with a modified version of null-shot prompting that incorporates ideas from zero-shot chain-of-thought prompting, which shows different trends of results.
翻訳日:2024-02-15 18:43:59 公開日:2024-02-14
# AIに基づくモバイルアプリレビューにおける公平性に関する考察

A Study of Fairness Concerns in AI-based Mobile App Reviews ( http://arxiv.org/abs/2401.08097v2 )

ライセンス: Link先を確認
Ali Rezaei Nasab, Maedeh Dashti, Mojtaba Shahin, Mansooreh Zahedi, Hourieh Khalajzadeh, Chetan Arora, Peng Liang(参考訳) フェアネスは、AIベースのシステムで対処しなければならない社会技術的懸念の1つである。 不正なAIベースのシステム、特に不公平なAIベースのモバイルアプリは、世界の人口のかなりの割合に困難をもたらす可能性がある。 本稿では,aiベースのアプリレビューにおける公平性に関する懸念を分析することを目的として,まず,公平性および非公正性レビューの統計的サンプルを含む地対地データセットを手作業で構築した。 本研究では,不公平なレビューと公平なレビューを区別する機械学習とディープラーニングの分類器のセットを開発し,評価した。 実験の結果,最善の分類器は94%の精度で公平性評価を検出できることがわかった。 次に、AIベースの108のアプリから収集された約950万のレビューに対して、最高のパフォーマンスの分類器を適用し、92万のフェアネスレビューを特定した。 次に,92kのフェアネス評価にk-meansクラスタリング手法を適用し,手作業による分析を行い,6種類のフェアネス問題(「異なるプラットフォームやデバイスにおける機能やサービスの異なる品質の認識」や「ユーザ生成コンテンツを扱う際の透明性とフェアネスの欠如」など)を特定した。 最後に、フェアネスレビューに対する2,248人のアプリオーナーの回答のマニュアル分析では、アプリオーナーがフェアネスの懸念を正当化するために報告する6つの根本原因(例:「コピーライト問題」)が特定された。

Fairness is one of the socio-technical concerns that must be addressed in AI-based systems. Unfair AI-based systems, particularly unfair AI-based mobile apps, can pose difficulties for a significant proportion of the global population. This paper aims to analyze fairness concerns in AI-based app reviews.We first manually constructed a ground-truth dataset, including a statistical sample of fairness and non-fairness reviews. Leveraging the ground-truth dataset, we developed and evaluated a set of machine learning and deep learning classifiers that distinguish fairness reviews from non-fairness reviews. Our experiments show that our best-performing classifier can detect fairness reviews with a precision of 94%. We then applied the best-performing classifier on approximately 9.5M reviews collected from 108 AI-based apps and identified around 92K fairness reviews. Next, applying the K-means clustering technique to the 92K fairness reviews, followed by manual analysis, led to the identification of six distinct types of fairness concerns (e.g., 'receiving different quality of features and services in different platforms and devices' and 'lack of transparency and fairness in dealing with user-generated content'). Finally, the manual analysis of 2,248 app owners' responses to the fairness reviews identified six root causes (e.g., 'copyright issues') that app owners report to justify fairness concerns.
翻訳日:2024-02-15 18:43:34 公開日:2024-02-14
# 歴史の連鎖: 時間知識グラフ補完のためのLLMによる学習と予測

Chain of History: Learning and Forecasting with LLMs for Temporal Knowledge Graph Completion ( http://arxiv.org/abs/2401.06072v2 )

ライセンス: Link先を確認
Ruilin Luo, Tianle Gu, Haoling Li, Junzhe Li, Zicheng Lin, Jiayi Li, Yujiu Yang(参考訳) 時間的知識グラフ補完(TKGC)は、確立された時間的構造的知識を活用することで、将来のタイムスタンプにおけるイベントリンクの欠落を予測する複雑なタスクである。 本稿では、時間的知識グラフの推論にLarge Language Models(LLM)の利点を利用するための総合的な視点を提供することを目的とする。 グラフモダリティの観点からは、歴史的チェーン内の重要なノードの構造情報を識別するllmsの能力を強調する。 推論に用いた LLM の生成モードについては,LLM に固有の様々な要因によって引き起こされる分散を網羅的に探索し,特に逆論理を解釈する際の課題に注目した。 我々は、LCMとタスク要求を調和させるためにパラメータ効率の良い微調整戦略を採用し、より早く強調された重要な知識の学習を容易にする。 いくつかの広く認識されているデータセットで包括的な実験が行われ、我々のフレームワークは、多くの人気のあるメトリクスをまたいで既存のメソッドを超越または並列化していることが判明した。 さらに、構造化時間的知識推論タスクにおけるLLMの性能に影響を及ぼす重要な要因について検討するため、かなりの範囲のアブレーション実験を行い、先進的な商業LLMとの比較を行う。

Temporal Knowledge Graph Completion (TKGC) is a complex task involving the prediction of missing event links at future timestamps by leveraging established temporal structural knowledge. This paper aims to provide a comprehensive perspective on harnessing the advantages of Large Language Models (LLMs) for reasoning in temporal knowledge graphs, presenting an easily transferable pipeline. In terms of graph modality, we underscore the LLMs' prowess in discerning the structural information of pivotal nodes within the historical chain. As for the generation mode of the LLMs utilized for inference, we conduct an exhaustive exploration into the variances induced by a range of inherent factors in LLMs, with particular attention to the challenges in comprehending reverse logic. We adopt a parameter-efficient fine-tuning strategy to harmonize the LLMs with the task requirements, facilitating the learning of the key knowledge highlighted earlier. Comprehensive experiments are undertaken on several widely recognized datasets, revealing that our framework exceeds or parallels existing methods across numerous popular metrics. Additionally, we execute a substantial range of ablation experiments and draw comparisons with several advanced commercial LLMs, to investigate the crucial factors influencing LLMs' performance in structured temporal knowledge inference tasks.
翻訳日:2024-02-15 18:43:05 公開日:2024-02-14
# 署名変換を用いた交通市場レート予測

Transportation Marketplace Rate Forecast Using Signature Transform ( http://arxiv.org/abs/2401.04857v2 )

ライセンス: Link先を確認
Haotian Gu, Xin Guo, Timothy L. Jacobs, Philip Kaminsky, Xinyu Li(参考訳) 貨物輸送市場率は、正確に予測するのが通常困難である。 本研究では,シグネチャ変換に基づく新しい統計手法を開発し,これらのマーケットプレース率を予測するための予測的適応モデルを構築した。 本手法は,特徴空間を線形化し,予測問題を線形回帰に変換する普遍非線形性と,時系列データ間の計算効率良く類似性を比較可能なシグネチャカーネルという,シグネチャ変換の2つの重要な要素に基づいている。 これにより、予測プロセスにおける効率的な特徴生成と季節性の正確な識別と状態切替が可能になる。 この手法に基づくアルゴリズムは、新型コロナウイルス(covid-19)パンデミックやウクライナ紛争中でさえ、予測精度と商業的に利用可能な業界モデルよりも優れた解釈性を備えたamazon trucking operationsによってデプロイされている。 さらに, 予測精度を5倍以上に向上し, 年間50mmの貯蓄を見積もることにより, 事業サイクルと市場の不均一性の影響を把握できる。

Freight transportation marketplace rates are typically challenging to forecast accurately. In this work, we have developed a novel statistical technique based on signature transforms and have built a predictive and adaptive model to forecast these marketplace rates. Our technique is based on two key elements of the signature transform: one being its universal nonlinearity property, which linearizes the feature space and hence translates the forecasting problem into linear regression, and the other being the signature kernel, which allows for comparing computationally efficiently similarities between time series data. Combined, it allows for efficient feature generation and precise identification of seasonality and regime switching in the forecasting process. An algorithm based on our technique has been deployed by Amazon trucking operations, with far superior forecast accuracy and better interpretability versus commercially available industry models, even during the COVID-19 pandemic and the Ukraine conflict. Furthermore, our technique is able to capture the influence of business cycles and the heterogeneity of the marketplace, improving prediction accuracy by more than fivefold, with an estimated annualized saving of \$50MM.
翻訳日:2024-02-15 18:42:43 公開日:2024-02-14
# cra-pcn:イントラおよびインターレゾリューショントランスフォーマによるポイントクラウドの完成

CRA-PCN: Point Cloud Completion with Intra- and Inter-level Cross-Resolution Transformers ( http://arxiv.org/abs/2401.01552v2 )

ライセンス: Link先を確認
Yi Rong, Haoran Zhou, Lixin Yuan, Cheng Mei, Jiahao Wang, Tong Lu(参考訳) ポイント・クラウド・コンプリートは、閉塞やセンサーの解像度の制限などによる不完全性による完全点雲の回復に必要なタスクである。 粗大な生成アーキテクチャのファミリーは、最近ポイントクラウドの完成で大きな成功を収め、徐々に主流になってきた。 本稿では,これらの手法の背後にある重要な要素の一つである,明示的なクロスレゾリューション集約を用いた特徴抽出操作について紹介する。 局所的な注意機構を持つクロスレゾリューションアグリゲーションを効率的に行うクロスレゾリューショントランスを提案する。 再帰的設計の助けを借りて,提案手法は共通の集約演算よりも多くの特徴を捉えることが可能であり,詳細な幾何学的特徴を捉えるのに有用である。 先行手法は, レベル間クロスレゾリューションアグリゲーションの様々な表現に発展してきたが, レベル内アグリゲーションとそれらの組み合わせの有効性は分析されていない。 統一設計により、クロス・リゾリューション・トランスフォーマーは入力を切り替えることで、レベル内または層間クロスレゾリューションアグリゲーションを行うことができる。 2種類のクロスレゾリューショントランスを1つのアップサンプリングブロックに統合してポイント生成を行い,粗大から細かな方法でcra-pcnを構築し,アップサンプリングブロックを積み重ねて完全な形状を漸進的に予測する。 大規模な実験により, 提案手法は, 広く使用されているベンチマークにおいて, 最先端の手法よりも高い性能を示した。 コードはhttps://github.com/EasyRy/CRA-PCNで公開されている。

Point cloud completion is an indispensable task for recovering complete point clouds due to incompleteness caused by occlusion, limited sensor resolution, etc. The family of coarse-to-fine generation architectures has recently exhibited great success in point cloud completion and gradually became mainstream. In this work, we unveil one of the key ingredients behind these methods: meticulously devised feature extraction operations with explicit cross-resolution aggregation. We present Cross-Resolution Transformer that efficiently performs cross-resolution aggregation with local attention mechanisms. With the help of our recursive designs, the proposed operation can capture more scales of features than common aggregation operations, which is beneficial for capturing fine geometric characteristics. While prior methodologies have ventured into various manifestations of inter-level cross-resolution aggregation, the effectiveness of intra-level one and their combination has not been analyzed. With unified designs, Cross-Resolution Transformer can perform intra- or inter-level cross-resolution aggregation by switching inputs. We integrate two forms of Cross-Resolution Transformers into one up-sampling block for point generation, and following the coarse-to-fine manner, we construct CRA-PCN to incrementally predict complete shapes with stacked up-sampling blocks. Extensive experiments demonstrate that our method outperforms state-of-the-art methods by a large margin on several widely used benchmarks. Codes are available at https://github.com/EasyRy/CRA-PCN.
翻訳日:2024-02-15 18:42:23 公開日:2024-02-14
# コンテキストを取り戻す:マルチモーダル知識グラフにおけるリンク予測としてのカメラトラップ種識別

Bringing Back the Context: Camera Trap Species Identification as Link Prediction on Multimodal Knowledge Graphs ( http://arxiv.org/abs/2401.00608v3 )

ライセンス: Link先を確認
Vardaan Pahuja, Weidi Luo, Yu Gu, Cheng-Hao Tu, Hong-You Chen, Tanya Berger-Wolf, Charles Stewart, Song Gao, Wei-Lun Chao, Yu Su(参考訳) カメラトラップは生物多様性の監視と保護のために動物生態学において貴重な道具である。 しかし、新しい見えない場所でのデプロイメントへの一般化の欠如のような課題は、実用的応用を制限する。 イメージは、おそらく異なるモダリティで、異種形式のコンテキストと自然に関連づけられる。 本研究では,カメラトラップ画像に付随する構造的コンテキストを利用して,カメラトラップの種識別作業における分布外一般化を改善する。 例えば、野生動物の写真は、いつどこで撮影されたかに関する情報や、動物種に関する構造生物学の知識と関連付けられるかもしれない。 通常、既存の作業では見過ごされるが、そのようなコンテキストを戻すことで、データの不足の解消や一般化の促進など、画像理解を改善する潜在的なメリットがいくつかある。 しかし、このような異種コンテキストを視覚領域に効果的に統合することは難しい問題である。 そこで本研究では,多変量知識グラフ (kg) において種分類をリンク予測として再編成する新しい枠組みを提案する。 このフレームワークは視覚認識のための様々な形態のマルチモーダルコンテキストをシームレスに統合する。 この枠組みをiwildcam2020-wildsとスナップショットマウンテンゼブラデータセットの分散種分類に適用し,最先端手法による競合性能を達成する。 さらに, 生物分類学を取り入れ, 一般化に成功し, 低発現種を識別するサンプル効率を高めた。

Camera traps are valuable tools in animal ecology for biodiversity monitoring and conservation. However, challenges like poor generalization to deployment at new unseen locations limit their practical application. Images are naturally associated with heterogeneous forms of context possibly in different modalities. In this work, we leverage the structured context associated with the camera trap images to improve out-of-distribution generalization for the task of species identification in camera traps. For example, a photo of a wild animal may be associated with information about where and when it was taken, as well as structured biology knowledge about the animal species. While typically overlooked by existing work, bringing back such context offers several potential benefits for better image understanding, such as addressing data scarcity and enhancing generalization. However, effectively integrating such heterogeneous context into the visual domain is a challenging problem. To address this, we propose a novel framework that reformulates species classification as link prediction in a multimodal knowledge graph (KG). This framework seamlessly integrates various forms of multimodal context for visual recognition. We apply this framework for out-of-distribution species classification on the iWildCam2020-WILDS and Snapshot Mountain Zebra datasets and achieve competitive performance with state-of-the-art approaches. Furthermore, our framework successfully incorporates biological taxonomy for improved generalization and enhances sample efficiency for recognizing under-represented species.
翻訳日:2024-02-15 18:41:56 公開日:2024-02-14
# あなたのAIはどんなものか? 規制に適した人工知能システムの定義に向けて

How VADER is your AI? Towards a definition of artificial intelligence systems appropriate for regulation ( http://arxiv.org/abs/2402.05048v2 )

ライセンス: Link先を確認
Leonardo C. T. Bezerra, Alexander E. I. Brownlee, Luana Ferraz Alvarenga, Renan Cipriano Moioli, Thais Vasconcelos Batista(参考訳) 人工知能(AI)は多くの情報通信技術(ICT)を突破した。 それでも、ICTシステムの範囲はチューリングテストの提案以来、AIを超えて拡大している。 最近のAI規制提案では、ICT技術、アプローチ、AI以外のシステムに影響を与えるAI定義を採用している。 場合によっては、数学、統計学、工学からも影響がある。 さらに悪いことに、西欧社会からグローバル・サウスまでAIの誤定義が観察されている。 本稿では,AI定義の規制(VADER)が適切に定義されているかを評価する枠組みを提案する。 私たちのオンラインで公開しているVADERフレームワークは、規制のためのAI定義の基盤となるべき前提の範囲をスコア付けします。 (i)他の成功した技術規制で見られる原則を再現し、 (II)非AI作業を除いて、すべてのAI技術とアプローチを含む。 後者については,代表的AI,非AIICT,非ICT事例のデータセットに基づいて評価を行った。 我々は,米国,英国,欧州連合,ブラジルといった主要選手のai規制提案をレビューすることで,我々の貢献を実証する。 重要な点として、評価された提案は、修正の必要性から具体的なリスク、ICTシステム、その他の分野からの作業など、適切性スコアを達成できない。

Artificial intelligence (AI) has driven many information and communication technology (ICT) breakthroughs. Nonetheless, the scope of ICT systems has expanded far beyond AI since the Turing test proposal. Critically, recent AI regulation proposals adopt AI definitions affecting ICT techniques, approaches, and systems that are not AI. In some cases, even works from mathematics, statistics, and engineering would be affected. Worryingly, AI misdefinitions are observed from Western societies to the Global South. In this paper, we propose a framework to score how validated as appropriately-defined for regulation (VADER) an AI definition is. Our online, publicly-available VADER framework scores the coverage of premises that should underlie AI definitions for regulation, which aim to (i) reproduce principles observed in other successful technology regulations, and (ii) include all AI techniques and approaches while excluding non-AI works. Regarding the latter, our score is based on a dataset of representative AI, non-AI ICT, and non-ICT examples. We demonstrate our contribution by reviewing the AI regulation proposals of key players, namely the United States, United Kingdom, European Union, and Brazil. Importantly, none of the proposals assessed achieve the appropriateness score, ranging from a revision need to a concrete risk to ICT systems and works from other fields.
翻訳日:2024-02-15 18:36:15 公開日:2024-02-14
# PaDeLLM-NER: 名前付きエンティティ認識のための大規模言語モデルにおける並列デコーディング

PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition ( http://arxiv.org/abs/2402.04838v3 )

ライセンス: Link先を確認
Jinghui Lu, Ziwei Yang, Yanjie Wang, Xuejing Liu, Can Huang(参考訳) 本研究では,Large Language Models (LLMs) を用いた Named Entity Recognition (NER) の生成遅延を低減することを目的とする。 LLMにおける高遅延の主な原因はシーケンシャルデコーディングプロセスであり、全てのラベルとNERへの言及を自動回帰的に生成し、シーケンス長を大幅に増加させる。 llm for ne} (padellm-ner)は、モジュールの追加やアーキテクチャの変更を必要とせず、既存の生成モデルフレームワークにシームレスに統合するアプローチである。 PaDeLLM-NERはすべての参照の同時復号化を可能にし、生成遅延を低減する。 実験の結果、PaDeLLM-NERは英語と中国語の自己回帰手法の1.76倍から10.22倍の推論速度を著しく向上させることがわかった。 同時に、さまざまなデータセットにわたる最先端のパフォーマンスが示すように、予測の品質も維持する。

In this study, we aim to reduce generation latency for Named Entity Recognition (NER) with Large Language Models (LLMs). The main cause of high latency in LLMs is the sequential decoding process, which autoregressively generates all labels and mentions for NER, significantly increase the sequence length. To this end, we introduce Parallel Decoding in LLM for NE} (PaDeLLM-NER), a approach that integrates seamlessly into existing generative model frameworks without necessitating additional modules or architectural modifications. PaDeLLM-NER allows for the simultaneous decoding of all mentions, thereby reducing generation latency. Experiments reveal that PaDeLLM-NER significantly increases inference speed that is 1.76 to 10.22 times faster than the autoregressive approach for both English and Chinese. Simultaneously it maintains the quality of predictions as evidenced by the performance that is on par with the state-of-the-art across various datasets.
翻訳日:2024-02-15 18:35:56 公開日:2024-02-14
# 浮遊双極子散乱器のバックアクション抑制

Back action suppression for levitated dipolar scatterers ( http://arxiv.org/abs/2402.04802v2 )

ライセンス: Link先を確認
Yannick Weiser, Tommaso Faorlin, Lorenz Panzl, Thomas Lafenthaler, Lorenzo Dania, Dmitry S. Bykov, Thomas Monz, Rainer Blatt, Giovanni Cerchiari(参考訳) 浮揚双極子散乱器は、メソスコピックスケールで量子力学を観測するための光学力学系として非常に優れた性能を示す。 しかし、光をほぼあらゆる方向に散乱させる傾向は、特に光収集効率を制限し、その結果、システムから抽出可能な情報に実験的に挑戦する。 本稿では、バックアクションを特定の空間方向に拘束することで、光学的測定から得られる情報を強化するためのセットアップを提案する。 このアプローチは任意の数値開口においてハイゼンベルク制限検出を実現する。 セットアップは、双極子エミッタによって散乱された光、特に高散乱角度で制御し、得られた情報を集中する中空半球ミラーで構成されている。 このミラーは、共焦点レンズや光共振器を含む共振光学で一般的に使用される既存の構成と互換性がある。

Levitated dipolar scatterers exhibit exceptional performance as optomechanical systems for observing quantum mechanics at the mesoscopic scale. However, their tendency to scatter light in almost any direction poses experimental challenges, in particular limiting light collection efficiencies and, consequently, the information extractable from the system. In this article, we present a setup designed to enhance the information gleaned from optomechanical measurements by constraining the back action to a specific spatial direction. This approach facilitates achieving Heisenberg-limited detection at any given numerical aperture. The setup consists of a hollow hemispherical mirror that controls the light scattered by the dipolar emitter, particularly at high scattering angles, thereby focusing the obtained information. This mirror is compatible with existing setups commonly employed in levitated optomechanics, including confocal lenses and optical resonators.
翻訳日:2024-02-15 18:35:38 公開日:2024-02-14
# NLPにおける「Typological Diversity」とは何か?

What is 'Typological Diversity' in NLP? ( http://arxiv.org/abs/2402.04222v2 )

ライセンス: Link先を確認
Esther Ploeger, Wessel Poelman, Miryam de Lhoneux, Johannes Bjerva(参考訳) NLP研究コミュニティは英語以外の言語への関心を高め、多言語NLPの大幅な改善をもたらした。 しかし、これらの改善は世界の言語の小さなサブセットにのみ適用される。 これを拡張するために、言語間の一般化可能な多言語パフォーマンス向上を目指す論文が増えている。 この目的のために、言語型学は、広範囲の言語にまたがる一般化を暗示する広範な類型学的なサンプルに基づいて、言語選択を動機付けるために一般的に用いられる。 これらの選択はしばしば「類型的に多様な」と表現される。 本研究では,「ティポロジー多様性」に関する主張を含むNLP研究を体系的に研究する。 このような主張には明確な定義や基準は存在しない。 我々は,いくつかの軸に沿って言語選択の多様性を近似する指標を導入し,結果が論文によって大きく異なることを発見した。 重要となるのは,歪んだ言語選択が多言語性能を過大評価する可能性があることである。 言語サンプルの多様性を実証的に正当化する「タイポロジー多様性」の運用を含めることを推奨する。

The NLP research community has devoted increased attention to languages beyond English, resulting in considerable improvements for multilingual NLP. However, these improvements only apply to a small subset of the world's languages. Aiming to extend this, an increasing number of papers aspires to enhance generalizable multilingual performance across languages. To this end, linguistic typology is commonly used to motivate language selection, on the basis that a broad typological sample ought to imply generalization across a broad range of languages. These selections are often described as being 'typologically diverse'. In this work, we systematically investigate NLP research that includes claims regarding 'typological diversity'. We find there are no set definitions or criteria for such claims. We introduce metrics to approximate the diversity of language selection along several axes and find that the results vary considerably across papers. Crucially, we show that skewed language selection can lead to overestimated multilingual performance. We recommend future work to include an operationalization of 'typological diversity' that empirically justifies the diversity of language samples.
翻訳日:2024-02-15 18:35:03 公開日:2024-02-14
# 2+1d$ su(2)ゲージ理論におけるせん断粘度の古典および量子計算

Classical and Quantum Computing of Shear Viscosity for $2+1D$ SU(2) Gauge Theory ( http://arxiv.org/abs/2402.04221v2 )

ライセンス: Link先を確認
Francesco Turro, Anthony Ciavarella and Xiaojun Yao(参考訳) 格子ハミルトニアンの定式化を用いて,$(2+1)$-dimensional su(2) ゲージ理論に対するせん断粘度の非摂動的計算を行う。 応力-エネルギーテンソルの遅延グリーン関数は、局所ヒルベルト空間切断を伴う格子ハミルトニアンの正確な対角化による実時間発展から計算され、そのせん断粘度はkubo公式によって得られる。 連続極限を取るとき、結合の正規化群フローは考慮するが、余分な演算子再正規化は考慮しない。 せん断粘度とエントロピー密度$\frac{\eta}{s}$の比は、よく知られたホログラフィック結果$\frac{1}{4\pi}$の温度が、j_{\rm max}=\frac{1}{2}$の局所的な電気表現を持つ4\times4$ヘキサゴナル格子上の数温度と一致する。 また、スペクトル関数と周波数 $\frac{\rho^{xy}(\omega)}{\omega}$ の比は、周波数が小さいときにピーク構造を示す。 大きな格子上のj_{\rm max}=\frac{1}{2}$を超える正確な対角化法と単純な行列積状態古典シミュレーション法は、指数関数的に成長する資源を必要とする。 そこで,遅延グリーン関数を計算し,j_{\rm max}$トランザクションや有限サイズ効果,トロッター誤差など計算の諸系統を解析する量子計算法を開発した。 我々はQuantinuumエミュレータとIBMシミュレータの両方で、小さな格子に対して量子回路を試験し、古典計算と整合した結果を得る。

We perform a nonperturbative calculation of the shear viscosity for $(2+1)$-dimensional SU(2) gauge theory by using the lattice Hamiltonian formulation. The retarded Green's function of the stress-energy tensor is calculated from real time evolution via exact diagonalization of the lattice Hamiltonian with a local Hilbert space truncation and the shear viscosity is obtained via the Kubo formula. When taking the continuum limit, we account for the renormalization group flow of the coupling but no additional operator renormalization. We find the ratio of the shear viscosity and the entropy density $\frac{\eta}{s}$ is consistent with a well-known holographic result $\frac{1}{4\pi}$ at several temperatures on a $4\times4$ hexagonal lattice with the local electric representation truncated at $j_{\rm max}=\frac{1}{2}$. We also find the ratio of the spectral function and frequency $\frac{\rho^{xy}(\omega)}{\omega}$ exhibits a peak structure when the frequency is small. Both the exact diagonalization method and simple matrix product state classical simulation method beyond $j_{\rm max}=\frac{1}{2}$ on bigger lattices require exponentially growing resources. So we develop a quantum computing method to calculate the retarded Green's function and analyze various systematics of the calculation including $j_{\rm max}$ truncation and finite size effects and Trotter errors. We test our quantum circuit on both the Quantinuum emulator and the IBM simulator for a small lattice and obtain results consistent with the classical computing ones.
翻訳日:2024-02-15 18:34:45 公開日:2024-02-14
# シングルイメージデハージングのためのU字型視覚マンバ

U-shaped Vision Mamba for Single Image Dehazing ( http://arxiv.org/abs/2402.04139v3 )

ライセンス: Link先を確認
Zhuoran Zheng and Chen Wu(参考訳) 現在、トランスフォーマーは画像デハジングで最も一般的なアーキテクチャであるが、計算の複雑さが大きいため、長距離依存を扱う能力はリソース制約のあるデバイスに限定されている。 この課題に対処するために、効率的なシングルイメージデハージングネットワークであるUVM-Net(Vision Mamba)を導入する。 長いシーケンスを処理できることで知られる新しいディープシーケンスモデルであるState Space Sequence Models (SSM) にインスパイアされた我々は、畳み込み層の局所的特徴抽出能力と、長距離依存関係をキャプチャするSSMの機能を統合するBi-SSMブロックを設計した。 本手法の有効性を実験的に検証した。 本手法は,画像デハジングや画像復元作業において,より効率的な長距離依存性モデリング手法を提供する。 コードのURLは \url{https://github.com/zzr-idam/UVM-Net} である。 I/O処理時間なしで325ドルの325ドルの解像度画像 (100FPS) を推測するには, textbf{0.009} 秒しかかからない。

Currently, Transformer is the most popular architecture for image dehazing, but due to its large computational complexity, its ability to handle long-range dependency is limited on resource-constrained devices. To tackle this challenge, we introduce the U-shaped Vision Mamba (UVM-Net), an efficient single-image dehazing network. Inspired by the State Space Sequence Models (SSMs), a new deep sequence model known for its power to handle long sequences, we design a Bi-SSM block that integrates the local feature extraction ability of the convolutional layer with the ability of the SSM to capture long-range dependencies. Extensive experimental results demonstrate the effectiveness of our method. Our method provides a more highly efficient idea of long-range dependency modeling for image dehazing as well as other image restoration tasks. The URL of the code is \url{https://github.com/zzr-idam/UVM-Net}. Our method takes only \textbf{0.009} seconds to infer a $325 \times 325$ resolution image (100FPS) without I/O handling time.
翻訳日:2024-02-15 18:34:19 公開日:2024-02-14
# MPNNにおける特徴ベクトルの次元性について

On dimensionality of feature vectors in MPNNs ( http://arxiv.org/abs/2402.03966v2 )

ライセンス: Link先を確認
C\'esar Bravo, Alexander Kozachinskiy, Crist\'obal Rojas(参考訳) morrisらによる古典的結果を再検討する。 ~(aaai'19) メッセージパッシンググラフニューラルネットワーク(mpnn)は、weisfeiler-leman (wl) 同型テストと区別力において等しい。 モリスら。 ~reluアクティベーション関数と$o(n)$-dimensional feature vectorでシミュレーション結果を示し、ここで$n$はグラフのノード数である。 アーキテクチャにランダム性を導入することで、Aamand氏らだ。 ~(NeurIPS'22)は、ReLUアクティベーションのために再び$O(\log n)$-dimensional特徴ベクトルへのバウンダリを改善できたが、完全なシミュレーションを高い確率で保証する必要があった。 最近 アミールとアル ~(neurips'23)は、任意の多項解析的アクティベーション関数に対して、1次元の特徴ベクトルだけで十分であることを示した。 本稿では、Amit et al の結果の簡単な証明を与える。 そして、独立して実験的な検証を提供する。

We revisit the classical result of Morris et al.~(AAAI'19) that message-passing graphs neural networks (MPNNs) are equal in their distinguishing power to the Weisfeiler--Leman (WL) isomorphism test. Morris et al.~show their simulation result with ReLU activation function and $O(n)$-dimensional feature vectors, where $n$ is the number of nodes of the graph. By introducing randomness into the architecture, Aamand et al.~(NeurIPS'22) were able to improve this bound to $O(\log n)$-dimensional feature vectors, again for ReLU activation, although at the expense of guaranteeing perfect simulation only with high probability. Recently, Amir et al.~(NeurIPS'23) have shown that for any non-polynomial analytic activation function, it is enough to use just 1-dimensional feature vectors. In this paper, we give a simple proof of the result of Amit et al.~and provide an independent experimental validation of it.
翻訳日:2024-02-15 18:33:57 公開日:2024-02-14
# ベイズクラスタの妥当性指数

A Bayesian cluster validity index ( http://arxiv.org/abs/2402.02162v2 )

ライセンス: Link先を確認
Nathakhun Wiroonsri and Onthada Preedasawakul(参考訳) クラスタ数を適切に選択することは、クラスタリングアルゴリズムを適用する上で重要なステップである。 このプロセスを支援するために、様々なクラスタ妥当性指標(CVI)が開発された。 これらの指標はデータセット内の最適なクラスタ数を特定するように設計されている。 しかし、ユーザは必ずしもクラスタの絶対的な最適数を求めるのではなく、特定のアプリケーションとよりよくマッチする二次的な選択肢を求めるかもしれない。 この実現により,既存の指標に基づくベイズクラスタ妥当性指数(BCVI)を導入することができた。 bcviはディリクレ(dirichlet)または一般化ディリクレ前駆体(generalized dirichlet priors)を使用しており、結果として同じ後方分布となる。 ハードクラスタリングのためのWiroonsri indexとソフトクラスタリングのためのWiroonsri-Preedasawakul indexを用いてBCVIを評価した。 我々は,提案したBCVIと,Davies-Bouldin,Starczewski,Xie-Beni,KWON2などの既存のCVIのパフォーマンスを比較した。 私たちのBCVIは、ユーザの専門知識が価値のある状況において明確なアドバンテージを提供しています。 これを説明するために、3つの異なるシナリオに分類した実験を行う。 また,MRI脳腫瘍画像などの実世界のデータセットを用いて,本手法の実用性を示す。 これらのツールは、新しいRパッケージ'BayesCVI'として公開される。

Selecting the appropriate number of clusters is a critical step in applying clustering algorithms. To assist in this process, various cluster validity indices (CVIs) have been developed. These indices are designed to identify the optimal number of clusters within a dataset. However, users may not always seek the absolute optimal number of clusters but rather a secondary option that better aligns with their specific applications. This realization has led us to introduce a Bayesian cluster validity index (BCVI), which builds upon existing indices. The BCVI utilizes either Dirichlet or generalized Dirichlet priors, resulting in the same posterior distribution. We evaluate our BCVI using the Wiroonsri index for hard clustering and the Wiroonsri-Preedasawakul index for soft clustering as underlying indices. We compare the performance of our proposed BCVI with that of the original underlying indices and several other existing CVIs, including Davies-Bouldin, Starczewski, Xie-Beni, and KWON2 indices. Our BCVI offers clear advantages in situations where user expertise is valuable, allowing users to specify their desired range for the final number of clusters. To illustrate this, we conduct experiments classified into three different scenarios. Additionally, we showcase the practical applicability of our approach through real-world datasets, such as MRI brain tumor images. These tools will be published as a new R package 'BayesCVI'.
翻訳日:2024-02-15 18:33:12 公開日:2024-02-14
# 拡張的およびインテンテンション的知識の導入によるオントロジーの埋め込み

Embedding Ontologies via Incorporating Extensional and Intensional Knowledge ( http://arxiv.org/abs/2402.01677v2 )

ライセンス: Link先を確認
Keyu Wang, Guilin Qi, Jiaoyan Chen, Tianxing Wu(参考訳) オントロジーはドメイン内の豊富な知識を含み、拡張的知識と拡張的知識の2つのカテゴリに分けられる。 拡張的知識(extensional knowledge)は、オントロジーの特定の概念に属する具体的なインスタンスに関する情報を提供するが、インテンテンション的知識は、概念間の固有の性質、特性、意味的関連を詳述する。 しかし、既存のオントロジー埋め込みアプローチは、拡張的知識と集約的知識の両方を同時に考慮することができない。 本稿では,拡張空間と拡張空間という2つの空間におけるオントロジーを表現することで,eike (extensional and intensional knowledge embedded) と呼ばれる新しいオントロジー埋め込み手法を提案する。 eikeはオントロジーにインスタンス、概念、それらの関係を組み込むための統一的なフレームワークを提示し、拡張的知識のモデル化に幾何学ベースの手法と、構造情報とテキスト情報の両方をキャプチャできるインテンテンション的知識のモデル化に事前学習された言語モデルを適用する。 実験結果から、EIKEは3つのデータセットにおいて3つの分類とリンク予測の両方において最先端の手法を大幅に上回っており、EIKEがドメインのより包括的で代表的な視点を提供することを示している。

Ontologies contain rich knowledge within domain, which can be divided into two categories, namely extensional knowledge and intensional knowledge. Extensional knowledge provides information about the concrete instances that belong to specific concepts in the ontology, while intensional knowledge details inherent properties, characteristics, and semantic associations among concepts. However, existing ontology embedding approaches fail to take both extensional knowledge and intensional knowledge into fine consideration simultaneously. In this paper, we propose a novel ontology embedding approach named EIKE (Extensional and Intensional Knowledge Embedding) by representing ontologies in two spaces, called extensional space and intensional space. EIKE presents a unified framework for embedding instances, concepts and their relations in an ontology, applying a geometry-based method to model extensional knowledge and a pretrained language model to model intensional knowledge, which can capture both structure information and textual information. Experimental results show that EIKE significantly outperforms state-of-the-art methods in three datasets for both triple classification and link prediction, indicating that EIKE provides a more comprehensive and representative perspective of the domain.
翻訳日:2024-02-15 18:31:44 公開日:2024-02-14
# 議論要約における多様性の実証分析

An Empirical Analysis of Diversity in Argument Summarization ( http://arxiv.org/abs/2402.01535v2 )

ライセンス: Link先を確認
Michiel van der Meer, Piek Vossen, Catholijn M. Jonker, Pradeep K. Murukannaiah(参考訳) ハイレベルな議論の提示は、オンライン社会議論への参加を促進する上で重要な課題である。 現在の議論の要約アプローチでは、このタスクの重要な側面 -- 多様性を捉える -- を見逃している。 多様性の3つの側面:意見,注釈,情報源を紹介する。 キーポイント分析(Key Point Analysis)と呼ばれる一般的な議論要約タスクへのアプローチを評価し,(1)少数の人が共有する議論を表現し,(2)様々な情報源からのデータを扱い,(3)人為的アノテーションの主観性と整合する手法を示す。 汎用LLMと専用KPAモデルの両方がこの挙動を示すが、相補的な強みを持つ。 さらに、トレーニングデータの多様化が一般化を改善する可能性があることを観察する。 議論の要約における多様性に対処するには、主観性を扱うための戦略の混合が必要である。

Presenting high-level arguments is a crucial task for fostering participation in online societal discussions. Current argument summarization approaches miss an important facet of this task -- capturing diversity -- which is important for accommodating multiple perspectives. We introduce three aspects of diversity: those of opinions, annotators, and sources. We evaluate approaches to a popular argument summarization task called Key Point Analysis, which shows how these approaches struggle to (1) represent arguments shared by few people, (2) deal with data from various sources, and (3) align with subjectivity in human-provided annotations. We find that both general-purpose LLMs and dedicated KPA models exhibit this behavior, but have complementary strengths. Further, we observe that diversification of training data may ameliorate generalization. Addressing diversity in argument summarization requires a mix of strategies to deal with subjectivity.
翻訳日:2024-02-15 18:31:12 公開日:2024-02-14
# 量子LDPC符号のためのクローズドブランチデコーダ

The closed-branch decoder for quantum LDPC codes ( http://arxiv.org/abs/2402.01532v2 )

ライセンス: Link先を確認
Antonio deMarti iOlius and Josu Etxezarreta Martinez(参考訳) 量子誤り訂正は、構成要素がデコヒーレンスによって破損しても確実に動作可能なフォールトトレラント量子プロセッサを構築するためのビルディングブロックである。 この文脈では、リアルタイムデコーディングは論理レベルで任意の量子計算を実装するために必要である。 本稿では,quantum low density parity check (qldpc) 符号のための新しいデコーダを提案する。このデコーダは,$\mathcal{o}(n\text{max}_{\text{gr}}\text{max}_{\text{br}})$,ただし$\text{max}_{\text{gr}}$ と$\text{max}_{\text{br}}$ は,デコーダアルゴリズムの精度と速度のトレードオフを表す可変パラメータである。 最高の精度では、$\text{max}_{\text{gr}}\text{max}_{\text{br}}$ product は $\propto dj^d$ として指数関数的に増加する。 それでも,符号距離の多項式である小さな値を考えると,誤り訂正性能がよいことを示す。 このデコーダは、BPOSD (Belief Propagation Ordered Statistics Decoder) がデータキュービット、現象論的および回路レベルのノイズモデルで動作しているのに対し、BB (Bivariate Bicycle) 符号のクラスはBPOSD (Belief Propagation Ordered Statistics Decoder) である。 その結果, 復号器の性能が向上し, 最小距離符号を考慮した場合, BPOSDよりもはるかに低い複雑さで同様の結果を得ることができた。 最終的に、デコーダのパフォーマンスと複雑さは、製品$\text{max}_{\text{gr}}\text{max}_{\text{br}}$に依存する。

Quantum error correction is the building block for constructing fault-tolerant quantum processors that can operate reliably even if its constituting elements are corrupted by decoherence. In this context, real-time decoding is a necessity for implementing arbitrary quantum computations on the logical level. In this work, we present a new decoder for Quantum Low Density Parity Check (QLDPC) codes, named the closed-branch decoder, with a worst-case complexity loosely upper bounded by $\mathcal{O}(n\text{max}_{\text{gr}}\text{max}_{\text{br}})$, where $\text{max}_{\text{gr}}$ and $\text{max}_{\text{br}}$ are tunable parameters that pose the accuracy versus speed trade-off of decoding algorithms. For the best precision, the $\text{max}_{\text{gr}}\text{max}_{\text{br}}$ product increases exponentially as $\propto dj^d$, where $d$ indicates the distance of the code and $j$ indicates the average row weight of its parity check matrix. Nevertheless, we numerically show that considering small values that are polynomials of the code distance are enough for good error correction performance. The decoder is described to great extent and compared with the Belief Propagation Ordered Statistics Decoder (BPOSD) operating over data qubit, phenomenological and circuit-level noise models for the class of Bivariate Bicycle (BB) codes. The results showcase a promising performance of the decoder, obtaining similar results with much lower complexity than BPOSD when considering the smallest distance codes, but experiencing some logical error probability degradation for the larger ones. Ultimately, the performance and complexity of the decoder depends on the product $\text{max}_{\text{gr}}\text{max}_{\text{br}}$, which can be considered taking into account benefiting one of the two aspects at the expense of the other.
翻訳日:2024-02-15 18:30:39 公開日:2024-02-14
# 内視鏡的露出補正のためのFD-Vision Mamba

FD-Vision Mamba for Endoscopic Exposure Correction ( http://arxiv.org/abs/2402.06378v2 )

ライセンス: Link先を確認
Zhuoran Zheng and Jun Zhang(参考訳) 内視鏡的画像撮影では, 画像が露出異常を生じやすいため, 医療従事者が意思決定を行うのを助けるためには, 高品質な画像の維持が重要である。 この問題を解決するために、我々はFDVM-Netと呼ばれる周波数領域ベースのネットワークを設計し、内視鏡画像の周波数領域を再構成することで高品質な画像露出補正を実現する。 具体的には、ステートスペースシーケンスモデル(SSM)にヒントを得て、畳み込み層の局所的特徴抽出能力とSSMによる長距離依存関係のキャプチャ機能を統合するC-SSMブロックを開発する。 基本機能セルとしてC-SSMを用いて2経路ネットワークを構築し、これら2経路はそれぞれ画像の位相情報と振幅情報を扱う。 最後に、FDVM-Netにより劣化した内視鏡像を再構成し、高品質なクリア画像を得る。 広範にわたる実験結果から,本手法は速度と精度で最先端の結果を達成し,任意の解像度の内視鏡像を拡張できることが示唆された。 コードのURLは \url{https://github.com/zzr-idam/FDVM-Net} である。

In endoscopic imaging, the recorded images are prone to exposure abnormalities, so maintaining high-quality images is important to assist healthcare professionals in performing decision-making. To overcome this issue, We design a frequency-domain based network, called FD-Vision Mamba (FDVM-Net), which achieves high-quality image exposure correction by reconstructing the frequency domain of endoscopic images. Specifically, inspired by the State Space Sequence Models (SSMs), we develop a C-SSM block that integrates the local feature extraction ability of the convolutional layer with the ability of the SSM to capture long-range dependencies. A two-path network is built using C-SSM as the basic function cell, and these two paths deal with the phase and amplitude information of the image, respectively. Finally, a degraded endoscopic image is reconstructed by FDVM-Net to obtain a high-quality clear image. Extensive experimental results demonstrate that our method achieves state-of-the-art results in terms of speed and accuracy, and it is noteworthy that our method can enhance endoscopic images of arbitrary resolution. The URL of the code is \url{https://github.com/zzr-idam/FDVM-Net}.
翻訳日:2024-02-15 18:19:12 公開日:2024-02-14
# OpenToM:大規模言語モデルの理論推論能力評価のための総合ベンチマーク

OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models ( http://arxiv.org/abs/2402.06044v2 )

ライセンス: Link先を確認
Hainiu Xu, Runcong Zhao, Lixing Zhu, Jinhua Du, Yulan He(参考訳) N-ToM(Neural Theory-of-Mind)は、他者の精神状態を理解し、追跡する機械の能力である。 しかし、一般的なN-ToMベンチマークには、曖昧で人工的な物語の存在、性格の特徴や好みの欠如、キャラクターの精神的状態に対処する質問の欠如、質問の多様性の制限など、いくつかの欠点がある。 これらの問題に対応するために,(1)より長く明瞭な物語を持つN-ToMを評価するための新しいベンチマークであるOpenToMを構築し,(2)明示的な性格特性を持つキャラクター,(3)キャラクタ意図によって引き起こされる行動,(4)物理的・心理的両世界のキャラクターの精神状態をモデル化するLLMの能力に挑戦するために設計された質問について述べる。 OpenToMを用いて,身体世界における精神的状態の特定の側面をモデル化し,心理世界におけるキャラクターの精神状態を追跡する際には不足が認められる。

Neural Theory-of-Mind (N-ToM), machine's ability to understand and keep track of the mental states of others, is pivotal in developing socially intelligent agents. However, prevalent N-ToM benchmarks have several shortcomings, including the presence of ambiguous and artificial narratives, absence of personality traits and preferences, a lack of questions addressing characters' psychological mental states, and limited diversity in the questions posed. In response to these issues, we construct OpenToM, a new benchmark for assessing N-ToM with (1) longer and clearer narrative stories, (2) characters with explicit personality traits, (3) actions that are triggered by character intentions, and (4) questions designed to challenge LLMs' capabilities of modeling characters' mental states of both the physical and psychological world. Using OpenToM, we reveal that state-of-the-art LLMs thrive at modeling certain aspects of mental states in the physical world but fall short when tracking characters' mental states in the psychological world.
翻訳日:2024-02-15 18:18:51 公開日:2024-02-14
# 大規模言語モデルによるテキスト質問応答タスクの強化と検索拡張

Enhancing Textbook Question Answering Task with Large Language Models and Retrieval Augmented Generation ( http://arxiv.org/abs/2402.05128v2 )

ライセンス: Link先を確認
Hessa Abdulrahman Alawwad, Areej Alhothali, Usman Naseem, Ali Alkhathlan, Amani Jamal(参考訳) テキスト質問応答(TQA)は、コンテキストとマルチモーダルデータの複雑な性質のため、人工知能において難しい課題である。 これまでの研究はタスクを大幅に改善したが、モデルの弱い推論や、長いコンテキストでコンテキスト情報をキャプチャできないなど、いくつかの制限がある。 大規模言語モデル(LLM)の導入は、AIの分野に革命をもたらしたが、直接LLMを適用することは、しばしば不正確な答えをもたらす。 本稿では,検索拡張生成(rag)手法を取り入れ,トランスファー学習を長文文脈の処理に活用し,推論能力を高めることで,異なる教訓にまたがる概念が広まるtqaの領域外シナリオを扱う手法を提案する。 LLMモデルLlama-2の微調整とRAGの導入により、アーキテクチャはベースラインよりも優れ、検証セットでは4.12%、非ダイアグラム多重選択質問では9.84%の精度向上を実現した。

Textbook question answering (TQA) is a challenging task in artificial intelligence due to the complex nature of context and multimodal data. Although previous research has significantly improved the task, there are still some limitations including the models' weak reasoning and inability to capture contextual information in the lengthy context. The introduction of large language models (LLMs) has revolutionized the field of AI, however, directly applying LLMs often leads to inaccurate answers. This paper proposes a methodology that handle the out-of-domain scenario in TQA where concepts are spread across different lessons by incorporating the retrieval augmented generation (RAG) technique and utilize transfer learning to handle the long context and enhance reasoning abilities. Through supervised fine-tuning of the LLM model Llama-2 and the incorporation of RAG, our architecture outperforms the baseline, achieving a 4.12% accuracy improvement on validation set and 9.84% on test set for non-diagram multiple-choice questions.
翻訳日:2024-02-15 18:18:29 公開日:2024-02-14
# 連合学習は、有益である友人を見つけることができる

Federated Learning Can Find Friends That Are Beneficial ( http://arxiv.org/abs/2402.05050v3 )

ライセンス: Link先を確認
Nazarii Tupitsa and Samuel Horv\'ath and Martin Tak\'a\v{c} and Eduard Gorbunov(参考訳) フェデレーション学習(fl)では、クライアントデータの分散的性質と多様性は、機会と課題の両方を示す。 クライアント間のコラボレーションは学習プロセスを大幅に強化するが、すべてのコラボレーションが有益であるわけではない。 本研究では,fl訓練に参加する顧客に対して適応的集約重みを割り当て,特定の学習目標に最も寄与するデータ分布を持つ顧客を特定する新しいアルゴリズムを提案する。 本手法は,同じデータ分布を持つクライアントから受信した更新のみを集約する手法と同等に収束することを示す。 さらに、経験的評価により、我々のアルゴリズムによるコラボレーションは従来のflアプローチよりも優れていることが明らかとなった。 これはjudicious client選択の重要役割を強調するものであり、今後数年間でより合理化され効果的なfl実装の基盤となる。

In Federated Learning (FL), the distributed nature and heterogeneity of client data present both opportunities and challenges. While collaboration among clients can significantly enhance the learning process, not all collaborations are beneficial; some may even be detrimental. In this study, we introduce a novel algorithm that assigns adaptive aggregation weights to clients participating in FL training, identifying those with data distributions most conducive to a specific learning objective. We demonstrate that our aggregation method converges no worse than the method that aggregates only the updates received from clients with the same data distribution. Furthermore, empirical evaluations consistently reveal that collaborations guided by our algorithm outperform traditional FL approaches. This underscores the critical role of judicious client selection and lays the foundation for more streamlined and effective FL implementations in the coming years.
翻訳日:2024-02-15 18:18:10 公開日:2024-02-14
# DUDF:ハイパーボリックスケーリングによる微分不可能な距離場

DUDF: Differentiable Unsigned Distance Fields with Hyperbolic Scaling ( http://arxiv.org/abs/2402.08876v1 )

ライセンス: Link先を確認
Miguel Fainstein, Viviana Siless and Emmanuel Iarussi(参考訳) 近年,3次元再構成の文脈で開放面を表現するために,Unsigned Distance Fields (UDF) を近似するためにニューラルネットワークを訓練することへの関心が高まっている。 しかし、udfはゼロレベル集合では微分不能であり、距離や勾配に重大な誤差をもたらし、一般に断片化され不連続な表面となる。 本稿では,符号のない距離場の双曲的スケーリングを学習し,境界条件の異なる新しいアイコン問題を定義することを提案する。 これにより、私たちの定式化は、署名された距離場を表現するために主に文献に適用される、最先端の連続的な識別可能な暗黙的ニューラルネットワークとシームレスに統合することができる。 提案手法はオープンサーフェス表現の課題に対処するだけでなく,再構築品質とトレーニング性能の大幅な向上を示す。 さらに、アンロックされたフィールドの微分可能性により、通常の方向や曲率のような重要なトポロジ特性の正確な計算が可能となり、レンダリングのような下流のタスクに広まる。 広範な実験を通じて、さまざまなデータセットおよび競合ベースラインに対するアプローチを検証する。 その結果,従来の手法に比べて精度が向上し,最大速度が桁違いに向上した。

In recent years, there has been a growing interest in training Neural Networks to approximate Unsigned Distance Fields (UDFs) for representing open surfaces in the context of 3D reconstruction. However, UDFs are non-differentiable at the zero level set which leads to significant errors in distances and gradients, generally resulting in fragmented and discontinuous surfaces. In this paper, we propose to learn a hyperbolic scaling of the unsigned distance field, which defines a new Eikonal problem with distinct boundary conditions. This allows our formulation to integrate seamlessly with state-of-the-art continuously differentiable implicit neural representation networks, largely applied in the literature to represent signed distance fields. Our approach not only addresses the challenge of open surface representation but also demonstrates significant improvement in reconstruction quality and training performance. Moreover, the unlocked field's differentiability allows the accurate computation of essential topological properties such as normal directions and curvatures, pervasive in downstream tasks such as rendering. Through extensive experiments, we validate our approach across various data sets and against competitive baselines. The results demonstrate enhanced accuracy and up to an order of magnitude increase in speed compared to previous methods.
翻訳日:2024-02-15 17:21:48 公開日:2024-02-14
# TikTokActions:人間の行動認識のためのビデオデータセットTikTok

TikTokActions: A TikTok-Derived Video Dataset for Human Action Recognition ( http://arxiv.org/abs/2402.08875v1 )

ライセンス: Link先を確認
Yang Qian, Yinan Sun, Ali Kargarandehkordi, Onur Cezmi Mutlu, Saimourya Surabhi, Pingyi Chen, Zain Jabbar, Dennis Paul Wall, Peter Washington(参考訳) TikTokのようなプラットフォーム上でのタグ付きマルチメディアコンテンツの多様性と量の増加は、コンピュータビジョンモデリングを前進させる機会を提供する。 現代人の行動に関連する386個のハッシュタグに分類した283,582本のユニークなビデオクリップを収集した。 我々は、このデータセットを、アクション認識などのヒューマンムーブメントモデリングタスクのためのドメイン固有の基礎モデルを構築するための貴重なリソースとしてリリースする。 このデータセットを検証するために、TikTokActionsという2つの実験を行った。 まず、TikTokActionsサブセット上のVTベースバックボーンで最先端のVideoMAEv2を事前トレーニングし、次いで微調整を行い、UCF101やHMDB51のような一般的なデータセットで評価する。 Tik-Tokデータセットを使用して事前トレーニングされたモデルの性能は、より大きなアクション認識データセットでトレーニングされたモデルに匹敵する(UCF101では95.3%、HMDB51では53.24%)。 さらに,事前学習データセットのサイズと微調整性能の関係について検討した結果,一定の閾値を超えると,より大きなトレーニングセットの漸進的なメリットが減少することがわかった。 この研究は、tiktokビデオデータセットを一般向けに提供し、ビデオベースの基礎モデルの事前トレーニングデータセットサイズを増加させる限界的なメリットについての洞察を提供する。

The increasing variety and quantity of tagged multimedia content on platforms such as TikTok provides an opportunity to advance computer vision modeling. We have curated a distinctive dataset of 283,582 unique video clips categorized under 386 hashtags relating to modern human actions. We release this dataset as a valuable resource for building domain-specific foundation models for human movement modeling tasks such as action recognition. To validate this dataset, which we name TikTokActions, we perform two sets of experiments. First, we pretrain the state-of-the-art VideoMAEv2 with a ViT-base backbone on TikTokActions subset, and then fine-tune and evaluate on popular datasets such as UCF101 and the HMDB51. We find that the performance of the model pre-trained using our Tik-Tok dataset is comparable to models trained on larger action recognition datasets (95.3% on UCF101 and 53.24% on HMDB51). Furthermore, our investigation into the relationship between pre-training dataset size and fine-tuning performance reveals that beyond a certain threshold, the incremental benefit of larger training sets diminishes. This work introduces a useful TikTok video dataset that is available for public use and provides insights into the marginal benefit of increasing pre-training dataset sizes for video-based foundation models.
翻訳日:2024-02-15 17:21:27 公開日:2024-02-14
# 大規模言語モデルのための自己モチベーションを伴う木に基づくハード・アテンション

Tree-Based Hard Attention with Self-Motivation for Large Language Models ( http://arxiv.org/abs/2402.08874v1 )

ライセンス: Link先を確認
Chenxi Lin, Jiayu Ren, Guoxiu He, Zhuoren Jiang, Haiyan Yu, Xiaomin Zhu(参考訳) 大きな言語モデル(LLM)は平文の理解と生成に優れるが、階層的なテキスト構造を扱うのに特に適していない。 自然言語応答からタスク要求プロパティを抽出するには、通常、追加の処理ステップが必要になる。 実際、大規模テキストの階層構造を選択的に理解することは、その実体を理解する上で重要である。 llmを特定のタスクの分類や回帰値とより密接に連携させることも課題である。 そこで本研究では,大規模言語モデルのための自己モチベーションを用いたツリーベースハードアテンション(TEAROOM)という新しいフレームワークを提案する。 TEAROOMは、階層的に構造化されたテキスト入力を処理するLLMのツリーベースのハードアテンション機構を組み込んでいる。 プロンプトを利用することで、凍結したLLMは根に関連する葉に選択的に焦点を合わせることができ、それらの関係をカスタマイズしたシンボル表現を生成する。 さらに、TEAROOMは、トレーニング可能なアダプタと線形層とを備えた別のLCMのための自己動機戦略を含む。 選択されたシンボル結果は、タスクの予測値とともに別のプロンプトに統合される。 我々は、繰り返し出力値をプロンプトにフィードバックし、訓練可能なLCMが徐々に黄金の真実を近似できるようにする。 TEAROOMは3つのベンチマークデータセットの実験的な評価において既存の最先端手法よりも優れており、タスク固有の特性を推定する上での有効性を示している。 総合的な実験と分析を通じて,複数の推論を通じて,茶室が基礎となる黄金の真理に徐々にアプローチする能力を検証する。

While large language models (LLMs) excel at understanding and generating plain text, they are not specifically tailored to handle hierarchical text structures. Extracting the task-desired property from their natural language responses typically necessitates additional processing steps. In fact, selectively comprehending the hierarchical structure of large-scale text is pivotal to understanding its substance. Aligning LLMs more closely with the classification or regression values of specific task through prompting also remains challenging. To this end, we propose a novel framework called Tree-Based Hard Attention with Self-Motivation for Large Language Models (TEAROOM). TEAROOM incorporates a tree-based hard attention mechanism for LLMs to process hierarchically structured text inputs. By leveraging prompting, it enables a frozen LLM to selectively focus on relevant leaves in relation to the root, generating a tailored symbolic representation of their relationship. Moreover, TEAROOM comprises a self-motivation strategy for another LLM equipped with a trainable adapter and a linear layer. The selected symbolic outcomes are integrated into another prompt, along with the predictive value of the task. We iteratively feed output values back into the prompt, enabling the trainable LLM to progressively approximate the golden truth. TEAROOM outperforms existing state-of-the-art methods in experimental evaluations across three benchmark datasets, showing its effectiveness in estimating task-specific properties. Through comprehensive experiments and analysis, we have validated the ability of TEAROOM to gradually approach the underlying golden truth through multiple inferences.
翻訳日:2024-02-15 17:21:05 公開日:2024-02-14
# 位置論文:トポロジカル深層学習における挑戦と機会

Position Paper: Challenges and Opportunities in Topological Deep Learning ( http://arxiv.org/abs/2402.08871v1 )

ライセンス: Link先を確認
Theodore Papamarkou, Tolga Birdal, Michael Bronstein, Gunnar Carlsson, Justin Curry, Yue Gao, Mustafa Hajij, Roland Kwitt, Pietro Li\`o, Paolo Di Lorenzo, Vasileios Maroulas, Nina Miolane, Farzana Nasrin, Karthikeyan Natesan Ramamurthy, Bastian Rieck, Simone Scardapane, Michael T. Schaub, Petar Veli\v{c}kovi\'c, Bei Wang, Yusu Wang, Guo-Wei Wei, Ghada Zamzmi(参考訳) トポロジカルディープラーニング(TDL)は、トポロジカルな特徴を用いてディープラーニングモデルを理解し設計する、急速に進化する分野である。 本稿では,TDLがトポロジ的概念を取り入れたグラフ表現学習と幾何学的深層学習を補完し,様々な機械学習設定に自然選択を与える可能性を示唆する。 そこで本研究では,実用的メリットから理論的基礎まで,TDLのオープンな問題について論じる。 それぞれの問題に対して、潜在的な解決策と将来の研究機会を概説する。 同時に,本稿は,tdl研究に積極的に参加して,この新興分野の可能性を解き放つよう,科学コミュニティに呼びかける役割を担っている。

Topological deep learning (TDL) is a rapidly evolving field that uses topological features to understand and design deep learning models. This paper posits that TDL may complement graph representation learning and geometric deep learning by incorporating topological concepts, and can thus provide a natural choice for various machine learning settings. To this end, this paper discusses open problems in TDL, ranging from practical benefits to theoretical foundations. For each problem, it outlines potential solutions and future research opportunities. At the same time, this paper serves as an invitation to the scientific community to actively participate in TDL research to unlock the potential of this emerging field.
翻訳日:2024-02-15 17:20:40 公開日:2024-02-14
# ScamSpot:Instagramのコメントで金融詐欺と戦う

ScamSpot: Fighting Financial Fraud in Instagram Comments ( http://arxiv.org/abs/2402.08869v1 )

ライセンス: Link先を確認
Stefan Erben and Andreas Waldis(参考訳) 金融業界のinstagramページのコメント欄にあるスパムや詐欺メッセージに関する長年の問題は、毎日新しい犠牲者を訴えている。 Instagramの現在のスパムフィルターは不十分であり、既存の研究アプローチは主に理論的概念に限られている。 評価結果の実践的な実装は欠落している。 この問題を解決するために、ブラウザ拡張、細調整されたBERTモデル、REST APIを含む包括的なシステムであるScamSpotを提案する。 このアプローチは、chromeブラウザを使用するinstagramユーザーの検索結果のパブリックアクセシビリティを保証する。 さらに,データアノテーション研究を行い,問題の原因と原因について光を当て,ユーザからのフィードバックや既存モデルとの比較を通じてシステム評価を行う。 scamspotはオープンソースプロジェクトで、https://scamspot.github.io/で公開されている。

The long-standing problem of spam and fraudulent messages in the comment sections of Instagram pages in the financial sector claims new victims every day. Instagram's current spam filter proves inadequate, and existing research approaches are primarily confined to theoretical concepts. Practical implementations with evaluated results are missing. To solve this problem, we propose ScamSpot, a comprehensive system that includes a browser extension, a fine-tuned BERT model and a REST API. This approach ensures public accessibility of our results for Instagram users using the Chrome browser. Furthermore, we conduct a data annotation study, shedding light on the reasons and causes of the problem and evaluate the system through user feedback and comparison with existing models. ScamSpot is an open-source project and is publicly available at https://scamspot.github.io/.
翻訳日:2024-02-15 17:20:26 公開日:2024-02-14
# DeepPolar: ディープラーニングによる非線形大カーネル極性コードの作成

DeepPolar: Inventing Nonlinear Large-Kernel Polar Codes via Deep Learning ( http://arxiv.org/abs/2402.08864v1 )

ライセンス: Link先を確認
S Ashwin Hebbar, Sravan Kumar Ankireddy, Hyeji Kim, Sewoong Oh, Pramod Viswanath(参考訳) 極符号は、アリカンの分極カーネルの基盤として開発され、符号理論の突破口となり、短絡ブロック長系における最先端の誤り訂正符号として登場した。 重要なことに、近年の研究では、アリカンの核をより大きな核で置換することで、極符号の信頼性をさらに高めることができ、より高速な極化がもたらされている。 しかし, ブロック長が短い場合, 大きなカーネルサイズを効果的に活用する極符号の開発はまだ実現されていない。 本稿では,カーネルサイズを拡大した極性符号の非線形一般化を新たに検討し,これをDeepPolar符号と呼ぶ。 以上の結果から,DeepPolar符号はカーネルサイズが大きくなることにより,既存のニューラル符号と従来の極性符号の双方と比較して信頼性が向上した。

Polar codes, developed on the foundation of Arikan's polarization kernel, represent a breakthrough in coding theory and have emerged as the state-of-the-art error-correction-code in short-to-medium block length regimes. Importantly, recent research has indicated that the reliability of polar codes can be further enhanced by substituting Arikan's kernel with a larger one, leading to a faster polarization. However, for short-to-medium block length regimes, the development of polar codes that effectively employ large kernel sizes has not yet been realized. In this paper, we explore a novel, non-linear generalization of polar codes with an expanded kernel size, which we call DeepPolar codes. Our results show that DeepPolar codes effectively utilize the benefits of larger kernel size, resulting in enhanced reliability compared to both the existing neural codes and conventional polar codes.
翻訳日:2024-02-15 17:20:14 公開日:2024-02-14
# グラフ畳み込みを用いた大規模言語モデルの提案

Large Language Model with Graph Convolution for Recommendation ( http://arxiv.org/abs/2402.08859v1 )

ライセンス: Link先を確認
Yingpeng Du, Ziyan Wang, Zhu Sun, Haoyan Chua, Hongzhi Liu, Zhonghai Wu, Yining Ma, Jie Zhang, Youchen Sun(参考訳) 近年,ユーザのプロファイリングやレコメンデーション項目のキャラクタリゼーション向上のために,テキスト情報の利用が試みられている。 しかし、テキスト情報は品質が低く、現実世界のアプリケーションでの有効性を阻害することがある。 LLM(Large Language Models)にカプセル化された知識と推論機能によって、LCMを活用することが、記述改善の有望な方法として現れます。 しかし, LLMを生テキストで促す既存の方法は, ユーザ・イテム相互作用の構造的知識を無視するものであり, 矛盾した記述生成などの幻覚的問題を引き起こす可能性がある。 この目的のために,ユーザ・イットグラフの高次関係を捉えるために LLM を抽出するグラフ対応畳み込み LLM 法を提案する。 構造化グラフでテキストベースのLLMを適応させるために、グラフ処理における集約子としてLLMを使用し、グラフベースの情報を段階的に理解できるようにする。 具体的には,マルチホップ隣層を層ごとに探索することで記述の強化が求められ,グラフ内の情報を段階的に伝播させる。 LLMが大規模グラフ情報をキャプチャするために、記述タスクを小さな部分に分割し、各ステップで入力されるトークンのコンテキスト長を大幅に削減する。 3つの実世界のデータセットに対する大規模な実験は、我々の手法が常に最先端の手法より優れていることを示している。

In recent years, efforts have been made to use text information for better user profiling and item characterization in recommendations. However, text information can sometimes be of low quality, hindering its effectiveness for real-world applications. With knowledge and reasoning capabilities capsuled in Large Language Models (LLMs), utilizing LLMs emerges as a promising way for description improvement. However, existing ways of prompting LLMs with raw texts ignore structured knowledge of user-item interactions, which may lead to hallucination problems like inconsistent description generation. To this end, we propose a Graph-aware Convolutional LLM method to elicit LLMs to capture high-order relations in the user-item graph. To adapt text-based LLMs with structured graphs, We use the LLM as an aggregator in graph processing, allowing it to understand graph-based information step by step. Specifically, the LLM is required for description enhancement by exploring multi-hop neighbors layer by layer, thereby propagating information progressively in the graph. To enable LLMs to capture large-scale graph information, we break down the description task into smaller parts, which drastically reduces the context length of the token input with each step. Extensive experiments on three real-world datasets show that our method consistently outperforms state-of-the-art methods.
翻訳日:2024-02-15 17:19:56 公開日:2024-02-14
# 大規模言語モデルによる推論における前提順序

Premise Order Matters in Reasoning with Large Language Models ( http://arxiv.org/abs/2402.08939v1 )

ライセンス: Link先を確認
Xinyun Chen, Ryan A. Chi, Xuezhi Wang, Denny Zhou(参考訳) 大規模言語モデル(llm)は様々な領域において驚くべき推論性能を達成している。 しかし、推論タスクの領域では、私たちは不安定さを発見します: LLMは、そのような順序付けが基礎となるタスクを変えないという事実にもかかわらず、前提の順序付けに対して驚くほど脆弱です。 特に、前提順序が中間推論ステップで要求されるコンテキストと整合すると、LCMが最高の性能を達成することを観察する。 例えば帰納的推論タスクでは、プロンプト(ランダム順序付けとは対照的に)における基底真理証明と同じ順序で前提を提示することで、モデルの精度が劇的に向上する。 まず,様々なllmにおける推論に対する前提順序の影響について検討し,前提順序の変更によって性能が30%以上低下する可能性が示唆された。 さらに,GSM8KをベースとしたベンチマークR-GSMをリリースし,数学的な問題解決の順序付け効果を検証し,元のGSM8Kベンチマークと比較して精度の大幅な低下を観測した。

Large language models (LLMs) have accomplished remarkable reasoning performance in various domains. However, in the domain of reasoning tasks, we discover a frailty: LLMs are surprisingly brittle to the ordering of the premises, despite the fact that such ordering does not alter the underlying task. In particular, we observe that LLMs achieve the best performance when the premise order aligns with the context required in intermediate reasoning steps. For example, in deductive reasoning tasks, presenting the premises in the same order as the ground truth proof in the prompt (as opposed to random ordering) drastically increases the model's accuracy. We first examine the effect of premise ordering on deductive reasoning on a variety of LLMs, and our evaluation shows that permuting the premise order can cause a performance drop of over 30%. In addition, we release the benchmark R-GSM, based on GSM8K, to examine the ordering effect for mathematical problem-solving, and we again observe a significant drop in accuracy, relative to the original GSM8K benchmark.
翻訳日:2024-02-15 17:13:27 公開日:2024-02-14
# セッションベースレコメンデーションにおける代替訓練によるIDとテキストの融合の促進

Enhancing ID and Text Fusion via Alternative Training in Session-based Recommendation ( http://arxiv.org/abs/2402.08921v1 )

ライセンス: Link先を確認
Juanhui Li, Haoyu Han, Zhikai Chen, Harry Shomer, Wei Jin, Amin Javari, Jiliang Tang(参考訳) 近年,セッションベースのレコメンデーションが注目され,セッション内のユーザの履歴行動に基づいた適切な提案の提供が目指されている。 この分野を進めるために様々な手法が開発され、IDベースのアプローチは一般的に有望な性能を示す。 しかし、これらの手法は長尾の項目でしばしば問題に直面し、他の豊富な情報、特に貴重なテキスト意味情報を見落としている。 テキスト情報を統合するために、様々な方法が導入された。 驚くべきことに、これらの2つのモダリティの融合は、単純な融合フレームワークに従うことによって、最良の単一モダリティを常に上回っているわけではない。 さらなる調査は、IDが支配的であり、テキストのモダリティが過小評価されているナイーブ核融合における潜在的な不均衡の問題を明らかにする。 これは、予想外の観測は、2つのモダリティを効果的にバランスさせることができず、しばしば強いIDモダリティに過度に依存することに起因する可能性があることを示唆している。 この知見は, ナイーブ融合が従来予想されていたようなIDとテキストの組み合わせに有効でないことを示唆している。 そこで本研究では,AlterRecの新しい代替トレーニング戦略を提案する。 IDとテキストのトレーニングを分離し、単純融合で見られる不均衡の問題を回避する。 さらに、AlterRecは2つのモード間の相互作用を促進する新しい戦略を設計し、相互に学習し、テキストをより効率的に統合できるようにする。 セッションベースレコメンデーションにおけるAlterRecの有効性を総合的な実験で実証する。 実装はhttps://github.com/Juanhui28/AlterRec.comで公開されている。

Session-based recommendation has gained increasing attention in recent years, with its aim to offer tailored suggestions based on users' historical behaviors within sessions. To advance this field, a variety of methods have been developed, with ID-based approaches typically demonstrating promising performance. However, these methods often face challenges with long-tail items and overlook other rich forms of information, notably valuable textual semantic information. To integrate text information, various methods have been introduced, mostly following a naive fusion framework. Surprisingly, we observe that fusing these two modalities does not consistently outperform the best single modality by following the naive fusion framework. Further investigation reveals an potential imbalance issue in naive fusion, where the ID dominates and text modality is undertrained. This suggests that the unexpected observation may stem from naive fusion's failure to effectively balance the two modalities, often over-relying on the stronger ID modality. This insight suggests that naive fusion might not be as effective in combining ID and text as previously expected. To address this, we propose a novel alternative training strategy AlterRec. It separates the training of ID and text, thereby avoiding the imbalance issue seen in naive fusion. Additionally, AlterRec designs a novel strategy to facilitate the interaction between the two modalities, enabling them to mutually learn from each other and integrate the text more effectively. Comprehensive experiments demonstrate the effectiveness of AlterRec in session-based recommendation. The implementation is available at https://github.com/Juanhui28/AlterRec.
翻訳日:2024-02-15 17:13:08 公開日:2024-02-14
# ビルドシステムにおける自己充足型技術的負債のクローンの定量化と評価

Quantifying and Characterizing Clones of Self-Admitted Technical Debt in Build Systems ( http://arxiv.org/abs/2402.08920v1 )

ライセンス: Link先を確認
Tao Xiao, Zhili Zeng, Dong Wang, Hideaki Hata, Shane McIntosh, Kenichi Matsumoto(参考訳) Self-Admitted Technical Debt (SATD)は、長期的なソフトウェアアーチファクトの品質を短期的な目標のために意図的に交換する開発判断に注釈を付ける。 最近の研究は、ソースコードにSATDクローン(重複またはほぼ重複するSATDコメント)が存在することを探っている。 ビルドシステム(CMakeやMavenなど)におけるSATDのクローン化は、最適な設計選択を伝播させ、ステークホルダーが依存するビルドシステムの品質(保守性、信頼性、再現性など)を脅かす可能性がある。 そこで我々は,オートツール,CMake,Maven,Antビルドシステムから抽出した50,608個のSATDコメントを大規模に調査し,SATDクローンの出現状況を調査し,その頻度を特徴付ける。 私たちはそれを観察します (i)以前の研究では,ソースコード中のSATDコメントの41~65%がクローンであることが示唆されているが,本研究ではビルドシステムのコンテキストにおいて,SATDクローンはソースコードよりもビルドシステムでよく見られる現象であることが示唆された。 (ii)SATDクローンを取り巻くステートメントは極めて類似しており、76%が0.8以上の類似性スコアを有する。 (iii)SATDクローンの4分の1は、オリジナルのSATD文の著者によって導入され、 (iv)最も一般的にクローン化されたsatdコメントのうち、外部要因(プラットフォームやツール構成など)が最も頻繁な場所であり、ツールやライブラリの制限が最も頻繁な原因であり、開発者は後で修正すべき問題を記述するsatdコメントをコピーすることが多い。 本研究は,ビルドシステムにおけるSATDクローンの体系的理解に向けた第一歩であり,様々なSATDクローン動作の識別や,解決されたクローンに基づいてSATDを効果的に返済するための自動レコメンデーションシステムの設計など,今後の作業への道を開くものである。

Self-Admitted Technical Debt (SATD) annotates development decisions that intentionally exchange long-term software artifact quality for short-term goals. Recent work explores the existence of SATD clones (duplicate or near duplicate SATD comments) in source code. Cloning of SATD in build systems (e.g., CMake and Maven) may propagate suboptimal design choices, threatening qualities of the build system that stakeholders rely upon (e.g., maintainability, reliability, repeatability). Hence, we conduct a large-scale study on 50,608 SATD comments extracted from Autotools, CMake, Maven, and Ant build systems to investigate the prevalence of SATD clones and to characterize their incidences. We observe that: (i) prior work suggests that 41-65% of SATD comments in source code are clones, but in our studied build system context, the rates range from 62% to 95%, suggesting that SATD clones are a more prevalent phenomenon in build systems than in source code; (ii) statements surrounding SATD clones are highly similar, with 76% of occurrences having similarity scores greater than 0.8; (iii) a quarter of SATD clones are introduced by the author of the original SATD statements; and (iv) among the most commonly cloned SATD comments, external factors (e.g., platform and tool configuration) are the most frequent locations, limitations in tools and libraries are the most frequent causes, and developers often copy SATD comments that describe issues to be fixed later. Our work presents the first step toward systematically understanding SATD clones in build systems and opens up avenues for future work, such as distinguishing different SATD clone behavior, as well as designing an automated recommendation system for repaying SATD effectively based on resolved clones.
翻訳日:2024-02-15 17:12:40 公開日:2024-02-14
# 複雑制約付き記述型自動符号化による概念類似性の解釈

Interpretable Measures of Conceptual Similarity by Complexity-Constrained Descriptive Auto-Encoding ( http://arxiv.org/abs/2402.08919v1 )

ライセンス: Link先を確認
Alessandro Achille, Greg Ver Steeg, Tian Yu Liu, Matthew Trager, Carson Klingenberg, Stefano Soatto(参考訳) 画像間の類似度の定量化は、画像ベースの機械学習の重要な著作権問題である。 しかし、法的なドクトリンでは、作品間の類似度を決定するには主観的分析が必要であり、ファクトファインダー(裁判官と陪審員)はこれらの主観的判断呼び出しにおいてかなりの変動を示すことができる。 構造的に類似したイメージは異なっており、全く異なるシーンのイメージはコピーの主張を支持するのに十分類似していると考えられる。 反復的な要素や視覚的に類似した要素を共有しない画像であっても、ハイレベルな関係をキャプチャする画像間の「概念的類似性」の概念を定義し、計算することを目指す。 基本的なマルチモーダルモデルを使用して、複雑さのレベルが増大するにつれて、視覚データの"説明"(キャプション)を生成する。 次に、類似度は2つの画像の区別に必要なキャプションの長さによって測定できる: 2つの非常に異なる画像は記述の早い段階で識別できるが、概念的に異なる画像はより詳細な区別が必要である。 この定義を運用し、主観的(平均的人的評価)評価と相関し、画像と画像の類似性ベンチマークとテキストとテキストの類似性ベンチマークの両方で既存のベースラインを上回ります。 提案手法は,単に数値を提供するだけでなく,ソースデータの識別を行う記述の粒度の特定のレベルを指し示すことによって,解釈可能性も提供する。

Quantifying the degree of similarity between images is a key copyright issue for image-based machine learning. In legal doctrine however, determining the degree of similarity between works requires subjective analysis, and fact-finders (judges and juries) can demonstrate considerable variability in these subjective judgement calls. Images that are structurally similar can be deemed dissimilar, whereas images of completely different scenes can be deemed similar enough to support a claim of copying. We seek to define and compute a notion of "conceptual similarity" among images that captures high-level relations even among images that do not share repeated elements or visually similar components. The idea is to use a base multi-modal model to generate "explanations" (captions) of visual data at increasing levels of complexity. Then, similarity can be measured by the length of the caption needed to discriminate between the two images: Two highly dissimilar images can be discriminated early in their description, whereas conceptually dissimilar ones will need more detail to be distinguished. We operationalize this definition and show that it correlates with subjective (averaged human evaluation) assessment, and beats existing baselines on both image-to-image and text-to-text similarity benchmarks. Beyond just providing a number, our method also offers interpretability by pointing to the specific level of granularity of the description where the source data are differentiated.
翻訳日:2024-02-15 17:12:02 公開日:2024-02-14
# 教師なしグラフ上でのMLP学習によるグラフ推測高速化

Graph Inference Acceleration by Learning MLPs on Graphs without Supervision ( http://arxiv.org/abs/2402.08918v1 )

ライセンス: Link先を確認
Zehong Wang, Zheyuan Zhang, Chuxu Zhang, Yanfang Ye(参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフ学習タスクにおいて有効性を示しているが、メッセージパッシングに依存しているため、金融詐欺検出などの遅延に敏感なアプリケーションへの展開が制限されている。 近年の研究では、GNNからMLP(Multi-Layer Perceptrons)への蒸留知識を探求し、推論を加速している。 しかし、このタスク固有の教師付き蒸留は、レイテンシーに敏感なアプリケーションで一般的である未検出ノードへの一般化を制限する。 この目的のために, グラフ上の \textbf{\textsc{mlp}} を教師なしで学習するためのフレームワークである \textbf{\textsc{simmlp}}, \textbf{\textsc{sim}}ple を提案する。 textsc{SimMLP} は GNN と MLP の自己教師付きアライメントを用いて、ノード特徴とグラフ構造の間の微細で一般化可能な相関関係を捉え、自明な解のリスクを軽減するための2つの戦略を提案する。 理論的には、最適ケースにおけるGNNの同値性とその一般化能力を示すために、包括的解析を行う。 経験的に、‘textsc{SimMLP} は最先端のベースライン、特に目に見えないノードの設定でパフォーマンスを向上する。 特に、大規模グラフデータセット上での MLP に対する大きなパフォーマンスゲイン (7$\sim$26\%) と GNNs {\bf (90$\sim$126$\times$)} に対する推論加速度 (90$\sim$126$\times$)} を得る。 私たちのコードは、 \url{https://github.com/zehong-wang/simmlp} で利用可能です。

Graph Neural Networks (GNNs) have demonstrated effectiveness in various graph learning tasks, yet their reliance on message-passing constraints their deployment in latency-sensitive applications such as financial fraud detection. Recent works have explored distilling knowledge from GNNs to Multi-Layer Perceptrons (MLPs) to accelerate inference. However, this task-specific supervised distillation limits generalization to unseen nodes, which are prevalent in latency-sensitive applications. To this end, we present \textbf{\textsc{SimMLP}}, a \textbf{\textsc{Sim}}ple yet effective framework for learning \textbf{\textsc{MLP}}s on graphs without supervision, to enhance generalization. \textsc{SimMLP} employs self-supervised alignment between GNNs and MLPs to capture the fine-grained and generalizable correlation between node features and graph structures, and proposes two strategies to alleviate the risk of trivial solutions. Theoretically, we comprehensively analyze \textsc{SimMLP} to demonstrate its equivalence to GNNs in the optimal case and its generalization capability. Empirically, \textsc{SimMLP} outperforms state-of-the-art baselines, especially in settings with unseen nodes. In particular, it obtains significant performance gains {\bf (7$\sim$26\%)} over MLPs and inference acceleration over GNNs {\bf (90$\sim$126$\times$)} on large-scale graph datasets. Our codes are available at: \url{https://github.com/Zehong-Wang/SimMLP}.
翻訳日:2024-02-15 17:11:34 公開日:2024-02-14
# 学習に基づく脊椎転移の骨質分類法

Learning-based Bone Quality Classification Method for Spinal Metastasis ( http://arxiv.org/abs/2402.08910v1 )

ライセンス: Link先を確認
Shiqi Peng, Bolin Lai, Guangyu Yao, Xiaoyun Zhang, Ya Zhang, Yan-Feng Wang, Hui Zhao(参考訳) 脊椎転移は骨転移で最も一般的な疾患であり、痛み、不安定性、神経障害を引き起こすことがある。 脊髄転移の早期発見は正確な進行と最適な治療に不可欠である。 診断は通常ctスキャン(ctスキャン)により促進され、十分な訓練を受けた放射線科医からかなりの労力がかかる。 本稿では,ct画像に基づく脊椎転移の学習に基づく骨品質自動分類法について検討する。 本研究は,後側方脊髄介在物分類タスクを同時に考慮し,マルチタスク学習(MTL)技術を用いて性能改善を行う。 MTLは帰納バイアスの一形態として機能し、関連するタスク間で表現を共有することによって、モデルが各タスクをより一般化するのに役立つ。 混合型をブラスト型と溶解型の両方と見なすことができるという事前の知識に基づき,骨質分類の課題を2つの二分分類サブタスク,すなわちブラスト型と溶解型とをモデル化し,多層パーセプトロンを用いてそれらの予測を組み合わせる。 モデルをより堅牢にし、より一般化するために、訓練プロセスに容易により複雑なサンプルを徐々に取り込むセルフペース学習が採用されている。 本手法は, プロプライエタリな脊椎転移CTデータセットを用いて評価する。 スライスレベルでは、121層密度ネット分類器の感度が+12.54\%$,+7.23\%$,+29.06\%$であり,一方,椎骨レベルでは+12.33\%$,$+23.21\%$,$+34.25\%$である。

Spinal metastasis is the most common disease in bone metastasis and may cause pain, instability and neurological injuries. Early detection of spinal metastasis is critical for accurate staging and optimal treatment. The diagnosis is usually facilitated with Computed Tomography (CT) scans, which requires considerable efforts from well-trained radiologists. In this paper, we explore a learning-based automatic bone quality classification method for spinal metastasis based on CT images. We simultaneously take the posterolateral spine involvement classification task into account, and employ multi-task learning (MTL) technique to improve the performance. MTL acts as a form of inductive bias which helps the model generalize better on each task by sharing representations between related tasks. Based on the prior knowledge that the mixed type can be viewed as both blastic and lytic, we model the task of bone quality classification as two binary classification sub-tasks, i.e., whether blastic and whether lytic, and leverage a multiple layer perceptron to combine their predictions. In order to make the model more robust and generalize better, self-paced learning is adopted to gradually involve from easy to more complex samples into the training process. The proposed learning-based method is evaluated on a proprietary spinal metastasis CT dataset. At slice level, our method significantly outperforms an 121-layer DenseNet classifier in sensitivities by $+12.54\%$, $+7.23\%$ and $+29.06\%$ for blastic, mixed and lytic lesions, respectively, meanwhile $+12.33\%$, $+23.21\%$ and $+34.25\%$ at vertebrae level.
翻訳日:2024-02-15 17:10:59 公開日:2024-02-14
# グラフ上の負の転送に取り組む

Tackling Negative Transfer on Graphs ( http://arxiv.org/abs/2402.08907v1 )

ライセンス: Link先を確認
Zehong Wang, Zheyuan Zhang, Chuxu Zhang, Yanfang Ye(参考訳) トランスファーラーニングは、他の関連するタスクから学んだ知識を活用することを目的としている。 しかし、ソースとターゲットが密接に関連していない場合、学習性能に悪影響を及ぼす可能性がある。 本稿では,グラフ転送学習における負の伝達について検討する。 画像やテキストと異なり、ソースとターゲットのグラフが意味的類似性を共有している場合でも、負の転送はグラフ構造データで一般的に発生する。 具体的には,構造的差異がグラフ間のノード埋め込みの相違を著しく増幅することを示す。 意味的に類似したグラフに対して、構造的な違いはノードの埋め込みにおいて大きな分布シフトをもたらすが、サブグラフの埋め込みへの影響はわずかである。 この知見に基づいて,グラフにまたがるサブグラフレベルの知識を伝達するsubgraph pooling (sp) と subgraph pooling++ (sp++) という2つの効果的かつエレガントな手法を導入する。 グラフの差分低減におけるSPの役割を理論的に解析し,様々な条件下でその優位性を評価するための広範な実験を行う。 私たちのコードとデータセットは、https://github.com/zehong-wang/subgraph-poolingで利用可能です。

Transfer learning aims to boost the learning on the target task leveraging knowledge learned from other relevant tasks. However, when the source and target are not closely related, the learning performance may be adversely affected, a phenomenon known as negative transfer. In this paper, we investigate the negative transfer in graph transfer learning, which is important yet underexplored. We reveal that, unlike image or text, negative transfer commonly occurs in graph-structured data, even when source and target graphs share semantic similarities. Specifically, we identify that structural differences significantly amplify the dissimilarities in the node embeddings across graphs. To mitigate this, we bring a new insight: for semantically similar graphs, although structural differences lead to significant distribution shift in node embeddings, their impact on subgraph embeddings could be marginal. Building on this insight, we introduce two effective yet elegant methods, Subgraph Pooling (SP) and Subgraph Pooling++ (SP++), that transfer subgraph-level knowledge across graphs. We theoretically analyze the role of SP in reducing graph discrepancy and conduct extensive experiments to evaluate its superiority under various settings. Our code and datasets are available at: https://github.com/Zehong-Wang/Subgraph-Pooling.
翻訳日:2024-02-15 17:10:28 公開日:2024-02-14
# 集積オンチップフィルタによる高速制御による劣化保護超伝導量子ビット

Decay-protected superconducting qubit with fast control enabled by integrated on-chip filters ( http://arxiv.org/abs/2402.08906v1 )

ライセンス: Link先を確認
Aashish Sah, Suman Kundu, Heikki Suominen, Qiming Chen, Mikko M\"ott\"onen(参考訳) 超伝導量子ビットのサブハーモニック制御は、高速単一量子ビットゲート、長いコヒーレンス時間、熱負荷の低減を同時に行う。 しかし、その実装は、駆動線をキュービットまたは過度に強いマイクロ波信号に非常に強い結合を必要とする。 この課題に対処するために、サブハーモニック周波数における共振周波数と超強結合の停止帯域を示す量子ビットドライブのオンチップフィルタを導入する。 オンチップフィルタはミリ秒範囲で量子ビット$t_1$を示すよう設計されており、サブハーモニック制御で数十ナノ秒の高速ゲートを可能にする。 共振器駆動では、測定値であるT_1$の最大200倍改善と、測定値であるRabi周波数の220の抑制効果を実験的に示す。 さらに,ラビ振動のサブハーモニック駆動を12 nsの$\pi$パルス時間で実現した。 オンチップフィルタの実証と2次元量子プロセッサにおける効率的なサブハーモニック駆動の導入は、熱負荷と制御ラインからのノイズを低減したスケーラブルな量子ビットアーキテクチャへの道を開く。

Subharmonic control of superconducting qubits simultaneously facilitates fast single-qubit gates, long coherence times, and reduced thermal load. However, its implementation requires a very strong coupling of the drive line to the qubit or an excessively strong microwave signal. To address this challenge, we introduce on-chip filters of the qubit drive that exhibit a stopband at the resonance frequency and ultra-strong coupling at the subharmonic frequency. The on-chip filters are designed to demonstrate qubit $T_1$ in the millisecond range while enabling fast gates of tens of nanoseconds with subharmonic control. For a resonant drive, we experimentally show a maximum of 200-fold improvement in the measured $T_1$ and a factor of 220 suppression in the measured Rabi frequency at the stopband. Furthermore, we successfully implemented subharmonic driving of Rabi oscillations with a $\pi$-pulse duration of 12 ns. Our demonstration of on-chip filters and the resulting introduction of efficient subharmonic driving in a two-dimensional quantum processor paves the way for a scalable qubit architecture with reduced thermal load and noise from the control line.
翻訳日:2024-02-15 17:10:07 公開日:2024-02-14
# ベイズ逆ゲームの自動エンコーディング

Auto-Encoding Bayesian Inverse Games ( http://arxiv.org/abs/2402.08902v1 )

ライセンス: Link先を確認
Xinjie Liu, Lasse Peters, Javier Alonso-Mora, Ufuk Topcu, David Fridovich-Keil(参考訳) 複数のエージェントが共通の環境で相互作用すると、それぞれのエージェントのアクションが他人の将来の決定に影響を与え、非協力的な動的ゲームは自然にこの結合を捉えます。 しかし、インタラクティブなモーションプランニングでは、エージェントは通常、他のプレイヤーの目的が不明であるなど、ゲームの完全なモデルにアクセスできない。 したがって,ゲームの性質が不明であり,観測結果から推測しなければならない,逆ゲーム問題を考える。 既存の最大誤差推定(MLE)アプローチは、不確実性を定量化せずに未知のパラメータの点推定のみを提供し、多くのパラメータ値が観測された振る舞いを説明すると性能が低下する。 これらの制限に対処するため、ベイズ的視点を採り、ゲームパラメータの後方分布を構築する。 Inference tractable のレンダリングには、可変オートエンコーダ(VAE)と組込み微分可能なゲームソルバを用いる。 この構造化されたVAEは、観測された相互作用のラベルのないデータセットからトレーニングすることができ、自然に連続したマルチモーダル分布を処理し、実行時にゲームソリューションを計算せずに推論後部からの効率的なサンプリングをサポートする。 シミュレーション運転シナリオにおける広範な評価は,提案手法が先行的および後方的目標分布を学習し,mleベースラインよりも客観的な推定を精度良く提供し,より安全かつ効率的なゲーム理論的動作計画を支援することを示す。

When multiple agents interact in a common environment, each agent's actions impact others' future decisions, and noncooperative dynamic games naturally capture this coupling. In interactive motion planning, however, agents typically do not have access to a complete model of the game, e.g., due to unknown objectives of other players. Therefore, we consider the inverse game problem, in which some properties of the game are unknown a priori and must be inferred from observations. Existing maximum likelihood estimation (MLE) approaches to solve inverse games provide only point estimates of unknown parameters without quantifying uncertainty, and perform poorly when many parameter values explain the observed behavior. To address these limitations, we take a Bayesian perspective and construct posterior distributions of game parameters. To render inference tractable, we employ a variational autoencoder (VAE) with an embedded differentiable game solver. This structured VAE can be trained from an unlabeled dataset of observed interactions, naturally handles continuous, multi-modal distributions, and supports efficient sampling from the inferred posteriors without computing game solutions at runtime. Extensive evaluations in simulated driving scenarios demonstrate that the proposed approach successfully learns the prior and posterior objective distributions, provides more accurate objective estimates than MLE baselines, and facilitates safer and more efficient game-theoretic motion planning.
翻訳日:2024-02-15 17:09:48 公開日:2024-02-14
# UniEnc-CASSNAT:音声SSLモデルのためのエンコーダのみの非自己回帰型ASR

UniEnc-CASSNAT: An Encoder-only Non-autoregressive ASR for Speech SSL Models ( http://arxiv.org/abs/2402.08898v1 )

ライセンス: Link先を確認
Ruchao Fan, Natarajan Balaji Shanka, and Abeer Alwan(参考訳) 非自己回帰自動音声認識(NASR)モデルは並列性と高速推論により注目されている。 エンコーダベースのNASR(例えばコネクショニスト時間分類(CTC))は、音声基礎モデル(SFM)から初期化することができるが、中間トークン間の依存関係は考慮していない。 ctcアライメントベースの単段非自己回帰トランス(cass-nat)のようなエンコーダデコーダベースのnasrは依存問題を緩和するが、sfmを効率的に統合できない。 CTCとCASS-NATの利点を組み合わせるために,共有トランスフォーマーエンコーダを用いた音声-テキスト共同学習の成功に触発され,新しいエンコーダベースのNASRであるUniEnc-CASSNATを提案する。 UniEnc-CASSNATは主要なモジュールとしてエンコーダのみで構成される。 エンコーダはCASS-NATエンコーダとデコーダの両方の役割を2つの前方パスで果たす。 エンコーダの第1パスは音声信号を入力として受け入れ、音声信号とトークンレベルの音響埋め込みとの結合を第2パスの入力として使用する。 Librispeech 100h、MyST、およびAishell1データセットで比較すると、提案されたUniEnc-CASSNATは最先端のNASR結果を実現し、エンコーダだけでCASS-NATに匹敵する、あるいは同等のモデルパラメータが少ない。 私たちのコードは公開されています。

Non-autoregressive automatic speech recognition (NASR) models have gained attention due to their parallelism and fast inference. The encoder-based NASR, e.g. connectionist temporal classification (CTC), can be initialized from the speech foundation models (SFM) but does not account for any dependencies among intermediate tokens. The encoder-decoder-based NASR, like CTC alignment-based single-step non-autoregressive transformer (CASS-NAT), can mitigate the dependency problem but is not able to efficiently integrate SFM. Inspired by the success of recent work of speech-text joint pre-training with a shared transformer encoder, we propose a new encoder-based NASR, UniEnc-CASSNAT, to combine the advantages of CTC and CASS-NAT. UniEnc-CASSNAT consists of only an encoder as the major module, which can be the SFM. The encoder plays the role of both the CASS-NAT encoder and decoder by two forward passes. The first pass of the encoder accepts the speech signal as input, while the concatenation of the speech signal and the token-level acoustic embedding is used as the input for the second pass. Examined on the Librispeech 100h, MyST, and Aishell1 datasets, the proposed UniEnc-CASSNAT achieves state-of-the-art NASR results and is better or comparable to CASS-NAT with only an encoder and hence, fewer model parameters. Our codes are publicly available.
翻訳日:2024-02-15 17:09:05 公開日:2024-02-14
# 反復スライスプロパゲーションによる椎体分節の弱短縮

Weakly Supervised Segmentation of Vertebral Bodies with Iterative Slice-propagation ( http://arxiv.org/abs/2402.08892v1 )

ライセンス: Link先を確認
Shiqi Peng, Bolin Lai, Guangyu Yao, Xiaoyun Zhang, Ya Zhang, Yan-Feng Wang, Hui Zhao(参考訳) 椎体分節は、脊椎疾患の医療的視覚的診断のための重要な予備的ステップである。 しかし、以前の作品の多くは、専門家が注釈を付けるのに高価で退屈で時間を要するピクセル/ボクセルの強い監督を必要とする。 本稿では,1本の矢状骨スライスに4つの角目印の弱いラベルのみを用いて,ct画像から自動的にボリュームセグメンテーションを行う弱教師付き反復脊髄セグメンテーション (wiss) 法を提案する。 WISSは、注釈付き矢状スライスにVBを反復的な自己学習方法で最初に分割する。 この自己学習方法は、トレーニングセット内のラベルのトレーニングと精製を交互に行う。 そして、WISSは全VBsスライスをスライスしてスライスプロパゲーション法でスライスし、ボリュームセグメンテーションを得る。 個人用脊椎転移性CTデータセットと公共用腰椎CTデータセットを用いたWISSの性能評価を行った。 最初のデータセットでは、WISSは2つの異なるバックボーンに関して異なる改善を達成している。 第2のデータセットでは、WISSは9.11.7\%のダイス係数と8.7\%の3次元CTボリュームをそれぞれ達成し、多くのラベリングコストを節約し、わずかなセグメンテーション性能を犠牲にしている。

Vertebral body (VB) segmentation is an important preliminary step towards medical visual diagnosis for spinal diseases. However, most previous works require pixel/voxel-wise strong supervisions, which is expensive, tedious and time-consuming for experts to annotate. In this paper, we propose a Weakly supervised Iterative Spinal Segmentation (WISS) method leveraging only four corner landmark weak labels on a single sagittal slice to achieve automatic volumetric segmentation from CT images for VBs. WISS first segments VBs on an annotated sagittal slice in an iterative self-training manner. This self-training method alternates between training and refining labels in the training set. Then WISS proceeds to segment the whole VBs slice by slice with a slice-propagation method to obtain volumetric segmentations. We evaluate the performance of WISS on a private spinal metastases CT dataset and the public lumbar CT dataset. On the first dataset, WISS achieves distinct improvements with regard to two different backbones. For the second dataset, WISS achieves dice coefficients of $91.7\%$ and $83.7\%$ for mid-sagittal slices and 3D CT volumes, respectively, saving a lot of labeling costs and only sacrificing a little segmentation performance.
翻訳日:2024-02-15 17:08:15 公開日:2024-02-14
# 機械学習による太陽活動領域の発生予測

Predicting the Emergence of Solar Active Regions Using Machine Learning ( http://arxiv.org/abs/2402.08890v1 )

ライセンス: Link先を確認
Spiridon Kasapis, Irina N. Kitiashvili, Alexander G. Kosovichev, John T. Stefan and Bhairavi Apte(参考訳) 今後の宇宙気象障害に対する早期警戒機能を構築するため,61の出現する活動領域のデータセットを選択し,音響パワー密度の進化における特徴を識別し,連続的な強度の出現を予測する。 本研究では,太陽ダイナミクス観測所 (SDO) に搭載されたヘリオサイスミック・磁気画像装置 (HMI) のドップラーシフトと連続強度観測を利用した。 30.66 x 30.66度 の局所的追跡により,出現前の状態から開始した活性領域の進化を追跡することができた。 我々は,次の磁束発生に伴う音響パワーフラックス密度の変動を捉える機械学習モデルを開発した。 LSTM(Long Short-Term Memory)モデルは、太陽表面の特定の領域において連続体強度値が減少するかどうかを5時間前に予測することができる。 本研究では,音響パワーマップを入力として,アクティブ領域の出現を予測する機械学習手法の可能性について検討する。

To create early warning capabilities for upcoming Space Weather disturbances, we have selected a dataset of 61 emerging active regions, which allows us to identify characteristic features in the evolution of acoustic power density to predict continuum intensity emergence. For our study, we have utilized Doppler shift and continuum intensity observations from the Helioseismic and Magnetic Imager (HMI) onboard the Solar Dynamics Observatory (SDO). The local tracking of 30.66 x 30.66-degree patches in the vicinity of active regions allowed us to trace the evolution of active regions starting from the pre-emergence state. We have developed a machine learning model to capture the acoustic power flux density variations associated with upcoming magnetic flux emergence. The trained Long Short-Term Memory (LSTM) model is able to predict 5 hours ahead whether, in a given area of the solar surface, continuum intensity values will decrease. The performed study allows us to investigate the potential of the machine learning approach to predict the emergence of active regions using acoustic power maps as input.
翻訳日:2024-02-15 17:07:02 公開日:2024-02-14
# GaNマイクロリングによる完全オンチップ光源に向けた量子光発生

Quantum Light Generation based on GaN Microring towards Fully On-chip Source ( http://arxiv.org/abs/2402.08888v1 )

ライセンス: Link先を確認
Hong Zeng, Zhao-Qin He, Yun-Ru Fan, Yue Luo, Chen Lyu, Jin-Peng Wu, Yun-Bo Li, Sheng Liu, Dong Wang, De-Chao Zhang, Juan-Juan Zeng, Guang-Wei Deng, You Wang, Hai-Zhi Song, Zhen Wang, Li-Xing You, Kai Guo, Chang-Zheng Sun, Yi Luo, Guang-Can Guo and Qiang Zhou(参考訳) 統合量子光源は、大規模量子情報処理においてますます望ましい。 最近の驚くべき進歩にもかかわらず、量子光発生、アクティブおよびパッシブ操作、および検出の完全なオンチップ統合のために、新しいマテリアルプラットフォームが常に検討されている。 ここでは、初めて、電気通信Cバンドにおける窒化ガリウム(GaN)マイクロリングに基づく量子光発生を実証し、量子光源のモノリシックな統合に向けた可能性を秘めている。 実験では、ganマイクロリングのスペクトル範囲は330 ghzであり、ほぼゼロの異常分散領域は100 nm以上である。 エネルギー-時間エンタングルド光子対の生成は、95.5$\pm$6.5%の典型的な2光子干渉の可視性で実証され、さらに、典型的な2次自己相関$g^{(2)}_{H}(0)$の0.045$\pm$0.001の共有光子を生成するように構成されている。 この結果から,チップスケール量子フォトニック回路の開発が進んでいる。

Integrated quantum light source is increasingly desirable in large-scale quantum information processing.~Despite recent remarkable advances, new material platform is constantly being explored for the fully on-chip integration of quantum light generation, active and passive manipulation, and detection. Here, for the first time, we demonstrate a gallium nitride (GaN) microring based quantum light generation in the telecom C-band, which has potential towards the monolithic integration of quantum light source.~In our demonstration, the GaN microring has a free spectral range of 330 GHz and a near-zero anomalous dispersion region of over 100 nm. The generation of energy-time entangled photon pair is demonstrated with a typical raw two-photon interference visibility of 95.5$\pm$6.5%, which is further configured to generate heralded single photon with a typical heralded second-order auto-correlation $g^{(2)}_{H}(0)$ of 0.045$\pm$0.001. Our results pave the way for developing chip-scale quantum photonic circuit.
翻訳日:2024-02-15 17:06:18 公開日:2024-02-14
# ビデオオブジェクトセグメンテーションのための深層学習オプティカルフローを用いた移動物体の提案

Moving Object Proposals with Deep Learned Optical Flow for Video Object Segmentation ( http://arxiv.org/abs/2402.08882v1 )

ライセンス: Link先を確認
Ge Shi and Zhili Yang(参考訳) 動的シーン理解はコンピュータビジョンコミュニティの中で最も目立った分野の1つである。 動的シーン理解を強化するために,ニューラルネットワークを用いた画素分割が広く受け入れられている。 ピクセルワイドセグメンテーションに関する最新の研究はセマンティック情報とモーション情報を組み合わせて、優れたパフォーマンスを実現した。 本研究では,移動物体提案(mop)を正確かつ効率的に得るために,ニューラルネットワークの最先端の技術アーキテクチャを提案する。 まず,教師なし畳み込みニューラルネットワーク(unflow)を訓練し,オプティカルフロー推定を行う。 次に、光学フローネットの出力を完全な畳み込みSegNetモデルに描画する。 本研究の主な貢献は、(1)新しいDAVISデータセット上で事前学習された光フローモデルを微調整すること、(2)Encoder-Decoderアーキテクチャによる完全な畳み込みニューラルネットワークを活用してオブジェクトをセグメント化することである。 TensorFlowを使ってコードを開発し、AWS EC2インスタンス上でトレーニングと評価プロセスを実行しました。

Dynamic scene understanding is one of the most conspicuous field of interest among computer vision community. In order to enhance dynamic scene understanding, pixel-wise segmentation with neural networks is widely accepted. The latest researches on pixel-wise segmentation combined semantic and motion information and produced good performance. In this work, we propose a state of art architecture of neural networks to accurately and efficiently get the moving object proposals (MOP). We first train an unsupervised convolutional neural network (UnFlow) to generate optical flow estimation. Then we render the output of optical flow net to a fully convolutional SegNet model. The main contribution of our work is (1) Fine-tuning the pretrained optical flow model on the brand new DAVIS Dataset; (2) Leveraging fully convolutional neural networks with Encoder-Decoder architecture to segment objects. We developed the codes with TensorFlow, and executed the training and evaluation processes on an AWS EC2 instance.
翻訳日:2024-02-15 17:05:54 公開日:2024-02-14
# アルゴリズム的公平・正確フロンティアの推論

Inference for an Algorithmic Fairness-Accuracy Frontier ( http://arxiv.org/abs/2402.08879v1 )

ライセンス: Link先を確認
Yiqi Liu and Francesca Molinari(参考訳) 意思決定プロセスはアルゴリズムの使用にますます依存している。 しかし、アルゴリズムの予測能力は、しばしば集団のサブグループ間で体系的な変動を示す。 公平性と正確性はアルゴリズムの望ましい特性であるが、それらはしばしば互いに犠牲になる。 有限データに直面するとき、公正な政策立案者は何をすべきだろうか? 本稿では,liang,lu,mu (2023) が提唱した理論的公正・正確性フロンティアに対する一貫した推定法を提供し,フェアネス文学で注目されている仮説を検証するための推論手法を提案する。 (i)アルゴリズムの訓練における共変量の完全排除が最適であるか否か (ii)既存のアルゴリズムに対する差別的な代替案が少ないか否か。 また,与えられたアルゴリズムとフロンティアの最も公平な点との間の距離を推定し,その漸近分布を特徴付ける。 フェアネス・精度フロンティアは、そのサポート関数によって完全に表現できる凸集合の境界の一部であるという事実を活用する。 推定されたサポート関数はサンプルサイズが増加するにつれてガウス過程に収束し、有効なテスト統計を構築するためのサポート関数の制約としてポリシー関連仮説を表現する。

Decision-making processes increasingly rely on the use of algorithms. Yet, algorithms' predictive ability frequently exhibit systematic variation across subgroups of the population. While both fairness and accuracy are desirable properties of an algorithm, they often come at the cost of one another. What should a fairness-minded policymaker do then, when confronted with finite data? In this paper, we provide a consistent estimator for a theoretical fairness-accuracy frontier put forward by Liang, Lu and Mu (2023) and propose inference methods to test hypotheses that have received much attention in the fairness literature, such as (i) whether fully excluding a covariate from use in training the algorithm is optimal and (ii) whether there are less discriminatory alternatives to an existing algorithm. We also provide an estimator for the distance between a given algorithm and the fairest point on the frontier, and characterize its asymptotic distribution. We leverage the fact that the fairness-accuracy frontier is part of the boundary of a convex set that can be fully represented by its support function. We show that the estimated support function converges to a tight Gaussian process as the sample size increases, and then express policy-relevant hypotheses as restrictions on the support function to construct valid test statistics.
翻訳日:2024-02-15 17:05:42 公開日:2024-02-14
# プルリクエスト記述のための生成AI - 採用、影響、開発者の介入

Generative AI for Pull Request Descriptions: Adoption, Impact, and Developer Interventions ( http://arxiv.org/abs/2402.08967v1 )

ライセンス: Link先を確認
Tao Xiao, Hideaki Hata, Christoph Treude, and Kenichi Matsumoto(参考訳) githubのprs(copilot for pull requests)は,変更の要約生成や関連するコードへのリンクの完全なウォークスルーなど,prに関連するさまざまな開発者タスクの自動化を目的とした,有望なサービスだ。 この革新的な技術がオープンソースソフトウェア(OSS)コミュニティで勢いを増す中、その早期採用と開発プロセスへの影響を検討することが不可欠である。 さらに、生成されたコンテンツに同意しない開発者がどう反応するかを観察するユニークな機会を提供する。 本研究では,定量的分析と質的洞察をブレンドした混合手法を用いて,生成AIによって記述の一部が作り出された18,256のPRについて検討した。 1) PRのコパイロットは, 幼少期ではあるが, 採用率の上昇が顕著である。 2) Copilotによって強化されたPRはレビュー時間が少なく, マージされる可能性が高かった。 3) copilot for prを使用する開発者は、手動入力で自動記述を補完することが多い。 これらの結果は、ソフトウェア開発における生成AIの統合の増大に関する貴重な洞察を提供する。

GitHub's Copilot for Pull Requests (PRs) is a promising service aiming to automate various developer tasks related to PRs, such as generating summaries of changes or providing complete walkthroughs with links to the relevant code. As this innovative technology gains traction in the Open Source Software (OSS) community, it is crucial to examine its early adoption and its impact on the development process. Additionally, it offers a unique opportunity to observe how developers respond when they disagree with the generated content. In our study, we employ a mixed-methods approach, blending quantitative analysis with qualitative insights, to examine 18,256 PRs in which parts of the descriptions were crafted by generative AI. Our findings indicate that: (1) Copilot for PRs, though in its infancy, is seeing a marked uptick in adoption. (2) PRs enhanced by Copilot for PRs require less review time and have a higher likelihood of being merged. (3) Developers using Copilot for PRs often complement the automated descriptions with their manual input. These results offer valuable insights into the growing integration of generative AI in software development.
翻訳日:2024-02-15 16:58:15 公開日:2024-02-14
# 量子プロセストモグラフィーの2段階解:誤差解析と最適設計

A two-stage solution to quantum process tomography: error analysis and optimal design ( http://arxiv.org/abs/2402.08952v1 )

ライセンス: Link先を確認
Shuixin Xiao, Yuanlong Wang, Jun Zhang, Daoyi Dong, Gary J. Mooney, Ian R. Petersen, and Hidehiro Yonezawa(参考訳) 量子プロセストモグラフィーは、量子系の力学を特徴づけ、正確な量子制御を達成するための重要なタスクである。 本稿では,トレース保存型および非トレース保存型量子プロセストモグラフィーのための2段階の解法を提案する。 テンソル構造を用いることで、計算量はo(mld^2)$であり、ここでは$d$は量子系の次元、$m $, $l$はそれぞれ異なる入力状態と測定演算子の数を表す。 解析誤差上限を設定し, 最適入力状態と最適測定演算子を設計し, 誤差上限を最小化し, 条件数によって特徴付けられるロバスト性を最大化する。 本アルゴリズムの性能と効率を示すために,ibm量子デバイスにおける数値例とテストを行った。

Quantum process tomography is a critical task for characterizing the dynamics of quantum systems and achieving precise quantum control. In this paper, we propose a two-stage solution for both trace-preserving and non-trace-preserving quantum process tomography. Utilizing a tensor structure, our algorithm exhibits a computational complexity of $O(MLd^2)$ where $d$ is the dimension of the quantum system and $ M $, $ L $ represent the numbers of different input states and measurement operators, respectively. We establish an analytical error upper bound and then design the optimal input states and the optimal measurement operators, which are both based on minimizing the error upper bound and maximizing the robustness characterized by the condition number. Numerical examples and testing on IBM quantum devices are presented to demonstrate the performance and efficiency of our algorithm.
翻訳日:2024-02-15 16:57:55 公開日:2024-02-14
# 対称性を持つ系における量子状態設計の創発

Unraveling the emergence of quantum state designs in systems with symmetry ( http://arxiv.org/abs/2402.08949v1 )

ライセンス: Link先を確認
Naga Dileep Varikuti and Soumik Bandyopadhyay(参考訳) 量子状態設計は、ランダムな量子状態の効率的なサンプリングを可能にし、回路設計からブラックホール物理学まで幅広い応用で様々な量子プロトコルを考案し、ベンチマークする上で重要な役割を果たす。 一方、対称性は状態のランダム性を減らすことが期待されている。 ユビキタスであるにもかかわらず、量子状態設計に対する対称性の影響は際立った問題である。 最近導入された投射型アンサンブルフレームワークは、射影測定と多体量子カオスに頼って効率的な近似状態t-設計を生成する。 本研究では,対称性を示す乱数生成状態から状態設計の出現について検討する。 翻訳対称性を利用して、状態t-設計につながる測定基準に十分な条件を解析的に確立する。 次に, トレース距離尺度を用いて, 設計への収束を数値的に検討する。 その後、収束に失敗する基地を特定するのに十分な条件の違反を検査する。 さらに, 周期境界条件を持つカオス型傾斜場イジングチェーンのダイナミクスを研究することにより, 物理系における状態設計の出現を実証する。 初期時間におけるトレース距離の収束速度は速いが,開境界条件の場合とは対照的に,後期のランダム行列予測から逸脱した有限値に飽和する。 結果の一般的な適用可能性を示すために、分析を他の対称性にも拡張する。 我々は, 閉かつオープンな量子多体系の熱化と平衡のさらなる探索の道を開くことを期待する。

Quantum state designs, by enabling an efficient sampling of random quantum states, play a quintessential role in devising and benchmarking various quantum protocols with broad applications ranging from circuit designs to black hole physics. Symmetries, on the other hand, are expected to reduce the randomness of a state. Despite being ubiquitous, the effects of symmetries on the quantum state designs remain an outstanding question. The recently introduced projected ensemble framework generates efficient approximate state t-designs by hinging on projective measurements and many-body quantum chaos. In this work, we examine the emergence of state designs from the random generator states exhibiting symmetries. Leveraging on translation symmetry, we analytically establish a sufficient condition for the measurement basis leading to the state t-designs. Then, by making use of a trace distance measure, we numerically investigate the convergence to the designs. Subsequently, we inspect the violation of the sufficient condition to identify bases that fail to converge. We further demonstrate the emergence of state designs in a physical system by studying dynamics of a chaotic tilted field Ising chain with periodic boundary conditions. We find faster convergence of the trace distance in the initial time, however, it saturates to a finite value deviating from random matrix prediction at late times, in contrast to the case with open boundary condition. To delineate the general applicability of our results, we extend our analysis to other symmetries. We expect our findings to pave the way for further exploration of deep thermalization and equilibration of closed and open quantum many-body systems.
翻訳日:2024-02-15 16:57:39 公開日:2024-02-14
# ガウス入力による部分空間スパース多項式学習における平均場解析

Mean-Field Analysis for Learning Subspace-Sparse Polynomials with Gaussian Input ( http://arxiv.org/abs/2402.08948v1 )

ライセンス: Link先を確認
Ziang Chen, Rong Ge(参考訳) 本研究では,入力分布が標準ガウス型であり,出力が低次元部分空間への入力の投影にのみ依存する2層ニューラルネットワークを用いて,部分空間スパース多項式を学習するための平均場流れについて検討する。 我々は,abbe et al. (2022) における統合階段特性の基底自由一般化を提案し,sgd-learnability に必要な条件を定式化する。 加えて、条件が必要条件よりわずかに強い条件が損失汎関数の指数的減衰をゼロに保証できるという意味で、条件はほぼ十分であることが証明される。

In this work, we study the mean-field flow for learning subspace-sparse polynomials using stochastic gradient descent and two-layer neural networks, where the input distribution is standard Gaussian and the output only depends on the projection of the input onto a low-dimensional subspace. We propose a basis-free generalization of the merged-staircase property in Abbe et al. (2022) and establish a necessary condition for the SGD-learnability. In addition, we prove that the condition is almost sufficient, in the sense that a condition slightly stronger than the necessary condition can guarantee the exponential decay of the loss functional to zero.
翻訳日:2024-02-15 16:57:14 公開日:2024-02-14
# グロッキングにおける鋭さの測定

Measuring Sharpness in Grokking ( http://arxiv.org/abs/2402.08946v1 )

ライセンス: Link先を確認
Jack Miller, Patrick Gleeson, Charles O'Neill, Thang Bui, Noam Levi(参考訳) ニューラルネットワークは、対応するトレーニングセットで同じ性能が得られた後、検証セット上で完璧またはほぼ完璧な性能を達成する現象であるグラッキングを示すことがある。 本ワークショップでは,適切な機能形態の適合に基づくグルーキング計測手法について紹介する。 次に、この手法を用いて、トレーニングにおける遷移のシャープさと2つの設定による検証精度を調査する。 最初の設定はlevi et al. (2023) によって開発された理論的な枠組みで、閉じた形式表現が容易にアクセスできる。 第2の設定は、ビットのパリティを予測するように訓練された2層mlpであり、miller et al. (2023) の隠蔽戦略によってグロッキングが引き起こされる。 相対グロッキングギャップとグロキングシャープネスの傾向は,絶対的および相対的シャープネス尺度を用いた場合,両者とも類似していることがわかった。 これを踏まえ、いくつかの傾向を説明し、グロッキングの鋭さに影響を与える様々なメカニズムを解き放つためのさらなる研究の必要性を見極める。

Neural networks sometimes exhibit grokking, a phenomenon where perfect or near-perfect performance is achieved on a validation set well after the same performance has been obtained on the corresponding training set. In this workshop paper, we introduce a robust technique for measuring grokking, based on fitting an appropriate functional form. We then use this to investigate the sharpness of transitions in training and validation accuracy under two settings. The first setting is the theoretical framework developed by Levi et al. (2023) where closed form expressions are readily accessible. The second setting is a two-layer MLP trained to predict the parity of bits, with grokking induced by the concealment strategy of Miller et al. (2023). We find that trends between relative grokking gap and grokking sharpness are similar in both settings when using absolute and relative measures of sharpness. Reflecting on this, we make progress toward explaining some trends and identify the need for further study to untangle the various mechanisms which influence the sharpness of grokking.
翻訳日:2024-02-15 16:57:00 公開日:2024-02-14
# 時系列データ合成フレームワークによるDTW対策の評価

Evaluating DTW Measures via a Synthesis Framework for Time-Series Data ( http://arxiv.org/abs/2402.08943v1 )

ライセンス: Link先を確認
Kishansingh Rajput, Duong Binh Nguyen, Guoning Chen(参考訳) 時系列データは、時間とともに特定の観察や興味の量を記述する様々なアプリケーションに由来する。 それらの分析は、しばしば異なる時系列データシーケンス間の比較を伴い、結果的にこれらのシーケンスのアライメントを必要とする。 動的時間ワープ (DTW) は2つの時間信号間の最適アライメントを実現するための標準手法である。 信号アライメントや分類の様々なニーズに対応するため、DTWの異なるバリエーションが提案されている。 しかし、これらの時系列データ処理タスクにおける性能の包括的な評価は欠如している。 ほとんどのDTW測度は、理由を明確に説明することなく、特定の時系列データに対して良好に機能する。 そこで本研究では,2つの時系列データ列間の変動をモデル化する合成フレームワークを提案する。 我々の合成フレームワークは現実的な初期信号を生成し、現実のシナリオを模倣した制御可能なバリエーションで変形することができる。 この合成の枠組みにより、異なるが既知のバリエーションを持つ多くの時系列のペアが作成され、アライメントと分類のタスクでよく知られた多くのdtw指標の性能を評価するのに使用される。 本報告では,2つの時系列列間の変動のタイプに基づいて,それらの特性を異なるバリエーションで報告する。 適切なDTW尺度を選択するためのガイドラインが提示されたのはこれが初めてである。 この結果を検証するために,油・ガス産業における生成トップの検出や流れの可視化のための流線におけるパターン探索など,実世界のアプリケーションに適用する。

Time-series data originate from various applications that describe specific observations or quantities of interest over time. Their analysis often involves the comparison across different time-series data sequences, which in turn requires the alignment of these sequences. Dynamic Time Warping (DTW) is the standard approach to achieve an optimal alignment between two temporal signals. Different variations of DTW have been proposed to address various needs for signal alignment or classifications. However, a comprehensive evaluation of their performance in these time-series data processing tasks is lacking. Most DTW measures perform well on certain types of time-series data without a clear explanation of the reason. To address that, we propose a synthesis framework to model the variation between two time-series data sequences for comparison. Our synthesis framework can produce a realistic initial signal and deform it with controllable variations that mimic real-world scenarios. With this synthesis framework, we produce a large number of time-series sequence pairs with different but known variations, which are used to assess the performance of a number of well-known DTW measures for the tasks of alignment and classification. We report their performance on different variations and suggest the proper DTW measure to use based on the type of variations between two time-series sequences. This is the first time such a guideline is presented for selecting a proper DTW measure. To validate our conclusion, we apply our findings to real-world applications, i.e., the detection of the formation top for the oil and gas industry and the pattern search in streamlines for flow visualization.
翻訳日:2024-02-15 16:56:42 公開日:2024-02-14
# エネルギー効率のよい状況認識のためのイベント型ビデオストリームの予測時間的注意

Predictive Temporal Attention on Event-based Video Stream for Energy-efficient Situation Awareness ( http://arxiv.org/abs/2402.08936v1 )

ライセンス: Link先を確認
Yiming Bu, Jiayang Liu, Qinru Qiu(参考訳) Dynamic Vision Sensor (DVS)は、イベント駆動方式で視覚情報を効率的にキャプチャしてエンコードする革新的な技術である。 イベント駆動型ニューロモルフィック処理と組み合わせることで、DVSカメラ出力の空間性は高いエネルギー効率をもたらす。 しかし、多くの組み込みシステムと同様に、カメラとプロセッサ間のオフチップ通信は消費電力の面でボトルネックとなっている。 人間の脳にみられる予測符号化モデルと予測抑制現象に着想を得て,視覚事象を適切に予測できない場合にのみカメラ出力を絞り,注意を払うための時間的注意機構を提案する。 予測注意は、センサプロセッサインタフェースの消費電力を減少させるだけでなく、ノイズイベントをフィルタリングして計算ワークロードを効果的に減少させる。 本研究では,カメラとプロセッサ間のデータ通信の46.7%を削減し,プロセッサの43.8%を削減できることを示す。

The Dynamic Vision Sensor (DVS) is an innovative technology that efficiently captures and encodes visual information in an event-driven manner. By combining it with event-driven neuromorphic processing, the sparsity in DVS camera output can result in high energy efficiency. However, similar to many embedded systems, the off-chip communication between the camera and processor presents a bottleneck in terms of power consumption. Inspired by the predictive coding model and expectation suppression phenomenon found in human brain, we propose a temporal attention mechanism to throttle the camera output and pay attention to it only when the visual events cannot be well predicted. The predictive attention not only reduces power consumption in the sensor-processor interface but also effectively decreases the computational workload by filtering out noisy events. We demonstrate that the predictive attention can reduce 46.7% of data communication between the camera and the processor and reduce 43.8% computation activities in the processor.
翻訳日:2024-02-15 16:56:19 公開日:2024-02-14
# 事前学習拡散モデルによる極端映像圧縮

Extreme Video Compression with Pre-trained Diffusion Models ( http://arxiv.org/abs/2402.08934v1 )

ライセンス: Link先を確認
Bohan Li, Yiming Liu, Xueyan Niu, Bo Bai, Lei Deng, and Deniz G\"und\"uz(参考訳) 拡散モデルは高品質な画像やビデオデータを生成することに成功している。 最近では、知覚品質の高い画像圧縮にも使われている。 本稿では,デコーダにおける拡散型生成モデルの予測能力を活用した,極端なビデオ圧縮手法を提案する。 条件拡散モデルは複数のニューラルネットワーク圧縮フレームを取り込み、それに続くフレームを生成する。 復元品質が所望のレベルを下回ると、新しいフレームがエンコードされ、再開予測が再開される。 ビデオ全体は、LPIPS(Learled Perceptual Image patch similarity)やFrechet Video distance(FVD)といった知覚品質の指標を1ピクセルあたり0.02ビット(bpp)のビットレートで考慮して、視覚的に心地よい再構成を実現するために順次符号化される。 H.264やH.265などの標準コーデックと比較して低bpp方式で提案手法の有効性を示す実験結果が得られた。 その結果,生成モデルを用いた映像データの時間関係を活用できる可能性が示された。 https://github.com/ElesionKyrie/Extreme-Video-Compression-With-Prediction-Using-Pre-trainded-Diffusi on-Models

Diffusion models have achieved remarkable success in generating high quality image and video data. More recently, they have also been used for image compression with high perceptual quality. In this paper, we present a novel approach to extreme video compression leveraging the predictive power of diffusion-based generative models at the decoder. The conditional diffusion model takes several neural compressed frames and generates subsequent frames. When the reconstruction quality drops below the desired level, new frames are encoded to restart prediction. The entire video is sequentially encoded to achieve a visually pleasing reconstruction, considering perceptual quality metrics such as the learned perceptual image patch similarity (LPIPS) and the Frechet video distance (FVD), at bit rates as low as 0.02 bits per pixel (bpp). Experimental results demonstrate the effectiveness of the proposed scheme compared to standard codecs such as H.264 and H.265 in the low bpp regime. The results showcase the potential of exploiting the temporal relations in video data using generative models. Code is available at: https://github.com/ElesionKyrie/Extreme-Video-Compression-With-Prediction-Using-Pre-trainded-Diffusi on-Models-
翻訳日:2024-02-15 16:56:04 公開日:2024-02-14
# テクスチャレスステレオマッチングのための深さ認識ボリュームアテンション

Depth-aware Volume Attention for Texture-less Stereo Matching ( http://arxiv.org/abs/2402.08931v1 )

ライセンス: Link先を確認
Tong Zhao, Mingyu Ding, Wei Zhan, Masayoshi Tomizuka, Yintao Wei(参考訳) ステレオマッチングは3次元知覚とシナリオ理解において重要な役割を果たす。 有望な手法の普及にもかかわらず、テクスチャやテクスチャの反復的な条件への対処は、リッチな幾何学的、セマンティックな情報の入手が不十分なため、依然として困難である。 本稿では,実用的な屋外シナリオにおけるテクスチャ劣化に対処する軽量ボリューム改善手法を提案する。 具体的には,画像テクスチャの相対階層を捉えた,地中深度マップで教師ありした深度ボリュームを提案する。 その後、ディファリティ差分ボリュームは、奥行き認識階層の注意と目標認識のディファリティの注意モジュールを組み込んだ階層フィルタリングを行う。 局所的な微細構造と文脈は、ボリュームアグリゲーション中のあいまいさと冗長性を軽減するために強調される。 さらに,より厳密な評価基準を提案し,深度関係誤差を考慮し,普遍的ステレオマッチングと深度推定モデルに対する包括的評価を行う。 提案手法の公共データセット上での優位性を広く検証する。 以上の結果から,テクスチャレス画像のシナリオでは特に優れた技術性能が得られた。 コードはhttps://github.com/ztsrxh/dvanetで入手できる。

Stereo matching plays a crucial role in 3D perception and scenario understanding. Despite the proliferation of promising methods, addressing texture-less and texture-repetitive conditions remains challenging due to the insufficient availability of rich geometric and semantic information. In this paper, we propose a lightweight volume refinement scheme to tackle the texture deterioration in practical outdoor scenarios. Specifically, we introduce a depth volume supervised by the ground-truth depth map, capturing the relative hierarchy of image texture. Subsequently, the disparity discrepancy volume undergoes hierarchical filtering through the incorporation of depth-aware hierarchy attention and target-aware disparity attention modules. Local fine structure and context are emphasized to mitigate ambiguity and redundancy during volume aggregation. Furthermore, we propose a more rigorous evaluation metric that considers depth-wise relative error, providing comprehensive evaluations for universal stereo matching and depth estimation models. We extensively validate the superiority of our proposed methods on public datasets. Results demonstrate that our model achieves state-of-the-art performance, particularly excelling in scenarios with texture-less images. The code is available at https://github.com/ztsrxh/DVANet.
翻訳日:2024-02-15 16:55:43 公開日:2024-02-14
# バンディット最適化と制御のための二階法

Second Order Methods for Bandit Optimization and Control ( http://arxiv.org/abs/2402.08929v1 )

ライセンス: Link先を確認
Arun Suggala, Y. Jennifer Sun, Praneeth Netrapalli, Elad Hazan(参考訳) bandit convex optimization (bco) は不確実性下でのオンライン意思決定のための一般的なフレームワークである。 一般凸損失に対する厳密な後悔境界が確立されている一方で、これらの境界を達成する既存のアルゴリズムは高次元データに対する計算コストを禁ずる。 本稿では,オンラインニュートンステップアルゴリズムにヒントを得た,シンプルで実用的なBCOアルゴリズムを提案する。 我々は,このアルゴリズムが,$\kappa$-convexと呼ぶ凸関数の大規模なクラスに対して最適な(水平方向の)後悔境界を実現することを示す。 このクラスは、線形、二次、一般化された線形モデルを含む、幅広い実用的な損失関数を含む。 最適後悔に加えて、この手法はバンドロジスティック回帰を含むいくつかのよく研究されたアプリケーションにとって最も効率的なアルゴリズムである。 さらに,2次バンディットアルゴリズムのオンライン凸最適化への適応について検討した。 特定のアフィン構造を持つ損失関数に対しては,拡張アルゴリズムが最適後悔が得られることを示す。 これにより、完全に逆方向の雑音モデルの下でのLQR/LQG問題に対する最適な後悔を伴うアルゴリズムが導かれ、それによって \citep{gradu2020non} と \citep{sun2023optimal} で表されるオープンな疑問が解決される。 最後に、(非アフィン)メモリによるbcoのより一般的な問題は困難であることを示す。 滑らかで二次的な損失の仮定の下でも、$\tilde{\Omega}(T^{2/3})$ regret lower bound を導出する。

Bandit convex optimization (BCO) is a general framework for online decision making under uncertainty. While tight regret bounds for general convex losses have been established, existing algorithms achieving these bounds have prohibitive computational costs for high dimensional data. In this paper, we propose a simple and practical BCO algorithm inspired by the online Newton step algorithm. We show that our algorithm achieves optimal (in terms of horizon) regret bounds for a large class of convex functions that we call $\kappa$-convex. This class contains a wide range of practically relevant loss functions including linear, quadratic, and generalized linear models. In addition to optimal regret, this method is the most efficient known algorithm for several well-studied applications including bandit logistic regression. Furthermore, we investigate the adaptation of our second-order bandit algorithm to online convex optimization with memory. We show that for loss functions with a certain affine structure, the extended algorithm attains optimal regret. This leads to an algorithm with optimal regret for bandit LQR/LQG problems under a fully adversarial noise model, thereby resolving an open question posed in \citep{gradu2020non} and \citep{sun2023optimal}. Finally, we show that the more general problem of BCO with (non-affine) memory is harder. We derive a $\tilde{\Omega}(T^{2/3})$ regret lower bound, even under the assumption of smooth and quadratic losses.
翻訳日:2024-02-15 16:55:21 公開日:2024-02-14
# エンタングルメント蒸留プロトコルにおける騒音推定

Noise estimation in an entanglement distillation protocol ( http://arxiv.org/abs/2402.08928v1 )

ライセンス: Link先を確認
Ananda G. Maity, Joshua C. A. Casapao, Naphan Benchasattabuse, Michal Hajdu\v{s}ek, Rodney Van Meter, David Elkouss(参考訳) ノイズプロセスの推定は、実用的な量子情報処理の重要なステップである。 標準推定ツールは貴重な量子資源を消費する必要がある。 ここでは, 蒸留プロトコルによって得られた測定統計から, 絡み合い状態に影響するノイズを学習できるかどうかを問う。 第1のステップとして、ヴェルナー形式の状態を検討し、理想化蒸留プロトコルの測定統計からヴェルナーパラメータを効率的に推定できることを見いだす。 提案手法は, 蒸留が避けられないステップである場合に適用できる。

Estimating noise processes is an essential step for practical quantum information processing. Standard estimation tools require consuming valuable quantum resources. Here we ask the question of whether the noise affecting entangled states can be learned solely from the measurement statistics obtained during a distillation protocol. As a first step, we consider states of the Werner form and find that the Werner parameter can be estimated efficiently from the measurement statistics of an idealized distillation protocol. Our proposed estimation method can find application in scenarios where distillation is an unavoidable step.
翻訳日:2024-02-15 16:54:56 公開日:2024-02-14
# MaxMin-RLHF: 多様な人間の嗜好を持つ大規模言語モデルの等価アライメントを目指して

MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences ( http://arxiv.org/abs/2402.08925v1 )

ライセンス: Link先を確認
Souradip Chakraborty, Jiahao Qiu, Hui Yuan, Alec Koppel, Furong Huang, Dinesh Manocha, Amrit Singh Bedi, and Mengdi Wang(参考訳) 人的フィードバック(rlhf)からの強化学習は、選好データから派生した独特な報奨モデルを使用することで、言語モデルと人間の選好を整合させる。 しかし、このようなアプローチは、複数のユーザーから収集されたデータに固有の人間の好みの多様性を見落としている。 本研究は,まず,単一報酬rlhfとアライメントすることの不可能性を導出し,多様な人間の嗜好を表わす上での不十分さを強調する。 期待最大化アルゴリズムを用いて選好分布の混合を学習し、社会的選択理論における平等主義の原理に触発された政策学習のためのマクスミンアライメント目標を提案し、多様な人間の選好をよりよく表現する。 分散的ロバストな最適化と一般用途RLに対する提案手法の接続を解明し,提案手法の汎用性とロバスト性を明らかにする。 本稿では,小規模言語モデル(gpt-2)と大規模言語モデル(tulu2-7b)の包括的実験結果を示し,提案手法の有効性を示す。 本アルゴリズムは,従来のrlhfアルゴリズムと比較して平均16%以上のウィンレート向上を達成し,多数派グループのパフォーマンスを損なうことなく,少数グループのウィンレート(精度)を33%以上向上させた。 この研究で分かったことは、言語モデルに限らず、強化学習全般にも及んでいる、と私たちは述べている。

Reinforcement Learning from Human Feedback (RLHF) aligns language models to human preferences by employing a singular reward model derived from preference data. However, such an approach overlooks the rich diversity of human preferences inherent in data collected from multiple users. In this work, we first derive an impossibility result of alignment with single reward RLHF, thereby highlighting its insufficiency in representing diverse human preferences. To provide an equitable solution to the problem, we learn a mixture of preference distributions via an expectation-maximization algorithm and propose a MaxMin alignment objective for policy learning inspired by the Egalitarian principle in social choice theory to better represent diverse human preferences. We elucidate the connection of our proposed approach to distributionally robust optimization and general utility RL, thereby highlighting the generality and robustness of our proposed solution. We present comprehensive experimental results on small-scale (GPT-2) and large-scale language models (with Tulu2-7B) and show the efficacy of the proposed approach in the presence of diversity among human preferences. Our algorithm achieves an average improvement of more than 16% in win-rates over conventional RLHF algorithms and improves the win-rate (accuracy) for minority groups by over 33% without compromising the performance of majority groups, showcasing the robustness and fairness of our approach. We remark that our findings in this work are not only limited to language models but also extend to reinforcement learning in general.
翻訳日:2024-02-15 16:54:48 公開日:2024-02-14
# IMUOptimize:トランスフォーマーアーキテクチャを用いた人文推定のための最適IMU配置のためのデータ駆動アプローチ

IMUOptimize: A Data-Driven Approach to Optimal IMU Placement for Human Pose Estimation with Transformer Architecture ( http://arxiv.org/abs/2402.08923v1 )

ライセンス: Link先を確認
Varun Ramani and Hossein Khayemi and Yang Bai and Nakul Garg and Nirupam Roy(参考訳) 本稿では、DIP-IMU、IMUPoser、TransPoseといった従来の研究と異なり、双方向RNNと組み合わせて最大6個のIMUを用いて、人間のポーズを予測する新しいアプローチを提案する。 我々は、最適なIMU配置のためのデータ駆動戦略と時系列解析のためのトランスフォーマーベースのモデルアーキテクチャの2つの主要な革新を紹介した。 提案手法は従来の6 IMUベースのbiRNNモデルよりも優れているだけでなく、トランスフォーマーアーキテクチャは24 IMUロケーションから得られたデータからのポーズ再構成を著しく向上し、6 IMUのみを使用する場合のbiRNNに匹敵する性能を示した。 変換器の並列化性や性能と組み合わせることで,最適選択位置の精度が向上し,IMUに基づくポーズ推定の分野に大きな改善がもたらされた。

This paper presents a novel approach for predicting human poses using IMU data, diverging from previous studies such as DIP-IMU, IMUPoser, and TransPose, which use up to 6 IMUs in conjunction with bidirectional RNNs. We introduce two main innovations: a data-driven strategy for optimal IMU placement and a transformer-based model architecture for time series analysis. Our findings indicate that our approach not only outperforms traditional 6 IMU-based biRNN models but also that the transformer architecture significantly enhances pose reconstruction from data obtained from 24 IMU locations, with equivalent performance to biRNNs when using only 6 IMUs. The enhanced accuracy provided by our optimally chosen locations, when coupled with the parallelizability and performance of transformers, provides significant improvements to the field of IMU-based pose estimation.
翻訳日:2024-02-15 16:54:21 公開日:2024-02-14
# 鏡による影響仮説:前向きパスのハーネスによる効率的なデータ影響推定

The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes ( http://arxiv.org/abs/2402.08922v1 )

ライセンス: Link先を確認
Myeongseob Ko, Feiyang Kang, Weiyan Shi, Ming Jin, Zhou Yu, Ruoxi Jia(参考訳) 大規模ブラックボックスモデルは、多くのアプリケーションで普及している。 これらのモデルによる予測に対する個々のトレーニングデータソースの影響を理解することは、信頼性の向上に不可欠である。 現在の影響推定手法は、各トレーニングポイントの計算勾配や、異なるサブセットでの繰り返しトレーニングを含む。 これらのアプローチは、大規模なデータセットやモデルまでスケールする場合、明らかな計算上の課題に直面します。 本稿では,Mirrored Influence hypothesisを紹介し,学習データとテストデータ間の相互影響について考察する。 具体的には、トレーニングデータがテスト予測に与える影響を評価することは、同等だが逆の問題として、モデルが特定のテストサンプルでトレーニングされた場合、トレーニングサンプルの予測がどのように変更されるかを評価することができることを示唆している。 実証的および理論的検証を通じて、我々の仮説の広範な適用性を実証する。 そこで本研究では,各トレーニングポイントの前方パスとペアで,特定のテストサンプルの勾配を計算する必要があるトレーニングデータの影響を推定する新しい手法を提案する。 このアプローチは、並行試験中のテストサンプル数がトレーニングデータセットのスケールよりもはるかに小さいシナリオで共通の非対称性を利用することができ、既存のアプローチに比べて効率が大幅に向上する。 本研究では,拡散モデルにおけるデータ帰属,データ漏洩検出,記憶の分析,誤記データ検出,言語モデルにおける追跡行動など,様々なシナリオにおける手法の適用性を示す。 私たちのコードはhttps://github.com/ruoxi-jia-group/Forward-INFで公開されます。

Large-scale black-box models have become ubiquitous across numerous applications. Understanding the influence of individual training data sources on predictions made by these models is crucial for improving their trustworthiness. Current influence estimation techniques involve computing gradients for every training point or repeated training on different subsets. These approaches face obvious computational challenges when scaled up to large datasets and models. In this paper, we introduce and explore the Mirrored Influence Hypothesis, highlighting a reciprocal nature of influence between training and test data. Specifically, it suggests that evaluating the influence of training data on test predictions can be reformulated as an equivalent, yet inverse problem: assessing how the predictions for training samples would be altered if the model were trained on specific test samples. Through both empirical and theoretical validations, we demonstrate the wide applicability of our hypothesis. Inspired by this, we introduce a new method for estimating the influence of training data, which requires calculating gradients for specific test samples, paired with a forward pass for each training point. This approach can capitalize on the common asymmetry in scenarios where the number of test samples under concurrent examination is much smaller than the scale of the training dataset, thus gaining a significant improvement in efficiency compared to existing approaches. We demonstrate the applicability of our method across a range of scenarios, including data attribution in diffusion models, data leakage detection, analysis of memorization, mislabeled data detection, and tracing behavior in language models. Our code will be made available at https://github.com/ruoxi-jia-group/Forward-INF.
翻訳日:2024-02-15 16:54:03 公開日:2024-02-14
# スケーラブルスマート製造のための学習可能な柔軟なジョブショップスケジューリング

Learning-enabled Flexible Job-shop Scheduling for Scalable Smart Manufacturing ( http://arxiv.org/abs/2402.08979v1 )

ライセンス: Link先を確認
Sihoon Moon, Sanghoon Lee, and Kyung-Joon Park(参考訳) スマートマニュファクチャリングシステム(SMS)では、自動誘導車両(AGV)に基づく生産の柔軟性を考慮して、生産性を最大化するためのソリューションを最適化するために、輸送制約付きフレキシブルなジョブショップスケジューリング(FJSPT)が不可欠である。 近年, 深部強化学習(DRL)に基づくFJSPT法の開発が, 大規模一般化の課題に直面している。 これらの手法は、トレーニングセットと異なるスケールの環境に適用すると、低品質のソリューションをもたらす。 そこで本研究では,HGS (Heterogeneous Graph Scheduler) と呼ばれる新しいグラフベースのDRL手法を提案する。 提案手法は, 符号化の複雑さを低減し, スケール一般化を促進するグラフ構造決定フレームワークを用いて, 演算, 機械, 車両ノード間の局所的な関係知識を活用し, スケジューリングを行う。 提案手法は,従来のディスパッチ法,メタヒューリスティックス,および既存のDRLベースのアプローチよりも,トレーニング中に経験していない大規模インスタンスにおいても,その性能評価が優れていることを示す。

In smart manufacturing systems (SMSs), flexible job-shop scheduling with transportation constraints (FJSPT) is essential to optimize solutions for maximizing productivity, considering production flexibility based on automated guided vehicles (AGVs). Recent developments in deep reinforcement learning (DRL)-based methods for FJSPT have encountered a scale generalization challenge. These methods underperform when applied to environment at scales different from their training set, resulting in low-quality solutions. To address this, we introduce a novel graph-based DRL method, named the Heterogeneous Graph Scheduler (HGS). Our method leverages locally extracted relational knowledge among operations, machines, and vehicle nodes for scheduling, with a graph-structured decision-making framework that reduces encoding complexity and enhances scale generalization. Our performance evaluation, conducted with benchmark datasets, reveals that the proposed method outperforms traditional dispatching rules, meta-heuristics, and existing DRL-based approaches in terms of makespan performance, even on large-scale instances that have not been experienced during training.
翻訳日:2024-02-15 16:47:06 公開日:2024-02-14
# prismatic:インタラクティブなマルチビュークラスタによるコンセプトストックの分析

Prismatic: Interactive Multi-View Cluster Analysis of Concept Stocks ( http://arxiv.org/abs/2402.08978v1 )

ライセンス: Link先を確認
Wong Kam-Kwai, Yan Luo, Xuanwu Yue, Wei Chen, Huamin Qu(参考訳) 金融クラスター分析により、投資家は投資代替案を発見し、過度のリスクを回避できる。 しかし、この分析タスクは、多くの対数比較、時間スパン間の動的相関、ビジネス関係知識からの影響を導出する曖昧さから生じる実質的な課題に直面している。 本研究では,歴史的業績の定量的分析とビジネス関係知識の質的分析と,相互に関連付けられたビジネスのクラスタ分析を統合するビジュアル分析システムprismaticを提案する。 prismaticは、動的クラスタ生成、知識ベースのクラスタ探索、相関ベースのクラスタ検証という3つのクラスタリングプロセスを備えている。 マルチビュークラスタリングアプローチを利用することで、知識駆動の類似性を備えたデータ駆動クラスタを強化し、ビジネス相関の微妙な理解を提供する。 良く協調された視覚的視点を通じて、Prismaticは、相互に結合した量的および質的な特徴の包括的解釈を促進し、その有用性と有効性を示す。

Financial cluster analysis allows investors to discover investment alternatives and avoid undertaking excessive risks. However, this analytical task faces substantial challenges arising from many pairwise comparisons, the dynamic correlations across time spans, and the ambiguity in deriving implications from business relational knowledge. We propose Prismatic, a visual analytics system that integrates quantitative analysis of historical performance and qualitative analysis of business relational knowledge to cluster correlated businesses interactively. Prismatic features three clustering processes: dynamic cluster generation, knowledge-based cluster exploration, and correlation-based cluster validation. Utilizing a multi-view clustering approach, it enriches data-driven clusters with knowledge-driven similarity, providing a nuanced understanding of business correlations. Through well-coordinated visual views, Prismatic facilitates a comprehensive interpretation of intertwined quantitative and qualitative features, demonstrating its usefulness and effectiveness via case studies on formulating concept stocks and extensive interviews with domain experts.
翻訳日:2024-02-15 16:46:44 公開日:2024-02-14
# 変圧器を用いた異常検出モデルの研究と応用:文献レビュー

Research and application of Transformer based anomaly detection model: A literature review ( http://arxiv.org/abs/2402.08975v1 )

ライセンス: Link先を確認
Mingrui Ma, Lansheng Han, Chunjie Zhou(参考訳) Transformerは自然言語処理(NLP)において最も先進的なニューラルネットワークモデルの一つであり、異常検出の分野における様々な応用を示している。 変圧器に基づく異常検出の研究を刺激するため,本論文では異常検出の概念に関する新たな視点を提供する。 異常検出の現在の課題を考察し,異常検出タスクにおけるトランスフォーマの動作原理とその変種に関する詳細な知見を提供する。 さらに,変圧器に基づく異常検出モデルの様々な応用シナリオを概説し,使用するデータセットと評価指標について考察する。 さらに,トランスフォーマーを用いた異常検出研究における重要な課題を強調し,今後の研究動向を包括的に分析する。 レビューには、トランスフォーマベースの異常検出に関連する100以上のコア参照の広範なコンパイルが含まれている。 我々の知る限りでは、異常検出の文脈におけるTransformerに関する研究に焦点を当てた、初めての総合的なレビューである。 本稿では,Transformerベースの異常検出タスクに関心のある研究者に対して,詳細な技術情報の提供を期待する。

Transformer, as one of the most advanced neural network models in Natural Language Processing (NLP), exhibits diverse applications in the field of anomaly detection. To inspire research on Transformer-based anomaly detection, this review offers a fresh perspective on the concept of anomaly detection. We explore the current challenges of anomaly detection and provide detailed insights into the operating principles of Transformer and its variants in anomaly detection tasks. Additionally, we delineate various application scenarios for Transformer-based anomaly detection models and discuss the datasets and evaluation metrics employed. Furthermore, this review highlights the key challenges in Transformer-based anomaly detection research and conducts a comprehensive analysis of future research trends in this domain. The review includes an extensive compilation of over 100 core references related to Transformer-based anomaly detection. To the best of our knowledge, this is the first comprehensive review that focuses on the research related to Transformer in the context of anomaly detection. We hope that this paper can provide detailed technical information to researchers interested in Transformer-based anomaly detection tasks.
翻訳日:2024-02-15 16:46:24 公開日:2024-02-14
# ロバスト構造予測のための構造言語生成モデル

Structured Language Generation Model for Robust Structure Prediction ( http://arxiv.org/abs/2402.08971v1 )

ライセンス: Link先を確認
Minho Lee and Junghyun Min and Woochul Lee and Yeonsoo Lee(参考訳) 本稿では,新たな損失関数と推論法を組み合わせた構造化言語生成モデル(SLGM)を提案する。 構造予測に関する以前の研究(ner、reなど)では、明示的なデータセット情報を使用して、パフォーマンスを高めるが、現実の状況において堅牢な一般化に困難をもたらす可能性がある。 代わりに、このモデルは間接的にデータに関する一般的なフォーマット情報を与える。 フォーマット情報を用いることで、ロスキャリブレーションとフォーマットドデコードによって、シーケンス列間の問題を分類問題に還元することができる。 実験の結果,SLGMはデータセット情報のない性能維持に成功し,フォーマットエラーははるかに少なかった。 また、当社のモデルは、追加のトレーニングなしで、個々のデータセットのアダプタのように動作することも示しました。

We propose Structured Language Generation Model (SLGM), a mixture of new loss function and inference method for better generalization of structured outputs. Previous studies on structure prediction (e.g. NER, RE) make use of explicit dataset information, which would boost performance, yet it might pose challenges to robust generalization in real-world situations. Instead, our model gives generalized format information about data indirectly. With format information, we could reduce sequence-to-sequence problem into classification problem via loss calibration and formatted decoding. Our experimental results showed SLGM successfully maintain performance without dataset information, and showed much less format errors. We also showed our model can work like adapters on individual dataset, with no additional training.
翻訳日:2024-02-15 16:46:08 公開日:2024-02-14
# 量子コンピュータにおけるハミルトン入力モデルと分光

Hamiltonian input model and spectroscopy on quantum computers ( http://arxiv.org/abs/2402.08969v1 )

ライセンス: Link先を確認
Weijie Du and James P. Vary(参考訳) 本稿では、相対論的あるいは非相対論的多値系の一般第二量子化ハミルトニアンに対する新しい入力モデルを提案する。 この入力モデルはフェルミオンの反可換関係、粒子数の変化を取り入れ、ハミルトニアンの対称性を尊重する。 入力モデルに基づいて,将来の量子ハードウェアにおけるスペクトル計算のためのハイブリッドフレームワークを提案する。 明示的な回路設計と関連するゲートコストと回路深さを提供する。 我々は、{^{42}}Ca$と${^{46}}Ca$の低いスペクトルを解くことで、我々のフレームワークを実証する。 我々の入力モデルは、相対論的および非相対論的多フェミオン系のスペクトルと時間進化を解くための新しい経路を提供する。

We present a novel input model for general second-quantized Hamiltonians of relativistic or non-relativistic many-fermion systems. This input model incorporates the fermionic anticommutation relations, particle number variations, and respects the symmetries of the Hamiltonian. Based on our input model, we propose a hybrid framework for spectral calculations on future quantum hardwares. We provide explicit circuit designs and the associated gate cost and circuit depth. We demonstrate our framework by solving the low-lying spectra of ${^{42}}Ca$ and ${^{46}}Ca$. Our input model provides new pathways to solving the spectra and time evolutions of the relativistic and nonrelativistic many-fermion systems.
翻訳日:2024-02-15 16:45:56 公開日:2024-02-14
# Groundial: ヒューマンノームな安全なダイアログ応答生成

GrounDial: Human-norm Grounded Safe Dialog Response Generation ( http://arxiv.org/abs/2402.08968v1 )

ライセンス: Link先を確認
Siwon Kim, Shuyang Dai, Mohammad Kachuee, Shayan Ray, Tara Taghavi, and Sungroh Yoon(参考訳) 大規模言語モデル(LLM)に基づく現在の会話型AIシステムは、攻撃的なユーザ入力や有害なコンテンツを含む、安全でない応答を生成することが知られている。 従来の研究は、手動で注釈付けされた安全な対話履歴を持つLSMを微調整することで毒性を緩和することを目的としていた。 しかし、追加チューニングへの依存は相当なコストを必要とする。 そこで本研究では,コモンセンスの社会的ルールに対する応答を微調整を必要とせずにグルーピングすることで,応答の安全性を実現する基礎的手法を提案する。 in-context learning と human-norm-guided decoding のハイブリッドアプローチは、追加のデータやチューニングなしでも、応答を定量的かつ質的に安全にすることができる。

Current conversational AI systems based on large language models (LLMs) are known to generate unsafe responses, agreeing to offensive user input or including toxic content. Previous research aimed to alleviate the toxicity, by fine-tuning LLM with manually annotated safe dialogue histories. However, the dependency on additional tuning requires substantial costs. To remove the dependency, we propose GrounDial, where response safety is achieved by grounding responses to commonsense social rules without requiring fine-tuning. A hybrid approach of in-context learning and human-norm-guided decoding of GrounDial enables the response to be quantitatively and qualitatively safer even without additional data or tuning.
翻訳日:2024-02-15 16:45:46 公開日:2024-02-14
# 縦型胸部X線における視覚的質問応答の事前学習モデル

Pretraining Vision-Language Model for Difference Visual Question Answering in Longitudinal Chest X-rays ( http://arxiv.org/abs/2402.08966v1 )

ライセンス: Link先を確認
Yeongjae Cho, Taehee Kim, Heejun Shin, Sungzoon Cho, Dongmyung Shin(参考訳) 差分視覚質問応答(diff-VQA)は、画像間の差分に基づいて複雑な質問に答えることを必要とする課題である。 この課題は胸部X線画像の読影において特に重要であり, 放射線科医は疾患の進行と重症度の変化を追跡するために, 異なる時期に撮影された同一患者の複数の画像と比較することが多い。 しかし、以前の研究はdiff-VQAタスクのための特定のネットワークアーキテクチャの設計に重点を置いており、事前訓練された視覚言語モデル(VLM)を使用してモデルの性能を向上させる機会を欠いていた。 本稿では,自然と縦の胸部X線データに基づくdiff-VQAタスクのための新しいVLMであるPLURALを紹介する。 このモデルはステップバイステップのアプローチで開発され、まず自然画像やテキストで事前訓練され、続いて縦型胸部X線データを用いて訓練される。 縦断データは、x線画像のペアと、肺の異常や疾患の経時的変化を記述する放射線科医のレポートから成り立っている。 実験結果から,PLURALモデルは縦X線に対するdiff-VQA法だけでなく,1枚のX線画像に対する従来のVQA法よりも優れていた。 広範にわたる実験により,提案するVLMアーキテクチャの有効性と,モデルの性能向上のための事前学習手法の有効性を実証した。

Difference visual question answering (diff-VQA) is a challenging task that requires answering complex questions based on differences between a pair of images. This task is particularly important in reading chest X-ray images because radiologists often compare multiple images of the same patient taken at different times to track disease progression and changes in its severity in their clinical practice. However, previous works focused on designing specific network architectures for the diff-VQA task, missing opportunities to enhance the model's performance using a pretrained vision-language model (VLM). Here, we introduce a novel VLM called PLURAL, which is pretrained on natural and longitudinal chest X-ray data for the diff-VQA task. The model is developed using a step-by-step approach, starting with being pretrained on natural images and texts, followed by being trained using longitudinal chest X-ray data. The longitudinal data consist of pairs of X-ray images, along with question-answer sets and radiologist's reports that describe the changes in lung abnormalities and diseases over time. Our experimental results show that the PLURAL model outperforms state-of-the-art methods not only in diff-VQA for longitudinal X-rays but also in conventional VQA for a single X-ray image. Through extensive experiments, we demonstrate the effectiveness of the proposed VLM architecture and pretraining method in improving the model's performance.
翻訳日:2024-02-15 16:45:32 公開日:2024-02-14
# ハードウェア仕様からLaptopsのユーザエクスペリエンスを予測する

Predicting User Experience on Laptops from Hardware Specifications ( http://arxiv.org/abs/2402.08964v1 )

ライセンス: Link先を確認
Saswat Padhi, Sunil K. Bhasin, Udaya K. Ammu, Alex Bergman, Allan Knies(参考訳) デバイス上のユーザエクスペリエンス全体(UX)を見積もるのは,製造業者が直面する一般的な課題です。 今日では、デバイスメーカーは主に、cpuやramなどの特定のハードウェアコンポーネントをテストするが、消費者のワークロードを十分に把握しない、geekbenchなどのマイクロベンチマークスコアに依存している。 システム設計者は、望ましいux目標を達成するために、ドメイン固有のヒューリスティックやプロトタイプの広範なテストに依存することが多いが、製造者のパフォーマンス要求と消費者の経験の間にはミスマッチがある。 ハードウェア仕様からノートパソコンの実際の体験を予測するための最初の結果を示す。 chromebook(chromeosラップトップ)上で動作するwebアプリケーションを対象として、アプリケーションとワークロード間のエクスペリエンスをシンプルかつ公平に集約しています。 54のラップトップ上では、Webブラウジング、ビデオ再生、オーディオ/ビデオ通話という、一般的なエンドユーザワークロード上の9つのUXメトリクスを追跡します。 我々は、webアプリケーションにおけるuxを判断するためのweb vitalsイニシアチブの一部であるchromeブラウザが公開するハイレベルなメトリクスのサブセットにフォーカスしています。 10kのuxデータポイントのデータセットを使って、デバイス仕様からメトリック値を予測する勾配強化回帰ツリーをトレーニングします。 9つの指標のうち、平均r^2$スコア(データセットに適合する点)は97.8%、平均maapeスコアは10.1%である。

Estimating the overall user experience (UX) on a device is a common challenge faced by manufacturers. Today, device makers primarily rely on microbenchmark scores, such as Geekbench, that stress test specific hardware components, such as CPU or RAM, but do not satisfactorily capture consumer workloads. System designers often rely on domain-specific heuristics and extensive testing of prototypes to reach a desired UX goal, and yet there is often a mismatch between the manufacturers' performance claims and the consumers' experience. We present our initial results on predicting real-life experience on laptops from their hardware specifications. We target web applications that run on Chromebooks (ChromeOS laptops) for a simple and fair aggregation of experience across applications and workloads. On 54 laptops, we track 9 UX metrics on common end-user workloads: web browsing, video playback and audio/video calls. We focus on a subset of high-level metrics exposed by the Chrome browser, that are part of the Web Vitals initiative for judging the UX on web applications. With a dataset of 100K UX data points, we train gradient boosted regression trees that predict the metric values from device specifications. Across our 9 metrics, we note a mean $R^2$ score (goodness-of-fit on our dataset) of 97.8% and a mean MAAPE (percentage error in prediction on unseen data) of 10.1%.
翻訳日:2024-02-15 16:45:05 公開日:2024-02-14
# DUEL:自己教師型クラス不均衡学習におけるアクティブメモリの重複排除

DUEL: Duplicate Elimination on Active Memory for Self-Supervised Class-Imbalanced Learning ( http://arxiv.org/abs/2402.08963v1 )

ライセンス: Link先を確認
Won-Seok Choi, Hyundo Lee, Dong-Sig Han, Junseok Park, Heeyeon Koo and Byoung-Tak Zhang(参考訳) 最近の機械学習アルゴリズムは、十分なコストとリソースを必要とする十分なデータセットを使用して開発されている。 一方で、生データの直接使用は、しばしば頻繁に発生するクラス情報への過剰フィットにつながる。 コスト効率のよいクラス不均衡に対処するために,我々は,自己教師付き事前学習中のアクティブデータフィルタリングプロセスを提案する。 このフレームワークは、人間のワーキングメモリにインスパイアされたアクティブメモリを統合し、メモリ内のデータの多様性を測定する特徴情報を導入し、特徴抽出器とメモリの両方を最適化する。 最も重複したデータを新しいサンプルに置き換えるDUELポリシは、メモリ内の特異性情報を強化し、クラス不均衡を軽減することを目的としている。 我々は,クラス不均衡環境におけるデュエルフレームワークの有効性を検証し,その頑健性を示し,下流タスクにおいて信頼性の高い結果を提供する。 また,トレーニングプロセスにおけるDUELポリシーの役割を,様々なメトリクスや可視化を通じて分析する。

Recent machine learning algorithms have been developed using well-curated datasets, which often require substantial cost and resources. On the other hand, the direct use of raw data often leads to overfitting towards frequently occurring class information. To address class imbalances cost-efficiently, we propose an active data filtering process during self-supervised pre-training in our novel framework, Duplicate Elimination (DUEL). This framework integrates an active memory inspired by human working memory and introduces distinctiveness information, which measures the diversity of the data in the memory, to optimize both the feature extractor and the memory. The DUEL policy, which replaces the most duplicated data with new samples, aims to enhance the distinctiveness information in the memory and thereby mitigate class imbalances. We validate the effectiveness of the DUEL framework in class-imbalanced environments, demonstrating its robustness and providing reliable results in downstream tasks. We also analyze the role of the DUEL policy in the training process through various metrics and visualizations.
翻訳日:2024-02-15 16:44:40 公開日:2024-02-14
# HyCubE: 効率的な知識ハイパーグラフ3D循環型畳み込み

HyCubE: Efficient Knowledge Hypergraph 3D Circular Convolutional Embedding ( http://arxiv.org/abs/2402.08961v1 )

ライセンス: Link先を確認
Zhao Li, Xin Wang, Jianxin Li, Wenbin Guo, Jun Zhao(参考訳) 既存の知識ハイパーグラフ埋め込み手法は、主にモデルパフォーマンスの改善に焦点を当てているが、モデル構造はより複雑で冗長になっている。 さらに、本質的に複雑な意味知識のため、知識ハイパーグラフ埋め込みモデルの計算は、しばしば非常に高価であり、効率が低下する。 本稿では,新しい3次元円形畳み込みニューラルネットワークを設計し,効率的なn-ary知識ハイパーグラフ埋め込みを実現するためにマスクスタック戦略を導入する,特徴相互作用と抽出強化3次元円形畳み込み埋め込みモデルHyCubEを提案する。 3次元円形畳み込みカーネルサイズを適応的に調整し、エンティティ位置情報を均一に埋め込み、より少ないパラメータでモデル性能を改善し、モデル性能と効率のトレードオフを改善する。 さらに,エンティティマスク機構に基づく1-nマルチリニアスコアを用いて,モデルのトレーニング効率をさらに向上させる。 最後に、すべてのデータセットに対する広範な実験結果から、HyCubEは最先端のベースラインを一貫して上回り、平均改善は4.08%-10.77%、最大改善は全指標で21.16%となっている。 HyCubEは平均7.55倍スピードアップし、最新の最先端ベースラインと比較して平均77.02%メモリ使用量を削減している。

Existing knowledge hypergraph embedding methods mainly focused on improving model performance, but their model structures are becoming more complex and redundant. Furthermore, due to the inherent complex semantic knowledge, the computation of knowledge hypergraph embedding models is often very expensive, leading to low efficiency. In this paper, we propose a feature interaction and extraction-enhanced 3D circular convolutional embedding model, HyCubE, which designs a novel 3D circular convolutional neural network and introduces the alternate mask stack strategy to achieve efficient n-ary knowledge hypergraph embedding. By adaptively adjusting the 3D circular convolution kernel size and uniformly embedding the entity position information, HyCubE improves the model performance with fewer parameters and reaches a better trade-off between model performance and efficiency. In addition, we use 1-N multilinear scoring based on the entity mask mechanism to further accelerate the model training efficiency. Finally, extensive experimental results on all datasets demonstrate that HyCubE consistently outperforms state-of-the-art baselines, with an average improvement of 4.08%-10.77% and a maximum improvement of 21.16% across all metrics. Commendably, HyCubE speeds up by an average of 7.55x and reduces memory usage by an average of 77.02% compared to the latest state-of-the-art baselines.
翻訳日:2024-02-15 16:44:23 公開日:2024-02-14
# unpaired mask-text supervisorを用いたオープンボキャブラリーセグメンテーション

Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision ( http://arxiv.org/abs/2402.08960v1 )

ライセンス: Link先を確認
Zhaoqing Wang, Xiaobo Xia, Ziye Chen, Xiao He, Yandong Guo, Mingming Gong, Tongliang Liu(参考訳) 現代の最先端のオープンボキャブラリセグメンテーションアプローチは一般的にイメージマスクテキスト三重項に依存しているが、この制限されたアノテーションは労働集約的であり、複雑な現実世界のシナリオではスケーラビリティのハードルに直面する。 テキスト管理のみでアノテーションのコストを削減する手法が提案されているが、監督の不完全さは、その汎用性と性能を著しく制限している。 本稿では,独立した画像マスクと画像テキストペアを用いて,マスクとテキストの厳密な対応を解放する。 この非ペア化マスクテキストの監督により,テキスト記述におけるマスク予測とエンティティの自信のあるペアを活用する,オープンボキャブラリセグメンテーションフレームワーク(uni-ovseg)を提案する。 独立した画像マスクと画像テキストペアを用いて、バイナリマスクの集合を予測し、CLIP埋め込み空間を利用してエンティティと関連付ける。 しかしながら、マスクと実体の対応における固有のノイズは、信頼できるペアを得る際に大きな課題となる。 そこで我々は,大規模視覚言語モデル(LVLM)を用いてテキスト記述を洗練し,マスクと実体のマッチングを安定化するためのマルチスケールアンサンブルを考案する。 テキストのみの弱教師付き手法と比較して、私たちのUni-OVSegはADE20Kデータセットで15.5% mIoUを大幅に改善し、挑戦的なPASCAL Context-459データセットの完全な教師付き手法を超えています。

Contemporary cutting-edge open-vocabulary segmentation approaches commonly rely on image-mask-text triplets, yet this restricted annotation is labour-intensive and encounters scalability hurdles in complex real-world scenarios. Although some methods are proposed to reduce the annotation cost with only text supervision, the incompleteness of supervision severely limits the versatility and performance. In this paper, we liberate the strict correspondence between masks and texts by using independent image-mask and image-text pairs, which can be easily collected respectively. With this unpaired mask-text supervision, we propose a new weakly-supervised open-vocabulary segmentation framework (Uni-OVSeg) that leverages confident pairs of mask predictions and entities in text descriptions. Using the independent image-mask and image-text pairs, we predict a set of binary masks and associate them with entities by resorting to the CLIP embedding space. However, the inherent noise in the correspondence between masks and entities poses a significant challenge when obtaining reliable pairs. In light of this, we advocate using the large vision-language model (LVLM) to refine text descriptions and devise a multi-scale ensemble to stablise the matching between masks and entities. Compared to text-only weakly-supervised methods, our Uni-OVSeg achieves substantial improvements of 15.5% mIoU on the ADE20K datasets, and even surpasses fully-supervised methods on the challenging PASCAL Context-459 dataset.
翻訳日:2024-02-15 16:43:59 公開日:2024-02-14
# ハイパースケール変圧器の次段階訓練後量子化に向けて

Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers ( http://arxiv.org/abs/2402.08958v1 )

ライセンス: Link先を確認
Junhan Kim, Kyungphil Park, Chungman Lee, Ho-young Kim, Joonyoung Kim, Yongkweon Jeon(参考訳) 生成AIモデルの複雑さの増大に伴い、後トレーニング量子化(PTQ)はモバイルデバイスやテレビなどのエッジデバイスにハイパースケールモデルをデプロイするための有望なソリューションとして登場した。 しかし、既存のPTQスキームはかなりの時間とリソースを消費しており、頻繁なモデル更新と複数のハイパーパラメータチューニングを必要とする現実の状況ではボトルネックとなる可能性がある。 費用対効果の高い代替案として、単発ptqスキームが提案されている。 それでもパフォーマンスは,Transformerの重要な機能である注目モジュール内の層間依存性を考慮できないため,多少制限されている。 本稿では,精度と効率のバランスをとる新しいPTQアルゴリズムを提案する。 aespaと呼ばれるアルゴリズムの鍵となる考え方は、アテンションスコアを保持するために層間依存を考慮しつつ、効率よく量子化層を設計することである。 様々な言語モデルと複雑性分析に関する広範囲な実験を通じて、aespaがトランスフォーマーモデルの量子化において正確かつ効率的であることを実証する。

With the increasing complexity of generative AI models, post-training quantization (PTQ) has emerged as a promising solution for deploying hyper-scale models on edge devices such as mobile devices and TVs. Existing PTQ schemes, however, consume considerable time and resources, which could be a bottleneck in real situations where frequent model updates and multiple hyper-parameter tunings are required. As a cost-effective alternative, one-shot PTQ schemes have been proposed. Still, the performance is somewhat limited because they cannot consider the inter-layer dependency within the attention module, which is a very important feature of Transformers. In this paper, we thus propose a novel PTQ algorithm that balances accuracy and efficiency. The key idea of the proposed algorithm called aespa is to perform quantization layer-wise for efficiency while considering cross-layer dependency to preserve the attention score. Through extensive experiments on various language models and complexity analysis, we demonstrate that aespa is accurate and efficient in quantizing Transformer models.
翻訳日:2024-02-15 16:43:30 公開日:2024-02-14
# MUSTARD:理論と証明データの一様合成をマスターする

MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data ( http://arxiv.org/abs/2402.08957v1 )

ライセンス: Link先を確認
Yinya Huang, Xiaohan Lin, Zhengying Liu, Qingxing Cao, Huajian Xin, Haiming Wang, Zhenguo Li, Linqi Song, Xiaodan Liang(参考訳) 最近の大規模言語モデル(llm)は、数学的推論や定理証明を含む様々なタスクにおいて重要な進歩を遂げている。 これらの2つのタスクは厳密で形式的な多段階推論を必要とするため、LLMの推論能力を探究するドメインにアピールするが、それでも重要な課題に直面している。 先行研究であるchain-of-thought (cot) は、中間ステップ指導の有効性を明らかにしている。 しかし、このようなステップワイズアノテーションは多大な労力を必要とするため、現在のベンチマークのトレーニングステップは不十分である。 このギャップを埋めるため、本研究では、高品質と多様性の証明データと定理の均一な合成を習得するデータ生成フレームワークである mustard を紹介する。 mustardはデータを3つの段階に合成する:(1)いくつかの数学的概念の種を問題カテゴリとしてサンプリングする。 2) サンプル概念を用いた生成言語モデルを構築し,問題とステップワイドな形式的解の両立を図った。 (3) 最後に、このフレームワークは証明アシスタント(例:Lean Prover)を使って有効な証明をフィルタリングする。 提案するマスタードを用いて、5,866点の有効データ点を持つ定理と証明のベンチマークを示す。 各データポイントは、非公式なステートメント、非公式な証明、そして証明者検証を通した変換された形式的証明を含む。 広範囲な分析を行い,検証された高品質なステップバイステップデータを生成することを実証する。 さらに、より小型の言語モデルにMUSTARDSAUCEを適用する。 微調整されたllama 2-7bは、自動定理証明で平均15.41%、数学用語問題で8.18%のパフォーマンス向上を達成している。 コードとデータはhttps://github.com/eleanor-h/mustardで入手できる。

Recent large language models (LLMs) have witnessed significant advancement in various tasks, including mathematical reasoning and theorem proving. As these two tasks require strict and formal multi-step inference, they are appealing domains for exploring the reasoning ability of LLMs but still face important challenges. Previous studies such as Chain-of-Thought (CoT) have revealed the effectiveness of intermediate steps guidance. However, such step-wise annotation requires heavy labor, leading to insufficient training steps for current benchmarks. To fill this gap, this work introduces MUSTARD, a data generation framework that masters uniform synthesis of theorem and proof data of high quality and diversity. MUSTARD synthesizes data in three stages: (1) It samples a few mathematical concept seeds as the problem category. (2) Then, it prompts a generative language model with the sampled concepts to obtain both the problems and their step-wise formal solutions. (3) Lastly, the framework utilizes a proof assistant (e.g., Lean Prover) to filter the valid proofs. With the proposed MUSTARD, we present a theorem-and-proof benchmark MUSTARDSAUCE with 5,866 valid data points. Each data point contains an informal statement, an informal proof, and a translated formal proof that passes the prover validation. We perform extensive analysis and demonstrate that MUSTARD generates validated high-quality step-by-step data. We further apply the MUSTARDSAUCE for fine-tuning smaller language models. The fine-tuned Llama 2-7B achieves a 15.41% average relative performance gain in automated theorem proving, and 8.18% in math word problems. Codes and data are available at https://github.com/Eleanor-H/MUSTARD.
翻訳日:2024-02-15 16:43:12 公開日:2024-02-14
# 対物課題を用いた大規模言語モデルにおけるアナロジー推論の一般性の評価

Using Counterfactual Tasks to Evaluate the Generality of Analogical Reasoning in Large Language Models ( http://arxiv.org/abs/2402.08955v1 )

ライセンス: Link先を確認
Martha Lewis and Melanie Mitchell(参考訳) 大規模言語モデル(llm)は、類似推論能力をテストするものを含むいくつかの推論ベンチマークでうまく機能している。 しかし、実際には人間のような抽象的な推論を行うのか、トレーニングデータで見られるものと類似性に依存する一般的なプロセスを採用するのかは議論されている。 本稿では LLM に対して以前主張された類推能力の一般性を検討する(Webb, Holyoak, & Lu, 2023)。 我々は、LLMを評価し、同じ抽象的推論能力をテストするが、事前学習データと異なるであろう一連の「数値的」変分変換を生成するために用いられる類推問題を1組とみなす。 ヒトと3つのGPTモデルを原問題と反ファクト問題の両方でテストし、全ての問題に対して人間の性能は高いが、GPTモデルの性能は反ファクト問題に対して急激に低下することを示した。 この研究は、以前報告されたアナログ推論におけるLSMの成功にもかかわらず、これらのモデルが人間のアナログ生成の堅牢性と一般性を欠いているという証拠を提供する。

Large language models (LLMs) have performed well on several reasoning benchmarks, including ones that test analogical reasoning abilities. However, it has been debated whether they are actually performing humanlike abstract reasoning or instead employing less general processes that rely on similarity to what has been seen in their training data. Here we investigate the generality of analogy-making abilities previously claimed for LLMs (Webb, Holyoak, & Lu, 2023). We take one set of analogy problems used to evaluate LLMs and create a set of "counterfactual" variants-versions that test the same abstract reasoning abilities but that are likely dissimilar from any pre-training data. We test humans and three GPT models on both the original and counterfactual problems, and show that, while the performance of humans remains high for all the problems, the GPT models' performance declines sharply on the counterfactual set. This work provides evidence that, despite previously reported successes of LLMs on analogical reasoning, these models lack the robustness and generality of human analogy-making.
翻訳日:2024-02-15 16:42:27 公開日:2024-02-14
# インストラクションベース・プロンプティングによるマルチクエリに着目した災害要約

Multi-Query Focused Disaster Summarization via Instruction-Based Prompting ( http://arxiv.org/abs/2402.09008v1 )

ライセンス: Link先を確認
Philipp Seeberger, Korbinian Riedhammer(参考訳) 大量緊急事象の自動要約は災害管理において重要な役割を担っている。 crisisfactsの第2版は、twitter、reddit、facebook、webnewsといったウェブソースに焦点を当てたマルチストリームファクト検索に基づく災害要約の推進を目指している。 ここで参加者は,いくつかの災害関連イベントから重要な事実を抽出するシステムの開発を依頼される。 本稿では,この課題に対処する方法について述べる。 過去の研究に続き、検索、再ランク付け、および恥ずかしいほど単純な命令追従要約の組み合わせを提案する。 2段階の検索パイプラインはBM25とMonoT5に依存し、サマリモジュールはオープンソースのLarge Language Model (LLM) LLaMA-13bに基づいている。 要約のために,質問回答 (QA) を動機とした提案手法を探索し,質問関連事実の抽出に有用な証拠を見出す。 自動測定と人的評価は、強力な結果を示すだけでなく、オープンソースとプロプライエタリシステムのギャップも浮き彫りにする。

Automatic summarization of mass-emergency events plays a critical role in disaster management. The second edition of CrisisFACTS aims to advance disaster summarization based on multi-stream fact-finding with a focus on web sources such as Twitter, Reddit, Facebook, and Webnews. Here, participants are asked to develop systems that can extract key facts from several disaster-related events, which ultimately serve as a summary. This paper describes our method to tackle this challenging task. We follow previous work and propose to use a combination of retrieval, reranking, and an embarrassingly simple instruction-following summarization. The two-stage retrieval pipeline relies on BM25 and MonoT5, while the summarizer module is based on the open-source Large Language Model (LLM) LLaMA-13b. For summarization, we explore a Question Answering (QA)-motivated prompting approach and find the evidence useful for extracting query-relevant facts. The automatic metrics and human evaluation show strong results but also highlight the gap between open-source and proprietary systems.
翻訳日:2024-02-15 16:34:30 公開日:2024-02-14
# 完全テスト時間適応のためのプロトタイプ特徴付き勾配アライメント

Gradient Alignment with Prototype Feature for Fully Test-time Adaptation ( http://arxiv.org/abs/2402.09004v1 )

ライセンス: Link先を確認
Juhyeon Shin and Jonghyun Lee and Saehyung Lee and Minjun Park and Dongjun Lee and Uiwon Hwang and Sungroh Yoon(参考訳) テスト時間適応 (tta) の文脈において, 擬似ラベルからのエントロピー最小化損失から不適切な誘導を緩和する定式化器 (gradient alignment with prototype feature, gap) を提案する。 適応処理を正確に管理し、あるデータに対する変更が他のデータに対するモデルの性能に悪影響を及ぼさないようにするために、勾配アライメント損失を開発した。 負の影響のプロキシ尺度として、クラスのプロトタイプ機能を導入します。 モデルがラベルなしでテストデータにしかアクセスできないTTA制約の下でGAP正規化器を実現するために,分類器の重みベクトルでプロトタイプ特徴を近似し,バックプロパゲーションなしで勾配を計算した。 様々なデータセットにまたがるttaメソッドが大幅に改善され,その汎用性と有効性が証明される。

In context of Test-time Adaptation(TTA), we propose a regularizer, dubbed Gradient Alignment with Prototype feature (GAP), which alleviates the inappropriate guidance from entropy minimization loss from misclassified pseudo label. We developed a gradient alignment loss to precisely manage the adaptation process, ensuring that changes made for some data don't negatively impact the model's performance on other data. We introduce a prototype feature of a class as a proxy measure of the negative impact. To make GAP regularizer feasible under the TTA constraints, where model can only access test data without labels, we tailored its formula in two ways: approximating prototype features with weight vectors of the classifier, calculating gradient without back-propagation. We demonstrate GAP significantly improves TTA methods across various datasets, which proves its versatility and effectiveness.
翻訳日:2024-02-15 16:34:14 公開日:2024-02-14
# キラル相互作用による近接完全光子遮断

Chiral Interaction Induced Near-Perfect Photon Blockade ( http://arxiv.org/abs/2402.09000v1 )

ライセンス: Link先を確認
Zhi-Guang Lu, Ying Wu, Xin-You L\"u(参考訳) 散乱行列法に基づき, カイラル相互作用は導波路キャビティ量子電磁力学(qed)系においてほぼ完全な光子遮断(pb)を誘導できることを理論的に証明した。 このメカニズムは導波路内の多光子パス干渉に依存しており、解析パラメータレジームにより、$g^{(2)}(0)\approx0$ で明らかに示される。 システムに$N$キャビティを導入すると、ほぼ完全なPBに応じて$N$最適パラメータポイントが存在し、必要となるキラリティは$N$の増加とともに指数関数的に減少する。 共振駆動と特定のキラリティの条件下では、出力光はN$$(N\ge2$)のパリティにのみ依存し、コヒーレント状態と単光子状態はそれぞれ奇数と偶数を含む系の場合に対応する。 我々の研究は、システムのキラリティを利用して、ほぼ完璧なPB効果を達成するための代替手段を提供する。

Based on the scattering matrix method, we theoretically demonstrate that the chiral interaction can induce the almost perfect photon blockade (PB) in the waveguide-cavity quantum electrodynamics (QED) system. The mechanism relies on the multi-photon-paths interference within the waveguide, which is clearly shown by the analytical parameter regime for $g^{(2)}(0)\approx0$. When $N$ cavities are introduced into the system, there are $N$ optimal parameter points accordingly for the almost perfect PB, and the required chirality decreases exponentially with increasing $N$. Under the conditions of resonant driving and specific chirality, the output light only relies on the parity of $N$ ($N\ge2$), where the coherent state and single-photon state correspond to the case of system including the odd and even number of cavities, respectively. Our work offers an alternative route for achieving almost perfect PB effects by employing the chirality of system, with potential application in the on-chip single-photon source with integrability.
翻訳日:2024-02-15 16:33:56 公開日:2024-02-14
# 放射線治療データにおける命名規約標準化のためのフェデレーション深層学習の探索

Exploring Federated Deep Learning for Standardising Naming Conventions in Radiotherapy Data ( http://arxiv.org/abs/2402.08999v1 )

ライセンス: Link先を確認
Ali Haidar, Daniel Al Mouiee, Farhannah Aly, David Thwaites, Lois Holloway(参考訳) 放射線治療(rt)データにおける構造ボリューム名の標準化は、データマイニングと分析を可能にするために必要である。 このプロセスは時間とリソース集約であり、タスクを処理するための新しい自動化された効率的なアプローチの必要性を強調します。 いくつかの機械学習に基づく手法が提案され、命名法を標準化するために評価されている。 しかし、RT患者記録が複数のデータセンターに分散していると考える研究はない。 本稿では,現実の環境をエミュレートして標準化された命名法を提案する。 これは分散リアルタイムデータと連合学習(FL)を統合することで実現される。 RTデータをフェデレーション設定で標準化するために,マルチモーダル深層ニューラルネットワークを提案する。 深層学習モデル(表, 視覚, 容積)を学習するための構造から, 3種類の属性を抽出した。 複数のデータセンター、入力モダリティ、集約戦略を含む複数のシナリオでモデルをトレーニングするためにシミュレーション実験を行った。 フェデレーション設定の単一モダリティを持つモデルと、集中設定でトレーニングされたモデルとを比較した。 モデル性能を知るため, 保持サンプルのカテゴリー分類精度を算出した。 以上の結果から,このようなモデルのトレーニングにおいて,複数のモダリティを融合する必要性が強調された。 さらに、集中型設定で構築されたモデルと比較して精度を比較検討した。 これは標準化タスクを扱うためのFLの適合性を示している。 追加のアブレーション分析により、データセンターにおけるサンプルの総数とデータセンターの数は、トレーニングプロセスに大きく影響し、標準化モデルを構築する際に慎重に検討すべきであることが示された。

Standardising structure volume names in radiotherapy (RT) data is necessary to enable data mining and analyses, especially across multi-institutional centres. This process is time and resource intensive, which highlights the need for new automated and efficient approaches to handle the task. Several machine learning-based methods have been proposed and evaluated to standardise nomenclature. However, no studies have considered that RT patient records are distributed across multiple data centres. This paper introduces a method that emulates real-world environments to establish standardised nomenclature. This is achieved by integrating decentralised real-time data and federated learning (FL). A multimodal deep artificial neural network was proposed to standardise RT data in federated settings. Three types of possible attributes were extracted from the structures to train the deep learning models: tabular, visual, and volumetric. Simulated experiments were carried out to train the models across several scenarios including multiple data centres, input modalities, and aggregation strategies. The models were compared against models developed with single modalities in federated settings, in addition to models trained in centralised settings. Categorical classification accuracy was calculated on hold-out samples to inform the models performance. Our results highlight the need for fusing multiple modalities when training such models, with better performance reported with tabular-volumetric models. In addition, we report comparable accuracy compared to models built in centralised settings. This demonstrates the suitability of FL for handling the standardization task. Additional ablation analyses showed that the total number of samples in the data centres and the number of data centres highly affects the training process and should be carefully considered when building standardisation models.
翻訳日:2024-02-15 16:33:36 公開日:2024-02-14
# 線形混合確率的最短経路学習のための最短最適後悔

Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic Shortest Path ( http://arxiv.org/abs/2402.08998v1 )

ライセンス: Link先を確認
Qiwei Di, Jiafan He, Dongruo Zhou, Quanquan Gu(参考訳) 本研究では, エージェントが繰り返し確率環境と相互作用し, 累積コストを最小化しつつ, ある目標状態に到達しようとする線形混合遷移カーネルを用いて, 確率的短経路(SSP)問題を考察する。 既存の作業はしばしば、コスト関数の厳密な正の下位境界や、最適ポリシーに対する期待される長さの上限を仮定する。 本稿では,これらの制約的仮定を解消する新しいアルゴリズムを提案する。 本アルゴリズムは,高次モーメントから分散を再帰的に推定する細粒度分散認識信頼セットを用いた拡張値反復に基づく。 このアルゴリズムは$\tilde{\mathcal o}(db_*\sqrt{k})$ regretboundを実現し、ここで$d$は線形遷移核における特徴マッピングの次元、$b_*$は最適方針の累積コストの上限、$k$はエピソード数である。 我々の後悔の上界は、Min et al. (2022) における線形混合 SSP の下界$\Omega(dB_*\sqrt{K})$ と一致する。

We study the Stochastic Shortest Path (SSP) problem with a linear mixture transition kernel, where an agent repeatedly interacts with a stochastic environment and seeks to reach certain goal state while minimizing the cumulative cost. Existing works often assume a strictly positive lower bound of the cost function or an upper bound of the expected length for the optimal policy. In this paper, we propose a new algorithm to eliminate these restrictive assumptions. Our algorithm is based on extended value iteration with a fine-grained variance-aware confidence set, where the variance is estimated recursively from high-order moments. Our algorithm achieves an $\tilde{\mathcal O}(dB_*\sqrt{K})$ regret bound, where $d$ is the dimension of the feature mapping in the linear transition kernel, $B_*$ is the upper bound of the total cumulative cost for the optimal policy, and $K$ is the number of episodes. Our regret upper bound matches the $\Omega(dB_*\sqrt{K})$ lower bound of linear mixture SSPs in Min et al. (2022), which suggests that our algorithm is nearly minimax optimal.
翻訳日:2024-02-15 16:33:12 公開日:2024-02-14
# AgentLens: LLMベースの自律システムにおけるエージェント動作の視覚分析

AgentLens: Visual Analysis for Agent Behaviors in LLM-based Autonomous Systems ( http://arxiv.org/abs/2402.08995v1 )

ライセンス: Link先を確認
Jiaying Lu and Bo Pan and Jieyi Chen and Yingchaojie Feng and Jingyuan Hu and Yuchen Peng and Wei Chen(参考訳) 近年,大規模言語モデルに基づく自律システム(LLMAS)は,人間の社会の複雑な振る舞いをシミュレートする可能性が高くなっている。 主な課題の1つは、LLMASの動的事象進化を提示し分析することである。 本研究では, LLMAS内における詳細な状態とエージェントの挙動を可視化する手法を提案する。 本研究では,生のllmas実行イベントから動作構造を確立する一般的なパイプラインを提案し,行動要約アルゴリズムを用いて,構造全体の階層的要約を時系列的に構築し,エージェント動作間の因果関係をマイニングする原因トレース手法を提案する。 そこで我々は,LLMASの進化を説明するために階層的時間的可視化を利用する視覚解析システムであるAgentLensを開発し,エージェントの行動の詳細や原因を対話的に調査する支援を行う。 2つの利用シナリオとユーザスタディは、AgentLensの有効性とユーザビリティを示します。

Recently, Large Language Model based Autonomous system(LLMAS) has gained great popularity for its potential to simulate complicated behaviors of human societies. One of its main challenges is to present and analyze the dynamic events evolution of LLMAS. In this work, we present a visualization approach to explore detailed statuses and agents' behavior within LLMAS. We propose a general pipeline that establishes a behavior structure from raw LLMAS execution events, leverages a behavior summarization algorithm to construct a hierarchical summary of the entire structure in terms of time sequence, and a cause trace method to mine the causal relationship between agent behaviors. We then develop AgentLens, a visual analysis system that leverages a hierarchical temporal visualization for illustrating the evolution of LLMAS, and supports users to interactively investigate details and causes of agents' behaviors. Two usage scenarios and a user study demonstrate the effectiveness and usability of our AgentLens.
翻訳日:2024-02-15 16:32:45 公開日:2024-02-14
# CLIP-MUSED: CLIP-Guided Multi-Subject Visual Neural Information Semantic Decoding

CLIP-MUSED: CLIP-Guided Multi-Subject Visual Neural Information Semantic Decoding ( http://arxiv.org/abs/2402.08994v1 )

ライセンス: Link先を確認
Qiongyi Zhou, Changde Du, Shengpei Wang, Huiguang He(参考訳) 視覚神経情報のデコードに関する研究は、個人差による単一サブジェクトデコードモデルを複数の被験者に一般化する上での課題に直面している。 さらに、単一の主題からのデータの可用性の制限は、モデルのパフォーマンスに制約を与える。 先行したマルチサブジェクト復号法は大きな進歩を遂げているが,大域的神経応答特徴の抽出の難しさ,モデルパラメータと被験者数との線形スケーリング,異なる被験者の神経応答と様々な刺激との関係の不十分なキャラクタリゼーションなど,いくつかの制限が残っている。 これらの制限を克服するため、CLIP誘導型多目的視覚神経情報セマンティックデコーディング法(CLIP-MUSED)を提案する。 本手法は,グローバル・ニューラル表現を効果的にモデル化するトランスベース特徴抽出器からなる。 また、パラメータの線形増加なしに多目的データの集約を容易にする学習可能な主題固有のトークンも組み込まれている。 さらに,映像表現空間における視覚刺激の位相的関係に基づいてトークン表現学習を指導する表現類似性解析(rsa)を用いて,異なる刺激下での異なる被験者の神経反応の関係をフルに評価する。 最後に、トークン表現はマルチオブジェクトセマンティックデコーディングに使用される。 提案手法は, 2つのfmriデータセット上の既存マルチサブジェクト法において, 単一サブジェクト復号法を上回り, 最先端の性能を実現する。 可視化により,提案手法の有効性に関する知見が得られる。 コードはhttps://github.com/CLIP-MUSED/CLIP-MUSEDで入手できる。

The study of decoding visual neural information faces challenges in generalizing single-subject decoding models to multiple subjects, due to individual differences. Moreover, the limited availability of data from a single subject has a constraining impact on model performance. Although prior multi-subject decoding methods have made significant progress, they still suffer from several limitations, including difficulty in extracting global neural response features, linear scaling of model parameters with the number of subjects, and inadequate characterization of the relationship between neural responses of different subjects to various stimuli. To overcome these limitations, we propose a CLIP-guided Multi-sUbject visual neural information SEmantic Decoding (CLIP-MUSED) method. Our method consists of a Transformer-based feature extractor to effectively model global neural representations. It also incorporates learnable subject-specific tokens that facilitates the aggregation of multi-subject data without a linear increase of parameters. Additionally, we employ representational similarity analysis (RSA) to guide token representation learning based on the topological relationship of visual stimuli in the representation space of CLIP, enabling full characterization of the relationship between neural responses of different subjects under different stimuli. Finally, token representations are used for multi-subject semantic decoding. Our proposed method outperforms single-subject decoding methods and achieves state-of-the-art performance among the existing multi-subject methods on two fMRI datasets. Visualization results provide insights into the effectiveness of our proposed method. Code is available at https://github.com/CLIP-MUSED/CLIP-MUSED.
翻訳日:2024-02-15 16:32:29 公開日:2024-02-14
# 近点法による確率最適化におけるばらつき低減と低サンプル複雑度

Variance Reduction and Low Sample Complexity in Stochastic Optimization via Proximal Point Method ( http://arxiv.org/abs/2402.08992v1 )

ライセンス: Link先を確認
Jiaming Liang(参考訳) 本稿では,確率凸合成最適化問題を解くための確率的近位点法を提案する。 確率的最適化の確率的結果は通常、確率的勾配ノイズ(例えば準ゲージ分布)の制限的な仮定にかかっている。 本稿では,確率勾配の有界分散などの弱い条件のみを仮定し,提案手法の収束に関する高い確率保証を得るために,低サンプリングの複雑さを確立する。 さらに、この研究の注目すべき点は、近位部分問題を解くためのサブルーチンの開発である。

This paper proposes a stochastic proximal point method to solve a stochastic convex composite optimization problem. High probability results in stochastic optimization typically hinge on restrictive assumptions on the stochastic gradient noise, for example, sub-Gaussian distributions. Assuming only weak conditions such as bounded variance of the stochastic gradient, this paper establishes a low sample complexity to obtain a high probability guarantee on the convergence of the proposed method. Additionally, a notable aspect of this work is the development of a subroutine to solve the proximal subproblem, which also serves as a novel technique for variance reduction.
翻訳日:2024-02-15 16:32:01 公開日:2024-02-14
# 逆転破壊に対するロバストモデルに基づく強化学習に向けて

Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption ( http://arxiv.org/abs/2402.08991v1 )

ライセンス: Link先を確認
Chenlu Ye, Jiafan He, Quanquan Gu, Tong Zhang(参考訳) 本研究は,モデルベース強化学習(rl)における相反的破壊の課題に取り組み,相反性によって遷移ダイナミクスを崩壊させることができる。 汚損RLに関する既存の研究は、主にモデルのないRLの設定に焦点を当てており、ロバストな最小二乗回帰が値関数の推定にしばしば用いられる。 しかし、これらの手法はモデルベースRLに直接適用することはできない。 本稿では,モデルに基づくRLに着目し,最大推定(MLE)アプローチを用いて遷移モデルを学習する。 私たちの作品は、オンラインとオフラインの両方の設定を包含しています。 オンライン環境では、全変量(TV)に基づく情報比をMLEの不確実量として活用する、汚損楽観的なMLE(CR-OMLE)というアルゴリズムを導入する。 CR-OMLE が $\tilde{\mathcal{O}}(\sqrt{T} + C)$ の後悔を達成したことを証明します。 また、$C$に対する加法依存が最適であることを示す境界も低く証明する。 我々は、重み付け手法をオフライン設定に拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。 均一なカバレッジ条件下では、CR-PMLEは$\mathcal{O}(C/n)$によって悪化し、下界とほぼ一致する。 私たちの知る限りでは、これは証明可能な保証を備えた腐敗-ロバストモデルに基づくrlアルゴリズムに関する最初の作業です。

This study tackles the challenges of adversarial corruption in model-based reinforcement learning (RL), where the transition dynamics can be corrupted by an adversary. Existing studies on corruption-robust RL mostly focus on the setting of model-free RL, where robust least-square regression is often employed for value function estimation. However, these techniques cannot be directly applied to model-based RL. In this paper, we focus on model-based RL and take the maximum likelihood estimation (MLE) approach to learn transition model. Our work encompasses both online and offline settings. In the online setting, we introduce an algorithm called corruption-robust optimistic MLE (CR-OMLE), which leverages total-variation (TV)-based information ratios as uncertainty weights for MLE. We prove that CR-OMLE achieves a regret of $\tilde{\mathcal{O}}(\sqrt{T} + C)$, where $C$ denotes the cumulative corruption level after $T$ episodes. We also prove a lower bound to show that the additive dependence on $C$ is optimal. We extend our weighting technique to the offline setting, and propose an algorithm named corruption-robust pessimistic MLE (CR-PMLE). Under a uniform coverage condition, CR-PMLE exhibits suboptimality worsened by $\mathcal{O}(C/n)$, nearly matching the lower bound. To the best of our knowledge, this is the first work on corruption-robust model-based RL algorithms with provable guarantees.
翻訳日:2024-02-15 16:31:50 公開日:2024-02-14
# 有意義な前立腺癌の鑑別のための多変量経直腸超音波vudei分類法

Multi-modality transrectal ultrasound vudei classification for identification of clinically significant prostate cancer ( http://arxiv.org/abs/2402.08987v1 )

ライセンス: Link先を確認
Hong Wu, Juan Fu, Hongsheng Ye, Yuming Zhong, Xuebin Zhou, Jianhua Zhou, Yi Wang(参考訳) 前立腺癌は世界でも最も多い非皮膚癌である。 近年,多モード経直腸超音波(TRUS)が前立腺生検の指導に有効なツールになりつつある。 前立腺癌を効果的に同定することを目的として,多モードTRUSビデオから臨床上重要な前立腺癌(csPCa)を分類するための枠組みを提案する。 このフレームワークは2つの3d resnet-50モデルを使用して、bモード画像から特徴を抽出する。 2つのモダリティの特徴を集約するために適応型空間融合モジュールが導入された。 直交正規化損失はさらに特徴冗長性を軽減するために用いられる。 提案するフレームワークは,512本のTRUSビデオを含む社内データセットを用いて評価し,csPCaを曲線下面積(AUC)0.84で識別する上で良好な性能を発揮する。 さらに,提案フレームワークから生成された可視化されたクラスアクティベーションマッピング(cam)画像は,cspcaの局在化のための有用なガイダンスとなり,trus誘導標的生検が容易になる。 私たちのコードはhttps://github.com/2313595986/ProstateTRUSで公開されています。

Prostate cancer is the most common noncutaneous cancer in the world. Recently, multi-modality transrectal ultrasound (TRUS) has increasingly become an effective tool for the guidance of prostate biopsies. With the aim of effectively identifying prostate cancer, we propose a framework for the classification of clinically significant prostate cancer (csPCa) from multi-modality TRUS videos. The framework utilizes two 3D ResNet-50 models to extract features from B-mode images and shear wave elastography images, respectively. An adaptive spatial fusion module is introduced to aggregate two modalities' features. An orthogonal regularized loss is further used to mitigate feature redundancy. The proposed framework is evaluated on an in-house dataset containing 512 TRUS videos, and achieves favorable performance in identifying csPCa with an area under curve (AUC) of 0.84. Furthermore, the visualized class activation mapping (CAM) images generated from the proposed framework may provide valuable guidance for the localization of csPCa, thus facilitating the TRUS-guided targeted biopsy. Our code is publicly available at https://github.com/2313595986/ProstateTRUS.
翻訳日:2024-02-15 16:31:20 公開日:2024-02-14
# アプリケーション指向性能ベンチマークを用いた量子アルゴリズム探索

Quantum Algorithm Exploration using Application-Oriented Performance Benchmarks ( http://arxiv.org/abs/2402.08985v1 )

ライセンス: Link先を確認
Thomas Lubinski, Joshua J. Goings, Karl Mayer, Sonika Johri, Nithin Reddy, Aman Mehta, Niranjan Bhatia, Sonny Rappaport, Daniel Mills, Charles H. Baldwin, Luning Zhao, Aaron Barbosa, Smarak Maity, Pranav S. Mundada(参考訳) Application-Oriented BenchmarksのQED-Cスイートは、現実のアプリケーションに適用された量子コンピュータの性能特性を測定する機能を提供する。 ベンチマークプログラムは、さまざまな問題サイズと入力を網羅し、結果の品質、実行時間、消費される量子ゲートリソースに関連する重要なパフォーマンス指標をキャプチャする。 本稿では,より複雑なアプリケーションに対するベンチマーク手法の妥当性を広めるための課題について検討する。 まず,新しいスケーラブルなHHL線形方程式解法ベンチマークにおいて,様々なアルゴリズムパラメータによるランドスケープカバレッジを体系的に改善する手法を提案する。 第2に、QED-Cスイートに水素格子シミュレーションのVQE実装を加え、結果の品質と実行時コストのトレードオフを分析する手法を提案する。 量子ビット数が増加するにつれて精度は低下するが、実行時間がわずかに増加するだけである。 第3に,教師付き機械学習分類アプリケーションのユニークな特徴を,フレームワークの新たなクラスへの拡張性を評価するベンチマークとして検討する。 これを二分分類問題に適用すると、より大きなアンザッツ回路に必要な訓練時間の増加と、古典的オーバーヘッドが著しく増大した。 第4に、ベンチマークワークフローに最適化とエラー緩和を含める手法を追加することで、近似ゲート合成とゲートノイズの間の好ましいトレードオフを特定し、測定エラー緩和の利点と決定論的エラー緩和アルゴリズムの利点を観察し、その結果得られる時間オーバーヘッドの改善と対比することができる。 今後、アルゴリズムオプションの探索とパフォーマンスへの影響について、ベンチマークフレームワークがどのように役立つかを論じる。

The QED-C suite of Application-Oriented Benchmarks provides the ability to gauge performance characteristics of quantum computers as applied to real-world applications. Its benchmark programs sweep over a range of problem sizes and inputs, capturing key performance metrics related to the quality of results, total time of execution, and quantum gate resources consumed. In this manuscript, we investigate challenges in broadening the relevance of this benchmarking methodology to applications of greater complexity. First, we introduce a method for improving landscape coverage by varying algorithm parameters systematically, exemplifying this functionality in a new scalable HHL linear equation solver benchmark. Second, we add a VQE implementation of a Hydrogen Lattice simulation to the QED-C suite, and introduce a methodology for analyzing the result quality and run-time cost trade-off. We observe a decrease in accuracy with increased number of qubits, but only a mild increase in the execution time. Third, unique characteristics of a supervised machine-learning classification application are explored as a benchmark to gauge the extensibility of the framework to new classes of application. Applying this to a binary classification problem revealed the increase in training time required for larger anzatz circuits, and the significant classical overhead. Fourth, we add methods to include optimization and error mitigation in the benchmarking workflow which allows us to: identify a favourable trade off between approximate gate synthesis and gate noise; observe the benefits of measurement error mitigation and a form of deterministic error mitigation algorithm; and to contrast the improvement with the resulting time overhead. Looking ahead, we discuss how the benchmark framework can be instrumental in facilitating the exploration of algorithmic options and their impact on performance.
翻訳日:2024-02-15 16:31:01 公開日:2024-02-14
# safedecoding:safe-aware decodingによるジェイルブレイク攻撃に対する防御

SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding ( http://arxiv.org/abs/2402.08983v1 )

ライセンス: Link先を確認
Zhangchen Xu, Fengqing Jiang, Luyao Niu, Jinyuan Jia, Bill Yuchen Lin, Radha Poovendran(参考訳) 大規模言語モデル(LLM)がコード生成やチャットボット支援といった現実のアプリケーションに統合されるにつれて、安全性を含むLLMの振る舞いを人間の価値と整合させる取り組みが盛んに行われている。 ジェイルブレイク攻撃は、LLMから意図しない、安全でない行動を誘発することを目的としており、LLMの安全性を脅かしている。 本稿では, LLMの安全を意識した復号化戦略であるSafeDecodingを導入して, ユーザクエリに対する有用な無害な応答を生成することで, ジェイルブレイク攻撃に対するLLMの防御を目指す。 セーフデコーディングの考え方は,有害な内容を表すトークンの確率が有害な応答を示すトークンよりも高いにもかかわらず,下位順の確率でトークンをソートした後も,安全宣言者がトップトークンに現れるという観察に基づいている。 これにより、脱獄者を特定し、トークンの確率を増幅することで脱獄攻撃を軽減し、同時に脱獄攻撃の目的と一致したトークンシーケンスの確率を弱めることができる。 6つの最先端脱獄攻撃と4つのベンチマークデータセットを用いて、5つのllmを広範囲に実験した。 この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。 SafeDecodingは6つの防御方法より優れている。

As large language models (LLMs) become increasingly integrated into real-world applications such as code generation and chatbot assistance, extensive efforts have been made to align LLM behavior with human values, including safety. Jailbreak attacks, aiming to provoke unintended and unsafe behaviors from LLMs, remain a significant/leading LLM safety threat. In this paper, we aim to defend LLMs against jailbreak attacks by introducing SafeDecoding, a safety-aware decoding strategy for LLMs to generate helpful and harmless responses to user queries. Our insight in developing SafeDecoding is based on the observation that, even though probabilities of tokens representing harmful contents outweigh those representing harmless responses, safety disclaimers still appear among the top tokens after sorting tokens by probability in descending order. This allows us to mitigate jailbreak attacks by identifying safety disclaimers and amplifying their token probabilities, while simultaneously attenuating the probabilities of token sequences that are aligned with the objectives of jailbreak attacks. We perform extensive experiments on five LLMs using six state-of-the-art jailbreak attacks and four benchmark datasets. Our results show that SafeDecoding significantly reduces the attack success rate and harmfulness of jailbreak attacks without compromising the helpfulness of responses to benign user queries. SafeDecoding outperforms six defense methods.
翻訳日:2024-02-15 16:30:31 公開日:2024-02-14
# MEL:高次元特徴選択のための効率的なマルチタスク進化学習

MEL: Efficient Multi-Task Evolutionary Learning for High-Dimensional Feature Selection ( http://arxiv.org/abs/2402.08982v1 )

ライセンス: Link先を確認
Xubin Wang, Haojiong Shangguan, Fengyi Huang, Shangrui Wu and Weijia Jia(参考訳) 特徴の選択はデータマイニングにおいて重要なステップであり、データ次元を減らすことでモデルの性能を向上させる。 しかし、収集データの次元の増大は「次元の曲線」として知られる課題を悪化させ、計算量は次元の数とともに指数関数的に増加する。 この問題に対処するため、進化計算(EC)アプローチは、その単純さと適用性から人気を集めている。 残念ながら、ECメソッドの多様な設計は、様々なデータを扱う様々な能力をもたらし、しばしば情報を効果的に共有しない。 本稿では,マルチタスク学習を活用したpso-based multi-task evolutionary learning (mel) と呼ばれる新しいアプローチを提案する。 異なる特徴選択タスク間での情報共有を組み込むことで、MELは学習能力と効率を向上させる。 我々は、22個の高次元データセットに対する広範囲な実験により、MELの有効性を評価する。 本手法は,24のECアプローチと比較して,強い競争力を示す。 さらに、GitHubでコードをhttps://github.com/wangxb96/MELでオープンソース化しました。

Feature selection is a crucial step in data mining to enhance model performance by reducing data dimensionality. However, the increasing dimensionality of collected data exacerbates the challenge known as the "curse of dimensionality", where computation grows exponentially with the number of dimensions. To tackle this issue, evolutionary computational (EC) approaches have gained popularity due to their simplicity and applicability. Unfortunately, the diverse designs of EC methods result in varying abilities to handle different data, often underutilizing and not sharing information effectively. In this paper, we propose a novel approach called PSO-based Multi-task Evolutionary Learning (MEL) that leverages multi-task learning to address these challenges. By incorporating information sharing between different feature selection tasks, MEL achieves enhanced learning ability and efficiency. We evaluate the effectiveness of MEL through extensive experiments on 22 high-dimensional datasets. Comparing against 24 EC approaches, our method exhibits strong competitiveness. Additionally, we have open-sourced our code on GitHub at https://github.com/wangxb96/MEL.
翻訳日:2024-02-15 16:30:02 公開日:2024-02-14
# 絡み合った証明から分離可能な証明への変換の難しさについて

On the hardness of conversion from entangled proof into separable one ( http://arxiv.org/abs/2402.08981v1 )

ライセンス: Link先を確認
Seiseki Akibue, Go Kato, Seiichiro Tani(参考訳) 像が分離可能な状態の集合に近似する量子チャネルは、量子メルリンアーサーゲームと呼ばれる計算モデルの変種の研究において顕著な役割を果たし、分離可能性テストとnp完全問題のための古典的および量子的アルゴリズムにおいて潜在的に応用される。 これまでのところ、$\epsilon$-netsと量子デ・フィネッティの定理に基づいて構築された2種類の遠絡器が知られているが、どちらも指数関数的に大きな入力システムを必要とする。 さらに2008年、ジョン・ワトラス(John Watrous)は、任意の共形体は指数関数的に大きな入力系を必要とすると推測した。 本稿では,2つの既知のアンタングルを,一方の出力系と他方の出力系の複合系との絡み合いを概ね破壊する強いアンタングルの例とみなすことができることを示す。 なお、強ジエンタングルは基本的に略エンタングルメント破断チャンネルであり、元のジエンタングルは略エンタングルメント消滅チャネルであり、強ジエンタングルのセットは、ディエンタングルのサブセットである。 その結果, この部分集合に対して, 計算困難性を仮定せずに, 広い範囲の近似パラメータに対して, ディスタングル予想が真であることがわかった。

A quantum channel whose image approximates the set of separable states is called a disentangler, which plays a prominent role in the investigation of variants of the computational model called Quantum Merlin Arthur games, and has potential applications in classical and quantum algorithms for the separability testing and NP-complete problems. So far, two types of a disentangler, constructed based on $\epsilon$-nets and the quantum de Finetti theorem, have been known; however, both of them require an exponentially large input system. Moreover, in 2008, John Watrous conjectured that any disentangler requires an exponentially large input system, called the disentangler conjecture. In this paper, we show that both of the two known disentanglers can be regarded as examples of a strong disentangler, which is a disentangler approximately breaking entanglement between one output system and the composite system of another output system and the arbitrarily large environment. Note that the strong disentangler is essentially an approximately entanglement-breaking channel while the original disentangler is an approximately entanglement-annihilating channel, and the set of strong disentanglers is a subset of disentanglers. As a main result, we show that the disentangler conjecture is true for this subset, the set of strong disentanglers, for a wide range of approximation parameters without any computational hardness assumptions.
翻訳日:2024-02-15 16:29:47 公開日:2024-02-14
# OmniBOR: ソフトウェアサプライチェーン間で自動で検証可能なアーティファクト解決システム

OmniBOR: A System for Automatic, Verifiable Artifact Resolution across Software Supply Chains ( http://arxiv.org/abs/2402.08980v1 )

ライセンス: Link先を確認
Bharathi Seshadri, Yongkui Han, Chris Olson, David Pollak, Vojislav Tomasevic(参考訳) ソフトウェア製品を構築するプロセスで使用されるビルドプロセスやアーティファクトを利用するソフトウェアサプライチェーン攻撃は、ますます懸念されている。 これらの攻撃と戦うためには、ソフトウェア製品が依存するすべてのアーティファクトが脆弱性を含まないことをチェックする必要がある。 本稿では,OmniBOR(Universal Bill of Receipts)を紹介し,ビルドツールが構築したソフトウェア製品に組み込まれたすべてのソフトウェアアーティファクトを追跡可能なアーティファクト依存グラフを作成するための最小限のスキームを提案する。 我々は、OmniBORのアーキテクチャ、基礎となるデータ表現、およびOmniBORデータを生成し、OmniBOR識別子をコンパイラベースのアプローチとビルドプロセスのトレースに基づくソフトウェアに組み込む2つの実装について述べる。 CVE(Common Vulnerabilities and Exposures)検出やSBOM(Software Bill of Materials)計算などのアプリケーション用のLinuxディストリビューションを含むベンチマーク上で,このアプローチの有効性を示す。

Software supply chain attacks, which exploit the build process or artifacts used in the process of building a software product, are increasingly of concern. To combat these attacks, one must be able to check that every artifact that a software product depends on does not contain vulnerabilities. In this paper, we introduce OmniBOR, (Universal Bill of Receipts) a minimalistic scheme for build tools to create an artifact dependency graph which can be used to track every software artifact incorporated into a built software product. We present the architecture of OmniBOR, the underlying data representations, and two implementations that produce OmniBOR data and embed an OmniBOR Identifier into built software, including a compiler-based approach and one based on tracing the build process. We demonstrate the efficacy of this approach on benchmarks including a Linux distribution for applications such as Common Vulnerabilities and Exposures (CVE) detection and software bill of materials (SBOM) computation.
翻訳日:2024-02-15 16:29:18 公開日:2024-02-14
# リモートセンシング画像における固形廃棄物検出:調査

Solid Waste Detection in Remote Sensing Images: A Survey ( http://arxiv.org/abs/2402.09066v1 )

ライセンス: Link先を確認
Piero Fraternali, Luca Morandini and Sergio Luis Herrera Gonz\'alez(参考訳) 不法廃棄物処理場の検出と特性評価は, 環境保護, 特に汚染・健康被害の軽減に不可欠である。 不適切に管理された埋立地は、雨水浸透によって土壌と地下水を汚染し、動物と人間の両方に脅威を与える。 現場検査のような伝統的な埋立地識別アプローチは、時間と費用がかかる。 リモートセンシングは廃棄物処理現場の特定とモニタリングに費用対効果があり, 広範囲のカバレッジと繰り返しの取得を可能にする。 センサーと撮像能力を備えた地球観測衛星(eo)は、数十年間、高解像度のデータを提供してきた。 研究者らは、リモートセンシング画像を利用して廃棄物検出、投棄現場の監視、新しい埋立地に適した場所の評価など、様々なタスクを実行する技術を提案した。 本総説は, 廃棄物の検出とモニタリングに最も関連する提案を, アプローチ, 実装技術, 使用データなどについて記述, 比較し, 詳細に解説することを目的としたものである。 さらに, 有効固形廃棄物検出モデルの開発において, データソースが最重要であり, 衛星の概要と公開データセットについて概観する。 最後に, 現状の課題を明らかにするとともに, コスト削減と新しい固形廃棄物検出手法の有効性向上に向けた研究の方向性について述べる。

The detection and characterization of illegal solid waste disposal sites are essential for environmental protection, particularly for mitigating pollution and health hazards. Improperly managed landfills contaminate soil and groundwater via rainwater infiltration, posing threats to both animals and humans. Traditional landfill identification approaches, such as on-site inspections, are time-consuming and expensive. Remote sensing is a cost-effective solution for the identification and monitoring of solid waste disposal sites that enables broad coverage and repeated acquisitions over time. Earth Observation (EO) satellites, equipped with an array of sensors and imaging capabilities, have been providing high-resolution data for several decades. Researchers proposed specialized techniques that leverage remote sensing imagery to perform a range of tasks such as waste site detection, dumping site monitoring, and assessment of suitable locations for new landfills. This review aims to provide a detailed illustration of the most relevant proposals for the detection and monitoring of solid waste sites by describing and comparing the approaches, the implemented techniques, and the employed data. Furthermore, since the data sources are of the utmost importance for developing an effective solid waste detection model, a comprehensive overview of the satellites and publicly available data sets is presented. Finally, this paper identifies the open issues in the state-of-the-art and discusses the relevant research directions for reducing the costs and improving the effectiveness of novel solid waste detection methods.
翻訳日:2024-02-15 16:21:50 公開日:2024-02-14
# FGeo-TP:幾何問題のための言語モデル拡張ソルバー

FGeo-TP: A Language Model-Enhanced Solver for Geometry Problems ( http://arxiv.org/abs/2402.09047v1 )

ライセンス: Link先を確認
Yiming He, Jia Zou, Xiaokai Zhang, Na Zhu, Tuo Leng(参考訳) 幾何学的問題に対処する現代人工知能技術の応用と自動推論証明は、数学と人工知能の学際的な分野において常に大きな課題であった。 本論文は, フォーマルジオと呼ばれる幾何学的定式化システムを構築した, 一連の研究における第4の論文である。 さらに約7000の幾何学的問題を注釈付けし,FormalGeo7kデータセットを構築した。 FGPS (Formal Geometry Problem Solver) は、解釈可能な代数方程式の解法と人間的な推論を達成できるが、探索戦略の複雑さによるタイムアウトをしばしば経験する。 本稿では,言語モデルを用いて幾何学問題を解決するための定理列の予測を行うfgeo-tp (theorem predictor) を提案する。 bartやt5といった様々なトランスフォーマーアーキテクチャの有効性を定理予測で比較し、fgpsの探索過程におけるpruningを実装したことにより、幾何問題を解く際の性能が向上した。 その結果,FormalGeo7kデータセット上での言語モデル強化FGeo-TPの問題解決率は39.7%から80.86%に増加した。 さらに, FGeo-TPでは, 難易度が異なる問題に対して, 解法時間と探索ステップが顕著に減少している。

The application of contemporary artificial intelligence techniques to address geometric problems and automated deductive proof has always been a grand challenge to the interdiscipline field of mathematics and artificial Intelligence. This is the fourth article in a series of our works, in our previous work, we established of a geometric formalized system known as FormalGeo. Moreover we annotated approximately 7000 geometric problems, forming the FormalGeo7k dataset. Despite the FGPS (Formal Geometry Problem Solver) can achieve interpretable algebraic equation solving and human-like deductive reasoning, it often experiences timeouts due to the complexity of the search strategy. In this paper, we introduced FGeo-TP (Theorem Predictor), which utilizes the language model to predict theorem sequences for solving geometry problems. We compared the effectiveness of various Transformer architectures, such as BART or T5, in theorem prediction, implementing pruning in the search process of FGPS, thereby improving its performance in solving geometry problems. Our results demonstrate a significant increase in the problem-solving rate of the language model-enhanced FGeo-TP on the FormalGeo7k dataset, rising from 39.7% to 80.86%. Furthermore, FGeo-TP exhibits notable reductions in solving time and search steps across problems of varying difficulty levels.
翻訳日:2024-02-15 16:21:28 公開日:2024-02-14
# 推論と学習の統一的説明のための抽象化の推論

Inference of Abstraction for a Unified Account of Reasoning and Learning ( http://arxiv.org/abs/2402.09046v1 )

ライセンス: Link先を確認
Hiroyuki Kido(参考訳) 神経科学における脳機能に対するベイズ的アプローチに着想を得て、推論と学習の統一的な説明に対する確率的推論の単純な理論を与える。 形式論理におけるその満足度の観点から、データの象徴的知識のモデル化を行う。 基本的な考え方は、推論は抽象的、すなわち選択的無知を通じてデータから記号的知識を導出するプロセスである、ということである。 証明に基づく理論的正確性について、論理的帰結関係について論じる。 MNISTデータセットは実験に基づく経験的正確性のために議論されている。

Inspired by Bayesian approaches to brain function in neuroscience, we give a simple theory of probabilistic inference for a unified account of reasoning and learning. We simply model how data cause symbolic knowledge in terms of its satisfiability in formal logic. The underlying idea is that reasoning is a process of deriving symbolic knowledge from data via abstraction, i.e., selective ignorance. The logical consequence relation is discussed for its proof-based theoretical correctness. The MNIST dataset is discussed for its experiment-based empirical correctness.
翻訳日:2024-02-15 16:21:05 公開日:2024-02-14
# 操作では、いくつかのAIモデルは監査が難しいか?

Under manipulations, are some AI models harder to audit? ( http://arxiv.org/abs/2402.09043v1 )

ライセンス: Link先を確認
Augustin Godinot, Gilles Tredan, Erwan Le Merrer, Camilla Penzo, Francois Ta\"iani(参考訳) 監査者は、法律によるWebプラットフォームのコンプライアンスを評価するための堅牢な方法が必要である。 しかしながら、プラットフォームが使用するアルゴリズム、実装、トレーニングデータにアクセスできないため、問題は単純なメトリック推定よりも難しい。 本稿では,近年の操作保護監査の枠組みの中で,モデルが大きな能力を示す現実的な環境でのロバスト監査の実現可能性について検討する。 ウェブプラットフォームが任意のデータに適合するモデルを使用する場合、アクティブかどうかに関わらず、監査戦略は、人口統計学の同等性などの特性を推定した場合、ランダムサンプリングを上回ります。 最先端監査技術が競争力を維持し続ける条件をよりよく理解するために,Rademacher複雑性を用いて,監査の操作可能性と対象モデルのキャパシティを関連付ける。 そこで本研究では,実運用で広く用いられている大容量モデルが,特に堅牢な監査が難しいことを実験的に確認した。 これらの結果は監査問題の限界を洗練させ、モデルキャパシティとプラットフォームによる監査の試みの操作能力の関連性に関する疑問を提起する。

Auditors need robust methods to assess the compliance of web platforms with the law. However, since they hardly ever have access to the algorithm, implementation, or training data used by a platform, the problem is harder than a simple metric estimation. Within the recent framework of manipulation-proof auditing, we study in this paper the feasibility of robust audits in realistic settings, in which models exhibit large capacities. We first prove a constraining result: if a web platform uses models that may fit any data, no audit strategy -- whether active or not -- can outperform random sampling when estimating properties such as demographic parity. To better understand the conditions under which state-of-the-art auditing techniques may remain competitive, we then relate the manipulability of audits to the capacity of the targeted models, using the Rademacher complexity. We empirically validate these results on popular models of increasing capacities, thus confirming experimentally that large-capacity models, which are commonly used in practice, are particularly hard to audit robustly. These results refine the limits of the auditing problem, and open up enticing questions on the connection between model capacity and the ability of platforms to manipulate audit attempts.
翻訳日:2024-02-15 16:20:55 公開日:2024-02-14
# 視覚モダリティを欠いた視覚認識のためのテキスト・ツー・イメージモデルはマルチモーダル学習を支援するか?

Can Text-to-image Model Assist Multi-modal Learning for Visual Recognition with Visual Modality Missing? ( http://arxiv.org/abs/2402.09036v1 )

ライセンス: Link先を確認
Tiantian Feng and Daniel Yang and Digbalay Bose and Shrikanth Narayanan(参考訳) マルチモーダル学習は、メディアや教育、医療、交通など、さまざまな分野のイノベーションを推進し、視覚認識の道としてますます有望なものになりつつある。 その成功にもかかわらず、視覚認識のためのマルチモーダル学習の堅牢性は、モダリティのサブセット、特に視覚モダリティが利用できないためにしばしば挑戦される。 マルチモーダル学習における欠落モダリティを緩和するための従来のアプローチは、アルゴリズムとモダリティ融合スキームに大きく依存している。 対照的に,本稿では,マルチモーダル学習を支援するテキスト・ツー・イメージモデルについて検討する。 具体的には,データの欠落を生成トランスフォーマーで暗示することにより,データの効率と欠落する視覚モダリティに対するモデルロバスト性を高めるための,単純かつ効果的なマルチモーダル学習フレームワークgti-mmを提案する。 視覚認識タスクを含む複数のマルチモーダルデータセットを用いて,モデルトレーニングを含むデータにおける視覚モダリティの欠如を含む多様な条件の包括的解析を行う。 以上の結果から,合成画像はトレーニング中に欠落した視覚データのトレーニング効率が向上し,トレーニングやテストを含む視覚データの欠落によるモデルのロバスト性が向上することが明らかとなった。 さらに,gti-mmは少ない生成量と簡単なプロンプト技術に有効であることを示す。

Multi-modal learning has emerged as an increasingly promising avenue in vision recognition, driving innovations across diverse domains ranging from media and education to healthcare and transportation. Despite its success, the robustness of multi-modal learning for visual recognition is often challenged by the unavailability of a subset of modalities, especially the visual modality. Conventional approaches to mitigate missing modalities in multi-modal learning rely heavily on algorithms and modality fusion schemes. In contrast, this paper explores the use of text-to-image models to assist multi-modal learning. Specifically, we propose a simple but effective multi-modal learning framework GTI-MM to enhance the data efficiency and model robustness against missing visual modality by imputing the missing data with generative transformers. Using multiple multi-modal datasets with visual recognition tasks, we present a comprehensive analysis of diverse conditions involving missing visual modality in data, including model training. Our findings reveal that synthetic images benefit training data efficiency with visual data missing in training and improve model robustness with visual data missing involving training and testing. Moreover, we demonstrate GTI-MM is effective with lower generation quantity and simple prompt techniques.
翻訳日:2024-02-15 16:20:35 公開日:2024-02-14
# データ制約下での正方形シグミドタンH(SST)活性化による逐次モデルの性能向上

Enhancing Sequential Model Performance with Squared Sigmoid TanH (SST) Activation Under Data Constraints ( http://arxiv.org/abs/2402.09034v1 )

ライセンス: Link先を確認
Barathi Subramanian, Rathinaraja Jeyaraj, Rakhmonov Akhrorjon Akhmadjon Ugli, and Jeonghong Kim(参考訳) 活性化関数により、ニューラルネットワークは非線形を導入することで複雑な表現を学ぶことができる。 feedforwardモデルは一般に整流線形単位を使用するが、リカレントニューラルネットワーク、long short-term memory(lstms)、gated recurrent unit(grus)といったシーケンシャルモデルはまだsgmoidおよびtanhアクティベーション関数に依存している。 しかしながら、これらの古典的なアクティベーション関数は、時間依存を効果的に捉えるために、小さなシーケンシャルデータセットでトレーニングされた場合、スパースパターンのモデル化に苦労することが多い。 この制限に対処するため、データ制約下での逐次モデルの学習能力を高めるために特別に調整された2乗シグモイドタンH(SST)アクティベーションを提案する。 SSTは、信号が時間とともに伝播し、勾配流と情報フィルタリングの改善を促進するため、強い活性化と弱い活性化の差を増幅するために数学的に近似する。 我々は,手話認識,回帰,時系列分類タスクなど,SSTを利用したLSTMとGRUを多種多様な用途で評価する。 実験の結果,SSTモデルはベースラインアクティベーションにより連続的にRNNモデルを上回る性能を示し,精度が向上した。

Activation functions enable neural networks to learn complex representations by introducing non-linearities. While feedforward models commonly use rectified linear units, sequential models like recurrent neural networks, long short-term memory (LSTMs) and gated recurrent units (GRUs) still rely on Sigmoid and TanH activation functions. However, these classical activation functions often struggle to model sparse patterns when trained on small sequential datasets to effectively capture temporal dependencies. To address this limitation, we propose squared Sigmoid TanH (SST) activation specifically tailored to enhance the learning capability of sequential models under data constraints. SST applies mathematical squaring to amplify differences between strong and weak activations as signals propagate over time, facilitating improved gradient flow and information filtering. We evaluate SST-powered LSTMs and GRUs for diverse applications, such as sign language recognition, regression, and time-series classification tasks, where the dataset is limited. Our experiments demonstrate that SST models consistently outperform RNN-based models with baseline activations, exhibiting improved test accuracy.
翻訳日:2024-02-15 16:20:15 公開日:2024-02-14
# 機械学習を用いたデジタルプラットフォームにおける時間横断予測再調整

Cross-Temporal Forecast Reconciliation at Digital Platforms with Machine Learning ( http://arxiv.org/abs/2402.09033v1 )

ライセンス: Link先を確認
Jeroen Rombouts and Marie Ternes and Ines Wilms(参考訳) プラットフォームビジネスはデジタルコア上で動作し、意思決定には、断面(例えば、地理的領域)と時間集約(例えば、数分から数日)の異なるレベルでの正確な予測ストリームが必要である。 また、価格、製品、制御、戦略など、さまざまな計画単位にわたる一致した意思決定を保証するために、階層の全レベルにわたる一貫性のある予測が必要となる。 プラットフォームデータストリームが複雑な特徴と相互依存を特徴とすることを考慮し,一般的な機械学習手法を用いて,時間的相互整合予測を直接的かつ自動的に生成する非線形階層的予測整合手法を提案する。 この手法は、プラットフォームに必要な予測ベースの高周波決定を可能にするのに十分高速である。 ヨーロッパの主要なオンデマンドデリバリプラットフォームから,ユニークな大規模ストリーミングデータセット上で,当社のフレームワークを実証的にテストしています。

Platform businesses operate on a digital core and their decision making requires high-dimensional accurate forecast streams at different levels of cross-sectional (e.g., geographical regions) and temporal aggregation (e.g., minutes to days). It also necessitates coherent forecasts across all levels of the hierarchy to ensure aligned decision making across different planning units such as pricing, product, controlling and strategy. Given that platform data streams feature complex characteristics and interdependencies, we introduce a non-linear hierarchical forecast reconciliation method that produces cross-temporal reconciled forecasts in a direct and automated way through the use of popular machine learning methods. The method is sufficiently fast to allow forecast-based high-frequency decision making that platforms require. We empirically test our framework on a unique, large-scale streaming dataset from a leading on-demand delivery platform in Europe.
翻訳日:2024-02-15 16:19:49 公開日:2024-02-14
# 量子多体系における量子フィッシャー情報に対するランダム行列理論のアプローチ

Random Matrix Theory Approach to Quantum Fisher Information in Quantum Many-Body Systems ( http://arxiv.org/abs/2402.09029v1 )

ライセンス: Link先を確認
Venelin P. Pavlov, Yoana R. Chorbadzhiyska, Charlie Nation, Diego Porras, and Peter A. Ivanov(参考訳) 量子カオス系におけるパラメータ量子推定を理論的に検討する。 この解析は、ランダム行列ハミルトニアンの観点からの非可積分量子システムの効果的な記述に基づいている。 このアプローチに基づいて,量子フィッシャー情報の時間発展に関する解析式を導出する。 非可積分スピン系の正確な対角化を用いてランダム行列理論の予測をテストし、多体状態の測定による局所磁場の推定に焦点を当てた。 我々の数値計算は、有効確率行列理論のアプローチと一致し、局所ハミルトニアンパラメータの情報は量子熱化過程中に量子系全体に分布することを示した。 解析の結果,初期情報が二次的に拡散する第1段階では,測定スピンの減衰速度によって傾きが決定され,直線的に増加する。 情報が全ての自由度に完全に広がるとき、第2の二次時間スケールは量子フィッシャー情報の長時間の挙動を決定する。

We theoretically investigate parameter quantum estimation in quantum chaotic systems. Our analysis is based on an effective description of non-integrable quantum systems in terms of a random matrix Hamiltonian. Based on this approach we derive an analytical expression for the time evolution of the quantum Fisher information. We test our random matrix theory prediction with the exact diagonalization of a non-integrable spin system, focusing on the estimation of a local magnetic field by measurements of the many-body state. Our numerical calculations agree with the effective random matrix theory approach and show that the information on the local Hamiltonian parameter is distributed throughout the quantum system during the quantum thermalization process. Our analysis shows a first stage in which the initial information spread is quadratic in time which quickly passes into linear increase with slope determine by the decay rate of the measured spin observable. When the information is fully spread among all degrees of freedom a second quadratic time scale determines the long time behaviour of the quantum Fisher information.
翻訳日:2024-02-15 16:19:36 公開日:2024-02-14
# 大規模縦型ウェアラブル記録を用いた医療従事者のストレス・バーンアウト・行動パターンの把握

Understanding Stress, Burnout, and Behavioral Patterns in Medical Residents Using Large-scale Longitudinal Wearable Recordings ( http://arxiv.org/abs/2402.09028v1 )

ライセンス: Link先を確認
Tiantian Feng and Shrikanth Narayanan(参考訳) 医学的居住訓練は、しばしば身体的に強烈で感情的に要求されるタスクと関連付けられ、複雑な臨床ケアを提供する労働時間を延ばさなければならない。 したがって、居住者はストレスや不安などネガティブな心理的影響を受けやすいため、幸福感が低下し、望ましいトレーニング結果を達成することができる。 住民の日々の行動パターンを理解することで、研究者は居住訓練におけるストレスの原因を特定し、居住プログラムを改善するユニークな機会を提供することができる。 本研究では,3週間の回転で収集した縦型ウェアラブル記録を用いて,各段階の医療従事者43人の職場行動パターンを調査した。 具体的には, 避難パターン, コンピュータアクセス, 住民のメンターとの交流について検討した。 分析の結果, 歩行行動パターンやコンピュータの利用状況は, プログラムの年齢によって異なることがわかった。 さらに, 指導医との相互作用パターンはストレス, バーンアウト, および仕事満足度を示す。

Medical residency training is often associated with physically intense and emotionally demanding tasks, requiring them to engage in extended working hours providing complex clinical care. Residents are hence susceptible to negative psychological effects, including stress and anxiety, that can lead to decreased well-being, affecting them achieving desired training outcomes. Understanding the daily behavioral patterns of residents can guide the researchers to identify the source of stress in residency training, offering unique opportunities to improve residency programs. In this study, we investigate the workplace behavioral patterns of 43 medical residents across different stages of their training, using longitudinal wearable recordings collected over a 3-week rotation. Specifically, we explore their ambulatory patterns, the computer access, and the interactions with mentors of residents. Our analysis reveals that residents showed distinct working behaviors in walking movement patterns and computer usage compared to different years in the program. Moreover, we identify that interaction patterns with mentoring doctors indicate stress, burnout, and job satisfaction.
翻訳日:2024-02-15 16:19:22 公開日:2024-02-14
# SLEB: 冗長性検証によるLLMのストリーム化と変圧器ブロックの除去

SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks ( http://arxiv.org/abs/2402.09025v1 )

ライセンス: Link先を確認
Jiwon Song, Kyungseok Oh, Taesu Kim, Hyungjun Kim, Yulhwa Kim, Jae-Joon Kim(参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて非常に効果的であることが証明されている。 しかし、それらの多数のパラメータは、実践的なデプロイメントに重大な課題をもたらす。 LLMのサイズと複雑さを減らすことを目的とした技術であるPruningは、ネットワークから冗長なコンポーネントを取り除くことで潜在的なソリューションを提供する。 プルーニングの約束にもかかわらず、既存の手法は、かなりエンドツーエンドのLSM推論スピードアップを達成するのに苦労することが多い。 本稿では、冗長なトランスブロックを排除し、LCMを合理化するための新しいアプローチであるSLEBを紹介する。 llmは隣接するブロックの出力間で高い類似性を持つブロックレベルの冗長性を示すため、プルーニングの基本単位としてトランスフォーマーブロックを選択する。 この選択により、LLMの処理速度を効果的に向上できる。 実験の結果,SLEBはこれらのモデルの言語能力を損なうことなくLLM推論を高速化し,LLMの効率を最適化するための有望な手法であることがわかった。 コードは、https://github.com/leapingjagg-dev/SLEBで入手できる。

Large language models (LLMs) have proven to be highly effective across various natural language processing tasks. However, their large number of parameters poses significant challenges for practical deployment. Pruning, a technique aimed at reducing the size and complexity of LLMs, offers a potential solution by removing redundant components from the network. Despite the promise of pruning, existing methods often struggle to achieve substantial end-to-end LLM inference speedup. In this paper, we introduce SLEB, a novel approach designed to streamline LLMs by eliminating redundant transformer blocks. We choose the transformer block as the fundamental unit for pruning, because LLMs exhibit block-level redundancy with high similarity between the outputs of neighboring blocks. This choice allows us to effectively enhance the processing speed of LLMs. Our experimental results demonstrate that SLEB successfully accelerates LLM inference without compromising the linguistic capabilities of these models, making it a promising technique for optimizing the efficiency of LLMs. The code is available at: https://github.com/leapingjagg-dev/SLEB
翻訳日:2024-02-15 16:19:03 公開日:2024-02-14
# Recommender システムにおけるモデル非依存型プロファイル注入攻撃の見直し

Review-Incorporated Model-Agnostic Profile Injection Attacks on Recommender Systems ( http://arxiv.org/abs/2402.09023v1 )

ライセンス: Link先を確認
Shiyi Yang, Lina Yao, Chen Wang, Xiwei Xu, Liming Zhu(参考訳) 近年の研究では、レコメンダシステム(rss)がデータ中毒攻撃に対して非常に脆弱であることが示されている。 攻撃戦術を理解することはrssの堅牢性を改善するのに役立つ。 我々は、限られた資源を用いて高品質な偽ユーザープロファイルを生成する効率的な攻撃方法を開発するつもりである。 1)ブラックボックスRS間の転写性 2)検出器間の非感受性 これらの目標を達成するために,プロファイラの生成品質を高めるために,製品のテキストレビューを導入する。 具体的には、R-Trojanと呼ばれる新しい攻撃フレームワークを提案し、最適化問題として攻撃目標を定式化し、高品質な攻撃プロファイルを生成できるように、カスタマイズされたトランスフォーマーベースの生成逆ネットワーク(GAN)を採用する。 実世界のデータセットに関する総合的な実験により、R-Trojanはブラックボックス設定下で、さまざまな犠牲者RSに対する最先端の攻撃方法を大幅に上回り、その好ましくないことを示す。

Recent studies have shown that recommender systems (RSs) are highly vulnerable to data poisoning attacks. Understanding attack tactics helps improve the robustness of RSs. We intend to develop efficient attack methods that use limited resources to generate high-quality fake user profiles to achieve 1) transferability among black-box RSs 2) and imperceptibility among detectors. In order to achieve these goals, we introduce textual reviews of products to enhance the generation quality of the profiles. Specifically, we propose a novel attack framework named R-Trojan, which formulates the attack objectives as an optimization problem and adopts a tailored transformer-based generative adversarial network (GAN) to solve it so that high-quality attack profiles can be produced. Comprehensive experiments on real-world datasets demonstrate that R-Trojan greatly outperforms state-of-the-art attack methods on various victim RSs under black-box settings and show its good imperceptibility.
翻訳日:2024-02-15 16:18:43 公開日:2024-02-14
# メソッド生成タスクにおけるAIベースのコードアシスタントの評価

Assessing AI-Based Code Assistants in Method Generation Tasks ( http://arxiv.org/abs/2402.09022v1 )

ライセンス: Link先を確認
Vincenzo Corso, Leonardo Mariani, Daniela Micucci and Oliviero Riganelli(参考訳) AIベースのコードアシスタントは、生産性を高め、コード品質を改善する手段として、ますます人気が高まっている。 今回の研究では、メソッド生成タスクにおいて、GitHub Copilot、Tabnine、ChatGPT、Google Bardの4つのAIベースのコードアシスタントを比較し、正確で正確で効率的なコードを生成する能力を評価する。 その結果、コードアシスタントは相補的な機能を持つが、適切なコードを生成することは滅多にない。

AI-based code assistants are increasingly popular as a means to enhance productivity and improve code quality. This study compares four AI-based code assistants, GitHub Copilot, Tabnine, ChatGPT, and Google Bard, in method generation tasks, assessing their ability to produce accurate, correct, and efficient code. Results show that code assistants are useful, with complementary capabilities, although they rarely generate ready-to-use correct code.
翻訳日:2024-02-15 16:18:26 公開日:2024-02-14
# ニューラル演算子とエネルギー理論:ハミルトンおよび散逸PDEのための演算子学習

Neural Operators Meet Energy-based Theory: Operator Learning for Hamiltonian and Dissipative PDEs ( http://arxiv.org/abs/2402.09018v1 )

ライセンス: Link先を確認
Yusuke Tanaka, Takaharu Yaguchi, Tomoharu Iwata, Naonori Ueda(参考訳) 近年,関数空間間の写像の学習を目的として,演算子学習が注目されている。 従来の研究では、そのようなマッピングを学習するためのディープニューラルネットワーク(DNN)を提案しており、偏微分方程式(PDE)の解演算子を学習することができる。 しかし、これらの作品はまだ物理学の法則に従う力学を学ぶのに苦労している。 本稿では,PDEの解演算子を学習するための一般フレームワークであるEno(Energy-Consistent Neural Operators)を提案する。 本稿では,エネルギー関数が他のdnnによってモデル化され,dnnベースの解演算子の出力を偏らせ,明示的なpdesを使わずにエネルギー的一貫性を確保できる,エネルギーに基づく物理理論に着想を得た新しいペナルティ関数を提案する。 複数の物理システムの実験により、ENOは既存のDNNモデルよりも優れており、特に超解像度設定において、データからソリューションを予測する。

The operator learning has received significant attention in recent years, with the aim of learning a mapping between function spaces. Prior works have proposed deep neural networks (DNNs) for learning such a mapping, enabling the learning of solution operators of partial differential equations (PDEs). However, these works still struggle to learn dynamics that obeys the laws of physics. This paper proposes Energy-consistent Neural Operators (ENOs), a general framework for learning solution operators of PDEs that follows the energy conservation or dissipation law from observed solution trajectories. We introduce a novel penalty function inspired by the energy-based theory of physics for training, in which the energy functional is modeled by another DNN, allowing one to bias the outputs of the DNN-based solution operators to ensure energetic consistency without explicit PDEs. Experiments on multiple physical systems show that ENO outperforms existing DNN models in predicting solutions from data, especially in super-resolution settings.
翻訳日:2024-02-15 16:18:17 公開日:2024-02-14
# 医用画像登録のためのピラミッド注意ネットワーク

Pyramid Attention Network for Medical Image Registration ( http://arxiv.org/abs/2402.09016v1 )

ライセンス: Link先を確認
Zhuoyuan Wang, Haiqiao Wang, Yi Wang(参考訳) The advent of deep-learning-based registration networks has addressed the time-consuming challenge in traditional iterative methods.However, the potential of current registration networks for comprehensively capturing spatial relationships has not been fully explored, leading to inadequate performance in large-deformation image registration.The pure convolutional neural networks (CNNs) neglect feature enhancement, while current Transformer-based networks are susceptible to information redundancy.To alleviate these issues, we propose a pyramid attention network (PAN) for deformable medical image registration.Specifically, the proposed PAN incorporates a dual-stream pyramid encoder with channel-wise attention to boost the feature representation.Moreover, a multi-head local attention Transformer is introduced as decoder to analyze motion patterns and generate deformation fields.Extensive experiments on two public brain magnetic resonance imaging (MRI) datasets and one abdominal MRI dataset demonstrate that our method achieves favorable registration performance, while outperforming several CNN-based and Transformer-based registration networks.Our code is publicly available at https://github.com/JuliusWang-7/PAN.

The advent of deep-learning-based registration networks has addressed the time-consuming challenge in traditional iterative methods.However, the potential of current registration networks for comprehensively capturing spatial relationships has not been fully explored, leading to inadequate performance in large-deformation image registration.The pure convolutional neural networks (CNNs) neglect feature enhancement, while current Transformer-based networks are susceptible to information redundancy.To alleviate these issues, we propose a pyramid attention network (PAN) for deformable medical image registration.Specifically, the proposed PAN incorporates a dual-stream pyramid encoder with channel-wise attention to boost the feature representation.Moreover, a multi-head local attention Transformer is introduced as decoder to analyze motion patterns and generate deformation fields.Extensive experiments on two public brain magnetic resonance imaging (MRI) datasets and one abdominal MRI dataset demonstrate that our method achieves favorable registration performance, while outperforming several CNN-based and Transformer-based registration networks.Our code is publicly available at https://github.com/JuliusWang-7/PAN.
翻訳日:2024-02-15 16:17:59 公開日:2024-02-14
# ヒューマンエージェントのアライメント向上に向けて: LLMアプリケーションにおけるタスクユーティリティの評価

Towards better Human-Agent Alignment: Assessing Task Utility in LLM-Powered Applications ( http://arxiv.org/abs/2402.09015v1 )

ライセンス: Link先を確認
Negar Arabzadeh and Julia Kiseleva and Qingyun Wu and Chi Wang and Ahmed Awadallah and Victor Dibia and Adam Fourney and Charles Clarke(参考訳) 大規模言語モデル(llm)の分野における急速な発展は、人間の日常業務を支援する複数のエージェント間のコラボレーションを促進するアプリケーションの増加につながった。 しかし、LCMを利用したアプリケーションが実際にユーザエクスペリエンスとタスク実行効率を向上させるかどうかを評価する上で、大きなギャップが残っている。 このことは、特にアプリケーションの機能とエンドユーザのニーズの整合性を確保することによって、LLMベースのアプリケーションの有用性を検証する方法の必要性を強調している。 agentevalは、特定のアプリケーションのユニークな目的に合わせた一連の基準を自動的に提案することにより、ユーティリティ検証プロセスを単純化するために設計された、新しいフレームワークである。 これにより、提案された基準に対してアプリケーションの実用性を定量化する包括的な評価が可能になる。 本稿では,量子化器の研究のロバスト性に関する包括的分析を行う。

The rapid development in the field of Large Language Models (LLMs) has led to a surge in applications that facilitate collaboration among multiple agents to assist humans in their daily tasks. However, a significant gap remains in assessing whether LLM-powered applications genuinely enhance user experience and task execution efficiency. This highlights the pressing need for methods to verify utility of LLM-powered applications, particularly by ensuring alignment between the application's functionality and end-user needs. We introduce AgentEval provides an implementation for the math problems}, a novel framework designed to simplify the utility verification process by automatically proposing a set of criteria tailored to the unique purpose of any given application. This allows for a comprehensive assessment, quantifying the utility of an application against the suggested criteria. We present a comprehensive analysis of the robustness of quantifier's work.
翻訳日:2024-02-15 16:17:47 公開日:2024-02-14
# 二次報酬を用いた強化学習における定常誤差補償

Steady-State Error Compensation for Reinforcement Learning with Quadratic Rewards ( http://arxiv.org/abs/2402.09075v1 )

ライセンス: Link先を確認
Liyao Wang, Zishun Zheng and Yuan Lin(参考訳) 強化学習(rl)における報酬関数の選択は,そのシステム性能への影響から,大きな注目を集めている。 定常誤差の問題はしばしば二次報酬関数が用いられるときに現れる。 絶対値型報酬関数を用いた既存の解は部分的にこの問題に対処するが、特定の系の状態にかなりの変動を引き起こす傾向にあり、突然の変化をもたらす。 この課題に対して,本研究では,積分項を導入するアプローチを提案する。 この項を二次型報酬関数に統合することにより、RLアルゴリズムは順応的に調整され、システムの長期報酬を考慮した結果、定常状態誤差に関する懸念が軽減される。 適応クルーズ制御(ACC)モデルと車線変更モデルを用いた実験および性能評価により,提案手法が定常誤差を効果的に低減するだけでなく,システム状態のスムーズな変化をもたらすことを検証した。

The selection of a reward function in Reinforcement Learning (RL) has garnered significant attention because of its impact on system performance. Issues of steady-state error often manifest when quadratic reward functions are employed. Although existing solutions using absolute-value-type reward functions partially address this problem, they tend to induce substantial fluctuations in specific system states, leading to abrupt changes. In response to this challenge, this study proposes an approach that introduces an integral term. By integrating this term into quadratic-type reward functions, the RL algorithm is adeptly tuned, augmenting the system's consideration of long-term rewards and, consequently, alleviating concerns related to steady-state errors. Through experiments and performance evaluations on the Adaptive Cruise Control (ACC) model and lane change models, we validate that the proposed method not only effectively diminishes steady-state errors but also results in smoother variations in system states.
翻訳日:2024-02-15 16:09:49 公開日:2024-02-14
# 量子摩擦における安定-不安定遷移

Stable-to-unstable transition in quantum friction ( http://arxiv.org/abs/2402.09074v1 )

ライセンス: Link先を確認
Daigo Oue, J. B. Pendry, M\'ario G. Silveirinha(参考訳) 2枚の散逸金属板をせん断運動に設定したときの量子揺らぎに起因する摩擦力について検討する。 初期の研究では、量子摩擦状態における電磁場は非平衡定常状態に達し、時間に依存しない力をもたらすことが示されているが、他の研究は定常状態に達するのに失敗し、十分低い損失条件下で不安定で時間不安定な摩擦を引き起こすことを示した。 ここで,摂動近似を伴わない完全量子力学理論を開発し,安定状態から不安定状態への移行を明らかにする。 プレートの相対的な運動により、電磁応答はいくつかの条件で活発になり、光学的な利得をもたらす。 本システムに適用した場合, 標準の揺らぎ散逸は矛盾する結果をもたらすことが証明され, 特に摩擦力の消失を予測できる。 ゲインメディア用に調整されたゆらぎ散逸関係を用いて, システムグリーン関数を用いて摩擦力を計算し, 量子摩擦の初期過程を復元する。 また, プレートの相対速度がしきい値に近づくにつれて, 摩擦力は無限大に分岐することがわかった。 この閾値は、金属表面間の減衰強度と距離によって決定される。 この臨界速度を超えて、この系は定常状態が存在しないレーザーキャビティの挙動に似た不安定性を示す。 このようなシナリオでは、摩擦力は指数関数的に増大する。 本研究は, この臨界状態に近い摩擦力の実験的探査の道を開くものである。

We investigate the frictional force arising from quantum fluctuations when two dissipative metallic plates are set in a shear motion. While early studies showed that the electromagnetic fields in the quantum friction setup reach nonequilibrium steady states, yielding a time-independent force, other works have demonstrated the failure to attain steady states, leading to instability and time-varying friction under sufficiently low-loss conditions. Here, we develop a fully quantum-mechanical theory without perturbative approximations and unveil the transition from stable to unstable regimes of the quantum friction setup. Due to the relative motion of the plates, their electromagnetic response may be active in some conditions, resulting in optical gain. We prove that the standard fluctuation-dissipation leads to inconsistent results when applied to our system, and, in particular, it predicts a vanishing frictional force. Using a modified fluctuation-dissipation relation tailored for gain media, we calculate the frictional force in terms of the system Green's function, thereby recovering early works on quantum friction. Remarkably, we also find that the frictional force diverges to infinity as the relative velocity of the plates approaches a threshold. This threshold is determined by the damping strength and the distance between the metal surfaces. Beyond this critical velocity, the system exhibits instability, akin to the behaviour of a laser cavity, where no steady state exists. In such a scenario, the frictional force escalates exponentially. Our findings pave the way for experimental exploration of the frictional force in proximity to this critical regime.
翻訳日:2024-02-15 16:09:35 公開日:2024-02-14
# アフィン変換推定は視覚自己教師あり学習を改善する

Affine transformation estimation improves visual self-supervised learning ( http://arxiv.org/abs/2402.09071v1 )

ライセンス: Link先を確認
David Torpey and Richard Klein(参考訳) 現代の自己教師付き学習への標準的なアプローチは、データ拡張を通じてランダムなビューを生成し、これらのビューの表現から計算された損失を最小限に抑えることである。 これは本質的に、データ拡張関数を構成する変換に対する不変性を促進する。 本研究では,アフィン変換の予測に制約を与えるモジュールを追加することで,学習プロセスの性能と効率が向上することを示す。 このモジュールはベースとなる自己教師付きモデルと無関係であり、エンコーダ表現の集約が入力画像に適用されるアフィン変換の予測となるように促される追加の損失項の形で表される。 我々は、様々な近代的な自己監督モデルで実験を行い、全てのケースで性能改善を見る。 さらに,アフィン変換の構成要素についてアブレーション研究を行い,そのどれがパフォーマンスに最も影響を与えているか,および重要な設計上の決定について理解する。

The standard approach to modern self-supervised learning is to generate random views through data augmentations and minimise a loss computed from the representations of these views. This inherently encourages invariance to the transformations that comprise the data augmentation function. In this work, we show that adding a module to constrain the representations to be predictive of an affine transformation improves the performance and efficiency of the learning process. The module is agnostic to the base self-supervised model and manifests in the form of an additional loss term that encourages an aggregation of the encoder representations to be predictive of an affine transformation applied to the input images. We perform experiments in various modern self-supervised models and see a performance improvement in all cases. Further, we perform an ablation study on the components of the affine transformation to understand which of them is affecting performance the most, as well as on key architectural design decisions.
翻訳日:2024-02-15 16:09:09 公開日:2024-02-14
# 量子アニールを用いた格子タンパク質の設計

Using quantum annealing to design lattice proteins ( http://arxiv.org/abs/2402.09069v1 )

ライセンス: Link先を確認
Anders Irb\"ack, Lucas Knuthson, Sandipan Mohanty, Carsten Peterson(参考訳) 量子アニールはタンパク質の折り畳みを含む難しい最適化問題の解決策を見つけることを約束している。 近年, アミノ酸を疎水性 (H) と極性 (P) の2群に分類した粗粒格子モデルHPモデルにおいて, D-Wave Advantage 量子アニールを用いて折り畳み問題を探索している。 最大64個のアミノ酸を含む22個のHP配列を用いて、D-Waveハイブリッド量子古典解法を用いて正しいHPモデル基底状態の高速かつ一貫した同定を行った。 タンパク質設計問題(英: protein design problem)は、タンパク質が特定の構造に折りたたむタンパク質配列を予測するという課題である。 そこで我々は,D-Wave マシン上で実装・実行された2段階の手順で設計問題にアプローチする。 第1段階では,各配列位置のアミノ酸の種類を変化させて純粋配列空間探索を行い,対象構造のhpモデルエネルギーを最小化する配列を求める。 このタスクをイジングスピングラス表現にマッピングした後、我々は30-64アミノ酸の構造に対して100%の成功率でエネルギー最適配列を提供するために、ハイブリッド量子古典解法を用いています。 第2ステップでは、最適化されたシーケンスを、意図した構造に折り畳む能力に応じて第1ステップからフィルタリングする。 さらに,QPUのみを用いてシーケンス最適化問題を解くことを試みた。これは成功率の指数関数的に減少するため,20ドル程度に抑えられる。 純粋なQPU結果に光を当てるために、Shr\odinger方程式を数値解析することにより、意図したハミルトン式がQPUに不完全な実装によって生じる制御誤差の影響を調べる。 その結果,制御雑音の存在下でのシミュレーション成功率は,より大きい鎖の純粋なqpu結果を半定量的に再現できることが判明した。

Quantum annealing has shown promise for finding solutions to difficult optimization problems, including protein folding. Recently, we used the D-Wave Advantage quantum annealer to explore the folding problem in a coarse-grained lattice model, the HP model, in which amino acids are classified into two broad groups: hydrophobic (H) and polar (P). Using a set of 22 HP sequences with up to 64 amino acids, we demonstrated the fast and consistent identification of the correct HP model ground states using the D-Wave hybrid quantum-classical solver. An equally relevant biophysical challenge, called the protein design problem, is the inverse of the above, where the task is to predict protein sequences that fold to a given structure. Here, we approach the design problem by a two-step procedure, implemented and executed on a D-Wave machine. In the first step, we perform a pure sequence-space search by varying the type of amino acid at each sequence position, and seek sequences which minimize the HP-model energy of the target structure. After mapping this task onto an Ising spin glass representation, we employ a hybrid quantum-classical solver to deliver energy-optimal sequences for structures with 30-64 amino acids, with a 100% success rate. In the second step, we filter the optimized sequences from the first step according to their ability to fold to the intended structure. In addition, we try solving the sequence optimization problem using only the QPU, which confines us to sizes $\le$20, due to exponentially decreasing success rates. To shed light on the pure QPU results, we investigate the effects of control errors caused by an imperfect implementation of the intended Hamiltonian on the QPU, by numerically analyzing the Schr\"odinger equation. We find that the simulated success rates in the presence of control noise semi-quantitatively reproduce the modest pure QPU results for larger chains.
翻訳日:2024-02-15 16:08:54 公開日:2024-02-14
# マイクロ波周波数コムにおけるマルチモーダル散乱の制御

Control of multi-modal scattering in a microwave frequency comb ( http://arxiv.org/abs/2402.09068v1 )

ライセンス: Link先を確認
J.C. Rivera Hern\'andez, Fabio Lingua, Shan W. Jolin and David B. Haviland(参考訳) 周波数コムの複数モード間の結合の制御は、連続変数系による測定に基づく量子計算への重要なステップである。 95モードのマイクロ波コームにおける正方格子相関グラフの作成を実証する。 グラフはジョセフソンパラメトリック発振器に適用された3つのポンプの相対位相を正確に制御することで設計される。 モード散乱行列の実験的測定は、パラメトリック発振器の運動の線形化方程式に基づく理論予測とよく一致している。 相関関係の生成と測定に使用されるデジタル手法は、特定の相関グラフトポロジーを調整できるため、より多くのモードやポンプに容易に拡張できる。

Control over the coupling between multiple modes of a frequency comb is an important step toward measurement-based quantum computation with a continuous-variable system. We demonstrate the creation of square-ladder correlation graphs in a microwave comb with 95 modes. The graphs are engineered through precise control of the relative phase of three pumps applied to a Josephson parametric oscillator. Experimental measurement of the mode scattering matrix is in good agreement with theoretical predictions based on a linearized equation of motion of the parametric oscillator. The digital methods used to create and measure the correlations are easily scaled to more modes and more pumps, with the potential to tailor a specific correlation graph topology.
翻訳日:2024-02-15 16:08:22 公開日:2024-02-14
# ソフトプロンプト脅威: 組込み空間を通じたオープンソースllmにおける安全アライメントとアンラーニングへの攻撃

Soft Prompt Threats: Attacking Safety Alignment and Unlearning in Open-Source LLMs through the Embedding Space ( http://arxiv.org/abs/2402.09063v1 )

ライセンス: Link先を確認
Leo Schwinn and David Dobre and Sophie Xhonneux and Gauthier Gidel and Stephan Gunnemann(参考訳) LLMの対向ロバスト性に関する現在の研究は、自然言語空間における離散的な入力操作に焦点を当てており、これはクローズドソースモデルに直接転送できる。 しかし、このアプローチはオープンソースモデルの安定した進歩を無視している。 オープンソースモデルの能力が向上するにつれ、安全性の確保もますます重要になっている。 しかし、完全なモデルアクセスを利用するオープンソースのllmに合わせた攻撃は、ほとんど未解決である。 本研究のギャップに対処し,入力トークンの連続的な埋め込み表現を直接攻撃する埋め込み空間攻撃を提案する。 組込み空間攻撃はモデルアライメントを回避し、離散的な攻撃やモデルの微調整よりも有害な行動を引き起こす。 さらに,未学習環境における新たな脅威モデルを提案し,組込み空間攻撃が複数のデータセットやモデルにまたがる未学習LLMから削除されたと思われる情報を抽出できることを示す。 本研究は,スペースアタックをオープンソース LLM の重要な脅威モデルとして捉えたものである。 Trigger Warning: 付録には暴力と嫌がらせを伴うLLM生成テキストが含まれている。

Current research in adversarial robustness of LLMs focuses on discrete input manipulations in the natural language space, which can be directly transferred to closed-source models. However, this approach neglects the steady progression of open-source models. As open-source models advance in capability, ensuring their safety also becomes increasingly imperative. Yet, attacks tailored to open-source LLMs that exploit full model access remain largely unexplored. We address this research gap and propose the embedding space attack, which directly attacks the continuous embedding representation of input tokens. We find that embedding space attacks circumvent model alignments and trigger harmful behaviors more efficiently than discrete attacks or model fine-tuning. Furthermore, we present a novel threat model in the context of unlearning and show that embedding space attacks can extract supposedly deleted information from unlearned LLMs across multiple datasets and models. Our findings highlight embedding space attacks as an important threat model in open-source LLMs. Trigger Warning: the appendix contains LLM-generated text with violence and harassment.
翻訳日:2024-02-15 16:08:13 公開日:2024-02-14
# ブラインド深層学習に基づく幾何変換に対する画像透かしロバスト

Blind Deep-Learning-Based Image Watermarking Robust Against Geometric Transformations ( http://arxiv.org/abs/2402.09062v1 )

ライセンス: Link先を確認
Hannes Mareen, Lucas Antchougov, Glenn Van Wallendael, Peter Lambert(参考訳) デジタル透かしは、画像の著作権侵害に対する保護を可能にする。 既存の手法では透かしを埋め込んで攻撃に対する堅牢性を示すが、通常は幾何学的変換に対する弾力性に欠ける。 そこで本研究では,幾何学的攻撃に対して堅牢な新しい透かし手法を提案する。 提案手法は,透かし符号化と復号化にディープラーニングを用いた既存のHiDDeNアーキテクチャに基づいている。 私たちは、このアーキテクチャに新しいノイズ層、すなわち、微分可能なJPEG推定、回転、再スケーリング、翻訳、せん断、ミラーリングを追加します。 幾何学的ロバスト性に関しては,本手法が最先端技術であることを示す。 結論として,提案手法は,消費者のデバイスで見た画像の保護に使用できる。

Digital watermarking enables protection against copyright infringement of images. Although existing methods embed watermarks imperceptibly and demonstrate robustness against attacks, they typically lack resilience against geometric transformations. Therefore, this paper proposes a new watermarking method that is robust against geometric attacks. The proposed method is based on the existing HiDDeN architecture that uses deep learning for watermark encoding and decoding. We add new noise layers to this architecture, namely for a differentiable JPEG estimation, rotation, rescaling, translation, shearing and mirroring. We demonstrate that our method outperforms the state of the art when it comes to geometric robustness. In conclusion, the proposed method can be used to protect images when viewed on consumers' devices.
翻訳日:2024-02-15 16:07:55 公開日:2024-02-14
# 完全な準同型暗号を用いたトランスフォーマーの暗号化微調整について

I can't see it but I can Fine-tune it: On Encrypted Fine-tuning of Transformers using Fully Homomorphic Encryption ( http://arxiv.org/abs/2402.09059v1 )

ライセンス: Link先を確認
Prajwal Panzade, Daniel Takabi, Zhipeng Cai(参考訳) 今日の機械学習の世界では、微調整された事前学習されたトランスフォーマーモデルが、特にタスクアライメントトレーニングデータへのアクセスが制限されるシナリオにおいて、必須の技術として登場している。 しかし、データ共有が厳格なプライバシー規制や個人情報開示に関するユーザの理解によって障害に直面すると、課題が表面化する。 以前は、プライバシ保存機械学習(PPML)のためのセキュアなマルチパーティ計算(SMC)と完全同型暗号化(FHE)に基づいていた。 これに対してBlindTunerは,画像分類のための同型暗号化データのみを対象としたトランスフォーマートレーニングを可能にする,プライバシー保護のための微調整システムである。 我々はBlindTunerの有効性を非暗号化モデルに匹敵する精度で検証した。 特に、この領域における以前の研究よりも1.5倍から600倍のスピード向上が見られた。

In today's machine learning landscape, fine-tuning pretrained transformer models has emerged as an essential technique, particularly in scenarios where access to task-aligned training data is limited. However, challenges surface when data sharing encounters obstacles due to stringent privacy regulations or user apprehension regarding personal information disclosure. Earlier works based on secure multiparty computation (SMC) and fully homomorphic encryption (FHE) for privacy-preserving machine learning (PPML) focused more on privacy-preserving inference than privacy-preserving training. In response, we introduce BlindTuner, a privacy-preserving fine-tuning system that enables transformer training exclusively on homomorphically encrypted data for image classification. Our extensive experimentation validates BlindTuner's effectiveness by demonstrating comparable accuracy to non-encrypted models. Notably, our findings highlight a substantial speed enhancement of 1.5x to 600x over previous work in this domain.
翻訳日:2024-02-15 16:07:43 公開日:2024-02-14
# スマート衣服のための繊維に沿った分散センシング

Distributed Sensing Along Fibres for Smart Clothing ( http://arxiv.org/abs/2402.09057v1 )

ライセンス: Link先を確認
Brett C. Hannigan, Tyler J. Cuthbert, Chakaveh Ahmadizadeh, Carlo Menon(参考訳) 布地センサーは、私たちの日常の衣服を、動きやバイオシグナルを全く目立たない方法で追跡する手段に変える。 スマート」な衣服を採用する際の大きな障害の一つは、センサーの数を拡大する際に接続や空間に遭遇する困難である。 ウェアラブルエレクトロニクスの鍵となる限界に対処する研究の欠如がある。硬質と繊維要素の接続は信頼できないことが多く、繊維の大量生産方法と互換性のない方法で界面センサーを必要とする。 繊維の複数の領域に沿って局所的なひずみを測定するためのプロトタイプ,コンパクトな読み出し回路,アルゴリズムを導入する。 ひずみ信号に選択的に応答するために、長さに沿って調整可能な感度を有するヘリカル補助糸センサを用いる。 衣服における分散センシング, 単一連続繊維からの腕関節角度のモニタリングを行った。 肩,肘,手関節角度の再構成において,光学的モーションキャプチャに比べて約5{\deg}誤差が得られた。

Textile sensors transform our everyday clothing into a means to track movement and bio-signals in a completely unobtrusive way. One major hindrance to the adoption of "smart" clothing is the difficulty encountered with connections and space when scaling up the number of sensors. There is a lack of research addressing a key limitation in wearable electronics: connections between rigid and textile elements are often unreliable and they require interfacing sensors in a way incompatible with textile mass production methods. We introduce a prototype garment, compact readout circuit, and algorithm to measure localized strain along multiple regions of a fibre. We employ a helical auxetic yarn sensor with tunable sensitivity along its length to selectively respond to strain signals. We demonstrate distributed sensing in clothing, monitoring arm joint angles from a single continuous fibre. Compared to optical motion capture, we achieve around 5{\deg} error in reconstructing shoulder, elbow, and wrist joint angles.
翻訳日:2024-02-15 16:07:24 公開日:2024-02-14
# 感情的不確かさは証拠的深層学習法によって忠実に表されるか?

Is Epistemic Uncertainty Faithfully Represented by Evidential Deep Learning Methods? ( http://arxiv.org/abs/2402.09056v1 )

ライセンス: Link先を確認
Mira J\"urgens, Nis Meinert, Viktor Bengs, Eyke H\"ullermeier, Willem Waegeman(参考訳) 信頼できるMLシステムは、正確な予測を返すだけでなく、不確実性の信頼できる表現を返すべきです。 ベイズ法は、アレタリック法とエピステマティック法の両方を定量化するために一般的に用いられているが、明らかな深層学習法のような代替手法が近年普及している。 後者の手法のグループは本質的に、経験的リスク最小化(ERM)を拡張して、結果に対する二階確率分布を予測する。 本稿では,二階損失関数の最適化の難しさを浮き彫りにして,得られた認識的不確実性尺度を解釈する。 分類、回帰、カウントに関する幅広いアプローチをカバーする体系的な設定により、二階損失最小化における識別可能性と収束の問題、および認識の不確実性測度の相対的(絶対的ではなく)性質に関する新しい洞察を提供する。

Trustworthy ML systems should not only return accurate predictions, but also a reliable representation of their uncertainty. Bayesian methods are commonly used to quantify both aleatoric and epistemic uncertainty, but alternative approaches, such as evidential deep learning methods, have become popular in recent years. The latter group of methods in essence extends empirical risk minimization (ERM) for predicting second-order probability distributions over outcomes, from which measures of epistemic (and aleatoric) uncertainty can be extracted. This paper presents novel theoretical insights of evidential deep learning, highlighting the difficulties in optimizing second-order loss functions and interpreting the resulting epistemic uncertainty measures. With a systematic setup that covers a wide range of approaches for classification, regression and counts, it provides novel insights into issues of identifiability and convergence in second-order loss minimization, and the relative (rather than absolute) nature of epistemic uncertainty measures.
翻訳日:2024-02-15 16:07:08 公開日:2024-02-14
# コントラストプレトレーニングによるコメント支援型ビデオ言語アライメントによる短音波検出

Comment-aided Video-Language Alignment via Contrastive Pre-training for Short-form Video Humor Detection ( http://arxiv.org/abs/2402.09055v1 )

ライセンス: Link先を確認
Yang Liu, Tongfei Shen, Dong Zhang, Qingying Sun, Shoushan Li, Guodong Zhou(参考訳) 感情コンピューティングにおけるマルチモーダルユーモア検出の重要性の高まりは、ソーシャルメディアプラットフォームにおけるショートフォームビデオ共有の影響拡大と相関している。 本稿では,データ拡張型マルチモーダルコントラスト事前学習により,SVHD(Commitment-aided Video-Language Alignment, CVLA)という2分岐階層モデルを提案する。 特に、CVLAは、様々なモーダルチャネルをまたいだ生信号を操作するだけでなく、一貫したセマンティック空間内にビデオと言語コンポーネントを整列させて、適切なマルチモーダル表現を生成する。 DY11kとUR-FUNNYを含む2つのユーモア検出データセットの実験結果は、CVLAが最先端およびいくつかの競争ベースラインアプローチを劇的に上回ることを示した。 データセット、コード、モデルリリースは、https://github.com/yliu-cs/CVLA。

The growing importance of multi-modal humor detection within affective computing correlates with the expanding influence of short-form video sharing on social media platforms. In this paper, we propose a novel two-branch hierarchical model for short-form video humor detection (SVHD), named Comment-aided Video-Language Alignment (CVLA) via data-augmented multi-modal contrastive pre-training. Notably, our CVLA not only operates on raw signals across various modal channels but also yields an appropriate multi-modal representation by aligning the video and language components within a consistent semantic space. The experimental results on two humor detection datasets, including DY11k and UR-FUNNY, demonstrate that CVLA dramatically outperforms state-of-the-art and several competitive baseline approaches. Our dataset, code and model release at https://github.com/yliu-cs/CVLA.
翻訳日:2024-02-15 16:06:47 公開日:2024-02-14
# L3GO:非従来型オブジェクト生成のための3D-Thoughtsのチェーン付き言語エージェント

L3GO: Language Agents with Chain-of-3D-Thoughts for Generating Unconventional Objects ( http://arxiv.org/abs/2402.09052v1 )

ライセンス: Link先を確認
Yutaro Yamada, Khyathi Chandu, Yuchen Lin, Jack Hessel, Ilker Yildirim, Yejin Choi(参考訳) DALL-E 3やStable Diffusion-XLのような拡散に基づく画像生成モデルは、リアルでユニークな構成を持つ画像を生成する際、顕著な能力を示している。 しかし、これらのモデルは、物体の物理的および空間的構成について正確に推論する上では堅牢ではない。 本稿では,従来のデータ駆動拡散モデルが抱える非伝統的なオブジェクトの3次元メッシュ生成を推論する手法として,チェーンオブ3D思想(L3GO)を用いた言語エージェントを提案する。 より具体的には、3dシミュレーション環境内で試行錯誤によって望ましいオブジェクトを構成するエージェントとして、大きな言語モデルを使用します。 調査を容易にするため、新しいベンチマークである Unconventionally Feasible Objects (UFO) と、言語エージェントがAPI呼び出しを通じてアトミックなビルディングブロックを構築・構成できるBlender上に構築されたSimpleBlenvを開発した。 人為的および自動的なGPT-4V評価は、ShapeNet上での3Dメッシュ生成のための標準GPT-4および他の言語エージェント(例えばReActとReflexion)を超えていることを示している。 さらに、ufoベンチマークでテストすると、人間の評価に基づいて、最先端のテキスト対2d画像およびテキスト対3dモデルよりも優れています。

Diffusion-based image generation models such as DALL-E 3 and Stable Diffusion-XL demonstrate remarkable capabilities in generating images with realistic and unique compositions. Yet, these models are not robust in precisely reasoning about physical and spatial configurations of objects, especially when instructed with unconventional, thereby out-of-distribution descriptions, such as "a chair with five legs". In this paper, we propose a language agent with chain-of-3D-thoughts (L3GO), an inference-time approach that can reason about part-based 3D mesh generation of unconventional objects that current data-driven diffusion models struggle with. More concretely, we use large language models as agents to compose a desired object via trial-and-error within the 3D simulation environment. To facilitate our investigation, we develop a new benchmark, Unconventionally Feasible Objects (UFO), as well as SimpleBlenv, a wrapper environment built on top of Blender where language agents can build and compose atomic building blocks via API calls. Human and automatic GPT-4V evaluations show that our approach surpasses the standard GPT-4 and other language agents (e.g., ReAct and Reflexion) for 3D mesh generation on ShapeNet. Moreover, when tested on our UFO benchmark, our approach outperforms other state-of-the-art text-to-2D image and text-to-3D models based on human evaluation.
翻訳日:2024-02-15 16:06:30 公開日:2024-02-14
# FGeo-DRL:深部強化学習による幾何学的問題に対する導出推論

FGeo-DRL: Deductive Reasoning for Geometric Problems through Deep Reinforcement Learning ( http://arxiv.org/abs/2402.09051v1 )

ライセンス: Link先を確認
Jia Zou, Xiaokai Zhang, Yiming He, Na Zhu, Tuo Leng(参考訳) 人間のような自動推論は、数学と人工知能の学際において、常に最も困難なオープン問題の一つである。 この論文は我々の一連の作品の3番目です。 fgeodrlと呼ばれるニューラルシンボリックシステムを構築し、人間のような幾何学的推論を自動実行した。 ニューラルネットワークは強化学習に基づくAIエージェントであり、人間の監督を必要とせず、形式化された環境のフィードバックから問題解決方法を自律的に学習することができる。 事前に訓練された自然言語モデルを利用して定理選択のためのポリシーネットワークを構築し、ヒューリスティック探索にモンテカルロ木探索を用いる。 記号的部分は幾何学形式化理論と形式geo\cite{formalgeo}に基づく強化学習環境であり、gpsをマルコフ決定過程としてモデル化する。 この形式的シンボリックシステムでは、問題の既知の条件と目的が状態空間を形成し、定理の集合が作用空間を形成する。 fgeodrlを活用して,幾何問題に対する可読かつ検証可能な自動解を実現した。 フォーマルジオ7kデータセットで行った実験は86.40\%の問題解決成功率を達成した。 このプロジェクトはhttps://github.com/PersonNoName/FGeoDRLで入手できる。

The human-like automatic deductive reasoning has always been one of the most challenging open problems in the interdiscipline of mathematics and artificial intelligence. This paper is the third in a series of our works. We built a neural-symbolic system, called FGeoDRL, to automatically perform human-like geometric deductive reasoning. The neural part is an AI agent based on reinforcement learning, capable of autonomously learning problem-solving methods from the feedback of a formalized environment, without the need for human supervision. It leverages a pre-trained natural language model to establish a policy network for theorem selection and employ Monte Carlo Tree Search for heuristic exploration. The symbolic part is a reinforcement learning environment based on geometry formalization theory and FormalGeo\cite{FormalGeo}, which models GPS as a Markov Decision Process\cite{MDP}. In this formal symbolic system, the known conditions and objectives of the problem form the state space, while the set of theorems forms the action space. Leveraging FGeoDRL, we have achieved readable and verifiable automated solutions to geometric problems. Experiments conducted on the formalgeo7k dataset have achieved a problem-solving success rate of 86.40\%. The project is available at https://github.com/PersonNoName/FGeoDRL.
翻訳日:2024-02-15 16:06:05 公開日:2024-02-14
# エンド・ツー・エンドのトレーニングはレイヤー・ロールの分化を通じて情報ボトルネックを引き起こす:層間トレーニングとの比較分析

End-to-End Training Induces Information Bottleneck through Layer-Role Differentiation: A Comparative Analysis with Layer-wise Training ( http://arxiv.org/abs/2402.09050v1 )

ライセンス: Link先を確認
Keitaro Sakamoto, Issei Sato(参考訳) エンドツーエンド(e2e)トレーニング、エラーバックプロパゲーションによるモデル全体の最適化は、ディープラーニングの進歩を根本的に支援する。 高性能にもかかわらず、E2Eトレーニングは、メモリ消費、並列コンピューティング、実際の脳の機能との相違といった問題に直面している。 これらの困難を克服するために様々な代替手法が提案されているが、E2E訓練のパフォーマンスにはまだ適合せず、実用性に乏しい。 さらに、トレーニングされたモデル特性の違いについて、パフォーマンスギャップ以外の深い理解はありません。 本稿では,エラーを局所的に設定する非E2E手法であるレイヤワイドトレーニングとの比較により,E2Eトレーニングが優れた性能を示す理由を再考する。 本研究では,E2Eトレーニングが入力情報の伝達に有利であることを示す上で,Hilbert-Schmidt Independent criterion(HSIC)に基づく中間表現の情報平面ダイナミクスを解析した。 正規化HSIC値解析の結果から,効率的な情報伝達に加えて,レイヤ間で異なる情報ダイナミクスを示すE2Eトレーニング能力が明らかとなった。 さらに,この層間区別が,情報ボトルネックの原理に従って最終表現につながることを示す。 これは、ディープラーニングの情報ボトルネックを分析する際に、最終層だけでなく、レイヤ間の協調的な相互作用を検討する必要があることを示唆している。

End-to-end (E2E) training, optimizing the entire model through error backpropagation, fundamentally supports the advancements of deep learning. Despite its high performance, E2E training faces the problems of memory consumption, parallel computing, and discrepancy with the functionalities of the actual brain. Various alternative methods have been proposed to overcome these difficulties; however, no one can yet match the performance of E2E training, thereby falling short in practicality. Furthermore, there is no deep understanding regarding differences in the trained model properties beyond the performance gap. In this paper, we reconsider why E2E training demonstrates a superior performance through a comparison with layer-wise training, a non-E2E method that locally sets errors. On the basis of the observation that E2E training has an advantage in propagating input information, we analyze the information plane dynamics of intermediate representations based on the Hilbert-Schmidt independence criterion (HSIC). The results of our normalized HSIC value analysis reveal the E2E training ability to exhibit different information dynamics across layers, in addition to efficient information propagation. Furthermore, we show that this layer-role differentiation leads to the final representation following the information bottleneck principle. It suggests the need to consider the cooperative interactions between layers, not just the final layer when analyzing the information bottleneck of deep learning.
翻訳日:2024-02-15 16:05:47 公開日:2024-02-14
# 有限出力チャネル上の決定論的同定:超線形速度の次元的視点

Deterministic identification over channels with finite output: a dimensional perspective on superlinear rates ( http://arxiv.org/abs/2402.09117v1 )

ライセンス: Link先を確認
Pau Colomer, Christian Deppe, Holger Boche, Andreas Winter(参考訳) JaJa と Ahlswede/Cai による初期の研究と、ノイズチャネルによる決定論的識別に対する最近の関心の高まりに触発されて、有限出力であるが任意の入力アルファベットを持つメモリレスチャネルに対する一般性の問題を考える。 そのようなチャネルは、本質的には確率単純性における出力分布のサブセット(閉包)によって与えられる。 我々の主な発見は、ブロック長が$n$のメッセージの最大数は2^{R\,n\log n}$と超指数的にスケールし、最適レート$R$は、出力集合の被覆(ミンコフスキー、コルモゴロフ、エントロピー)次元$d$である。 一般の場合に先立ち、入力アルファベット$[0;1]$と$d=1$のバイナリ出力で、いわゆるベルヌーイチャネルの重要な特別なケースを扱い、直観を得る。 その過程で、ある仮説テスト補題(Ahlswedeの典型的な集合の交叉に関する以前の洞察を一般化する)を示し、決定論的識別符号を構築するためには、出力分布のペアの信頼性を保証するのに十分であることを示す。 これらの結果は、有限次元出力量子システム(ただし任意の入力アルファベット)を持つ古典量子チャネル、特に、識別符号がテンソル積入力しか使用できないという制約の下で有限次元量子システム上の量子チャネルに直接一般化することが示される。

Following initial work by JaJa and Ahlswede/Cai, and inspired by a recent renewed surge in interest in deterministic identification via noisy channels, we consider the problem in its generality for memoryless channels with finite output, but arbitrary input alphabets. Such a channel is essentially given by (the closure of) the subset of its output distributions in the probability simplex. Our main findings are that the maximum number of messages thus identifiable scales super-exponentially as $2^{R\,n\log n}$ with the block length $n$, and that the optimal rate $R$ is upper and lower bounded in terms of the covering (aka Minkowski, or Kolmogorov, or entropy) dimension $d$ of the output set: $\frac14 d \leq R \leq d$. Leading up to the general case, we treat the important special case of the so-called Bernoulli channel with input alphabet $[0;1]$ and binary output, which has $d=1$, to gain intuition. Along the way, we show a certain Hypothesis Testing Lemma (generalising an earlier insight of Ahlswede regarding the intersection of typical sets) that implies that for the construction of a deterministic identification code, it is sufficient to ensure pairwise reliable distinguishability of the output distributions. These results are then shown to generalise directly to classical-quantum channels with finite-dimensional output quantum system (but arbitrary input alphabet), and in particular to quantum channels on finite-dimensional quantum systems under the constraint that the identification code can only use tensor product inputs.
翻訳日:2024-02-15 15:58:21 公開日:2024-02-14
# DestripeCycleGAN: 教師なし赤外線画像削除のためのStripe Simulation CycleGAN

DestripeCycleGAN: Stripe Simulation CycleGAN for Unsupervised Infrared Image Destriping ( http://arxiv.org/abs/2402.09101v1 )

ライセンス: Link先を確認
Shiqi Yang, Hanlin Qin, Shuai Yuan, Xiang Yan, Hossein Rahmani(参考訳) CycleGANは、教師なし画像復元の先進的なアプローチであることが証明されている。 このフレームワークは2つのジェネレータで構成されており、推論のための推論と、サイクル・コンシスタンス制約を満たすためにノイズをモデル化するための補助である。 しかし, 赤外線デトリップ作業に適用すると, バニラ補助発電機は教師なしの制約下で常に垂直ノイズを発生することが困難になる。 これは、サイクルコンシステンシー損失の有効性を脅かし、分断された画像にストライプノイズが残ることにつながる。 上記の問題に対処するために,DestripeCycleGANという単一フレーム赤外線画像デストリップのための新しいフレームワークを提案する。 このモデルでは、従来の補助発電機をプリ・ストライプ生成モデル(SGM)に置き換えてクリーンデータに垂直ストライプノイズを導入し、勾配マップを用いてサイクル整合性を再確立する。 一方,Hear Waveletバックグラウンドガイダンスモジュール(HBGM)は,異なるドメイン間の背景詳細のばらつきを最小限に抑えるように設計されている。 垂直エッジを保持するために,サンプルとしてHaarウェーブレット変換を用いて方向情報損失を減少させるマルチレベルウェーブレットU-Net(MWUNet)を提案する。 さらに、グループ融合ブロック(GFB)をスキップ接続に組み込んで、マルチスケール機能をフューズし、長距離依存関係のコンテキストを構築する。 実データおよび合成データに関する広範囲な実験により,我々は視覚品質と定量的評価の点で最先端の手法を超越していることが示された。 私たちのコードはhttps://github.com/0wuji/DestripeCycleGANで公開されます。

CycleGAN has been proven to be an advanced approach for unsupervised image restoration. This framework consists of two generators: a denoising one for inference and an auxiliary one for modeling noise to fulfill cycle-consistency constraints. However, when applied to the infrared destriping task, it becomes challenging for the vanilla auxiliary generator to consistently produce vertical noise under unsupervised constraints. This poses a threat to the effectiveness of the cycle-consistency loss, leading to stripe noise residual in the denoised image. To address the above issue, we present a novel framework for single-frame infrared image destriping, named DestripeCycleGAN. In this model, the conventional auxiliary generator is replaced with a priori stripe generation model (SGM) to introduce vertical stripe noise in the clean data, and the gradient map is employed to re-establish cycle-consistency. Meanwhile, a Haar wavelet background guidance module (HBGM) has been designed to minimize the divergence of background details between the different domains. To preserve vertical edges, a multi-level wavelet U-Net (MWUNet) is proposed as the denoising generator, which utilizes the Haar wavelet transform as the sampler to decline directional information loss. Moreover, it incorporates the group fusion block (GFB) into skip connections to fuse the multi-scale features and build the context of long-distance dependencies. Extensive experiments on real and synthetic data demonstrate that our DestripeCycleGAN surpasses the state-of-the-art methods in terms of visual quality and quantitative evaluation. Our code will be made public at https://github.com/0wuji/DestripeCycleGAN.
翻訳日:2024-02-15 15:57:48 公開日:2024-02-14
# GANに基づく実写ランドマーク誘導顔画像の描き方

Towards Realistic Landmark-Guided Facial Video Inpainting Based on GANs ( http://arxiv.org/abs/2402.09100v1 )

ライセンス: Link先を確認
Fatemeh Ghorbani Lohesara, Karen Egiazarian, Sebastian Knorr(参考訳) ビデオ会議や遠隔医療における障害の除去、表情分析の強化、プライバシー保護、グラフィカルオーバーレイの統合、仮想メイクアップなど、幅広いアプリケーションにおいて、顔ビデオのインペインティングは重要な役割を果たす。 この領域は、顔の特徴の複雑な性質と、顔に固有の人間の親しみ、正確で説得力のある完成の必要性を高めるために深刻な課題を呈する。 この文脈で、特に咬合除去に関連する課題に取り組む際、マスクでカバーされた顔データから完全な画像を生成し、空間的・時間的コヒーレンスを確保するという進歩的課題に焦点をあてる。 本研究は,全フレームにわたって静的および移動した咬合を処理できるgan(generative adversarial network)を用いた表現ベースの映像インペインティングのためのネットワークを提案する。 顔ランドマークとオクルージョンフリーの参照画像を利用することで,フレーム間におけるユーザのアイデンティティを一貫して維持する。 我々はさらに、カスタマイズされた表情認識(FER)損失関数により感情保存を強化し、詳細なインペイント出力を確保する。 提案フレームワークは,フレームに静的か動的かにかかわらず,顔映像からの閉塞を適応形式で排除し,現実的かつ一貫性のある結果を提供する。

Facial video inpainting plays a crucial role in a wide range of applications, including but not limited to the removal of obstructions in video conferencing and telemedicine, enhancement of facial expression analysis, privacy protection, integration of graphical overlays, and virtual makeup. This domain presents serious challenges due to the intricate nature of facial features and the inherent human familiarity with faces, heightening the need for accurate and persuasive completions. In addressing challenges specifically related to occlusion removal in this context, our focus is on the progressive task of generating complete images from facial data covered by masks, ensuring both spatial and temporal coherence. Our study introduces a network designed for expression-based video inpainting, employing generative adversarial networks (GANs) to handle static and moving occlusions across all frames. By utilizing facial landmarks and an occlusion-free reference image, our model maintains the user's identity consistently across frames. We further enhance emotional preservation through a customized facial expression recognition (FER) loss function, ensuring detailed inpainted outputs. Our proposed framework exhibits proficiency in eliminating occlusions from facial videos in an adaptive form, whether appearing static or dynamic on the frames, while providing realistic and coherent results.
翻訳日:2024-02-15 15:57:19 公開日:2024-02-14
# LLMにおけるニューロン相互作用と創発の探索:多フラクタル解析の観点から

Exploring Neuron Interactions and Emergence in LLMs: From the Multifractal Analysis Perspective ( http://arxiv.org/abs/2402.09099v1 )

ライセンス: Link先を確認
Xiongye Xiao, Chenyu Zhou, Heng Ping, Defu Cao, Yaxing Li, Yizhuo Zhou, Shixuan Li, Paul Bogdan(参考訳) 大規模モデルの出現に関する以前の研究は、主に、大規模言語モデル(LLM)の機能的機能とモデルサイズとのスケール性に焦点を当てていた。 しかしながら、我々の研究は従来のパラダイムを超越し、モデルのサイズだけでなく、トレーニングプロセス中のニューロン相互作用の複雑な振る舞いにも特に重点を置いて、LSMの出現に対する理解を深めることを目的としています。 自己組織化」と「マルチフラクタル解析」の概念を導入することで、トレーニング中にニューロンの相互作用が動的に進化し、単純なミクロレベルの相互作用が複雑なマクロレベルの振る舞いを引き起こす自然システムにおける現象を反映する「創発」へと導くかを探る。 トレーニング中のニューロン間の連続的な相互作用を定量的に解析するために,ニューロMFA(NeuroMFA)を提案する。 NeuroMFAを用いて、モデルサイズとトレーニングプロセスの両方のレンズを通してLLMの創発的挙動を包括的に検証し、大規模モデルの出現を研究するための新たな道を開く。

Prior studies on the emergence in large models have primarily focused on how the functional capabilities of large language models (LLMs) scale with model size. Our research, however, transcends this traditional paradigm, aiming to deepen our understanding of the emergence within LLMs by placing a special emphasis not just on the model size but more significantly on the complex behavior of neuron interactions during the training process. By introducing the concepts of "self-organization" and "multifractal analysis," we explore how neuron interactions dynamically evolve during training, leading to "emergence," mirroring the phenomenon in natural systems where simple micro-level interactions give rise to complex macro-level behaviors. To quantitatively analyze the continuously evolving interactions among neurons in large models during training, we propose the Neuron-based Multifractal Analysis (NeuroMFA). Utilizing NeuroMFA, we conduct a comprehensive examination of the emergent behavior in LLMs through the lens of both model size and training process, paving new avenues for research into the emergence in large models.
翻訳日:2024-02-15 15:56:54 公開日:2024-02-14
# 学習可能な自動運転車の信号認識のためのDigital Twinプロトタイプ

A Digital Twin prototype for traffic sign recognition of a learning-enabled autonomous vehicle ( http://arxiv.org/abs/2402.09097v1 )

ライセンス: Link先を確認
Mohamed AbdElSalam, Loai Ali, Saddek Bensalem, Weicheng He, Panagiotis Katsaros, Nikolaos Kekatos, Doron Peled, Anastasios Temperekidis, Changshun Wu(参考訳) 本稿では,学習可能な自動運転車のための新しいデジタルツインプロトタイプを提案する。 このデジタルツインの主な目的は、交通標識認識と車線維持を行うことである。 デジタルツインアーキテクチャはコシミュレーションに依存しており、Functional Mock-up InterfaceとSystemCトランザクションレベルモデリング標準を使用している。 デジタルツインは4つのクライアントで構成されています。 一 アメシム工具で設計された車両模型 二 プレスカンで開発された環境モデル 三 ロボットオペレーティングシステムに設計された車線維持制御装置及び iv) bip(behavior, interaction, priority)の形式的モデリング言語で開発された知覚及び速度制御モジュール これらのクライアントは、デジタルツインプラットフォームPAVE360-Veloce System Interconnect (PAVE360-VSI)とインターフェースする。 PAVE360-VSIは同期オーケストレータとして機能し、サーバを介して同期、相互接続、データ交換を行う。 サーバは異なるクライアント間の接続を確立し、イーサネットプロトコルへの準拠を保証する。 実証的なデジタル双対シミュレーションと今後の研究の提言で締めくくります。

In this paper, we present a novel digital twin prototype for a learning-enabled self-driving vehicle. The primary objective of this digital twin is to perform traffic sign recognition and lane keeping. The digital twin architecture relies on co-simulation and uses the Functional Mock-up Interface and SystemC Transaction Level Modeling standards. The digital twin consists of four clients, i) a vehicle model that is designed in Amesim tool, ii) an environment model developed in Prescan, iii) a lane-keeping controller designed in Robot Operating System, and iv) a perception and speed control module developed in the formal modeling language of BIP (Behavior, Interaction, Priority). These clients interface with the digital twin platform, PAVE360-Veloce System Interconnect (PAVE360-VSI). PAVE360-VSI acts as the co-simulation orchestrator and is responsible for synchronization, interconnection, and data exchange through a server. The server establishes connections among the different clients and also ensures adherence to the Ethernet protocol. We conclude with illustrative digital twin simulations and recommendations for future work.
翻訳日:2024-02-15 15:56:33 公開日:2024-02-14
# FedSiKD: クライアントの類似性と知識蒸留: フェデレート学習における非i.d.と制約への対応

FedSiKD: Clients Similarity and Knowledge Distillation: Addressing Non-i.i.d. and Constraints in Federated Learning ( http://arxiv.org/abs/2402.09095v1 )

ライセンス: Link先を確認
Yousef Alsenani, Rahul Mishra, Khaled R. Ahmed, Atta Ur Rahman(参考訳) 近年、フェデレーテッド・ラーニング(FL)は、データプライバシを保ちながら、分散的な方法で機械学習モデルをトレーニングするための有望な技術として出現している。 非独立で同一に分散したクライアントデータの性質は、クライアントやエッジデバイスの制約と相まって、FLにおいて重大な課題を提起している。 さらに、多数のコミュニケーションラウンドにわたる学習は、モデルのエクスプロイトにおいてリスクが高く、潜在的に安全ではない可能性がある。 従来のFLアプローチはこれらの課題に悩まされる可能性がある。 そこで我々は,類似性に基づくフェデレート学習フレームワークに知識蒸留(KD)を組み込んだFedSiKDを紹介する。 クライアントがシステムに参加すると、データ分散に関する関連する統計情報を安全に共有し、クラスタ内均質性を促進する。 これにより、最適化効率が向上し、学習プロセスが加速し、教師と生徒の間で知識を効果的に伝達し、デバイス制約に対処する。 FedSiKDは、HARデータセットとMNISTデータセットでそれぞれ$\alpha = {0.1,0.5}$で高度に歪んだデータに対して25\%と18\%を超える精度で最先端のアルゴリズムより優れている。 その高速な収束は、harとmnistデータセットの最初の5ラウンドにおいて、それぞれ17\%と20\%の精度向上を示し、早期の学習能力を強調している。 コードはGitHubで公開されている(https://github.com/SimuEnv/FedSiKD)。

In recent years, federated learning (FL) has emerged as a promising technique for training machine learning models in a decentralized manner while also preserving data privacy. The non-independent and identically distributed (non-i.i.d.) nature of client data, coupled with constraints on client or edge devices, presents significant challenges in FL. Furthermore, learning across a high number of communication rounds can be risky and potentially unsafe for model exploitation. Traditional FL approaches may suffer from these challenges. Therefore, we introduce FedSiKD, which incorporates knowledge distillation (KD) within a similarity-based federated learning framework. As clients join the system, they securely share relevant statistics about their data distribution, promoting intra-cluster homogeneity. This enhances optimization efficiency and accelerates the learning process, effectively transferring knowledge between teacher and student models and addressing device constraints. FedSiKD outperforms state-of-the-art algorithms by achieving higher accuracy, exceeding by 25\% and 18\% for highly skewed data at $\alpha = {0.1,0.5}$ on the HAR and MNIST datasets, respectively. Its faster convergence is illustrated by a 17\% and 20\% increase in accuracy within the first five rounds on the HAR and MNIST datasets, respectively, highlighting its early-stage learning proficiency. Code is publicly available and hosted on GitHub (https://github.com/SimuEnv/FedSiKD)
翻訳日:2024-02-15 15:56:22 公開日:2024-02-14
# Unity is strength: スマートコントラクト分析ツールの一貫性脆弱性検出における精度向上

Unity is Strength: Enhancing Precision in Reentrancy Vulnerability Detection of Smart Contract Analysis Tools ( http://arxiv.org/abs/2402.09094v1 )

ライセンス: Link先を確認
Zexu Wang, Jiachi Chen, Zibin Zheng, Peilin Zheng, Yu Zhang, Weizhe Zhang(参考訳) 永続性はスマートコントラクトの最も悪名高い脆弱性の1つであり、結果として大きなデジタル資産損失をもたらす。 しかし、多くの先行研究は、現在のReentrancy検出ツールは偽陽性率が高いことを示唆している。 さらに悪いことに、近年では複雑で多様な脆弱性攻撃メカニズムによって、新たなReentrancy攻撃パターンが出現している。 残念ながら、現在のツールは、これらの進化するReentrancyパターンを適応し、検出する能力に重大な制限に直面しています。 したがって、正確かつ高度に拡張可能なリエントレンシ脆弱性検出の確保は、既存のツールにとって重要な課題である。 この問題に対処するため、ReEPというツールを提案し、Reentrancy脆弱性検出の偽陽性を減らす。 さらに、ReEPは複数のツールを統合することができ、脆弱性検出の能力を拡大できる。 既存のツールの結果を評価して脆弱性の可能性を検証し、偽陽性を減らす。 ReEPはまた、優れた拡張性を提供し、異なる検出ツールの統合により、精度を高め、異なる脆弱性攻撃パターンをカバーすることができる。 既存の8つのReEP検出ツールを実行する。 この8つのツールの平均精度は、リコールを犠牲にすることなく、元の0.5%から73%に向上した。 さらに、ReEPは堅牢な拡張性を示す。 複数のツールを統合することで、精度はさらに83.6%向上した。 これらの結果は、ReEPが既存の作業の強度を効果的に結合し、Reentrancy脆弱性検出ツールの精度を高めることを実証している。

Reentrancy is one of the most notorious vulnerabilities in smart contracts, resulting in significant digital asset losses. However, many previous works indicate that current Reentrancy detection tools suffer from high false positive rates. Even worse, recent years have witnessed the emergence of new Reentrancy attack patterns fueled by intricate and diverse vulnerability exploit mechanisms. Unfortunately, current tools face a significant limitation in their capacity to adapt and detect these evolving Reentrancy patterns. Consequently, ensuring precise and highly extensible Reentrancy vulnerability detection remains critical challenges for existing tools. To address this issue, we propose a tool named ReEP, designed to reduce the false positives for Reentrancy vulnerability detection. Additionally, ReEP can integrate multiple tools, expanding its capacity for vulnerability detection. It evaluates results from existing tools to verify vulnerability likelihood and reduce false positives. ReEP also offers excellent extensibility, enabling the integration of different detection tools to enhance precision and cover different vulnerability attack patterns. We perform ReEP to eight existing state-of-the-art Reentrancy detection tools. The average precision of these eight tools increased from the original 0.5% to 73% without sacrificing recall. Furthermore, ReEP exhibits robust extensibility. By integrating multiple tools, the precision further improved to a maximum of 83.6%. These results demonstrate that ReEP effectively unites the strengths of existing works, enhances the precision of Reentrancy vulnerability detection tools.
翻訳日:2024-02-15 15:55:56 公開日:2024-02-14
# アクティベーションの3年 - ニューラルネットワークにおける400のアクティベーション関数の総合的調査

Three Decades of Activations: A Comprehensive Survey of 400 Activation Functions for Neural Networks ( http://arxiv.org/abs/2402.09092v1 )

ライセンス: Link先を確認
Vladim\'ir Kunc, Ji\v{r}\'i Kl\'ema(参考訳) ニューラルネットワークは、多くの分野で複雑な問題を解決するための非常に効果的なツールであることが証明されている。 近年、深層学習の出現に伴い、その重要性と実用性はさらに強化されている。 ニューラルネットワークの成功の重要な条件の1つは、モデルに非線形性を導入する適切なアクティベーション関数の選択である。 これらの機能は過去に多くの文献で提案されてきたが、概観を包括した総合的な資料は存在しない。 この概要の欠如は、我々の経験においても、既に存在するアクティベーション関数の冗長性と意図しない再検討につながる。 このギャップを埋めるために,本研究では,400のアクティベーション関数に関する広範な調査を行った。 包括的コンパイルもこれらの調査を参考にしているが、その主な目的は、以前公開されたアクティベーション関数のより包括的な概要と体系化と、元のソースへのリンクを提供することである。 第二の目的は、この関数ファミリーの現在の理解を更新することである。

Neural networks have proven to be a highly effective tool for solving complex problems in many areas of life. Recently, their importance and practical usability have further been reinforced with the advent of deep learning. One of the important conditions for the success of neural networks is the choice of an appropriate activation function introducing non-linearity into the model. Many types of these functions have been proposed in the literature in the past, but there is no single comprehensive source containing their exhaustive overview. The absence of this overview, even in our experience, leads to redundancy and the unintentional rediscovery of already existing activation functions. To bridge this gap, our paper presents an extensive survey involving 400 activation functions, which is several times larger in scale than previous surveys. Our comprehensive compilation also references these surveys; however, its main goal is to provide the most comprehensive overview and systematization of previously published activation functions with links to their original sources. The secondary aim is to update the current understanding of this family of functions.
翻訳日:2024-02-15 15:55:33 公開日:2024-02-14
# LLMを使ったゲーム「Play Guessing Game」: 間接的ジェイルブレイク攻撃

Play Guessing Game with LLM: Indirect Jailbreak Attack with Implicit Clues ( http://arxiv.org/abs/2402.09091v1 )

ライセンス: Link先を確認
Zhiyuan Chang, Mingyang Li, Yi Liu, Junjie Wang, Qing Wang, Yang Liu(参考訳) LLMの開発に伴い、LLMのセキュリティ上の脅威がますます注目されている。 LLMのセキュリティ防衛を評価するために、数多くのジェイルブレイク攻撃が提案されている。 現在のジェイルブレイク攻撃は主にシナリオカモフラージュ技術を利用している。 しかし、悪質な意図について明確に言及することは、LLMによって容易に認識され、防御される。 本稿では, LLMの防御戦略を回避し, LLMに対して元の悪意のあるクエリに関するヒントを暗黙的に提供することによって悪意のある応答を得ることができる間接的ジェイルブレイク攻撃手法であるPuzzlerを提案する。 また、sun tzuのwar art of warから「攻撃できないとき、防御できないとき」という知恵に触発されて、llmを通じて元の悪意のある質問の手がかりを集めるための防御的姿勢を取り入れた。 大規模な実験の結果、Puzzler はクローズドソース LLM で96.6% のクエリ成功率を達成しており、ベースラインよりも57.9%-82.7% 高い。 さらに、最先端のジェイルブレイク検出アプローチに対してテストすると、ベースラインよりも脱獄検出に有効であることが分かる。

With the development of LLMs, the security threats of LLMs are getting more and more attention. Numerous jailbreak attacks have been proposed to assess the security defense of LLMs. Current jailbreak attacks primarily utilize scenario camouflage techniques. However their explicitly mention of malicious intent will be easily recognized and defended by LLMs. In this paper, we propose an indirect jailbreak attack approach, Puzzler, which can bypass the LLM's defense strategy and obtain malicious response by implicitly providing LLMs with some clues about the original malicious query. In addition, inspired by the wisdom of ''When unable to attack, defend'' from Sun Tzu's Art of War, we adopt a defensive stance to gather clues about the original malicious query through LLMs. Extensive experimental results show that Puzzler achieves a query success rate of 96.6% on closed-source LLMs, which is 57.9%-82.7% higher than baselines. Furthermore, when tested against the state-of-the-art jailbreak detection approaches, Puzzler proves to be more effective at evading detection compared to baselines.
翻訳日:2024-02-15 15:55:16 公開日:2024-02-14
# 可搬確率回路の多項式意味論

Polynomial Semantics of Tractable Probabilistic Circuits ( http://arxiv.org/abs/2402.09085v1 )

ライセンス: Link先を確認
Oliver Broadrick, Honghua Zhang, Guy Van den Broeck(参考訳) 確率回路は確率分布を表す多重線形多項式を計算する。 効率的な辺縁推論をサポートする、扱いやすいモデルである。 しかし、様々な多項式意味論が文献(例えば、ネットワーク多項式、確率多項式、生成関数、フーリエ変換、特性多項式)で検討されている。 これらの分布の多項式符号化の関係はほとんど不明である。 本稿では,2進分布に対して,各確率的回路モデルが,多項式を増加させるだけで,その回路を他の回路に変換できるという意味で同値であることを示す。 したがって、それらはすべて同じ分布のクラスにおける限界推論に対して扱いやすい。 最後に,確率的生成回路(probabilistic generating circuits)と呼ばれる,そのような多項式意味論の自然拡張を分類的確率変数に適用し,限界推論が#pハードとなることを示す。

Probabilistic circuits compute multilinear polynomials that represent probability distributions. They are tractable models that support efficient marginal inference. However, various polynomial semantics have been considered in the literature (e.g., network polynomials, likelihood polynomials, generating functions, Fourier transforms, and characteristic polynomials). The relationships between these polynomial encodings of distributions is largely unknown. In this paper, we prove that for binary distributions, each of these probabilistic circuit models is equivalent in the sense that any circuit for one of them can be transformed into a circuit for any of the others with only a polynomial increase in size. They are therefore all tractable for marginal inference on the same class of distributions. Finally, we explore the natural extension of one such polynomial semantics, called probabilistic generating circuits, to categorical random variables, and establish that marginal inference becomes #P-hard.
翻訳日:2024-02-15 15:54:57 公開日:2024-02-14
# オペレーター学習のためのソボレフ訓練

Sobolev Training for Operator Learning ( http://arxiv.org/abs/2402.09084v1 )

ライセンス: Link先を確認
Namkyeong Cho, Junseung Ryu, Hyung Ju Hwang(参考訳) 本研究では,ソボレフトレーニングがモデル性能向上のためのオペレータ学習フレームワークに与える影響について検討する。 本研究は,損失関数に微分情報を統合することでトレーニングプロセスが向上することを示すとともに,演算子学習における不規則メッシュ上の微分を近似する新しい枠組みを提案する。 実験的な証拠と理論的分析の両方が得られた。 これは無限次元空間間の解作用素を近似するソボレフ訓練の有効性を示す。

This study investigates the impact of Sobolev Training on operator learning frameworks for improving model performance. Our research reveals that integrating derivative information into the loss function enhances the training process, and we propose a novel framework to approximate derivatives on irregular meshes in operator learning. Our findings are supported by both experimental evidence and theoretical analysis. This demonstrates the effectiveness of Sobolev Training in approximating the solution operators between infinite-dimensional spaces.
翻訳日:2024-02-15 15:54:43 公開日:2024-02-14
# 異常検知器の検出レイテンシ:見過ごされた視点?

Detection Latencies of Anomaly Detectors: An Overlooked Perspective ? ( http://arxiv.org/abs/2402.09082v1 )

ライセンス: Link先を確認
Tommaso Puccetti, Andrea Ceccarelli(参考訳) ICTシステムの複雑さの増大と相まって進化を続ける攻撃の状況は、異常ベースの侵入検知器(ID)とエラー検出器(ED)の製作を困難にしている。 検出能力の改善と比較は、ほとんどの研究の焦点であるが、検出のタイムラインは考慮されず、しばしば不十分に評価され、議論される。 本稿では,アタックとエラーの時間的レイテンシを計測する妥当性を議論し,誤り検出と正確かつリアルタイム検出との実用的トレードオフを保証するために,検出器の評価手法を提案する。 簡単に言うと、このアプローチは誤った陽性率と、攻撃やエラーの時間的レイテンシを関連付けるものであり、最終的に検出器の構成ガイドラインにつながる。 異なるEDおよびIDソリューションを2つの産業ケースで評価することで、我々のアプローチを適用する。 一 公共モビリティを最適化する埋設鉄道オンボードシステム 二 モノの産業用インターネットのエッジ装置 その結果, 誤検出率, 精度, カバレッジなどの従来の指標に加えて, 遅延を考慮すれば, 検出器の実際の性能に関する新たな基本的な視点が得られ, 異常検出器の評価や構成には考慮すべきである。

The ever-evolving landscape of attacks, coupled with the growing complexity of ICT systems, makes crafting anomaly-based intrusion detectors (ID) and error detectors (ED) a difficult task: they must accurately detect attacks, and they should promptly perform detections. Although improving and comparing the detection capability is the focus of most research works, the timeliness of the detection is less considered and often insufficiently evaluated or discussed. In this paper, we argue the relevance of measuring the temporal latency of attacks and errors, and we propose an evaluation approach for detectors to ensure a pragmatic trade-off between correct and in-time detection. Briefly, the approach relates the false positive rate with the temporal latency of attacks and errors, and this ultimately leads to guidelines for configuring a detector. We apply our approach by evaluating different ED and ID solutions in two industrial cases: i) an embedded railway on-board system that optimizes public mobility, and ii) an edge device for the Industrial Internet of Things. Our results show that considering latency in addition to traditional metrics like the false positive rate, precision, and coverage gives an additional fundamental perspective on the actual performance of the detector and should be considered when assessing and configuring anomaly detectors.
翻訳日:2024-02-15 15:54:36 公開日:2024-02-14
# スケーラブル半定値最適化のための低ランク外部分解法

Low-Rank Extragradient Methods for Scalable Semidefinite Optimization ( http://arxiv.org/abs/2402.09081v1 )

ライセンス: Link先を確認
Dan Garber. Atara Kaplan(参考訳) 我々は、凸目的関数(平滑あるいは非平滑)と、統計学、機械学習、組合せ最適化、その他の領域においてユビキタスな線形あるいは非線形な滑らかな凸制約の両方を含む、非常に重要な半定値最適化問題を考察する。 我々は,低位相補性条件を満たす低位解を問題とする高次元かつ妥当な設定に注目する。 これらの条件下では、最適原始双対解の近傍で初期化されるよく知られた過次法は、制約された最適化問題の解に収束し、その標準収束率を保証し、最低ケースで必要となる計算的に禁止されたフルランクSVDとは対照的に、正の半定値円錐に投影する低ランク特異値分解(SVD)のみを用いる。 我々はMax-Cutインスタンスのデータセットを用いて数値実験を行った。

We consider several classes of highly important semidefinite optimization problems that involve both a convex objective function (smooth or nonsmooth) and additional linear or nonlinear smooth and convex constraints, which are ubiquitous in statistics, machine learning, combinatorial optimization, and other domains. We focus on high-dimensional and plausible settings in which the problem admits a low-rank solution which also satisfies a low-rank complementarity condition. We provide several theoretical results proving that, under these circumstances, the well-known Extragradient method, when initialized in the proximity of an optimal primal-dual solution, converges to a solution of the constrained optimization problem with its standard convergence rates guarantees, using only low-rank singular value decompositions (SVD) to project onto the positive semidefinite cone, as opposed to computationally-prohibitive full-rank SVDs required in worst-case. Our approach is supported by numerical experiments conducted with a dataset of Max-Cut instances.
翻訳日:2024-02-15 15:54:12 公開日:2024-02-14
# ディープダブルq-ラーニングにおける推定バイアスの活用

Exploiting Estimation Bias in Deep Double Q-Learning for Actor-Critic Methods ( http://arxiv.org/abs/2402.09078v1 )

ライセンス: Link先を確認
Alberto Sinigaglia, Niccol\`o Turcato, Alberto Dalla Libera, Ruggero Carli, Gian Antonio Susto(参考訳) 本稿では,連続制御タスクにおけるアクター-クリティック手法における推定バイアスの対処と活用に着目し,deep double q-learningを用いた強化学習(rl)の革新的手法を提案する。 本稿では2つの新しいアルゴリズムを提案する。期待遅延Deep Deterministic Policy Gradient (ExpD3) と Bias Exploiting - 双遅延Deep Deterministic Policy Gradient (BE-TD3)。 ExpD3は1ドルの見積りで過大評価バイアスを減らし、計算効率と性能のバランスを提供するのに対して、BE-TD3はトレーニング中に最も有利な推定バイアスを動的に選択するように設計されている。 様々な連続制御タスクに対する広範な実験は、我々のアプローチの有効性を実証している。 これらのアルゴリズムは、特に推定バイアスが学習に大きな影響を及ぼす環境において、TD3のような既存の手法にマッチするか、超える可能性があることを示す。 その結果、rlにおける政策学習改善におけるバイアスエクスプロイジョンの重要性が示唆された。

This paper introduces innovative methods in Reinforcement Learning (RL), focusing on addressing and exploiting estimation biases in Actor-Critic methods for continuous control tasks, using Deep Double Q-Learning. We propose two novel algorithms: Expectile Delayed Deep Deterministic Policy Gradient (ExpD3) and Bias Exploiting - Twin Delayed Deep Deterministic Policy Gradient (BE-TD3). ExpD3 aims to reduce overestimation bias with a single $Q$ estimate, offering a balance between computational efficiency and performance, while BE-TD3 is designed to dynamically select the most advantageous estimation bias during training. Our extensive experiments across various continuous control tasks demonstrate the effectiveness of our approaches. We show that these algorithms can either match or surpass existing methods like TD3, particularly in environments where estimation biases significantly impact learning. The results underline the importance of bias exploitation in improving policy learning in RL.
翻訳日:2024-02-15 15:53:55 公開日:2024-02-14
# DisGNet:Gough-Stewartプラットフォームの前方運動学学習のための距離グラフニューラルネットワーク

DisGNet: A Distance Graph Neural Network for Forward Kinematics Learning of Gough-Stewart Platform ( http://arxiv.org/abs/2402.09077v1 )

ライセンス: Link先を確認
Huizhi Zhu, Wenxia Xu, Jian Huang and Jiaxin Li(参考訳) 本稿では,グラフ距離行列を学習し,Gough-Stewartプラットフォームの前方運動学問題に対処するグラフニューラルネットワークであるDisGNetを提案する。 DisGNetはk-FWLアルゴリズムをメッセージパッシングに用い、小さなパラメータ数で高い表現性を提供し、実用的な展開に適している。 さらに,DGNetの出力ポーズを改良し,超高精度なポーズを実現するために,GPU上で効率的な並列化最適化手法であるNewton-Raphson法を導入する。 この新しい2段階のアプローチは、リアルタイム要件を満たしながら超高精度な出力を提供する。 以上の結果から,disgnet は 1mm 以下の誤差精度を 79.8\% と 98.2\% で達成できることがわかった。 GPU上で実行されるように、2段階の手法はリアルタイム計算の要求を確実にする。 コードはhttps://github.com/flamezz5201/disgnetでリリースされる。

In this paper, we propose a graph neural network, DisGNet, for learning the graph distance matrix to address the forward kinematics problem of the Gough-Stewart platform. DisGNet employs the k-FWL algorithm for message-passing, providing high expressiveness with a small parameter count, making it suitable for practical deployment. Additionally, we introduce the GPU-friendly Newton-Raphson method, an efficient parallelized optimization method executed on the GPU to refine DisGNet's output poses, achieving ultra-high-precision pose. This novel two-stage approach delivers ultra-high precision output while meeting real-time requirements. Our results indicate that on our dataset, DisGNet can achieves error accuracys below 1mm and 1deg at 79.8\% and 98.2\%, respectively. As executed on a GPU, our two-stage method can ensure the requirement for real-time computation. Codes are released at https://github.com/FLAMEZZ5201/DisGNet.
翻訳日:2024-02-15 15:53:37 公開日:2024-02-14
# 脳年齢予測のための半監督拡散モデル

Semi-Supervised Diffusion Model for Brain Age Prediction ( http://arxiv.org/abs/2402.09137v1 )

ライセンス: Link先を確認
Ayodeji Ijishakin, Sophie Martin, Florence Townend, Federica Agosta, Edoardo Gioele Spinelli, Silvia Basaia, Paride Schito, Yuri Falzone, Massimo Filippi, James Cole, Andrea Malaspina(参考訳) 脳年齢予測モデルは神経変性疾患の予後予測に成功しているが、より速い進行疾患と低品質データに関わる課題に苦しむことがある。 半教師付き拡散モデルを用いて,低画質のT1w MR画像上での時系列と予測年齢の相関関係を0.83(p<0.01)とした。 これは最先端の非生成手法と競合した。 さらに, 筋萎縮性側索硬化症では生存期間(r=0.24, p<0.05)と有意な相関が認められた。 そこで本研究では,脳年齢予測の課題に対する拡散型アーキテクチャの価値を示す。

Brain age prediction models have succeeded in predicting clinical outcomes in neurodegenerative diseases, but can struggle with tasks involving faster progressing diseases and low quality data. To enhance their performance, we employ a semi-supervised diffusion model, obtaining a 0.83(p<0.01) correlation between chronological and predicted age on low quality T1w MR images. This was competitive with state-of-the-art non-generative methods. Furthermore, the predictions produced by our model were significantly associated with survival length (r=0.24, p<0.05) in Amyotrophic Lateral Sclerosis. Thus, our approach demonstrates the value of diffusion-based architectures for the task of brain age prediction.
翻訳日:2024-02-15 15:46:53 公開日:2024-02-14
# dolphcoder: 多様な多目的命令チューニングを備えたエコーロケーションコード大規模言語モデル

DolphCoder: Echo-Locating Code Large Language Models with Diverse and Multi-Objective Instruction Tuning ( http://arxiv.org/abs/2402.09136v1 )

ライセンス: Link先を確認
Yejie Wang, Keqing He, Guanting Dong, Pei Wang, Weihao Zeng, Muxi Diao, Yutao Mou, Mengdi Zhang, Jingang Wang, Xunliang Cai, Weiran Xu(参考訳) Code Large Language Models (Code LLMs)は、コード関連のタスクにおいて優れたパフォーマンスを示す。 事前訓練されたコードLLMのコード生成性能を向上させるために,いくつかの命令チューニング手法が提案されている。 本稿では,コード生成を自己評価する多種多様な命令モデル(DolphCoder)を提案する。 多様な命令ターゲットを学習し、コード生成能力を高めるためにコード評価の目的を組み合わせる。 我々のモデルはHumanEvalとMBPPベンチマークで優れた性能を達成し、将来のコード命令チューニング作業のための新しい洞察を実証する。 1) 異なる推論経路でより多様な応答を増大させることで, LLMのコード能力が向上する。 2) コードソリューションの正確性を評価する能力の向上により、それを作成する能力も向上します。

Code Large Language Models (Code LLMs) have demonstrated outstanding performance in code-related tasks. Several instruction tuning approaches have been proposed to boost the code generation performance of pre-trained Code LLMs. In this paper, we introduce a diverse instruction model (DolphCoder) with self-evaluating for code generation. It learns diverse instruction targets and combines a code evaluation objective to enhance its code generation ability. Our model achieves superior performance on the HumanEval and MBPP benchmarks, demonstrating new insights for future code instruction tuning work. Our key findings are: (1) Augmenting more diverse responses with distinct reasoning paths increases the code capability of LLMs. (2) Improving one's ability to evaluate the correctness of code solutions also enhances their ability to create it.
翻訳日:2024-02-15 15:46:35 公開日:2024-02-14
# 高非線形導波路における4波混合に基づく非慣習計算

Unconventional Computing based on Four Wave Mixing in Highly Nonlinear Waveguides ( http://arxiv.org/abs/2402.09135v1 )

ライセンス: Link先を確認
Kostas Sozos, Stavros Deligiannidis, Charis Mesaritakis, Adonis Bogris(参考訳) 本研究では、高非線形導波路の4波混合効果に基づいて、フォトニック非定常加速器を数値解析する。 提案手法は光学領域で直接非線形信号処理を行うための完全なアナログシステムとして機能する。 リッチカー誘導非線形性を利用して、入力信号の複数の非線形変換を生成し、複雑な非線形タスクを解くのに使うことができる。 まず,サンタフェのカオス時系列予測における提案手法の性能評価を行った。 このプロセッサの真のパワーは、光通信シナリオにおける全光非線形性補償において明らかにされ、消費電力と計算複雑性を低減した強力な機械学習アルゴリズムが提供するものよりも優れた結果が得られる。 最後に、FWMモジュールが、Sigmoid や rectified linear unit などの特性関数を再現できる再構成可能な非線形アクティベーションモジュールとしてどのように使用できるかを示す。

In this work we numerically analyze a photonic unconventional accelerator based on the four-wave mixing effect in highly nonlinear waveguides. The proposed scheme can act as a fully analogue system for nonlinear signal processing directly in the optical domain. By exploiting the rich Kerr-induced nonlinearities, multiple nonlinear transformations of an input signal can be generated and used for solving complex nonlinear tasks. We first evaluate the performance of our scheme in the Santa-Fe chaotic time-series prediction. The true power of this processor is revealed in the all-optical nonlinearity compensation in an optical communication scenario where we provide results superior to those offered by strong machine learning algorithms with reduced power consumption and computational complexity. Finally, we showcase how the FWM module can be used as a reconfigurable nonlinear activation module being capable of reproducing characteristic functions such as sigmoid or rectified linear unit.
翻訳日:2024-02-15 15:46:11 公開日:2024-02-14
# 弱確率ゲージ場における量子ウォーク

Quantum Walks in Weak Stochastic Gauge Fields ( http://arxiv.org/abs/2402.09133v1 )

ライセンス: Link先を確認
Jan W\'ojcik(参考訳) ランダムな量子ウォークの挙動は拡散的であることが知られている。 ここでは,弱い確率ゲージ場における離散時間量子ウォークの研究を行う。 位置およびスピン依存ゲージ場の場合、確率分布がガウスとなるとともに、弾道運動から拡散運動への遷移を観測する。 しかし、一般的な信念に反して、弱い確率ゲージ場は、シミュレーションで示し解析的に証明したデコヒーレンスにもかかわらず、ブロッホ振動の持続性を示す。 提案したモデルは、ランダムネスと量子ウォークのコヒーレントダイナミクスの相互作用に関する洞察を与える。

The behaviour of random quantum walks is known to be diffusive. Here we study discrete time quantum walks in weak stochastic gauge fields. In the case of position and spin dependent gauge field, we observe a transition from ballistic to diffusive motion, with the probability distribution becoming Gaussian. However, in contradiction to common belief, weak stochastic electric gauge fields reveal the persistence of Bloch oscillations despite decoherence which we demonstrate on simulations and prove analytically. The proposed models provide insights into the interplay between randomness and coherent dynamics of quantum walks.
翻訳日:2024-02-15 15:45:48 公開日:2024-02-14
# 大規模言語モデルの敵対的能力を探る

Exploring the Adversarial Capabilities of Large Language Models ( http://arxiv.org/abs/2402.09132v1 )

ライセンス: Link先を確認
Lukas Struppek, Minh Hieu Le, Dominik Hintersdorf, Kristian Kersting(参考訳) 大規模言語モデル(LLM)の普及は、言語生成能力の強大さにより、広く一般に関心を集め、産業と研究の両方に大きな可能性がある。 以前の研究では、LLMのセキュリティとプライバシの問題を掘り下げたものの、これらのモデルが敵対行動を示す程度は、まだ明らかにされていない。 このギャップに対処するために、一般のLLMは、テキストサンプルを摂動して安全対策を騙す能力を持っているかどうか、いわゆる逆例Respについて検討する。 攻撃。 より具体的には、LLMが本来、既存の安全レールを騙すために良質なサンプルから敵の例を作ることができるかどうかを考察する。 ヘイトスピーチ検出に着目した実験により,llmは逆行性摂動の発見に成功し,ヘイトスピーチ検出システムを効果的に損なうことが明らかとなった。 本研究は,LLMに依存する半自律システムに重要な意味を持ち,既存のシステムとの相互作用や安全対策の潜在的な課題を浮き彫りにした。

The proliferation of large language models (LLMs) has sparked widespread and general interest due to their strong language generation capabilities, offering great potential for both industry and research. While previous research delved into the security and privacy issues of LLMs, the extent to which these models can exhibit adversarial behavior remains largely unexplored. Addressing this gap, we investigate whether common publicly available LLMs have inherent capabilities to perturb text samples to fool safety measures, so-called adversarial examples resp.~attacks. More specifically, we investigate whether LLMs are inherently able to craft adversarial examples out of benign samples to fool existing safe rails. Our experiments, which focus on hate speech detection, reveal that LLMs succeed in finding adversarial perturbations, effectively undermining hate speech detection systems. Our findings carry significant implications for (semi-)autonomous systems relying on LLMs, highlighting potential challenges in their interaction with existing systems and safety measures.
翻訳日:2024-02-15 15:45:34 公開日:2024-02-14
# 市場の最適自動化 - 差別化可能な経済と強い二元性

Optimal Automated Market Makers: Differentiable Economics and Strong Duality ( http://arxiv.org/abs/2402.09129v1 )

ライセンス: Link先を確認
Michael J. Curry, Zhou Fan, David C. Parkes(参考訳) 市場メーカーの役割は、しばしば株式などの金融資産である大量の商品を特定の価格で同時に売買することである。 自動市場メーカ(AMM)は、所定のスケジュールに従って取引を行うメカニズムであり、このスケジュールの最良の選択は、市場メーカの目標に依存する。 AMMの設計に関する文献は、主に情報提供を目的とした予測市場に焦点を当てている。 defiに動機づけられた最近の研究は、利益の最大化という目標ではなく、悪質な選択を含む1種類の善(ヌメレとのトレード)のみを考慮している(milionis et al. 2022)。 複雑なバンドル行動の可能性を含む複数商品の存在下での最適市場形成は、よく理解されていない。 本稿では,最適な市場メーカを見つけることは,輸送計画に特定の幾何学的制約を課した最適な輸送問題に双対であることを示す。 本研究は,複数の商品に対する最適メカニズムがバンドルの利点となり,バンドル購入価格と販売価格が向上し,時には「何らかの」支払いを受けられることを示した。 我々は、さらに複雑な振る舞いを示す追加設定で最適メカニズムの予想を示す。 方法論学的観点からは、最適機構の予想を生成するために微分経済学の道具を本質的に利用し、そのような道具を理論的研究の指導に利用するための概念実証を与える。

The role of a market maker is to simultaneously offer to buy and sell quantities of goods, often a financial asset such as a share, at specified prices. An automated market maker (AMM) is a mechanism that offers to trade according to some predetermined schedule; the best choice of this schedule depends on the market maker's goals. The literature on the design of AMMs has mainly focused on prediction markets with the goal of information elicitation. More recent work motivated by DeFi has focused instead on the goal of profit maximization, but considering only a single type of good (traded with a numeraire), including under adverse selection (Milionis et al. 2022). Optimal market making in the presence of multiple goods, including the possibility of complex bundling behavior, is not well understood. In this paper, we show that finding an optimal market maker is dual to an optimal transport problem, with specific geometric constraints on the transport plan in the dual. We show that optimal mechanisms for multiple goods and under adverse selection can take advantage of bundling, both improved prices for bundled purchases and sales as well as sometimes accepting payment "in kind." We present conjectures of optimal mechanisms in additional settings which show further complex behavior. From a methodological perspective, we make essential use of the tools of differentiable economics to generate conjectures of optimal mechanisms, and give a proof-of-concept for the use of such tools in guiding theoretical investigations.
翻訳日:2024-02-15 15:44:28 公開日:2024-02-14
# MPIrigen:ドメイン特化言語モデルによるMPIコード生成

MPIrigen: MPI Code Generation through Domain-Specific Language Models ( http://arxiv.org/abs/2402.09126v1 )

ライセンス: Link先を確認
Nadav Schneider, Niranjan Hasabnis, Vy A. Vo, Tal Kadosh, Neva Krien, Mihai Capot\u{a}, Abdul Wasay, Guy Tamir, Ted Willke, Nesreen Ahmed, Yuval Pinter, Timothy Mattson, Gal Oren(参考訳) 多くのノードにまたがって計算をスケールする必要があることは、特にMessage Passing Interface(MPI)統合の領域において、効率的な並列コンピューティングの重要性を強調している。 MPIベースの並列プログラムを生成するという挑戦的な並列プログラミングタスクは、まだ未検討のままである。 本研究ではまず,MPIに基づく並列プログラム生成における最先端言語モデルの性能について検討する。 GPT-3.5やPolyCoder(特殊化多言語コードモデル)のような広く使われているモデルは、汎用プログラムと比較してMPIベースのプログラムを生成する際に顕著な性能低下を示す。 対照的に、MonoCoderのようなドメイン固有モデルは、CとC++のMPI関連プログラミング言語で事前訓練されており、より大きなモデルよりも優れている。 その後、HPCorpusMPI上でMonoCoderを微調整することで、MPIベースのプログラム生成のダウンストリームタスクを導入する。 結果のモデルを MPIrigen と呼ぶ。 我々は、コード全体を観察した後にのみ完了のための革新的な前処理を提案し、より広い文脈でより良い完了を可能にする。 gpt-3.5ゼロショット性能に対する新しいhpc指向評価法の比較分析により、mpirigenは位置および関数予測において0.8までの正確なmpi関数の生成に優れ、引数予測では0.9以上の精度を持つことが示された。 この調整されたソリューションの成功は、並列コンピューティングコード生成のための言語モデルの最適化において、ドメイン固有の微調整の重要性を強調し、新しい世代の自動並列化ツールへの道を開く。 この作業のソースはGitHub MPIrigenリポジトリで公開されています。

The imperative need to scale computation across numerous nodes highlights the significance of efficient parallel computing, particularly in the realm of Message Passing Interface (MPI) integration. The challenging parallel programming task of generating MPI-based parallel programs has remained unexplored. This study first investigates the performance of state-of-the-art language models in generating MPI-based parallel programs. Findings reveal that widely used models such as GPT-3.5 and PolyCoder (specialized multi-lingual code models) exhibit notable performance degradation, when generating MPI-based programs compared to general-purpose programs. In contrast, domain-specific models such as MonoCoder, which are pretrained on MPI-related programming languages of C and C++, outperform larger models. Subsequently, we introduce a dedicated downstream task of MPI-based program generation by fine-tuning MonoCoder on HPCorpusMPI. We call the resulting model as MPIrigen. We propose an innovative preprocessing for completion only after observing the whole code, thus enabling better completion with a wider context. Comparative analysis against GPT-3.5 zero-shot performance, using a novel HPC-oriented evaluation method, demonstrates that MPIrigen excels in generating accurate MPI functions up to 0.8 accuracy in location and function predictions, and with more than 0.9 accuracy for argument predictions. The success of this tailored solution underscores the importance of domain-specific fine-tuning in optimizing language models for parallel computing code generation, paving the way for a new generation of automatic parallelization tools. The sources of this work are available at our GitHub MPIrigen repository: https://github.com/Scientific-Computing-Lab-NRCN/MPI-rigen
翻訳日:2024-02-15 15:43:49 公開日:2024-02-14
# 混合出力ガウス過程潜在変数モデル

Mixed-Output Gaussian Process Latent Variable Models ( http://arxiv.org/abs/2402.09122v1 )

ライセンス: Link先を確認
James Odgers, Chrysoula Kappatou, Ruth Misener, Sarah Filippi(参考訳) この研究は、潜伏変数に応じて信号が変化するような信号分離に対するベイズ的非パラメトリックなアプローチを開発する。 我々の重要な貢献は、ガウス過程潜在変数モデル(GPLVM)を拡張して、各データポイントが複数の入力箇所で観測される既知の純粋なコンポーネント信号の重み付け和を含む場合を組み込むことである。 我々のフレームワークは、各観測の重み付けに様々な先行値を使用することができる。 この柔軟性により、分数メイクを推定するためのsum-to-one制約や、分類のためのバイナリ重みを含むユースケースを表現できます。 我々の貢献は分光学に特に関係しており、そこでは条件の変化によって、基礎となる純成分信号がサンプルからサンプルへと変化する可能性がある。 分光法と他の領域への適用性を示すために, 温度の異なる近赤外分光法データセット, 管内の流れを同定するための模擬データセット, 反射率から岩石の種類を決定するためのデータセットについて検討した。

This work develops a Bayesian non-parametric approach to signal separation where the signals may vary according to latent variables. Our key contribution is to augment Gaussian Process Latent Variable Models (GPLVMs) to incorporate the case where each data point comprises the weighted sum of a known number of pure component signals, observed across several input locations. Our framework allows the use of a range of priors for the weights of each observation. This flexibility enables us to represent use cases including sum-to-one constraints for estimating fractional makeup, and binary weights for classification. Our contributions are particularly relevant to spectroscopy, where changing conditions may cause the underlying pure component signals to vary from sample to sample. To demonstrate the applicability to both spectroscopy and other domains, we consider several applications: a near-infrared spectroscopy data set with varying temperatures, a simulated data set for identifying flow configuration through a pipe, and a data set for determining the type of rock from its reflectance.
翻訳日:2024-02-15 15:43:21 公開日:2024-02-14
# 量子チャネルによる識別におけるゼロエントロピーエンコーダと同時デコーダ

Zero-entropy encoders and simultaneous decoders in identification via quantum channels ( http://arxiv.org/abs/2402.09116v1 )

ライセンス: Link先を確認
Pau Colomer, Christian Deppe, Holger Boche, Andreas Winter(参考訳) エンコーダがランダム化を使用しない(古典的)チャネルによる決定論的識別に動機づけられ、量子チャネルによる識別の問題を再検討するが、現在ではメッセージエンコーディングが一般的な混合状態ではなく純粋な量子状態を使用する必要があるという追加の制限がある。 従来検討されていた同時復号器と一般復号器の区別と合わせて、これは異なる識別能力の2次元スペクトルを示唆しており、その振舞いは非常に異なる可能性がある。 まず、すべての4つの組み合わせ(純/混合エンコーダ、同時/一般デコーダ)が二重指数的に増大するコードサイズであり、実際に対応する識別能力は、Holevo-Schumacher-Westmoreland Theoremによって与えられる一般的な量子チャネルの古典的な伝送容量によって低い境界にあることを示す。 第2に、量子チャネルの同時識別能力は純状態符号化と同時識別能力に等しいことを示し、3つの線形順序の識別能力を残した。 一般的な識別能力は、純粋な状態エンコードされた識別能力よりも大きくなり、その結果、純粋な状態エンコードされた同時識別能力よりも大きくなります。

Motivated by deterministic identification via (classical) channels, where the encoder is not allowed to use randomization, we revisit the problem of identification via quantum channels but now with the additional restriction that the message encoding must use pure quantum states, rather than general mixed states. Together with the previously considered distinction between simultaneous and general decoders, this suggests a two-dimensional spectrum of different identification capacities, whose behaviour could a priori be very different. We demonstrate two new results as our main findings: first, we show that all four combinations (pure/mixed encoder, simultaneous/general decoder) have a double-exponentially growing code size, and that indeed the corresponding identification capacities are lower bounded by the classical transmission capacity for a general quantum channel, which is given by the Holevo-Schumacher-Westmoreland Theorem. Secondly, we show that the simultaneous identification capacity of a quantum channel equals the simultaneous identification capacity with pure state encodings, thus leaving three linearly ordered identification capacities. By considering some simple examples, we finally show that these three are all different: general identification capacity can be larger than pure-state-encoded identification capacity, which in turn can be larger than pure-state-encoded simultaneous identification capacity.
翻訳日:2024-02-15 15:43:02 公開日:2024-02-14
# 政策空間における最適輸送による強化学習の探索測定

Measuring Exploration in Reinforcement Learning via Optimal Transport in Policy Space ( http://arxiv.org/abs/2402.09113v1 )

ライセンス: Link先を確認
Reabetswe M. Nkhumise, Debabrota Basu, Tony J. Prescott, Aditya Gilra(参考訳) 探索は、学習の速度と成功を決定する強化学習(RL)の鍵となる要素である。 本稿では,Reinforcement Learning (RL)アルゴリズムによって達成された探索と学習の量を定量化し,比較する。 具体的には、RLの初期データ分布を対応する最終データ分布に変換する教師付き学習(SL)と比較して、RLアルゴリズムによる知識伝達(伝達可能性)の相対的な労力を定量化する探索指標を提案する。 この比較は、RLにおける学習をSLタスクのシーケンスとして定式化し、最適なトランスポートベースのメトリクスを用いて、データ分散空間においてRLとSLアルゴリズムがトラバースする全パスを比較することによって確立される。 我々は,RLアルゴリズムの探索行動に関する洞察を探索指標が得られることを示すために,様々な環境および複数のアルゴリズムで広範な実験分析を行い,また,RLアルゴリズムの探索行動を比較することができる。

Exploration is the key ingredient of reinforcement learning (RL) that determines the speed and success of learning. Here, we quantify and compare the amount of exploration and learning accomplished by a Reinforcement Learning (RL) algorithm. Specifically, we propose a novel measure, named Exploration Index, that quantifies the relative effort of knowledge transfer (transferability) by an RL algorithm in comparison to supervised learning (SL) that transforms the initial data distribution of RL to the corresponding final data distribution. The comparison is established by formulating learning in RL as a sequence of SL tasks, and using optimal transport based metrics to compare the total path traversed by the RL and SL algorithms in the data distribution space. We perform extensive empirical analysis on various environments and with multiple algorithms to demonstrate that the exploration index yields insights about the exploration behaviour of any RL algorithm, and also allows us to compare the exploratory behaviours of different RL algorithms.
翻訳日:2024-02-15 15:42:38 公開日:2024-02-14
# 確率スパイク注意:スパイクネットワークにおける確率コンピューティングによる注意の促進

Stochastic Spiking Attention: Accelerating Attention with Stochastic Computing in Spiking Networks ( http://arxiv.org/abs/2402.09109v1 )

ライセンス: Link先を確認
Zihang Song, Prabodh Katti, Osvaldo Simeone, Bipin Rajendran(参考訳) スパイキングニューラルネットワーク(SNN)は、計算要求の削減と電力効率の向上のため、最近Transformerアーキテクチャに統合されている。 しかし、汎用コンピューティングプラットフォームにおけるスパイク信号を用いた注意機構の実装は、いまだに非効率である。 本稿では,SNNベースのトランスフォーマーのドット積アテンションを効果的に実行するために,確率計算(SC)を利用した新しいフレームワークを提案する。 この手法は10時間以内に高い分類精度(83.53\%$)をcifar-10上で達成できることを実証する。これはベースラインのニューラルネットワーク実装(83.66\%$)の性能に匹敵するものである。 我々は、提案したSCアプローチは、コンピューティングエネルギーの6.3倍の削減と、デジタルCMOSベースのASIC設計のメモリアクセスコストの1.7倍の削減につながると見積もっている。 我々はFPGA実装による確率的アテンションブロック設計を実験的に検証し、GPU実装と比較して48\times$低レイテンシを実現するとともに、15\times$低電力を消費することを示した。

Spiking Neural Networks (SNNs) have been recently integrated into Transformer architectures due to their potential to reduce computational demands and to improve power efficiency. Yet, the implementation of the attention mechanism using spiking signals on general-purpose computing platforms remains inefficient. In this paper, we propose a novel framework leveraging stochastic computing (SC) to effectively execute the dot-product attention for SNN-based Transformers. We demonstrate that our approach can achieve high classification accuracy ($83.53\%$) on CIFAR-10 within 10 time steps, which is comparable to the performance of a baseline artificial neural network implementation ($83.66\%$). We estimate that the proposed SC approach can lead to over $6.3\times$ reduction in computing energy and $1.7\times$ reduction in memory access costs for a digital CMOS-based ASIC design. We experimentally validate our stochastic attention block design through an FPGA implementation, which is shown to achieve $48\times$ lower latency as compared to a GPU implementation, while consuming $15\times$ less power.
翻訳日:2024-02-15 15:42:22 公開日:2024-02-14
# Web 3.0と量子セキュリティ:グローバルWeb 3.0ネットワークのための長距離無料空間QSDC

Web 3.0 and Quantum Security: Long-Distance Free-Space QSDC for Global Web 3.0 Networks ( http://arxiv.org/abs/2402.09108v1 )

ライセンス: Link先を確認
Yew Kee Wong, Yifan Zhou, Xinlin Zhou, Yan Shing Liang, Zi Yan Li(参考訳) web 3.0の登場により、テクノロジーの急速な進歩は量子コンピューティングから差し迫った脅威に直面している。 web 2.0とweb 3.0の完全性を保護するセキュリティプロトコルは、量子攻撃と洗練された古典的脅威の両方の影響を受けやすくなっている。 本稿では、量子および古典的文脈におけるセキュリティ侵害に対する保護方法として、長距離自由空間量子セキュアダイレクト通信(LF QSDC)を紹介する。 LF QSDCは量子鍵分布(QKD)のような技術と異なり、暗号化されたデータ転送が鍵交換を妨害し、鍵ベースのシステム固有の弱点を減らし、制約を超える。 この属性の特異性は、量子力学ベースと相まって、量子コンピュータの暴行や高度な非量子危険から保護し、Web 3.0時代の信頼できないテネットとシームレスに調和する。 本研究の焦点は、LF QSDCをネットワークインフラに組み込むことであり、メモリDL04プロトコル、量子認識低密度パリティチェック(LDPC)、ポインティング、取得、追跡(PAT)技術による拡張範囲通信の有効性を強調している。 この手法を利用することで、世界中のWeb 3.0ネットワークのセキュリティを高めるだけでなく、量子的および洗練された古典的脅威が同時に存在する時代にも、その持続性を保証する。 その結果、LF QSDCは、常に進化するデジタル環境の中で、Web 3.0システムに適した堅牢なセキュリティソリューションとして際立っている。

With the advent of Web 3.0, the swift advancement of technology confronts an imminent threat from quantum computing. Security protocols safeguarding the integrity of Web 2.0 and Web 3.0 are growing more susceptible to both quantum attacks and sophisticated classical threats. The article introduces long-distance free-space quantum secure direct communication (LF QSDC) as a method to safeguard against security breaches in both quantum and classical contexts. Differing from techniques like quantum key distribution (QKD), LF QSDC surpasses constraints by facilitating encrypted data transmission sans key exchanges, thus diminishing the inherent weaknesses of key-based systems. The distinctiveness of this attribute, coupled with its quantum mechanics base, protects against quantum computer assaults and advanced non-quantum dangers, harmonizing seamlessly with the untrustworthy tenets of the Web 3.0 age. The focus of our study is the incorporation of LF QSDC into network infrastructures, highlighting its efficacy for extended-range communication via memory DL04 protocol, quantum-aware low-density parity check (LDPC), and pointing, acquisition, and tracking (PAT) technologies. Utilizing this method not only bolsters the security of worldwide Web 3.0 networks but also guarantees their endurance in a time when quantum and sophisticated classical threats exist simultaneously. Consequently, LF QSDC stands out as a robust security solution, well-suited for Web 3.0 systems amidst the constantly evolving digital environment.
翻訳日:2024-02-15 15:42:02 公開日:2024-02-14
# 頭部: 部分閉塞型マルチモーダルデータセットによる人間の感情認識

Headset: Human emotion awareness under partial occlusions multimodal dataset ( http://arxiv.org/abs/2402.09107v1 )

ライセンス: Link先を確認
Fatemeh Ghorbani Lohesara, Davi Rabbouni Freitas, Christine Guillemot, Karen Eguiazarian, Sebastian Knorr(参考訳) 人間の相互作用の体積表現は、没入型メディア制作と通信アプリケーションの開発における基本的な領域の1つである。 特に、拡張現実感(XR)アプリケーションの急速な進歩の状況において、このボリュームデータは将来のXR開発に欠かせない技術であることが証明されている。 本研究では,没入型技術の発展を支援するため,新しいマルチモーダルデータベースを提案する。 提案するデータベースは, 倫理的に適合し, 多様なボリュームデータを提供する。特に27名の参加者は, 表情や微妙な体の動きを話しながら表示し, 11名の参加者は頭部ディスプレイ (hmd) を着用している。 録音システムにはボリュームキャプチャ(vocap)スタジオがあり、31の同期モジュールと62のrgbカメラ、31の深度カメラがある。 テクスチャメッシュ,点雲,マルチビューRGB-Dデータに加えて,Lytro Illumカメラを用いて光フィールド(LF)データを同時に提供する。 最後に,表情分類やHMDの除去,点群再構成といったタスクに関して,データセットの利用状況を評価する。 このデータセットは、表情認識と再構成、顔の再現、ボリュームビデオなど、さまざまなXRアルゴリズムの評価とパフォーマンステストに役立てることができる。 HEADSETとその関連するすべての生データおよびライセンス契約は、研究目的で公開されている。

The volumetric representation of human interactions is one of the fundamental domains in the development of immersive media productions and telecommunication applications. Particularly in the context of the rapid advancement of Extended Reality (XR) applications, this volumetric data has proven to be an essential technology for future XR elaboration. In this work, we present a new multimodal database to help advance the development of immersive technologies. Our proposed database provides ethically compliant and diverse volumetric data, in particular 27 participants displaying posed facial expressions and subtle body movements while speaking, plus 11 participants wearing head-mounted displays (HMDs). The recording system consists of a volumetric capture (VoCap) studio, including 31 synchronized modules with 62 RGB cameras and 31 depth cameras. In addition to textured meshes, point clouds, and multi-view RGB-D data, we use one Lytro Illum camera for providing light field (LF) data simultaneously. Finally, we also provide an evaluation of our dataset employment with regard to the tasks of facial expression classification, HMDs removal, and point cloud reconstruction. The dataset can be helpful in the evaluation and performance testing of various XR algorithms, including but not limited to facial expression recognition and reconstruction, facial reenactment, and volumetric video. HEADSET and its all associated raw data and license agreement will be publicly available for research purposes.
翻訳日:2024-02-15 15:41:36 公開日:2024-02-14
# 衛星クラスタを用いたオンボードフェデレーション学習のスケジューリング

Scheduling for On-Board Federated Learning with Satellite Clusters ( http://arxiv.org/abs/2402.09105v1 )

ライセンス: Link先を確認
Nasrin Razmi, Bho Matthiesen, Armin Dekorsy, Petar Popovski(参考訳) 小さな衛星のメガコンステレーションは、大量の貴重なデータの源へと進化してきた。 このデータを効率的に管理するために、on-board federated learning(fl)は、衛星が生データを共有せずに機械学習(ml)モデルを協調的に訓練できるようにする。 本稿では,衛星間リンクに接続された星座のFLのスケジューリング手法を提案する。 提案手法では、衛星と地上局(gs)の間の予測可能な可視性パターンを、個々の衛星レベルでも軌道全体の累積的にも活用し、断続的な接続を緩和し、利用可能な時間を最善に利用する。 この目的のために、2つの異なるスケジューラが用いられており、1つは軌道間のfl手順を調整し、もう1つは軌道内の手順を制御する。 これら2つのスケジューラは、gsでグローバルアップデートを行う適切な時間を決定し、次のグローバルアップデートまで使用可能な時間に比例して、各軌道内の衛星に適切な期間を割り当てる。 この方式により、短時間でテスト精度が向上する。

Mega-constellations of small satellites have evolved into a source of massive amount of valuable data. To manage this data efficiently, on-board federated learning (FL) enables satellites to train a machine learning (ML) model collaboratively without having to share the raw data. This paper introduces a scheme for scheduling on-board FL for constellations connected with intra-orbit inter-satellite links. The proposed scheme utilizes the predictable visibility pattern between satellites and ground station (GS), both at the individual satellite level and cumulatively within the entire orbit, to mitigate intermittent connectivity and best use of available time. To this end, two distinct schedulers are employed: one for coordinating the FL procedures among orbits, and the other for controlling those within each orbit. These two schedulers cooperatively determine the appropriate time to perform global updates in GS and then allocate suitable duration to satellites within each orbit for local training, proportional to usable time until next global update. This scheme leads to improved test accuracy within a shorter time.
翻訳日:2024-02-15 15:41:14 公開日:2024-02-14
# 重み付けによる大規模言語モデルへの攻撃

Attacking Large Language Models with Projected Gradient Descent ( http://arxiv.org/abs/2402.09154v1 )

ライセンス: Link先を確認
Simon Geisler, Tom Wollschl\"ager, M. H. I. Abdalla, Johannes Gasteiger, Stephan G\"unnemann(参考訳) 現在のLLMアライメント法は、特定の対向プロンプトによって容易に破壊される。 個別最適化を用いた攻撃プロンプトの作成は極めて効果的であるが、そのような攻撃は通常10万回以上のllm呼び出しを使用する。 この高い計算コストは、例えば定量的解析や逆行訓練に不適当である。 これを改善するために、連続的に緩和された入力プロンプトに投影された勾配降下(PGD)を再検討する。 従来のグラデーションベース攻撃は, ほとんど失敗に終わったが, 連続緩和による誤差を慎重に制御することは, 有効性を著しく向上させることを示した。 LLMのPGDは、同じ破壊的な攻撃結果を達成するために、最先端の離散最適化よりも最大1桁高速である。

Current LLM alignment methods are readily broken through specifically crafted adversarial prompts. While crafting adversarial prompts using discrete optimization is highly effective, such attacks typically use more than 100,000 LLM calls. This high computational cost makes them unsuitable for, e.g., quantitative analyses and adversarial training. To remedy this, we revisit Projected Gradient Descent (PGD) on the continuously relaxed input prompt. Although previous attempts with ordinary gradient-based attacks largely failed, we show that carefully controlling the error introduced by the continuous relaxation tremendously boosts their efficacy. Our PGD for LLMs is up to one order of magnitude faster than state-of-the-art discrete optimization to achieve the same devastating attack results.
翻訳日:2024-02-15 15:35:24 公開日:2024-02-14
# 遅延フィードバックによるバンド凸最適化のレグレットの改善

Improved Regret for Bandit Convex Optimization with Delayed Feedback ( http://arxiv.org/abs/2402.09152v1 )

ライセンス: Link先を確認
Yuanyu Wan and Chang Yao and Mingli Song and Lijun Zhang(参考訳) 遅延フィードバックを伴う帯域幅凸最適化(BCO)について検討し,任意の遅延の下で動作の損失値のみを明らかにする。 これまでの研究では、古典的帯域勾配勾配(BGD)アルゴリズムに遅延損失値を単純に供給することで、$d$が最大遅延である問題に対して$O(T^{3/4}+d^{1/3}T^{2/3})の後悔境界を確立している。 本稿では,ブロッカー更新機構により遅延したバンディットフィードバックを慎重に活用し,後悔感を高める新しいアルゴリズムを開発した。 解析の結果,提案アルゴリズムは遅延の結合効果と後悔に対する包括的フィードバックを分離し,凸関数に対して$O(T^{3/4}+\sqrt{dT})$に制限された後悔を改善することができることがわかった。 以前の結果と比較すると、我々の後悔は、BGD の非遅延設定である $d=O(\sqrt{T})$ に一致し、$d=O(T^{1/4})$ の代わりに $d=O(T^{1/4})$ となる。 さらに、凸関数が強い場合を考え、提案アルゴリズムが$O(T^{2/3}\log^{1/3}T+d\log T)$のより良い後悔境界を享受できることを示す。 最後に、制約のない作用集合を持つ特別な場合において、強凸かつ滑らかな函数に対して$O(\sqrt{T\log T}+d\log T)$の後悔境界を達成するように簡単に拡張できることを示す。

We investigate bandit convex optimization (BCO) with delayed feedback, where only the loss value of the action is revealed under an arbitrary delay. Previous studies have established a regret bound of $O(T^{3/4}+d^{1/3}T^{2/3})$ for this problem, where $d$ is the maximum delay, by simply feeding delayed loss values to the classical bandit gradient descent (BGD) algorithm. In this paper, we develop a novel algorithm to enhance the regret, which carefully exploits the delayed bandit feedback via a blocking update mechanism. Our analysis first reveals that the proposed algorithm can decouple the joint effect of the delays and bandit feedback on the regret, and improve the regret bound to $O(T^{3/4}+\sqrt{dT})$ for convex functions. Compared with the previous result, our regret matches the $O(T^{3/4})$ regret of BGD in the non-delayed setting for a larger amount of delay, i.e., $d=O(\sqrt{T})$, instead of $d=O(T^{1/4})$. Furthermore, we consider the case with strongly convex functions, and prove that the proposed algorithm can enjoy a better regret bound of $O(T^{2/3}\log^{1/3}T+d\log T)$. Finally, we show that in a special case with unconstrained action sets, it can be simply extended to achieve a regret bound of $O(\sqrt{T\log T}+d\log T)$ for strongly convex and smooth functions.
翻訳日:2024-02-15 15:35:13 公開日:2024-02-14
# 中国のメンタルバー:中国メンタルヘルステキスト分析のためのソーシャルメディアにおけるドメイン適応型プレトレーニング

Chinese MentalBERT: Domain-Adaptive Pre-training on Social Media for Chinese Mental Health Text Analysis ( http://arxiv.org/abs/2402.09151v1 )

ライセンス: Link先を確認
Wei Zhai, Hongzhi Qi, Qing Zhao, Jianqiang Li, Ziqi Wang, Han Wang, Bing Xiang Yang, Guanghui Fu(参考訳) 現在の環境では、心理的な問題が広く広まり、ソーシャルメディアが個人の感情を共有するための重要な出口となっている。 これにより、毎日大量のデータが生成され、負の感情が危機的状況を引き起こす可能性がある。 効率的な分析が可能なモデルの必要性は認識されている。 事前訓練された言語モデルは、その効果を広く証明しているが、心理学のような専門分野に適した事前訓練されたモデルには顕著なギャップがある。 これに対処するために、中国のソーシャルメディアプラットフォームから巨大なデータセットを収集し、公開データセットで強化し、3億3600万のテキストエントリを含む包括的なデータベースを作成しました。 モデルの心理的テキスト解析への適用性を高めるため,事前学習マスキング機構に心理的レキシコンを組み込んだ。 既存の中国語モデルに基づいて,心理領域に特化したモデルを開発するための適応訓練を行った。 4つの公開ベンチマークでモデルの有効性を評価し,標準的な事前学習モデルの性能を上回るだけでなく,心理的に関連する予測を行う傾向を示した。 データプライバシーに関する懸念のため、データセットは公開されない。 しかし、トレーニング済みのモデルとコードは、https://github.com/zwzzzqaq/ chinese-mentalbert.com/でコミュニティに公開されています。

In the current environment, psychological issues are prevalent and widespread, with social media serving as a key outlet for individuals to share their feelings. This results in the generation of vast quantities of data daily, where negative emotions have the potential to precipitate crisis situations. There is a recognized need for models capable of efficient analysis. While pre-trained language models have demonstrated their effectiveness broadly, there's a noticeable gap in pre-trained models tailored for specialized domains like psychology. To address this, we have collected a huge dataset from Chinese social media platforms and enriched it with publicly available datasets to create a comprehensive database encompassing 3.36 million text entries. To enhance the model's applicability to psychological text analysis, we integrated psychological lexicons into the pre-training masking mechanism. Building on an existing Chinese language model, we performed adaptive training to develop a model specialized for the psychological domain. We assessed our model's effectiveness across four public benchmarks, where it not only surpassed the performance of standard pre-trained models but also showed a inclination for making psychologically relevant predictions. Due to concerns regarding data privacy, the dataset will not be made publicly available. However, we have made the pre-trained models and codes publicly accessible to the community via: https://github.com/zwzzzQAQ/Chinese-MentalBERT.
翻訳日:2024-02-15 15:34:37 公開日:2024-02-14
# 未知の世界へ: 自己学習型大規模言語モデル

Into the Unknown: Self-Learning Large Language Models ( http://arxiv.org/abs/2402.09147v1 )

ライセンス: Link先を確認
Teddy Ferdinan, Jan Koco\'n, Przemys{\l}aw Kazienko(参考訳) 自己学習 LLM の主な課題は,何を学ぶべきかという問題である。 llmは,自己の幻覚を自己評価することで,既知の知識を独立的に学習できる自己学習型llmフレームワークを提案する。 幻覚スコアを用いて「未知の点」(PiU)の新たな概念を導入し,1つの外在的および3つの内在的手法を用いて自動PiUを同定する。 これは、The Unknownのポイントにおける知識ギャップにのみ焦点をあてた自己学習ループの作成を促進し、幻覚のスコアを減少させる。 LLMの自己学習能力向上のための評価指標も開発した。 実験の結果,微調整あるいは整列された7B-ミストラルモデルでは,自己学習が極めて良好であることがわかった。 我々の自己学習の概念は、より効率的なLLM更新を可能にし、知識交換のための新しい視点を開放します。 また、AIに対する公的な信頼を高めることもできる。

We address the main problem of self-learning LLM: the question of what to learn. We propose a self-learning LLM framework that enables an LLM to independently learn previously unknown knowledge through self-assessment of their own hallucinations. Using the hallucination score, we introduce a new concept of Points in The Unknown (PiUs), along with one extrinsic and three intrinsic methods for automatic PiUs identification. It facilitates the creation of a self-learning loop that focuses exclusively on the knowledge gap in Points in The Unknown, resulting in a reduced hallucination score. We also developed evaluation metrics for gauging an LLM's self-learning capability. Our experiments revealed that 7B-Mistral models that have been finetuned or aligned are capable of self-learning considerably well. Our self-learning concept allows more efficient LLM updates and opens new perspectives for knowledge exchange. It may also increase public trust in AI.
翻訳日:2024-02-15 15:34:16 公開日:2024-02-14
# ResQuNNs:量子畳み込みニューラルネットワークにおけるディープラーニングの実現に向けて

ResQuNNs:Towards Enabling Deep Learning in Quantum Convolution Neural Networks ( http://arxiv.org/abs/2402.09146v1 )

ライセンス: Link先を確認
Muhammad Kashif, Muhammad Shafique(参考訳) 本稿では,学習可能な量子畳み込み層を導入することで,量子畳み込みニューラルネットワーク(qunn)の性能を向上させるための新しい枠組みを提案する。 伝統的な量子畳み込み層は特徴抽出に有用であるが、ほとんどが静的であり、適応性は限られている。 state-of-the-artとは異なり、この制限を克服した研究は、これらの層内でのトレーニングを可能にし、qunnの柔軟性と可能性を大幅に向上させます。 しかし、複数のトレーニング可能な量子畳み込み層の導入は勾配に基づく最適化の複雑さを招き、主にこれらの層をまたがる勾配へのアクセスが困難である。 そこで本研究では,新しいアーキテクチャであるresqunnを提案する。resqunnは,層間へのスキップ接続の追加により勾配の流れを容易にする残差学習の概念を活用している。 量子化層間に残差ブロックを挿入することにより,ネットワーク全体への勾配アクセスが向上し,トレーニング性能が向上する。 さらに,これらの残留ブロックの戦略的配置に関する実証的証拠を提供する。 大規模な実験により,残差ブロックの効率的な構成が特定され,ネットワーク内のすべての層をまたがる勾配が実現され,結果として効率のよいトレーニングがもたらされる。 本研究は, 残差ブロックの正確な位置がQuNNの性能向上の最大化に重要であることを示唆する。 我々の結果は、量子深層学習の進化における大きな一歩であり、理論開発と実用的な量子コンピューティングアプリケーションの両方に新しい道のりを提供する。

In this paper, we present a novel framework for enhancing the performance of Quanvolutional Neural Networks (QuNNs) by introducing trainable quanvolutional layers and addressing the critical challenges associated with them. Traditional quanvolutional layers, although beneficial for feature extraction, have largely been static, offering limited adaptability. Unlike state-of-the-art, our research overcomes this limitation by enabling training within these layers, significantly increasing the flexibility and potential of QuNNs. However, the introduction of multiple trainable quanvolutional layers induces complexities in gradient-based optimization, primarily due to the difficulty in accessing gradients across these layers. To resolve this, we propose a novel architecture, Residual Quanvolutional Neural Networks (ResQuNNs), leveraging the concept of residual learning, which facilitates the flow of gradients by adding skip connections between layers. By inserting residual blocks between quanvolutional layers, we ensure enhanced gradient access throughout the network, leading to improved training performance. Moreover, we provide empirical evidence on the strategic placement of these residual blocks within QuNNs. Through extensive experimentation, we identify an efficient configuration of residual blocks, which enables gradients across all the layers in the network that eventually results in efficient training. Our findings suggest that the precise location of residual blocks plays a crucial role in maximizing the performance gains in QuNNs. Our results mark a substantial step forward in the evolution of quantum deep learning, offering new avenues for both theoretical development and practical quantum computing applications.
翻訳日:2024-02-15 15:34:00 公開日:2024-02-14
# 格子ハミルトニアンと量子プロセッサ内のひずみ相互作用

Lattice Hamiltonians and Stray Interactions Within Quantum Processors ( http://arxiv.org/abs/2402.09145v1 )

ライセンス: Link先を確認
Xuexin Xu, Manabputra, Chlo\'e Vignes, Mohammad H. Ansari and John Martinis(参考訳) ストライカップリングとして知られる量子ビット間の意図しない相互作用はゲート操作に悪影響を及ぼし、エラーを引き起こす。 本研究は,格子ハミルトニアンを量子回路設計に組み込むことの重要性を強調した。 3体と2体のストレイカップリングの強度を比較することで、2量子ビットゲートの忠実性を高めるのに役立つ非自明な回路パラメータドメインを同定する。 さらに、量子コンピューティングに関連するパラメータ空間内での2体ZZZ相互作用を3体ZZZ相互作用が超越する事例を示し、量子コンピューティング技術の進歩に不可欠な新しいマルチキュービットゲートの設計に格子ハミルトニアンを用いることの可能性を示した。

Unintended interactions between qubits, known as stray couplings, negatively impact gate operations, leading to errors. This study highlights the significance of incorporating the lattice Hamiltonian into quantum circuit design. By comparing the intensity of three-body versus two-body stray couplings, we identify non-trivial circuit parameter domains that help to enhance fidelity of two-qubit gates. Additionally, we demonstrate instances where three-body ZZZ interactions surpass two-body ZZ interactions within the parameter space relevant to quantum computing, indicating the potential use of lattice Hamiltonian for designing novel multi-qubit gates essential for advancing quantum computing technologies.
翻訳日:2024-02-15 15:33:33 公開日:2024-02-14
# 表現アライメント:表現学習ダイナミクスにおける普遍性

When Representations Align: Universality in Representation Learning Dynamics ( http://arxiv.org/abs/2402.09142v1 )

ライセンス: Link先を確認
Loek van Rossem, Andrew M. Saxe(参考訳) ディープニューラルネットワークには、さまざまなサイズとアーキテクチャがある。 アーキテクチャの選択は、データセットと学習アルゴリズムと共に、学習した神経表現に影響を与えると一般的に理解されている。 しかし、最近の研究では、異なるアーキテクチャが質的な類似性を示す表現を学ぶことが示されている。 ここでは,入力から隠れ表現への符号化写像と表現から出力への復号写像が任意の滑らかな関数であることを仮定して,表現学習の効果的な理論を導出する。 この理論は、隠れた表現がパラメトリゼーションによって強く制約されない複雑な大規模アーキテクチャの体系における表現学習力学をスキーマ化する。 実験を通して,活性化関数とアーキテクチャの異なる深層ネットワークにおける表現学習のダイナミクスの側面を効果的に記述し,豊かな状態と怠慢な状態に類似した現象を示す。 多くのネットワーク動作はアーキテクチャに定量的に依存するが、モデルが十分に柔軟であれば広く保存される特定の挙動を指摘する。

Deep neural networks come in many sizes and architectures. The choice of architecture, in conjunction with the dataset and learning algorithm, is commonly understood to affect the learned neural representations. Yet, recent results have shown that different architectures learn representations with striking qualitative similarities. Here we derive an effective theory of representation learning under the assumption that the encoding map from input to hidden representation and the decoding map from representation to output are arbitrary smooth functions. This theory schematizes representation learning dynamics in the regime of complex, large architectures, where hidden representations are not strongly constrained by the parametrization. We show through experiments that the effective theory describes aspects of representation learning dynamics across a range of deep networks with different activation functions and architectures, and exhibits phenomena similar to the "rich" and "lazy" regime. While many network behaviors depend quantitatively on architecture, our findings point to certain behaviors that are widely conserved once models are sufficiently flexible.
翻訳日:2024-02-15 15:33:20 公開日:2024-02-14
# ストラテジックテキスト拡張によるNLPモデルの強化:拡張方法とカリキュラム戦略の総合的研究

Advancing NLP Models with Strategic Text Augmentation: A Comprehensive Study of Augmentation Methods and Curriculum Strategies ( http://arxiv.org/abs/2402.09141v1 )

ライセンス: Link先を確認
Himmet Toprak Kesgin, Mehmet Fatih Amasyali(参考訳) 本研究は,これらの手法の信頼性,一般化された証拠の欠如に対処するため,各種データセットおよび自然言語処理(NLP)タスクにおけるテキスト拡張手法の徹底的な評価を行う。 トピック分類や感情分析,攻撃的言語検出などのタスクにおいて,これらの手法がトレーニングセットを増強し,パフォーマンスを向上させる効果について検討した。 この研究は、強化方法だけでなく、実例と拡張インスタンスがトレーニング中に導入される戦略的順序も強調している。 拡張データセットのための改良型循環型カリキュラム学習(modified cyclical curriculum learning, mccl)の開発と評価が大きな貢献である。 その結果,特にMCCLと統合した場合には,NLPモデルの性能において,従来のトレーニング手法よりも優れていた。 これらの結果は、様々なNLPタスクにおける速度と品質改善のバランスを最適化するための強化手法とシーケンシング戦略を慎重に選択する必要性を浮き彫りにした。 本研究は,特にMCCLと併用した拡張手法を用いることで,様々な分類課題の成果が向上し,NLPにおけるテキスト拡張戦略の今後の進歩の基盤となることを結論付けている。

This study conducts a thorough evaluation of text augmentation techniques across a variety of datasets and natural language processing (NLP) tasks to address the lack of reliable, generalized evidence for these methods. It examines the effectiveness of these techniques in augmenting training sets to improve performance in tasks such as topic classification, sentiment analysis, and offensive language detection. The research emphasizes not only the augmentation methods, but also the strategic order in which real and augmented instances are introduced during training. A major contribution is the development and evaluation of Modified Cyclical Curriculum Learning (MCCL) for augmented datasets, which represents a novel approach in the field. Results show that specific augmentation methods, especially when integrated with MCCL, significantly outperform traditional training approaches in NLP model performance. These results underscore the need for careful selection of augmentation techniques and sequencing strategies to optimize the balance between speed and quality improvement in various NLP tasks. The study concludes that the use of augmentation methods, especially in conjunction with MCCL, leads to improved results in various classification tasks, providing a foundation for future advances in text augmentation strategies in NLP.
翻訳日:2024-02-15 15:33:04 公開日:2024-02-14
# オンラインクラスタリングのためのboltzmann machine-kohonenネットワークの進化

Evolving Restricted Boltzmann Machine-Kohonen Network for Online Clustering ( http://arxiv.org/abs/2402.09167v1 )

ライセンス: Link先を確認
J. Senthilnath, Adithya Bhattiprolu, Ankur Singh, Bangjian Zhou, Min Wu, J\'on Atli Benediktsson, Xiaoli Li(参考訳) Evolving Restricted Boltzmann Machine (ERBM) が ERBM-KNet と呼ばれるコホーネンネットワークに埋め込まれた新しいオンラインクラスタリングアルゴリズムが提示される。 提案するERBM-KNetは,KNetを用いたクラスタ予測とクラスタセンター更新のためのクラスタ更新戦略に基づくオンラインクラスタリングに加えて,ニューロンの成長・切断のためのバイアス分散戦略を用いて,ERBMを用いたシングルパスモードでのストリーミングデータを効率的に処理する。 当初、ERBMはラベルのない画像データを処理しながらアーキテクチャを進化させ、潜在空間におけるデータ分散を効果的に切り離す。 その後、KNetはERBMから抽出した機能を使用してクラスタ数を予測し、クラスタセンターを更新する。 クラスタ数の事前初期化やサブパークラスタリングの精度といったクラスタリングアルゴリズムに関連する一般的な課題を克服することで、提案されたERBM-KNetは大幅に改善される。 4つのベンチマークと1つの業界データセットに対する大規模な実験的評価は、最先端のアプローチと比較してERBM-KNetの優位性を示している。

A novel online clustering algorithm is presented where an Evolving Restricted Boltzmann Machine (ERBM) is embedded with a Kohonen Network called ERBM-KNet. The proposed ERBM-KNet efficiently handles streaming data in a single-pass mode using the ERBM, employing a bias-variance strategy for neuron growing and pruning, as well as online clustering based on a cluster update strategy for cluster prediction and cluster center update using KNet. Initially, ERBM evolves its architecture while processing unlabeled image data, effectively disentangling the data distribution in the latent space. Subsequently, the KNet utilizes the feature extracted from ERBM to predict the number of clusters and updates the cluster centers. By overcoming the common challenges associated with clustering algorithms, such as prior initialization of the number of clusters and subpar clustering accuracy, the proposed ERBM-KNet offers significant improvements. Extensive experimental evaluations on four benchmarks and one industry dataset demonstrate the superiority of ERBM-KNet compared to state-of-the-art approaches.
翻訳日:2024-02-15 15:31:23 公開日:2024-02-14
# 離散更新プロセス混合液の脱インターリーブと電子支援対策への応用

Deinterleaving of Discrete Renewal Process Mixtures with Application to Electronic Support Measures ( http://arxiv.org/abs/2402.09166v1 )

ライセンス: Link先を確認
Jean Pinsolle, Olivier Goudet, Cyrille Enderli, Sylvain Lamprier and Jin-Kao Hao(参考訳) 本稿では,離散更新マルコフ鎖の混合に対する新しい解インターリーブ法を提案する。 この方法は、ペナル化確率スコアの最大化に依存する。 異なるシンボルのシーケンスと到着時間の両方について利用可能なすべての情報を利用する。 このスコアを最小化することで、成分過程の穏やかな条件下で、大きなサンプル限界におけるシンボルの真の分割を回復できることを示す理論的解析が行われた。 この理論解析は、合成データの実験によって検証される。 最後に, 異なるエミッタから受信したパルス列をresm(radar electronic support measurement)コンテキストで分離し, 提案手法がシミュレーション戦闘データセットにおける最先端手法と有利に競合することを示す。

In this paper, we propose a new deinterleaving method for mixtures of discrete renewal Markov chains. This method relies on the maximization of a penalized likelihood score. It exploits all available information about both the sequence of the different symbols and their arrival times. A theoretical analysis is carried out to prove that minimizing this score allows to recover the true partition of symbols in the large sample limit, under mild conditions on the component processes. This theoretical analysis is then validated by experiments on synthetic data. Finally, the method is applied to deinterleave pulse trains received from different emitters in a RESM (Radar Electronic Support Measurements) context and we show that the proposed method competes favorably with state-of-the-art methods on simulated warfare datasets.
翻訳日:2024-02-15 15:31:02 公開日:2024-02-14
# 必然性と十分性の確率を通したグラフアウトオブディストリビューションの不分散とスプリシリティの統一

Unifying Invariance and Spuriousity for Graph Out-of-Distribution via Probability of Necessity and Sufficiency ( http://arxiv.org/abs/2402.09165v1 )

ライセンス: Link先を確認
Xuexin Chen, Ruichu Cai, Kaitao Zheng, Zhifan Jiang, Zhengting Huang, Zhifeng Hao, Zijian Li(参考訳) Graph Out-of-Distribution (OOD)は、バイアスのあるデータに基づいてトレーニングされたモデルが、目に見えないテストデータに一般化することを要求する。 最も一般的な方法の1つは、元のデータと拡張データと環境拡張の助けを借りて不変部分グラフを抽出することである。 しかし、これらの解は意味的部分グラフの損失や冗長性をもたらし、さらに準最適一般化をもたらすかもしれない。 そこで本研究では,不変部分構造(pnsis)の抽出に必要と十分性を生かした統一的な枠組みを提案する。 さらに, このフレームワークは, 突発的な部分グラフを利用して, 一般化性能をアンサンブル的に向上し, ノイズデータの堅牢性を高める。 具体的には、まずまずグラフデータのデータ生成プロセスを検討する。 軽度条件下では,必要かつ十分性の理論的進歩に基づく上界を最小化することにより,不変部分グラフを抽出できることが示されている。 理論とアルゴリズムをさらに橋渡しするために、不変グラフ学習のための不変部分グラフ抽出器と一般化拡張のための不変部分グラフ分類器を含むPNSISモデルを考案した。 実験結果から, 実世界のシナリオにおいて, グラフOODの最先端技術よりも高い性能を示し, 実世界のシナリオにおける有効性を強調した。

Graph Out-of-Distribution (OOD), requiring that models trained on biased data generalize to the unseen test data, has a massive of real-world applications. One of the most mainstream methods is to extract the invariant subgraph by aligning the original and augmented data with the help of environment augmentation. However, these solutions might lead to the loss or redundancy of semantic subgraph and further result in suboptimal generalization. To address this challenge, we propose a unified framework to exploit the Probability of Necessity and Sufficiency to extract the Invariant Substructure (PNSIS). Beyond that, this framework further leverages the spurious subgraph to boost the generalization performance in an ensemble manner to enhance the robustness on the noise data. Specificially, we first consider the data generation process for graph data. Under mild conditions, we show that the invariant subgraph can be extracted by minimizing an upper bound, which is built on the theoretical advance of probability of necessity and sufficiency. To further bridge the theory and algorithm, we devise the PNSIS model, which involves an invariant subgraph extractor for invariant graph learning as well invariant and spurious subgraph classifiers for generalization enhancement. Experimental results demonstrate that our \textbf{PNSIS} model outperforms the state-of-the-art techniques on graph OOD on several benchmarks, highlighting the effectiveness in real-world scenarios.
翻訳日:2024-02-15 15:30:47 公開日:2024-02-14
# less is more: submodular subset selection による解釈可能な領域の削減

Less is More: Fewer Interpretable Region via Submodular Subset Selection ( http://arxiv.org/abs/2402.09164v1 )

ライセンス: Link先を確認
Ruoyu Chen, Hua Zhang, Siyuan Liang, Jingzhi Li, Xiaochun Cao(参考訳) 画像帰属アルゴリズムは、モデル決定に非常に関連する重要な領域を特定することを目的としている。 既存の属性ソリューションは、ターゲット要素に効果的に重要度を割り当てることができますが、それでも以下の課題に直面します。 1)既存の帰属法は、不正確な小領域を生成し、正しい帰属の方向を誤解させる。 2) モデルでは, 誤った予測を行うサンプルに対して良好な帰属結果が得られない。 上記の課題に対処するため,本論文では,より少ない領域を用いたモデル解釈可能性の向上を目的としたサブモジュール部分集合選択問題として,上記の画像帰属問題をモデル化する。 地域への注意の欠如に対処するために,より正確な細粒度解釈領域を発見するための新しいサブモジュラー関数を構築した。 また,すべてのサンプルに対する帰属効果を高めるために,サブリージョンの選択に4つの制約,すなわち信頼性,有効性,一貫性,コラボレーションスコアを課し,各サブセットの重要性を評価する。 さらに,本解析では,提案する関数が実は部分モジュラーであることを示す。 大規模な実験により,提案手法は2つの顔データセット(Celeb-AとVGG-Face2)と1つのきめ細かいデータセット(CUB-200-2011)においてSOTA法より優れていた。 正しく予測されたサンプルに対しては,HSIC-Attributionに対する平均4.9%と2.5%の利得で,Deletion and Insertionスコアを改善した。 提案手法は, HSIC-Attributionアルゴリズムの平均信頼度と挿入率に対して, それぞれ81.0%, 18.4%のゲインを達成している。 コードはhttps://github.com/RuoyuChen10/SMDL-Attributionで公開されている。

Image attribution algorithms aim to identify important regions that are highly relevant to model decisions. Although existing attribution solutions can effectively assign importance to target elements, they still face the following challenges: 1) existing attribution methods generate inaccurate small regions thus misleading the direction of correct attribution, and 2) the model cannot produce good attribution results for samples with wrong predictions. To address the above challenges, this paper re-models the above image attribution problem as a submodular subset selection problem, aiming to enhance model interpretability using fewer regions. To address the lack of attention to local regions, we construct a novel submodular function to discover more accurate fine-grained interpretation regions. To enhance the attribution effect for all samples, we also impose four different constraints on the selection of sub-regions, i.e., confidence, effectiveness, consistency, and collaboration scores, to assess the importance of various subsets. Moreover, our theoretical analysis substantiates that the proposed function is in fact submodular. Extensive experiments show that the proposed method outperforms SOTA methods on two face datasets (Celeb-A and VGG-Face2) and one fine-grained dataset (CUB-200-2011). For correctly predicted samples, the proposed method improves the Deletion and Insertion scores with an average of 4.9% and 2.5% gain relative to HSIC-Attribution. For incorrectly predicted samples, our method achieves gains of 81.0% and 18.4% compared to the HSIC-Attribution algorithm in the average highest confidence and Insertion score respectively. The code is released at https://github.com/RuoyuChen10/SMDL-Attribution.
翻訳日:2024-02-15 15:30:22 公開日:2024-02-14
# ChatGPTを用いたロールプレイングシミュレーションゲーム

Role-Playing Simulation Games using ChatGPT ( http://arxiv.org/abs/2402.09161v1 )

ライセンス: Link先を確認
Rita Stampfl, Igor Ivki\'c and Barbara Geyer(参考訳) 新型コロナウイルスのパンデミック以降、教育機関はデジタルトランスフォーメーションプロジェクトを開始した。 これらのプロジェクトの成功は、新しいテクノロジーの統合と、デジタル字幕の学生のニーズの理解にかかっている。 実践による学習」アプローチは、学生がこれらのスキルを試し実践できると、新しいスキルを学ぶ真の成功が達成されることを示唆している。 本稿では,ChatGPTをロールプレイングシミュレーションゲームシナリオで用い,能動的学習を促進することで,Large Language Models(LLMs)が教育の質を高めることを実証する。 さらに,ChatGPTを用いて実生活シナリオを実践することで,LLMが学習に対する学生の関心を高める方法について論じる。

Since the COVID-19 pandemic, educational institutions have embarked on digital transformation projects. The success of these projects depends on integrating new technologies and understanding the needs of digitally literate students. The "learning by doing" approach suggests that real success in learning new skills is achieved when students can try out and practise these skills. In this article, we demonstrate how Large Language Models (LLMs) can enhance the quality of teaching by using ChatGPT in a role-playing simulation game scenario to promote active learning. Moreover, we discuss how LLMs can boost students' interest in learning by allowing them to practice real-life scenarios using ChatGPT.
翻訳日:2024-02-15 15:29:54 公開日:2024-02-14
# スマートオーバーツーリズム緩和のための無線集団検出

Wireless Crowd Detection for Smart Overtourism Mitigation ( http://arxiv.org/abs/2402.09158v1 )

ライセンス: Link先を確認
Tom\'as Mestre Santos, Rui Neto Marinheiro, Fernando Brito e Abreu(参考訳) オーバーツーリズムは、観光客が目的地の輸送能力を超えると起こり、住民の環境、文化、生活の質に悪影響を及ぼす。 オーバツーリズムの監視により、目的地管理者は関心領域を特定し、よりスマートな観光の実践を促進しながら、観光のネガティブな影響を軽減するための対策を実施できる。 これは観光が観光客と住民の両方に利益をもたらすのに役立ち、観光地が魅力を増す自然と文化の資源を保護している。 本章では,モバイルデバイスの無線アクティビティに基づくオーバーツーリズムを監視するための,低コストなアプローチについて述べる。 フレキシブルなアーキテクチャは、クラウド管理ソリューションにおける中小規模企業(中小企業)によるスマート観光ツールキットの使用、より良い観光サービスの構築、効率と持続性の向上、重要なホットスポットにおける圧倒的な圧力感の低減のために設計された。 群集センサは、無線技術のトレース要素を検出し、MACアドレスランダム化の効果を緩和することにより、周辺機器の数をカウントする。 彼らはいくつかの技術の検出プログラムを実行し、指紋解析の結果はプライバシーの権利を侵害することなく、匿名データベースにローカルに保存される。 エッジコンピューティングの後、センサーは、様々なアップリンク技術を使用して、クラウドサーバーに群がる情報を伝達し、ローカル接続の制限を緩和する。 センサのフィールド検証はiscteのキャンパスで行われている。 予備的な結果から,これらのセンサは複数のシナリオに展開可能であり,多種多様な時空間群集データを提供することで,足場観光の混雑管理戦略を実現することができる。

Overtourism occurs when the number of tourists exceeds the carrying capacity of a destination, leading to negative impacts on the environment, culture, and quality of life for residents. By monitoring overtourism, destination managers can identify areas of concern and implement measures to mitigate the negative impacts of tourism while promoting smarter tourism practices. This can help ensure that tourism benefits both visitors and residents while preserving the natural and cultural resources that make these destinations so appealing. This chapter describes a low-cost approach to monitoring overtourism based on mobile devices' wireless activity. A flexible architecture was designed for a smart tourism toolkit to be used by Small and Medium-sized Enterprises (SMEs) in crowding management solutions, to build better tourism services, improve efficiency and sustainability, and reduce the overwhelming feeling of pressure in critical hotspots. The crowding sensors count the number of surrounding mobile devices, by detecting trace elements of wireless technologies, mitigating the effect of MAC address randomization. They run detection programs for several technologies, and fingerprinting analysis results are only stored locally in an anonymized database, without infringing privacy rights. After that edge computing, sensors communicate the crowding information to a cloud server, by using a variety of uplink techniques to mitigate local connectivity limitations, something that has been often disregarded in alternative approaches. Field validation of sensors has been performed on Iscte's campus. Preliminary results show that these sensors can be deployed in multiple scenarios and provide a diversity of spatio-temporal crowding data that can scaffold tourism overcrowding management strategies.
翻訳日:2024-02-15 15:29:41 公開日:2024-02-14
# Crop and Couple: Interlinked Special Network を用いた心臓画像分割

Crop and Couple: cardiac image segmentation using interlinked specialist networks ( http://arxiv.org/abs/2402.09156v1 )

ライセンス: Link先を確認
Abbas Khan, Muhammad Asad, Martin Benning, Caroline Roney, Gregory Slabaugh(参考訳) 自動手法による心血管疾患の診断は、しばしば心臓画像分割の重要な課題に依存する。 一つの解剖学(左室、右心室、または心筋)に焦点を当てた専門ネットワークを用いてセグメンテーションを行う新しい戦略を提案する。 入力長軸心MR画像から, 解剖学的領域の同定に第1段階の3次セグメンテーションを行い, その後, 原画像の抽出を行い, その後の処理を解剖学的領域に集中させる。 専門家ネットワークは、異なる解剖学的特徴を相互に関連付けるための注意機構を通じて結合され、それ以前の軟らかい相対的な形状として機能する。 私たちのアプローチの中心は付加的なアテンションブロック(E-2Aブロック)です。

Diagnosis of cardiovascular disease using automated methods often relies on the critical task of cardiac image segmentation. We propose a novel strategy that performs segmentation using specialist networks that focus on a single anatomy (left ventricle, right ventricle, or myocardium). Given an input long-axis cardiac MR image, our method performs a ternary segmentation in the first stage to identify these anatomical regions, followed by cropping the original image to focus subsequent processing on the anatomical regions. The specialist networks are coupled through an attention mechanism that performs cross-attention to interlink features from different anatomies, serving as a soft relative shape prior. Central to our approach is an additive attention block (E-2A block), which is used throughout our architecture thanks to its efficiency.
翻訳日:2024-02-15 15:29:11 公開日:2024-02-14
# 私のデータはAIモデルにあるか? 顔画像への適用によるメンバーシップ推論テスト

Is my Data in your AI Model? Membership Inference Test with Application to Face Images ( http://arxiv.org/abs/2402.09225v1 )

ライセンス: Link先を確認
Daniel DeAlcala, Aythami Morales, Gonzalo Mancera, Julian Fierrez, Ruben Tolosana, Javier Ortega-Garcia(参考訳) 本稿では,人工知能(AI)モデルのトレーニング中に特定のデータが使用されているかどうかを実証的に評価することを目的とした,新しい手法である会員推論テスト(MINT)を紹介する。 具体的には、監査モデルがトレーニングプロセスで使用されるデータに晒されたときに現れる、異なるアクティベーションパターンを学習するために設計された2つの新しいmintアーキテクチャを提案する。 第1のアーキテクチャはマルチレイヤパーセプトロン(MLP)ネットワークに基づいており、第2のアーキテクチャは畳み込みニューラルネットワーク(CNN)に基づいている。 提案するmintアーキテクチャは,3つの最先端顔認識モデルを考慮して,難解な顔認識タスクで評価される。 実験は6つの公開データベースを使って行われ、合計2200万以上の顔画像が含まれている。 また、テストするAIモデルのコンテキストによって異なる実験シナリオも考慮されている。 有望な結果、最大90%の精度が、提案するmintアプローチによって達成され、aiモデルが特定のデータでトレーニングされたかどうかを認識できることを示唆している。

This paper introduces the Membership Inference Test (MINT), a novel approach that aims to empirically assess if specific data was used during the training of Artificial Intelligence (AI) models. Specifically, we propose two novel MINT architectures designed to learn the distinct activation patterns that emerge when an audited model is exposed to data used during its training process. The first architecture is based on a Multilayer Perceptron (MLP) network and the second one is based on Convolutional Neural Networks (CNNs). The proposed MINT architectures are evaluated on a challenging face recognition task, considering three state-of-the-art face recognition models. Experiments are carried out using six publicly available databases, comprising over 22 million face images in total. Also, different experimental scenarios are considered depending on the context available of the AI model to test. Promising results, up to 90% accuracy, are achieved using our proposed MINT approach, suggesting that it is possible to recognize if an AI model has been trained with specific data.
翻訳日:2024-02-15 15:24:07 公開日:2024-02-14
# プロキシガイドによる効率的な再サンプリングによる、ブラックボックスai生成テキスト検出の改善

Ten Words Only Still Help: Improving Black-Box AI-Generated Text Detection via Proxy-Guided Efficient Re-Sampling ( http://arxiv.org/abs/2402.09199v1 )

ライセンス: Link先を確認
Yuhui Shi, Qiang Sheng, Juan Cao, Hao Mi, Beizhe Hu, Danding Wang(参考訳) 大規模言語モデル(LLM)の適用が急速に増加し、その悪用はフェイクニュース、学術的不正、情報汚染など、多くの望ましくない社会問題を引き起こしている。 これによりAI生成テキスト(AIGT)の検出が非常に重要になる。 既存の方法では、ホワイトボックスメソッドは一般的に性能と一般化性の観点からブラックボックスメソッドよりも優れているが、llmsの内部状態へのアクセスが必要であり、ブラックボックス設定には適用できない。 本稿では,複数再サンプリングによる単語生成確率を擬似ホワイトボックスの特徴として推定し,ブラックボックス設定におけるAIGT検出の改善を支援する。 具体的には、ブラックボックスAIGT検出において複数の再サンプリングを行うために、代表語(例えば10語)の小さなサブセットを選択するプロキシ誘導効率的な再サンプリング手法であるPOGERを設計する。 人間とLLMのテキストを含むデータセットの実験では、POGERはブラックボックス、部分的なホワイトボックス、アウト・オブ・ディストリビューション設定の下でマクロF1のすべてのベースラインを上回り、既存のものよりも低い再サンプリングコストを維持する。

With the rapidly increasing application of large language models (LLMs), their abuse has caused many undesirable societal problems such as fake news, academic dishonesty, and information pollution. This makes AI-generated text (AIGT) detection of great importance. Among existing methods, white-box methods are generally superior to black-box methods in terms of performance and generalizability, but they require access to LLMs' internal states and are not applicable to black-box settings. In this paper, we propose to estimate word generation probabilities as pseudo white-box features via multiple re-sampling to help improve AIGT detection under the black-box setting. Specifically, we design POGER, a proxy-guided efficient re-sampling method, which selects a small subset of representative words (e.g., 10 words) for performing multiple re-sampling in black-box AIGT detection. Experiments on datasets containing texts from humans and seven LLMs show that POGER outperforms all baselines in macro F1 under black-box, partial white-box, and out-of-distribution settings and maintains lower re-sampling costs than its existing counterparts.
翻訳日:2024-02-15 15:23:49 公開日:2024-02-14
# 勾配ブースティングツリーにおける局所的説明可能性の実装:機能貢献

Implementing local-explainability in Gradient Boosting Trees: Feature Contribution ( http://arxiv.org/abs/2402.09197v1 )

ライセンス: Link先を確認
\'Angel Delgado-Panadero, Beatriz Hern\'andez-Lorca, Mar\'ia Teresa Garc\'ia-Ord\'as and Jos\'e Alberto Ben\'itez-Andrades(参考訳) Gradient Boost Decision Trees (GBDT) は木アンサンブルに基づく強力な付加モデルである。 その性質上、gbdtは複数の説明可能な人工知能(xai)モデルが存在するにもかかわらず、グローバルおよびローカルでモデルを再解釈することで情報を得るブラックボックスモデルとなっている。 アンサンブルの各木は透明なモデルであり、最終的な結果はこれらの木の総和の結果であり、明らかにすることは容易ではない。 本稿では,GBDTの特徴貢献手法について述べる。 提案手法はgbdtアーキテクチャを利用して各ノードの残差を用いて各特徴の寄与度を計算する。 このアルゴリズムは、予測されたノード決定の順序を計算することができる。 提案手法は,GBDTアルゴリズムの局所的説明可能性モデルだけでなく,GBDTの内部動作を反映したユニークな選択肢である。 この提案は、人工知能(AI)の倫理的分析のようないくつかの人工知能問題に影響を及ぼす特性の貢献と、説明と非差別に関する一般データ保護規則(GDPR)のような新たな欧州の法律に準拠している。

Gradient Boost Decision Trees (GBDT) is a powerful additive model based on tree ensembles. Its nature makes GBDT a black-box model even though there are multiple explainable artificial intelligence (XAI) models obtaining information by reinterpreting the model globally and locally. Each tree of the ensemble is a transparent model itself but the final outcome is the result of a sum of these trees and it is not easy to clarify. In this paper, a feature contribution method for GBDT is developed. The proposed method takes advantage of the GBDT architecture to calculate the contribution of each feature using the residue of each node. This algorithm allows to calculate the sequence of node decisions given a prediction. Theoretical proofs and multiple experiments have been carried out to demonstrate the performance of our method which is not only a local explicability model for the GBDT algorithm but also a unique option that reflects GBDTs internal behavior. The proposal is aligned to the contribution of characteristics having impact in some artificial intelligence problems such as ethical analysis of Artificial Intelligence (AI) and comply with the new European laws such as the General Data Protection Regulation (GDPR) about the right to explain and nondiscrimination.
翻訳日:2024-02-15 15:23:28 公開日:2024-02-14
# 木レベルqedプロセスにおける完全相補関係

Complete complementarity relations in tree level QED processes ( http://arxiv.org/abs/2402.09195v1 )

ライセンス: Link先を確認
Massimo Blasone, Silvio De Siena, Gaetano Lambiase, Cristina Matrella and Bruno Micciola(参考訳) bhabha散乱過程 $(e^-e^+ \rightarrow e^-e^+)$ において、完全相補関係を利用して量子性の様々な側面を完全に特徴付ける。 まず第一に初期電子Aと陽電子Bが分解状態、第二に、入射粒子が局所重ね合わせによって記述され、総状態が分解される、そして最後に、AとBが絡み合うより一般的な初期状態を考える。 QED散乱過程は粒子間の非自明な方法で量子情報を生成、分配し、CCRは初期状態と最終状態の両方で満たされる。

We exploit complete complementarity relations to fully characterize various aspects of quantumness in a Bhabha scattering process $(e^-e^+ \rightarrow e^-e^+)$ at tree level. For illustrative purposes, we consider three different situations: in the first one the initial electron A and positron B are described by a factorized state; in the second one, the incoming particles are described by local superpositions and the total state is factorized; finally, we consider the more general initial state in which A and B can be entangled. We find that the QED scattering process generates and distributes quantum information in a non-trivial way among the particles, with CCR being fulfilled both for initial and final states.
翻訳日:2024-02-15 15:23:09 公開日:2024-02-14
# 大規模言語モデルにおける(ir)合理性と認知バイアス

(Ir)rationality and Cognitive Biases in Large Language Models ( http://arxiv.org/abs/2402.09193v1 )

ライセンス: Link先を確認
Olivia Macmillan-Scott and Mirco Musolesi(参考訳) 大規模言語モデル(LLM)は合理的推論を示すか? LLMは、訓練されたデータのために人間のバイアスを含んでいることが示されている。 本稿では,認知心理学文献のタスクを用いた7つの言語モデルの評価により,この問題に答える。 人間と同じく、LLMはこれらのタスクに不合理性を示す。 しかし、この不合理さの表示方法は、人間が示したことを反映しない。 これらのタスクに対してLLMによって誤った答えが与えられる場合、それらはしばしば人間のようなバイアスとは異なる方法で間違っている。 これに加えて、LLMは反応の重大な矛盾に不合理性の付加的な層を明らかにする。 実験結果とは別に,本論文では,合理的推論に関して,これらのモデルの異なる能力の評価と比較を行う方法を示すことによって,方法論的な貢献を行おうとする。

Do large language models (LLMs) display rational reasoning? LLMs have been shown to contain human biases due to the data they have been trained on; whether this is reflected in rational reasoning remains less clear. In this paper, we answer this question by evaluating seven language models using tasks from the cognitive psychology literature. We find that, like humans, LLMs display irrationality in these tasks. However, the way this irrationality is displayed does not reflect that shown by humans. When incorrect answers are given by LLMs to these tasks, they are often incorrect in ways that differ from human-like biases. On top of this, the LLMs reveal an additional layer of irrationality in the significant inconsistency of the responses. Aside from the experimental results, this paper seeks to make a methodological contribution by showing how we can assess and compare different capabilities of these types of models, in this case with respect to rational reasoning.
翻訳日:2024-02-15 15:22:58 公開日:2024-02-14
# Traj-LIO: スパースガウスプロセスによる弾力性マルチLiDAR多IMU状態推定器

Traj-LIO: A Resilient Multi-LiDAR Multi-IMU State Estimator Through Sparse Gaussian Process ( http://arxiv.org/abs/2402.09189v1 )

ライセンス: Link先を確認
Xin Zheng, Jianke Zhu(参考訳) 現在、センサースーツには冗長lidarとimusが装備されており、センサー故障のリスクを軽減している。 従来の離散時間およびIMU駆動キネマティックシステムでは、異常なIMUデータに影響を受けやすい複数の非同期センサーを組み込むことは困難である。 そこで本研究では,非パラメトリック連続時間軌道を予測するガウス過程(gp)を活用し,センサの空間-時間移動を限られた制御状態で捉えるマルチライダーマルチimu状態推定器を提案する。 3種類の線形時間不変確率微分方程式によって駆動される運動モデルは外部センサの計測とは独立であるので,提案手法はセンサ構成を異にし,センサ故障に耐性を持つ。 さらに、従来の$\mathrm{se}(3)$状態表現を$\mathrm{so}(3)$とベクトル空間の組み合わせで置き換え、gpベースのlidar慣性系がリアルタイム要求を満たすようにした。 公開データセットに関する広範な実験により,提案するマルチライダー・マルチimu状態推定器の汎用性とレジリエンスが実証された。 コミュニティに貢献するために、ソースコードを公開します。

Nowadays, sensor suits have been equipped with redundant LiDARs and IMUs to mitigate the risks associated with sensor failure. It is challenging for the previous discrete-time and IMU-driven kinematic systems to incorporate multiple asynchronized sensors, which are susceptible to abnormal IMU data. To address these limitations, we introduce a multi-LiDAR multi-IMU state estimator by taking advantage of Gaussian Process (GP) that predicts a non-parametric continuous-time trajectory to capture sensors' spatial-temporal movement with limited control states. Since the kinematic model driven by three types of linear time-invariant stochastic differential equations are independent of external sensor measurements, our proposed approach is capable of handling different sensor configurations and resilient to sensor failures. Moreover, we replace the conventional $\mathrm{SE}(3)$ state representation with the combination of $\mathrm{SO}(3)$ and vector space, which enables GP-based LiDAR-inertial system to fulfill the real-time requirement. Extensive experiments on the public datasets demonstrate the versatility and resilience of our proposed multi-LiDAR multi-IMU state estimator. To contribute to the community, we will make our source code publicly available.
翻訳日:2024-02-15 15:22:45 公開日:2024-02-14
# 有限非決定論的結果割り当てに対する一般化kochen-specker定理

Generalised Kochen-Specker Theorem for Finite Non-Deterministic Outcome Assignments ( http://arxiv.org/abs/2402.09186v1 )

ライセンス: Link先を確認
Ravishankar Ramanathan(参考訳) kochen-specker (ks) の定理は量子基礎の基本的な結果であり、次元 $d \geq 3$ のヒルベルト空間における量子相関は、各測定に単一の決定論的結果を与える(一貫性のある)隠れた変数理論では説明できない。 具体的には、これらの次元に有限個のベクトル集合が存在し、非文脈決定論的(\{0,1\}$)な結果代入が排他性と完全性の規則に従うことは不可能であり、任意の$d$への値代入の和は互いに直交ベクトルに等しい。 量子基底におけるもう一つの中心的な結果は、量子形式論の数学的結果としてボルン則を正当化するグリーソンの定理である。 KS定理は、グリーソンの定理と論理コンパクト性定理の結果と見なすことができる。 特に、グリーソンの定理は、$\{0,1\}$ 以外の有限アルファベット結果の代入を除外する KS 型有限ベクトル構成の存在を示唆している。 ここでは、KS定理の一般化を提案し、集合 $\{0, p, 1-p, 1\}$ for $p \in [0,1/d) \cup (1/d, 1/2]$ における結果の割り当てで隠れ変数理論を規則化する。 p = 1/2$ の場合は特に有意である。 この場合の結果は、基本的に二進数である隠れ変数理論、すなわち、各測定が少なくとも2つの結果(KSが支配する測定毎に1つの決定論的結果とは対照的に)を除外する(一貫性のある)ことが示される。 この一般化KS定理のデバイス非依存的な応用として、完全量子勝利戦略(擬似テレパシーゲーム)が存在するが、プレイヤがPRボックス型の余分な符号なし資源($\{0,1/2,1\}$)を与えられたとしても、完全古典的戦略が存在しない2つのプレイヤー非局所ゲームを構築する。

The Kochen-Specker (KS) theorem is a cornerstone result in quantum foundations, establishing that quantum correlations in Hilbert spaces of dimension $d \geq 3$ cannot be explained by (consistent) hidden variable theories that assign a single deterministic outcome to each measurement. Specifically, there exist finite sets of vectors in these dimensions such that no non-contextual deterministic ($\{0,1\}$) outcome assignment is possible obeying the rules of exclusivity and completeness - that the sum of value assignments to any $d$ mutually orthogonal vectors be equal to $1$. Another central result in quantum foundations is Gleason's theorem that justifies the Born rule as a mathematical consequence of the quantum formalism. The KS theorem can be seen as a consequence of Gleason's theorem and the logical compactness theorem. Notably, Gleason's theorem also indicates the existence of KS-type finite vector constructions to rule out other finite alphabet outcome assignments beyond the $\{0,1\}$ case. Here, we propose a generalisation of the KS theorem that rules out hidden variable theories with outcome assignments in the set $\{0, p, 1-p, 1\}$ for $p \in [0,1/d) \cup (1/d, 1/2]$. The case $p = 1/2$ is especially physically significant. We show that in this case the result rules out (consistent) hidden variable theories that are fundamentally binary, i.e., theories where each measurement has fundamentally at most two outcomes (in contrast to the single deterministic outcome per measurement ruled out by KS). We present a device-independent application of this generalised KS theorem by constructing a two-player non-local game for which a perfect quantum winning strategy exists (a Pseudo-telepathy game) while no perfect classical strategy exists even if the players are provided with additional no-signaling resources of PR-box type (with marginal probabilities in $\{0,1/2,1\}$).
翻訳日:2024-02-15 15:22:22 公開日:2024-02-14
# OmniMedVQA:医療用LVLMのための大規模総合評価ベンチマーク

OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM ( http://arxiv.org/abs/2402.09181v1 )

ライセンス: Link先を確認
Yutao Hu, Tianbin Li, Quanfeng Lu, Wenqi Shao, Junjun He, Yu Qiao, Ping Luo(参考訳) LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な機能を示す。 しかし、医療分野におけるその可能性はほとんど未解明のままである。 重要な課題は、様々な形態や解剖学的領域にまたがる多様な医療画像が不足していることである。 この問題を解決するために,本論文では,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。 このベンチマークは75の異なる医学データセットから収集され、12の異なるモードと20以上の解剖学的領域をカバーする。 重要なことに、このベンチマークのすべての画像は、医療分野の要件とlvlmsの評価に適合するように、本物の医療シナリオから導き出されています。 大規模な実験により,既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。 さらに、医療専門のLVLMは、これらの一般ドメインモデルよりも性能が劣り、バイオメディカル分野においてより汎用的で堅牢なLVLMを要求される。 評価結果から,lvlmの医療画像理解における限界が明らかにされるだけでなく,データセットの意義も明らかにされた。 私たちのデータセットは公開されます。

Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities in various multimodal tasks. However, their potential in the medical domain remains largely unexplored. A significant challenge arises from the scarcity of diverse medical images spanning various modalities and anatomical regions, which is essential in real-world medical applications. To solve this problem, in this paper, we introduce OmniMedVQA, a novel comprehensive medical Visual Question Answering (VQA) benchmark. This benchmark is collected from 75 different medical datasets, including 12 different modalities and covering more than 20 distinct anatomical regions. Importantly, all images in this benchmark are sourced from authentic medical scenarios, ensuring alignment with the requirements of the medical field and suitability for evaluating LVLMs. Through our extensive experiments, we have found that existing LVLMs struggle to address these medical VQA problems effectively. Moreover, what surprises us is that medical-specialized LVLMs even exhibit inferior performance to those general-domain models, calling for a more versatile and robust LVLM in the biomedical field. The evaluation results not only reveal the current limitations of LVLM in understanding real medical images but also highlight our dataset's significance. Our dataset will be made publicly available.
翻訳日:2024-02-15 15:21:40 公開日:2024-02-14
# 局所デチューニングを用いたRydberg原子配列上の最大独立集合の近似

Approximating maximum independent set on Rydberg atom arrays using local detunings ( http://arxiv.org/abs/2402.09180v1 )

ライセンス: Link先を確認
Hyeonjun Yeo, Ha Eum Kim, Kabgyun Jeong(参考訳) ライドバーグ原子配列はスケーラビリティと長いコヒーレンス時間のために最も有望な量子シミュレーションプラットフォームの一つである。 組合せ最適化の観点からは、ライドバーグ・ハミルトニアンと最大独立集合問題のコスト関数の類似性から、彼らは最大独立集合問題の本質的解法である。 本稿では,各頂点の頂点支持(頂点間の接続を表す量)に応じて,rydberg hamiltonian の局所デチューニングを調整することにより,最大独立集合を近似する手法を提案する。 そうすることで、各頂点が最大独立集合に含まれる可能性を、ライドバーグ・ハミルトニアンに明示的に反映する。 我々の戦略は,アディバチティが十分である場合に,欠陥のあるチェッカーボードグラフの誤り率を3倍に削減する。 我々の戦略は、相対的に断熱性が不十分である場合でも、密度3.0のランダムグラフの誤差率を下げる。 さらに,進化した量子状態と正方格子上の2d cat状態との忠実性を高めるため,我々の戦略が量子多体基底状態の作成に寄与することを示す。

Rydberg atom arrays are among the most promising quantum simulating platforms due to their scalability and long coherence time. From the perspective of combinatorial optimization, they are intrinsic solver for the maximum independent set problem because of the resemblance between the Rydberg Hamiltonian and the cost function of the maximum independent set problem. In this paper, we suggest a strategy to approximate maximum independent sets by adjusting local detunings on the Rydberg Hamiltonian according to each vertex's vertex support, which is a quantity that represents connectivity between vertices. By doing so, we explicitly reflect on the Rydberg Hamiltonian the potential probability that each vertex will be included in maximum independent sets. Our strategy reduces an error rate three times for the checkerboard graphs with defects when the adiabaticity is enough. Our strategy also decreases the error rate for random graphs of density 3.0, even when the adiabaticity is relatively insufficient. Moreover, we harness our strategy to raise the fidelity between the evolved quantum state and a 2D cat state on a square lattice, showing that our strategy helps to prepare a quantum many-body ground state.
翻訳日:2024-02-15 15:21:17 公開日:2024-02-14
# 急速な採用、隠れたリスク: 大きな言語モデルのカスタマイズによる2つの影響

Rapid Adoption, Hidden Risks: The Dual Impact of Large Language Model Customization ( http://arxiv.org/abs/2402.09179v1 )

ライセンス: Link先を確認
Rui Zhang, Hongwei Li, Rui Wen, Wenbo Jiang, Yuan Zhang, Michael Backes, Yun Shen, Yang Zhang(参考訳) カスタマイズされたLarge Language Models (LLM) に対する需要が増加し、GPTのようなソリューションが開発されるようになった。 これらのソリューションは、コーディングせずに自然言語のプロンプトを介してLLMをカスタマイズする。 しかし、サードパーティのカスタムバージョンのLDMの信頼性は依然として重要な懸念事項である。 本稿では、信頼できないカスタマイズ LLM (GPTs など) と統合されたアプリケーションに対する最初の命令バックドア攻撃を提案する。 具体的には、これらの攻撃はバックドア命令でプロンプトを設計し、予め定義されたトリガーを含む入力時に攻撃者が望む結果を出力することで、llmのカスタムバージョンにバックドアを埋め込む。 私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。 当社のアタックは微調整やバックエンドllmの変更を必要としないことを強調し、gpts開発ガイドラインに厳密に準拠している。 4つの著名なllmと5つのベンチマークテキスト分類データセットについて広範な実験を行った。 その結果,我々の命令バックドア攻撃は,実用性を損なうことなく所望のアタック性能を達成できた。 また,命令無視防御機構を提案し,そのような攻撃を緩和する部分的有効性を示す。 GPTなどのLCMカスタマイズの脆弱性と潜在的なリスクについて検討した。

The increasing demand for customized Large Language Models (LLMs) has led to the development of solutions like GPTs. These solutions facilitate tailored LLM creation via natural language prompts without coding. However, the trustworthiness of third-party custom versions of LLMs remains an essential concern. In this paper, we propose the first instruction backdoor attacks against applications integrated with untrusted customized LLMs (e.g., GPTs). Specifically, these attacks embed the backdoor into the custom version of LLMs by designing prompts with backdoor instructions, outputting the attacker's desired result when inputs contain the pre-defined triggers. Our attack includes 3 levels of attacks: word-level, syntax-level, and semantic-level, which adopt different types of triggers with progressive stealthiness. We stress that our attacks do not require fine-tuning or any modification to the backend LLMs, adhering strictly to GPTs development guidelines. We conduct extensive experiments on 4 prominent LLMs and 5 benchmark text classification datasets. The results show that our instruction backdoor attacks achieve the desired attack performance without compromising utility. Additionally, we propose an instruction-ignoring defense mechanism and demonstrate its partial effectiveness in mitigating such attacks. Our findings highlight the vulnerability and the potential risks of LLM customization such as GPTs.
翻訳日:2024-02-15 15:20:57 公開日:2024-02-14
# 総合的ポートレート品質評価

Generalized Portrait Quality Assessment ( http://arxiv.org/abs/2402.09178v1 )

ライセンス: Link先を確認
Nicolas Chahine, Sira Ferradans, Javier Vazquez-Corral, Jean Ponce(参考訳) PQA(Automated and robust portrait quality Assessment)は、スマートフォン写真などの高インパクトアプリケーションにおいて重要である。 本稿では,PQAの学習的アプローチであるFHIQAについて,画像意味論に基づく簡易かつ効果的な品質スコア再スケーリング手法を提案する。 提案手法はPIQ23ベンチマークの広範な実験により検証され, 現状との比較を行った。 FHIQAのソースコードは、https://github.com/DXOMARK-Research/PIQ2023のPIQ23 GitHubリポジトリで公開されている。

Automated and robust portrait quality assessment (PQA) is of paramount importance in high-impact applications such as smartphone photography. This paper presents FHIQA, a learning-based approach to PQA that introduces a simple but effective quality score rescaling method based on image semantics, to enhance the precision of fine-grained image quality metrics while ensuring robust generalization to various scene settings beyond the training dataset. The proposed approach is validated by extensive experiments on the PIQ23 benchmark and comparisons with the current state of the art. The source code of FHIQA will be made publicly available on the PIQ23 GitHub repository at https://github.com/DXOMARK-Research/PIQ2023.
翻訳日:2024-02-15 15:20:34 公開日:2024-02-14
# マルチラウンドインタラクションによる脱獄攻撃の活用

Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks ( http://arxiv.org/abs/2402.09177v1 )

ライセンス: Link先を確認
Yixin Cheng, Markos Georgopoulos, Volkan Cevher, Grigorios G. Chrysos(参考訳) 大規模言語モデル(LLM)は、攻撃クエリを微調整することで有害な情報を抽出することを目的とした、Jailbreak攻撃の影響を受けやすい。 防衛機構が進化するにつれて、有害な情報を直接得ることは、脱獄攻撃に対してますます困難になる。 本研究は、有害な情報を引き出すための間接的コンテキストの人間の実践に触発され、コンテキストインタラクション攻撃と呼ばれる新たな攻撃形態に焦点を当てる。 このアイデアは、LLMにおける生成プロセスの自己回帰性に依存している。 攻撃クエリの前の情報は、強力なジェイルブレイク攻撃を可能にする上で重要な役割を担っていると我々は主張する。 具体的には,予備質問応答ペアを利用してLLMと対話する手法を提案する。 これにより、モデルからの反応を「望まれる」有害な情報を明らかにするよう導く。 我々は4つの異なるllmについて実験を行い、この攻撃の有効性を実証する。 LLMにおける文脈ベクトルのさらなる発展と理解につながると我々は信じている。

Large Language Models (LLMs) are susceptible to Jailbreaking attacks, which aim to extract harmful information by subtly modifying the attack query. As defense mechanisms evolve, directly obtaining harmful information becomes increasingly challenging for Jailbreaking attacks. In this work, inspired by human practices of indirect context to elicit harmful information, we focus on a new attack form called Contextual Interaction Attack. The idea relies on the autoregressive nature of the generation process in LLMs. We contend that the prior context--the information preceding the attack query--plays a pivotal role in enabling potent Jailbreaking attacks. Specifically, we propose an approach that leverages preliminary question-answer pairs to interact with the LLM. By doing so, we guide the responses of the model toward revealing the 'desired' harmful information. We conduct experiments on four different LLMs and demonstrate the efficacy of this attack, which is black-box and can also transfer across LLMs. We believe this can lead to further developments and understanding of the context vector in LLMs.
翻訳日:2024-02-15 15:20:20 公開日:2024-02-14
# 分散オンライン凸最適化における最善の後悔

Nearly Optimal Regret for Decentralized Online Convex Optimization ( http://arxiv.org/abs/2402.09173v1 )

ライセンス: Link先を確認
Yuanyu Wan and Tong Wei and Mingli Song and Lijun Zhang(参考訳) 本研究では,局所的な計算と通信のみを用いてグローバル損失関数列を最小化するために,局所学習者の一組が必要となる分散型オンライン凸最適化(d-oco)について検討する。 これまでの研究では、それぞれ凸関数と強い凸関数に対する後悔境界を$o(n^{5/4}\rho^{-1/2}\sqrt{t})$と${o}(n^{3/2}\rho^{-1}\log t)$が確立されており、ここでは$n$は局所学習者の数、$\rho<1$は通信行列のスペクトルギャップ、$t$は時間軸である。 しかし、既存の下限、すなわち凸函数に対して$\omega(n\sqrt{t})$ と強凸函数に対して $\omega(n)$ との間には大きなギャップが存在する。 これらのギャップを埋めるために、まず、凸関数と強凸関数の後悔境界をそれぞれ$\tilde{O}(n\rho^{-1/4}\sqrt{T})$と$\tilde{O}(n\rho^{-1/2}\log T)$に還元できる新しいD-OCOアルゴリズムを開発する。 主な手法は,地域学習者の間で,より高速なコンセンサスを享受するオンライン・アクセラレーション型ゴシップ戦略を設計することである。 さらに、特定のネットワークトポロジーのスペクトル特性を慎重に活用することにより、凸関数と強凸関数の下位境界をそれぞれ$\Omega(n\rho^{-1/4}\sqrt{T})$と$\Omega(n\rho^{-1/2})$に拡張する。 これらの下限は、我々のアルゴリズムが$T$, $n$, $\rho$の点でほぼ最適であることを示している。

We investigate decentralized online convex optimization (D-OCO), in which a set of local learners are required to minimize a sequence of global loss functions using only local computations and communications. Previous studies have established $O(n^{5/4}\rho^{-1/2}\sqrt{T})$ and ${O}(n^{3/2}\rho^{-1}\log T)$ regret bounds for convex and strongly convex functions respectively, where $n$ is the number of local learners, $\rho<1$ is the spectral gap of the communication matrix, and $T$ is the time horizon. However, there exist large gaps from the existing lower bounds, i.e., $\Omega(n\sqrt{T})$ for convex functions and $\Omega(n)$ for strongly convex functions. To fill these gaps, in this paper, we first develop novel D-OCO algorithms that can respectively reduce the regret bounds for convex and strongly convex functions to $\tilde{O}(n\rho^{-1/4}\sqrt{T})$ and $\tilde{O}(n\rho^{-1/2}\log T)$. The primary technique is to design an online accelerated gossip strategy that enjoys a faster average consensus among local learners. Furthermore, by carefully exploiting the spectral properties of a specific network topology, we enhance the lower bounds for convex and strongly convex functions to $\Omega(n\rho^{-1/4}\sqrt{T})$ and $\Omega(n\rho^{-1/2})$, respectively. These lower bounds suggest that our algorithms are nearly optimal in terms of $T$, $n$, and $\rho$.
翻訳日:2024-02-15 15:19:52 公開日:2024-02-14
# metaにおける大規模言語モデルを用いたユニットテストの自動改善

Automated Unit Test Improvement using Large Language Models at Meta ( http://arxiv.org/abs/2402.09171v1 )

ライセンス: Link先を確認
Nadia Alshahwan, Jubin Chheda, Anastasia Finegenova, Beliz Gokkaya, Mark Harman, Inna Harper, Alexandru Marginean, Shubho Sengupta, Eddy Wang(参考訳) 本稿では,LLMを用いたMetaのTestGen-LLMツールについて述べる。 TestGen-LLMは、生成されたテストクラスが元のテストスイートよりも測定可能な改善を保証する一連のフィルタをクリアし、LCM幻覚による問題を排除したことを検証している。 InstagramとFacebookプラットフォームのMetaテストアソンにおけるTestGen-LLMのデプロイについて説明する。 InstagramのReelsとStories製品の評価では、TestGen-LLMのテストケースの75%が正しく構築され、57%が確実にパスし、25%がカバレッジが増加した。 metaのinstagramとfacebookのtest-a-thonsでは、適用されたすべてのクラスの11.5%が改善され、その73%がメタソフトウェアエンジニアによる製品展開に受け入れられた。 LLM生成コードの産業規模展開に関する最初の報告であり、コード改善の保証に支えられている。

This paper describes Meta's TestGen-LLM tool, which uses LLMs to automatically improve existing human-written tests. TestGen-LLM verifies that its generated test classes successfully clear a set of filters that assure measurable improvement over the original test suite, thereby eliminating problems due to LLM hallucination. We describe the deployment of TestGen-LLM at Meta test-a-thons for the Instagram and Facebook platforms. In an evaluation on Reels and Stories products for Instagram, 75% of TestGen-LLM's test cases built correctly, 57% passed reliably, and 25% increased coverage. During Meta's Instagram and Facebook test-a-thons, it improved 11.5% of all classes to which it was applied, with 73% of its recommendations being accepted for production deployment by Meta software engineers. We believe this is the first report on industrial scale deployment of LLM-generated code backed by such assurances of code improvement.
翻訳日:2024-02-15 15:18:48 公開日:2024-02-14
# 可積分スピン量子電池における量子相転移のエネルギー貯蔵の促進

Enhancing energy storage crossing quantum phase transitions in an integrable spin quantum battery ( http://arxiv.org/abs/2402.09169v1 )

ライセンス: Link先を確認
Riccardo Grazi, Daniel Sacco Shaikh, Maura Sassetti, Niccol\`o Traverso Ziani, Dario Ferraro(参考訳) 量子電池としての1次元二量化XY鎖の性能について検討する。 このような可積分モデルは、スピンの補助フェルミオン次数への写像によって生じるリッチな量子位相図を示す。 我々は、内部パラメータの二重クエンチ、特に二量化の強さに依存する充電プロトコルを考える。 この図の中では、特定の量子相転移で系を駆動する結果としてスピン当たりのエネルギーが大幅に増大するのが観察される。

We investigate the performance of a one dimensional dimerized XY chain as a quantum battery. Such integrable model shows a rich quantum phase diagram which emerges through a mapping of the spins into auxiliary fermionic degrees of freedom. We consider a charging protocol relying on the double quench of an internal parameter, notably the strength of the dimerization. Within this picture we observe a substantial enhancement of the energy stored per spin as a consequence of driving the system across certain quantum phase transitions.
翻訳日:2024-02-15 15:17:35 公開日:2024-02-14
# 自動プラトゥーイングアルゴリズム評価のためのベンチマークテストベッドの設計と実現

Design and Realization of a Benchmarking Testbed for Evaluating Autonomous Platooning Algorithms ( http://arxiv.org/abs/2402.09233v1 )

ライセンス: Link先を確認
Michael Shaham, Risha Ranjan, Engin Kirda, Taskin Padir(参考訳) 自律走行車プラトンは、運用効率を高め、命を救うための近時および長期の機会を提供する。 過去30年間、自動運転分野は急速に発展し、人間のドライバーの負担を軽減し、車の排出を減らす新しいテクノロジーを可能にしてきた。 本稿では,搭載センサーを搭載した1/10スケール車両における小隊アルゴリズムの評価とベンチマークを行うテストベッドを提案する。 テストベッドの有用性を示すために,リニアフィードバックと分散モデル予測制御の2つのバリエーションの3つのアルゴリズムを評価し,リード車両が複数回速度を変化させる参照軌道を追跡する典型的な小隊形シナリオと比較した。 我々は,小隊の規模が大きくなるにつれて,我々のアルゴリズムをシミュレーションで検証し,分散モデル予測制御アルゴリズムがハードウェアやシミュレーションの線形フィードバックを上回っていることを見出した。

Autonomous vehicle platoons present near- and long-term opportunities to enhance operational efficiencies and save lives. The past 30 years have seen rapid development in the autonomous driving space, enabling new technologies that will alleviate the strain placed on human drivers and reduce vehicle emissions. This paper introduces a testbed for evaluating and benchmarking platooning algorithms on 1/10th scale vehicles with onboard sensors. To demonstrate the testbed's utility, we evaluate three algorithms, linear feedback and two variations of distributed model predictive control, and compare their results on a typical platooning scenario where the lead vehicle tracks a reference trajectory that changes speed multiple times. We validate our algorithms in simulation to analyze the performance as the platoon size increases, and find that the distributed model predictive control algorithms outperform linear feedback on hardware and in simulation.
翻訳日:2024-02-15 15:10:42 公開日:2024-02-14
# 進化する仮想ソフトロボットの形態と制御の共最適化における早期収束の検討

Investigating Premature Convergence in Co-optimization of Morphology and Control in Evolved Virtual Soft Robots ( http://arxiv.org/abs/2402.09231v1 )

ライセンス: Link先を確認
Alican Mertan and Nick Cheney(参考訳) 進化する仮想生物は豊かな歴史を持つ分野であり、最近では特にソフトロボティクスの分野で注目を集めている。 ソフト素材のコンプライアンスは、ソフトロボットに複雑な振る舞いを与えるが、設計プロセスは直感的ではなく、自動設計を必要とする。 大きな関心にもかかわらず、進化した仮想ソフトロボットは複雑さを欠き、形態学と制御の共最適化は難しい問題である。 先行研究は、脳と身体の脆弱な共適応という共最適化プロセスにおける大きな問題を特定し、調査している。 本研究は,学習可能な制御系と学習可能な観測系と,観察を伴わない固定制御系を比較することで,この現象の解明を拡大するものである。 この2つの形態空間と2つの環境における実験は、形態空間における高い性能領域の存在を具体例として示しており、形態空間と制御の共最適化において発見できないが、形態空間のみを最適化する際には容易に発見できる。 したがって、この研究は共最適化の際の形態学的最適化の課題を明確に示し、特徴付けしている。 これらの結果に基づき,探索的視点から問題を理解するのに役立つ共最適化問題を考えるための新しい身体中心フレームワークを提案する。 この研究で共有する洞察が、問題により多くの注意を引き付け、効率的な脳-身体の共最適化を可能にすることを願っています。

Evolving virtual creatures is a field with a rich history and recently it has been getting more attention, especially in the soft robotics domain. The compliance of soft materials endows soft robots with complex behavior, but it also makes their design process unintuitive and in need of automated design. Despite the great interest, evolved virtual soft robots lack the complexity, and co-optimization of morphology and control remains a challenging problem. Prior work identifies and investigates a major issue with the co-optimization process -- fragile co-adaptation of brain and body resulting in premature convergence of morphology. In this work, we expand the investigation of this phenomenon by comparing learnable controllers with proprioceptive observations and fixed controllers without any observations, whereas in the latter case, we only have the optimization of the morphology. Our experiments in two morphology spaces and two environments that vary in complexity show, concrete examples of the existence of high-performing regions in the morphology space that are not able to be discovered during the co-optimization of the morphology and control, yet exist and are easily findable when optimizing morphologies alone. Thus this work clearly demonstrates and characterizes the challenges of optimizing morphology during co-optimization. Based on these results, we propose a new body-centric framework to think about the co-optimization problem which helps us understand the issue from a search perspective. We hope the insights we share with this work attract more attention to the problem and help us to enable efficient brain-body co-optimization.
翻訳日:2024-02-15 15:10:27 公開日:2024-02-14
# フルラインコード補完のためのコンテキスト構成

Context Composing for Full Line Code Completion ( http://arxiv.org/abs/2402.09230v1 )

ライセンス: Link先を確認
Anton Semenkin, Yaroslav Sokolov, Evgeniia Vu(参考訳) Code Completionは、ソフトウェア開発者の日常生活に影響を与える最もよく使われる統合開発環境(IDE)の1つである。 現代のコード補完アプローチは、いくつかの静的解析ベースのコントリビュータの構成から、ニューラルネットワークを含むパイプラインへと移行した。 この変更により、生成自体に費やした比較的短い時間を保ちながら、より長いコード提案の提案が可能になる。 JetBrainsでは、コード補完ワークフローを完璧にするために多くの努力を払っています。 PyCharm Pro IDEにFull Line Code Completion機能を出荷することに成功し、数百の実際のPythonユーザを対象としたA/Bテストにおいて、その有用性を証明しました。 本稿では,機能実装のコアとなるトランスフォーマーモデルのためのコンテキスト構成のアプローチについて述べる。 それに加えて、機能を改善するための次のステップを共有し、この分野におけるいくつかの研究面の重要性を強調します。

Code Completion is one of the most used Integrated Development Environment (IDE) features, which affects the everyday life of a software developer. Modern code completion approaches moved from the composition of several static analysis-based contributors to pipelines that involve neural networks. This change allows the proposal of longer code suggestions while maintaining the relatively short time spent on generation itself. At JetBrains, we put a lot of effort into perfecting the code completion workflow so it can be both helpful and non-distracting for a programmer. We managed to ship the Full Line Code Completion feature to PyCharm Pro IDE and proved its usefulness in A/B testing on hundreds of real Python users. The paper describes our approach to context composing for the Transformer model that is a core of the feature's implementation. In addition to that, we share our next steps to improve the feature and emphasize the importance of several research aspects in the area.
翻訳日:2024-02-15 15:10:03 公開日:2024-02-14
# 2均質ニューラルネットワークにおける微小初期化近傍の方向収束

Directional Convergence Near Small Initializations and Saddles in Two-Homogeneous Neural Networks ( http://arxiv.org/abs/2402.09226v1 )

ライセンス: Link先を確認
Akshay Kumar and Jarvis Haupt(参考訳) 本稿では,すべての重みが原点付近で初期化される小初期化のための2次ニューラルネットワークの勾配流れのダイナミクスについて検討する。 正方形とロジスティックの両方の損失に対して、十分に小さな初期化の場合、勾配流のダイナミクスは、ニューラルネットワークの重みをニューラルネットワークの出力とトレーニングデータセットの対応するラベルとの相関を定量化するニューラルネットワーク関数のKKT(Karush-Kuhn-Tucker)点にほぼ収束させるのに十分な時間を原点近傍で過ごすことが示されている。 正方形損失のために、ニューラルネットワークは原点に近い初期化時にサドル・アンド・サドル力学を実行することが観察されている。 また,本研究の動機は,特定の鞍点近傍の小さな大きさの重みの間で,同様の方向収束を示すことにある。

This paper examines gradient flow dynamics of two-homogeneous neural networks for small initializations, where all weights are initialized near the origin. For both square and logistic losses, it is shown that for sufficiently small initializations, the gradient flow dynamics spend sufficient time in the neighborhood of the origin to allow the weights of the neural network to approximately converge in direction to the Karush-Kuhn-Tucker (KKT) points of a neural correlation function that quantifies the correlation between the output of the neural network and corresponding labels in the training data set. For square loss, it has been observed that neural networks undergo saddle-to-saddle dynamics when initialized close to the origin. Motivated by this, this paper also shows a similar directional convergence among weights of small magnitude in the neighborhood of certain saddle points.
翻訳日:2024-02-15 15:09:49 公開日:2024-02-14
# スペクトルフィルタ,暗信号および注意シンク

Spectral Filters, Dark Signals, and Attention Sinks ( http://arxiv.org/abs/2402.09221v1 )

ライセンス: Link先を確認
Nicola Cancedda(参考訳) 中間表現を語彙に投影することは、ロージットレンズとしても知られるトランスフォーマーベースのLSMの解釈ツールとして、ますます人気が高まっている。 本稿では,この手法を定量的に拡張し,語彙の特異ベクトルを分割し,行列をバンドに非埋め込みすることで,中間表現のスペクトルフィルタを定義する。 スペクトルの尾端で交換された信号が注意の沈下(xiao et al. 2023)の原因であることが明らかとなった。 注意沈降が維持される限り, 埋込スペクトルの粒径を層依存性に抑えながら, 事前学習モデルの損失を低く抑えることができることがわかった。 最後に、多くのトークンから注意を引くトークンの表現がスペクトルの尾端に大きな投影を持つことを発見した。

Projecting intermediate representations onto the vocabulary is an increasingly popular interpretation tool for transformer-based LLMs, also known as the logit lens. We propose a quantitative extension to this approach and define spectral filters on intermediate representations based on partitioning the singular vectors of the vocabulary embedding and unembedding matrices into bands. We find that the signals exchanged in the tail end of the spectrum are responsible for attention sinking (Xiao et al. 2023), of which we provide an explanation. We find that the loss of pretrained models can be kept low despite suppressing sizable parts of the embedding spectrum in a layer-dependent way, as long as attention sinking is preserved. Finally, we discover that the representation of tokens that draw attention from many tokens have large projections on the tail end of the spectrum.
翻訳日:2024-02-15 15:09:28 公開日:2024-02-14
# 社会ネットワーク分析を用いた学生ネットワークと新型コロナウイルスパンデミックの事例研究

A case study of university student networks and the COVID-19 pandemic using a social network analysis approach in halls of residence ( http://arxiv.org/abs/2402.09219v1 )

ライセンス: Link先を確認
Jos\'e Alberto Ben\'itez-Andrades, Tania Fern\'andez-Villa, Carmen Benavides, Andrea Gayubo-Serrenes, Vicente Mart\'in and Pilar Marqu\'es-S\'anchez(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、若い大学生が学習に適応し、関係性を減らす必要があることを意味している。 逆境コンテキストは関係に基づく人間の行動のモデルを構築する。 しかし、パンデミックの文脈において、その社会的構造に基づいて大学生の行動を分析する研究が不足している。 この情報は、敵に対する集合的な反応をどう計画するかを決めるのに役立つかもしれない。 この構造的視点に対処するために、sna(social network analysis)法が選ばれた。 本研究の目的は、新型コロナウイルス(covid-19)パンデミックにおける大学在学学生の構造的挙動を、学生指導者のより深い分析とともに記述することである。 2020年10月23日から11月20日までスペインの公立大学le\'onで記述的な横断研究が行われた。 学生は93人で、4つのホールから参加した。 データは、新型コロナウイルス(COVID-19)パンデミック「SiVeUle」で接触者を追跡するために、大学で特別に作成されたデータベースから収集された。 データを解析するためにSNAを適用した。 大学寮の指導力は中央値を用いて測定された。 トップリーダーは、egoネットワークと主要なプレイヤーの評価を使って分析された。 社会的な評判が高い学生は、新型コロナウイルスの感染に関連するパンデミック感染のレベルが高い。 その結果、ネットワークの中央値と新型コロナウイルス感染の結果との間に統計的に有意な差があった。 最も指導的な学生は高い中間性を示し、3人の生徒はネットワークのキープレーヤー構造を持っていた。 新型コロナウイルス(covid-19)パンデミックでは、学生の居住ホールでのネットワーク行動が感染と関連している可能性がある。

The COVID-19 pandemic has meant that young university students have had to adapt their learning and have a reduced relational context. Adversity contexts build models of human behaviour based on relationships. However, there is a lack of studies that analyse the behaviour of university students based on their social structure in the context of a pandemic. This information could be useful in making decisions on how to plan collective responses to adversities. The Social Network Analysis (SNA) method has been chosen to address this structural perspective. The aim of our research is to describe the structural behaviour of students in university residences during the COVID-19 pandemic with a more in-depth analysis of student leaders. A descriptive cross-sectional study was carried out at one Spanish Public University, Le\'on, from 23th October 2020 to 20th November 2020. The participation was of 93 students, from four halls of residence. The data were collected from a database created specifically at the university to "track" contacts in the COVID-19 pandemic, SiVeUle. We applied the SNA for the analysis of the data. The leadership on the university residence was measured using centrality measures. The top leaders were analyzed using the Egonetwork and an assessment of the key players. Students with higher social reputations experience higher levels of pandemic contagion in relation to COVID-19 infection. The results were statistically significant between the centrality in the network and the results of the COVID-19 infection. The most leading students showed a high degree of Betweenness, and three students had the key player structure in the network. Networking behaviour of university students in halls of residence could be related to contagion in the COVID-19 pandemic.
翻訳日:2024-02-15 15:09:14 公開日:2024-02-14
# 大規模言語モデルによるAutoTutorのオーサリングのスケールアップ

Scaling the Authoring of AutoTutors with Large Language Models ( http://arxiv.org/abs/2402.09216v1 )

ライセンス: Link先を確認
Sankalan Pal Chowdhury, Vil\'em Zouhar, Mrinmaya Sachan(参考訳) 大規模言語モデル(LLM)は、自動質問生成からエッセイ評価まで、いくつかのユースケースを教育で発見した。 本稿では,Large Language Models (LLM) を用いて知能学習システムを構築する可能性について検討する。 LLMの共通の落とし穴は、学生に答えを漏らすなど、望まれる教育戦略からの逸脱であり、一般に保証を与えないことである。 特定のガードレールを持つLLMは、被験者に取って代わることができるが、総合的な教育設計は、最高の学習結果を得るために手作業で行う必要があると仮定する。 この原理に基づいて, MWPTutor という, LLM を用いて予め定義された有限状態トランスデューサの状態空間を埋める, エンドツーエンドの学習システムを構築した。 このアプローチは、長年にわたって科学者によって開発されてきた伝統的なチューリングシステムの構造と教育を保ちながら、LLMベースのアプローチのさらなる柔軟性をもたらす。 数学の単語問題に基づく2つのデータセットについて人間による評価を行った結果,本手法は指導されるが自由形式であるgpt-4よりも総合的な学習スコアが向上することを示した。 MWPTutorは完全にモジュール化されており、個々のモジュールを改善したり、それに従うことができる異なる教育戦略を使うことで、コミュニティがパフォーマンスを向上させるためのスコープを開放する

Large Language Models (LLMs) have found several use cases in education, ranging from automatic question generation to essay evaluation. In this paper, we explore the potential of using Large Language Models (LLMs) to author Intelligent Tutoring Systems. A common pitfall of LLMs is their straying from desired pedagogical strategies such as leaking the answer to the student, and in general, providing no guarantees. We posit that while LLMs with certain guardrails can take the place of subject experts, the overall pedagogical design still needs to be handcrafted for the best learning results. Based on this principle, we create a sample end-to-end tutoring system named MWPTutor, which uses LLMs to fill in the state space of a pre-defined finite state transducer. This approach retains the structure and the pedagogy of traditional tutoring systems that has been developed over the years by learning scientists but brings in additional flexibility of LLM-based approaches. Through a human evaluation study on two datasets based on math word problems, we show that our hybrid approach achieves a better overall tutoring score than an instructed, but otherwise free-form, GPT-4. MWPTutor is completely modular and opens up the scope for the community to improve its performance by improving individual modules or using different teaching strategies that it can follow
翻訳日:2024-02-15 15:08:50 公開日:2024-02-14
# 社会ネットワーク分析による新型コロナウイルスのパンデミック時の大学公邸における結束性サブグループの同定

Identification of cohesive subgroups in a university hall of residence during the COVID-19 pandemic using a social network analysis approach ( http://arxiv.org/abs/2402.09213v1 )

ライセンス: Link先を確認
Pilar Marqu\'es-S\'anchez, Arrate Pinto-Carral, Tania Fern\'andez-Villa, Ana V\'azquez-Casares, Cristina Li\'ebana-Presa and Jos\'e Alberto Ben\'itez-Andrades(参考訳) 目的: (i)大学生のサブグループ間のコネクティビティの分析 二 関係接点の橋梁が部分群を接続又は切断するのに欠かせないものを評価すること。 (3)パンデミックの文脈におけるサブグループノードの属性間の類似性を検討する。 新型コロナウイルス(COVID-19)パンデミックの間、若い大学生は特に住宅のホールで関係に大きな変化を経験してきた。 これまでの研究では、感染過程における関係構造の重要性が示されている。 しかし、学生が密接な関係で生活する大学環境には研究の欠如がある。 事例研究手法を適用して記述研究を行った。 参加者は43人の大学生が同じ住居に住んでいた。 ソーシャルネットワーク分析はデータ分析に応用されている。 Factions と Girvan Newman のアルゴリズムは、既存の凝集部分群を検出するために応用されている。 UCINETツールはSNA尺度の計算に使われた。 Gephiソフトウェアを用いてグローバルネットワークの可視化を行う。 Girvan-Newman と Factions を適用した後、どちらの場合も、ネットワークを 4 つの部分群に分割したのが最良の部分群であることがわかった。 部分群内の結合度は高く、それらの間の結合度は低い。 サブグループメンバーシップとジェンダーの関係は重要であった。 新型コロナウイルス感染の程度は、学生間のクラスター化の程度に関係している。 大学生は住居でサブグループを形成します。 社会ネットワーク分析は、パンデミック中の構造的行動の理解を促進する。 この研究は、パンデミック時の感染を好む、あるいは好まない、ネットワーク構造を構築する上で、性別、人種、建物の重要性に関する証拠を提供する。

The aims: (i) analyze connectivity between subgroups of university students, (ii) assess which bridges of relational contacts are essential for connecting or disconnecting subgroups and (iii) to explore the similarities between the attributes of the subgroup nodes in relation to the pandemic context. During the COVID-19 pandemic, young university students have experienced significant changes in their relationships, especially in the halls of residence. Previous research has shown the importance of relationship structure in contagion processes. However, there is a lack of studies in the university setting, where students live closely together. The case study methodology was applied to carry out a descriptive study. The participation consisted of 43 university students living in the same hall of residence. Social network analysis has been applied for data analysis. Factions and Girvan Newman algorithms have been applied to detect the existing cohesive subgroups. The UCINET tool was used for the calculation of the SNA measure. A visualization of the global network will be carried out using Gephi software. After applying the Girvan-Newman and Factions, in both cases it was found that the best division into subgroups was the one that divided the network into 4 subgroups. There is high degree of cohesion within the subgroups and a low cohesion between them. The relationship between subgroup membership and gender was significant. The degree of COVID-19 infection is related to the degree of clustering between the students. College students form subgroups in their residence. Social network analysis facilitates an understanding of structural behavior during the pandemic. The study provides evidence on the importance of gender, race and the building where they live in creating network structures that favor, or not, contagion during a pandemic.
翻訳日:2024-02-15 15:08:24 公開日:2024-02-14
# 絡み合い分布ネットワークにおける量子相関の機械分類

Machine classification of quantum correlations for entanglement distribution networks ( http://arxiv.org/abs/2402.09212v1 )

ライセンス: Link先を確認
Jan Soubusta, Anton\'in \v{C}ernoch and Karel Lemr(参考訳) 本稿では,エンタングルメント分布ネットワークにおける量子相関の資源効率の高い分類に機械学習を用いることを提案する。 具体的には、絡み合いスワッピングの幾何学で実施した集団計測に基づいて量子相関を分類するために、人工ニューラルネットワーク(ann)を用いる。 ANNは、2量子量子状態が示す量子相関の強さに応じて、互いに排他的に5つのクラスに分類するように訓練されている。 annモデルの精度とリコールは、消費される量子リソース、すなわち集団計測の回数の関数として分析される。

The paper suggest employing machine learning for resource-efficient classification of quantum correlations in entanglement distribution networks. Specifically, artificial neural networks (ANN) are utilized to classify quantum correlations based on collective measurements conducted in the geometry of entanglement swapping. ANNs are trained to categorize two-qubit quantum states into five mutually exclusive classes depending on the strength of quantum correlations exhibited by the states. The precision and recall of the ANN models are analyzed as functions of the quantum resources consumed, i.e. the number of collective measurements performed.
翻訳日:2024-02-15 15:08:01 公開日:2024-02-14
# DivaTrack:加速度強化三点追跡器の異方体と運動

DivaTrack: Diverse Bodies and Motions from Acceleration-Enhanced Three-Point Trackers ( http://arxiv.org/abs/2402.09211v1 )

ライセンス: Link先を確認
Dongseok Yang, Jiho Kang, Lingni Ma, Joseph Greer, Yuting Ye and Sung-Hee Lee(参考訳) 全身アバターの存在は、デジタルリアリティーにおける没入的社会的および環境的相互作用に不可欠である。 しかし、現在のデバイスはヘッドセットから3つの6自由度(DOF)ポーズと2つのコントローラー(すなわち3点トラッカー)しか提供していない。 非常に制約の少ない問題であるため、特に全身の比率と一般人口に代表されるユースケースを支持する場合、これらの入力から全身のポーズを推測することは困難である。 本稿では,多様な身体サイズや活動に適用した場合に,既存の手法よりも優れたディープラーニングフレームワークであるDivaTrackを提案する。 Inertial Measurement Units (IMU) からの線形加速度によるスパース3点入力を増強し、足の接触予測を改善する。 次に,二段階モデルにおいて足の接触や上半身のポーズを予測して,曖昧でない下半身ポーズを条件とする。 さらに、2つの参照フレームで計算される予測をブレンドすることを学ぶことで、幅広い構成で推測された全体ポーズを安定化させ、それぞれ異なるタイプの動きに設計する。 肺, フラフープ, 座位などの3点追跡に挑戦する22名の被験者を対象とする大規模データセット上で, 設計の有効性を実証した。 Meta VRヘッドセットとXsens IMUを用いたライブデモで示すように、当社の手法はリアルタイムに動作し、多様な動作を行うユーザの動きを正確に追跡する。

Full-body avatar presence is crucial for immersive social and environmental interactions in digital reality. However, current devices only provide three six degrees of freedom (DOF) poses from the headset and two controllers (i.e. three-point trackers). Because it is a highly under-constrained problem, inferring full-body pose from these inputs is challenging, especially when supporting the full range of body proportions and use cases represented by the general population. In this paper, we propose a deep learning framework, DivaTrack, which outperforms existing methods when applied to diverse body sizes and activities. We augment the sparse three-point inputs with linear accelerations from Inertial Measurement Units (IMU) to improve foot contact prediction. We then condition the otherwise ambiguous lower-body pose with the predictions of foot contact and upper-body pose in a two-stage model. We further stabilize the inferred full-body pose in a wide range of configurations by learning to blend predictions that are computed in two reference frames, each of which is designed for different types of motions. We demonstrate the effectiveness of our design on a large dataset that captures 22 subjects performing challenging locomotion for three-point tracking, including lunges, hula-hooping, and sitting. As shown in a live demo using the Meta VR headset and Xsens IMUs, our method runs in real-time while accurately tracking a user's motion when they perform a diverse set of movements.
翻訳日:2024-02-15 15:07:52 公開日:2024-02-14
# もっと教えてくれ! 言語モデル駆動エージェントのユーザ意図的理解に向けて

Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents ( http://arxiv.org/abs/2402.09205v1 )

ライセンス: Link先を確認
Cheng Qian, Bingxiang He, Zhong Zhuang, Jia Deng, Yujia Qin, Xin Cong, Yankai Lin, Zhong Zhang, Zhiyuan Liu, Maosong Sun(参考訳) 現在の言語モデル駆動エージェントは、効果的なユーザー参加のためのメカニズムを欠いていることが多い。 戦略の策定やタスクの実行には適しているが、これらのエージェントは明確化と正確なユーザ意図の把握に苦慮している。 このギャップを埋めるために,明示的なクエリを通じてユーザの暗黙的な意図を検査する,新しいベンチマークであるintent-in-interaction (in3)を導入する。 次に,モデルエキスパートをエージェント設計の上流として導入し,ユーザとエージェントの対話性を高めることを提案する。 これは、タスクの曖昧さを積極的に評価し、ユーザの意図を問い合わせ、それらを下流エージェントタスクの実行を開始する前に実行可能な目標に洗練する強力なモデルです。 xagentフレームワークへの統合により,ユーザ指示の理解と実行に関する拡張エージェントシステムを包括的に評価し,このアプローチがあいまいなユーザタスクの識別,重要な欠落情報の回収と要約,正確かつ必要なエージェント実行目標の設定,冗長なツール使用の最小化,全体的な効率の向上に特に優れていることを明らかにした。 すべてのデータとコードはリリースされます。

Current language model-driven agents often lack mechanisms for effective user participation, which is crucial given the vagueness commonly found in user instructions. Although adept at devising strategies and performing tasks, these agents struggle with seeking clarification and grasping precise user intentions. To bridge this gap, we introduce Intention-in-Interaction (IN3), a novel benchmark designed to inspect users' implicit intentions through explicit queries. Next, we propose the incorporation of model experts as the upstream in agent designs to enhance user-agent interaction. Employing IN3, we empirically train Mistral-Interact, a powerful model that proactively assesses task vagueness, inquires user intentions, and refines them into actionable goals before starting downstream agent task execution. Integrating it into the XAgent framework, we comprehensively evaluate the enhanced agent system regarding user instruction understanding and execution, revealing that our approach notably excels at identifying vague user tasks, recovering and summarizing critical missing information, setting precise and necessary agent execution goals, and minimizing redundant tool usage, thus boosting overall efficiency. All the data and codes are released.
翻訳日:2024-02-15 15:07:28 公開日:2024-02-14
# 分散キャリブレーションのためのドメイン適応型およびサブグループ特異的カスケード温度回帰

Domain-adaptive and Subgroup-specific Cascaded Temperature Regression for Out-of-distribution Calibration ( http://arxiv.org/abs/2402.09204v1 )

ライセンス: Link先を確認
Jiexin Wang, Jiahao Chen, Bing Su(参考訳) ディープニューラルネットワークは、十分なトレーニングデータによって高い分類精度をもたらすが、その予測は、通常、自信過剰または自信不足であり、すなわち、予測信頼度は、正確さを実際に反映するものではない。 ポストホック校正は、分類モデルを再訓練することなく予測信頼性を校正することでこの問題に対処する。 しかし、現在のアプローチでは、テストと検証データ分布の一致を前提としており、分散シナリオの適用性が制限されている。 そこで本研究では,ポストホックキャリブレーションのためのメタセット型カスケード温度回帰法を提案する。 本手法は、検証セット上のデータ拡張を通じて、さまざまなドメインシフトをシミュレートすることで、異なるテストセットに対してきめ細かいスケーリング関数を調整する。 予測されたカテゴリと信頼度に基づいて,各メタセットをサブグループに分割し,多様な不確実性を捉える。 回帰ネットワークは、カテゴリ特化および信頼レベル特化スケーリングを導出し、メタセット間のキャリブレーションを達成するように訓練される。 MNIST, CIFAR-10, TinyImageNetの大規模実験結果から, 提案手法の有効性が示された。

Although deep neural networks yield high classification accuracy given sufficient training data, their predictions are typically overconfident or under-confident, i.e., the prediction confidences cannot truly reflect the accuracy. Post-hoc calibration tackles this problem by calibrating the prediction confidences without re-training the classification model. However, current approaches assume congruence between test and validation data distributions, limiting their applicability to out-of-distribution scenarios. To this end, we propose a novel meta-set-based cascaded temperature regression method for post-hoc calibration. Our method tailors fine-grained scaling functions to distinct test sets by simulating various domain shifts through data augmentation on the validation set. We partition each meta-set into subgroups based on predicted category and confidence level, capturing diverse uncertainties. A regression network is then trained to derive category-specific and confidence-level-specific scaling, achieving calibration across meta-sets. Extensive experimental results on MNIST, CIFAR-10, and TinyImageNet demonstrate the effectiveness of the proposed method.
翻訳日:2024-02-15 15:07:07 公開日:2024-02-14
# 改良KL PAC-Bayes境界

Better-than-KL PAC-Bayes Bounds ( http://arxiv.org/abs/2402.09201v1 )

ライセンス: Link先を確認
Ilja Kuzborskij, Kwang-Sung Jun, Yulian Wu, Kyoungseok Jang, Francesco Orabona(参考訳) 例えば、$f(\theta, X_1),$ $ \dots,$ $ f(\theta, X_n)$ をランダム要素の列とし、$f$ を固定スカラー関数、$X_1, \dots, X_n$ を独立確率変数(データ)、$\theta$ をデータ依存後続分布 $P_n$ に従って分布するランダムパラメータとする。 本稿では,シーケンスの平均値を推定するために,濃度不等式を示す問題を考える。 そのような問題の例として、f$が損失関数であるニューラルネットワークのような確率的アルゴリズムによって訓練された予測子の一般化誤差の推定がある。 古典的には、この問題はPAC-Bayes分析を通じてアプローチされ、後部に加えて、学習問題の帰納バイアスについての信念を捉える事前分布を選択する。 次に、PAC-Bayes濃度境界の鍵量は、事実上の標準選択がKL分散である学習問題の複雑さを捉える分岐である。 しかし、この選択の厳しさが疑問視されることはほとんどない。 本稿では,より厳密な境界を実現できることを示すことにより,kl-divergence-based boundsの厳密性に挑戦する。 特に, Zhang et al. (2022) に触発された新しい高確率PAC-Bayes境界と, より優れたKL分散性を示す。 我々の証明は、ギャンブルアルゴリズムの後悔分析の最近の進歩と、その濃度不等式の導出に触発されている。 その結果,非klダイバージェンスを持つ既存のpac-bayes境界は,klよりも厳密には優れていることが分かっていない。 したがって、我々の研究はPAC-Bayes境界の最適速度を特定するための第一歩だと信じている。

Let $f(\theta, X_1),$ $ \dots,$ $ f(\theta, X_n)$ be a sequence of random elements, where $f$ is a fixed scalar function, $X_1, \dots, X_n$ are independent random variables (data), and $\theta$ is a random parameter distributed according to some data-dependent posterior distribution $P_n$. In this paper, we consider the problem of proving concentration inequalities to estimate the mean of the sequence. An example of such a problem is the estimation of the generalization error of some predictor trained by a stochastic algorithm, such as a neural network where $f$ is a loss function. Classically, this problem is approached through a PAC-Bayes analysis where, in addition to the posterior, we choose a prior distribution which captures our belief about the inductive bias of the learning problem. Then, the key quantity in PAC-Bayes concentration bounds is a divergence that captures the complexity of the learning problem where the de facto standard choice is the KL divergence. However, the tightness of this choice has rarely been questioned. In this paper, we challenge the tightness of the KL-divergence-based bounds by showing that it is possible to achieve a strictly tighter bound. In particular, we demonstrate new high-probability PAC-Bayes bounds with a novel and better-than-KL divergence that is inspired by Zhang et al. (2022). Our proof is inspired by recent advances in regret analysis of gambling algorithms, and its use to derive concentration inequalities. Our result is first-of-its-kind in that existing PAC-Bayes bounds with non-KL divergences are not known to be strictly better than KL. Thus, we believe our work marks the first step towards identifying optimal rates of PAC-Bayes bounds.
翻訳日:2024-02-15 15:06:47 公開日:2024-02-14
# 強化学習を用いたTorおよび公開ネットワーク上の指令制御(C2)チャネルの発見

Discovering Command and Control (C2) Channels on Tor and Public Networks Using Reinforcement Learning ( http://arxiv.org/abs/2402.09200v1 )

ライセンス: Link先を確認
Cheng Wang, Christopher Redino, Abdul Rahman, Ryan Clark, Daniel Radke, Tyler Cody, Dhruv Nandakumar, Edward Bowen(参考訳) コマンド・アンド・コントロール(c2)チャネルは、攻撃者がマルウェアに感染したマシンを遠隔操作し、ネットワークにまたがる悪意のあるコードを伝播したり、機密データを流出させたり、ddos攻撃を開始したりといった有害な行動を実行可能にするため、多くのタイプのサイバー攻撃の重要なコンポーネントである。 これらのC2チャネルの特定は、サイバー攻撃の緩和と予防に不可欠である。 しかし、C2チャネルを識別するには、通常手動のプロセスが必要であり、サイバー操作には深い知識と専門知識が必要である。 本稿では,通常の(パブリック)ネットワークとTorネットワークの両方を用いて,C2アタックキャンペーンを自動的にエミュレートするための強化学習(RL)アプローチを提案する。 さらに、ペイロードサイズとネットワークファイアウォールは、実際の攻撃シナリオをシミュレートするように構成されている。 典型的なネットワーク構成では、RLエージェントはTorベースの通信チャネルと従来の通信チャネルの両方を利用して、ネットワークファイアウォールをバイパスしながら、回復力のあるC2攻撃経路を自動的に検出できる。

Command and control (C2) channels are an essential component of many types of cyber attacks, as they enable attackers to remotely control their malware-infected machines and execute harmful actions, such as propagating malicious code across networks, exfiltrating confidential data, or initiating distributed denial of service (DDoS) attacks. Identifying these C2 channels is therefore crucial in helping to mitigate and prevent cyber attacks. However, identifying C2 channels typically involves a manual process, requiring deep knowledge and expertise in cyber operations. In this paper, we propose a reinforcement learning (RL) based approach to automatically emulate C2 attack campaigns using both the normal (public) and the Tor networks. In addition, payload size and network firewalls are configured to simulate real-world attack scenarios. Results on a typical network configuration show that the RL agent can automatically discover resilient C2 attack paths utilizing both Tor-based and conventional communication channels, while also bypassing network firewalls.
翻訳日:2024-02-15 15:06:10 公開日:2024-02-14
# 時空間相関強化を用いた高速ウィンドウベースイベントデノナイズ

Fast Window-Based Event Denoising with Spatiotemporal Correlation Enhancement ( http://arxiv.org/abs/2402.09270v1 )

ライセンス: Link先を確認
Huachen Fang, Jinjian Wu, Qibin Hou, Weisheng Dong and Guangming Shi(参考訳) 従来のディープラーニングベースのイベントデノイジング手法は、複雑なアーキテクチャ設計のため、解釈可能性の低さとリアルタイム処理の難しさに苦しめられている。 本稿では,イベントのスタックを同時に扱うウィンドウベースのイベントデノイジングを提案し,既存の要素ベースのデノイジングではイベント毎にひとつのイベントに焦点を当てる。 さらに,時間領域と空間領域の確率分布に基づく理論的解析を行い,解釈可能性の向上を図る。 時間領域では、処理イベントと中央イベントのタイムスタンプ偏差を用いて時間相関を判断し、時間非関連イベントをフィルタリングする。 空間領域では、実世界の事象とノイズを識別するために最大後方(map)を選択し、学習された畳み込みスパース符号を用いて目的関数を最適化する。 この理論解析に基づいて時間窓(tw)モジュールとソフト空間特徴埋め込み(ssfe)モジュールを構築し、時間空間情報と空間情報を別々に処理し、msdnetと呼ばれる新しいマルチスケールウィンドウベースのイベントデノージングネットワークを構築する。 MSDNetの高ノイズ化精度と高速実行速度により、複雑なシーンでのリアルタイムデノイズ化を実現できます。 広範な実験結果から,msdnetの有効性とロバスト性を確認した。 提案手法は,イベントノイズを効果的かつ効率的に除去し,ダウンストリームタスクの性能を向上させる。

Previous deep learning-based event denoising methods mostly suffer from poor interpretability and difficulty in real-time processing due to their complex architecture designs. In this paper, we propose window-based event denoising, which simultaneously deals with a stack of events while existing element-based denoising focuses on one event each time. Besides, we give the theoretical analysis based on probability distributions in both temporal and spatial domains to improve interpretability. In temporal domain, we use timestamp deviations between processing events and central event to judge the temporal correlation and filter out temporal-irrelevant events. In spatial domain, we choose maximum a posteriori (MAP) to discriminate real-world event and noise, and use the learned convolutional sparse coding to optimize the objective function. Based on the theoretical analysis, we build Temporal Window (TW) module and Soft Spatial Feature Embedding (SSFE) module to process temporal and spatial information separately, and construct a novel multi-scale window-based event denoising network, named MSDNet. The high denoising accuracy and fast running speed of our MSDNet enables us to achieve real-time denoising in complex scenes. Extensive experimental results verify the effectiveness and robustness of our MSDNet. Our algorithm can remove event noise effectively and efficiently and improve the performance of downstream tasks.
翻訳日:2024-02-15 14:58:24 公開日:2024-02-14
# tdvit:密集ビデオタスクのための時間拡張ビデオトランスフォーマ

TDViT: Temporal Dilated Video Transformer for Dense Video Tasks ( http://arxiv.org/abs/2402.09257v1 )

ライセンス: Link先を確認
Guanxiong Sun, Yang Hua, Guosheng Hu, Neil Robertson(参考訳) ディープビデオモデル、例えば3d cnnやビデオトランスフォーマーは、ビデオの少ないタスク、すなわちビデオ当たりの結果を予測することで、有望なパフォーマンスを達成している。 しかし、既存のディープビデオモデルを高密度ビデオタスク、すなわちフレーム毎にひとつの結果を予測することには、課題が生じる。 特に、これらのモデルはデプロイに費用がかかり、冗長なフレームを扱う場合の効率が低く、長距離の時間的相関を捉えるのが難しい。 これらの問題を克服するために、慎重に設計された時間拡張トランスブロック(TDTB)からなるテンポラルDilated Video Transformer (TDViT)を提案する。 TDTBは時空間表現を効率的に抽出し、時空間冗長性の負の効果を効果的に緩和することができる。 さらに,階層的TDTBを用いて時間的受容場を指数関数的に拡張し,長距離力学をモデル化する。 ビデオオブジェクト検出のためのImageNet VIDと、ビデオインスタンスのセグメンテーションのためのYouTube VISという、2つの異なる高密度ビデオベンチマークで大規模な実験が行われた。 優れた実験結果から,本手法の効率,有効性,適合性が示された。 コードはhttps://github.com/guanxiongsun/vfe.pytorchで入手できる。

Deep video models, for example, 3D CNNs or video transformers, have achieved promising performance on sparse video tasks, i.e., predicting one result per video. However, challenges arise when adapting existing deep video models to dense video tasks, i.e., predicting one result per frame. Specifically, these models are expensive for deployment, less effective when handling redundant frames, and difficult to capture long-range temporal correlations. To overcome these issues, we propose a Temporal Dilated Video Transformer (TDViT) that consists of carefully designed temporal dilated transformer blocks (TDTB). TDTB can efficiently extract spatiotemporal representations and effectively alleviate the negative effect of temporal redundancy. Furthermore, by using hierarchical TDTBs, our approach obtains an exponentially expanded temporal receptive field and therefore can model long-range dynamics. Extensive experiments are conducted on two different dense video benchmarks, i.e., ImageNet VID for video object detection and YouTube VIS for video instance segmentation. Excellent experimental results demonstrate the superior efficiency, effectiveness, and compatibility of our method. The code is available at https://github.com/guanxiongsun/vfe.pytorch.
翻訳日:2024-02-15 14:58:00 公開日:2024-02-14
# 材料のためのユニバーサル機械学習Kohn-Sham Hamiltonian

Universal Machine Learning Kohn-Sham Hamiltonian for Materials ( http://arxiv.org/abs/2402.09251v1 )

ライセンス: Link先を確認
Yang Zhong, Jihui Yang, Hongjun Xiang, and Xingao Gong(参考訳) 密度汎関数理論(DFT)は電子構造計算において一般的な計算手法であるが、その計算要求とスケーラビリティの限界は持続する。 近年,Khn-Sham DFT Hamiltonian のパラメータ化にニューラルネットワークを活用することが,電子構造計算を高速化するための有望な道として浮上している。 進歩にもかかわらず、新しいシステムを探索するために広範なDFTトレーニングデータを計算する必要があることや、多要素材料のための正確なMLモデルを確立する複雑さといった課題が残っている。 これらのハードルに対処し、材料計画におけるほぼ全ての結晶構造の第一原理dft計算から得られるハミルトン行列で訓練された普遍的電子ハミルトニアンモデルを導入する。 複雑な多要素系を含む周期表全体の電子構造を予測する際の一般化を実証する。 電子物性を計算するための信頼性の高い効率的なフレームワークを提供することにより、この普遍的ハミルトンモデルは電子構造に関連する様々な分野の進歩の基盤となる。

While density functional theory (DFT) serves as a prevalent computational approach in electronic structure calculations, its computational demands and scalability limitations persist. Recently, leveraging neural networks to parameterize the Kohn-Sham DFT Hamiltonian has emerged as a promising avenue for accelerating electronic structure computations. Despite advancements, challenges such as the necessity for computing extensive DFT training data to explore new systems and the complexity of establishing accurate ML models for multi-elemental materials still exist. Addressing these hurdles, this study introduces a universal electronic Hamiltonian model trained on Hamiltonian matrices obtained from first-principles DFT calculations of nearly all crystal structures on the Materials Project. We demonstrate its generality in predicting electronic structures across the whole periodic table, including complex multi-elemental systems. By offering a reliable efficient framework for computing electronic properties, this universal Hamiltonian model lays the groundwork for advancements in diverse fields related to electronic structures.
翻訳日:2024-02-15 14:57:39 公開日:2024-02-14
# 関連性を探る: 変換適応活性化関数と他の活性化関数との比較

Exploring the Relationship: Transformative Adaptive Activation Functions in Comparison to Other Activation Functions ( http://arxiv.org/abs/2402.09249v1 )

ライセンス: Link先を確認
Vladim\'ir Kunc(参考訳) ニューラルネットワークは多くのタスクの最先端のアプローチであり、アクティベーション機能はそのようなパフォーマンスを実現する主要なビルディングブロックの1つである。 近年,垂直および水平の翻訳とスケーリングが可能な新しい変換適応活性化関数(TAAF)が提案されている。 この作業はTAAFを他の活性化関数のコンテキストに設定する。 TAAFは50以上の既存の活性化関数を一般化し、同様の概念を70以上の他の活性化関数として利用し、TAAFの汎用性を裏付けている。 この包括的な探索は、TAAFをニューラルネットワークへの有望で適応可能な追加として位置づけている。

Neural networks are the state-of-the-art approach for many tasks and the activation function is one of the main building blocks that allow such performance. Recently, a novel transformative adaptive activation function (TAAF) allowing for any vertical and horizontal translation and scaling was proposed. This work sets the TAAF into the context of other activation functions. It shows that the TAAFs generalize over 50 existing activation functions and utilize similar concepts as over 70 other activation functions, underscoring the versatility of TAAFs. This comprehensive exploration positions TAAFs as a promising and adaptable addition to neural networks.
翻訳日:2024-02-15 14:57:21 公開日:2024-02-14
# 連続対称性破壊相を特徴付ける運動の定数

Constants of motion characterizing continuous symmetry-broken phases ( http://arxiv.org/abs/2402.09248v1 )

ライセンス: Link先を確認
\'Angel L. Corps, Jorge Dukelsky, Armando Rela\~no(参考訳) 量子系および古典系における連続対称性破壊の結果生じる位相を特徴づける理論を提案する。 対称性を破る相では、相転移の順序パラメータから導かれる保存電荷の集合が存在するため、ダイナミクスが制限される。 それらの期待値は、対称性の破れの結果、秩序相に現れる特権的方向によって決定され、したがって、この方向が適切に定義されているか、量子揺らぎがあるかを決定するのに使用できる。 我々の理論は、連続対称性の破れを生成する回転作用素の下での完全連結系不変のビブロンモデルの2次元極限によって数値的に実証される。

We present a theory characterizing the phases emerging as a consequence of continuous symmetry-breaking in quantum and classical systems. In symmetry-breaking phases, dynamics is restricted due to the existence of a set of conserved charges derived from the order parameter of the phase transition. Their expectation values are determined by the privileged direction appearing in the ordered phase as a consequence of symmetry breaking, and thus they can be used to determine whether this direction is well defined or it has quantum fluctuations. Our theory is numerically exemplified via the two-dimensional limit of the vibron model, a fully connected system invariant under a rotation operator which generates the continuous symmetry-breaking.
翻訳日:2024-02-15 14:57:11 公開日:2024-02-14
# Asynchronous Private Federated Learningにおけるモーメントム近似

Momentum Approximation in Asynchronous Private Federated Learning ( http://arxiv.org/abs/2402.09247v1 )

ライセンス: Link先を確認
Tao Yu, Congzheng Song, Jianyu Wang, Mona Chitnis(参考訳) 非同期プロトコルは、多数のクライアントで統合学習(FL)のスケーラビリティを向上させることが示されている。 一方、運動量に基づく手法は同期flにおいて最良のモデル品質を達成することができる。 しかし, 非同期FLアルゴリズムにおけるモーメントの適用により, 収束が遅く, モデル性能が劣化する。 この2つのテクニックを組み合わせて勝敗を達成する方法はまだ不明である。 本稿では,同期がモーメント更新に暗黙のバイアスをもたらすことを示す。 そこで本研究では,すべてのモデル更新の最適重み付け平均を求めることにより,バイアスを最小限に抑える運動量近似を提案する。 モーメント近似はセキュアアグリゲーションと差分プライバシと互換性があり、小さな通信とストレージコストで運用中のflシステムに容易に統合できる。 我々は、ベンチマークFLデータセットにおいて、運動量近似は、運動量を持つ既存の非同期FLオプティマイザと比較して収束速度が1.15 であることを示す。

Asynchronous protocols have been shown to improve the scalability of federated learning (FL) with a massive number of clients. Meanwhile, momentum-based methods can achieve the best model quality in synchronous FL. However, naively applying momentum in asynchronous FL algorithms leads to slower convergence and degraded model performance. It is still unclear how to effective combinie these two techniques together to achieve a win-win. In this paper, we find that asynchrony introduces implicit bias to momentum updates. In order to address this problem, we propose momentum approximation that minimizes the bias by finding an optimal weighted average of all historical model updates. Momentum approximation is compatible with secure aggregation as well as differential privacy, and can be easily integrated in production FL systems with a minor communication and storage cost. We empirically demonstrate that on benchmark FL datasets, momentum approximation can achieve $1.15 \textrm{--}4\times$ speed up in convergence compared to existing asynchronous FL optimizers with momentum.
翻訳日:2024-02-15 14:56:58 公開日:2024-02-14
# 誰が最初にプレイする? 多くのロボットによるスタックルバーグゲームにおけるプレイ順序の最適化

Who Plays First? Optimizing the Order of Play in Stackelberg Games with Many Robots ( http://arxiv.org/abs/2402.09246v1 )

ライセンス: Link先を確認
Haimin Hu, Gabriele Dragotto, Zixu Zhang, Kaiqu Liang, Bartolomeo Stellato, Jaime F. Fisac(参考訳) 我々は, N-player Stackelberg 軌道ゲームにおいて, エージェントが決定にコミットする順序や, 関連する平衡といった, 社会的に最適なプレイ順序を演算する多エージェント空間ナビゲーション問題を考える。 我々はこの問題を,プレーの置換順序に付随するすべてのスタックルバーグゲームの空間上の混合整数最適化問題としてモデル化する。 そこで本研究では,遊びの社会的最適順序とそのスタッケルバーグ平衡に確実に収束する効率的かつ正確なアルゴリズムであるブランチ・アンド・プレイ(b&p)を提案する。 B&Pのサブルーチンとして、我々はシーケンシャルな軌道計画、すなわち一般的なマルチエージェント制御アプローチを採用し、任意のプレイの順序に対して有効な局所スタックルバーグ平衡を計算する。 本稿では,b&pの航空交通制御,群集形成,輸送車両群を連携させる実用性を示す。 b&pは様々なベースラインを一貫して上回っており、社会的に最適な均衡を計算する。

We consider the multi-agent spatial navigation problem of computing the socially optimal order of play, i.e., the sequence in which the agents commit to their decisions, and its associated equilibrium in an N-player Stackelberg trajectory game. We model this problem as a mixed-integer optimization problem over the space of all possible Stackelberg games associated with the order of play's permutations. To solve the problem, we introduce Branch and Play (B&P), an efficient and exact algorithm that provably converges to a socially optimal order of play and its Stackelberg equilibrium. As a subroutine for B&P, we employ and extend sequential trajectory planning, i.e., a popular multi-agent control approach, to scalably compute valid local Stackelberg equilibria for any given order of play. We demonstrate the practical utility of B&P to coordinate air traffic control, swarm formation, and delivery vehicle fleets. We find that B&P consistently outperforms various baselines, and computes the socially optimal equilibrium.
翻訳日:2024-02-15 14:56:43 公開日:2024-02-14
# L3DAS23による映像拡張現実感の課題の概要

Overview of the L3DAS23 Challenge on Audio-Visual Extended Reality ( http://arxiv.org/abs/2402.09245v1 )

ライセンス: Link先を確認
Christian Marinoni, Riccardo Fosco Gramaccioni, Changan Chen, Aurelio Uncini, Danilo Comminiello(参考訳) L3DAS23 Signal Processing Grand Challenge at ICASSP 2023の主な目標は、3D音声信号処理における機械学習の協調研究の促進と支援である。 最新のコンペの一環として、L3DAS21とL3DAS22のデータセットと同じ一般的な特性を維持する新しいデータセットを提供しています。 さらに,マイクロホンの位置や方向によって認識される環境の画像を提供することにより,視聴覚シナリオの探索を開始する。 両タスクのベースラインモデルも更新し,音声画像のカップルを入力としてサポートし,その結果を再現するサポートAPIも提案する。 最後に,参加者の結果について述べる。 チャレンジの詳細はhttps://www.l3das.com/icassp2023で確認できる。

The primary goal of the L3DAS23 Signal Processing Grand Challenge at ICASSP 2023 is to promote and support collaborative research on machine learning for 3D audio signal processing, with a specific emphasis on 3D speech enhancement and 3D Sound Event Localization and Detection in Extended Reality applications. As part of our latest competition, we provide a brand-new dataset, which maintains the same general characteristics of the L3DAS21 and L3DAS22 datasets, but with first-order Ambisonics recordings from multiple reverberant simulated environments. Moreover, we start exploring an audio-visual scenario by providing images of these environments, as perceived by the different microphone positions and orientations. We also propose updated baseline models for both tasks that can now support audio-image couples as input and a supporting API to replicate our results. Finally, we present the results of the participants. Further details about the challenge are available at https://www.l3das.com/icassp2023.
翻訳日:2024-02-15 14:56:27 公開日:2024-02-14
# 実世界のゼロショット食品検出のための知識強調機能

Synthesizing Knowledge-enhanced Features for Real-world Zero-shot Food Detection ( http://arxiv.org/abs/2402.09242v1 )

ライセンス: Link先を確認
Pengfei Zhou, Weiqing Min, Jiajun Song, Yang Zhang, Shuqiang Jiang(参考訳) 食品コンピューティングは、視覚に基づく栄養と健康に関する食品分析のようなコンピュータビジョンに様々な視点をもたらす。 食品処理の基本的な課題として、インテリジェントキッチンやスマートレストランなどの現実的なシナリオをサポートするために、食品検出は、新しい見えない食品オブジェクトに対してゼロショット検出(ZSD)を必要とする。 そこで我々はまず,属性アノテーションの豊富なfowaデータセットを導入することで,ゼロショット食品検出(zsfd)のタスクをベンチマークした。 ZSDとは異なり、クラス間類似性のようなZSFDのきめ細かい問題は、合成された特徴を分離できない。 食品意味属性の複雑さにより、現在のZSD法では様々な食品カテゴリーを区別することがより困難になる。 これらの問題に対処するために,複雑な属性間の相互作用を利用してきめ細かい問題に対処する新しいフレームワークZSFDetを提案する。 具体的には,zsfdetの食品カテゴリと属性の相関を多元グラフでモデル化し,粒度の細かい特徴を識別するための事前知識を提供する。 ZSFDet内では、知識強化機能合成器(KEFS)は複数の情報源(例えば知識グラフからの成分相関)から知識表現をマルチソースグラフ融合を通じて学習する。 意味的知識表現の融合を前提として、KEFSの領域特徴拡散モデルは、効率的なゼロショット検出器を訓練するためのきめ細かい特徴を生成することができる。 FOWA法と広範に使用されている食品データセットであるUECFOOD-256におけるZSFDetの性能は,強いベースラインRRFSに比べて1.8%,3.7%向上した。 PASCAL VOCとMS COCOに関するさらなる実験は、意味知識の強化が一般的なZSDの性能を向上させることを証明している。 コードとデータセットはhttps://github.com/lancezpf/kefsで入手できる。

Food computing brings various perspectives to computer vision like vision-based food analysis for nutrition and health. As a fundamental task in food computing, food detection needs Zero-Shot Detection (ZSD) on novel unseen food objects to support real-world scenarios, such as intelligent kitchens and smart restaurants. Therefore, we first benchmark the task of Zero-Shot Food Detection (ZSFD) by introducing FOWA dataset with rich attribute annotations. Unlike ZSD, fine-grained problems in ZSFD like inter-class similarity make synthesized features inseparable. The complexity of food semantic attributes further makes it more difficult for current ZSD methods to distinguish various food categories. To address these problems, we propose a novel framework ZSFDet to tackle fine-grained problems by exploiting the interaction between complex attributes. Specifically, we model the correlation between food categories and attributes in ZSFDet by multi-source graphs to provide prior knowledge for distinguishing fine-grained features. Within ZSFDet, Knowledge-Enhanced Feature Synthesizer (KEFS) learns knowledge representation from multiple sources (e.g., ingredients correlation from knowledge graph) via the multi-source graph fusion. Conditioned on the fusion of semantic knowledge representation, the region feature diffusion model in KEFS can generate fine-grained features for training the effective zero-shot detector. Extensive evaluations demonstrate the superior performance of our method ZSFDet on FOWA and the widely-used food dataset UECFOOD-256, with significant improvements by 1.8% and 3.7% ZSD mAP compared with the strong baseline RRFS. Further experiments on PASCAL VOC and MS COCO prove that enhancement of the semantic knowledge can also improve the performance on general ZSD. Code and dataset are available at https://github.com/LanceZPF/KEFS.
翻訳日:2024-02-15 14:56:09 公開日:2024-02-14
# 時間一貫性の爆発によるワンステージ映像検出

Efficient One-stage Video Object Detection by Exploiting Temporal Consistency ( http://arxiv.org/abs/2402.09241v1 )

ライセンス: Link先を確認
Guanxiong Sun, Yang Hua, Guosheng Hu, Neil Robertson(参考訳) 近年,画像データを用いた従来の2段検出器と比較して,1段検出器の精度と高速化が図られている。 しかし、ビデオオブジェクト検出(VOD)の分野では、既存のVOD法の多くはまだ2段階検出器に基づいている。 さらに,既存のVOD法をワンステージ検出器に直接適用することで,計算コストの削減が図られる。 本稿では,VOD用1段検出器の計算ボトルネックをまず解析する。 解析に基づいて,ビデオフレームの時間的一貫性を利用して,計算ボトルネックに対処し,効率的なワンステージVODを実現する。 具体的には,バックグラウンド領域をフィルタリングする位置優先ネットワークと,特定のフレームに対する低レベル特徴マップの不要な計算をスキップするサイズ優先ネットワークからなる。 我々は, 現代の一段検出装置上で実験を行い, ImageNet VIDデータセット上で広範囲に実験を行った。 優れた実験結果から,本手法の有効性,効率,適合性が示された。 コードはhttps://github.com/guanxiongsun/vfe.pytorchで入手できる。

Recently, one-stage detectors have achieved competitive accuracy and faster speed compared with traditional two-stage detectors on image data. However, in the field of video object detection (VOD), most existing VOD methods are still based on two-stage detectors. Moreover, directly adapting existing VOD methods to one-stage detectors introduces unaffordable computational costs. In this paper, we first analyse the computational bottlenecks of using one-stage detectors for VOD. Based on the analysis, we present a simple yet efficient framework to address the computational bottlenecks and achieve efficient one-stage VOD by exploiting the temporal consistency in video frames. Specifically, our method consists of a location-prior network to filter out background regions and a size-prior network to skip unnecessary computations on low-level feature maps for specific frames. We test our method on various modern one-stage detectors and conduct extensive experiments on the ImageNet VID dataset. Excellent experimental results demonstrate the superior effectiveness, efficiency, and compatibility of our method. The code is available at https://github.com/guanxiongsun/vfe.pytorch.
翻訳日:2024-02-15 14:55:37 公開日:2024-02-14
# Switch EMA: フラットネスとシャープネス向上のためのフリーランチ

Switch EMA: A Free Lunch for Better Flatness and Sharpness ( http://arxiv.org/abs/2402.09240v1 )

ライセンス: Link先を確認
Siyuan Li, Zicheng Liu, Juanxi Tian, Ge Wang, Zedong Wang, Weiyang Jin, Di Wu, Cheng Tan, Tao Lin, Yang Liu, Baigui Sun, and Stan Z. Li(参考訳) Exponential moving Average (EMA)は、ディープニューラルネットワーク(DNN)最適化に余分なコストを要さずに、フラットな最適化を学習するために広く使われているウェイト平均化(WA)正規化である。 平坦性が向上したにもかかわらず、既存のWAメソッドは最終的なパフォーマンスが悪くなり、追加のテスト時間計算が必要になる。 この研究は、EMAの完全なポテンシャルを1行の修正で明らかにし、すなわち、スイッチEMA (SEMA) と呼ばれる各エポック後のEMAパラメータを元のモデルに切り替える。 理論的および経験的両面から、SEMAはDNNが平坦性と鋭さのトレードオフを良くする一般化最適点に到達するのに役立つことを実証する。 SEMAの有効性を検証するため,画像分類,自己教師付き学習,物体検出とセグメンテーション,画像生成,映像予測,属性回帰,言語モデリングなど,視覚・言語データセットに対する識別的・生成的・回帰的タスクの比較実験を行った。 一般的なオプティマイザとネットワークによる総合的な結果から,SEMAはDNNトレーニングの無料ランチであり,性能の向上と収束速度の向上が期待できる。

Exponential Moving Average (EMA) is a widely used weight averaging (WA) regularization to learn flat optima for better generalizations without extra cost in deep neural network (DNN) optimization. Despite achieving better flatness, existing WA methods might fall into worse final performances or require extra test-time computations. This work unveils the full potential of EMA with a single line of modification, i.e., switching the EMA parameters to the original model after each epoch, dubbed as Switch EMA (SEMA). From both theoretical and empirical aspects, we demonstrate that SEMA can help DNNs to reach generalization optima that better trade-off between flatness and sharpness. To verify the effectiveness of SEMA, we conduct comparison experiments with discriminative, generative, and regression tasks on vision and language datasets, including image classification, self-supervised learning, object detection and segmentation, image generation, video prediction, attribute regression, and language modeling. Comprehensive results with popular optimizers and networks show that SEMA is a free lunch for DNN training by improving performances and boosting convergence speeds.
翻訳日:2024-02-15 14:55:23 公開日:2024-02-14
# 近近近近波を用いた時間的GNNのロバストトレーニング

Robust Training of Temporal GNNs using Nearest Neighbours based Hard Negatives ( http://arxiv.org/abs/2402.09239v1 )

ライセンス: Link先を確認
Shubham Gupta, Srikanta Bedathur(参考訳) 時間グラフニューラルネットワークTgnnは、将来のリンク予測タスクで最先端のパフォーマンスを示した。 これらのTGNNのトレーニングは、一様ランダムサンプリングに基づく教師なし損失によって列挙される。 トレーニング中、ポジティブな例の文脈では、損失は非形式的な負よりも計算され、冗長性と準最適性能をもたらす。 本稿では,一様負サンプリングを重要度に基づく負サンプリングに置き換え,tgnnの教師なし学習の改良を提案する。 負の例をサンプリングするための動的計算分布を理論的に動機付け,定義する。 最後に、3つの実世界のデータセットに対する経験的評価を用いて,提案する負のサンプリングに基づく損失を用いて訓練したtgnnが,一貫した優れた性能をもたらすことを示す。

Temporal graph neural networks Tgnn have exhibited state-of-art performance in future-link prediction tasks. Training of these TGNNs is enumerated by uniform random sampling based unsupervised loss. During training, in the context of a positive example, the loss is computed over uninformative negatives, which introduces redundancy and sub-optimal performance. In this paper, we propose modified unsupervised learning of Tgnn, by replacing the uniform negative sampling with importance-based negative sampling. We theoretically motivate and define the dynamically computed distribution for a sampling of negative examples. Finally, using empirical evaluations over three real-world datasets, we show that Tgnn trained using loss based on proposed negative sampling provides consistent superior performance.
翻訳日:2024-02-15 14:54:58 公開日:2024-02-14
# 生成aiと幾何整合性を用いた測位のための耐候性検索

Weatherproofing Retrieval for Localization with Generative AI and Geometric Consistency ( http://arxiv.org/abs/2402.09237v1 )

ライセンス: Link先を確認
Yannis Kalantidis, Mert B\"ulent Sar{\i}y{\i}ld{\i}z, Rafael S. Rezende, Philippe Weinzaepfel, Diane Larlus, Gabriela Csurka(参考訳) 最先端の視覚的ローカライゼーションアプローチは一般的に、重要な役割を持つ最初の画像検索ステップに依存している。 しかし、例えば天気や日時などによって様々な状況に直面すると、視覚的位置決め精度に劇的な結果をもたらすことがしばしばある。 本稿では,この検索ステップを改善し,最終ローカライズタスクに合わせる。 提案するいくつかの変更のうち,生成テキストから画像への生成モデルから得られたトレーニングセット画像の変形を合成し,特に視覚局在を損なう多数の命名可能なバリエーションに対してトレーニングセットを自動拡張することを提案する。 トレーニングセットを拡張した後に,この実画像と合成画像の混合の特異性と基礎的な形状を利用する訓練手法を提案する。 これらの変化は、最も困難な視覚的ローカライゼーションデータセットに対して大きな改善をもたらすことを実験的に示す。 プロジェクトページ: https://europe.naverlabs.com/ret4loc

State-of-the-art visual localization approaches generally rely on a first image retrieval step whose role is crucial. Yet, retrieval often struggles when facing varying conditions, due to e.g. weather or time of day, with dramatic consequences on the visual localization accuracy. In this paper, we improve this retrieval step and tailor it to the final localization task. Among the several changes we advocate for, we propose to synthesize variants of the training set images, obtained from generative text-to-image models, in order to automatically expand the training set towards a number of nameable variations that particularly hurt visual localization. After expanding the training set, we propose a training approach that leverages the specificities and the underlying geometry of this mix of real and synthetic images. We experimentally show that those changes translate into large improvements for the most challenging visual localization datasets. Project page: https://europe.naverlabs.com/ret4loc
翻訳日:2024-02-15 14:54:46 公開日:2024-02-14
# 解釈可能な概念の学習:因果表現学習と基礎モデルの統合

Learning Interpretable Concepts: Unifying Causal Representation Learning and Foundation Models ( http://arxiv.org/abs/2402.09236v1 )

ライセンス: Link先を確認
Goutham Rajendran, Simon Buchholz, Bryon Aragam, Bernhard Sch\"olkopf, Pradeep Ravikumar(参考訳) インテリジェントな機械学習システムを構築するには、2つのアプローチがある。 1つのアプローチは、因果表現学習の分野に根ざした、本質的に解釈可能なモデルを構築することである。 もう1つのアプローチは、高度にパーフォーマントな基礎モデルを構築し、それらの動作を理解することに努力することです。 本研究では,この2つのアプローチを関連付け,データから人間に解釈可能な概念を学ぶ方法について検討する。 両分野からアイデアをまとめ、概念の概念を正式に定義し、多種多様なデータから確実に回収できることを示します。 合成データと大規模言語モデルの実験は、我々の統一的アプローチの有用性を示している。

To build intelligent machine learning systems, there are two broad approaches. One approach is to build inherently interpretable models, as endeavored by the growing field of causal representation learning. The other approach is to build highly-performant foundation models and then invest efforts into understanding how they work. In this work, we relate these two approaches and study how to learn human-interpretable concepts from data. Weaving together ideas from both fields, we formally define a notion of concepts and show that they can be provably recovered from diverse data. Experiments on synthetic data and large language models show the utility of our unified approach.
翻訳日:2024-02-15 14:54:29 公開日:2024-02-14
# グラフ畳み込みニューラルネットワークを用いた自動車衝突性の構造力学のための多階層型サーロゲート学習

Multi-Hierarchical Surrogate Learning for Structural Dynamics of Automotive Crashworthiness Using Graph Convolutional Neural Networks ( http://arxiv.org/abs/2402.09234v1 )

ライセンス: Link先を確認
Jonas Kneifl, J\"org Fehr, Steven L. Brunton, J. Nathan Kutz(参考訳) 衝突シミュレーションは、車両の安全性、設計最適化、損傷リスク推定を改善する上で重要な役割を果たす。 残念ながら、最先端の高忠実度モデルを用いたそのような問題の数値解は、かなりの計算労力を必要とする。 従来のデータ駆動サーロゲートモデリングアプローチは、この計算作業を回避するために、ダイナミクスを進化させるための低次元埋め込みを生成する。 殆どの手法は数値離散化から得られる高分解能データを直接操作するが、これは空間距離の広い情報の流れのマッピングに費用がかかり複雑である。 さらに、固定解像度で作業することで、可変演算能力、異なる可視化解像度、異なる精度要求を持つ環境へのサロゲートモデルの適応が防止される。 そこで本稿では,カートフレームの一連のサロゲートモデルを構造的に生成する多階層的フレームワークを提案する。 マルチスケール現象では、マクロスケールの特徴は粗いサーロゲートで捉えられ、マイクロスケール効果はより細かいものによって解決される。 個々のサロゲートの学習行動は、伝達学習を通じて粗いレベルからより細かいレベルに渡される。 具体的には,kartモデル上でメッシュ簡略化を行い,マルチレゾリューション表現を得る。 次に,最も粗い表現に対するパラメータ依存な低次元潜在ダイナミクスを学習する,グラフ畳み込みニューラルネットワークベースのサーロゲートを学習する。 その後、同様に構造化されたサーロゲートは、より細かい解像度を用いて第1サーロゲートの残差に基づいて訓練される。 このステップは何度も繰り返すことができる。 これにより、ハードウェア要件の異なる同一システム用の複数のサロゲートを構築し、精度を向上する。

Crash simulations play an essential role in improving vehicle safety, design optimization, and injury risk estimation. Unfortunately, numerical solutions of such problems using state-of-the-art high-fidelity models require significant computational effort. Conventional data-driven surrogate modeling approaches create low-dimensional embeddings for evolving the dynamics in order to circumvent this computational effort. Most approaches directly operate on high-resolution data obtained from numerical discretization, which is both costly and complicated for mapping the flow of information over large spatial distances. Furthermore, working with a fixed resolution prevents the adaptation of surrogate models to environments with variable computing capacities, different visualization resolutions, and different accuracy requirements. We thus propose a multi-hierarchical framework for structurally creating a series of surrogate models for a kart frame, which is a good proxy for industrial-relevant crash simulations, at different levels of resolution. For multiscale phenomena, macroscale features are captured on a coarse surrogate, whereas microscale effects are resolved by finer ones. The learned behavior of the individual surrogates is passed from coarse to finer levels through transfer learning. In detail, we perform a mesh simplification on the kart model to obtain multi-resolution representations of it. We then train a graph-convolutional neural network-based surrogate that learns parameter-dependent low-dimensional latent dynamics on the coarsest representation. Subsequently, another, similarly structured surrogate is trained on the residual of the first surrogate using a finer resolution. This step can be repeated multiple times. By doing so, we construct multiple surrogates for the same system with varying hardware requirements and increasing accuracy.
翻訳日:2024-02-15 14:54:19 公開日:2024-02-14
# llm会話安全のための攻撃・防御・評価:調査

Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey ( http://arxiv.org/abs/2402.09283v1 )

ライセンス: Link先を確認
Zhichen Dong, Zhanhui Zhou, Chao Yang, Jing Shao, Yu Qiao(参考訳) 大規模言語モデル(LLM)が会話アプリケーションで一般的なものになった。 しかし, 有害反応の発生に対する誤用リスクは社会の深刻な懸念を招き, 近年, llmの会話安全に関する研究が進められている。 そこで本研究では,最近の研究の概要を概観し,llm会話の安全性に関する3つの重要な側面(攻撃,防御,評価)について述べる。 我々のゴールは、LLM会話の安全性の理解を深め、この重要な課題のさらなる調査を促進する構造的な要約を提供することである。 簡単には、この調査で言及されたすべての研究を分類した: https://github.com/niconi19/LLM-conversation-safety。

Large Language Models (LLMs) are now commonplace in conversation applications. However, their risks of misuse for generating harmful responses have raised serious societal concerns and spurred recent research on LLM conversation safety. Therefore, in this survey, we provide a comprehensive overview of recent studies, covering three critical aspects of LLM conversation safety: attacks, defenses, and evaluations. Our goal is to provide a structured summary that enhances understanding of LLM conversation safety and encourages further investigation into this important subject. For easy reference, we have categorized all the studies mentioned in this survey according to our taxonomy, available at: https://github.com/niconi19/LLM-conversation-safety.
翻訳日:2024-02-15 14:45:48 公開日:2024-02-14
# 知識蒸留と最適化学習戦略によるnlpタスク性能向上のための大規模言語モデル活用

Leveraging Large Language Models for Enhanced NLP Task Performance through Knowledge Distillation and Optimized Training Strategies ( http://arxiv.org/abs/2402.09282v1 )

ライセンス: Link先を確認
Yining Huang(参考訳) gpt-4のような大規模言語モデル(llm)を従来の自然言語処理(nlp)タスクに統合することで、モデルのパフォーマンスを向上させるための新たな道を開いた。 本稿では,gpt-4から知識を抽出し,より小さなモデルであるbertの効率と有効性を改善するための,思考連鎖(cot)の促進手法を応用した新しいアプローチを提案する。 本手法は,まずGPT-4アノテートデータを用いて事前学習を行い,その後,蒸留法とオリジナルアノテートデータを組み合わせたモデルの改良を行う。 その結果, 混合学習戦略は, 人間のアノテーションのみを訓練したモデルよりも優れ, 優れたF1スコアを達成し, リソース制限やクローズドネットワーク設定のためのコスト効率の高いソリューションを示すことがわかった。 この研究ではまた、llm出力変動や幻覚への傾向といった課題についても論じ、迅速な設計とアノテーションの選択を促進するための今後の作業方向を提案する。 LLMの知見と従来のNLP技術との相乗効果が期待でき,よりアクセシブルで堅牢なNLPアプリケーションへの道を開いた。

The integration of Large Language Models (LLMs) like GPT-4 into traditional Natural Language Processing (NLP) tasks has opened new avenues for enhancing model performance while reducing the reliance on extensive human annotations. This paper presents a novel approach that leverages the Chain of Thought (CoT) prompting technique to distill knowledge from GPT-4, subsequently applying it to improve the efficiency and effectiveness of a smaller model, BERT, on Named Entity Recognition (NER) tasks. Our method involves a two-phase training process: initially employing GPT-4 annotated data for pre-training and then refining the model with a combination of distilled and original human-annotated data. The results demonstrate that our mixed-training strategy significantly outperforms models trained solely on human annotations, achieving superior F1-scores and showcasing a cost-effective solution for resource-limited or closed-network settings. The study also discusses the challenges encountered, such as LLM output variability and the tendency towards hallucinations, proposing future work directions to enhance prompt design and annotation selection. Our findings indicate a promising synergy between LLM insights and traditional NLP techniques, paving the way for more accessible and robust NLP applications.
翻訳日:2024-02-15 14:45:34 公開日:2024-02-14
# 拡張二元分類のための共分散およびヘッセン行列の相乗的固有解析

Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification ( http://arxiv.org/abs/2402.09281v1 )

ライセンス: Link先を確認
Agus Hartoyo, Jan Argasi\'nski, Aleksandra Trenk, Kinga Przybylska, Anna B{\l}asiak, Alessandro Crimi(参考訳) 共分散とヘッセン行列は分類問題の文献で別々に分析されている。 しかし、これらの行列の統合は、分類性能を向上させるためにそれらの結合力を高める可能性がある。 本稿では,2進分類タスクにおいて最適なクラス分離性を実現するために,学習セットで評価した共分散行列の固有解析と深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。 本手法は,クラス間平均距離を最大化し,クラス内分散を最小化する形式的証明によって証明される。 両行列から最も関連する固有方向の組合せ空間にデータを投影することにより、線形判別分析(lda)の基準に従って最適なクラス分離性を実現する。 ニューラルネットワークと健康データセット間の実証検証は、我々の理論フレームワークを一貫してサポートし、我々の手法が確立された手法より優れていることを示す。 提案手法は,pca法とヘッセン法と異なり,ldaの基準をそれぞれ1つの基準に強調することで際立っている。 この包括的なアプローチは複雑なパターンと関係を捉え、分類性能を高める。 さらに,両LDA基準の活用により,高次元の特徴空間を利用してLDA自体よりも優れ,より高次元での線形分離性を好むCoverの定理に従う。 また,性能面ではカーネルベース手法や多様体学習手法を上回っている。 さらに、我々のアプローチは複雑なDNN決定に光を当て、それらを2D空間内で理解できるようにする。

Covariance and Hessian matrices have been analyzed separately in the literature for classification problems. However, integrating these matrices has the potential to enhance their combined power in improving classification performance. We present a novel approach that combines the eigenanalysis of a covariance matrix evaluated on a training set with a Hessian matrix evaluated on a deep learning model to achieve optimal class separability in binary classification tasks. Our approach is substantiated by formal proofs that establish its capability to maximize between-class mean distance and minimize within-class variances. By projecting data into the combined space of the most relevant eigendirections from both matrices, we achieve optimal class separability as per the linear discriminant analysis (LDA) criteria. Empirical validation across neural and health datasets consistently supports our theoretical framework and demonstrates that our method outperforms established methods. Our method stands out by addressing both LDA criteria, unlike PCA and the Hessian method, which predominantly emphasize one criterion each. This comprehensive approach captures intricate patterns and relationships, enhancing classification performance. Furthermore, through the utilization of both LDA criteria, our method outperforms LDA itself by leveraging higher-dimensional feature spaces, in accordance with Cover's theorem, which favors linear separability in higher dimensions. Our method also surpasses kernel-based methods and manifold learning techniques in performance. Additionally, our approach sheds light on complex DNN decision-making, rendering them comprehensible within a 2D space.
翻訳日:2024-02-15 14:45:11 公開日:2024-02-14
# チームスポーツを行う青年の社会化--ソーシャル・ネットワーク分析による中心性に関する横断的研究

The socialisation of the adolescent who carries out team sports: a transversal study of centrality with a social network analysis ( http://arxiv.org/abs/2402.09275v1 )

ライセンス: Link先を確認
Pilar Marqu\'es-S\'anchez, Jos\'e Alberto Ben\'itez-Andrades, Mar\'ia Dolores Calvo S\'anchez and Natalia Arias(参考訳) 目的: 本研究は, 若年者の身体活動, 過体重との関連, グループスポーツ参加者のソーシャルネットワーク構造を分析し, 集中度対策に着目した。 設定: スペインのポンフェラーダにある5つの学校の11の教室で行われた。 参加者:235人の青年(49.4%の女性)が通常の体重または太りすぎに分類される。 方法: 青年期の身体活動調査(PAQ-A)は身体活動レベルを評価した。 社会的ネットワーク分析による接触度の変化による中心性の評価 結果: 30.2%が過体重であった。 男子はpaq-aで得点が高く、グループスポーツに参加する傾向が高かった。 総試料中の身体活動量と体重との間に有意な相関は認められなかった。 しかし、過体重の女性は運動レベルが高かった。 集中度分析では男女差がみられ, グループスポーツの女性は中央値が低く, 男性の方が高かった。 結論:この研究は、ピアインタラクションの強度を考慮した将来の戦略設計におけるジェンダーとソーシャルネットワークの中枢性の重要性を強調している

Objectives: This study analyzed adolescent physical activity, its link to overweight, and the social network structure in group sports participants, focusing on centrality measures. Setting: Conducted in 11 classrooms across 5 schools in Ponferrada, Spain. Participants: Included 235 adolescents (49.4% female), categorized as normal weight or overweight. Methods: The Physical Activity Questionnaire for Adolescents (PAQ-A) assessed physical activity levels. Social network analysis evaluated centrality in varying contact degrees. Results: 30.2% were overweight. Males scored higher in PAQ-A and were more likely to engage in group sports. No significant correlation was found between physical activity and weight in the total sample. However, overweight females reported higher exercise levels. Centrality analysis showed gender differences; women in group sports had lower centrality, whereas men had higher. Conclusions: The study highlights the importance of gender and social network centrality in designing future strategies, considering peer interaction intensity
翻訳日:2024-02-15 14:44:45 公開日:2024-02-14
# 有害藻類への影響管理におけるハイブリッド機械学習技術

Hybrid Machine Learning techniques in the management of harmful algal blooms impact ( http://arxiv.org/abs/2402.09271v1 )

ライセンス: Link先を確認
Andres Molares-Ulloa, Daniel Rivero, Jesus Gil Ruiz, Enrique Fernandez-Blanco and Luis de-la-Fuente-Valent\'in(参考訳) ハーモフル藻類(Harmful algal blooms、HABs)は、ヒトの摂取に有害な高濃度の藻類である。 軟体動物農業は、フィルターフィーダーとして、その組織に高濃度の海洋性バイオトキシンを蓄積できるため、HABの影響を受けうる。 人的消費のリスクを避けるため、毒性が検出されると収穫が禁止される。 現在、生産領域の閉鎖は専門家の知識に基づいており、予測モデルの存在は、条件が複雑でサンプリングが不可能な場合に有効である。 肉中の毒素の濃度は貝生産分野の専門家によって最もよく用いられる方法であるが、自動予測モデルによって標的として使用されることは稀である。 これは、確立されたサンプリングプログラムによるデータの不規則性が主な原因である。 代替として、軟体動物肉の毒性レベルが法定値以下のか否かに基づいて、生産領域の活性状態が目標変数として提案されている。 この新しいオプションは、シェルフィッシュの生産領域の制御の実際の機能と最もよく似ている。 そこで本研究では,ニューラルネットワーク付加ブートストラップ(bagnet)のようなハイブリッド機械学習モデルと,生産領域の状態推定における識別近辺分類(svm-knn)の比較を行った。 本研究は, 藻類開花のエピソードにおいて, 複雑さのレベルが異なる複数のエスタリーで実施され, 開花検出におけるモデルの一般化能力を実証している。 その結果、平均リコール値は93.41%であり、どの推定値でも90%以下に下げることなく、BAGNETは結果とロバスト性の両方で他のモデルよりも優れていることがわかった。

Harmful algal blooms (HABs) are episodes of high concentrations of algae that are potentially toxic for human consumption. Mollusc farming can be affected by HABs because, as filter feeders, they can accumulate high concentrations of marine biotoxins in their tissues. To avoid the risk to human consumption, harvesting is prohibited when toxicity is detected. At present, the closure of production areas is based on expert knowledge and the existence of a predictive model would help when conditions are complex and sampling is not possible. Although the concentration of toxin in meat is the method most commonly used by experts in the control of shellfish production areas, it is rarely used as a target by automatic prediction models. This is largely due to the irregularity of the data due to the established sampling programs. As an alternative, the activity status of production areas has been proposed as a target variable based on whether mollusc meat has a toxicity level below or above the legal limit. This new option is the most similar to the actual functioning of the control of shellfish production areas. For this purpose, we have made a comparison between hybrid machine learning models like Neural-Network-Adding Bootstrap (BAGNET) and Discriminative Nearest Neighbor Classification (SVM-KNN) when estimating the state of production areas. The study has been carried out in several estuaries with different levels of complexity in the episodes of algal blooms to demonstrate the generalization capacity of the models in bloom detection. As a result, we could observe that, with an average recall value of 93.41% and without dropping below 90% in any of the estuaries, BAGNET outperforms the other models both in terms of results and robustness.
翻訳日:2024-02-15 14:44:30 公開日:2024-02-14
# 個人化大規模言語モデル

Personalized Large Language Models ( http://arxiv.org/abs/2402.09269v1 )

ライセンス: Link先を確認
Stanis{\l}aw Wo\'zniak, Bart{\l}omiej Koptyra, Arkadiusz Janz, Przemys{\l}aw Kazienko, Jan Koco\'n(参考訳) 大規模言語モデル(LLM)は近年,自然言語処理(NLP)タスクが大幅に進歩している。 しかし、それらの普遍的な性質は、レコメンデーションシステムやチャットボットのようなパーソナライズされた応答を必要とするシナリオに制限をもたらす。 本稿では,LLMのパーソナライズ手法について検討し,微調整とゼロショット推論を主観的タスクで比較する。 その結果、パーソナライズされた微調整は、非パーソナライズされたモデルと比較してモデル推論を改善することが示された。 感情認識とヘイトスピーチ検出のためのデータセットの実験は、異なるLLMアーキテクチャでパーソナライズされた手法で一貫したパフォーマンス向上を示す。 これらの結果は、主観的テキスト知覚課題におけるllm能力向上におけるパーソナライズの重要性を強調するものである。

Large language models (LLMs) have significantly advanced Natural Language Processing (NLP) tasks in recent years. However, their universal nature poses limitations in scenarios requiring personalized responses, such as recommendation systems and chatbots. This paper investigates methods to personalize LLMs, comparing fine-tuning and zero-shot reasoning approaches on subjective tasks. Results demonstrate that personalized fine-tuning improves model reasoning compared to non-personalized models. Experiments on datasets for emotion recognition and hate speech detection show consistent performance gains with personalized methods across different LLM architectures. These findings underscore the importance of personalization for enhancing LLM capabilities in subjective text perception tasks.
翻訳日:2024-02-15 14:44:02 公開日:2024-02-14
# 変圧器、並列計算、対数深さ

Transformers, parallel computation, and logarithmic depth ( http://arxiv.org/abs/2402.09268v1 )

ライセンス: Link先を確認
Clayton Sanford, Daniel Hsu, Matus Telgarsky(参考訳) 一定数の自己着床層を効率的にシミュレートし,超並列計算の一定数の通信ラウンドによってシミュレートできることを示す。 その結果,複数のニューラルシーケンスモデルやサブクアドラティックトランスフォーマー近似では効率的に解くことができない基本的な計算タスクをトランスフォーマーが解くには,対数深さが十分であることが示された。 したがって、変換器の重要な区別特性として並列性を確立する。

We show that a constant number of self-attention layers can efficiently simulate, and be simulated by, a constant number of communication rounds of Massively Parallel Computation. As a consequence, we show that logarithmic depth is sufficient for transformers to solve basic computational tasks that cannot be efficiently solved by several other neural sequence models and sub-quadratic transformer approximations. We thus establish parallelism as a key distinguishing property of transformers.
翻訳日:2024-02-15 14:43:53 公開日:2024-02-14
# 自己アライメント・フォー・ファクチュアリティ:自己評価によるLLMの幻覚の軽減

Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation ( http://arxiv.org/abs/2402.09267v1 )

ライセンス: Link先を確認
Xiaoying Zhang, Baolin Peng, Ye Tian, Jingyan Zhou, Lifeng Jin, Linfeng Song, Haitao Mi, Helen Meng(参考訳) 人間的な能力の増大にもかかわらず、大きな言語モデル(LLM)は、たとえ関連する知識を持っていたとしても、事実的不正確さ、すなわち「幻覚」に苦しむことが多い。 これらの幻覚に対処するために、現在のアプローチは通常、高品質な人間の事実性アノテーションを必要とする。 本研究では, LLMの自己評価能力を活用し, モデルが現実性に向かうためのトレーニング信号を提供する自己アライメント・フォー・ファクチュアリティについて検討する。 具体的には、自己評価コンポーネントであるSelf-Evalを組み込んで、内部知識のみに基づいて、LLMが生成した応答の事実性を検証する。 さらに,モデルの信頼性評価とキャリブレーションを改善し,LLMの自己評価能力を高めるために,自己知識チューニング(SK-Tuning)を設計する。 次に、これらの自己注釈応答を用いて、直接選好最適化アルゴリズムによりモデルを微調整する。 提案手法は,TruthfulQAとBioGENの3つの重要な知識集約タスクにおいて,Llamaファミリーモデルに対する現実的精度を大幅に向上させることを示す。

Despite showing increasingly human-like abilities, large language models (LLMs) often struggle with factual inaccuracies, i.e. "hallucinations", even when they hold relevant knowledge. To address these hallucinations, current approaches typically necessitate high-quality human factuality annotations. In this work, we explore Self-Alignment for Factuality, where we leverage the self-evaluation capability of an LLM to provide training signals that steer the model towards factuality. Specifically, we incorporate Self-Eval, a self-evaluation component, to prompt an LLM to validate the factuality of its own generated responses solely based on its internal knowledge. Additionally, we design Self-Knowledge Tuning (SK-Tuning) to augment the LLM's self-evaluation ability by improving the model's confidence estimation and calibration. We then utilize these self-annotated responses to fine-tune the model via Direct Preference Optimization algorithm. We show that the proposed self-alignment approach substantially enhances factual accuracy over Llama family models across three key knowledge-intensive tasks on TruthfulQA and BioGEN.
翻訳日:2024-02-15 14:43:44 公開日:2024-02-14
# 脂肪親和性バイオトキシンによる予防的閉鎖管理における機械学習

Machine Learning in management of precautionary closures caused by lipophilic biotoxins ( http://arxiv.org/abs/2402.09266v1 )

ライセンス: Link先を確認
Andres Molares-Ulloa, Enrique Fernandez-Blanco, Alejandro Pazos and Daniel Rivero(参考訳) ムッセル農業は最も重要な水産産業の1つである。 ムッセル農業の主なリスクは有害な藻類開花(HABs)であり、人間の消費に危険をもたらす。 スペインで栽培された貝類の主産地であるガリシアでは、生産エリアの開閉は監視プログラムによって制御されている。 法律上のしきい値を超える毒性の存在による閉鎖に加えて、確認的サンプリングの欠如とリスク要因の存在は、予防的閉鎖を適用できる。 これらの決定は、その基礎となる経験の支持や形式化を伴わない専門家によってなされる。 そこで本研究では,注意クロージャの適用を支援する予測モデルを提案する。 knnアルゴリズムは97.34%, 91.83%, 0.75の感度, 精度, およびkappaインデックス値をそれぞれ達成し, 最良の結果を得た。 これにより、予測エラーがより一般的な複雑な状況において、システムを構築することができる。

Mussel farming is one of the most important aquaculture industries. The main risk to mussel farming is harmful algal blooms (HABs), which pose a risk to human consumption. In Galicia, the Spanish main producer of cultivated mussels, the opening and closing of the production areas is controlled by a monitoring program. In addition to the closures resulting from the presence of toxicity exceeding the legal threshold, in the absence of a confirmatory sampling and the existence of risk factors, precautionary closures may be applied. These decisions are made by experts without the support or formalisation of the experience on which they are based. Therefore, this work proposes a predictive model capable of supporting the application of precautionary closures. Achieving sensitivity, accuracy and kappa index values of 97.34%, 91.83% and 0.75 respectively, the kNN algorithm has provided the best results. This allows the creation of a system capable of helping in complex situations where forecast errors are more common.
翻訳日:2024-02-15 14:43:28 公開日:2024-02-14
# データグラフ上の優先サブセット修復の計算複雑性

Computational Complexity of Preferred Subset Repairs on Data-Graphs ( http://arxiv.org/abs/2402.09265v1 )

ライセンス: Link先を確認
Nina Pardal and Santiago Cifuentes and Edwin Pin and Maria Vanina Martinez and Sergio Abriola(参考訳) 一貫性のない知識ベースを修復する問題は、特に構造化データの観点から、データベース理論と知識表現と推論のコミュニティの中で長い歴史を持っている。 しかし、現実世界のドメインで利用可能なデータがより複雑で相互接続されるようになるにつれて、新しいタイプのリポジトリ、表現言語、セマンティクスを開発するためのニーズが自然に生まれ、それについてより適切なクエリと推論ができるようになる。 グラフデータベースは、半構造化データ間の関係を効果的に表現し、これらのコネクションの処理とクエリを効率的に行うことができる。 本稿では,reg-gxpath式に基づく一貫性の概念を完全性制約として用い,データ値を持つグラフデータベースよりも優先順位付けされた修復の計算の問題に焦点をあてる。 本稿では,標準部分集合修復セマンティクスに基づいて,重み,マルチセット,セットに基づく優先度レベルを組み込んだ選好基準を提案する。 筆者らは最も一般的な補修作業について検討し、選好基準が適用できない場合と同様の計算複雑性を維持可能であることを示した。 本稿では,この設定における一貫性のある問い合わせ応答の複雑さを調べ,導入されるすべての選好基準に対して,下限と上限を厳密に求める。

The problem of repairing inconsistent knowledge bases has a long history within the communities of database theory and knowledge representation and reasoning, especially from the perspective of structured data. However, as the data available in real-world domains becomes more complex and interconnected, the need naturally arises for developing new types of repositories, representation languages, and semantics, to allow for more suitable ways to query and reason about it. Graph databases provide an effective way to represent relationships among semi-structured data, and allow processing and querying these connections efficiently. In this work, we focus on the problem of computing prioritized repairs over graph databases with data values, using a notion of consistency based on Reg-GXPath expressions as integrity constraints. We present several preference criteria based on the standard subset repair semantics, incorporating weights, multisets, and set-based priority levels. We study the most common repairing tasks, showing that it is possible to maintain the same computational complexity as in the case where no preference criterion is available for exploitation. To complete the picture, we explore the complexity of consistent query answering in this setting and obtain tight lower and upper bounds for all the preference criteria introduced.
翻訳日:2024-02-15 14:43:13 公開日:2024-02-14
# UR2M:マイクロコントローラにおける不確実性とリソース認識イベント検出

UR2M: Uncertainty and Resource-Aware Event Detection on Microcontrollers ( http://arxiv.org/abs/2402.09264v1 )

ライセンス: Link先を確認
Hong Jia, Young D. Kwon, Dong Ma, Nhat Pham, Lorena Qendro, Tam Vu and Cecilia Mascolo(参考訳) 従来の機械学習技術は、トレーニングとテストフェーズ間のデータの分散の変化に直面すると、不正確な予測を生成する傾向がある。 この脆弱性は、特にモバイルヘルスケアのようなアプリケーションにおいて、深刻な結果をもたらす可能性がある。 不確実性推定は、モデルの出力の信頼性を評価することによってこの問題を軽減する可能性がある。 しかし、既存の不確実性推定技術ではかなりの計算資源とメモリを必要とすることが多く、マイクロコントローラ (mcu) の実装には実用的でない。 この制限は、心臓発作検出など多くの重要なデバイス上のウェアラブルイベント検出(WED)アプリケーションの実現を妨げている。 本稿では,MCUのための新しい不確実性とリソース認識イベント検出フレームワークUR2Mを提案する。 具体的には (i)正確な事象検出と信頼性の高い不確実性推定のための証拠理論に基づく不確実性認識wedの開発 (II)異なるイベントモデル間でより浅いモデルレイヤを共有することにより、早期出口を通じた効率的なモデル推論を実現するためのカスケードMLフレームワークを導入する。 (iii)システム効率のためにモデルとMCUライブラリのデプロイを最適化する。 3つのウェアラブルデータセットを用いてur2mを従来の不確実性ベースラインと比較した。 その結果,UR2Mでは推定速度が最大864%,不確実性推定が857%,MCUが55%,不確実性定量化性能が22%向上した。 UR2Mは広範囲のMCUにデプロイでき、リアルタイムおよび信頼性の高いWEDアプリケーションを大幅に拡張する。

Traditional machine learning techniques are prone to generating inaccurate predictions when confronted with shifts in the distribution of data between the training and testing phases. This vulnerability can lead to severe consequences, especially in applications such as mobile healthcare. Uncertainty estimation has the potential to mitigate this issue by assessing the reliability of a model's output. However, existing uncertainty estimation techniques often require substantial computational resources and memory, making them impractical for implementation on microcontrollers (MCUs). This limitation hinders the feasibility of many important on-device wearable event detection (WED) applications, such as heart attack detection. In this paper, we present UR2M, a novel Uncertainty and Resource-aware event detection framework for MCUs. Specifically, we (i) develop an uncertainty-aware WED based on evidential theory for accurate event detection and reliable uncertainty estimation; (ii) introduce a cascade ML framework to achieve efficient model inference via early exits, by sharing shallower model layers among different event models; (iii) optimize the deployment of the model and MCU library for system efficiency. We conducted extensive experiments and compared UR2M to traditional uncertainty baselines using three wearable datasets. Our results demonstrate that UR2M achieves up to 864% faster inference speed, 857% energy-saving for uncertainty estimation, 55% memory saving on two popular MCUs, and a 22% improvement in uncertainty quantification performance. UR2M can be deployed on a wide range of MCUs, significantly expanding real-time and reliable WED applications.
翻訳日:2024-02-15 14:42:50 公開日:2024-02-14
# MultiMedEval:医療ビジョンランゲージモデル評価のためのベンチマークとツールキット

MultiMedEval: A Benchmark and a Toolkit for Evaluating Medical Vision-Language Models ( http://arxiv.org/abs/2402.09262v1 )

ライセンス: Link先を確認
Corentin Royer, Bjoern Menze and Anjany Sekuboyina(参考訳) 大規模医療ビジョン言語モデル(VLM)の公平かつ再現可能な評価のためのオープンソースツールキットであるMultiMedEvalを紹介する。 MultiMedEvalは、23のデータセットで実施され、11の医療ドメインにまたがる6つのマルチモーダルタスクで、モデルのパフォーマンスを包括的に評価する。 選択されたタスクとパフォーマンスメトリクスは、コミュニティにおける広範な採用とその多様性に基づいており、モデルの全体的な一般化可能性の徹底的な評価が保証されている。 我々は,単純なインターフェースとセットアッププロセスを備えたPythonツールキット(github.com/corentin-ryr/MultiMedEval)をオープンソースとして公開した。 我々の目標は、VLM評価の複雑な環境を単純化し、将来のモデルの公平かつ均一なベンチマークを促進することである。

We introduce MultiMedEval, an open-source toolkit for fair and reproducible evaluation of large, medical vision-language models (VLM). MultiMedEval comprehensively assesses the models' performance on a broad array of six multi-modal tasks, conducted over 23 datasets, and spanning over 11 medical domains. The chosen tasks and performance metrics are based on their widespread adoption in the community and their diversity, ensuring a thorough evaluation of the model's overall generalizability. We open-source a Python toolkit (github.com/corentin-ryr/MultiMedEval) with a simple interface and setup process, enabling the evaluation of any VLM in just a few lines of code. Our goal is to simplify the intricate landscape of VLM evaluation, thus promoting fair and uniform benchmarking of future models.
翻訳日:2024-02-15 14:42:25 公開日:2024-02-14
# SyntaxShap: テキスト生成のための構文認識説明可能性法

SyntaxShap: Syntax-aware Explainability Method for Text Generation ( http://arxiv.org/abs/2402.09259v1 )

ライセンス: Link先を確認
Kenza Amara, Rita Sevastjanova, Mennatallah El-Assady(参考訳) 安全クリティカルドメインにおける大規模言語モデルのパワーを活用するためには、それらの予測の説明可能性を保証する必要がある。 しかしながら、モデル解釈可能性に大きな注意が払われているにもかかわらず、テキストデータ用に調整されたメソッドを使用してシーケンスからシーケンスへのタスクを説明するための未検討領域は残されている。 本稿では,テキストデータの構文を考慮したテキスト生成のための局所的モデル非依存説明可能性であるsyntaxshapを提案する。 提案された作業は、解析ベースの構文依存を考慮したShapley値を拡張する。 ゲーム理論のアプローチをとると、syntaxshapは依存関係ツリーによる結合制約のみを考慮に入れる。 本稿では,テキスト生成タスクに適応した構文shapとその重み付け形式を,説明文の忠実性,複雑性,一貫性,意味的アライメントといった多様な指標を用いて,テキスト生成タスクに適応した最先端説明可能性手法と比較するモデルベース評価手法を提案する。 本手法は, 自己回帰モデルによる予測に対して, より忠実で一貫性があり, 解釈可能な説明を生成できることを示す。

To harness the power of large language models in safety-critical domains we need to ensure the explainability of their predictions. However, despite the significant attention to model interpretability, there remains an unexplored domain in explaining sequence-to-sequence tasks using methods tailored for textual data. This paper introduces SyntaxShap, a local, model-agnostic explainability method for text generation that takes into consideration the syntax in the text data. The presented work extends Shapley values to account for parsing-based syntactic dependencies. Taking a game theoric approach, SyntaxShap only considers coalitions constraint by the dependency tree. We adopt a model-based evaluation to compare SyntaxShap and its weighted form to state-of-the-art explainability methods adapted to text generation tasks, using diverse metrics including faithfulness, complexity, coherency, and semantic alignment of the explanations to the model. We show that our syntax-aware method produces explanations that help build more faithful, coherent, and interpretable explanations for predictions by autoregressive models.
翻訳日:2024-02-15 14:42:09 公開日:2024-02-14
# 2量子状態のローレンツ正準形式

Lorentz canoncial forms of two-qubit states ( http://arxiv.org/abs/2402.09258v1 )

ライセンス: Link先を確認
Sudha, A. R. Usha Devi, B. N. Karthik, H. S. Karthik, Akshata Shenoy H, K. S. Mallesh and A. V. Gopala Rao(参考訳) ブロッホ球面は、キュービットを視覚化するエレガントな方法を提供する。 2量子ビットの最も単純な合成状態の類似表現が注目されている。 ここでは、ブロッホ球に刻まれた正準楕円体の観点から、実行列パラメトリゼーションとそれに伴う任意の2量子状態の幾何図形化の詳細な数学的解析について述べる。

The Bloch sphere provides an elegant way of visualizing a qubit. Analogous representation of the simplest composite state of two-qubits has attracted significant attention. Here we present a detailed mathematical analysis of the real-matrix parametrization and associated geometric picturization of arbitrary two-qubit states - up to their local SL2C equivalence, in terms of canonical ellipsoids inscribed within the Bloch sphere.
翻訳日:2024-02-15 14:41:51 公開日:2024-02-14
# YOLOv8-AM: YOLOv8による小児関節リスト骨折の検出

YOLOv8-AM: YOLOv8 with Attention Mechanisms for Pediatric Wrist Fracture Detection ( http://arxiv.org/abs/2402.09329v1 )

ライセンス: Link先を確認
Chun-Tse Chien, Rui-Yang Ju, Kuang-Yi Chou, Chien-Sheng Lin, Jen-Shiun Chiang(参考訳) 難治性外傷や骨折は、特に骨折症例のかなりの割合を占める小児において、日常生活において頻繁に起こる。 手術の前に、外科医は患者にまずX線撮影を依頼し、放射線医の分析に基づいてそれに備える。 ニューラルネットワークの開発に伴い、You Only Look Once (YOLO)シリーズモデルがコンピュータ支援診断(CAD)として骨折検出に広く利用されている。 2023年、UltralyticsはYOLOモデルの最新バージョンを発表した。 アテンション機構はモデル性能を改善する最もホットな方法の1つである。 本研究は,YOLOv8アーキテクチャにアテンション機構を組み込んだYOLOv8-AMを提案する。 具体的には、4つの注意モジュール、CBAM(Convolutional Block Attention Module)、GAM(Global Attention Mechanism)、ECA(Efficient Channel Attention)、SA(Shuffle Attention)を使用して、改良されたモデルを設計し、GRAZPEDWRI-DXデータセットでトレーニングする。 ResBlock + CBAM (ResCBAM) に基づくYOLOv8-AMモデルのIoU 50(mAP 50)の平均精度は63.6%から65.8%に向上し,SOTAの性能が向上した。 逆に、GAMを組み込んだYOLOv8-AMモデルでは、mAP 50の64.2%の値が得られる。 したがって、ResBlockとGAMを組み合わせてResGAMを導入し、新しいYOLOv8-AMモデルを設計し、mAP 50値が65.0%に向上した。

Wrist trauma and even fractures occur frequently in daily life, particularly among children who account for a significant proportion of fracture cases. Before performing surgery, surgeons often request patients to undergo X-ray imaging first and prepare for it based on the analysis of the radiologist. With the development of neural networks, You Only Look Once (YOLO) series models have been widely used in fracture detection as computer-assisted diagnosis (CAD). In 2023, Ultralytics presented the latest version of the YOLO models, which has been employed for detecting fractures across various parts of the body. Attention mechanism is one of the hottest methods to improve the model performance. This research work proposes YOLOv8-AM, which incorporates the attention mechanism into the original YOLOv8 architecture. Specifically, we respectively employ four attention modules, Convolutional Block Attention Module (CBAM), Global Attention Mechanism (GAM), Efficient Channel Attention (ECA), and Shuffle Attention (SA), to design the improved models and train them on GRAZPEDWRI-DX dataset. Experimental results demonstrate that the mean Average Precision at IoU 50 (mAP 50) of the YOLOv8-AM model based on ResBlock + CBAM (ResCBAM) increased from 63.6% to 65.8%, which achieves the state-of-the-art (SOTA) performance. Conversely, YOLOv8-AM model incorporating GAM obtains the mAP 50 value of 64.2%, which is not a satisfactory enhancement. Therefore, we combine ResBlock and GAM, introducing ResGAM to design another new YOLOv8-AM model, whose mAP 50 value is increased to 65.0%.
翻訳日:2024-02-15 14:34:54 公開日:2024-02-14
# スパースコンテクストトランスフォーマーを用いた少数ショット物体検出

Few-Shot Object Detection with Sparse Context Transformers ( http://arxiv.org/abs/2402.09315v1 )

ライセンス: Link先を確認
Jie Mei, Mingyuan Jiu, Hichem Sahbi, Xiaoheng Jiang, Mingliang Xu(参考訳) 少ないショット検出は、少ないラベル付きデータでトレーニングされたモデルを使用してオブジェクトをローカライズするパターン認識における主要なタスクである。 主流の少数ショット手法の1つは、ターゲットドメインの微調整の前にソースドメインで検出モデルを事前訓練するトランスファーラーニングである。 しかし、特に基礎となるラベル付きトレーニングデータが不足している場合には、微調整モデルがターゲットドメイン内の新しいクラスを効果的に識別することは困難である。 本稿では、ソース領域におけるオブジェクト知識を効果的に活用する新しいスパースコンテキスト変換器(SCT)を考案し、ターゲット領域内の少数のトレーニング画像からスパースコンテキストを自動的に学習する。 結果として、学習した検出器の識別能力を高め、クラス混乱を低減するために、異なる関連する手がかりを組み合わせる。 提案手法を2つの難易度オブジェクト検出ベンチマークで評価し,提案手法が関連する最先端技術と比較して競合性能を得ることを示す実験結果を得た。

Few-shot detection is a major task in pattern recognition which seeks to localize objects using models trained with few labeled data. One of the mainstream few-shot methods is transfer learning which consists in pretraining a detection model in a source domain prior to its fine-tuning in a target domain. However, it is challenging for fine-tuned models to effectively identify new classes in the target domain, particularly when the underlying labeled training data are scarce. In this paper, we devise a novel sparse context transformer (SCT) that effectively leverages object knowledge in the source domain, and automatically learns a sparse context from only few training images in the target domain. As a result, it combines different relevant clues in order to enhance the discrimination power of the learned detectors and reduce class confusion. We evaluate the proposed method on two challenging few-shot object detection benchmarks, and empirical results show that the proposed method obtains competitive performance compared to the related state-of-the-art.
翻訳日:2024-02-15 14:34:19 公開日:2024-02-14
# ジョセフソン放射のボロメトリック検出

Bolometric detection of Josephson radiation ( http://arxiv.org/abs/2402.09314v1 )

ライセンス: Link先を確認
Bayan Karimi, Gorm Ole Steffensen, Andrew P. Higginbotham, Charles M. Marcus, Alfredo Levy Yeyati, Jukka P. Pekola(参考訳) ジョセフソン接合部(JJ)は1960年代から研究が続けられている。 しかし、多くのJJに基づいて量子情報処理装置を構築する現代においても、量子相転移、JJの環境への結合、超伝導量子ビットのコヒーレンスの改善など、単一の接合に関するオープンな疑問は未解決のままである。 非平衡(バイアスド)条件下でジョセフソン放射を検出するための効率的なボロメータとして機能するオンチップ貯水池を設計・構築する。 ボロメーターは、マイクロ波周波数におけるアク・ジョセフソン電流を、約100,$GHzで測定可能なdc温度上昇に変換する。 本実験は、マイクロ波光子の効率良く広帯域の熱検出方式を示し、標準コンダクタンス測定以上のジョセフソンダイナミクスの感度検出器を提供する。 回路モデルを用いて、電流電圧特性と測定電力の両方を定量的にキャプチャする。

A Josephson junction (JJ) has been under intensive study ever since 1960's. Yet even in the present era of building quantum information processing devices based on many JJs, open questions regarding a single junction remain unsolved, such as quantum phase transitions, coupling of the JJ to an environment and improving coherence of a superconducting qubit. Here we design and build an engineered on-chip reservoir that acts as an efficient bolometer for detecting the Josephson radiation under non-equilibrium (biased) conditions. The bolometer converts ac Josephson current at microwave frequencies, up to about $100\,$GHz, into a measurable dc temperature rise. The present experiment demonstrates an efficient, wide-band, thermal detection scheme of microwave photons and provides a sensitive detector of Josephson dynamics beyond the standard conductance measurements. Using a circuit model, we capture both the current-voltage characteristics and the measured power quantitatively.
翻訳日:2024-02-15 14:34:00 公開日:2024-02-14
# 二量化リドベルク・ツイーザー配列における相互作用によって保護される量子化ツイーレスポンプ

Quantized Thouless pumps protected by interactions in dimerized Rydberg tweezer arrays ( http://arxiv.org/abs/2402.09311v1 )

ライセンス: Link先を確認
Sergi Juli\`a-Farr\'e and Javier Arg\"uello-Luengo and Lo\"ic Henriet and Alexandre Dauphin(参考訳) 二量化xxzハミルトニアンによって記述された相互作用スピン鎖において、thouless pump、すなわち断熱的な位相輸送を研究する。 非相互作用の場合、量子化されたトゥーレスポンプは、位相特異点が断続的に囲まれる場合にのみ発生する。 対照的に、相互作用の存在下では、そのような位相輸送は、系が特異点に任意に近付くようなエキゾチックな経路に対しても持続する。 自発的反強磁性絶縁体によって分離された2つの特異点に十分に強い相互作用を分離する非相互作用特異点の挙動を通して,これらのエキゾチックなthoulessポンプのロバスト性を示す。 地上物理とリアルタイム断熱力学のテンソルネットワークシミュレーションを用いて,これらの現象の数値ベンチマークを行う。 最後に,Floquet-driven Rydberg tweezer アレイを用いた実験プロトコルを提案する。

We study Thouless pumps, i.e., adiabatic topological transport, in an interacting spin chain described by the dimerized XXZ Hamiltonian. In the noninteracting case, quantized Thouless pumps can only occur when a topological singularity is encircled adiabatically. In contrast, here we show that, in the presence of interactions, such topological transport can even persist for exotic paths in which the system gets arbitrarily close to the singularity. We illustrate the robustness of these exotic Thouless pumps through the behavior of the noninteracting singularity, which for sufficiently strong interactions splits into two singularities separated by a spontaneous antiferromagnetic insulator. We perform a numerical benchmark of these phenomena by means of tensor network simulations of ground-state physics and real-time adiabatic dynamics. Finally, we propose an experimental protocol with Floquet-driven Rydberg tweezer arrays.
翻訳日:2024-02-15 14:33:43 公開日:2024-02-14
# コヒーレント光間相互作用の多光子共鳴における波動粒子相関

Wave-particle correlations in multiphoton resonances of coherent light-matter interaction ( http://arxiv.org/abs/2402.09308v1 )

ライセンス: Link先を確認
Th. K. Mavrogordatos(参考訳) 多光子動作下でのJaynes-Cummings(JC)モデルにおける非古典光子列による場振幅の条件測定について検討する。 我々は、[G. T. Foster et al., Phys. Rev. Lett. 85 3149 (2000)] の精神における明確な非古典的進化を明らかにするために、即時的な実験関係の相関子を用いる。 相関子は、JCソースマスター方程式の異なる解から得られる画像の相補的な性質に依存する。 直接光検出は、時間スケール、量子ビート、半古典的振動の条件付き分離を伴い、その強い結合限界においてコヒーレントな光-物質相互作用によって生じることを実証する。 我々は、散乱光の粒子の性質に関連する待ち時間分布の解析式において量子ビートを抽出し、その波動特性に特徴的な二次振幅の負のスペクトルを求める。 最後に、波動-粒子相関器による二重面の同時検出を行い、測定中の二次振幅に依存する定常状態に対する変動の非対称回帰を示す。

We discuss the conditional measurement of field amplitudes by a nonclassical photon sequence in the Jaynes-Cummings (JC) model under multiphoton operation. We do so by employing a correlator of immediate experimental relevance to reveal a distinct nonclassical evolution in the spirit of [G. T. Foster et al., Phys. Rev. Lett. 85 3149 (2000)]. The correlator relies on the complementary nature of the pictures obtained from different unravelings of a JC source master equation. We demonstrate that direct photodetection entails a conditioned separation of timescales, a quantum beat and a semiclassical oscillation, produced by the coherent light-matter interaction in its strong-coupling limit. We single the quantum beat out in the analytical expression for the waiting-time distribution, pertaining to the particle nature of the scattered light, and find a negative spectrum of quadrature amplitude squeezing, characteristic of its wave nature. Finally, we jointly detect the dual aspects through the wave-particle correlator, showing an asymmetric regression of fluctuations to the steady state which depends on the quadrature amplitude being measured.
翻訳日:2024-02-15 14:33:28 公開日:2024-02-14
# 超広帯域偏光共役光子のCMOSフォトニック集積源

CMOS photonic integrated source of ultrabroadband polarization-entangled photons ( http://arxiv.org/abs/2402.09307v1 )

ライセンス: Link先を確認
Alexander Miloshevsky, Lucas M. Cohen, Karthik V. Myilswamy, Muneer Alshowkan, Saleha Fatema, Hsuan-Hao Lu, Andrew M. Weiner, and Joseph M. Lukens(参考訳) マイクロリングと偏光スプリッタ・ロータを用いた全オンチップCMOSファブリックシリコンフォトニック集積回路を,超広帯域(>9 THz),高忠実(90-98%)の偏光エンタングル光子の生成のために試作した。 光C+Lバンドを拡大し、38.4GHzの広帯域グリッド上で116個の周波数ビン対を生成することで、マルチユーザネットワークにおけるフレキシブルグリッド波長多重エンタングルメント分布に最適である。

We showcase a fully on-chip CMOS-fabricated silicon photonic integrated circuit employing a bidirectionally pumped microring and polarization splitter-rotators tailored for the generation of ultrabroadband ($>$9 THz), high-fidelity (90-98%) polarization-entangled photons. Spanning the optical C+L-band and producing over 116 frequency-bin pairs on a 38.4 GHz-spaced grid, this source is ideal for flex-grid wavelength-multiplexed entanglement distribution in multiuser networks.
翻訳日:2024-02-15 14:33:06 公開日:2024-02-14
# ブラックボックスの導入:時系列データからの因果発見のための基礎モデルに向けて

Embracing the black box: Heading towards foundation models for causal discovery from time series data ( http://arxiv.org/abs/2402.09305v1 )

ライセンス: Link先を確認
Gideon Stein, Maha Shadaydeh, Joachim Denzler(参考訳) 時系列データからの因果発見は、ディープラーニング技術に基づくものを含む、多くの既存のソリューションを含んでいる。 しかし、これらの方法は通常、ディープラーニングにおいて最も一般的なパラダイムの1つ、エンドツーエンドの学習を支持しない。 このギャップに対処するために、私たちはCausal Pretrainingと呼ぶものを調査します。 多変量時系列から根底にある因果グラフへの直接マッピングを教師付きで学習することを目的とした方法論。 実験結果から,トレーニングとテスト時系列のサンプルが,そのダイナミクスのほとんどを共有していると仮定して,教師ありの方法で因果発見が可能であることが示唆された。 さらに重要なことは、仮に追加データが同じダイナミクスを共有していなくても、Causal Pretrainingのパフォーマンスがデータとモデルサイズによって増加するという証拠を見つけました。 さらに,因果的事前学習ニューラルネットワークを用いた実世界のデータの因果的発見が限界内で可能である例を示す。 これは因果発見の基礎モデルの可能性を示すものだと論じている。

Causal discovery from time series data encompasses many existing solutions, including those based on deep learning techniques. However, these methods typically do not endorse one of the most prevalent paradigms in deep learning: End-to-end learning. To address this gap, we explore what we call Causal Pretraining. A methodology that aims to learn a direct mapping from multivariate time series to the underlying causal graphs in a supervised manner. Our empirical findings suggest that causal discovery in a supervised manner is possible, assuming that the training and test time series samples share most of their dynamics. More importantly, we found evidence that the performance of Causal Pretraining can increase with data and model size, even if the additional data do not share the same dynamics. Further, we provide examples where causal discovery for real-world data with causally pretrained neural networks is possible within limits. We argue that this hints at the possibility of a foundation model for causal discovery.
翻訳日:2024-02-15 14:32:52 公開日:2024-02-14
# ヒトの即時一般化とディープニューラルネットワークの一般化ラグ : 表現的発散のための$\unicode{x2014}$evidence?

Immediate generalisation in humans but a generalisation lag in deep neural networks$\unicode{x2014}$evidence for representational divergence? ( http://arxiv.org/abs/2402.09303v1 )

ライセンス: Link先を確認
Lukas S. Huber, Fred W. Mast and Felix A. Wichmann(参考訳) 近年の研究では、画像分類分野における人間とディープニューラルネットワーク(DNN)の行動比較が数多く行われている。 しばしば比較研究は、一度形成されてからオブジェクトカテゴリの表現の類似性を測定し比較することにより、学習プロセスのエンド・リゾルトに焦点を当てている。 しかしながら、これらの表現がどのように現れるかのプロセスは、つまり、取得された$\unicode{x2014}$isにおいて観察される行動変化と中間段階は、直接的かつ経験的に比較されることが少なくなる。 本稿では、人間の観察者や様々な古典的かつ最先端のDNNにおいて、転送可能な表現がどのように獲得されるかについて詳細に調査する。 我々は,開始点,入力モダリティ,利用可能な入力データ,提供されたフィードバックなどの学習関連パラメータを整合させる制約付き教師付き学習環境を開発する。 学習プロセス全体を通して、学習された表現がいかによく認識されていないテストデータに一般化できるかを評価し比較します。 以上の結果から,絶対的な分類性能の点から,dnnは$\unicode{x2014}$に匹敵するレベルのデータ効率を示し,その分野における一般的な仮定に挑戦して,人間の学習者の$\unicode{x2014}$を超えることもある。 しかし、学習過程全体の比較では、DNNの学習は明らかに一般化ラグによって特徴づけられるが、人間は、後に新しいデータにのみ転送されるセット固有情報を学習する予備段階なしで、すぐに一般化可能な表現を取得するように見える。

Recent research has seen many behavioral comparisons between humans and deep neural networks (DNNs) in the domain of image classification. Often, comparison studies focus on the end-result of the learning process by measuring and comparing the similarities in the representations of object categories once they have been formed. However, the process of how these representations emerge$\unicode{x2014}$that is, the behavioral changes and intermediate stages observed during the acquisition$\unicode{x2014}$is less often directly and empirically compared. Here we report a detailed investigation of how transferable representations are acquired in human observers and various classic and state-of-the-art DNNs. We develop a constrained supervised learning environment in which we align learning-relevant parameters such as starting point, input modality, available input data and the feedback provided. Across the whole learning process we evaluate and compare how well learned representations can be generalized to previously unseen test data. Our findings indicate that in terms of absolute classification performance DNNs demonstrate a level of data efficiency comparable to$\unicode{x2014}$and sometimes even exceeding that$\unicode{x2014}$of human learners, challenging some prevailing assumptions in the field. However, comparisons across the entire learning process reveal significant representational differences: while DNNs' learning is characterized by a pronounced generalisation lag, humans appear to immediately acquire generalizable representations without a preliminary phase of learning training set-specific information that is only later transferred to novel data.
翻訳日:2024-02-15 14:32:38 公開日:2024-02-14
# 静電六極子を用いたフッ化バリウム分子ビームの操作

Manipulating a beam of barium fluoride molecules using an electrostatic hexapole ( http://arxiv.org/abs/2402.09300v1 )

ライセンス: Link先を確認
Anno Touwen, Joost W.F. van Hofslot, Thijs Qualm, Richard Borchers, Roman Bause, Hendrick L. Bethlem, Alexander Boeschoten, Anastasia Borschevsky, Ties H. Fikkers, Steven Hoekstra, Klaus Jungmann, Virginia R. Marshall, Thomas B. Meijknecht, Maarten C. Mooij, Rob G.E. Timmermans, Wim Ubachs and Lorenz Willmann (NL-eEDM collaboration)(参考訳) 静電ヘキサポールレンズは、低温緩衝性ガス源からのフッ化バリウム分子のビームの横特性を操作するために用いられる。 ビームの空間分布は、分子ビームの強度と横位置の広がりを洞察する、状態選択性レーザー誘起蛍光を被写体カメラに記録することにより測定される。 フッ化バリウムの高質量および好ましくないスタークシフトは大きな課題であるが、N=1状態の低磁場求心成分中の分子の数は、ソースの後方で直径712mmの開口部を通過すると12倍に増加する。 さらに, ヘキサポールレンズを移動させることにより, 分子ビームを最大+/-5mm変位させることができることを示した。 我々の測定は数値軌道シミュレーションとよく一致している。 電子の電気双極子モーメント探索などのビーム実験の感度を高めるために静電レンズがどのように用いられるかについて議論する。

An electrostatic hexapole lens is used to manipulate the transverse properties of a beam of barium fluoride molecules from a cryogenic buffer gas source. The spatial distribution of the beam is measured by recording state-selective laser-induced fluorescence on an emccd camera, providing insight into the intensity and transverse position spread of the molecular beam. Although the high mass and unfavorable Stark shift of barium fluoride pose a considerable challenge, the number of molecules in the low-field seeking component of the N=1 state that pass a 4 mm diameter aperture 712 mm behind the source is increased by a factor of 12. Furthermore, it is demonstrated that the molecular beam can be displaced by up to +/-5 mm by moving the hexapole lens. Our measurements agree well with numerical trajectory simulations. We discuss how electrostatic lenses may be used to increase the sensitivity of beam experiments such as the search for the electric dipole moment of the electron.
翻訳日:2024-02-15 14:32:09 公開日:2024-02-14
# コンテンツなしのトレーニング:コードでトレーニングされた言語モデルにおけるコードインクルージョンの検出

Trained Without My Consent: Detecting Code Inclusion In Language Models Trained on Code ( http://arxiv.org/abs/2402.09299v1 )

ライセンス: Link先を確認
Vahid Majdinasab, Amin Nikanjam, Foutse Khomh(参考訳) コード監査は、保護されたソースからのコードを含まないことを確認することにより、開発されたコードが標準、規則、著作権保護に準拠することを保証する。 ソフトウェア開発プロセスにおけるコーディングアシスタントとしての最近のLarge Language Models(LLM)の出現は、コード監査に新たな課題をもたらす。 これらのモデルのトレーニングのためのデータセットは、主に公開ソースから収集される。 これは、開発者がすでにデータセットに含まれているため、知的財産権侵害の問題を引き起こす。 したがって、LLMを使用して開発された監査コードは困難であり、これらのモデルのトレーニングデータセットにアクセスできないため、開発中にLLMが特定の著作権コードでトレーニングされているかどうかを確実に主張することは困難である。 トレーニングデータセットの非開示性を考慮すると、コードクローン検出のような従来のアプローチは、著作権侵害を主張するには不十分である。 この課題に対処するため,LLMのトレーニングデータセットにコードを含むことを検出するためのメンバシップ推論に基づくモデルに依存しない,解釈可能な手法であるTraWiCを提案する。 コードインクルージョンを検出するための分類器を訓練するために,各プログラム固有の構文的および意味的識別子を抽出する。 我々の実験では、TraWiCはLLMのトレーニングに使われたコードの83.87%を検出できることがわかった。 一方、一般的なクローン検出ツールであるNiCadは47.64%しか検出できない。 注目すべきパフォーマンスに加えて、TraWiCは、数千のコードスニペットにわたるCodeWhisperer参照トラッカーのようなツールの監査プロセス中に実行されるペアワイズクローン検出とは対照的に、リソースオーバーヘッドが低い。

Code auditing ensures that the developed code adheres to standards, regulations, and copyright protection by verifying that it does not contain code from protected sources. The recent advent of Large Language Models (LLMs) as coding assistants in the software development process poses new challenges for code auditing. The dataset for training these models is mainly collected from publicly available sources. This raises the issue of intellectual property infringement as developers' codes are already included in the dataset. Therefore, auditing code developed using LLMs is challenging, as it is difficult to reliably assert if an LLM used during development has been trained on specific copyrighted codes, given that we do not have access to the training datasets of these models. Given the non-disclosure of the training datasets, traditional approaches such as code clone detection are insufficient for asserting copyright infringement. To address this challenge, we propose a new approach, TraWiC; a model-agnostic and interpretable method based on membership inference for detecting code inclusion in an LLM's training dataset. We extract syntactic and semantic identifiers unique to each program to train a classifier for detecting code inclusion. In our experiments, we observe that TraWiC is capable of detecting 83.87% of codes that were used to train an LLM. In comparison, the prevalent clone detection tool NiCad is only capable of detecting 47.64%. In addition to its remarkable performance, TraWiC has low resource overhead in contrast to pair-wise clone detection that is conducted during the auditing process of tools like CodeWhisperer reference tracker, across thousands of code snippets.
翻訳日:2024-02-15 14:31:51 公開日:2024-02-14
# 部分教師付き強化学習による後向き観測可能なPOMDPの解釈可能性の学習

Learning Interpretable Policies in Hindsight-Observable POMDPs through Partially Supervised Reinforcement Learning ( http://arxiv.org/abs/2402.09290v1 )

ライセンス: Link先を確認
Michael Lanier, Ying Xu, Nathan Jacobs, Chongjie Zhang, Yevgeniy Vorobeychik(参考訳) 深層強化学習は、ビデオゲーム、ロボット制御、自律運転、薬物発見など、様々な領域で顕著な成果を発揮している。 部分観測可能な領域における一般的な手法は、画像のような高次元の観察からエンドツーエンドの学習に大きく依存する。 本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークの導入という,新たな方向性を提案する。 PSRLの中心は、教師なし学習と教師なし学習の融合である。 このアプローチはstate estimatorを利用して、トレーニング時に完全に観測可能な高次元の観察から教師付きセマンティックステート情報を蒸留する。 これにより、制御された状態予測を構成するより解釈可能なポリシーが得られる。 並行して、教師なしの潜在表現をキャプチャする。 これら2つの意味状態と潜在状態は融合され、ポリシーネットワークへの入力として利用される。 この並進法は、教師付き状態情報を強調することから、よりリッチで潜伏的な洞察を統合することまで、実践者に柔軟でダイナミックなスペクトルを提供します。 広範な実験結果から、これらの双対表現をマージすることで、psrlは強力なバランスを提供し、モデル解釈性を高めながら、しばしば従来の方法による報酬と収束速度で設定されたパフォーマンスベンチマークを著しく上回っていることが示されている。

Deep reinforcement learning has demonstrated remarkable achievements across diverse domains such as video games, robotic control, autonomous driving, and drug discovery. Common methodologies in partially-observable domains largely lean on end-to-end learning from high-dimensional observations, such as images, without explicitly reasoning about true state. We suggest an alternative direction, introducing the Partially Supervised Reinforcement Learning (PSRL) framework. At the heart of PSRL is the fusion of both supervised and unsupervised learning. The approach leverages a state estimator to distill supervised semantic state information from high-dimensional observations which are often fully observable at training time. This yields more interpretable policies that compose state predictions with control. In parallel, it captures an unsupervised latent representation. These two-the semantic state and the latent state-are then fused and utilized as inputs to a policy network. This juxtaposition offers practitioners a flexible and dynamic spectrum: from emphasizing supervised state information to integrating richer, latent insights. Extensive experimental results indicate that by merging these dual representations, PSRL offers a potent balance, enhancing model interpretability while preserving, and often significantly outperforming, the performance benchmarks set by traditional methods in terms of reward and convergence speed.
翻訳日:2024-02-15 14:31:26 公開日:2024-02-14
# EcoVal: 機械学習のための効率的なデータ評価フレームワーク

EcoVal: An Efficient Data Valuation Framework for Machine Learning ( http://arxiv.org/abs/2402.09288v1 )

ライセンス: Link先を確認
Ayush K Tarun, Vikram S Chundawat, Murari Mandal, Hong Ming Tan, Bowei Chen, Mohan Kankanhalli(参考訳) 機械学習ワークフローにおけるデータの価値の定量化は、機械学習イニシアチブにおいて、より戦略的決定を行う上で重要な役割を果たす。 機械学習におけるデータ評価のための既存のshapley値ベースのフレームワークは、shapley値を得るためにモデルを繰り返し訓練する必要があるため、計算コストが高い。 本稿では,機械学習モデルにおけるデータの価値を高速かつ実用的な方法で推定する効率的なデータ評価フレームワークecovalを提案する。 個々のデータサンプルを直接扱う代わりに、類似したデータポイントのクラスタの値を決定します。 この値は、すべてのメンバークラスタポイントにさらに伝播する。 その結果,各データの固有値および余剰値を推定することで,総合的なデータ値を決定することができることがわかった。 これは、伝統的な自由経済市場における労働や資本といった要因に基づいて生産量を見積もるために広く用いられる概念である、 \textit{production function} としてモデルのパフォーマンスを定式化することによって実現される。 我々は,評価手法の形式的証明を提供し,その高速化を実現する原理とメカニズムを明らかにする。 本手法の現実的な適用性は,分布内データとサンプル外データの両方に対して有効性を示すことで実証する。 この研究は、機械学習モデルにおいて、大規模で効率的なデータバリュエーションのコア課題の1つに対処する。

Quantifying the value of data within a machine learning workflow can play a pivotal role in making more strategic decisions in machine learning initiatives. The existing Shapley value based frameworks for data valuation in machine learning are computationally expensive as they require considerable amount of repeated training of the model to obtain the Shapley value. In this paper, we introduce an efficient data valuation framework EcoVal, to estimate the value of data for machine learning models in a fast and practical manner. Instead of directly working with individual data sample, we determine the value of a cluster of similar data points. This value is further propagated amongst all the member cluster points. We show that the overall data value can be determined by estimating the intrinsic and extrinsic value of each data. This is enabled by formulating the performance of a model as a \textit{production function}, a concept which is popularly used to estimate the amount of output based on factors like labor and capital in a traditional free economic market. We provide a formal proof of our valuation technique and elucidate the principles and mechanisms that enable its accelerated performance. We demonstrate the real-world applicability of our method by showcasing its effectiveness for both in-distribution and out-of-sample data. This work addresses one of the core challenges of efficient data valuation at scale in machine learning models.
翻訳日:2024-02-15 14:31:04 公開日:2024-02-14
# 栄養的事実、薬物的事実、モデル的事実--銃暴力研究におけるai倫理の実践

Nutrition Facts, Drug Facts, and Model Facts: Putting AI Ethics into Practice in Gun Violence Research ( http://arxiv.org/abs/2402.09286v1 )

ライセンス: Link先を確認
Jessica Zhu, Dr. Michel Cukier, Dr. Joseph Richardson Jr(参考訳) 目的: 銃器の損傷研究は、しばしば爆発する脆弱な黒人とブラウン系アメリカ人の集団のデータを利用する必要がある。 不信感を最小限に抑えるために,本研究は,一般市民へのai信頼と透明性を確立するための枠組みを提供する。 方法:我々はモデルファクトテンプレートを提案し,精度と人口統計を標準化され,かつ最小に複雑な値に分解する。 このフレームワークは、技術モデルドキュメンテーションに飛び込むことなく、一般ユーザーがモデルの妥当性とバイアスを評価することを可能にする。 例: これまでに公表された2つのモデル、暴力リスク識別モデルと自殺リスク予測モデルにモデルファクトテンプレートを適用した。 我々は、データが適切に構造化されている場合に、適切な情報にアクセスしやすいことを示す。 議論: Model Factsテンプレートは現在の形式では人間ベースのデータとバイアスに限られています。 栄養の事実と同様に、利用者がその実用性を理解するための教育的リソースも必要だ。 ユーザインタフェースとモデルインターフェースの相互作用が望まれていることを確実にするために、ヒューマンコンピュータインタラクションの実験を行う必要がある。 結論: Model Facts ラベルは、エンドユーザーと一般消費者との信頼を確立するための最初のフレームワークである。 銃器損傷研究へのモデルファクトの実装は、公衆衛生従事者と銃器損傷の影響を受ける者に対して、その研究が提供するツールに対する信頼を高める。

Objective: Firearm injury research necessitates using data from often-exploited vulnerable populations of Black and Brown Americans. In order to minimize distrust, this study provides a framework for establishing AI trust and transparency with the general population. Methods: We propose a Model Facts template that is easily extendable and decomposes accuracy and demographics into standardized and minimally complex values. This framework allows general users to assess the validity and biases of a model without diving into technical model documentation. Examples: We apply the Model Facts template on two previously published models, a violence risk identification model and a suicide risk prediction model. We demonstrate the ease of accessing the appropriate information when the data is structured appropriately. Discussion: The Model Facts template is limited in its current form to human based data and biases. Like nutrition facts, it also will require some educational resources for users to grasp its full utility. Human computer interaction experiments should be conducted to ensure that the interaction between user interface and model interface is as desired. Conclusion: The Model Facts label is the first framework dedicated to establishing trust with end users and general population consumers. Implementation of Model Facts into firearm injury research will provide public health practitioners and those impacted by firearm injury greater faith in the tools the research provides.
翻訳日:2024-02-15 14:30:44 公開日:2024-02-14
# GraphiQ:フォトニックグラフ状態のための量子回路設計

GraphiQ: Quantum circuit design for photonic graph states ( http://arxiv.org/abs/2402.09285v1 )

ライセンス: Link先を確認
Jie Lin, Benjamin MacLellan, Sobhan Ghanbari, Julie Belleville, Khuong Tran, Luc Robichaud, Roger G. Melko, Hoi-Kwong Lo, Piotr Roztocki(参考訳) GraphiQはフォトニックグラフ状態生成スキームを設計するための汎用的なオープンソースフレームワークであり、特に光子-エミッタハイブリッド回路に重点を置いている。 Pythonで構築されたGraphiQは、複数のシミュレーションバックエンドと最適化メソッドを含む一連のデザインツールで構成されている。 このライブラリは、回路欠陥の存在下でのスキーム最適化と、ユーザ定義の最適化目標をサポートする。 この枠組みは,実験的な制約に固執する実践的スキームの開発に有用なツールである。 グラフ状態は、測定ベースの量子コンピューティング、全フォトニック量子リピータ、ロバスト量子メトロロジーにとって重要な資源であるので、graphiqの量子技術の進歩に対する幅広い影響を想定する。

GraphiQ is a versatile open-source framework for designing photonic graph state generation schemes, with a particular emphasis on photon-emitter hybrid circuits. Built in Python, GraphiQ consists of a suite of design tools, including multiple simulation backends and optimization methods. The library supports scheme optimization in the presence of circuit imperfections, as well as user-defined optimization goals. Our framework thus represents a valuable tool for the development of practical schemes adhering to experimentally-relevant constraints. As graph states are a key resource for measurement-based quantum computing, all-photonic quantum repeaters, and robust quantum metrology, among others, we envision GraphiQ's broad impact for advancing quantum technologies.
翻訳日:2024-02-15 14:30:26 公開日:2024-02-14
# スマートシティと村 : 開発都市における概念レビューと実施展望

Smart Cities and Villages: Concept Review and Implementation Perspectives in Developing Cities ( http://arxiv.org/abs/2402.09284v1 )

ライセンス: Link先を確認
Kamiba I. Kabuya, Olasupo O. Ajayi, Anotine B. Bagula(参考訳) スマートシティ(SC)の概念は、先進国の主要都市で展開シナリオが明らかにされてから数十年が経過した。 しかし、SCは先進国の都市住民の生活環境を改善してきたが、この概念はいまだに開発途上国に不足しているか、あるいは不十分に展開されている。 本稿では,開発途上国の都市への適用の観点からのSC概念の見直し,活用の機会,これらの都市への適用性に関わる課題について述べる。 本稿では,文献の体系的なレビューに基づいて,SC概念の標準定義やモデル,参照の枠組みが存在しないことを示す。 また,世界中の都市で共通する問題を解決するための総合的なアプローチを提供することを期待して,「スマートシティ」と「スマートビレッジ」という概念のギャップを埋めることを目的とする。 その他の著者からのインスピレーションを得て,アフリカにおけるSCイニシアティブの概念モデルを提案し,研究と能力開発を優先する必要性を実証する。 また,サハラ以南のアフリカにおけるSC導入の可能性についても論じる。 ケーススタディとして,コンゴ民主共和国のルブンバシ市を考察し,スマートシティイニシアティブを成功させることで,それをスマートシティにする方法について論じる。 ルブンバシにとって、サハラ以南のアフリカの他の都市と同様に、スマートシティを開発するための第一歩は、知識を構築し、知的な首都を作ることである。

The "Smart City" (SC) concept has been around for decades with deployment scenarios revealed in major cities of developed countries. However, while SC has enhanced the living conditions of city dwellers in the developed world, the concept is still either missing or poorly deployed in the developing world. This paper presents a review of the SC concept from the perspective of its application to cities in developing nations, the opportunities it avails, and challenges related to its applicability to these cities. Building upon a systematic review of literature, this paper shows that there are neither canonical definitions, models or frameworks of references for the SC concept. This paper also aims to bridge the gap between the "smart city" and "smart village" concepts, with the expectation of providing a holistic approach to solving common issues in cities around the world. Drawing inspiration from other authors, we propose a conceptual model for a SC initiative in Africa and demonstrate the need to prioritize research and capacity development. We also discuss the potential opportunities for such SC implementations in sub-Saharan Africa. As a case study, we consider the city of Lubumbashi in the Democratic Republic of Congo and discuss ways of making it a smart city by building around successful smart city initiatives. It is our belief that for Lubumbashi, as with any other city in Sub-Saharan Africa, the first step to developing a smart city is to build knowledge and create an intellectual capital.
翻訳日:2024-02-15 14:30:11 公開日:2024-02-14
# 摂動kn-mtによる多様な翻訳の生成

Generating Diverse Translation with Perturbed kNN-MT ( http://arxiv.org/abs/2402.09344v1 )

ライセンス: Link先を確認
Yuto Nishida, Makoto Morishita, Hidetaka Kamigaito, Taro Watanabe(参考訳) 複数の翻訳候補を生成することで、ユーザーはニーズを満たす翻訳候補を選択できる。 多様化した世代への取り組みはあったが、主に、以前の手法が過度な修正問題に対処していないため、多様性を改善する余地がある。 本稿では, 摂動k-nearest 近傍機械翻訳 (kNN-MT) を導入して, より多様な翻訳を生成する手法を提案する。 提案手法は,kn-mtの検索空間を拡大し,過剰訂正問題に対処し,多様な単語を候補に組み込むのに役立つ。 提案手法は,摂動の大きさを調整し,候補の多様性を飛躍的に向上させ,多様性の程度を制御できることを示した。

Generating multiple translation candidates would enable users to choose the one that satisfies their needs. Although there has been work on diversified generation, there exists room for improving the diversity mainly because the previous methods do not address the overcorrection problem -- the model underestimates a prediction that is largely different from the training data, even if that prediction is likely. This paper proposes methods that generate more diverse translations by introducing perturbed k-nearest neighbor machine translation (kNN-MT). Our methods expand the search space of kNN-MT and help incorporate diverse words into candidates by addressing the overcorrection problem. Our experiments show that the proposed methods drastically improve candidate diversity and control the degree of diversity by tuning the perturbation's magnitude.
翻訳日:2024-02-15 14:22:10 公開日:2024-02-14
# 病変進展モニタリングのための縦椎ctの登録

Registration of Longitudinal Spine CTs for Monitoring Lesion Growth ( http://arxiv.org/abs/2402.09341v1 )

ライセンス: Link先を確認
Malika Sanhinova, Nazim Haouchine, Steve D. Pieper, William M. Wells III, Tracy A. Balboni, Alexander Spektor, Mai Anh Huynh, Jeffrey P. Guenette, Bryan Czajkowski, Sarah Caplan, Patrick Doyle, Heejoo Kang, David B. Hackney, Ron N. Alkalay(参考訳) 疾患進展と手術成績を評価するためには,縦軸画像の正確かつ確実な登録が不可欠である。 完全自動かつ頑健な登録の実施は臨床上重要であるが, 病変による形状や外観の大幅な変化により困難である。 本稿では,縦軸CTを自動調整し,病変進展を正確に評価する新しい手法を提案する。 本手法は, 深層学習モデルを用いて脊椎を自動局在させ, ラベル付けし, 3次元表面を生成し, ガウス混合モデル表面登録を用いて縦方向整列する2段階のパイプラインを追従する。 対象は5例から37例, 基本ctで3例, 6例, 12カ月の経過で111例であった。 実験では,平均オースドルフ距離0.65mm,平均サイススコア0.92で正確な登録を行った。

Accurate and reliable registration of longitudinal spine images is essential for assessment of disease progression and surgical outcome. Implementing a fully automatic and robust registration is crucial for clinical use, however, it is challenging due to substantial change in shape and appearance due to lesions. In this paper we present a novel method to automatically align longitudinal spine CTs and accurately assess lesion progression. Our method follows a two-step pipeline where vertebrae are first automatically localized, labeled and 3D surfaces are generated using a deep learning model, then longitudinally aligned using a Gaussian mixture model surface registration. We tested our approach on 37 vertebrae, from 5 patients, with baseline CTs and 3, 6, and 12 months follow-ups leading to 111 registrations. Our experiment showed accurate registration with an average Hausdorff distance of 0.65 mm and average Dice score of 0.92.
翻訳日:2024-02-15 14:21:56 公開日:2024-02-14
# 逆問題の解法に適したニューラルネットワーク漸近的行動

Neural Networks asymptotic behaviours suitable for the resolution of inverse problems ( http://arxiv.org/abs/2402.09338v1 )

ライセンス: Link先を確認
Luigi Del Debbio, Manuel Naviglio, Francesco Tarantelli(参考訳) 本稿では,畳み込み逆問題に対するニューラルネットワーク(NN)手法の有効性について検討する。 パラメータ非線型性が失われるガウス過程(GP)に対応するNNの漸近限界を考える。 これらの結果のGPを用いて、格子上のモンテカルロ法でシミュレートされた量子調和振動子の場合のデコンボリューション逆問題に対処する。 既知の分析解を持つシナリオ。 この結果から,完全連結NNによる逆転問題の解法は,NNの漸近的限界から得られるGPよりも性能が低いことが示唆された。 さらに,層幅の増大とともにgpsに接近するnnの訓練精度も観察した。 特に、これらのGPの1つは確率モデルとしての解釈を否定し、文献の確立された方法と比較して新しい視点を提供する。 さらに、nnsは漸近的な限界において、コスト効率の良い分析ソリューションを提供する。

In this paper, we perform a study on the effectiveness of Neural Network (NN) techniques for deconvolution inverse problems. We consider NN's asymptotic limits, corresponding to Gaussian Processes (GPs), where parameter non-linearities are lost. Using these resulting GPs, we address the deconvolution inverse problem in the case of a quantum harmonic oscillator simulated through Monte Carlo techniques on a lattice. A scenario with a known analytical solution. Our findings indicate that solving the deconvolution inverse problem with a fully connected NN yields less performing results than those obtained using the GPs derived from NN's asymptotic limits. Furthermore, we observe the trained NN's accuracy approaching that of GPs with increasing layer width. Notably, one of these GPs defies interpretation as a probabilistic model, offering a novel perspective compared to established methods in the literature. Additionally, the NNs, in their asymptotic limit, provide cost-effective analytical solutions.
翻訳日:2024-02-15 14:21:40 公開日:2024-02-14
# ランダムサムからの効率的なユニタリT-設計

Efficient Unitary T-designs from Random Sums ( http://arxiv.org/abs/2402.09335v1 )

ライセンス: Link先を確認
Chi-Fang Chen, Jordan Docter, Michelle Xu, Adam Bouland, Patrick Hayden(参考訳) unitary $t$-designsは量子情報において重要な役割を担っており、量子アルゴリズム、ベンチマーク、トモグラフィ、通信における様々な応用がある。 これまで、$n$-qudit系に対する1次$T$-designsの最も効率的な構成はランダムな局所量子回路であり、$O(T^{5+o(1)} n^2)$量子ゲートを用いてダイヤモンドノルム内の近似$T$-designsに収束することが示されている。 本研究では、$\tilde{O}(T^2 n^2)$量子ゲートを用いたランダム行列理論による$T$-設計の新しい構成を提供する。 我々の建設は二つの重要なアイデアを生かしている。 まず、中央極限定理の精神において、ランダムエルミート行列のi.i.d.和によってガウスユニタリアンサンブル(gue)を近似する。 第二に、2つの指数 gue 行列の積は、既におよそ haar ランダムであることを示す。 したがって、比較的単純なランダム行列に2つの指数和を乗算すると、ハミルトニアンシミュレーションを通じて一意的な$T$-設計が得られる。 我々の証明の中心的な特徴は、量子クエリ複雑性における多項式法とランダム行列理論における大次元(N$)展開との新たな接続である。 特に、多項式法は、複雑なワイナルテン計算を必要とせずに、あるランダム行列アンサンブルの高モーメント上の指数関数的に改良された境界を与えることを示す。 その際、単位円上の新しい種類のモーメント問題を定義し、解決し、単位行列の固有値に対応する等重み付き点の有限個数が与えられたモーメント集合を再現できるかどうかを問う。

Unitary $T$-designs play an important role in quantum information, with diverse applications in quantum algorithms, benchmarking, tomography, and communication. Until now, the most efficient construction of unitary $T$-designs for $n$-qudit systems has been via random local quantum circuits, which have been shown to converge to approximate $T$-designs in the diamond norm using $O(T^{5+o(1)} n^2)$ quantum gates. In this work, we provide a new construction of $T$-designs via random matrix theory using $\tilde{O}(T^2 n^2)$ quantum gates. Our construction leverages two key ideas. First, in the spirit of central limit theorems, we approximate the Gaussian Unitary Ensemble (GUE) by an i.i.d. sum of random Hermitian matrices. Second, we show that the product of just two exponentiated GUE matrices is already approximately Haar random. Thus, multiplying two exponentiated sums over rather simple random matrices yields a unitary $T$-design, via Hamiltonian simulation. A central feature of our proof is a new connection between the polynomial method in quantum query complexity and the large-dimension ($N$) expansion in random matrix theory. In particular, we show that the polynomial method provides exponentially improved bounds on the high moments of certain random matrix ensembles, without requiring intricate Weingarten calculations. In doing so, we define and solve a new type of moment problem on the unit circle, asking whether a finite number of equally weighted points, corresponding to eigenvalues of unitary matrices, can reproduce a given set of moments.
翻訳日:2024-02-15 14:21:24 公開日:2024-02-14
# auditllm: multiprobe アプローチによる大規模言語モデルの監査ツール

AuditLLM: A Tool for Auditing Large Language Models Using Multiprobe Approach ( http://arxiv.org/abs/2402.09334v1 )

ライセンス: Link先を確認
Maryam Amirizaniani, Tanya Roosta, Aman Chadha, Chirag Shah(参考訳) 大規模言語モデル(llm)がさまざまな状況で広く採用されるようになるにつれ、アプリケーションの安全性、一貫性、信頼性を確保することが重要になります。 調査や監査が必要かもしれない。 一つの質問の繰り返しの異なる LLM を求めると、その知識や機能の潜在的な矛盾が明らかになる。 しかし、単純なワークフローと低い技術閾値で監査を行うツールは欠落している。 本稿では,様々なLLMの性能を体系的に評価する新しいツールであるAuditLLMを紹介する。 AuditLLMのコア機能は、1つの質問から生成された複数のプローブを使って監査することで、与えられたLLMをテストする能力にある。 合理的に堅牢で信頼性があり、一貫性のあるllmは、質問に対して意味的に類似した応答を出力すべきである。 この仮定に基づいて、AuditLLM はユーザが入力した単一の質問から LLM の相補性について簡単に解釈可能な結果を生成する。 あるレベルの矛盾は潜在的なバイアス、幻覚、その他の問題の指標であることが示されている。 次に AuditLLM の出力を使用して、前述の LLM の問題をさらに調査することができる。 AuditLLM は,実時間クエリに対する応答を解析して LLM の即時監査を可能にするライブモードと,複数のクエリを同時に処理して詳細な分析を行う包括的 LLM 監査を容易にするバッチモードの2つのキーモードを提供する。 このツールは,標準監査プラットフォームを用いて,LLMの応答生成能力の理解を深めるため,研究者と一般ユーザ双方にとって有益である。

As Large Language Models (LLMs) gain wider adoption in various contexts, it becomes crucial to ensure they are reasonably safe, consistent, and reliable for an application at hand. This may require probing or auditing them. Probing LLMs with varied iterations of a single question could reveal potential inconsistencies in their knowledge or functionality. However, a tool for performing such audits with simple workflow and low technical threshold is lacking. In this demo, we introduce "AuditLLM," a novel tool designed to evaluate the performance of various LLMs in a methodical way. AuditLLM's core functionality lies in its ability to test a given LLM by auditing it using multiple probes generated from a single question, thereby identifying any inconsistencies in the model's understanding or operation. A reasonably robust, reliable, and consistent LLM should output semantically similar responses for a question asked differently or by different people. Based on this assumption, AuditLLM produces easily interpretable results regarding the LLM's consistencies from a single question that the user enters. A certain level of inconsistency has been shown to be an indicator of potential bias, hallucinations, and other issues. One could then use the output of AuditLLM to further investigate issues with the aforementioned LLM. To facilitate demonstration and practical uses, AuditLLM offers two key modes: (1) Live mode which allows instant auditing of LLMs by analyzing responses to real-time queries; (2) Batch mode which facilitates comprehensive LLM auditing by processing multiple queries at once for in-depth analysis. This tool is beneficial for both researchers and general users, as it enhances our understanding of LLMs' capabilities in generating responses, using a standardized auditing platform.
翻訳日:2024-02-15 14:20:54 公開日:2024-02-14
# Bosonic Pauli+: Concatenated Gottesman-Kitaev-Preskill Codesの効率的なシミュレーション

Bosonic Pauli+: Efficient Simulation of Concatenated Gottesman-Kitaev-Preskill Codes ( http://arxiv.org/abs/2402.09333v1 )

ライセンス: Link先を確認
Florian Hopfmueller, Maxime Tremblay, Philippe St-Jean, Baptiste Royer, Marc-Antoine Lemonde(参考訳) フォールトトレラントな量子誤り訂正への有望な経路は、Gottesman-Kitaev-Preskill (GKP) コードとキュービットコードとの結合である。 このような結合コードの開発には、多くのモードのダイナミクスをシミュレートしながら、ノイズをリアルにモデル化するシミュレーションツールが必要となる。 しかし、GKP符号を連結する大規模シミュレーションツールは、理想的なノイズモデルやGKP符号の実装に限られている。 本稿では、ボソニック多モードヒルベルト空間のリッチダイナミクスを捉えながら、多数のモードに対して効率的にシミュレーションできるボソニックポーリ+モデル(bp+)を紹介する。 本手法は,データ量子ビットが有限エネルギーGKP量子ビットで,小小(sBs)プロトコルで安定化され,シンドローム量子ビットが標準2レベルシステムであるようなハイブリッド曲面符号をシミュレートすることによって実証する。 BP+を用いて,そのような実装の論理誤差率を示す。 提案手法の精度の信頼性は,いくつかの関連する量子回路に対する実時間進化シミュレーションと比較することによって得られる。 sBsプロトコルを用いて安定化されたGKP量子ビットのために特別に開発されたが、BP+の数学的構造は汎用的であり、他のボソニック符号を用いた連結のシミュレーションにも適用できる。

A promising route towards fault-tolerant quantum error correction is the concatenation of a Gottesman-Kitaev-Preskill (GKP) code with a qubit code. Development of such concatenated codes requires simulation tools which realistically model noise, while being able to simulate the dynamics of many modes. However, so far, large-scale simulation tools for concatenated GKP codes have been limited to idealized noise models and GKP code implementations. Here, we introduce the Bosonic Pauli+ model (BP+), which can be simulated efficiently for a large number of modes, while capturing the rich dynamics in the bosonic multi-mode Hilbert space. We demonstrate the method by simulating a hybrid surface code, where the data qubits are finite-energy GKP qubits stabilized using the small-Big-small (sBs) protocol, and the syndrome qubits are standard two-level systems. Using BP+, we present logical error rates of such an implementation. Confidence in the accuracy of the method is gained by comparing its predictions with full time evolution simulations for several relevant quantum circuits. While developed specifically for GKP qubits stabilized using the sBs protocol, the mathematical structure of BP+ is generic and may be applicable also to the simulation of concatenations using other bosonic codes.
翻訳日:2024-02-15 14:20:25 公開日:2024-02-14
# rnaglibにおける3次元RNA機能予測ツール

3D-based RNA function prediction tools in rnaglib ( http://arxiv.org/abs/2402.09330v1 )

ライセンス: Link先を確認
Carlos Oliver, Vincent Mallet, J\'er\^ome Waldisp\"uhl(参考訳) RNAの構造的特徴と生物学的機能との関係を理解することは、進化学的研究とRNA設計における根本的な課題である。 しかし、rna 3d構造のデータセットの構築と適切なモデリングの選択は時間を要するままであり、標準化が欠如している。 本章では、RNA3D構造のデータセット上で、教師付きおよび教師なし機械学習に基づく関数予測モデルをトレーニングするためのrnaglibの使用について述べる。

Understanding the connection between complex structural features of RNA and biological function is a fundamental challenge in evolutionary studies and in RNA design. However, building datasets of RNA 3D structures and making appropriate modeling choices remains time-consuming and lacks standardization. In this chapter, we describe the use of rnaglib, to train supervised and unsupervised machine learning-based function prediction models on datasets of RNA 3D structures.
翻訳日:2024-02-15 14:20:01 公開日:2024-02-14
# 公式統計とサーベイ生産における機械学習におけるアルゴリズム的公平性と品質次元の連結

Connecting Algorithmic Fairness to Quality Dimensions in Machine Learning in Official Statistics and Survey Production ( http://arxiv.org/abs/2402.09328v1 )

ライセンス: Link先を確認
Patrick Oliver Schenk and Christoph Kern(参考訳) 国家統計機関(NSO)は、製品のタイムラインとコスト効率を改善するために、機械学習(ML)をますます重視している。 MLソリューションを導入する際、NSOは、堅牢性、再現性、正確性に関する高い標準が、例えば、Quality Framework for Statistical Algorithms (QF4SA; Yung et al. 2022) の定式化で守られなければならない。 同時に、成長する研究機関は、実際に異なる社会的影響を防ぐために、MLの安全な配置の前提条件として公正性に焦点を当てている。 しかし、NSOにおけるMLの適用の文脈における品質面として、公正性はまだ明確に議論されていない。 我々は,Yung et al. (2022)のQF4SA品質フレームワークを採用し,その品質次元をアルゴリズムフェアネスにマッピングする。 したがって、qf4saフレームワークをいくつかの方法で拡張する: 私たちは、フェアネスを独自の品質次元として議論し、フェアネスと他の次元との相互作用を調査し、データ自体と応用方法論との相互作用の両方で明示的に対処する。 実証図と並行して、我々のマッピングが公式統計学、アルゴリズムフェアネス、信頼できる機械学習の分野における方法論にどのように貢献できるかを示す。

National Statistical Organizations (NSOs) increasingly draw on Machine Learning (ML) to improve the timeliness and cost-effectiveness of their products. When introducing ML solutions, NSOs must ensure that high standards with respect to robustness, reproducibility, and accuracy are upheld as codified, e.g., in the Quality Framework for Statistical Algorithms (QF4SA; Yung et al. 2022). At the same time, a growing body of research focuses on fairness as a pre-condition of a safe deployment of ML to prevent disparate social impacts in practice. However, fairness has not yet been explicitly discussed as a quality aspect in the context of the application of ML at NSOs. We employ Yung et al. (2022)'s QF4SA quality framework and present a mapping of its quality dimensions to algorithmic fairness. We thereby extend the QF4SA framework in several ways: we argue for fairness as its own quality dimension, we investigate the interaction of fairness with other dimensions, and we explicitly address data, both on its own and its interaction with applied methodology. In parallel with empirical illustrations, we show how our mapping can contribute to methodology in the domains of official statistics, algorithmic fairness, and trustworthy machine learning.
翻訳日:2024-02-15 14:19:54 公開日:2024-02-14
# 確率凸最適化の情報複雑性:一般化と記憶への応用

Information Complexity of Stochastic Convex Optimization: Applications to Generalization and Memorization ( http://arxiv.org/abs/2402.09327v1 )

ライセンス: Link先を確認
Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel M. Roy(参考訳) 本研究では,emph{stochastic convex optimization} (sco) の文脈における記憶と学習の相互作用について検討する。 学習アルゴリズムが学習データポイントについて示す情報を介して記憶を定義する。 そこで我々は,Steinke と Zakynthinou (2020) が提唱した条件付き相互情報(CMI)の枠組みを用いて,この情報を定量化する。 我々の主な成果は、Livni (2023) が提示したオープンな質問に答え、学習アルゴリズムの精度と CMI とのトレードオフを正確に評価することである。 l^2$ lipschitz-bounded set と強い凸性の下で、過剰な誤差を持つすべての学習者は、cmi を $\omega(1/\varepsilon^2)$ と $\omega(1/\varepsilon)$ で割った値とする。 さらに,特定のSCO問題におけるトレーニングサンプルのかなりの割合を正確に識別できる敵を設計することで,SCOにおける学習問題における記憶機能の重要性を実証する。 最後に、CMIに基づく一般化境界の制限やSCO問題におけるサンプルの非圧縮など、結果のいくつかの意味を列挙する。

In this work, we investigate the interplay between memorization and learning in the context of \emph{stochastic convex optimization} (SCO). We define memorization via the information a learning algorithm reveals about its training data points. We then quantify this information using the framework of conditional mutual information (CMI) proposed by Steinke and Zakynthinou (2020). Our main result is a precise characterization of the tradeoff between the accuracy of a learning algorithm and its CMI, answering an open question posed by Livni (2023). We show that, in the $L^2$ Lipschitz--bounded setting and under strong convexity, every learner with an excess error $\varepsilon$ has CMI bounded below by $\Omega(1/\varepsilon^2)$ and $\Omega(1/\varepsilon)$, respectively. We further demonstrate the essential role of memorization in learning problems in SCO by designing an adversary capable of accurately identifying a significant fraction of the training samples in specific SCO problems. Finally, we enumerate several implications of our results, such as a limitation of generalization bounds based on CMI and the incompressibility of samples in SCO problems.
翻訳日:2024-02-15 14:19:30 公開日:2024-02-14
# 不確かさ予測付きランキングの安定性と多群公正性

Stability and Multigroup Fairness in Ranking with Uncertain Predictions ( http://arxiv.org/abs/2402.09326v1 )

ライセンス: Link先を確認
Siddartha Devic, Aleksandra Korolova, David Kempe, Vatsal Sharan(参考訳) ランキングは、検索エンジンから採用委員会まで、多くのアプリケーションで広く使われている。 実際には、多くのランキングは予測子の出力から導かれる。 しかしながら、分類タスクに訓練された予測者が本質的不確実性を持つ場合、この不確実性が導出されたランキングにおいてどのように表現されるべきかは明らかではない。 我々の研究はランキング関数について考察している。分類タスクの個々の予測からランキング上の分布へのマップ。 ランキング関数の2つの側面、すなわち予測における摂動に対する安定性と、個人とサブグループの両方に対する公正性に焦点を当てる。 安定性は自身の目的にとって重要な要件であるだけでなく、Dwork et al. (2012) という意味において、個人の公正さと調和して構成される。 決定論的ランキング関数は自明なシナリオを除いては安定できないが、最近提案されたsingh et al. (2021) の不確実性認識(ua)ランキング関数は安定であることを示す。 我々の主な成果は、UAランキングがマルチ精度またはマルチキャリブレーション予測器を用いた構成を成功させることで、マルチグループフェアネスを達成することである。 我々の研究は、UAランキングがグループと個人レベルの公正性の保証を自然に補間し、同時にマシン学習予測が使われるたびに安定性の保証を満足することを示した。

Rankings are ubiquitous across many applications, from search engines to hiring committees. In practice, many rankings are derived from the output of predictors. However, when predictors trained for classification tasks have intrinsic uncertainty, it is not obvious how this uncertainty should be represented in the derived rankings. Our work considers ranking functions: maps from individual predictions for a classification task to distributions over rankings. We focus on two aspects of ranking functions: stability to perturbations in predictions and fairness towards both individuals and subgroups. Not only is stability an important requirement for its own sake, but -- as we show -- it composes harmoniously with individual fairness in the sense of Dwork et al. (2012). While deterministic ranking functions cannot be stable aside from trivial scenarios, we show that the recently proposed uncertainty aware (UA) ranking functions of Singh et al. (2021) are stable. Our main result is that UA rankings also achieve multigroup fairness through successful composition with multiaccurate or multicalibrated predictors. Our work demonstrates that UA rankings naturally interpolate between group and individual level fairness guarantees, while simultaneously satisfying stability guarantees important whenever machine-learned predictions are used.
翻訳日:2024-02-15 14:19:04 公開日:2024-02-14
# PC-NeRF:自律走行環境におけるスパースLiDARフレームを用いた親子ニューラルラジアンスフィールド

PC-NeRF: Parent-Child Neural Radiance Fields Using Sparse LiDAR Frames in Autonomous Driving Environments ( http://arxiv.org/abs/2402.09325v1 )

ライセンス: Link先を確認
Xiuzhong Hu, Guangming Xiong, Zheng Zang, Peng Jia, Yuxuan Han, Junyi Ma(参考訳) 大規模な3Dシーンの再構築と新しいビュー合成は、特に時間的に狭いLiDARフレームを利用する自動運転車にとって不可欠である。 しかし、従来の明示的な表現は、再構成されたシーンと合成シーンを無限の解像度で表現するための重要なボトルネックである。 最近開発されたNeRF(Near Raddiance Field)は、暗黙の表現において魅力的な結果を示しているが、大規模な3次元シーン再構成と、スパースLiDARフレームを用いた新しいビュー合成の問題は、まだ解明されていない。 このギャップを埋めるために,親子ニューラルレイディアンス場(PC-NeRF)と呼ばれる3次元シーン再構成と新しいビュー合成フレームワークを提案する。 親のNeRFと子NeRFの2つのモジュールに基づいて、このフレームワークは階層的な空間分割と、シーン、セグメント、ポイントレベルを含む複数レベルのシーン表現を実装している。 マルチレベルシーン表現は、疎LiDAR点クラウドデータの効率的な利用を促進し、近似体積シーン表現の迅速な取得を可能にする。 広範にわたる実験により,PC-NeRFは大規模シーンにおける高精度なLiDARビュー合成と3次元再構成を実現することが証明された。 さらに、PC-NeRFは、疎LiDARフレームによる状況の処理を効果的に行うことができ、限られた訓練エポックで高いデプロイメント効率を示すことができる。 私たちのアプローチ実装と事前トレーニングされたモデルは、https://github.com/biter0088/pc-nerfで利用可能です。

Large-scale 3D scene reconstruction and novel view synthesis are vital for autonomous vehicles, especially utilizing temporally sparse LiDAR frames. However, conventional explicit representations remain a significant bottleneck towards representing the reconstructed and synthetic scenes at unlimited resolution. Although the recently developed neural radiance fields (NeRF) have shown compelling results in implicit representations, the problem of large-scale 3D scene reconstruction and novel view synthesis using sparse LiDAR frames remains unexplored. To bridge this gap, we propose a 3D scene reconstruction and novel view synthesis framework called parent-child neural radiance field (PC-NeRF). Based on its two modules, parent NeRF and child NeRF, the framework implements hierarchical spatial partitioning and multi-level scene representation, including scene, segment, and point levels. The multi-level scene representation enhances the efficient utilization of sparse LiDAR point cloud data and enables the rapid acquisition of an approximate volumetric scene representation. With extensive experiments, PC-NeRF is proven to achieve high-precision novel LiDAR view synthesis and 3D reconstruction in large-scale scenes. Moreover, PC-NeRF can effectively handle situations with sparse LiDAR frames and demonstrate high deployment efficiency with limited training epochs. Our approach implementation and the pre-trained models are available at https://github.com/biter0088/pc-nerf.
翻訳日:2024-02-15 14:18:40 公開日:2024-02-14
# icdpo: 文脈内直接選好最適化による他者のアライメント能力の有効活用

ICDPO: Effectively Borrowing Alignment Capability of Others via In-context Direct Preference Optimization ( http://arxiv.org/abs/2402.09320v1 )

ライセンス: Link先を確認
Feifan Song, Yuxuan Fan, Xin Zhang, Peiyi Wang, Houfeng Wang(参考訳) LLM(Large Language Models)は、安全なコンテンツの生成を保証するためにHPA(Human Preference Alignment)に依存している。 微調整にまつわる重厚なコストのため、細調整不要な手法が出現し、通常は外部補助法でLCMデコードを変更する。 しかし、これらの手法はLLM自体を本質的に強化するものではない。 本稿では,DPO の導出手順を再考し,インコンテクスト学習(ICL)の前後で LLM の状態を用いて即時スコアラーを構築する。 そこで本研究では,In-Context Direct Preference Optimization (ICDPO) と呼ばれる新しい手法を提案する。 これにより、ILCにより優れたLCMからHPA機能を借用し、上記のインスタントスコアラによって推定される、整列された応答を生成し、最終的な性能を向上させることができる。 ICDPOは2段レトリバーとアップグレードされたスコアラーでさらに強化できる。 大規模な実験では、特に2つの微調整のないベースラインを上回り、SFT + LoRAとの競争力を示す。 ICDPOに関する総合的な洞察を提供するための詳細な分析も行います。

Large Language Models (LLMs) rely on Human Preference Alignment (HPA) to ensure the generation of safe content. Due to the heavy cost associated with fine-tuning, fine-tuning-free methods have emerged, typically modifying LLM decoding with external auxiliary methods. However, these methods do not essentially enhance the LLM itself. In this paper, we rethink the derivation procedures of DPO, based on which we conversely build an instant scorer using the states of the LLM before and after In-context Learning (ICL). Accordingly, we propose a novel approach called In-Context Direct Preference Optimization (ICDPO). It enables LLMs to borrow the HPA capabilities from superior LLMs with ICL, generating well-aligned responses as estimated by the aforementioned instant scorer, thereby enhancing the final performance. ICDPO can be further enhanced with a two-stage retriever and an upgraded scorer, both offering benefits. Extensive experiments show its effectiveness, particularly in outperforming two fine-tuning-free baselines, and it exhibits competitiveness with SFT + LoRA. We also conduct detailed analyses to offer comprehensive insights into ICDPO.
翻訳日:2024-02-15 14:18:15 公開日:2024-02-14
# 音楽オーディオの解釈可能なプロトタイプ学習のための事前学習オートエンコーダの活用

Leveraging Pre-Trained Autoencoders for Interpretable Prototype Learning of Music Audio ( http://arxiv.org/abs/2402.09318v1 )

ライセンス: Link先を確認
Pablo Alonso-Jim\'enez and Leonardo Pepino and Roser Batlle-Roca and Pablo Zinemanas and Dmitry Bogdanov and Xavier Serra and Mart\'in Rocamora(参考訳) プロトタイプ学習に基づく音楽音声分類のための解釈モデルであるpecmaeを提案する。 我々のモデルは,オートエンコーダとプロトタイプネットワークを共同で学習する先行手法であるAPNetに基づいている。 代わりに、両方のトレーニングプロセスを分離することを提案する。 これにより、ずっと大きなデータ(encodecmae)で事前トレーニングされた既存の自己教師付きオートエンコーダを活用でき、表現をより一般化できます。 APNetは、最も近いトレーニングデータサンプルに依存する解釈可能性のための波形へのプロトタイプの再構築を可能にする。 対照的に,そのような依存を伴わずに再構成が可能な拡散デコーダを用いて検討する。 本研究では,楽器分類のためのデータセット (medley-solos-db) とジャンル認識 (gtzan and a large in-house dataset) について評価を行った。 プロトタイプベースのモデルはオートエンコーダ埋め込みによって達成されたパフォーマンスの大部分を維持しているのに対し,プロトタイプのソニフィケーションは分類器の振る舞いを理解するのに役立つ。

We present PECMAE, an interpretable model for music audio classification based on prototype learning. Our model is based on a previous method, APNet, which jointly learns an autoencoder and a prototypical network. Instead, we propose to decouple both training processes. This enables us to leverage existing self-supervised autoencoders pre-trained on much larger data (EnCodecMAE), providing representations with better generalization. APNet allows prototypes' reconstruction to waveforms for interpretability relying on the nearest training data samples. In contrast, we explore using a diffusion decoder that allows reconstruction without such dependency. We evaluate our method on datasets for music instrument classification (Medley-Solos-DB) and genre recognition (GTZAN and a larger in-house dataset), the latter being a more challenging task not addressed with prototypical networks before. We find that the prototype-based models preserve most of the performance achieved with the autoencoder embeddings, while the sonification of prototypes benefits understanding the behavior of the classifier.
翻訳日:2024-02-15 14:17:53 公開日:2024-02-14
# 私のデータ上の私のモデルのみ:1つのモデルを保護し、不正なブラックボックスモデルを欺くプライバシー保護アプローチ

Only My Model On My Data: A Privacy Preserving Approach Protecting one Model and Deceiving Unauthorized Black-Box Models ( http://arxiv.org/abs/2402.09316v1 )

ライセンス: Link先を確認
Weiheng Chai, Brian Testa, Huantao Ren, Asif Salekin, Senem Velipasalar(参考訳) ディープニューラルネットワークは、プライバシとデータ保護が重要である顔認識や医療画像分類といった現実世界のタスクに広く適用されている。 画像データは保護されていない場合、個人情報や文脈情報を推測するために利用することができる。 暗号化のような既存のプライバシー保護手法は、人間にも認識できない乱雑な画像を生成する。 敵対的攻撃アプローチは、認可された利害関係者に対しても自動推論を禁止し、商業的かつ広く適応するための実用的なインセンティブを制限する。 この先駆的な研究は、承認されたモデルによる正確な推論を維持しつつ、類似または異なる目的の他の許可されていないブラックボックスモデルを回避し、以前の研究ギャップに対処することによって、探索されていない実用的なプライバシー保護ユースケースに取り組む。 使用されるデータセットはイメージ分類用のImageNet、アイデンティティ分類用のCeleba-HQデータセット、感情分類用のAffectNetである。 その結果、生成された画像は保護されたモデルの精度を維持し、不正なブラックボックスモデルの平均精度を、imagenet, celeba-hq, affectnetデータセット上でそれぞれ11.97%, 6.63%, 55.51%に低下させることができた。

Deep neural networks are extensively applied to real-world tasks, such as face recognition and medical image classification, where privacy and data protection are critical. Image data, if not protected, can be exploited to infer personal or contextual information. Existing privacy preservation methods, like encryption, generate perturbed images that are unrecognizable to even humans. Adversarial attack approaches prohibit automated inference even for authorized stakeholders, limiting practical incentives for commercial and widespread adaptation. This pioneering study tackles an unexplored practical privacy preservation use case by generating human-perceivable images that maintain accurate inference by an authorized model while evading other unauthorized black-box models of similar or dissimilar objectives, and addresses the previous research gaps. The datasets employed are ImageNet, for image classification, Celeba-HQ dataset, for identity classification, and AffectNet, for emotion classification. Our results show that the generated images can successfully maintain the accuracy of a protected model and degrade the average accuracy of the unauthorized black-box models to 11.97%, 6.63%, and 55.51% on ImageNet, Celeba-HQ, and AffectNet datasets, respectively.
翻訳日:2024-02-15 14:17:37 公開日:2024-02-14
# RibFrac チャレンジにおける CT からの深部断裂の分離と分類

Deep Rib Fracture Instance Segmentation and Classification from CT on the RibFrac Challenge ( http://arxiv.org/abs/2402.09372v1 )

ライセンス: Link先を確認
Jiancheng Yang, Rui Shi, Liang Jin, Xiaoyang Huang, Kaiming Kuang, Donglai Wei, Shixuan Gu, Jianying Liu, Pengfei Liu, Zhizhong Chai, Yongjie Xiao, Hao Chen, Liming Xu, Bang Du, Xiangyi Yan, Hao Tang, Adam Alessio, Gregory Holste, Jiapeng Zhang, Xiaoming Wang, Jianye He, Lixuan Che, Hanspeter Pfister, Ming Li, Bingbing Ni(参考訳) リブ骨折は一般的な重傷であり、CTスキャンで診断するのに困難で労力がかかる可能性がある。 この分野への取り組みはあったが、大規模な注釈付きデータセットと評価ベンチマークの欠如は、ディープラーニングアルゴリズムの開発と検証を妨げている。 この問題に対処するために、voxelレベルのインスタンスマスクアノテーションと4つの臨床カテゴリ(buckle、nondisplaced、displaced、segmental)のための診断ラベルを備えた、660のctスキャンから5,000以上のリブ骨折のベンチマークデータセットを提供する、ribfrac challengeが導入された。 この課題には、FROC方式で評価された検出(インスタンスセグメンテーション)トラックとF1方式で評価された分類トラックの2つのトラックが含まれる。 MICCAI 2020チャレンジ期間中に243つの結果が評価され、7つのチームがチャレンジサマリーに参加するために招待された。 この分析により、いくつかのトップリブ骨折検出ソリューションが、人間の専門家と同等かそれ以上の性能を達成したことが明らかになった。 それにもかかわらず、現在のリブ骨折分類法は臨床応用がほとんどなく、将来的には興味深い分野となる可能性がある。 アクティブなベンチマークと調査リソースとして、RibFrac Challengeのデータとオンライン評価がチャレンジウェブサイトで公開されている。 独立した貢献として,大規模事前学習ネットワークやポイントベースリブセグメンテーション手法の最近の進歩を取り入れ,これまでの内部ベースラインを拡張した。 結果として得られたFracNet+は、リブ骨折検出における競合性能を示し、AI支援リブ骨折の検出と診断のさらなる研究と開発の基礎となる。

Rib fractures are a common and potentially severe injury that can be challenging and labor-intensive to detect in CT scans. While there have been efforts to address this field, the lack of large-scale annotated datasets and evaluation benchmarks has hindered the development and validation of deep learning algorithms. To address this issue, the RibFrac Challenge was introduced, providing a benchmark dataset of over 5,000 rib fractures from 660 CT scans, with voxel-level instance mask annotations and diagnosis labels for four clinical categories (buckle, nondisplaced, displaced, or segmental). The challenge includes two tracks: a detection (instance segmentation) track evaluated by an FROC-style metric and a classification track evaluated by an F1-style metric. During the MICCAI 2020 challenge period, 243 results were evaluated, and seven teams were invited to participate in the challenge summary. The analysis revealed that several top rib fracture detection solutions achieved performance comparable or even better than human experts. Nevertheless, the current rib fracture classification solutions are hardly clinically applicable, which can be an interesting area in the future. As an active benchmark and research resource, the data and online evaluation of the RibFrac Challenge are available at the challenge website. As an independent contribution, we have also extended our previous internal baseline by incorporating recent advancements in large-scale pretrained networks and point-based rib segmentation techniques. The resulting FracNet+ demonstrates competitive performance in rib fracture detection, which lays a foundation for further research and development in AI-assisted rib fracture detection and diagnosis.
翻訳日:2024-02-15 14:11:14 公開日:2024-02-14
# トランスフォーマーは長さ一般化はできるが頑健ではない

Transformers Can Achieve Length Generalization But Not Robustly ( http://arxiv.org/abs/2402.09371v1 )

ライセンス: Link先を確認
Yongchao Zhou, Uri Alon, Xinyun Chen, Xuezhi Wang, Rishabh Agarwal, Denny Zhou(参考訳) 長さ一般化は、短いトレーニングシーケンスから長いテストシーケンスに外挿する能力として定義されており、言語モデルにとって重要な課題である。 この問題は、比較的簡単なタスクを扱う大規模トランスフォーマーでも継続する。 本論文では,2つの整数を加算するタスクを用いて,トランスフォーマーの長さ一般化能力をテストする。 長さ一般化の成功は,データ形式や位置エンコーディングのタイプと密接に関連していることを示す。 データフォーマットと位置エンコーディングの正しい組み合わせを用いて、標準トランスフォーマーが入力長さの2.5倍のシーケンス長まで外挿可能であることを初めて示す。 それにもかかわらず、分布内一般化とは異なり、長さ一般化は脆弱であり、ランダムウェイト初期化やトレーニングデータ順序などの要因の影響が大きく、異なるランダムシードにまたがる大きなばらつきをもたらす。

Length generalization, defined as the ability to extrapolate from shorter training sequences to longer test ones, is a significant challenge for language models. This issue persists even with large-scale Transformers handling relatively straightforward tasks. In this paper, we test the Transformer's ability of length generalization using the task of addition of two integers. We show that the success of length generalization is intricately linked to the data format and the type of position encoding. Using the right combination of data format and position encodings, we show for the first time that standard Transformers can extrapolate to a sequence length that is 2.5x the input length. Nevertheless, unlike in-distribution generalization, length generalization remains fragile, significantly influenced by factors like random weight initialization and training data order, leading to large variances across different random seeds.
翻訳日:2024-02-15 14:10:43 公開日:2024-02-14
# pseudorandomエラー訂正符号

Pseudorandom Error-Correcting Codes ( http://arxiv.org/abs/2402.09370v1 )

ライセンス: Link先を確認
Miranda Christ, Sam Gunn(参考訳) 疑似乱数訂正符号(または単に疑似乱数符号)は、任意の多項式数の符号語が任意の計算境界付き逆数に対して疑似乱数である性質を持つ誤り訂正符号である。 破損したコードワードの効率的なデコーディングは、デコードキーの助けを借りて可能である。 疑似ランダム性は標準的な暗号的仮定に依存するため、置換や削除エラーに対して堅牢な擬似ランダム性コードを構築します。 具体的には、擬似ランダム性は、LPNの$2^{O(\sqrt{n})}$-hardnessまたはLPNの多項式硬度と、低密度で植え付けられたXOR問題に基づいている。 擬似乱数符号の一次適用として、収穫に頑健な言語モデルの出力に対する検出不能な透かし方式と、ランダムな置換や削除の一定率を示す。 この透かしは、透かし付きテキストのサンプル数が元のモデルで出力されたテキストと計算的に区別できないという意味では検出できない。 これは、一定の誤差率を許容できる最初の検出不能な透かしスキームである。 第2の応用はステガノグラフィーで、秘密のメッセージが無実のコンテンツに隠されている。 本稿では,定数置換率に対するロバスト性を有する定常レートステートレスステガノグラフィスキームを提案する。 oursは、証明可能なステガノグラフィーセキュリティとエラーに対する堅牢性を備えた、最初のステートレスステガノグラフィースキームである。

We construct pseudorandom error-correcting codes (or simply pseudorandom codes), which are error-correcting codes with the property that any polynomial number of codewords are pseudorandom to any computationally-bounded adversary. Efficient decoding of corrupted codewords is possible with the help of a decoding key. We build pseudorandom codes that are robust to substitution and deletion errors, where pseudorandomness rests on standard cryptographic assumptions. Specifically, pseudorandomness is based on either $2^{O(\sqrt{n})}$-hardness of LPN, or polynomial hardness of LPN and the planted XOR problem at low density. As our primary application of pseudorandom codes, we present an undetectable watermarking scheme for outputs of language models that is robust to cropping and a constant rate of random substitutions and deletions. The watermark is undetectable in the sense that any number of samples of watermarked text are computationally indistinguishable from text output by the original model. This is the first undetectable watermarking scheme that can tolerate a constant rate of errors. Our second application is to steganography, where a secret message is hidden in innocent-looking content. We present a constant-rate stateless steganography scheme with robustness to a constant rate of substitutions. Ours is the first stateless steganography scheme with provable steganographic security and any robustness to errors.
翻訳日:2024-02-15 14:10:30 公開日:2024-02-14
# 多文化的知識獲得とlmベンチマーク

Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking ( http://arxiv.org/abs/2402.09369v1 )

ライセンス: Link先を確認
Yi Fung, Ruining Zhao, Jae Doo, Chenkai Sun, Heng Ji(参考訳) 事前訓練された大きな言語モデルは、多くの応用に革命をもたらしたが、文化的な偏見と文化的なコモンセンス知識の欠如が、異文化間のコミュニケーションと相互作用を導く上で重要な課題に直面している。 世界中の多様で豊かな文化をとらえる既存の手法の欠点を認識し,多文化的知識獲得のための新たなアプローチを提案する。 具体的には,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。 この貴重なデータ収集の源泉を活用し、広範にわたる地域レベルの地理的地域と民族言語学グループをカバーするc cultureatlasデータセットを構築し、テキストによるアサーション文の自己完結を確実にするためのデータクリーニングと前処理を行い、文化的なプロファイル情報抽出を行う。 私たちのデータセットは、文化的に多様なコンテキストにおける言語モデルのパフォーマンスの評価を促進するだけでなく、文化的にセンシティブな言語モデルの開発のための基礎的なツールとしても機能します。 我々の研究は、デジタルドメインにおけるグローバル文化のより包括的でバランスのとれた表現を促進するために、AIにおける文化格差のギャップを深く理解し、ブリッジする重要なステップである。

Pretrained large language models have revolutionized many applications but still face challenges related to cultural bias and a lack of cultural commonsense knowledge crucial for guiding cross-culture communication and interactions. Recognizing the shortcomings of existing methods in capturing the diverse and rich cultures across the world, this paper introduces a novel approach for massively multicultural knowledge acquisition. Specifically, our method strategically navigates from densely informative Wikipedia documents on cultural topics to an extensive network of linked pages. Leveraging this valuable source of data collection, we construct the CultureAtlas dataset, which covers a wide range of sub-country level geographical regions and ethnolinguistic groups, with data cleaning and preprocessing to ensure textual assertion sentence self-containment, as well as fine-grained cultural profile information extraction. Our dataset not only facilitates the evaluation of language model performance in culturally diverse contexts but also serves as a foundational tool for the development of culturally sensitive and aware language models. Our work marks an important step towards deeper understanding and bridging the gaps of cultural disparities in AI, to promote a more inclusive and balanced representation of global cultures in the digital domain.
翻訳日:2024-02-15 14:10:04 公開日:2024-02-14
# Magic-Me: アイデンティティに特化したビデオカスタマイズ拡散

Magic-Me: Identity-Specific Video Customized Diffusion ( http://arxiv.org/abs/2402.09368v1 )

ライセンス: Link先を確認
Ze Ma, Daquan Zhou, Chun-Hsiao Yeh, Xue-She Wang, Xiuyu Li, Huanrui Yang, Zhen Dong, Kurt Keutzer, Jiashi Feng(参考訳) 特定のアイデンティティ(ID)のためのコンテンツを作成することは、生成モデル分野に大きな関心を示している。 text-to-image generation(t2i)の分野では、画像制御可能なidで主題駆動コンテンツ生成が大きな進歩を遂げている。 しかし、ビデオ生成への拡張は十分に検討されていない。 本稿では,VCD(Video Custom Diffusion)と呼ばれる,シンプルで効果的な対象識別制御可能なビデオ生成フレームワークを提案する。 いくつかの画像で定義された特定対象IDを用いて、VCDは、識別情報抽出を強化し、初期化段階でフレームワイズ相関を注入し、安定した映像出力とアイデンティティを大量に保持する。 そこで本稿では,高品質なid保存に不可欠な3つの新しいコンポーネントを提案する。 1) より正確なIDトークン学習のために、ID情報とバックグラウンドノイズをアンタングルするために、素早い隔離により、収穫されたIDで訓練されたIDモジュール 2) フレーム間の整合性の向上と3次元ガウスノイズを用いたテキスト・ツー・ビデオ(T2V)VCDモジュール 3) ビデオ・トゥ・ビデオ(V2V) Face VCDとTiled VCDモジュールは、高解像度で映像をアップスケールする。 その単純さにもかかわらず、我々はVCDが選択された強力なベースラインよりも優れたIDで安定かつ高品質なビデオを生成することができることを検証するために広範な実験を行った。 さらに、IDモジュールの転送性のため、VCDは、パブリックで利用可能な微調整されたテキスト・ツー・イメージモデルでもうまく機能し、ユーザビリティをさらに向上しています。 コードはhttps://github.com/Zhen-Dong/Magic-Meで入手できる。

Creating content for a specific identity (ID) has shown significant interest in the field of generative models. In the field of text-to-image generation (T2I), subject-driven content generation has achieved great progress with the ID in the images controllable. However, extending it to video generation is not well explored. In this work, we propose a simple yet effective subject identity controllable video generation framework, termed Video Custom Diffusion (VCD). With a specified subject ID defined by a few images, VCD reinforces the identity information extraction and injects frame-wise correlation at the initialization stage for stable video outputs with identity preserved to a large extent. To achieve this, we propose three novel components that are essential for high-quality ID preservation: 1) an ID module trained with the cropped identity by prompt-to-segmentation to disentangle the ID information and the background noise for more accurate ID token learning; 2) a text-to-video (T2V) VCD module with 3D Gaussian Noise Prior for better inter-frame consistency and 3) video-to-video (V2V) Face VCD and Tiled VCD modules to deblur the face and upscale the video for higher resolution. Despite its simplicity, we conducted extensive experiments to verify that VCD is able to generate stable and high-quality videos with better ID over the selected strong baselines. Besides, due to the transferability of the ID module, VCD is also working well with finetuned text-to-image models available publically, further improving its usability. The codes are available at https://github.com/Zhen-Dong/Magic-Me.
翻訳日:2024-02-15 14:09:41 公開日:2024-02-14
# 深部畳み込みニューラルネットワークを用いた顕微鏡画像からの活性汚泥沈降特性の予測と伝達学習

Prediction of Activated Sludge Settling Characteristics from Microscopy Images with Deep Convolutional Neural Networks and Transfer Learning ( http://arxiv.org/abs/2402.09367v1 )

ライセンス: Link先を確認
Sina Borzooei, Leonardo Scabini, Gisele Miranda, Saba Daneshgar, Lukas Deblieck, Piet De Langhe, Odemir Bruno, Bernard De Baets, Ingmar Nopens, Elena Torfs(参考訳) 微生物群集は生物排水処理プロセスにおいて重要な役割を果たしている。 例えば, 活性汚泥沈降特性は, 微生物群集組成の影響を受け, 運転条件の変化と排水処理プラント(WWTP)の流動特性に左右される。 フィラメントバルクリング(fb)などの沈着問題につながる微生物組成の変化のタイムリーな評価と予測は、運用上の課題、治療効率の低下、環境影響の悪影響を防ぐことができる。 本研究では, 顕微鏡画像におけるフロックとフィラメントの形態特性に基づいて, 活性汚泥沈降特性を評価するための革新的なコンピュータビジョンに基づくアプローチを提案する。 深層畳み込みニューラルネットワーク(CNN)モデルの伝達学習の実装により,既存の定量的画像解析技術の限界を克服することを目的とした。 オフラインの顕微鏡画像データセットは2年間にわたって収集され、ベルギーのフルスケールのWWTPで毎週サンプリングされた。 cnnモデルの一般化性を高めるために複数のデータ拡張技術が採用された。 Inception v3, ResNet18, ResNet152, ConvNeXt-nano, ConvNeXt-S などのCNNアーキテクチャを用いて, 汚泥沈降特性の評価を行った。 スラッジ容積指数は最終予測変数として用いられたが、他の任意の定位指標を予測するために容易に調整できる。 その結果、提案したCNNベースのアプローチは、労働集約的、客観的、一貫した評価を減らし、トランスファーラーニングはトレーニングフェーズを特に小さくし、その結果、リアルタイムアプリケーションに適用可能な一般化可能なシステムとなった。

Microbial communities play a key role in biological wastewater treatment processes. Activated sludge settling characteristics, for example, are affected by microbial community composition, varying by changes in operating conditions and influent characteristics of wastewater treatment plants (WWTPs). Timely assessment and prediction of changes in microbial composition leading to settling problems, such as filamentous bulking (FB), can prevent operational challenges, reductions in treatment efficiency, and adverse environmental impacts. This study presents an innovative computer vision-based approach to assess activated sludge-settling characteristics based on the morphological properties of flocs and filaments in microscopy images. Implementing the transfer learning of deep convolutional neural network (CNN) models, this approach aims to overcome the limitations of existing quantitative image analysis techniques. The offline microscopy image dataset was collected over two years, with weekly sampling at a full-scale industrial WWTP in Belgium. Multiple data augmentation techniques were employed to enhance the generalizability of the CNN models. Various CNN architectures, including Inception v3, ResNet18, ResNet152, ConvNeXt-nano, and ConvNeXt-S, were tested to evaluate their performance in predicting sludge settling characteristics. The sludge volume index was used as the final prediction variable, but the method can easily be adjusted to predict any other settling metric of choice. The results showed that the suggested CNN-based approach provides less labour-intensive, objective, and consistent assessments, while transfer learning notably minimises the training phase, resulting in a generalizable system that can be employed in real-time applications.
翻訳日:2024-02-15 14:09:12 公開日:2024-02-14
# 慣性の起源についての一考察

A Note on the Origin of Inertia ( http://arxiv.org/abs/2402.09365v1 )

ライセンス: Link先を確認
A. Schlatter, R. E. Kastner(参考訳) 物質の慣性的性質がどこから来るのかという疑問は長い間解かれてきた。 アイザック・ニュートンは慣性が物質の本質的性質であると考えた。 エルンスト・マッハは、体の慣性は宇宙の他の部分との相互作用に由来するという異なる見解を持っていた。 この考え方は今日、マッハの原理として知られている。 本稿では、トランザクションによって引き起こされる量子事象の物理により最近開発されたエントロピー重力プログラムの完了であるトランザクショナル重力に基づくマッハの原理について論じる。 解析の結果は、重力定数 G と因果宇宙の全体質量の基本的な関係であり、エントロピック原理によって導かれる。

The question of where the inertial properties of matter come from has been open for a long time. Isaac Newton considered inertia an intrinsic property of matter. Ernst Mach held a different view whereby the inertia of a body comes from its interaction with the rest of the universe. This idea is known today as Mach's principle. We discuss Mach's principle based on transactional gravity, the recently developed completion of the entropic gravity program by the physics of quantum events induced by transactions. A consequence of the analysis is a fundamental relation between the gravitational constant G and the total mass in the causal universe, derived by means of entropic principles.
翻訳日:2024-02-15 14:08:42 公開日:2024-02-14
# 大規模言語モデルにおける著作権トラップ

Copyright Traps for Large Language Models ( http://arxiv.org/abs/2402.09363v1 )

ライセンス: Link先を確認
Matthieu Meeus, Igor Shilov, Manuel Faysse and Yves-Alexandre de Montjoye(参考訳) 著作権保護コンテンツを使って大規模言語モデル(llm)を訓練する質問は非常に活発に議論されている。 トレーニング中にコンテンツが見られたかどうかをブラックボックスからトレーニングされたモデルに推論する。 しかし、SOTA法はコンテンツの一部を自然に記憶することに依存する。 多くを記憶するモデルに対して非常に効果的だが、中型の1bモデルのように、自然に記憶しないモデルでは動作しない、と仮説を立てている。 本論文では,著作権トラップ(オリジナルコンテンツに虚偽のエントリを含む)を用いてllmにおける著作権物質の使用を検知し,記憶が自然に起こらないモデルに焦点をあてる。 我々は、実験的なセットアップを慎重に設計し、トラップをオリジナルコンテンツ(書籍)にランダムに挿入し、1.3B LLMを訓練する。 まず,対象モデルにおけるコンテンツの使用が既存の手法では検出できないことを検証した。 直観とは対照的に,従来の手法では,中長のトラップ文の繰り返し(100)が検出できないことが示される。 しかし,複数回繰り返す長いシーケンスを確実に検出でき(AUC=0.75),著作権トラップとして利用できることを示す。 さらに, シーケンスの回数が検出可能性をどのように改善するか, パープレキシティの高いシーケンスをより記憶しやすくするか, コンテキストを考慮した場合の検出性の向上について検討した。

Questions of fair use of copyright-protected content to train Large Language Models (LLMs) are being very actively debated. Document-level inference has been proposed as a new task: inferring from black-box access to the trained model whether a piece of content has been seen during training. SOTA methods however rely on naturally occurring memorization of (part of) the content. While very effective against models that memorize a lot, we hypothesize--and later confirm--that they will not work against models that do not naturally memorize, e.g. medium-size 1B models. We here propose to use copyright traps, the inclusion of fictitious entries in original content, to detect the use of copyrighted materials in LLMs with a focus on models where memorization does not naturally occur. We carefully design an experimental setup, randomly inserting traps into original content (books) and train a 1.3B LLM. We first validate that the use of content in our target model would be undetectable using existing methods. We then show, contrary to intuition, that even medium-length trap sentences repeated a significant number of times (100) are not detectable using existing methods. However, we show that longer sequences repeated a large number of times can be reliably detected (AUC=0.75) and used as copyright traps. We further improve these results by studying how the number of times a sequence is seen improves detectability, how sequences with higher perplexity tend to be memorized more, and how taking context into account further improves detectability.
翻訳日:2024-02-15 14:08:32 公開日:2024-02-14
# HiRE: 効率的なLLM推論のための高リコール近似トップ$k$推定

HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference ( http://arxiv.org/abs/2402.09360v1 )

ライセンス: Link先を確認
Yashas Samaga B L and Varun Yerram and Chong You and Srinadh Bhojanapalli and Sanjiv Kumar and Prateek Jain and Praneeth Netrapalli(参考訳) アクセラレータ(GPU/TPU)上のジェネレーティブなLarge Language Models(LLM)による自動回帰デコーディングは、高帯域メモリ(HBM)からキャッシュへのモデルパラメータの転送にほとんどの時間を費やしている場合、メモリバウンドであることが多い。 一方,近年の研究では,フィードフォワード(ffn)層において,モデルパラメータの転送を低減し,遅延を低減させる手法を提案すれば,最大$k$の行/列($k \approx 0.05$)でモデルを操作するように適切にトレーニングすることで,llmが品質を保ち,fedforward(ffn)層において著しいスパース性と冗長性を有することが示されている。 しかし、遅延を改善するためにこの疎結合を利用することは、トップ行/カラムの識別がデータ依存であり、通常は完全な行列演算を使用して実行され、潜在的なゲインを著しく制限するという事実によって妨げられる。 これらの問題に対処するため、HiRE(High Recall Approximate Top-k Estimation)を導入する。 HiREは2つの新しいコンポーネントから構成される。 (i)高いリコールでトップ$k$行/カラムを安価に予測するための圧縮スキーム、及び予測サブセットに制限されたフル計算 (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-$k$演算子。 10億のパラメータモデルでは、softmaxとfeedforwardの両方のレイヤに適用され、ほぼ一致する事前トレーニングと下流精度を達成し、単一のtpuv5eデバイスで推論遅延を1.47\times$で高速化する。

Autoregressive decoding with generative Large Language Models (LLMs) on accelerators (GPUs/TPUs) is often memory-bound where most of the time is spent on transferring model parameters from high bandwidth memory (HBM) to cache. On the other hand, recent works show that LLMs can maintain quality with significant sparsity/redundancy in the feedforward (FFN) layers by appropriately training the model to operate on a top-$k$ fraction of rows/columns (where $k \approx 0.05$), there by suggesting a way to reduce the transfer of model parameters, and hence latency. However, exploiting this sparsity for improving latency is hindered by the fact that identifying top rows/columns is data-dependent and is usually performed using full matrix operations, severely limiting potential gains. To address these issues, we introduce HiRE (High Recall Approximate Top-k Estimation). HiRE comprises of two novel components: (i) a compression scheme to cheaply predict top-$k$ rows/columns with high recall, followed by full computation restricted to the predicted subset, and (ii) DA-TOP-$k$: an efficient multi-device approximate top-$k$ operator. We demonstrate that on a one billion parameter model, HiRE applied to both the softmax as well as feedforward layers, achieves almost matching pretraining and downstream accuracy, and speeds up inference latency by $1.47\times$ on a single TPUv5e device.
翻訳日:2024-02-15 14:08:07 公開日:2024-02-14
# pruning sparse tensor neural networksは3次元超音波局在顕微鏡のためのディープラーニングを可能にする

Pruning Sparse Tensor Neural Networks Enables Deep Learning for 3D Ultrasound Localization Microscopy ( http://arxiv.org/abs/2402.09359v1 )

ライセンス: Link先を確認
Brice Rauby (1 and 2), Paul Xing (1), Jonathan Por\'ee (1), Maxime Gasse (1, 2 and 3), Jean Provost (1 and 4) ((1) Polytechnique Montr\'eal, (2) Mila - Quebec Artificial Intelligence Institute, (3) ServiceNow Inc., (4) Montreal Heart Institute)(参考訳) 超音波局在顕微鏡(ulm)は、生体内における微小血管の深さおよび10ミクロンの解像度でのイメージングを可能にする非侵襲的技術である。 ULMは、血流中に注入された個々のマイクロバブルのサブレゾリューション局在に基づいている。 血管構造全体をマッピングするには、数千のフレームからマイクロバブルの軌跡を蓄積する必要がある。 ulm取得時間は、マイクロバブル濃度を増加させることで削減できるが、個別に検出するにはより高度なアルゴリズムが必要である。 このタスクには、いくつかのディープラーニングアプローチが提案されているが、それゆえ、大きなメモリ要件が伴っているため、2dイメージングに限定されている。 本稿では,2次元のメモリ使用量を削減するためにスパーステンソルニューラルネットワークを使用し,ディープラーニングアーキテクチャを3次元に拡張するためのメモリ要求のスケーリングを改善することを提案する。 本研究では,超音波データをスパース形式に効率的に変換し,関連する情報損失の影響について検討する。 スパース定式化を2Dに適用すると、高密度ネットワークと比較した場合の性能低下が小さく、第2因子によるメモリ要求を低減できる。 3dでは,提案手法はメモリ要求を2桁削減するが,高濃度設定では従来のulmをほぼ上回っている。 3次元ULMにおけるスパーステンソルニューラルネットワークは、2次元ULMにおける濃密な深層学習法と同じ利点、すなわち、高濃度のシリカの使用と取得時間の短縮を可能にする。

Ultrasound Localization Microscopy (ULM) is a non-invasive technique that allows for the imaging of micro-vessels in vivo, at depth and with a resolution on the order of ten microns. ULM is based on the sub-resolution localization of individual microbubbles injected in the bloodstream. Mapping the whole angioarchitecture requires the accumulation of microbubbles trajectories from thousands of frames, typically acquired over a few minutes. ULM acquisition times can be reduced by increasing the microbubble concentration, but requires more advanced algorithms to detect them individually. Several deep learning approaches have been proposed for this task, but they remain limited to 2D imaging, in part due to the associated large memory requirements. Herein, we propose to use sparse tensor neural networks to reduce memory usage in 2D and to improve the scaling of the memory requirement for the extension of deep learning architecture to 3D. We study several approaches to efficiently convert ultrasound data into a sparse format and study the impact of the associated loss of information. When applied in 2D, the sparse formulation reduces the memory requirements by a factor 2 at the cost of a small reduction of performance when compared against dense networks. In 3D, the proposed approach reduces memory requirements by two order of magnitude while largely outperforming conventional ULM in high concentration settings. We show that Sparse Tensor Neural Networks in 3D ULM allow for the same benefits as dense deep learning based method in 2D ULM i.e. the use of higher concentration in silico and reduced acquisition time.
翻訳日:2024-02-15 14:07:35 公開日:2024-02-14
# ChatGPTをセキュアな病院ネットワークに統合する:放射線医学報告分析の改善のための事例研究

Integrating ChatGPT into Secure Hospital Networks: A Case Study on Improving Radiology Report Analysis ( http://arxiv.org/abs/2402.09358v1 )

ライセンス: Link先を確認
Kyungsu Kim, Junhyun Park, Saul Langarica, Adham Mahmoud Alkhadrawi, Synho Do(参考訳) この研究は、ChatGPTに似たクラウドベースのAIを、放射線学レポートを分析し、患者のデータのプライバシーを優先する安全なモデルに初めて適応したことを実証する。 コントラスト学習によるユニークな文レベルの知識蒸留手法を用いて,異常検出の精度を95%以上向上する。 モデルはまた、予測の不確実性を正確に警告し、確実性指標を持つ医師の信頼性と解釈性を高める。 これらの進歩は、医療のための安全で効率的なAIツールの開発において大きな進歩を示している。

This study demonstrates the first in-hospital adaptation of a cloud-based AI, similar to ChatGPT, into a secure model for analyzing radiology reports, prioritizing patient data privacy. By employing a unique sentence-level knowledge distillation method through contrastive learning, we achieve over 95% accuracy in detecting anomalies. The model also accurately flags uncertainties in its predictions, enhancing its reliability and interpretability for physicians with certainty indicators. These advancements represent significant progress in developing secure and efficient AI tools for healthcare, suggesting a promising future for in-hospital AI applications with minimal supervision.
翻訳日:2024-02-15 14:07:11 公開日:2024-02-14
# シングルリセットディバイドとコンカマー模倣学習

Single-Reset Divide & Conquer Imitation Learning ( http://arxiv.org/abs/2402.09355v1 )

ライセンス: Link先を確認
Alexandre Chenu, Olivier Serris, Olivier Sigaud, Nicolas Perrin-Gilbert(参考訳) デモはDeep Reinforcement Learningアルゴリズムの学習プロセスを高速化するために一般的に使用される。 複数のデモにアクセスすることの難しさに対処するため、いくつかのアルゴリズムが単一のデモから学習するために開発された。 特に、分割と克服の模倣学習アルゴリズムは、単一の状態ベースのデモンストレーションを使用して複雑なロボットタスクの制御ポリシーを学ぶために逐次バイアスを利用する。 最新バージョンのDCIL-IIは、顕著なサンプル効率を示している。 この新手法は拡張目標条件強化学習フレームワーク内で動作し,デモから抽出した中間目標と後続目標との互換性を確保する。 しかし、基本的な制限は、実証された軌道に沿ってシステムが特定の状態にリセットされ、シミュレーションシステムへの応用が制限されるという仮定から生じる。 これに対応するために,sr-dcilと呼ばれる拡張を導入し,シーケンシャルリセットではなく,単一の初期状態リセットに依存することにより,この制約を克服する。 この困難な状況に対処するため,我々は,デモバッファとバリュークローニングを含む,実演文献からの学習に触発された2つのメカニズムを統合して,エージェントをコンパチブルな成功状態へと導く。 さらに,リセット状態から離れた目標に到達するためのトレーニングを容易にするため,近似目標切り換えを導入する。 本論文は,DCIL-IIにおけるリセット仮定の重要性を強調し,SR-DCIL変異のメカニズムを提示し,DCIL-IIと比較して課題のあるロボット作業における性能評価を行う。 まとめると、本研究はDCILのフレームワークにおけるリセット仮定の重要性に関する洞察を与え、より弱いリセット仮定の下で制御ポリシーを学習できる汎用アルゴリズムへの第一歩であるSR-DCILを提案する。

Demonstrations are commonly used to speed up the learning process of Deep Reinforcement Learning algorithms. To cope with the difficulty of accessing multiple demonstrations, some algorithms have been developed to learn from a single demonstration. In particular, the Divide & Conquer Imitation Learning algorithms leverage a sequential bias to learn a control policy for complex robotic tasks using a single state-based demonstration. The latest version, DCIL-II demonstrates remarkable sample efficiency. This novel method operates within an extended Goal-Conditioned Reinforcement Learning framework, ensuring compatibility between intermediate and subsequent goals extracted from the demonstration. However, a fundamental limitation arises from the assumption that the system can be reset to specific states along the demonstrated trajectory, confining the application to simulated systems. In response, we introduce an extension called Single-Reset DCIL (SR-DCIL), designed to overcome this constraint by relying on a single initial state reset rather than sequential resets. To address this more challenging setting, we integrate two mechanisms inspired by the Learning from Demonstrations literature, including a Demo-Buffer and Value Cloning, to guide the agent toward compatible success states. In addition, we introduce Approximate Goal Switching to facilitate training to reach goals distant from the reset state. Our paper makes several contributions, highlighting the importance of the reset assumption in DCIL-II, presenting the mechanisms of SR-DCIL variants and evaluating their performance in challenging robotic tasks compared to DCIL-II. In summary, this work offers insights into the significance of reset assumptions in the framework of DCIL and proposes SR-DCIL, a first step toward a versatile algorithm capable of learning control policies under a weaker reset assumption.
翻訳日:2024-02-15 14:06:58 公開日:2024-02-14
# DoRA:重量分解低ランク適応

DoRA: Weight-Decomposed Low-Rank Adaptation ( http://arxiv.org/abs/2402.09353v1 )

ライセンス: Link先を確認
Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Min-Hung Chen(参考訳) 広く使われているパラメータ効率ファインタニング(PEFT)法の中で、LoRAとその変種は追加の推論コストを避けるためにかなりの人気を得ている。 しかし、これらの手法とフル微調整(FT)の間には精度のギャップがまだ残っている。 本稿では,FTとLoRAの相違点を明らかにするために,新しい重量分解解析法を提案する。 本研究は,FTの学習能力に類似して,重み分解型低ランク適応(DoRA)を提案する。 DoRAは、トレーニング済みの重量を2つのコンポーネント、マグニチュードと方向に分解して微調整し、特に、トレーニング可能なパラメータの数を効率的に最小化するために、方向更新にLoRAを使用している。 DoRAを用いることで、LoRAの学習能力とトレーニング安定性を向上するとともに、追加の推論オーバーヘッドを回避できる。 DoRAは、LLaMA、LLaVA、VL-BARTなどの様々な下流タスク、例えばコモンセンス推論、ビジュアルインストラクションチューニング、画像/ビデオテキスト理解において、LoRAよりも一貫して優れている。

Among the widely used parameter-efficient finetuning (PEFT) methods, LoRA and its variants have gained considerable popularity because of avoiding additional inference costs. However, there still often exists an accuracy gap between these methods and full fine-tuning (FT). In this work, we first introduce a novel weight decomposition analysis to investigate the inherent differences between FT and LoRA. Aiming to resemble the learning capacity of FT from the findings, we propose Weight-Decomposed LowRank Adaptation (DoRA). DoRA decomposes the pre-trained weight into two components, magnitude and direction, for fine-tuning, specifically employing LoRA for directional updates to efficiently minimize the number of trainable parameters. By employing DoRA, we enhance both the learning capacity and training stability of LoRA while avoiding any additional inference overhead. DoRA consistently outperforms LoRA on fine-tuning LLaMA, LLaVA, and VL-BART on various downstream tasks, such as commonsense reasoning, visual instruction tuning, and image/video-text understanding.
翻訳日:2024-02-15 14:06:27 公開日:2024-02-14
# Human-in-the-Loop を用いた大規模言語モデル監査フレームワークの開発

Developing a Framework for Auditing Large Language Models Using Human-in-the-Loop ( http://arxiv.org/abs/2402.09346v1 )

ライセンス: Link先を確認
Maryam Amirizaniani, Jihan Yao, Adrian Lavergne, Elizabeth Snell Okada, Aman Chadha, Tanya Roosta, Chirag Shah(参考訳) LLMがさまざまなユーザやシナリオに広まるにつれて、これらのモデルを使用する際の潜在的な問題を特定することが不可欠になります。 例えば、バイアス、矛盾、幻覚などがある。 これらの問題に対するLCMの監査は望ましいが、簡単あるいは解決には程遠い。 有効な方法は、同じ質問の異なるバージョンを用いてLLMを探索することである。 これは知識や操作の不整合を露呈し、偏見や幻覚の可能性を示唆する。 しかしながら、この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要です。 本稿では,ループ内の人間とともに異なるllmを使用する自動かつスケーラブルなソリューションを提案する。 このアプローチは検証可能性と透明性を提供し、同じllmへの循環依存を回避し、科学的厳密さと一般化性を高める。 具体的には,人間を用いた2段階の検証を行う新しい手法を提案する。応答の検証のための標準評価基準と,所望のプローブを生成するための構造化されたプロンプトテンプレートである。 TruthfulQAデータセットからの一連の質問に対する実験は、異なるLLMの不整合を監査するために使用できる、あるLLMから信頼できるプローブセットを生成することができることを示している。 監査プローブの生成および適用基準は、基礎となる構造や訓練機構にかかわらず、様々なLCMに対して一般化可能である。

As LLMs become more pervasive across various users and scenarios, identifying potential issues when using these models becomes essential. Examples include bias, inconsistencies, and hallucination. Although auditing the LLM for these problems is desirable, it is far from being easy or solved. An effective method is to probe the LLM using different versions of the same question. This could expose inconsistencies in its knowledge or operation, indicating potential for bias or hallucination. However, to operationalize this auditing method at scale, we need an approach to create those probes reliably and automatically. In this paper we propose an automatic and scalable solution, where one uses a different LLM along with human-in-the-loop. This approach offers verifiability and transparency, while avoiding circular reliance on the same LLMs, and increasing scientific rigor and generalizability. Specifically, we present a novel methodology with two phases of verification using humans: standardized evaluation criteria to verify responses, and a structured prompt template to generate desired probes. Experiments on a set of questions from TruthfulQA dataset show that we can generate a reliable set of probes from one LLM that can be used to audit inconsistencies in a different LLM. The criteria for generating and applying auditing probes is generalizable to various LLMs regardless of the underlying structure or training mechanism.
翻訳日:2024-02-15 14:06:07 公開日:2024-02-14
# 情報理論リワードモデリングによるリワードハッキングの軽減

Mitigating Reward Hacking via Information-Theoretic Reward Modeling ( http://arxiv.org/abs/2402.09345v1 )

ライセンス: Link先を確認
Yuchun Miao, Sen Zhang, Liang Ding, Rong Bao, Lefei Zhang, Dacheng Tao(参考訳) 人的フィードバック(rlhf)からの強化学習が言語モデルと人間の価値の整合に成功しても、報酬ハッキングは報酬過剰最適化(reward overoptimization)とも呼ばれ、主に報酬モデリングの制限、すなわち報酬モデルの一般化可能性と選好データセットの一貫性の欠如に起因する重要な課題である。 そこで本研究では,情報理論のパースペクティブからこの問題に取り組み,無関係な情報をフィルタリングし,モデル複雑性変調のメカニズムを開発するための変分的情報ボトルネック目標を導入することで,報奨モデリングの一般化とロバストな枠組みを提案する。 特に,潜伏空間における過最適化と外れ値の相関関係を更に同定し,報酬過最適化を検出するための有望なツールとしてInfoRMを確立した。 この発見にインスパイアされたICDS(Integrated Cluster Deviation Score)は,オンライン緩和戦略の開発を促進するための報酬過度最適化の指標として,潜在空間における偏差を定量化する。 幅広い設定とモデルスケール(70M, 440M, 1.4B, 7B)に関する大規模な実験はInfoRMの有効性を支持する。 さらに分析した結果,InfoRMの過度な最適化検出機構が有効であることが判明した。 コードは受理時にリリースされる。

Despite the success of reinforcement learning from human feedback (RLHF) in aligning language models with human values, reward hacking, also termed reward overoptimization, remains a critical challenge, which primarily stems from limitations in reward modeling, i.e., generalizability of the reward model and inconsistency in the preference dataset. In this work, we tackle this problem from an information theoretic-perspective, and propose a generalizable and robust framework for reward modeling, namely InfoRM, by introducing a variational information bottleneck objective to filter out irrelevant information and developing a mechanism for model complexity modulation. Notably, we further identify a correlation between overoptimization and outliers in the latent space, establishing InfoRM as a promising tool for detecting reward overoptimization. Inspired by this finding, we propose the Integrated Cluster Deviation Score (ICDS), which quantifies deviations in the latent space, as an indicator of reward overoptimization to facilitate the development of online mitigation strategies. Extensive experiments on a wide range of settings and model scales (70M, 440M, 1.4B, and 7B) support the effectiveness of InfoRM. Further analyses reveal that InfoRM's overoptimization detection mechanism is effective, potentially signifying a notable advancement in the field of RLHF. Code will be released upon acceptance.
翻訳日:2024-02-15 14:05:46 公開日:2024-02-14
# AQA-Bench: LLMの逐次推論能力を評価するためのインタラクティブベンチマーク

AQA-Bench: An Interactive Benchmark for Evaluating LLMs' Sequential Reasoning Ability ( http://arxiv.org/abs/2402.09404v1 )

ライセンス: Link先を確認
Siwei Yang, Bingchen Zhao, Cihang Xie(参考訳) 本稿では,Depth-first Search (DFS) などのアルゴリズムを用いて,大規模言語モデル (LLM) の逐次推論能力を評価するための新しいベンチマークである AQA-Bench を紹介する。 例えば、dfsでは、各ノードの接続されたエッジの可用性は、そのノードへのモデルのトラバーサルに基づいており、それによってllmが訪問したノードを効果的に記憶し、その後の動きを戦略化できる能力を必要とします。 我々は,2進探索,深さ優先探索,幅優先探索という3つの異なるアルゴリズムを用いてAQA-Benchを包括的に構築し,12種類のLLMの逐次推論能力を評価する。 1) GPT-4 や Gemini のようなクローズドソースモデルは、一般的に、シーケンシャルな推論能力を示し、オープンソース LLM を著しく上回っている。 2) インタラクティブな例を提供することは,不注意にも少数のパフォーマンスを損なう可能性がある。 3) 最適方針に従う非常に限られた前段階は,小モデルの性能を著しく向上させることができる。 (4) 性能とモデルサイズの間のスケーリング相関は必ずしも重要ではなく、逆の傾向を示すこともある。 我々は、逐次推論におけるllmsの能力の理解と向上に関する今後の研究を触媒できることを期待している。 コードはhttps://github.com/UCSC-VLAA/AQA-Benchで公開されている。

This paper introduces AQA-Bench, a novel benchmark to assess the sequential reasoning capabilities of large language models (LLMs) in algorithmic contexts, such as depth-first search (DFS). The key feature of our evaluation benchmark lies in its interactive evaluation protocol -- for example, in DFS, the availability of each node's connected edge is contingent upon the model's traversal to that node, thereby necessitating the LLM's ability to effectively remember visited nodes and strategize subsequent moves. We comprehensively build AQA-Bench with three different algorithms, namely binary search, depth-first search, and breadth-first search, and to evaluate the sequential reasoning ability of 12 different LLMs. Our investigations reveal several interesting findings: (1) Closed-source models like GPT-4 and Gemini generally show strong sequential reasoning ability, significantly outperforming open-source LLMs. (2) Naively providing interactive examples may inadvertently hurt few-shot performance. (3) A very limited number of predecessor steps following the optimal policy can substantially boost small models' performance. (4) The scaling correlation between performance and model size is not always significant, sometimes even showcasing an inverse trend. We hope our study can catalyze future work on advancing the understanding and enhancement of LLMs' capabilities in sequential reasoning. The code is available at https://github.com/UCSC-VLAA/AQA-Bench.
翻訳日:2024-02-15 13:59:51 公開日:2024-02-14
# アーキテクチャからアプリケーションへ:ニューラル量子状態のレビュー

From Architectures to Applications: A Review of Neural Quantum States ( http://arxiv.org/abs/2402.09402v1 )

ライセンス: Link先を確認
Hannah Lange, Anka Van de Walle, Atiye Abedinnia and Annabelle Bohrdt(参考訳) 系の大きさのヒルベルト空間次元の指数関数的成長のため、量子多体系のシミュレーションは今日まで永続的な課題である。 本稿では,ニューラルネットワークのパラメータ化に必要な指数的に多くの係数を格納するのではなく,ネットワークパラメータの項で状態を圧縮することで,指数的スケーリングを克服するニューラルネットワーク量子状態(NQS)のシミュレーションのための,比較的新しい変分状態のクラスを概説する。 量子状態の力学をシミュレートするNQSアプローチと同様に、一般に使われているNQSアーキテクチャとその様々な応用を、基底状態と励起状態、有限温度および開系状態のシミュレーションに導入する。 さらに、量子状態トモグラフィーの文脈でNQSについて議論する。

Due to the exponential growth of the Hilbert space dimension with system size, the simulation of quantum many-body systems has remained a persistent challenge until today. Here, we review a relatively new class of variational states for the simulation of such systems, namely neural quantum states (NQS), which overcome the exponential scaling by compressing the state in terms of the network parameters rather than storing all exponentially many coefficients needed for an exact parameterization of the state. We introduce the commonly used NQS architectures and their various applications for the simulation of ground and excited states, finite temperature and open system states as well as NQS approaches to simulate the dynamics of quantum states. Furthermore, we discuss NQS in the context of quantum state tomography.
翻訳日:2024-02-15 13:59:27 公開日:2024-02-14
# アクティブクエリによるヒューマンフィードバックからの強化学習

Reinforcement Learning from Human Feedback with Active Queries ( http://arxiv.org/abs/2402.09401v1 )

ライセンス: Link先を確認
Kaixuan Ji and Jiafan He and Quanquan Gu(参考訳) 人選好を伴う大規模言語モデル(LLM)の調整は、現代の生成モデルの構築において重要な役割を担い、人間からのフィードバック(RLHF)からの強化学習によって達成できる。 優れた性能にもかかわらず、現在のRLHFアプローチでは、収集に費用がかかる大量の人間による嗜好データを必要とすることが多い。 本稿では,能動学習の成功に触発されて,クエリ効率のよいRLHF手法を提案する。 まず、アライメント問題をコンテキストデュリングバンディット問題として定式化し、$\tilde{O}(d^2/\Delta)$ regret bound and a $\tilde{O}(d^2/\Delta^2)$ query complexity, where $d$ is the dimension of feature space and $\Delta$ is the sub-Optitimality gap over the all contexts。 次に、直接選好最適化(DPO)に基づくアルゴリズムの実用的なバージョンであるADPOを提案し、それを微調整LDMに適用する。 実験の結果,ADPOは人間の好みに対するクエリの約半分しか作成していないが,最先端DPO法の性能と一致していることがわかった。

Aligning large language models (LLM) with human preference plays a key role in building modern generative models and can be achieved by reinforcement learning from human feedback (RLHF). Despite their superior performance, current RLHF approaches often require a large amount of human-labelled preference data, which is expensive to collect. In this paper, inspired by the success of active learning, we address this problem by proposing query-efficient RLHF methods. We first formalize the alignment problem as a contextual dueling bandit problem and design an active-query-based proximal policy optimization (APPO) algorithm with an $\tilde{O}(d^2/\Delta)$ regret bound and an $\tilde{O}(d^2/\Delta^2)$ query complexity, where $d$ is the dimension of feature space and $\Delta$ is the sub-optimality gap over all the contexts. We then propose ADPO, a practical version of our algorithm based on direct preference optimization (DPO) and apply it to fine-tuning LLMs. Our experiments show that ADPO, while only making about half of queries for human preference, matches the performance of the state-of-the-art DPO method.
翻訳日:2024-02-15 13:59:07 公開日:2024-02-14
# LESSでさらなる情報を得る:効率的なLLM推論のためのKVキャッシュ圧縮による再帰の合成

Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference ( http://arxiv.org/abs/2402.09398v1 )

ライセンス: Link先を確認
Harry Dong, Xinyu Yang, Zhenyu Zhang, Zhangyang Wang, Yuejie Chi, Beidi Chen(参考訳) 多くの計算要素は、大きな言語モデルのより広範な展開を制限する。 本稿では,鍵値キャッシュ(KV)によるメモリボトルネックに着目し,復号時に従来のKVペアを格納する必要がある計算ショートカットについて述べる。 既存のKVキャッシュメソッドは、キャッシュのメモリフットプリントを劇的に削減するために、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることで、この問題にアプローチするが、以前のトークンの大部分を再コンパイルする必要のあるタスクでは、限られた成功しか得られない。 この問題を軽減するため,eviction ベースのキャッシュメソッドと (ほぼフリーな) 定数サイズのキャッシュを簡易に統合することで,すべてのトークンを後続のデコードステップでクエリすることができる。 情報を保持する能力は、LESSが全てをキャッシュすることからパフォーマンスのギャップを減らし、時にはマッチすることまでも、効率的であることを実証する様々なタスクにおいてメリットを示します。

Many computational factors limit broader deployment of large language models. In this paper, we focus on a memory bottleneck imposed by the key-value (KV) cache, a computational shortcut that requires storing previous KV pairs during decoding. While existing KV cache methods approach this problem by pruning or evicting large swaths of relatively less important KV pairs to dramatically reduce the memory footprint of the cache, they can have limited success in tasks that require recollecting a majority of previous tokens. To alleviate this issue, we propose LESS, a simple integration of a (nearly free) constant sized cache with eviction-based cache methods, such that all tokens can be queried at later decoding steps. Its ability to retain information throughout time shows merit on a variety of tasks where we demonstrate LESS can help reduce the performance gap from caching everything, sometimes even matching it, all while being efficient.
翻訳日:2024-02-15 13:57:52 公開日:2024-02-14
# モデル編集のロングフォーム評価

Long-form evaluation of model editing ( http://arxiv.org/abs/2402.09394v1 )

ライセンス: Link先を確認
Domenic Rosati, Robie Gonzales, Jinkun Chen, Xuemin Yu, Melis Erkan, Yahya Kayani, Satya Deepika Chavatapalli, Frank Rudzicz, Hassan Sajjad(参考訳) モデル編集の評価は現在、プロンプトの後に 'next few token' 補完のみを使用する。 その結果、これらの手法がより長い自然言語生成に与える影響はほとんど不明である。 本稿では,モデル編集の有効性と効果を評価する新しい評価プロトコルとして,モデル編集の長文評価(\textbf{\textit{LEME}})を導入する。 我々のプロトコルは,人間の評価とよく相関する,機械評価調査と分類器から構成される。 重要な点として,提案手法は従来の短距離メトリクス(有効性,一般化,局所性,ポータビリティをロングフォームに拡張するように設計されている)とはほとんど関係がないこと,モデル編集手法を理解するための新たな次元セットを導入すること,などがあげられる。 本プロトコルを用いて,多数のモデル編集手法をベンチマークし,いくつかの手法(ROMEとMEMIT)が一定の範囲内で一貫した編集を行うのに対して,他の手法よりも現実的なドリフトに悩まされていることを示す。 最後に, 内部一貫性, 語彙結合, 局所性問題など, 長期生成環境における一般的な障害モードを示す定性解析を行う。

Evaluations of model editing currently only use the `next few token' completions after a prompt. As a result, the impact of these methods on longer natural language generation is largely unknown. We introduce long-form evaluation of model editing (\textbf{\textit{LEME}}) a novel evaluation protocol that measures the efficacy and impact of model editing in long-form generative settings. Our protocol consists of a machine-rated survey and a classifier which correlates well with human ratings. Importantly, we find that our protocol has very little relationship with previous short-form metrics (despite being designed to extend efficacy, generalization, locality, and portability into a long-form setting), indicating that our method introduces a novel set of dimensions for understanding model editing methods. Using this protocol, we benchmark a number of model editing techniques and present several findings including that, while some methods (ROME and MEMIT) perform well in making consistent edits within a limited scope, they suffer much more from factual drift than other methods. Finally, we present a qualitative analysis that illustrates common failure modes in long-form generative settings including internal consistency, lexical cohesion, and locality issues.
翻訳日:2024-02-15 13:56:57 公開日:2024-02-14
# LL-GABR:強化学習を用いたエネルギー効率の良いライブビデオストリーミング

LL-GABR: Energy Efficient Live Video Streaming Using Reinforcement Learning ( http://arxiv.org/abs/2402.09392v1 )

ライセンス: Link先を確認
Adithya Raman, Bekir Turkkan and Tevfik Kosar(参考訳) 近年、ライブビデオストリーミングのための適応ビットレート(ABR)アルゴリズムの研究と開発は、レイテンシをほぼリアルタイムレベルに低減し、リバッファング時間を最小限に抑えることで、ユーザのQoE(Quality of Experience)を改善することに成功した。 しかし、これらのABRアルゴリズムで使用されるQoEモデルは、高ビットレートが必ずしも高い品質に変換されないモバイルデバイスを使用するライブビデオストリーミングクライアントの大部分を考慮に入れていない。 高ビットレートでの動画再生における品質の無視は、知覚的ビデオ品質を著しく向上させることなく、高エネルギー消費による電池制約のモバイル機器の負担となる。 本稿では,QoEをビットレートの代わりに知覚ビデオ品質を用いてモデル化し,遅延,リバッファリングイベント,スムーズネスといった他の指標とともにエネルギー消費を利用する深層強化学習手法であるLL-GABRを提案する。 ll-gabrは、基礎となるビデオ、環境、ネットワークの設定を前提とせず、異なるビデオタイトルで柔軟に動作し、それぞれが別のビットレートエンコードラダーを持つ。 その結果, LL-GABRは知覚的QoEでは44%, エネルギー効率は73%向上し, エネルギー消費は11%減少した。

Over the recent years, research and development in adaptive bitrate (ABR) algorithms for live video streaming have been successful in improving users' quality of experience (QoE) by reducing latency to near real-time levels while delivering higher bitrate videos with minimal rebuffering time. However, the QoE models used by these ABR algorithms do not take into account that a large portion of live video streaming clients use mobile devices where a higher bitrate does not necessarily translate into higher perceived quality. Ignoring perceived quality results in playing videos at higher bitrates without a significant increase in perceptual video quality and becomes a burden for battery-constrained mobile devices due to higher energy consumption. In this paper, we propose LL-GABR, a deep reinforcement learning approach that models the QoE using perceived video quality instead of bitrate and uses energy consumption along with other metrics like latency, rebuffering events, and smoothness. LL-GABR makes no assumptions about the underlying video, environment, or network settings and can operate flexibly on different video titles, each having a different bitrate encoding ladder without additional re-training, unlike existing learning-based ABRs. Trace-driven experimental results show that LL-GABR outperforms the state-of-the-art approaches by up to 44% in terms of perceptual QoE and a 73% increase in energy efficiency as a result of reducing net energy consumption by 11%.
翻訳日:2024-02-15 13:56:38 公開日:2024-02-14
# LlaSMol: 大規模で包括的で高品質なインストラクションチューニングデータセットによる化学用大規模言語モデルの改善

LlaSMol: Advancing Large Language Models for Chemistry with a Large-Scale, Comprehensive, High-Quality Instruction Tuning Dataset ( http://arxiv.org/abs/2402.09391v1 )

ライセンス: Link先を確認
Botao Yu, Frazier N. Baker, Ziqi Chen, Xia Ning, Huan Sun(参考訳) 化学は創薬や物質科学など多くの分野において重要な役割を担っている。 gpt-4のような大規模言語モデル(llm)は自然言語処理タスクにおいて顕著な能力を示すが、既存の研究は化学処理における性能が著しく低いことを示している。 しかし,本論文では,本研究で開発したLCMが,全タスクにおいて最上級の GPT-4 をかなり上回り,SoTA タスク固有モデルに近づき,包括的な化学タスクの集合において非常に強力な結果が得られることを実証する。 私たちの成功の鍵はSMolInstructという名前の命令チューニングのための大規模で包括的で高品質なデータセットです。 14の精巧に選択された化学タスクと300万以上の高品質なサンプルが含まれており、化学のためのLCMの訓練と評価のためのしっかりとした基礎を築いている。 SMolInstructに基づいて、オープンソースのLCMの集合を微調整し、ミストラールが化学タスクの最良のベースモデルであることを示す。 さらに,学習可能なパラメータの影響に関する分析を行い,今後の研究への洞察を提供する。

Chemistry plays a crucial role in many domains, such as drug discovery and material science. While large language models (LLMs) such as GPT-4 exhibit remarkable capabilities on natural language processing tasks, existing work shows their performance on chemistry tasks is discouragingly low. In this paper, however, we demonstrate that our developed LLMs can achieve very strong results on a comprehensive set of chemistry tasks, outperforming the most advanced GPT-4 across all the tasks by a substantial margin and approaching the SoTA task-specific models. The key to our success is a large-scale, comprehensive, high-quality dataset for instruction tuning named SMolInstruct. It contains 14 meticulously selected chemistry tasks and over three million high-quality samples, laying a solid foundation for training and evaluating LLMs for chemistry. Based on SMolInstruct, we fine-tune a set of open-source LLMs, among which, we find that Mistral serves as the best base model for chemistry tasks. We further conduct analysis on the impact of trainable parameters, providing insights for future research.
翻訳日:2024-02-15 13:56:09 公開日:2024-02-14
# hgot: 事実性評価における文脈内学習のための階層的思考グラフ

HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation ( http://arxiv.org/abs/2402.09390v1 )

ライセンス: Link先を確認
Yihao Fang, Stephen W. Thomas, Xiaodan Zhu(参考訳) 多数のアプリケーションで大規模言語モデル(LLM)が広く採用されているため、事実性の課題と幻覚の正当性は重大な懸念を巻き起こす。 この問題に対処するために,特に検索型インコンテキスト学習において,インコンテキスト学習中に関連するパスの検索を強化するように設計された構造化多層グラフアプローチである階層的思考グラフ(hgot)を導入する。 このフレームワークは LLM の創発的な計画機能を活用し、複雑なクエリを管理可能なサブクエリに分割する分断/コンカマー戦略を採用している。 これは、最近提案された引用リコールと精度指標を組み込んで思考の質を評価し、回答の信頼性を本質的に思考の質に結びつけるものである。 この方法論は多数決で重み付けシステムを導入し、彼らの考えの引用品質に基づいて答えを優先順位付けする。 また, 引用頻度, 品質, 自己満足度, 検索モジュールのランキングなどの要因を考慮して, 検索パスの評価のためのスコアリング機構を提案する。 実験により、HGOTは、DSP(Demonstrate-Search-Predict)、ReAct、Self-Ask、Retrieve-then-Readなど、他の検索強化されたコンテキスト内学習手法よりも7\%高い性能を示し、LLMの事実性を高める効果を示している。

With the widespread adoption of large language models (LLMs) in numerous applications, the challenge of factuality and the propensity for hallucinations raises significant concerns. To address this issue, particularly in retrieval-augmented in-context learning, we introduce the hierarchical graph of thoughts (HGOT), a structured, multi-layered graph approach designed to enhance the retrieval of pertinent passages during in-context learning. The framework utilizes the emergent planning capabilities of LLMs, employing the divide-and-conquer strategy to break down complex queries into manageable sub-queries. It refines self-consistency majority voting for answer selection, which incorporates the recently proposed citation recall and precision metrics to assess the quality of thoughts, linking an answer's credibility intrinsically to the thought's quality. This methodology introduces a weighted system in majority voting, prioritizing answers based on the citation quality of their thoughts. Additionally, we propose a scoring mechanism for evaluating retrieved passages, considering factors such as citation frequency and quality, self-consistency confidence, and the retrieval module's ranking. Experiments reveal that HGOT outperforms other retrieval-augmented in-context learning methods, including Demonstrate-Search-Predict (DSP), ReAct, Self-Ask, and Retrieve-then-Read on different datasets by as much as $7\%$, demonstrating its efficacy in enhancing the factuality of LLMs.
翻訳日:2024-02-15 13:55:48 公開日:2024-02-14
# エントロピー正規化点値反復法

Entropy-regularized Point-based Value Iteration ( http://arxiv.org/abs/2402.09388v1 )

ライセンス: Link先を確認
Harrison Delecki, Marcell Vazquez-Chanlatte, Esen Yel, Kyle Wray, Tomer Arnon, Stefan Witwicki, Mykel J. Kochenderfer(参考訳) 部分的に観測可能な問題に対するモデルベースプランナーは、計画中のモデル不確実性と客観的推論時の目標不確実性の両方に対応しなければならない。 しかしながら、モデルベースのプランナーは、厳密なモデルに依存し、単一の最適な行動にコミットする傾向があるため、このような不確実性の下では不安定である可能性がある。 モデルフリー設定の結果に着想を得て,部分可観測問題に対するエントロピー正規化モデルに基づくプランナーを提案する。 エントロピー正規化(entropy regularization)は、政策が必要以上に単一の行動にコミットしないことを奨励することで、計画と客観的な推論のポリシーロバスト性を促進する。 3つの問題領域におけるエントロピー規則化ポリシーの頑健性と客観的推論性能を評価する。 実験結果から,非エントロピー規則化ポリシーは,モデル誤差下での期待値の上昇,目標推定時の精度の向上などにより,非エントロピー規則化基準線よりも優れていることがわかった。

Model-based planners for partially observable problems must accommodate both model uncertainty during planning and goal uncertainty during objective inference. However, model-based planners may be brittle under these types of uncertainty because they rely on an exact model and tend to commit to a single optimal behavior. Inspired by results in the model-free setting, we propose an entropy-regularized model-based planner for partially observable problems. Entropy regularization promotes policy robustness for planning and objective inference by encouraging policies to be no more committed to a single action than necessary. We evaluate the robustness and objective inference performance of entropy-regularized policies in three problem domains. Our results show that entropy-regularized policies outperform non-entropy-regularized baselines in terms of higher expected returns under modeling errors and higher accuracy during objective inference.
翻訳日:2024-02-15 13:55:19 公開日:2024-02-14
# ニューラルディファレンシャル方程式と強化学習を用いたトカマクランプダウンの能動破壊回避と軌道設計

Active Disruption Avoidance and Trajectory Design for Tokamak Ramp-downs with Neural Differential Equations and Reinforcement Learning ( http://arxiv.org/abs/2402.09387v1 )

ライセンス: Link先を確認
Allen M. Wang, Oswin So, Charles Dawson, Darren T. Garnier, Cristina Rea, and Chuchu Fan(参考訳) トカマクは核融合エネルギーへの有望な経路を提供するが、プラズマ破壊は大きな経済リスクをもたらし、破壊回避のかなりの進歩を動機付ける。 本研究は、プラズマ電流を安全にランプダウンするポリシーを訓練し、破壊と相関する量の制限を回避し、この問題に対する強化学習アプローチを展開する。 政策訓練環境はSPARC一次基準放電(PRD)ランプダウンのシミュレーションに基づいて訓練されたハイブリッド物理と機械学習モデルである。 物理の不確実性とモデル不正確性に対処するため、シミュレーション環境は、ポリシートレーニング中にランダム化された物理パラメータを持つGPU上で大幅に並列化される。 トレーニングされたポリシーは、より高い忠実度シミュレーターに転送され、ユーザーが特定した破壊的限界を回避しながら、プラズマをうまく停止させる。 また,制約条件付きポリシを軌道設計アシスタントとして使用し,異なる物理条件やユーザ設定を扱うフィードフォワード軌道のライブラリを設計できることを実証することで,安全性クリティカル性の問題にも対処した。 トラジェクトリーのライブラリーはより解釈可能で、オフラインで検証できるので、プラズマトカマクを燃やすという安全クリティカルな文脈で強化学習の能力を活用するための有望な方法であると我々は主張する。 最後に,物理の不確実性にロバストなフィードフォワード軌道の最適化を行う進化的アルゴリズムを用いて,学習環境が他のフィードフォワード最適化手法にとって有用なプラットフォームとなることを示す。

The tokamak offers a promising path to fusion energy, but plasma disruptions pose a major economic risk, motivating considerable advances in disruption avoidance. This work develops a reinforcement learning approach to this problem by training a policy to safely ramp-down the plasma current while avoiding limits on a number of quantities correlated with disruptions. The policy training environment is a hybrid physics and machine learning model trained on simulations of the SPARC primary reference discharge (PRD) ramp-down, an upcoming burning plasma scenario which we use as a testbed. To address physics uncertainty and model inaccuracies, the simulation environment is massively parallelized on GPU with randomized physics parameters during policy training. The trained policy is then successfully transferred to a higher fidelity simulator where it successfully ramps down the plasma while avoiding user-specified disruptive limits. We also address the crucial issue of safety criticality by demonstrating that a constraint-conditioned policy can be used as a trajectory design assistant to design a library of feed-forward trajectories to handle different physics conditions and user settings. As a library of trajectories is more interpretable and verifiable offline, we argue such an approach is a promising path for leveraging the capabilities of reinforcement learning in the safety-critical context of burning plasma tokamaks. Finally, we demonstrate how the training environment can be a useful platform for other feed-forward optimization approaches by using an evolutionary algorithm to perform optimization of feed-forward trajectories that are robust to physics uncertainty
翻訳日:2024-02-15 13:55:02 公開日:2024-02-14
# アルゴリズム支援意思決定における説得・委任・私的情報

Persuasion, Delegation, and Private Information in Algorithm-Assisted Decisions ( http://arxiv.org/abs/2402.09384v1 )

ライセンス: Link先を確認
Ruqing Xu(参考訳) プリンシパルは、バイナリ状態の公開観測可能な予測を生成するアルゴリズムを設計する。 彼女は、その予測に基づいて直接行動するか、あるいは個人的な情報を持つエージェントに決定を委譲するかを判断しなければならない。 このような環境における予測アルゴリズムの最適設計と代入規則について検討する。 1) 代表団が最適であることと, 代理人がエージェントの情報を観察していた場合と同じ二分決定を行う場合のみである。 2)プリンシパルがアルゴリズムの予測に作用できる場合でも,最も情報性の高いアルゴリズムが最適である可能性がある。 代わりに、最適なアルゴリズムは、ある状態に関するより多くの情報を提供し、他方に関する情報を制限することができる。 3)「ループ内人間」の保持や最大予測精度の要求といったアルゴリズム上の一般的な制限は、完全に整列したエージェントや状態回復信号がない場合には、決定品質を厳格に悪化させる。 これらの結果は,アルゴリズムと意思決定者の共通の嗜好の不一致を緩和するための措置が講じられなければ,人間と機械の協調の低パフォーマンスを予測する。

A principal designs an algorithm that generates a publicly observable prediction of a binary state. She must decide whether to act directly based on the prediction or to delegate the decision to an agent with private information but potential misalignment. We study the optimal design of the prediction algorithm and the delegation rule in such environments. Three key findings emerge: (1) Delegation is optimal if and only if the principal would make the same binary decision as the agent had she observed the agent's information. (2) Providing the most informative algorithm may be suboptimal even if the principal can act on the algorithm's prediction. Instead, the optimal algorithm may provide more information about one state and restrict information about the other. (3) Common restrictions on algorithms, such as keeping a "human-in-the-loop" or requiring maximal prediction accuracy, strictly worsen decision quality in the absence of perfectly aligned agents and state-revealing signals. These findings predict the underperformance of human-machine collaborations if no measures are taken to mitigate common preference misalignment between algorithms and human decision-makers.
翻訳日:2024-02-15 13:54:33 公開日:2024-02-14
# GraSSRep:メタゲノミクスアセンブリにおける反復検出のためのグラフに基づく自己教師付き学習

GraSSRep: Graph-Based Self-Supervised Learning for Repeat Detection in Metagenomic Assembly ( http://arxiv.org/abs/2402.09381v1 )

ライセンス: Link先を確認
Ali Azizpour, Advait Balaji, Todd J. Treangen and Santiago Segarra(参考訳) 反復DNA (repeats) は、正確で効率的なゲノム組立てと配列アライメントに重大な課題をもたらす。 これは、水平遺伝子導入、遺伝子重複、遺伝子喪失/ゲインといったゲノムダイナミクスが、メダゲノミクスコミュニティからの正確なゲノム組み立てを複雑にするメダゲノミクスデータに特に当てはまる。 繰り返し検出は、これらの課題を克服するための重要な第一歩です。 この問題に対処するため,我々は,グラフニューラルネットワーク(GNN)を介し,組立グラフの構造を活用する新たなアプローチであるGraSSRepを提案し,DNA配列を反復的および非反復的カテゴリに分類する。 具体的には、この問題をメタジェノミックアセンブリグラフ内のノード分類タスクとして構成する。 自己監督的な方法では、ノードのごく一部に対して擬似ラベルを生成するために、高精度な(しかし低リコール)ヒューリスティックに依存している。 次に、これらの擬似ラベルを使用してGNN埋め込みとランダムな森林分類器を訓練し、ラベルを残りのノードに伝達する。 このように、GraSSRepはシークエンシング機能と事前定義された学習グラフ機能を組み合わせることで、繰り返し検出における最先端のパフォーマンスを実現する。 本手法はシミュレーションおよび合成メタゲノミクスデータセットを用いて評価する。 シミュレーションデータの結果は,GraSSRepの繰り返し属性に対する堅牢性を強調し,繰り返しシーケンスの複雑性を扱う上での有効性を示している。 さらに,グラフ構造とGNNを組み込んだ合成メタゲノミクスデータセットによる実験により,検出性能が向上した。 最後に、比較分析において、GraSSRepは、精度とリコールに関して、既存の繰り返し検出ツールより優れている。

Repetitive DNA (repeats) poses significant challenges for accurate and efficient genome assembly and sequence alignment. This is particularly true for metagenomic data, where genome dynamics such as horizontal gene transfer, gene duplication, and gene loss/gain complicate accurate genome assembly from metagenomic communities. Detecting repeats is a crucial first step in overcoming these challenges. To address this issue, we propose GraSSRep, a novel approach that leverages the assembly graph's structure through graph neural networks (GNNs) within a self-supervised learning framework to classify DNA sequences into repetitive and non-repetitive categories. Specifically, we frame this problem as a node classification task within a metagenomic assembly graph. In a self-supervised fashion, we rely on a high-precision (but low-recall) heuristic to generate pseudo-labels for a small proportion of the nodes. We then use those pseudo-labels to train a GNN embedding and a random forest classifier to propagate the labels to the remaining nodes. In this way, GraSSRep combines sequencing features with pre-defined and learned graph features to achieve state-of-the-art performance in repeat detection. We evaluate our method using simulated and synthetic metagenomic datasets. The results on the simulated data highlight our GraSSRep's robustness to repeat attributes, demonstrating its effectiveness in handling the complexity of repeated sequences. Additionally, our experiments with synthetic metagenomic datasets reveal that incorporating the graph structure and the GNN enhances our detection performance. Finally, in comparative analyses, GraSSRep outperforms existing repeat detection tools with respect to precision and recall.
翻訳日:2024-02-15 13:54:13 公開日:2024-02-14
# 2時間測定エントロピー生成の熱力学限界について

On the thermodynamic limit of two-times measurement entropy production ( http://arxiv.org/abs/2402.09380v1 )

ライセンス: Link先を確認
Tristan Benoist, Laurent Bruneau, Vojkan Jak\v{s}i\'c, Annalisa Panati, Claude-Alain Pillet(参考訳) 我々は[Benoist, Bruneau, Jak\v{s}i\'c, Panati and Pillet: arxiv:2310.10582] で提案された2回の測定において、エントロピー生成のモジュラー式を熱力学的極限によって正当化する。 我々は、すべての熱貯水池が(離散)量子スピン系または自由フェルミ気体であるオープン量子システムの場合を考える。

We provide a justification, via the thermodynamic limit, of the modular formula for entropy production in two-times measurement proposed in [Benoist, Bruneau, Jak\v{s}i\'c, Panati and Pillet: arxiv:2310.10582]. We consider the cases of open quantum systems in which all thermal reservoirs are either (discrete) quantum spin systems or free Fermi gases.
翻訳日:2024-02-15 13:53:44 公開日:2024-02-14
# リー代数の直和から得られる正確に可解なハミルトンの断片

Exactly solvable Hamiltonian fragments obtained from a direct sum of Lie algebras ( http://arxiv.org/abs/2402.09376v1 )

ライセンス: Link先を確認
Smik Patel, Artur F. Izmaylov(参考訳) 厳密に解けるハミルトニアンは量子コンピュータを用いた量子多体系の研究に有用である。 変分量子固有解法では、ターゲットハミルトニアンを正確に可解なフラグメントに分解することで、反復量子測定によってエネルギーを評価することができる。 本研究では、これまでハミルトン測度問題に対処すると考えられていたよりも、正確に解ける量子ハミルトニアンの一般クラスを適用する。 最も一般的な可解なハミルトニアンは、パウリ対称性の集合の各々の同時固有空間の中で、ハミルトニアンが so(n) リー代数の直和の元として効果的に作用し、従って関連するリー群、クリフォードユニタリ、ミッドサーキットの測定におけるユニタリの組み合わせを用いて測定できるという条件で定義される。 このようなハミルトニアンのグラフ分割技術による分子電子ハミルトニアンの分解への応用は、これまで正確に解けるクビットハミルトニアンよりも期待値を推定するのに必要な測定総数を減少させることを示している。

Exactly solvable Hamiltonians are useful in the study of quantum many-body systems using quantum computers. In the variational quantum eigensolver, a decomposition of the target Hamiltonian into exactly solvable fragments can be used for evaluation of the energies via repeated quantum measurements. In this work, we apply more general classes of exactly solvable qubit Hamiltonians than previously considered to address the Hamiltonian measurement problem. The most general exactly solvable Hamiltonians are defined by the condition that, within each simultaneous eigenspace of a set of Pauli symmetries, the Hamiltonian acts effectively as an element of a direct sum of so(N) Lie algebras, and can therefore be measured using a combination of unitaries in the associated Lie group, Clifford unitaries, and mid-circuit measurements. Application of such Hamiltonians to decomposing molecular electronic Hamiltonians via graph partitioning techniques shows a reduction in the total number of measurements required to estimate the expectation value compared with previously used exactly solvable qubit Hamiltonians.
翻訳日:2024-02-15 13:53:35 公開日:2024-02-14
# 長期時系列予測のための損失シェーピング制約

Loss Shaping Constraints for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2402.09373v1 )

ライセンス: Link先を確認
Ignacio Hounie, Javier Porras-Valenzuela and Alejandro Ribeiro(参考訳) 時系列予測におけるいくつかのアプリケーションは、複数のステップの予測を必要とする。 このトピックには膨大な文献があるが、古典的および最近のディープラーニングベースのアプローチは、予測されたウィンドウの平均的なパフォーマンスの最小化に重点を置いている。 このことが,特に一般的な予測ベンチマークでトレーニングされた最近のトランスフォーマーアーキテクチャにおいて,予測ステップにまたがる誤差の分散につながることを観察する。 つまり、平均的なパフォーマンスの最適化は、特定のタイミングで、望ましくないほど大きなエラーを引き起こす可能性がある。 本研究では,長期連続予測のための制約付き学習手法を提案する。この手法は,各時点における損失に対するユーザ定義上の上限を尊重する平均性能の観点から,最適なモデルを求めることを目的としている。 我々は、各時点における損失に制約を課すため、アプローチ損失の定式化制約と呼び、最近の双対性結果を利用して、その非凸性にもかかわらず、結果として生じる問題は有界双対性ギャップを持つことを示す。 そこで本研究では,提案手法が時系列予測ベンチマークにおける競合平均性能を示すとともに,予測窓間における誤差分布を形作ることを実証する。

Several applications in time series forecasting require predicting multiple steps ahead. Despite the vast amount of literature in the topic, both classical and recent deep learning based approaches have mostly focused on minimising performance averaged over the predicted window. We observe that this can lead to disparate distributions of errors across forecasting steps, especially for recent transformer architectures trained on popular forecasting benchmarks. That is, optimising performance on average can lead to undesirably large errors at specific time-steps. In this work, we present a Constrained Learning approach for long-term time series forecasting that aims to find the best model in terms of average performance that respects a user-defined upper bound on the loss at each time-step. We call our approach loss shaping constraints because it imposes constraints on the loss at each time step, and leverage recent duality results to show that despite its non-convexity, the resulting problem has a bounded duality gap. We propose a practical Primal-Dual algorithm to tackle it, and demonstrate that the proposed approach exhibits competitive average performance in time series forecasting benchmarks, while shaping the distribution of errors across the predicted window.
翻訳日:2024-02-15 13:53:18 公開日:2024-02-14
# 計画環境のリデザインの一般化

Generalising Planning Environment Redesign ( http://arxiv.org/abs/2402.07799v2 )

ライセンス: Link先を確認
Alberto Pozanco, Ramon Fraga Pereira, Daniel Borrajo(参考訳) 環境設計において、ある関係者は環境に変化を適用することで他のエージェントの決定に影響を与えようとしている。 計画環境(re)設計に関するほとんどの研究は、目標や計画の認識を促進し、環境変更の空間を探索し、それらのタスクを簡素化し、特定のメトリックを最適化する最小限の変更点を見つけることを目的としている。 この探索空間は通常難解であり、既存の手法ではより効率的に探索を行うためのメトリック依存の刈り込み技術が考案されている。 その結果、異なる目的やメトリクスをまたいで一般化できないアプローチが生まれる。 本稿では,エージェントの目標や計画の認識に必ずしも関係しない目的や指標を利害関係者が持つ可能性があることを論じる。 そこで, 計画環境再設計の課題を一般化するために, メトリクス非依存な汎用環境再設計手法を開発し, 最近のトップクオリティ計画研究を活用し, 利害関係者の目的や指標に応じて, 計画環境を効率的に再設計する。 環境再設計ベンチマークによる実験では、目標認識の促進や、新しいメトリクスセットを最適化した環境再設計タスクの解決効果など、よく知られたメトリクスを使用する場合の既存のアプローチよりも、一般的なアプローチの方が優れています。

In Environment Design, one interested party seeks to affect another agent's decisions by applying changes to the environment. Most research on planning environment (re)design assumes the interested party's objective is to facilitate the recognition of goals and plans, and search over the space of environment modifications to find the minimal set of changes that simplify those tasks and optimise a particular metric. This search space is usually intractable, so existing approaches devise metric-dependent pruning techniques for performing search more efficiently. This results in approaches that are not able to generalise across different objectives and/or metrics. In this paper, we argue that the interested party could have objectives and metrics that are not necessarily related to recognising agents' goals or plans. Thus, to generalise the task of Planning Environment Redesign, we develop a general environment redesign approach that is metric-agnostic and leverages recent research on top-quality planning to efficiently redesign planning environments according to any interested party's objective and metric. Experiments over a set of environment redesign benchmarks show that our general approach outperforms existing approaches when using well-known metrics, such as facilitating the recognition of goals, as well as its effectiveness when solving environment redesign tasks that optimise a novel set of different metrics.
翻訳日:2024-02-15 12:05:49 公開日:2024-02-14
# エージェントと人間と環境の統一化に向けて

Towards Unified Alignment Between Agents, Humans, and Environment ( http://arxiv.org/abs/2402.07744v2 )

ライセンス: Link先を確認
Zonghan Yang, An Liu, Zijun Liu, Kaiming Liu, Fangzhou Xiong, Yile Wang, Zeyuan Yang, Qingyuan Hu, Xinrui Chen, Zhenhe Zhang, Fuwen Luo, Zhicheng Guo, Peng Li, Yang Liu(参考訳) 基礎モデルの急速な進歩は、基礎モデルの普遍的な能力を活用して推論、意思決定、環境相互作用を行う自律エージェントの繁栄につながった。 しかし、複雑な現実的な環境では、エージェントの有効性は限定的である。 本研究では, エージェントと人間の意図, 環境動態, 金融予算の制限などの自己契約の同時調整を提唱する, $\mathbf{u}$nified $\mathbf{a}$lignment for $\mathbf{a}$gents (\mathbf{ua}^2$) の原則を紹介する。 我々は,$\mathbf{ua}^2$の観点から,現在のエージェント研究を概観し,既存のエージェントベンチマークやメソッド候補における無視された要因を強調する。 また,webshopには,意図を示すユーザプロファイル,複雑な環境ダイナミクスのためのパーソナライズされたリランキング,自己制約を反映したランタイムコスト統計など,現実的な機能を導入して概念実証を行う。 次に、$\mathbf{UA}^2$の原則に従い、エージェントの初期設計を提案し、その性能を適合したWebShopのいくつかの候補ベースラインでベンチマークする。 広範な実験結果はさらに、$\mathbf{ua}^2$ の原理の重要性を証明した。 本研究は,一般問題解決能力を向上させた自律エージェント研究の次のステップに光を当てる。

The rapid progress of foundation models has led to the prosperity of autonomous agents, which leverage the universal capabilities of foundation models to conduct reasoning, decision-making, and environmental interaction. However, the efficacy of agents remains limited when operating in intricate, realistic environments. In this work, we introduce the principles of $\mathbf{U}$nified $\mathbf{A}$lignment for $\mathbf{A}$gents ($\mathbf{UA}^2$), which advocate for the simultaneous alignment of agents with human intentions, environmental dynamics, and self-constraints such as the limitation of monetary budgets. From the perspective of $\mathbf{UA}^2$, we review the current agent research and highlight the neglected factors in existing agent benchmarks and method candidates. We also conduct proof-of-concept studies by introducing realistic features to WebShop, including user profiles to demonstrate intentions, personalized reranking for complex environmental dynamics, and runtime cost statistics to reflect self-constraints. We then follow the principles of $\mathbf{UA}^2$ to propose an initial design of our agent, and benchmark its performance with several candidate baselines in the retrofitted WebShop. The extensive experimental results further prove the importance of the principles of $\mathbf{UA}^2$. Our research sheds light on the next steps of autonomous agent research with improved general problem-solving abilities.
翻訳日:2024-02-15 12:05:22 公開日:2024-02-14
# 未知の遅延を伴うオンラインシークエンシャル意思決定

Online Sequential Decision-Making with Unknown Delays ( http://arxiv.org/abs/2402.07703v2 )

ライセンス: Link先を確認
Ping Wu and Heyan Huang and Zhengyang Liu(参考訳) オンライン・シーケンシャルな意思決定の分野では、オンライン・凸最適化(oco)の枠組みを利用して遅延の問題に対処し、決定のフィードバックが未知の遅延で届くようにする。 ユークリッドノルムや勾配情報に限定された従来の研究とは異なり、様々な種類のフィードバックを処理する近似解に基づく遅延アルゴリズムの3つのファミリーを提案する。 提案アルゴリズムは万能であり,普遍規範にも適用可能である。 具体的には、損失関数の完全な情報によるフィードバックのための遅延正規化リーダアルゴリズムのファミリーと、損失関数の勾配情報によるフィードバックのための遅延ミラーDescentアルゴリズムのファミリーと、損失関数の勾配の値情報によるフィードバックのための単純化された遅延ミラーDescentアルゴリズムのファミリーを紹介する。 各アルゴリズムに対して、一般凸性および相対的強凸性の場合の対応する後悔境界を提供する。 また,具体的な例によって,各アルゴリズムの効率性を異なる規範で示す。 さらに, 理論結果は, 標準設定に分解した場合の現在の最適境界値と一致している。

In the field of online sequential decision-making, we address the problem with delays utilizing the framework of online convex optimization (OCO), where the feedback of a decision can arrive with an unknown delay. Unlike previous research that is limited to Euclidean norm and gradient information, we propose three families of delayed algorithms based on approximate solutions to handle different types of received feedback. Our proposed algorithms are versatile and applicable to universal norms. Specifically, we introduce a family of Follow the Delayed Regularized Leader algorithms for feedback with full information on the loss function, a family of Delayed Mirror Descent algorithms for feedback with gradient information on the loss function and a family of Simplified Delayed Mirror Descent algorithms for feedback with the value information of the loss function's gradients at corresponding decision points. For each type of algorithm, we provide corresponding regret bounds under cases of general convexity and relative strong convexity, respectively. We also demonstrate the efficiency of each algorithm under different norms through concrete examples. Furthermore, our theoretical results are consistent with the current best bounds when degenerated to standard settings.
翻訳日:2024-02-15 12:04:53 公開日:2024-02-14
# 言語処理としての食品レコメンデーション(F-RLP) : パーソナライズされた文脈パラダイム

Food Recommendation as Language Processing (F-RLP): A Personalized and Contextual Paradigm ( http://arxiv.org/abs/2402.07477v2 )

ライセンス: Link先を確認
Ali Rostami, Ramesh Jain, Amir M. Rahmani(参考訳) 最先端のルールベースと分類ベースの食品レコメンデーションシステムは、実用的で有用になる上で大きな課題に直面している。 この難しさは、ほとんどの機械学習モデルが、ほぼ無限のクラスと、不均衡データセット内の限られた数のサンプルによって特徴づけられる問題に苦しむため、主に発生する。 逆に、レコメンデーションエンジンとしての大規模言語モデル(llm)の出現は有望な道筋を提供している。 しかし、言語処理としての汎用推奨(rlp)アプローチは、効果的な食品推奨に必要な重要な要素を欠いている。 このギャップに対処するために、食品特化、調整されたインフラを提供する新しいフレームワークであるF-RLP(Food Recommendation as Language Processing)を紹介します。 F-RLPはLLMの能力を最大限に活用し、より正確でパーソナライズされた食品レコメンデーションの道を開く。

State-of-the-art rule-based and classification-based food recommendation systems face significant challenges in becoming practical and useful. This difficulty arises primarily because most machine learning models struggle with problems characterized by an almost infinite number of classes and a limited number of samples within an unbalanced dataset. Conversely, the emergence of Large Language Models (LLMs) as recommendation engines offers a promising avenue. However, a general-purpose Recommendation as Language Processing (RLP) approach lacks the critical components necessary for effective food recommendations. To address this gap, we introduce Food Recommendation as Language Processing (F-RLP), a novel framework that offers a food-specific, tailored infrastructure. F-RLP leverages the capabilities of LLMs to maximize their potential, thereby paving the way for more accurate, personalized food recommendations.
翻訳日:2024-02-15 12:04:35 公開日:2024-02-14
# LoCoとM2-BERTを用いた長期検索モデルのベンチマークと構築

Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT ( http://arxiv.org/abs/2402.07440v2 )

ライセンス: Link先を確認
Jon Saad-Falcon, Daniel Y. Fu, Simran Arora, Neel Guha, Christopher R\'e(参考訳) 検索パイプラインは、多くの機械学習システムの不可欠なコンポーネントで、ドキュメントが長い(例えば10kトークンなど)ドメインや、関連するドキュメントを識別するには、テキスト全体にわたって情報を合成する必要がある。 これらのドメインに適したロングコンテキスト検索エンコーダの開発には,(1)ロングコンテキスト検索性能の評価方法,(2)ショートコンテキスト(クエリ対応)とロングコンテキスト(ドキュメント対応)の両方を表現するベース言語モデルを事前トレーニングする方法,(3)gpuメモリ制約によって課されるバッチサイズ制限下での検索のためにこのモデルを微調整する方法,の3つの課題がある。 これらの課題に対処するために,我々はまず,チャンキングが不可能あるいは有効でない長文検索のための新しい12タスクベンチマークであるLoCoV1を紹介する。 次に、M2-BERT検索エンコーダについて述べる。M2-BERT検索エンコーダは、Monarch Mixerアーキテクチャから構築された80Mパラメータの状態空間エンコーダモデルであり、最大32Kトークンまで拡張可能である。 本稿では、このエンコーダが短いコンテキストシーケンスと長いコンテキストシーケンスの両方を処理できるプリトレーニングデータ混合と、このベースモデルを単一サンプルバッチのみで検索する微調整アプローチについて述べる。 最後に,LoCoV1上のM2-BERT検索エンコーダを検証したところ,90倍のパラメータを含むにもかかわらず,競合するTransformerベースのモデルを少なくとも23.3ポイント上回っていることがわかった。

Retrieval pipelines-an integral component of many machine learning systems-perform poorly in domains where documents are long (e.g., 10K tokens or more) and where identifying the relevant document requires synthesizing information across the entire text. Developing long-context retrieval encoders suitable for these domains raises three challenges: (1) how to evaluate long-context retrieval performance, (2) how to pretrain a base language model to represent both short contexts (corresponding to queries) and long contexts (corresponding to documents), and (3) how to fine-tune this model for retrieval under the batch size limitations imposed by GPU memory constraints. To address these challenges, we first introduce LoCoV1, a novel 12 task benchmark constructed to measure long-context retrieval where chunking is not possible or not effective. We next present the M2-BERT retrieval encoder, an 80M parameter state-space encoder model built from the Monarch Mixer architecture, capable of scaling to documents up to 32K tokens long. We describe a pretraining data mixture which allows this encoder to process both short and long context sequences, and a finetuning approach that adapts this base model to retrieval with only single-sample batches. Finally, we validate the M2-BERT retrieval encoder on LoCoV1, finding that it outperforms competitive Transformer-based models by at least 23.3 points, despite containing upwards of 90x fewer parameters.
翻訳日:2024-02-15 12:04:19 公開日:2024-02-14
# Re-DiffiNet:拡散モデルを用いた腫瘍セグメンテーションにおける異常損失のモデル化

Re-DiffiNet: Modeling discrepancies loss in tumor segmentation using diffusion models ( http://arxiv.org/abs/2402.07354v2 )

ライセンス: Link先を確認
Tianyi Ren, Abhishek Sharma, Juampablo Heras Rivera, Harshitha Rebala, Ethan Honey, Agamdeep Chopra, Jacob Ruzevick, Mehmet Kurt(参考訳) 腫瘍マージンの同定はグリオ芽腫の外科的決定に不可欠であり、神経外科医に信頼できる支援を提供する。 長年にわたって腫瘍セグメンテーションのためのディープラーニングアーキテクチャは改善されてきたが、臨床現場に適した完全自律システムの構築は、まだモデル予測が臨床応用に望まれる精度と一般化のレベルに達していないため、大きな課題である。 生成的モデリング技術は近年大きく改善されている。 具体的には、GAN(Generative Adversarial Networks)とDDPM(Denoising-Diffusion-based Model)を使用して、より少ないアーティファクトとより微細な属性で高品質な画像を生成する。 本稿では, DDPMを用いて, U-Netのようなセグメンテーションモデルの出力と基底真実との相違をモデル化するRe-Diffinetというフレームワークを紹介する。 差分を明示的にモデル化することにより、最新のU-Netセグメンテーションモデルと比較して、Diceスコアの0.55\%、HD95の16.28\%が5倍以上のクロスバリデーションから平均的に改善されていることを示す。

Identification of tumor margins is essential for surgical decision-making for glioblastoma patients and provides reliable assistance for neurosurgeons. Despite improvements in deep learning architectures for tumor segmentation over the years, creating a fully autonomous system suitable for clinical floors remains a formidable challenge because the model predictions have not yet reached the desired level of accuracy and generalizability for clinical applications. Generative modeling techniques have seen significant improvements in recent times. Specifically, Generative Adversarial Networks (GANs) and Denoising-diffusion-based models (DDPMs) have been used to generate higher-quality images with fewer artifacts and finer attributes. In this work, we introduce a framework called Re-Diffinet for modeling the discrepancy between the outputs of a segmentation model like U-Net and the ground truth, using DDPMs. By explicitly modeling the discrepancy, the results show an average improvement of 0.55\% in the Dice score and 16.28\% in HD95 from cross-validation over 5-folds, compared to the state-of-the-art U-Net segmentation model.
翻訳日:2024-02-15 12:03:47 公開日:2024-02-14
# MolTC:言語モデルにおける分子関係モデリングを目指して

MolTC: Towards Molecular Relational Modeling In Language Models ( http://arxiv.org/abs/2402.03781v4 )

ライセンス: Link先を確認
Junfeng Fang, Shuai Zhang, Chang Wu, Zhengyi Yang, Zhiyuan Liu, Sihang Li, Kun Wang, Wenjie Du and Xiang Wang(参考訳) 分子間の相互作用を理解することを目的とした分子関係学習(MRL)は、生化学研究の進展において重要な役割を担っている。 近年,膨大な知識リポジトリと高度な論理推論能力で知られる大規模言語モデル (LLM) の採用が,MRLの効率的かつ効果的な方法として注目されている。 その可能性にもかかわらず、これらの手法は主としてテキストデータに依存しており、分子グラフに固有の構造情報の豊富さを十分に活用していない。 さらに、統一フレームワークの欠如は、多種多様なデータセット間で学習されたインタラクションメカニズムの共有を妨げるため、情報の活用不足の問題を悪化させる。 これらの課題に対処するため、本研究では分子相互作用予測のための新しいllmベースのマルチモーダルフレームワークであるmoltc(chain-of-thought (cot) theory)を提案している。 統合MRLを実現するため、MollTCは、クロスデータセット情報共有のための動的パラメータ共有戦略を革新的に開発している。 さらに,MolTCを効果的に訓練するために,多階層CoTの概念を導入して訓練パラダイムを洗練させ,MRLを含む生化学LLMの開発のための包括的分子インタラクティブインストラクションデータセットを構築した。 我々の実験は4000,000以上の分子対を含む様々なデータセットで実施され、現在のGNNおよびLLMベースラインよりも優れていることを示した。 コードはhttps://github.com/MangoKiller/MolTCで入手できる。

Molecular Relational Learning (MRL), aiming to understand interactions between molecular pairs, plays a pivotal role in advancing biochemical research. Recently, the adoption of large language models (LLMs), known for their vast knowledge repositories and advanced logical inference capabilities, has emerged as a promising way for efficient and effective MRL. Despite their potential, these methods predominantly rely on the textual data, thus not fully harnessing the wealth of structural information inherent in molecular graphs. Moreover, the absence of a unified framework exacerbates the issue of information underutilization, as it hinders the sharing of interaction mechanism learned across diverse datasets. To address these challenges, this work proposes a novel LLM-based multi-modal framework for Molecular inTeraction prediction following Chain-of-Thought (CoT) theory, termed MolTC, which effectively integrate graphical information of two molecules in pair. For achieving a unified MRL, MolTC innovatively develops a dynamic parameter-sharing strategy for cross-dataset information sharing. Moreover, to train MolTC efficiently, we introduce a Multi-hierarchical CoT concept to refine its training paradigm, and conduct a comprehensive Molecular Interactive Instructions dataset for the development of biochemical LLMs involving MRL. Our experiments, conducted across various datasets involving over 4,000,000 molecular pairs, exhibit the superiority of our method over current GNN and LLM-based baselines. Code is available at https://github.com/MangoKiller/MolTC.
翻訳日:2024-02-15 12:02:59 公開日:2024-02-14
# SemRel2024: 14言語用セマンティックテキスト関連データセットのコレクション

SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 14 Languages ( http://arxiv.org/abs/2402.08638v2 )

ライセンス: Link先を確認
Nedjma Ousidhoum, Shamsuddeen Hassan Muhammad, Mohamed Abdalla, Idris Abdulmumin, Ibrahim Said Ahmad, Sanchit Ahuja, Alham Fikri Aji, Vladimir Araujo, Abinew Ali Ayele, Pavan Baswani, Meriem Beloucif, Chris Biemann, Sofia Bourhim, Christine De Kock, Genet Shanko Dekebo, Oumaima Hourrane, Gopichand Kanumolu, Lokesh Madasu, Samuel Rutunda, Manish Shrivastava, Thamar Solorio, Nirmal Surange, Hailegnaw Getaneh Tilaye, Krishnapriya Vishnubhotla, Genta Winata, Seid Muhie Yimam, Saif M. Mohammad(参考訳) 意味的関連性の探索と定量化は言語表現の中心である。 LLM(Large Language Models)の機能とパフォーマンスに関する洞察を提供するなど、さまざまなNLPタスクにまたがる重要な意味を持っている。 初期のNLP研究は主に意味的類似性(しばしば英語の文脈内で)に焦点を当てていたが、代わりに意味的関連性のより広範な現象を調査した。 本稿では,14ヶ国語(アフリカーンス語,アルジェリア語,アムハラ語,英語,ハウサ語,ヒンディー語,インドネシア語,キニアルワンダ語,マラティ語,モロッコ語,現代標準アラビア語,パンジャビ語,スペイン語,テルグ語)の母語話者による新しい意味関連性データセットであるsemrelを提案する。 これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。 SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。 スコアは比較アノテーションフレームワークを用いて得られる。 データ収集とアノテーションプロセス、データセット構築時の課題、NLPにおけるそれらの影響と有用性について説明する。 さらに、各言語および異なる言語に対する実験を報告します。

Exploring and quantifying semantic relatedness is central to representing language. It holds significant implications across various NLP tasks, including offering insights into the capabilities and performance of Large Language Models (LLMs). While earlier NLP research primarily focused on semantic similarity, often within the English language context, we instead investigate the broader phenomenon of semantic relatedness. In this paper, we present SemRel, a new semantic relatedness dataset collection annotated by native speakers across 14 languages:Afrikaans, Algerian Arabic, Amharic, English, Hausa, Hindi, Indonesian, Kinyarwanda, Marathi, Moroccan Arabic, Modern Standard Arabic, Punjabi, Spanish, and Telugu. These languages originate from five distinct language families and are predominantly spoken in Africa and Asia -- regions characterised by a relatively limited availability of NLP resources. Each instance in the SemRel datasets is a sentence pair associated with a score that represents the degree of semantic textual relatedness between the two sentences. The scores are obtained using a comparative annotation framework. We describe the data collection and annotation processes, related challenges when building the datasets, and their impact and utility in NLP. We further report experiments for each language and across the different languages.
翻訳日:2024-02-15 11:59:20 公開日:2024-02-14
# トレーニングフリーな非リジッド編集のための時間ステップアウェアサンプリングによる潜時インバージョン

Latent Inversion with Timestep-aware Sampling for Training-free Non-rigid Editing ( http://arxiv.org/abs/2402.08601v2 )

ライセンス: Link先を確認
Yunji Jung, Seokju Lee, Tair Djanibekov, Hyunjung Shim, Jong Chul Ye(参考訳) テキスト誘導非剛体編集は、周囲の動作や構成の変更など、入力画像の複雑な編集を含む。 入力構造を操作する必要があるため、既存のメソッドは、特に安定した拡散と組み合わせてオブジェクトのアイデンティティとバックグラウンドを保存するのに苦労することが多い。 本研究では,編集性を損なうことなくアイデンティティ保存品質を向上させることを目的とした,安定した拡散を伴う非リジッド編集のためのトレーニングフリー手法を提案する。 提案手法は,テキスト最適化,潜時反転,タイムステップ対応テキストインジェクションサンプリングの3段階からなる。 最近のImagicの成功に触発されて、スムーズな編集にテキスト最適化を採用しました。 次に,入力画像のアイデンティティをモデル微調整なしで保持するために潜時反転を導入する。 潜時反転の入力再構成能力をフル活用するために, 時刻認識型テキストインジェクションサンプリングを提案する。 これにより、初期サンプリングステップでソーステキストプロンプトを注入し、その後サンプリングステップでターゲットプロンプトに遷移することにより、入力画像の構造を効果的に保持する。 この戦略的アプローチはテキスト最適化とシームレスに調和し、元のアイデンティティを失うことなく複雑な非厳密な編集を容易にする。 本手法は, アイデンティティ保存, 編集性, 美的品質の観点から, 広範囲な実験により有効性を示す。

Text-guided non-rigid editing involves complex edits for input images, such as changing motion or compositions within their surroundings. Since it requires manipulating the input structure, existing methods often struggle with preserving object identity and background, particularly when combined with Stable Diffusion. In this work, we propose a training-free approach for non-rigid editing with Stable Diffusion, aimed at improving the identity preservation quality without compromising editability. Our approach comprises three stages: text optimization, latent inversion, and timestep-aware text injection sampling. Inspired by the recent success of Imagic, we employ their text optimization for smooth editing. Then, we introduce latent inversion to preserve the input image's identity without additional model fine-tuning. To fully utilize the input reconstruction ability of latent inversion, we suggest timestep-aware text inject sampling. This effectively retains the structure of the input image by injecting the source text prompt in early sampling steps and then transitioning to the target prompt in subsequent sampling steps. This strategic approach seamlessly harmonizes with text optimization, facilitating complex non-rigid edits to the input without losing the original identity. We demonstrate the effectiveness of our method in terms of identity preservation, editability, and aesthetic quality through extensive experiments.
翻訳日:2024-02-15 11:58:54 公開日:2024-02-14
# 多スケールガラスセグメンテーションと一次予測指針

Glass Segmentation with Multi Scales and Primary Prediction Guiding ( http://arxiv.org/abs/2402.08571v2 )

ライセンス: Link先を確認
Zhiyu Xu and Qingliang Chen(参考訳) ガラスのような物体は、私たちの日常生活の至るところで見られ、既存の方法ではそれらを分割することが非常に難しい。 透明性の性質はカオス的背景からそれらを検出するという大きな課題を引き起こし、あいまいな分離境界はそれらの正確な輪郭の取得をさらに妨げている。 ガラスを無視する移動機械は、透明な障壁にぶつかる大きなリスクや鏡に映っている物体を分析するのが難しいため、ガラスのような物体を正確に見つけ、輪郭を完全に把握することは極めて重要である。 本稿では,スケール統合戦略と改良手法に触発されて,空間的関係を抽出する能力を向上させるための細かな再スケーリング・マージモジュール(frm)と,余剰セマンティクスをよりよく分離するプライマリ予測案内モジュール(ppg)からなるmgnetという新ネットワークを提案する。 さらに,不確実性を考慮した新しい損失関数を用いてモデルを監督し,高信頼セグメンテーションマップを作成する。 さまざまなデータセットに関して異なる設定でトレーニングする必要がある既存のガラスセグメンテーションモデルとは異なり、我々のモデルは一貫性のある設定でトレーニングされており、3つの人気のある公開データセットで優れたパフォーマンスを実現している。 コードは利用可能です。

Glass-like objects can be seen everywhere in our daily life which are very hard for existing methods to segment them. The properties of transparencies pose great challenges of detecting them from the chaotic background and the vague separation boundaries further impede the acquisition of their exact contours. Moving machines which ignore glasses have great risks of crashing into transparent barriers or difficulties in analysing objects reflected in the mirror, thus it is of substantial significance to accurately locate glass-like objects and completely figure out their contours. In this paper, inspired by the scale integration strategy and the refinement method, we proposed a brand-new network, named as MGNet, which consists of a Fine-Rescaling and Merging module (FRM) to improve the ability to extract spatially relationship and a Primary Prediction Guiding module (PPG) to better mine the leftover semantics from the fused features. Moreover, we supervise the model with a novel loss function with the uncertainty-aware loss to produce high-confidence segmentation maps. Unlike the existing glass segmentation models that must be trained on different settings with respect to varied datasets, our model are trained under consistent settings and has achieved superior performance on three popular public datasets. Code is available at
翻訳日:2024-02-15 11:58:33 公開日:2024-02-14
# 高次元条件下における無差別刑罰に対するLeave-out Cross Validationの理論的検討

Theoretical Analysis of Leave-one-out Cross Validation for Non-differentiable Penalties under High-dimensional Settings ( http://arxiv.org/abs/2402.08543v2 )

ライセンス: Link先を確認
Haolin Zou, Arnab Auddy, Kamiar Rahnama Rad, Arian Maleki(参考訳) 高次元環境における正規化モデルのアウト・オブ・サンプルリスクを推定することに焦点を当てた近年の大規模かつ重要な研究にもかかわらず、一般化ラッソや核規範のような非微分性ペナルティに対するこの問題の理論的理解は失われている。 本稿では,この課題を解決する。 サンプルサイズ n と特徴数 p の両方が大きく、n/p と信号-雑音比 (観測当たり) が有限である比例的な高次元状態においてこの問題を研究する。 我々は, サンプル外リスクを推定する上で, 期待される2乗誤差(LO)に対して, 有限サンプル上限を与える。 ここで提示される理論的枠組みは、LOの精度を示す経験的発見を解明するための確かな基盤を提供する。

Despite a large and significant body of recent work focused on estimating the out-of-sample risk of regularized models in the high dimensional regime, a theoretical understanding of this problem for non-differentiable penalties such as generalized LASSO and nuclear norm is missing. In this paper we resolve this challenge. We study this problem in the proportional high dimensional regime where both the sample size n and number of features p are large, and n/p and the signal-to-noise ratio (per observation) remain finite. We provide finite sample upper bounds on the expected squared error of leave-one-out cross-validation (LO) in estimating the out-of-sample risk. The theoretical framework presented here provides a solid foundation for elucidating empirical findings that show the accuracy of LO.
翻訳日:2024-02-15 11:58:10 公開日:2024-02-14
# 半監督エンターメント信号による可塑性抽出合理化

Plausible Extractive Rationalization through Semi-Supervised Entailment Signal ( http://arxiv.org/abs/2402.08479v2 )

ライセンス: Link先を確認
Yeo Wei Jie, Ranjan Satapathy, Erik Cambria(参考訳) 複雑で不透明なブラックボックスモデルの使用の増加は、解釈可能な測度の採用を必要とするが、そのような選択肢の1つは、より解釈可能な代替手段として機能する抽出的合理化モデルである。 これらのモデルは、説明-予測モデルとしても知られ、理論を抽出し、その後、抽出された情報で予測者を条件付けるために説明器モデルを用いる。 彼らの主な目的は、抽出された合理性によって表される正確で忠実な説明を提供することである。 本稿では,抽出された有理量の妥当性を最適化する半教師付き手法を提案する。 我々は、事前訓練された自然言語推論(NLI)モデルを採用し、さらに、教師付き論理の小さなセット(10\%$)に微調整する。 NLI予測器は、エンテーメントアライメントにより、説明者への監視信号のソースとして活用される。 質問応答タスクにおける説明と回答のアライメント合意を強制することにより、真理ラベルにアクセスせずに性能を向上させることができることを示す。 ERASERデータセットに対する我々のアプローチを評価し,提案手法が教師付き抽出モデルを用いて同等の結果を得ることを示す。

The increasing use of complex and opaque black box models requires the adoption of interpretable measures, one such option is extractive rationalizing models, which serve as a more interpretable alternative. These models, also known as Explain-Then-Predict models, employ an explainer model to extract rationales and subsequently condition the predictor with the extracted information. Their primary objective is to provide precise and faithful explanations, represented by the extracted rationales. In this paper, we take a semi-supervised approach to optimize for the plausibility of extracted rationales. We adopt a pre-trained natural language inference (NLI) model and further fine-tune it on a small set of supervised rationales ($10\%$). The NLI predictor is leveraged as a source of supervisory signals to the explainer via entailment alignment. We show that, by enforcing the alignment agreement between the explanation and answer in a question-answering task, the performance can be improved without access to ground truth labels. We evaluate our approach on the ERASER dataset and show that our approach achieves comparable results with supervised extractive models and outperforms unsupervised approaches by $> 100\%$.
翻訳日:2024-02-15 11:57:54 公開日:2024-02-14
# hqnet: nisq時代の量子ニューラルネットワークの効果的なトレーニングに量子ノイズを利用する

HQNET: Harnessing Quantum Noise for Effective Training of Quantum Neural Networks in NISQ Era ( http://arxiv.org/abs/2402.08475v2 )

ライセンス: Link先を確認
Muhammad Kashif, Muhammad Shafique(参考訳) 本稿では,量子ノイズの複雑なダイナミクスとバレンプラトー(BP)の開始と緩和への影響を考察し,QNNのスケーラビリティを著しく阻害する現象について述べる。 BPは理想的なノイズのない条件に比べてノイズの多い量子環境では早く現れるが、しかしながら、量子ビット測定観測器の戦略的選択はこの問題に効果的に対処できる。 この目的のために, pauliz, paulix, pauliy, and a specially designed arbitrary hermitian observable といった様々な可観測関数を,コスト関数と量子回路の所望の出力の要件に合わせて検討する。 本分析は,全キュービットにわたる測定と,qnnフレームワーク内のシングルキュービット計測に焦点を合わせ,グローバルコスト関数定義とローカルコスト関数定義の両方を包含する。 以上より, グローバルコスト関数のシナリオでは, paulix と pauliy observables がより平坦な最適化環境につながり, 特に騒音条件下では bps の増加が示唆された。 逆に、パウリZ観測器は最大8キュービットのトレーニング性を維持するが、10キュービットのBPに遭遇する。 特に、グローバルコスト関数で使用される任意のエルミート可観測性は、ノイズの利点としてユニークな利点を示し、最大10キュービットまでの効果的なトレーニングを容易にする。 さらに、従来の3つの観測装置(PauliX、PauliY、PauliZ)のうち、局所的なコスト関数により、PauliZは最大10キュービットのノイズ条件下でのトレーニング効率を保ちながら、PauliXとPauliYは同様の利点を示しておらず、BPに影響を受けない。 本研究は,QNNトレーニングにおけるノイズ考慮の重要性を強調し,ノイズの多い量子コンピューティング環境におけるQNN性能向上のための観測可能な選択のための戦略的アプローチを提案する。

This paper delves into the intricate dynamics of quantum noise and its influence on the onset and mitigation of barren plateaus (BPs) - a phenomenon that critically impedes the scalability of QNNs. We find that BPs appear earlier in noisy quantum environments compared to ideal, noise-free conditions.However, strategic selection of qubit measurement observables can effectively tackle this issue. To this end, we examine a variety of observables, such as PauliZ,PauliX, PauliY, and a specially designed arbitrary Hermitian observable, tailored to the requirements of the cost function and the desired outputs of quantum circuits. Our analysis encompasses both global and local cost function definitions, with the former involving measurements across all qubits and the latter focusing on single-qubit measurements within the QNN framework. Our findings indicate that in a global cost function scenario, PauliX and PauliY observables lead to flatter optimization landscapes, signaling BPs with increasing qubits, especially in noisy conditions. Conversely, the PauliZ observable maintains trainability up to 8 qubits but encounters BPs at 10 qubits. Notably, the arbitrary Hermitian observable, when used with a global cost function, shows a unique advantage as it benefits from noise, facilitating effective training up to 10 qubits. Furthermore, with a local cost function, out of the three conventional observables (PauliX, PauliY and PauliZ), PauliZ is more effective, sustaining training efficiency under noisy conditions for up to 10 qubits, while PauliX and PauliY do not show similar benefits and remain susceptible to BPs. Our results highlight the importance of noise consideration in QNN training and propose a strategic approach to observable selection to improve QNN performance in noisy quantum computing environments thus contributing to the advancement of quantum machine learning research.
翻訳日:2024-02-15 11:57:32 公開日:2024-02-14
# Javaメソッドの生成: 4つのAIベースのコードアシスタントの実証評価

Generating Java Methods: An Empirical Assessment of Four AI-Based Code Assistants ( http://arxiv.org/abs/2402.08431v2 )

ライセンス: Link先を確認
Vincenzo Corso, Leonardo Mariani, Daniela Micucci and Oliviero Riganelli(参考訳) aiベースのコードアシスタントは、コード開発を容易化し、スピードアップできる有望なツールである。 彼らは機械学習アルゴリズムと自然言語処理を利用して開発者と対話し、プロジェクトに組み込むことのできるコードスニペット(例えばメソッドの実装)を提案する。 最近の研究は、開発者が実際に直面するタスクのスペクトルと性質を捉えない単純な例題問題(よく知られたアルゴリズムの再実装など)を用いたコードアシスタントの有効性を実証的に研究している。 本稿では、GitHub Copilot、Tabnine、ChatGPT、Google Bardという4つの人気のあるAIベースのコードアシスタントを、実生活のオープンソースJavaプロジェクトから構築した100のメソッドのデータセットで比較し、コンテキスト要素からの複雑さと依存性のさまざまなケースを考慮して、この分野の知識を拡大する。 その結果、Copilotは他のテクニックよりも正確であることが多いが、他のアプローチによって完全に仮定されるアシスタントは存在しない。 興味深いことに、これらのソリューションの有効性は、単一のクラスの境界外で依存関係を扱うときに劇的に低下する。

AI-based code assistants are promising tools that can facilitate and speed up code development. They exploit machine learning algorithms and natural language processing to interact with developers, suggesting code snippets (e.g., method implementations) that can be incorporated into projects. Recent studies empirically investigated the effectiveness of code assistants using simple exemplary problems (e.g., the re-implementation of well-known algorithms), which fail to capture the spectrum and nature of the tasks actually faced by developers. In this paper, we expand the knowledge in the area by comparatively assessing four popular AI-based code assistants, namely GitHub Copilot, Tabnine, ChatGPT, and Google Bard, with a dataset of 100 methods that we constructed from real-life open-source Java projects, considering a variety of cases for complexity and dependency from contextual elements. Results show that Copilot is often more accurate than other techniques, yet none of the assistants is completely subsumed by the rest of the approaches. Interestingly, the effectiveness of these solutions dramatically decreases when dealing with dependencies outside the boundaries of single classes.
翻訳日:2024-02-15 11:56:53 公開日:2024-02-14
# Spear-Phishing 検出のためのプロンプト型文脈ベクトル

Prompted Contextual Vectors for Spear-Phishing Detection ( http://arxiv.org/abs/2402.08309v2 )

ライセンス: Link先を確認
Daniel Nahmias, Gal Engelberg, Dan Klein, Asaf Shabtai(参考訳) 大きな言語モデル(llm)が脅威をエスカレートし、説得力のあるeメールを生成し、ターゲットの偵察を容易にする。 そこで本研究では,llmのアンサンブルを用いて表現ベクトルを生成する新しい文書ベクトル化法に基づく検出手法を提案する。 LLMに人為的な質問の推論と応答を促すことで、メールの内容に共通する説得原理の存在を定量化し、下流の教師あり機械学習モデルのためのコンテキスト文書ベクトルを生成する。 本手法は,プロプライエタリなシステムによって生成されるユニークなデータセットを用いて評価し,ターゲット探索とスピアフィッシングメール生成を自動化する。 本手法は,従来のフィッシングと良性メールのみからなるトレーニングセットを用いて,LLM生成したスピアフィッシングメールの識別において91%のF1スコアを達成する。 llm推論を用いた革新的な文書ベクトル化手法,高品質スピアフィッシングメールの公開データセット,メール検出における提案手法の有効性が実証された。 この手法は様々な文書分類タスク、特に逆問題領域に利用することができる。

Spear-phishing attacks present a significant security challenge, with large language models (LLMs) escalating the threat by generating convincing emails and facilitating target reconnaissance. To address this, we propose a detection approach based on a novel document vectorization method that utilizes an ensemble of LLMs to create representation vectors. By prompting LLMs to reason and respond to human-crafted questions, we quantify the presence of common persuasion principles in the email's content, producing prompted contextual document vectors for a downstream supervised machine learning model. We evaluate our method using a unique dataset generated by a proprietary system that automates target reconnaissance and spear-phishing email creation. Our method achieves a 91% F1 score in identifying LLM-generated spear-phishing emails, with the training set comprising only traditional phishing and benign emails. Key contributions include an innovative document vectorization method utilizing LLM reasoning, a publicly available dataset of high-quality spear-phishing emails, and the demonstrated effectiveness of our method in detecting such emails. This methodology can be utilized for various document classification tasks, particularly in adversarial problem domains.
翻訳日:2024-02-15 11:56:33 公開日:2024-02-14
# ChatCell: 自然言語によるシングルセル分析の実現

ChatCell: Facilitating Single-Cell Analysis with Natural Language ( http://arxiv.org/abs/2402.08303v2 )

ライセンス: Link先を確認
Yin Fang, Kangwei Liu, Ningyu Zhang, Xinle Deng, Penghui Yang, Zhuo Chen, Xiangru Tang, Mark Gerstein, Xiaohui Fan, Huajun Chen(参考訳) 大規模言語モデル(llm)が急速に発展するにつれて、科学におけるその影響力はますます顕著になりつつある。 タスク一般化と自由形式の対話におけるLLMの出現する能力は、化学や生物学などの分野を著しく前進させる可能性がある。 しかし、生物の基礎的な構成要素を形成する単細胞生物学の分野は、今でもいくつかの課題に直面している。 高度な知識障壁と現在の方法のスケーラビリティの制限により、シングルセルデータのマスタリングにおけるllmの完全な活用が制限され、直接的なアクセシビリティと迅速なイテレーションが妨げられる。 この目的のために,自然言語による単細胞分析の容易化によるパラダイムシフトの表れであるchatcellを紹介する。 語彙適応と統合シーケンス生成を活用して、ChatCellは単細胞生物学の深い専門知識と多様な分析タスクに対応する能力を獲得した。 広範な実験により、chatcellの堅牢なパフォーマンスとシングルセル洞察の深化の可能性が示され、この重要な分野におけるよりアクセスしやすく直感的な探索への道が開けた。 プロジェクトのホームページはhttps://zjunlp.github.io/project/chatcellで閲覧できます。

As Large Language Models (LLMs) rapidly evolve, their influence in science is becoming increasingly prominent. The emerging capabilities of LLMs in task generalization and free-form dialogue can significantly advance fields like chemistry and biology. However, the field of single-cell biology, which forms the foundational building blocks of living organisms, still faces several challenges. High knowledge barriers and limited scalability in current methods restrict the full exploitation of LLMs in mastering single-cell data, impeding direct accessibility and rapid iteration. To this end, we introduce ChatCell, which signifies a paradigm shift by facilitating single-cell analysis with natural language. Leveraging vocabulary adaptation and unified sequence generation, ChatCell has acquired profound expertise in single-cell biology and the capability to accommodate a diverse range of analysis tasks. Extensive experiments further demonstrate ChatCell's robust performance and potential to deepen single-cell insights, paving the way for more accessible and intuitive exploration in this pivotal field. Our project homepage is available at https://zjunlp.github.io/project/ChatCell.
翻訳日:2024-02-15 11:55:35 公開日:2024-02-14
# gnnのアウトオブディストリビューション一般化に関する研究--アーキテクチャの観点から

Investigating Out-of-Distribution Generalization of GNNs: An Architecture Perspective ( http://arxiv.org/abs/2402.08228v2 )

ライセンス: Link先を確認
Kai Guo, Hongzhi Wen, Wei Jin, Yaming Guo, Jiliang Tang, Yi Chang(参考訳) グラフニューラルネットワーク(GNN)は、テストデータがトレーニングデータの同じ分布から来るという仮定の下で、顕著なパフォーマンスを示している。 しかし、現実のシナリオでは、この仮定は必ずしも有効とは限らない。 その結果、グラフの文脈でOOD(Out-of-Distribution)問題を探求することに注目が集まっている。 既存の取り組みのほとんどは、データ駆動手法と戦略に基づく学習という、2つの‘textbf{model-agnostic’の観点からのグラフOODの一般化の改善に集中している。 しかし、既存の研究と直交するグラフ OOD 一般化に対するよく知られた \textbf{GNN model architectures} の影響を調べることには、限定的な注意が払われている。 本稿では,近年のGNNの共通構築ブロックを調べることで,アーキテクチャの観点からのグラフのOOD一般化に関する包括的調査を行う。 広範な実験を通して、グラフ自己認識機構と疎結合アーキテクチャの両方がグラフOOD一般化に肯定的に寄与することを明らかにする。 対照的に、線形分類層はグラフOOD一般化能力を損なう傾向がある。 さらに、これらの発見を裏付ける深い理論的洞察と議論を提供する。 これらの知見により、グラフ自己保持機構と疎結合アーキテクチャの両方の堅牢性を活用するために設計された新しいGNNバックボーンモデルであるDGATを開発することができる。 広範な実験結果から,本モデルの有効性が示され,様々なトレーニング戦略において有意かつ一貫した強化が得られた。

Graph neural networks (GNNs) have exhibited remarkable performance under the assumption that test data comes from the same distribution of training data. However, in real-world scenarios, this assumption may not always be valid. Consequently, there is a growing focus on exploring the Out-of-Distribution (OOD) problem in the context of graphs. Most existing efforts have primarily concentrated on improving graph OOD generalization from two \textbf{model-agnostic} perspectives: data-driven methods and strategy-based learning. However, there has been limited attention dedicated to investigating the impact of well-known \textbf{GNN model architectures} on graph OOD generalization, which is orthogonal to existing research. In this work, we provide the first comprehensive investigation of OOD generalization on graphs from an architecture perspective, by examining the common building blocks of modern GNNs. Through extensive experiments, we reveal that both the graph self-attention mechanism and the decoupled architecture contribute positively to graph OOD generalization. In contrast, we observe that the linear classification layer tends to compromise graph OOD generalization capability. Furthermore, we provide in-depth theoretical insights and discussions to underpin these discoveries. These insights have empowered us to develop a novel GNN backbone model, DGAT, designed to harness the robust properties of both graph self-attention mechanism and the decoupled architecture. Extensive experimental results demonstrate the effectiveness of our model under graph OOD, exhibiting substantial and consistent enhancements across various training strategies.
翻訳日:2024-02-15 11:55:16 公開日:2024-02-14
# 長周期連続モデルの復活について --トランスフォーマー時代の調査と研究機会-

On the Resurgence of Recurrent Models for Long Sequences -- Survey and Research Opportunities in the Transformer Era ( http://arxiv.org/abs/2402.08132v2 )

ライセンス: Link先を確認
Matteo Tiezzi, Michele Casoni, Alessandro Betti, Tommaso Guidi, Marco Gori and Stefano Melacci(参考訳) 機械学習コミュニティにとって長年の課題は、非常に長いデータ列から処理と学習が可能なモデルを開発することです。 トランスフォーマーベースのネットワーク(例えば、大きな言語モデル)の見事な成果は、並列注意をそのような課題に成功するための鍵として推進し、リカレントモデルの古典的なシーケンシャルな処理の役割を無視する。 しかし、ここ数年、自己注意の二次的な複雑さに関心を持つ研究者は、ニューラルモデルの新しい波を提案しており、これはトランスフォーマーとリカレントネットという2つの世界から最高のものを得ている。 一方、深宇宙状態モデルは時間とともに関数近似を行うための強固なアプローチとして登場し、シーケンシャルデータから学習する新たな視点を開拓し、この分野の多くの人々に応用され、(線形)リカレントニューラルネットワークの特殊なクラスを実装した。 本調査は,再帰の包括関係を包括するこれらの傾向を概観することを目的としている。 さらに、無限長列のより現実的な設定のために既知の長い列を処理するという考え方を捨てて、ストリームデータから生涯オンライン学習の分野を分断する、新たな研究機会を強調する。

A longstanding challenge for the Machine Learning community is the one of developing models that are capable of processing and learning from very long sequences of data. The outstanding results of Transformers-based networks (e.g., Large Language Models) promotes the idea of parallel attention as the key to succeed in such a challenge, obfuscating the role of classic sequential processing of Recurrent Models. However, in the last few years, researchers who were concerned by the quadratic complexity of self-attention have been proposing a novel wave of neural models, which gets the best from the two worlds, i.e., Transformers and Recurrent Nets. Meanwhile, Deep Space-State Models emerged as robust approaches to function approximation over time, thus opening a new perspective in learning from sequential data, followed by many people in the field and exploited to implement a special class of (linear) Recurrent Neural Networks. This survey is aimed at providing an overview of these trends framed under the unifying umbrella of Recurrence. Moreover, it emphasizes novel research opportunities that become prominent when abandoning the idea of processing long sequences whose length is known-in-advance for the more realistic setting of potentially infinite-length sequences, thus intersecting the field of lifelong-online learning from streamed data.
翻訳日:2024-02-15 11:54:50 公開日:2024-02-14
# 医療言語モデルにおける認知バイアスへの対処

Addressing cognitive bias in medical language models ( http://arxiv.org/abs/2402.08113v2 )

ライセンス: Link先を確認
Samuel Schmidgall, Carl Harris, Ime Essien, Daniel Olshvang, Tawsifur Rahman, Ji Woong Kim, Rojin Ziaei, Jason Eshraghian, Peter Abadir, Rama Chellappa(参考訳) 医療分野への大型言語モデル(LLM)の統合は, 臨床意思決定のシミュレーションにおいて有望な精度で注目されている。 しかし、医師の判断は認知バイアスの存在を含む多くの要因によって形成されるため、臨床意思決定はシミュレーションよりも複雑である。 しかし、LLMがヒト臨床医に影響を及ぼす認知バイアスの程度は未解明のままである。 我々の仮説は、llmが認知バイアスを含む臨床質問に直面すると、そのようなバイアスなしで提示される同じ質問に対して、その回答は極めて少ないと仮定する。 本研究では,LLMの認知バイアス評価のための新しいベンチマークであるBiasMedQAを開発した。 BiasMedQAを用いて, GPT-4, Mixtral-8x70B, GPT-3.5, PaLM-2, Llama 270B-chat, PMC Llama 13Bの6種類のLCMを評価した。 米国医学ライセンス試験(usmle)のステップ1、ステップ2、ステップ3から1273の質問に対して、臨床に関連する一般的な認知バイアスを再現するためにこれらのモデルをテストした。 llama 2 70b-chat と pmc llama 13b とは対照的に,gpt-4 のバイアスに対する回復力は,認知バイアスによって不釣り合いに影響を受ける。 本研究は,医療用LSMの開発において,より安全で信頼性の高い医療応用をめざして,バイアス軽減の必要性を強調した。

The integration of large language models (LLMs) into the medical field has gained significant attention due to their promising accuracy in simulated clinical decision-making settings. However, clinical decision-making is more complex than simulations because physicians' decisions are shaped by many factors, including the presence of cognitive bias. However, the degree to which LLMs are susceptible to the same cognitive biases that affect human clinicians remains unexplored. Our hypothesis posits that when LLMs are confronted with clinical questions containing cognitive biases, they will yield significantly less accurate responses compared to the same questions presented without such biases. In this study, we developed BiasMedQA, a novel benchmark for evaluating cognitive biases in LLMs applied to medical tasks. Using BiasMedQA we evaluated six LLMs, namely GPT-4, Mixtral-8x70B, GPT-3.5, PaLM-2, Llama 2 70B-chat, and the medically specialized PMC Llama 13B. We tested these models on 1,273 questions from the US Medical Licensing Exam (USMLE) Steps 1, 2, and 3, modified to replicate common clinically-relevant cognitive biases. Our analysis revealed varying effects for biases on these LLMs, with GPT-4 standing out for its resilience to bias, in contrast to Llama 2 70B-chat and PMC Llama 13B, which were disproportionately affected by cognitive bias. Our findings highlight the critical need for bias mitigation in the development of medical LLMs, pointing towards safer and more reliable applications in healthcare.
翻訳日:2024-02-15 11:54:23 公開日:2024-02-14
# 離散拡散モデルの収束解析:一様化による厳密な実装

Convergence Analysis of Discrete Diffusion Model: Exact Implementation through Uniformization ( http://arxiv.org/abs/2402.08095v2 )

ライセンス: Link先を確認
Hongrui Chen, Lexing Ying(参考訳) 拡散モデルはデータ生成タスクで大きな経験的成功を収めた。 近年、拡散モデルのフレームワークを離散状態空間に適応させ、言語やグラフのような本質的に離散的なデータをモデリングするためのより自然なアプローチを提供している。 これは前処理とそれに対応する逆処理の両方をCTMC(Continuous Time Markov Chains)として定式化する。 本稿では,離散拡散モデルの理論的性質について考察する。 具体的には,連続マルコフ連鎖の一様化を利用したアルゴリズムを導入し,ランダムな時間点上の遷移を実装した。 離散スコア関数の学習に関する合理的な仮定の下で、超キューブ上の任意の分布からサンプリングするためのトータル変分距離とKL発散保証を導出する。 この結果は,$\mathbb{r}^d$ における拡散モデルの最先端の成果と一致し,$\mathbb{r}^d$ 設定と比較して離散拡散モデルの利点を更に強調する。

Diffusion models have achieved huge empirical success in data generation tasks. Recently, some efforts have been made to adapt the framework of diffusion models to discrete state space, providing a more natural approach for modeling intrinsically discrete data, such as language and graphs. This is achieved by formulating both the forward noising process and the corresponding reversed process as Continuous Time Markov Chains (CTMCs). In this paper, we investigate the theoretical properties of the discrete diffusion model. Specifically, we introduce an algorithm leveraging the uniformization of continuous Markov chains, implementing transitions on random time points. Under reasonable assumptions on the learning of the discrete score function, we derive Total Variation distance and KL divergence guarantees for sampling from any distribution on a hypercube. Our results align with state-of-the-art achievements for diffusion models in $\mathbb{R}^d$ and further underscore the advantages of discrete diffusion models in comparison to the $\mathbb{R}^d$ setting.
翻訳日:2024-02-15 11:53:53 公開日:2024-02-14
# スコアベース生成モデルによる部分ガウス確率分布の族学習における次元の呪いを破る

Score-based generative models break the curse of dimensionality in learning a family of sub-Gaussian probability distributions ( http://arxiv.org/abs/2402.08082v2 )

ライセンス: Link先を確認
Frank Cole, Yulong Lu(参考訳) スコアベース生成モデル(SGM)は膨大な画像生成タスクにおいて大きな成功を収めてきたが、その数学的基礎はまだ限られている。 本稿では,sgmの近似と一般化を,サブガウジアン確率分布の族を学習するために解析する。 標準ガウス測度に対する相対密度の観点から、確率分布の複雑性の概念を導入する。 パラメータが適切に有界なニューラルネットワークによって対数相対密度を局所的に近似できるなら、経験的スコアマッチングによって生成された分布は、全分布を次元非依存の速度で近似する。 ガウスのある種の混合を含む例を通して、我々の理論を説明する。 本証明の必須成分は、フォワード過程に関連する真のスコア関数に対する次元自由深層ニューラルネットワーク近似率を導出することであり、それ自体は興味深い。

While score-based generative models (SGMs) have achieved remarkable success in enormous image generation tasks, their mathematical foundations are still limited. In this paper, we analyze the approximation and generalization of SGMs in learning a family of sub-Gaussian probability distributions. We introduce a notion of complexity for probability distributions in terms of their relative density with respect to the standard Gaussian measure. We prove that if the log-relative density can be locally approximated by a neural network whose parameters can be suitably bounded, then the distribution generated by empirical score matching approximates the target distribution in total variation with a dimension-independent rate. We illustrate our theory through examples, which include certain mixtures of Gaussians. An essential ingredient of our proof is to derive a dimension-free deep neural network approximation rate for the true score function associated with the forward process, which is interesting in its own right.
翻訳日:2024-02-15 11:53:34 公開日:2024-02-14
# マヨラナ符号の符号化

Encoding Majorana codes ( http://arxiv.org/abs/2402.07829v2 )

ライセンス: Link先を確認
Maryam Mudassar, Riley W. Chien and Daniel Gottesman(参考訳) 量子誤り訂正プロトコルを実装するには、まず、符号の正しい部分空間に状態を準備するためのスキームが必要であり、これをユニタリ符号化回路を用いて行うことができる。 このような符号を変換するゲートはフェルミオンパリティを保たなければならないため、マヨラナ符号は特別である。 本稿では,マヨラナ符号のユニタリ符号化回路を安定化行列を用いて計算するアルゴリズムを提案する。 そこで本研究では, ガウス除去法と行演算を基本フェルミオンクリフォード演算に置き換えた2つの手法を提案する。 1つのアプローチはアンシラモードを追加し、すべてのマヨラナ安定剤コードで動作し、2つ目のアプローチはアンシラを使用しないが、完全なパリティが安定化剤群内にある場合は動作しない。

To implement a quantum error correction protocol, we first need a scheme to prepare our state in the correct subspace of the code, and this can be done using a unitary encoding circuit. Majorana codes are special since any gates that transform such codes must preserve fermionic parity. In this paper, we present an algorithm that uses the stabilizer matrix to compute unitary encoding circuits for Majorana codes. We present two approaches, both of which use a version of Gaussian elimination with row operations replaced with elementary fermionic Clifford operations. One approach uses an additional ancilla mode and works for all Majorana stabilizer codes, while the second approach does not use ancilla but does not work if the total parity is inside the stabilizer group.
翻訳日:2024-02-15 11:53:19 公開日:2024-02-14