このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231101となっている論文です。

PDF登録状況(公開日: 20231101)

TitleAuthorsAbstract論文公表日・翻訳日
# Intell-dragonfly:人工知能によるコンテンツ生成技術に基づくサイバーセキュリティ攻撃サーフェス生成エンジン

Intell-dragonfly: A Cybersecurity Attack Surface Generation Engine Based On Artificial Intelligence-generated Content Technology ( http://arxiv.org/abs/2311.00240v1 )

ライセンス: Link先を確認
Xingchen Wu, Qin Qiu, Jiaqi Li, Yang Zhao, (参考訳) インターネットの急速な発展に伴い、サイバーセキュリティの問題はますます顕著になっている。 従来のサイバーセキュリティ防衛手法は、常に変化する脅威に直面しているため、革新的な攻撃面生成方法を求めることが重要である。 本研究では,人工知能を用いたサイバーセキュリティ攻撃サーフェス生成エンジンであるIntell-dragonflyを提案する。 本稿では、ChatGPT技術に基づいて、多種多様でパーソナライズされた攻撃シナリオ、ターゲット、要素、スキームを生成する自動攻撃面生成プロセスを設計する。 実ネットワーク環境での実験を通じて、エンジンの効果を従来の手法と比較し、攻撃面の信頼性と適用性を向上させる。 実験の結果,ChatGPT法は攻撃面生成の精度,多様性,操作性において大きな利点があることがわかった。 さらに,エンジンの強度と限界について検討し,サイバーセキュリティ分野への応用の可能性について論じる。 本研究は,サイバーセキュリティ分野への新たなアプローチを提供し,サイバー脅威の防衛と防止に肯定的な影響を与えるものと期待されている。

With the rapid development of the Internet, cyber security issues have become increasingly prominent. Traditional cyber security defense methods are limited in the face of ever-changing threats, so it is critical to seek innovative attack surface generation methods. This study proposes Intell-dragonfly, a cyber security attack surface generation engine based on artificial intelligence generation technology, to meet the challenges of cyber security. Based on ChatGPT technology, this paper designs an automated attack surface generation process, which can generate diversified and personalized attack scenarios, targets, elements and schemes. Through experiments in a real network environment, the effect of the engine is verified and compared with traditional methods, which improves the authenticity and applicability of the attack surface. The experimental results show that the ChatGPT-based method has significant advantages in the accuracy, diversity and operability of attack surface generation. Furthermore, we explore the strengths and limitations of the engine and discuss its potential applications in the field of cyber security. This research provides a novel approach to the field of cyber security that is expected to have a positive impact on defense and prevention of cyberthreats.
翻訳日:2024-03-25 13:55:39 公開日:2023-11-01
# ブトソン・アダマール行列、曲がり列、球面符号

Butson Hadamard matrices, bent sequences, and spherical codes ( http://arxiv.org/abs/2311.00354v1 )

ライセンス: Link先を確認
Minjia Shi, Danni Lu, Andrés Armario, Ronan Egan, Ferruh Ozbudak, Patrick Solé, (参考訳) 我々は、複雑な$q^{th}$ルート上の位数$n$のアダマール行列、その行列の固有値、および位数$qのシクロトミック場からのガロア自己同型からなるデータに付随する曲がり列の概念を探求する。 特に、様々な$q\le 60$と長さ$n\le 21.$計算的構成法は、Groebner基底と固有空間計算による多項式系の分解を構成する。 正規なアダマール行列、ブッシュ型アダマール行列、一般化されたブールベント関数から無限族を構築することができ、応用として、その行列に付随するコードの被覆半径を$\Z_q以上で推定する。 ここでは、曲がった列が存在するときの中国のユークリッド計量に対して、その量に対する低い境界を導出する。 我々はユークリッド距離スペクトルを与え、球面設計としての強みに依存して、付帯された球面符号の被覆半径の上を有界とする。

We explore a notion of bent sequence attached to the data consisting of an Hadamard matrix of order $n$ defined over the complex $q^{th}$ roots of unity, an eigenvalue of that matrix, and a Galois automorphism from the cyclotomic field of order $q.$ In particular we construct self-dual bent sequences for various $q\le 60$ and lengths $n\le 21.$ Computational construction methods comprise the resolution of polynomial systems by Groebner bases and eigenspace computations. Infinite families can be constructed from regular Hadamard matrices, Bush-type Hadamard matrices, and generalized Boolean bent functions.As an application, we estimate the covering radius of the code attached to that matrix over $\Z_q.$ We derive a lower bound on that quantity for the Chinese Euclidean metric when bent sequences exist. We give the Euclidean distance spectrum, and bound above the covering radius of an attached spherical code, depending on its strength as a spherical design.
翻訳日:2024-03-25 13:55:39 公開日:2023-11-01
# Generalized DePIN Protocol: 分散物理インフラネットワークのためのフレームワーク

Generalised DePIN Protocol: A Framework for Decentralized Physical Infrastructure Networks ( http://arxiv.org/abs/2311.00551v1 )

ライセンス: Link先を確認
Dipankar Sarkar, (参考訳) 本稿では、分散化物理インフラネットワークのための包括的フレームワークであるGeneralized DePIN(GDP)プロトコルを紹介する。 GDPはモジュラーシステムを確立し、ライドシェアリングや電力システムといった分野にまたがる調整されたアプリケーションを可能にします。 機器の搭載、マルチセンサーの冗長性、報酬/報酬メカニズムの活用により、GDPは真の行動を促進し、ネットワーク全体の警戒を確保する。 継続的な監査と更新を通じて、このプロトコルは動的であり、持続可能な分散処理を保証する。

This paper introduces the Generalised DePIN (GDP) protocol, a comprehensive framework for decentralized physical infrastructure networks. GDP establishes a modular system, enabling tailored application across sectors like ridesharing and power systems. Leveraging device onboarding, multi-sensor redundancy, and a reward/penalty mechanism, GDP promotes genuine behavior and ensures network-wide vigilance. Through continuous audits and updates, the protocol remains dynamic, ensuring sustainable decentralized operations.
翻訳日:2024-03-25 13:55:39 公開日:2023-11-01
# InfoGuard:プライバシーに配慮したユーザのためのユーザ制御型アプリケーション非依存暗号化の設計とユーザビリティスタディ

InfoGuard: A Design and Usability Study of User-Controlled Application-Independent Encryption for Privacy-Conscious Users ( http://arxiv.org/abs/2311.00812v1 )

ライセンス: Link先を確認
Tarun Yadav, Austin Cook, Justin Hales, Kent Seamons, (参考訳) 何十億ものセキュアメッセージングユーザーがエンドツーエンド暗号化(E2EE)を採用している。 しかし、課題は残る。 ほとんどの通信アプリケーションはE2EEを提供しておらず、アプリケーションサイロは相互運用性を妨げる。 Reddit上でのプライバシーを意識したユーザのE2EEに関する議論に関する質的な分析では、クライアントアプリケーションをプレーンテキストで信頼すること、暗号化の動作方法に関する明確な指標の欠如、アプリの切り替えに高いコスト、ほとんどのアプリがオープンソースではないという懸念が明らかになった。 ユーザ間通信におけるE2EEを実現するシステムであるInfoGuardを提案する。 InfoGuardでは、アプリケーションがE2EEをサポートしていない場合でも、任意のテキストボックス上で暗号化をトリガーすることができる。 InfoGuardはアプリケーションに到達する前にテキストを暗号化し、クライアントアプリのプレーンテキストへのアクセスを排除します。 InfoGuardはまた、可視暗号化を導入して、ユーザが自分のデータが暗号化されていることを理解しやすくし、システムのセキュリティに対する信頼性を高める。 この設計では、細かな暗号化が可能で、機密性の高いデータ項目を暗号化できる。 ユーザ調査の参加者はInfoGuardが有効で信頼性があり、採用の意思を表明しています。

Billions of secure messaging users have adopted end-to-end encryption (E2EE). Nevertheless, challenges remain. Most communication applications do not provide E2EE, and application silos prevent interoperability. Our qualitative analysis of privacy-conscious users' discussions of E2EE on Reddit reveals concerns about trusting client applications with plaintext, lack of clear indicators about how encryption works, high cost to switch apps, and concerns that most apps are not open source. We propose InfoGuard, a system enabling E2EE for user-to-user communication in any application. InfoGuard allows users to trigger encryption on any textbox, even if the application does not support E2EE. InfoGuard encrypts text before it reaches the application, eliminating the client app's access to plaintext. InfoGuard also incorporates visible encryption to make it easier for users to understand that their data is being encrypted and give them greater confidence in the system's security. The design enables fine-grained encryption, allowing specific sensitive data items to be encrypted while the rest remains visible to the server. Participants in our user study found InfoGuard usable and trustworthy, expressing a willingness to adopt it.
翻訳日:2024-03-25 13:55:39 公開日:2023-11-01
# Secure Arcade:サイバー攻撃に対するゲーム化された防御

Secure Arcade: A Gamified Defense Against Cyber Attacks ( http://arxiv.org/abs/2311.16131v1 )

ライセンス: Link先を確認
Sean Loesch, Ryan Hrastich, Jordan Herbert, Ben Drangstveit, Jacob Weber, Mounika Vanamala, (参考訳) 現代では、生活の利便性と効率を高めるために、ますます複雑なテクノロジーを継続的に受け取っています。 われわれの技術、特にインターネット上で利用できる技術は、前例のないスピードで進歩している。 しかし、このスピードの進歩により、悪意のある攻撃の背後にいる人々は、コンピュータのセキュリティについてほとんど知らない人を利用するのがますます簡単になる。 残念ながら、コンピュータセキュリティ分野の教育は一般的に第三次教育に限られている。 この研究は、ユーザがより警戒的なインターネットユーザになるための学習目標に到達するための、ゲーミフィケーションWebベースのアプリケーションを通じて、この問題に対処する。 1.一般コンピュータセキュリティ用語の学習と記憶 2.暗号の基本概念に親しむこと。 3.電子メールでフィッシング詐欺の可能性を素早く認識すること、そして 4. サーバに対する一般的な攻撃と対処方法を学ぶ。

In modernity, we continually receive increasingly intricate technologies that allow us to increase our lives convenience and efficiency. Our technology, particularly technology available over the internet, is advancing at unprecedented speed. However, this speed of advancement allows those behind malicious attacks to have an increasingly easier time taking advantage of those who know little about computer security. Unfortunately, education in the computer security field is generally limited only to tertiary education. This research addresses this problem through a gamified web-based application that drives users to reach learning goals to help them become more vigilant internet users: 1. Learn and memorize general computer security terminology, 2. Become familiar with basic cryptography concepts, 3. Learn to recognize potential phishing scams via email quickly, and 4. Learn common attacks on servers and how to deal with them.
翻訳日:2024-03-25 13:06:53 公開日:2023-11-01
# LpiCT:プロトコルのためのロジックセキュリティ分析フレームワーク

LpiCT: A logic security analysis framework for protocols ( http://arxiv.org/abs/2312.02171v1 )

ライセンス: Link先を確認
Fusheng Wu, Jinhui Liu, Yanbing Li, Mingtao Ni, (参考訳) 通信およびモバイルシステムにおける通信プロセスの動作を分析しモデル化することを目的としたインタラクションの概念に基づく移動通信の基本理論であり,暗号プロトコルの設計と実装のセキュリティ解析に広く応用されている。 しかし、pi計算は完全なロジックセキュリティ解析を提供していないため、設計におけるロジックの欠陥や暗号プロトコルの実装は時間内には発見できない。 本研究の目的は,暗号プロトコルの設計や実装に論理的欠陥があるかどうかを解析し,ソフトウェアにコード化して実装する際の暗号プロトコルのセキュリティを確保することである。 本稿では,論理規則と証明,バイナリツリー,KMPアルゴリズムを導入し,論理セキュリティ解析フレームワークとアルゴリズムを新たに拡張する。 本稿では,TLS1.3プロトコルの相互運用プロセスの論理セキュリティ証明と解析について述べる。 実験結果から,新たな拡張理論,論理セキュリティ分析フレームワーク,アルゴリズムが,暗号プロトコルの設計と実装に論理的欠陥があるかどうかを効果的に解析できることが示唆された。 暗号プロトコルのセキュリティは、暗号プリミティブだけでなく、暗号プロトコルのコーディングや実装環境にも依存する。 本稿では,暗号プロトコル実装のセキュリティ分析フレームワークを用いて,プロトコル実装のセキュリティを確保する。

The pi calculus is a basic theory of mobile communication based on the notion of interaction, which, aimed at analyzing and modelling the behaviors of communication process in communicating and mobile systems, is widely applied to the security analysis of cryptographic protocol's design and implementation. But the pi calculus does not provide perfect logic security analysis, so the logic flaws in the design and the implementation of a cryptographic protocol can not be discovered in time. The aim is to analyze whether there are logic flaws in the design and the implementation of a cryptographic protocol, so as to ensure the security of the cryptographic protocol when it is encoded into a software and implemented. This paper introduces logic rules and proofs, binary tree and the KMP algorithm, and proposes a new extension the pi calculus theory, a logic security analysis framework and an algorithm. This paper presents the logic security proof and analysis of TLS1.3 protocol's interactional implementation process. Empirical results show that the new extension theory, the logic security analysis framework and the algorithm can effectively analyze whether there are logic flaws in the design and the implementation of a cryptographic protocol. The security of cryptographic protocols depends not only on cryptographic primitives, but also on the coding of cryptographic protocols and the environment in which they are implemented. The security analysis framework of cryptographic protocol implementation proposed in this paper can ensure the security of protocol implementation.
翻訳日:2024-03-25 12:57:08 公開日:2023-11-01
# mtac:階層強化学習に基づくマルチゲイト地形適応四足制御

MTAC: Hierarchical Reinforcement Learning-based Multi-gait Terrain-adaptive Quadruped Controller ( http://arxiv.org/abs/2401.03337v1 )

ライセンス: Link先を確認
Nishaant Shah, Kshitij Tiwari, and Aniket Bera(参考訳) 都市の捜索と救助の任務は、命と損害の損失を最小限に抑えるために迅速なファーストレスポンスを必要とする。 このような取り組みは、特に地震のような大量死事故において、凹凸や荒地のような動的な操作条件を扱わなければならない人道的なロボットによって支援されることが多い。 四足歩行ロボットは、多用途の設計のため、このようなシナリオを支援する可能性がある。 しかし、動的・荒地環境における四足歩行ロボットの制御は、これらのロボットの自由度が多ければ難しい問題である。 現在の四足歩行用ロコモーションコントローラは、複数の適応歩行を生成でき、時間とリソース効率のよい方法でタスクを解き、退屈なトレーニングと手動のチューニング手順を必要とする。 これらの課題に対処するために,階層的強化学習(HRL)を用いたマルチゲット地形適応型コントローラMTACを提案する。 提案手法は,最先端の手法と同様の計算時間を持つ多様な環境に適用できることを示す。 提案手法は,ほとんどのタスクで75%以上動作し,ほとんどのテストケースで従来の作業よりも優れていた。

Urban search and rescue missions require rapid first response to minimize loss of life and damage. Often, such efforts are assisted by humanitarian robots which need to handle dynamic operational conditions such as uneven and rough terrains, especially during mass casualty incidents like an earthquake. Quadruped robots, owing to their versatile design, have the potential to assist in such scenarios. However, control of quadruped robots in dynamic and rough terrain environments is a challenging problem due to the many degrees of freedom of these robots. Current locomotion controllers for quadrupeds are limited in their ability to produce multiple adaptive gaits, solve tasks in a time and resource-efficient manner, and require tedious training and manual tuning procedures. To address these challenges, we propose MTAC: a multi-gait terrain-adaptive controller, which utilizes a Hierarchical reinforcement learning (HRL) approach while being time and memory-efficient. We show that our proposed method scales well to a diverse range of environments with similar compute times as state-of-the-art methods. Our method showed greater than 75% on most tasks, outperforming previous work on the majority of test cases.
翻訳日:2024-01-15 09:19:04 公開日:2023-11-01
# 多スペクトル合成画像による深層学習によるクルミ検出

Walnut Detection Through Deep Learning Enhanced by Multispectral Synthetic Images ( http://arxiv.org/abs/2401.03331v1 )

ライセンス: Link先を確認
Kaiming Fu, Tong Lei, Maryia Halubok, Brian N. Bailey(参考訳) 果樹園内のクルミの正確な識別は、果樹園の管理の効率と生産性を著しく向上させる多くの利点をもたらす。 それにもかかわらず、クルミと葉の間の形状、色、テクスチャによく似た特徴を持つクルミの木の独特の特徴は、注記過程においてそれらを正確に区別する上で非常に困難である。 本研究では,実画像および合成RGB画像とNIR画像の両方を組み込んだ濃厚画像集合上に訓練されたYOLOv5を用いて,クルミ検出効率を向上させる新しい手法を提案する。 オリジナルデータセットと拡張データセットの結果を比較した解析により,合成画像を用いた検出精度が明らかに向上した。

The accurate identification of walnuts within orchards brings forth a plethora of advantages, profoundly amplifying the efficiency and productivity of walnut orchard management. Nevertheless, the unique characteristics of walnut trees, characterized by their closely resembling shapes, colors, and textures between the walnuts and leaves, present a formidable challenge in precisely distinguishing between them during the annotation process. In this study, we present a novel approach to improve walnut detection efficiency, utilizing YOLOv5 trained on an enriched image set that incorporates both real and synthetic RGB and NIR images. Our analysis comparing results from our original and augmented datasets shows clear improvements in detection when using the synthetic images.
翻訳日:2024-01-15 09:18:44 公開日:2023-11-01
# リアルタイム自然災害警報・通信・応答強化のためのデータ駆動型勧告

Data-driven recommendations for enhancing real-time natural hazard warnings, communication, and response ( http://arxiv.org/abs/2311.14678v1 )

ライセンス: Link先を確認
Kate R. Saunders, Owen Forbes, Jess K. Hopf, Charlotte R. Patterson, Sarah A. Vollert, Kaitlyn Brown, Raiha Browning, Miguel Canizares, Richard S. Cottrell, Lanxi Li, Catherine J.S. Kim, Tace P. Stewart, Connie Susilawati, Xiang Y. Zhao, Kate J. Helmstedt(参考訳) 自然災害警報の有効性と妥当性は、データの可用性と、その公衆への行動可能な知識への変換にかかっている。 そのため、リアルタイム警告通信と緊急対応をデータサイエンスの観点から評価する必要がある。 しかし、現在、確立したデータサイエンスのベストプラクティスと、自然の危険警告をサポートするためのそれらの応用との間にはギャップがある。 このパースペクティブは、リアルタイムの警告コミュニケーションと緊急対応を支える既存のデータ駆動アプローチをレビューし、ハザードと影響予測の制限を強調します。 警告を強化するための4つの主要なテーマが強調されている。 (i)危険予測の可視化に最善の実践原則を適用すること。 (ii)より効果的な影響予測のためのデータ機会 三 より局所的な予測のためのデータの利用、及び (4)不確実性を用いたデータ駆動意思決定の改善。 モチベーションの例は2022年にオーストラリアで起きた大規模な洪水から得られる。 この観点からは,データサイエンスを用いた自然災害警報の有効性向上と,データサイエンスと自然災害コミュニティの協調可能性を示す。

The effectiveness and adequacy of natural hazard warnings hinges on the availability of data and its transformation into actionable knowledge for the public. Real-time warning communication and emergency response therefore need to be evaluated from a data science perspective. However, there are currently gaps between established data science best practices and their application in supporting natural hazard warnings. This Perspective reviews existing data-driven approaches that underpin real-time warning communication and emergency response, highlighting limitations in hazard and impact forecasts. Four main themes for enhancing warnings are emphasised: (i) applying best-practice principles in visualising hazard forecasts, (ii) data opportunities for more effective impact forecasts, (iii) utilising data for more localised forecasts, and (iv) improving data-driven decision-making using uncertainty. Motivating examples are provided from the extensive flooding experienced in Australia in 2022. This Perspective shows the capacity for improving the efficacy of natural hazard warnings using data science, and the collaborative potential between the data science and natural hazards communities.
翻訳日:2023-12-03 14:04:42 公開日:2023-11-01
# 波動関数の集合論的メタ物理

A Set-Theoretic Metaphysics for Wavefunction ( http://arxiv.org/abs/2311.16130v1 )

ライセンス: Link先を確認
Paul Tappenden(参考訳) 集合論は数学哲学に革命をもたらしたし、物理学哲学にも革命をもたらした。 物理的対象の集合が物理的対象であることができないという直観は、定性的に同一の認知状態にある数値的に異なる観測者が存在するというユビキタスな仮定から導かれる。 この仮定を覆すと、基本粒子の波動関数は一定の性質を持つ素粒子の集合として構成できる。 オブザーバー宇宙の自由電子(英: free electron in a observers universe)は、異なる軌道上の元素電子の集合であり、それぞれが元素平行宇宙である。 環境電子波動関数の一部を含む観測環境の任意の領域には、平行な元素領域に位置する元素電子のサブセットが存在する。 環境電子である集合上のその部分集合の測度は、環境領域の量子振幅の絶対二乗である。 デコヒーレンス(Decoherence)は、分枝内の準古典事象の客観的確率を測る部分集合への波動関数の分割としてエベレット分岐を誘導する。 相は、多くの相互作用する世界理論と同様に、要素的宇宙間の相互作用を通じて生じ、違いは、オブザーバーの環境が一連の世界によって構成されていることである。 その環境は元素粒子配置の集合としての重ね合わせを含む。

Set theory brought revolution to philosophy of mathematics and it can bring revolution to philosophy of physics too. All that stands in the way is the intuition that sets of physical objects cannot themselves be physical objects, which appears to derive from the ubiquitous assumption that it is possible for there to exist numerically distinct observers in qualitatively identical cognitive states. Overturning that assumption allows construing the wavefunction of an elementary particle as being a set of elemental particles with definite properties. A free electron in an observers universe is a set of elemental electrons on different trajectories, each in an elemental parallel universe. For any region in an observers environment which includes part of the environmental electrons wavefunction there is a subset of elemental electrons located in parallel elemental regions. The measure of that subset on the set which is the environmental electron is the absolute square of quantum amplitude for the environmental region. Decoherence induces Everettian branching as the partitioning of wavefunction into subsets whose measures are the objective probabilities of quasi-classical events within branches. Phase arises through interactions between elemental universes, as with Many Interacting Worlds theory, the difference being that an observers environment is constituted by a set of worlds. That environment contains superpositions as sets of elemental particle configurations.
翻訳日:2023-12-03 13:30:30 公開日:2023-11-01
# 先進人工知能のためのグローバルな計算上限を実装する国際条約

An international treaty to implement a global compute cap for advanced artificial intelligence ( http://arxiv.org/abs/2311.10748v1 )

ライセンス: Link先を確認
Andrea Miotti and Akash Wasil(参考訳) 本稿では,先進的人工知能(AI)の発展からリスクを軽減するための国際条約を提案する。 この条約の主な条項はグローバルな計算上限であり、合意された計算リソース閾値を超えるAIシステムの開発を禁止している。 条約はまた、緊急対応計画の策定と試験、条約を施行するための国際機関の設立交渉、新たな通信チャネルと内部告発者保護の設立、AI軍備競争の回避へのコミットメントも提案している。 この条約は、先進的な人工知能の危険性から文明を保護するための統治体制を実装することで、世界のリーダーにとって有用なテンプレートになることを期待している。

This paper presents an international treaty to reduce risks from the development of advanced artificial intelligence (AI). The main provision of the treaty is a global compute cap: a ban on the development of AI systems above an agreed-upon computational resource threshold. The treaty also proposes the development and testing of emergency response plans, negotiations to establish an international agency to enforce the treaty, the establishment of new communication channels and whistleblower protections, and a commitment to avoid an AI arms race. We hope this treaty serves as a useful template for global leaders as they implement governance regimes to protect civilization from the dangers of advanced artificial intelligence.
翻訳日:2023-11-27 00:45:22 公開日:2023-11-01
# Delta Score: 構造に基づく医薬品設計手法のバインドアセスメントの改善

Delta Score: Improving the Binding Assessment of Structure-Based Drug Design Methods ( http://arxiv.org/abs/2311.12035v1 )

ライセンス: Link先を確認
Minsi Ren, Bowen Gao, Bo Qiang, Yanyan Lan(参考訳) 構造に基づく薬物設計(SBDD)は、特定の結合ポケットを標的とする分子の創出を強調し、創薬の最前線にある。 この領域の最近の進歩は、ターゲット構造がコンテキストとして機能する条件生成タスクとしてSBDDをモデル化し、深層生成モデルと幾何学的深層学習技術の採用を目撃している。 歴史的に、これらのモデルの評価はドッキングスコアを中心にしており、分子とその標的ポケットの間の結合親和性を定量的に表現している。 最先端のモデルでは、生成したリガンドの大多数が、テストセットの真理リガンドのドッキングスコアを上回っていることを示唆しているが、それは疑問である:これらのスコアは現実世界の生物学的ニーズと一致しているか? 本稿では,有形医薬品要求条件に基づく新しい評価基準であるデルタスコアについて紹介する。 実験の結果,現行の深部生成モデルで生成する分子はデルタ値で評価すると,地中真理参照リガンドよりもかなり遅れていることがわかった。 この新しい計量は既存のベンチマークを補完するだけでなく、その後の領域の研究に重要な方向性を与える。

Structure-based drug design (SBDD) stands at the forefront of drug discovery, emphasizing the creation of molecules that target specific binding pockets. Recent advances in this area have witnessed the adoption of deep generative models and geometric deep learning techniques, modeling SBDD as a conditional generation task where the target structure serves as context. Historically, evaluation of these models centered on docking scores, which quantitatively depict the predicted binding affinity between a molecule and its target pocket. Though state-of-the-art models purport that a majority of their generated ligands exceed the docking score of ground truth ligands in test sets, it begs the question: Do these scores align with real-world biological needs? In this paper, we introduce the delta score, a novel evaluation metric grounded in tangible pharmaceutical requisites. Our experiments reveal that molecules produced by current deep generative models significantly lag behind ground truth reference ligands when assessed with the delta score. This novel metric not only complements existing benchmarks but also provides a pivotal direction for subsequent research in the domain.
翻訳日:2023-11-27 00:34:59 公開日:2023-11-01
# 身体ポーズと音声を用いた人体の3次元空間音のモデル化

Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and Audio ( http://arxiv.org/abs/2311.06285v1 )

ライセンス: Link先を確認
Xudong Xu, Dejan Markovic, Jacob Sandakly, Todd Keebler, Steven Krenn, Alexander Richard(参考訳) コンピュータビジョンでは3d人体モデリングが注目されているが、身体の動きと音声によって生成された3d空間音声のモデリングといった音響等価なモデリングはコミュニティでは不足している。 このギャップを埋めるために,全人体に対して正確な3次元空間音声を生成するモデルを提案する。 このシステムは、入力として、ヘッドセットマイクからの音声信号とボディポーズを消費し、出力として送信機の体を囲む3D音場を生成し、3D空間内の任意の位置に空間オーディオを描画することができる。 複数のカメラと345マイクロフォンの球状配列で記録した、人体の初歩的なマルチモーダルデータセットを収集した。 経験的評価により,本モデルは適切な損失を訓練した場合に正確な身体誘発音場を生成できることを実証する。 データセットとコードはオンラインで入手できる。

While 3D human body modeling has received much attention in computer vision, modeling the acoustic equivalent, i.e. modeling 3D spatial audio produced by body motion and speech, has fallen short in the community. To close this gap, we present a model that can generate accurate 3D spatial audio for full human bodies. The system consumes, as input, audio signals from headset microphones and body pose, and produces, as output, a 3D sound field surrounding the transmitter's body, from which spatial audio can be rendered at any arbitrary position in the 3D space. We collect a first-of-its-kind multimodal dataset of human bodies, recorded with multiple cameras and a spherical array of 345 microphones. In an empirical evaluation, we demonstrate that our model can produce accurate body-induced sound fields when trained with a suitable loss. Dataset and code are available online.
翻訳日:2023-11-19 14:30:53 公開日:2023-11-01
# ソーシャルネットワーク上の大規模画像データセットのアップロード・スクラッピングのためのイノベーティブツール

An Innovative Tool for Uploading/Scraping Large Image Datasets on Social Networks ( http://arxiv.org/abs/2311.09237v1 )

ライセンス: Link先を確認
Nicol\`o Fabio Arceri, Oliver Giudice, Sebastiano Battiato(参考訳) 今日では、センシティブなデータ、不適切なコンテンツ、あるいは違法コンテンツ、そして一般的には、法廷で証拠となる可能性のある情報など、よく知られたデジタルプラットフォームを通じて、デジタル情報をますます簡単かつ迅速に検索し、共有することができる。 したがって、法医学的問題を評価するには、関連するプラットフォーム全体にわたってデジタル証拠(例えば、写真、音声)のポストチェーンに遡る方法を見出す必要があります。 多くの研究分野における取引のツールとしての機械学習の導入により、過去数年間で膨大なデータの必要性が劇的に増加してきた。 しかし、データ駆動の研究を適切に行う「正しい」データセットを収集または見つけることは、ある場合において自明ではないことが判明する。特に、あるデジタルメディアのソースメディアプラットフォームを検出するために分析されたデータセットを作成するといった、高度に専門化されたタスクの場合、極めて困難ではない。 本稿では、私たちが意図的に作成したデジタルツールを用いて自動アプローチを提案する。 このツールは、画像データセット全体を希望するデジタルプラットフォームに自動的にアップロードし、アップロードされたすべての画像をダウンロードすることで、分析対象のデータセットを出力するために必要な全体の時間を短縮することができる。

Nowadays, people can retrieve and share digital information in an increasingly easy and fast fashion through the well-known digital platforms, including sensitive data, inappropriate or illegal content, and, in general, information that might serve as probative evidence in court. Consequently, to assess forensics issues, we need to figure out how to trace back to the posting chain of a digital evidence (e.g., a picture, an audio) throughout the involved platforms -- this is what Digital (also Forensics) Ballistics basically deals with. With the entry of Machine Learning as a tool of the trade in many research areas, the need for vast amounts of data has been dramatically increasing over the last few years. However, collecting or simply find the "right" datasets that properly enables data-driven research studies can turn out to be not trivial in some cases, if not extremely challenging, especially when it comes with highly specialized tasks, such as creating datasets analyzed to detect the source media platform of a given digital media. In this paper we propose an automated approach by means of a digital tool that we created on purpose. The tool is capable of automatically uploading an entire image dataset to the desired digital platform and then downloading all the uploaded pictures, thus shortening the overall time required to output the final dataset to be analyzed.
翻訳日:2023-11-19 14:06:18 公開日:2023-11-01
# Relax: エンドツーエンドの動的機械学習のための構成可能な抽象化

Relax: Composable Abstractions for End-to-End Dynamic Machine Learning ( http://arxiv.org/abs/2311.02103v1 )

ライセンス: Link先を確認
Ruihang Lai, Junru Shao, Siyuan Feng, Steven S. Lyubomirsky, Bohan Hou, Wuwei Lin, Zihao Ye, Hongyi Jin, Yuchen Jin, Jiawei Liu, Lesheng Jin, Yaxing Cai, Ziheng Jiang, Yong Wu, Sunghyun Park, Prakalp Srivastava, Jared G. Roesch, Todd C. Mowry, Tianqi Chen(参考訳) 動的形状計算は、現代の機械学習のワークロード、特に大規模言語モデルにおいて重要になっている。 これらのモデルの成功により、さまざまなバックエンド環境にデプロイする必要性が高まった。 本稿では,エンドツーエンドの動的機械学習ワークロードを最適化するコンパイラRelaxを提案する。 relaxは、プログラム全体で動的形状計算を追跡するファーストクラスシンボリック形状アノテーションを導入した。 また、計算グラフ、ループレベルテンソルプログラム、ライブラリ呼び出しを単一の表現でカプセル化し、クロスレベル最適化を可能にするクロスレベル抽象化も導入している。 動的形状モデルを最適化するために提案手法を用いてエンドツーエンドのコンパイルフレームワークを構築する。 大規模言語モデルにおける実験の結果,schellは,最先端のハンド最適化システムと競合するパフォーマンスを,プラットフォーム間で提供し,携帯電話や組み込みデバイス,webブラウザなど,より広い環境に新たな動的モデルの展開を可能にする。

Dynamic shape computations have become critical in modern machine learning workloads, especially in emerging large language models. The success of these models has driven demand for deploying them to a diverse set of backend environments. In this paper, we present Relax, a compiler abstraction for optimizing end-to-end dynamic machine learning workloads. Relax introduces first-class symbolic shape annotations to track dynamic shape computations globally across the program. It also introduces a cross-level abstraction that encapsulates computational graphs, loop-level tensor programs, and library calls in a single representation to enable cross-level optimizations. We build an end-to-end compilation framework using the proposed approach to optimize dynamic shape models. Experimental results on large language models show that Relax delivers performance competitive with state-of-the-art hand-optimized systems across platforms and enables deployment of emerging dynamic models to a broader set of environments, including mobile phones, embedded devices, and web browsers.
翻訳日:2023-11-12 19:46:27 公開日:2023-11-01
# 説明可能な人工知能の概念 --ユーザの視点からの実証的研究-

Notion of Explainable Artificial Intelligence -- An Empirical Investigation from A Users Perspective ( http://arxiv.org/abs/2311.02102v1 )

ライセンス: Link先を確認
AKM Bahalul Haque, A.K.M. Najmul Islam, Patrick Mikalef(参考訳) 人工知能ベースのアプリケーションへの注目が高まり、説明可能性の問題に対する研究の関心が高まっている。 説明可能なAI(XAI)に対するこの新たな研究の注目は、エンドユーザー中心の説明可能なAIを調査する必要があることを主張している。 そこで本研究では,ユーザ中心の説明可能なAIを調査し,研究コンテキストとしてレコメンデーションシステムを検討する。 推薦システムに関する質的データを集めるために,フォーカスグループインタビューを実施した。 参加者は,推奨項目のエンドユーザーによる理解,想定可能な説明,推奨事項の提示に関する意見について質問した。 以上の結果から,エンドユーザーはオンデマンドの補足情報による非技術的かつ適切な説明を求めていることがわかった。 さらに,個人データの利用状況,詳細なユーザフィードバック,正確かつ信頼性の高い説明を求めるユーザも観察した。 最後に,要求の収集と検証のための開発プロセスにエンドユーザーが関与することを目的とした合成フレームワークを提案する。

The growing attention to artificial intelligence-based applications has led to research interest in explainability issues. This emerging research attention on explainable AI (XAI) advocates the need to investigate end user-centric explainable AI. Thus, this study aims to investigate usercentric explainable AI and considered recommendation systems as the study context. We conducted focus group interviews to collect qualitative data on the recommendation system. We asked participants about the end users' comprehension of a recommended item, its probable explanation, and their opinion of making a recommendation explainable. Our findings reveal that end users want a non-technical and tailor-made explanation with on-demand supplementary information. Moreover, we also observed users requiring an explanation about personal data usage, detailed user feedback, and authentic and reliable explanations. Finally, we propose a synthesized framework that aims at involving the end user in the development process for requirements collection and validation.
翻訳日:2023-11-12 19:46:08 公開日:2023-11-01
# 行列乗算によるMaxSATの解法

Solving MaxSAT with Matrix Multiplication ( http://arxiv.org/abs/2311.02101v1 )

ライセンス: Link先を確認
David Warde-Farley, Vinod Nair, Yujia Li, Ivan Lobov, Felix Gimeno, Simon Osindero(参考訳) 本稿では,GPUやTPUなどのニューラルネットワークアクセラレータ上での動作に特化して設計されたMaxSAT(Maximum Satisfiability)のための不完全アルゴリズムを提案する。 直交正規形式のMaxSAT問題のインスタンスが与えられた場合、この手順は平衡分布を持つ制限ボルツマンマシン(RBM)を構築し、ブール代入の確率は満足する節数で指数関数的である。 ブロックギブスサンプリングは、並列マルコフ連鎖による代入空間を確率的に探索するために用いられる。 行列の乗算はrbmにおけるブロックギブスサンプリングの主要な計算プリミティブであるため、本手法はニューラルネットワーク加速器に適したエレガントにシンプルなアルゴリズム(40行のjax)を導出する。 RBMの理論的結果は、RBMの必要な可視単位と隠蔽単位の数が、MaxSATインスタンスの変数数と定数サイズの節数にのみ線形にスケールすることを保証し、ギブスステップの計算コストがインスタンスサイズと合理的にスケールすることを保証する。 検索スループットは、1つのアクセラレータ内で並列チェーンをバッチ化し、複数のアクセラレータに分散することで向上することができる。 さらに、CPU上で実行されている単位伝搬に基づくヒューリスティックが、サンプリングされた割り当てに定期的に適用される。 我々のアプローチはRbmSATと呼ばれ、MaxSATのアルゴリズム・ハードウェア共同設計における新しい設計点である。 我々は,2018年から2021年までの年次maxsat評価の不完全な非重み付けトラックから問題インスタンスのサブセットをタイムド結果として提示する。 同じ実行時間とCPUの計算予算(TPUは含まれていない)を割り当てると、RbmSATは4年のうち3つから引き出された問題で他の参加者よりも優れていた。 rbmsatが独特に設計されているtpuクラスタ上で同じ実行時間を考えると、4年間にわたって引き起こされた問題の解法を全て上回る。

We propose an incomplete algorithm for Maximum Satisfiability (MaxSAT) specifically designed to run on neural network accelerators such as GPUs and TPUs. Given a MaxSAT problem instance in conjunctive normal form, our procedure constructs a Restricted Boltzmann Machine (RBM) with an equilibrium distribution wherein the probability of a Boolean assignment is exponential in the number of clauses it satisfies. Block Gibbs sampling is used to stochastically search the space of assignments with parallel Markov chains. Since matrix multiplication is the main computational primitive for block Gibbs sampling in an RBM, our approach leads to an elegantly simple algorithm (40 lines of JAX) well-suited for neural network accelerators. Theoretical results about RBMs guarantee that the required number of visible and hidden units of the RBM scale only linearly with the number of variables and constant-sized clauses in the MaxSAT instance, ensuring that the computational cost of a Gibbs step scales reasonably with the instance size. Search throughput can be increased by batching parallel chains within a single accelerator as well as by distributing them across multiple accelerators. As a further enhancement, a heuristic based on unit propagation running on CPU is periodically applied to the sampled assignments. Our approach, which we term RbmSAT, is a new design point in the algorithm-hardware co-design space for MaxSAT. We present timed results on a subset of problem instances from the annual MaxSAT Evaluation's Incomplete Unweighted Track for the years 2018 to 2021. When allotted the same running time and CPU compute budget (but no TPUs), RbmSAT outperforms other participating solvers on problems drawn from three out of the four years' competitions. Given the same running time on a TPU cluster for which RbmSAT is uniquely designed, it outperforms all solvers on problems drawn from all four years.
翻訳日:2023-11-12 19:45:52 公開日:2023-11-01
# テキストから構造へ: 大きな言語モデルを使って法律専門家システムの開発を支援する

From Text to Structure: Using Large Language Models to Support the Development of Legal Expert Systems ( http://arxiv.org/abs/2311.04911v1 )

ライセンス: Link先を確認
Samyar Janatian, Hannes Westermann, Jinzhe Tan, Jaromir Savelka, Karim Benyekhlef(参考訳) 形式的な表現で立法文書を符号化することは、AI & Lawの分野における様々なタスクにとって重要な前提条件である。 例えば、法律に焦点をあてたルールベースのエキスパートシステムは、法律の適用方法を理解し、有用なコンテキストと情報を提供することで、在職者を支援することができる。 しかし, 形式的表現にエンコードする法律やその他の資料を解析するプロセスは, 時間を要する可能性があり, そうしたシステムの発展のボトルネックとなっている。 本稿では,GPT-4のような大規模言語モデル(LLM)が,法律から構造化表現を自動的に抽出できる程度について検討する。 法律決定支援システムのJoursBotの方法論によれば、LSMを使って法律から経路を作成し、その経路を評価し、それらを手作業で作成した経路と比較する。 結果は有望であり、生成された経路の60%は、盲目比較で手作業で作成された経路と同等かそれ以上に評価されている。 このアプローチは、透過的で説明可能なシンボリックアプローチに基づくシステムのコスト開発を容易にするために、LLMの能力を活用するための有望な道を提案する。

Encoding legislative text in a formal representation is an important prerequisite to different tasks in the field of AI & Law. For example, rule-based expert systems focused on legislation can support laypeople in understanding how legislation applies to them and provide them with helpful context and information. However, the process of analyzing legislation and other sources to encode it in the desired formal representation can be time-consuming and represents a bottleneck in the development of such systems. Here, we investigate to what degree large language models (LLMs), such as GPT-4, are able to automatically extract structured representations from legislation. We use LLMs to create pathways from legislation, according to the JusticeBot methodology for legal decision support systems, evaluate the pathways and compare them to manually created pathways. The results are promising, with 60% of generated pathways being rated as equivalent or better than manually created ones in a blind comparison. The approach suggests a promising path to leverage the capabilities of LLMs to ease the costly development of systems based on symbolic approaches that are transparent and explainable.
翻訳日:2023-11-12 19:36:33 公開日:2023-11-01
# オントロジーによる領域横断知識の処理

Ontology-Driven Processing of Transdisciplinary Domain Knowledge ( http://arxiv.org/abs/2311.04910v1 )

ライセンス: Link先を確認
Oleksandr Palagin, Mykola Petrenko, Sergii Kryvyi, Mykola Boyko, Kyrylo Malakhov(参考訳) このモノグラフは、人類が直面する現代の現実世界の問題の特定の側面について論じている。 現代科学はそれらを根本的な方法で解くことができない。 ヴェルナドスキーのヌースフィアの論文は、学際的障壁を克服し、学際的相互作用と現代の科学全体の効果を高めるような方法で構築する必要がある科学の世界観に訴えている。 私たちは学際知識全般について話している。 世界の実践では、学際的な知識を提供するであろう体系的な方法論や一般的な科学的理論の特定の形態はいまだに存在しない。 非線形学際相互作用は現代科学の進化の標準である。 同時に、新しい学際的理論(科学研究の領域)が事実上作成され、そのプロセスは、個人またはグループから学際的相互作用を通じて、全体論的な科学世界観を創出する方向に、何度も繰り返されている。

The monograph discusses certain aspects of modern real-world problems facing humanity, which are much more challenging than scientific ones. Modern science is unable to solve them in a fundamental way. Vernadsky's noosphere thesis, in fact, appeals to the scientific worldview that needs to be built in a way that overcomes the interdisciplinary barriers and increases the effectiveness of interdisciplinary interaction and modern science overall. We are talking about the general transdisciplinary knowledge. In world practice, there is still no systematic methodology and a specific form of generally accepted valid scientific theory that would provide transdisciplinary knowledge. Non-linear interdisciplinary interaction is the standard of evolution of modern science. At the same time, a new transdisciplinary theory (domain of scientific research) is being de facto created and the process is repeated many times: from an individual or group of disciplines, through interdisciplinary interaction, in a direction that brings us closer to creating a holistic general scientific worldview.
翻訳日:2023-11-12 19:36:12 公開日:2023-11-01
# 加速度計を用いた即時後腹膜上肢運動機能の評価

Assessing Upper Limb Motor Function in the Immediate Post-Stroke Perioud Using Accelerometry ( http://arxiv.org/abs/2311.04226v1 )

ライセンス: Link先を確認
Mackenzie Wallich, Kenneth Lai, and Svetlana Yanushkevich(参考訳) 加速度計はストローク後患者の上肢機能を測定する客観的手段として広く研究されている。 本研究の目的は, 最近入院した脳卒中患者の上肢運動機能の急激な変化をモニターし, 迅速に検出するために, 長期リハビリテーション研究で頻繁に使用される加速度計による測定値が有効かどうかを判断することである。 6つの二分分類モデルが, 頭蓋上肢加速度計の特徴データの変動時間に基づいて作成した。 モデルは、新しい入力データを、重度または中等度の運動機能という2つのクラスに分けて評価した。 分類モデルは,15分間のデータウィンドウでは 0.72 から 0.82 まで,120 分間のデータウィンドウでは 0.77 から 0.94 まで,曲線下 (auc) のスコアを得た。 これらの結果は、脳卒中直後にの運動機能の変化を医療従事者に警告するために加速度計と機械学習の有効性をさらに調査するための予備的評価と基礎となった。

Accelerometry has been extensively studied as an objective means of measuring upper limb function in patients post-stroke. The objective of this paper is to determine whether the accelerometry-derived measurements frequently used in more long-term rehabilitation studies can also be used to monitor and rapidly detect sudden changes in upper limb motor function in more recently hospitalized stroke patients. Six binary classification models were created by training on variable data window times of paretic upper limb accelerometer feature data. The models were assessed on their effectiveness for differentiating new input data into two classes: severe or moderately severe motor function. The classification models yielded Area Under the Curve (AUC) scores that ranged from 0.72 to 0.82 for 15-minute data windows to 0.77 to 0.94 for 120-minute data windows. These results served as a preliminary assessment and a basis on which to further investigate the efficacy of using accelerometry and machine learning to alert healthcare professionals to rapid changes in motor function in the days immediately following a stroke.
翻訳日:2023-11-12 19:34:47 公開日:2023-11-01
# 地域気候モデル予測のための深層学習エミュレータの伝達可能性と説明可能性:将来への展望

Transferability and explainability of deep learning emulators for regional climate model projections: Perspectives for future applications ( http://arxiv.org/abs/2311.03378v1 )

ライセンス: Link先を確認
Jorge Bano-Medina and Maialen Iturbide and Jesus Fernandez and Jose Manuel Gutierrez(参考訳) 地域気候モデル (RCM) は、地域気候の変動と変化をシミュレートし研究するための重要なツールである。 しかし、その高い計算コストは、複数のシナリオをカバーする地域気候予測の包括的なアンサンブルの生成を制限し、地域全体にわたってグローバル気候モデル(GCM)を駆動する。 ディープラーニングモデルに基づくRCMエミュレータは、最近、モデルをトレーニングするために短いRCMシミュレーションしか必要としないコスト効率と有望な代替手段として導入されている。 したがって、異なる期間、シナリオ、およびGCMへの転送可能性を評価することは、GCMとRCMの両方固有のバイアスが重要な役割を果たす重要な複雑なタスクとなる。 本稿では,本論文で紹介する2つの異なるエミュレーション手法(PPとMOS,以下,本論文で紹介する用語に従う)を考察することにより,この問題に着目する。 標準評価手法に加えて,eXplainable Artificial Intelligence (XAI) の分野からの手法を用いて解析を拡張し,モデルが学習した経験的リンクの物理的一貫性を評価する。 いずれの手法もrcmの気候特性を異なる期間とシナリオ(ソフトトランスファー可能性)でエミュレートすることができるが,エミュレーション関数の一貫性はアプローチによって異なる。 PPは堅牢で物理的に意味のあるパターンを学ぶが、MOSの結果はGCMに依存しており、場合によっては物理的に一貫性がない。 どちらのアプローチも、GCM依存バイアス(ハード転送可能性)が存在するため、エミュレーション関数を他のGCMに転送する際の問題に直面する。 これは地域の気候予測のアンサンブルを構築する可能性を制限する。 最後に、将来の応用への展望について述べる。

Regional climate models (RCMs) are essential tools for simulating and studying regional climate variability and change. However, their high computational cost limits the production of comprehensive ensembles of regional climate projections covering multiple scenarios and driving Global Climate Models (GCMs) across regions. RCM emulators based on deep learning models have recently been introduced as a cost-effective and promising alternative that requires only short RCM simulations to train the models. Therefore, evaluating their transferability to different periods, scenarios, and GCMs becomes a pivotal and complex task in which the inherent biases of both GCMs and RCMs play a significant role. Here we focus on this problem by considering the two different emulation approaches proposed in the literature (PP and MOS, following the terminology introduced in this paper). In addition to standard evaluation techniques, we expand the analysis with methods from the field of eXplainable Artificial Intelligence (XAI), to assess the physical consistency of the empirical links learnt by the models. We find that both approaches are able to emulate certain climatological properties of RCMs for different periods and scenarios (soft transferability), but the consistency of the emulation functions differ between approaches. Whereas PP learns robust and physically meaningful patterns, MOS results are GCM-dependent and lack physical consistency in some cases. Both approaches face problems when transferring the emulation function to other GCMs, due to the existence of GCM-dependent biases (hard transferability). This limits their applicability to build ensembles of regional climate projections. We conclude by giving some prospects for future applications.
翻訳日:2023-11-12 19:32:45 公開日:2023-11-01
# フィッシング,スパム,ハムの検出のための改良されたトランスフォーマーモデル:大規模言語モデルアプローチ

An Improved Transformer-based Model for Detecting Phishing, Spam, and Ham: A Large Language Model Approach ( http://arxiv.org/abs/2311.04913v1 )

ライセンス: Link先を確認
Suhaima Jamal and Hayden Wimmer(参考訳) フィッシングとスパム検出は長年の課題であり、多くの学術研究の対象となっている。 大規模言語モデル(LLM)は社会を変革し、確立された課題を解決するための新しい革新的なアプローチを提供する大きな可能性を秘めている。 フィッシングとスパムは、世界中のeメールユーザーに財政的な困難と時間とリソースの喪失をもたらし、ランサムウェアの脅威アクターの入り口となることが多い。 検出アプローチ、特にヒューリスティックベースのアプローチは存在するが、LSMは、この課題を理解し解決するための新たな未調査領域に参入する可能性を提供する。 LLMは、ビジネス、消費者、学界全体から急速に状況を変え、社会の可能性の変革の可能性を示している。 これに基づいて、これらの新しい革新的なアプローチを電子メール検出に適用することは、学術研究における合理的な次のステップである。 本稿では,フィッシングおよびスパムメールを特異的に検出するためにbertファミリーを微調整したモデルであるipsdmを提案する。 当社の微調整バージョンであるipsdmは、バランスのとれたデータセットとバランスのとれたデータセットの両方で、eメールをよりよく分類することができます。 この作業は、情報システムのセキュリティを改善するためにLLMを採用するための重要な第一歩として役立ちます。

Phishing and spam detection is long standing challenge that has been the subject of much academic research. Large Language Models (LLM) have vast potential to transform society and provide new and innovative approaches to solve well-established challenges. Phishing and spam have caused financial hardships and lost time and resources to email users all over the world and frequently serve as an entry point for ransomware threat actors. While detection approaches exist, especially heuristic-based approaches, LLMs offer the potential to venture into a new unexplored area for understanding and solving this challenge. LLMs have rapidly altered the landscape from business, consumers, and throughout academia and demonstrate transformational potential for the potential of society. Based on this, applying these new and innovative approaches to email detection is a rational next step in academic research. In this work, we present IPSDM, our model based on fine-tuning the BERT family of models to specifically detect phishing and spam email. We demonstrate our fine-tuned version, IPSDM, is able to better classify emails in both unbalanced and balanced datasets. This work serves as an important first step towards employing LLMs to improve the security of our information systems.
翻訳日:2023-11-12 19:18:26 公開日:2023-11-01
# 確率的学習理論における集合マルコフ過程の理論の応用

Applications of the Theory of Aggregated Markov Processes in Stochastic Learning Theory ( http://arxiv.org/abs/2311.01476v1 )

ライセンス: Link先を確認
Fangyuan Lin(参考訳) マルコフ過程と関数を構成することによって生じる確率過程は、集約マルコフ過程(AMP)と呼ばれる。 マルコフ過程を関数で構成する目的は、例えばある座標への射影のような次元の減少である。 AMPに関する理論は、例えばディンキン、キャメロン、ロジャース、ピットマン、ケリーによって広く研究され、AMPがマルコフに留まるのに十分な条件が与えられた。 別の方向では、LargetはAMPの標準表現を提供しており、2つのAMPの等価性を検証するのに使うことができる。 本研究の目的は,AMP理論を確率論的学習理論に適用して,特定の課題を学習する方法について述べることである。

A stochastic process that arises by composing a function with a Markov process is called an aggregated Markov process (AMP). The purpose of composing a Markov process with a function can be a reduction of dimensions, e.g., a projection onto certain coordinates. The theory around AMP has been extensively studied e.g. by Dynkin, Cameron, Rogers and Pitman, and Kelly, all of whom provided sufficient conditions for an AMP to remain Markov. In another direction, Larget provided a canonical representation for AMP, which can be used to verify the equivalence of two AMPs. The purpose of this paper is to describe how the theory of AMP can be applied to stochastic learning theory as they learn a particular task.
翻訳日:2023-11-06 16:27:09 公開日:2023-11-01
# グラフカットを用いたパッチベース深部教師なし画像分割

Patch-Based Deep Unsupervised Image Segmentation using Graph Cuts ( http://arxiv.org/abs/2311.01475v1 )

ライセンス: Link先を確認
Isaac Wasserman and Jeova Farias Sales Rocha Neto(参考訳) 教師なしのイメージセグメンテーションは、人間のアノテーションを使わずに、画像内の異なる意味パターンをグループ化することを目的としている。 同様に、イメージクラスタリングは、監督なしでセマンティックコンテンツに基づいて画像のグルーピングを検索する。 古典的には、どちらの問題も、健全な数学的概念から具体的応用を生み出した研究者を魅了している。 深層学習の出現に伴い、科学界は複雑なニューラルネットワークベースの解法に注目を向け、これらの領域で顕著な成果を上げたが、古典的な手法による進歩を活用することはめったになかった。 本研究では,従来のグラフ手法のアルゴリズム的助けを借りて,ディープクラスタリング手法から教師なし特徴抽出の進歩を橋渡しするパッチベースの教師なし画像分割手法を提案する。 画像パッチの分類とグラフカットによる反復正規化を訓練した単純な畳み込みニューラルネットワークは、自然と最先端の完全畳み込み型非教師付きピクセルレベルのセグメンタをもたらす。 さらに,視覚トランスフォーマーモデルが生成するパッチレベルのペアワイズ機能を活用する上で,これが理想的な設定であることを示す。 実画像データを用いた結果から,提案手法の有効性を示す。

Unsupervised image segmentation aims at grouping different semantic patterns in an image without the use of human annotation. Similarly, image clustering searches for groupings of images based on their semantic content without supervision. Classically, both problems have captivated researchers as they drew from sound mathematical concepts to produce concrete applications. With the emergence of deep learning, the scientific community turned its attention to complex neural network-based solvers that achieved impressive results in those domains but rarely leveraged the advances made by classical methods. In this work, we propose a patch-based unsupervised image segmentation strategy that bridges advances in unsupervised feature extraction from deep clustering methods with the algorithmic help of classical graph-based methods. We show that a simple convolutional neural network, trained to classify image patches and iteratively regularized using graph cuts, naturally leads to a state-of-the-art fully-convolutional unsupervised pixel-level segmenter. Furthermore, we demonstrate that this is the ideal setting for leveraging the patch-level pairwise features generated by vision transformer models. Our results on real image data demonstrate the effectiveness of our proposed methodology.
翻訳日:2023-11-06 16:26:55 公開日:2023-11-01
# 物理世界の敵対的例:調査

Adversarial Examples in the Physical World: A Survey ( http://arxiv.org/abs/2311.01473v1 )

ライセンス: Link先を確認
Jiakai Wang, Donghua Wang, Jin Hu, Siyang Wu, Tingsong Jiang, Wen Yao, Aishan Liu, Xianglong Liu(参考訳) ディープニューラルネットワーク(DNN)は、敵の例に高い脆弱性を示す。 デジタル世界における攻撃の他に、物理的世界における敵の事例の実践的意味は、重大な課題と安全上の懸念を示している。 しかし、現在のPAEの研究は、その特徴を包括的に理解していないため、限定的な重要性と理解に繋がる。 本稿では,このギャップを,トレーニング,製造,再サンプリングプロセスを含む実践的なワークフローにおいて,PAEの特性を徹底的に検討することによって解決する。 物理的攻撃の関連を解析することにより,PAEの異なる属性と特異性の主源として,製造と再サンプリングを同定する。 この知識を活かして,paesの特定の特徴に基づく包括的分析と分類の枠組みを開発し,実世界の実例100以上の研究をカバーした。 さらに,PAEに対する防衛戦略を調査し,今後の研究の課題と機会を明らかにする。 我々は、paesを新しく、徹底的に、体系的に理解することを目指しており、それによって、強固な敵対的学習とそのオープンワールドシナリオへの応用を促進している。

Deep neural networks (DNNs) have demonstrated high vulnerability to adversarial examples. Besides the attacks in the digital world, the practical implications of adversarial examples in the physical world present significant challenges and safety concerns. However, current research on physical adversarial examples (PAEs) lacks a comprehensive understanding of their unique characteristics, leading to limited significance and understanding. In this paper, we address this gap by thoroughly examining the characteristics of PAEs within a practical workflow encompassing training, manufacturing, and re-sampling processes. By analyzing the links between physical adversarial attacks, we identify manufacturing and re-sampling as the primary sources of distinct attributes and particularities in PAEs. Leveraging this knowledge, we develop a comprehensive analysis and classification framework for PAEs based on their specific characteristics, covering over 100 studies on physical-world adversarial examples. Furthermore, we investigate defense strategies against PAEs and identify open challenges and opportunities for future research. We aim to provide a fresh, thorough, and systematic understanding of PAEs, thereby promoting the development of robust adversarial learning and its application in open-world scenarios.
翻訳日:2023-11-06 16:26:22 公開日:2023-11-01
# Reward Gradientsを用いたモデルフリー政策学習

Model-free Policy Learning with Reward Gradients ( http://arxiv.org/abs/2103.05147v4 )

ライセンス: Link先を確認
Qingfeng Lan, Samuele Tosatto, Homayoon Farrahi, A. Rupam Mahmood(参考訳) 政策勾配法の人気は高まっているが、ロボット工学のようなサンプル・スカース・アプリケーションでは広く使われていない。 利用可能な情報を最大限に活用することで、サンプル効率を向上させることができる。 強化学習の重要な要素として、報酬関数はエージェントを導くために慎重に考案される。 したがって、報酬関数は一般に知られており、スカラー報酬信号だけでなく報酬勾配にもアクセスできる。 報酬勾配の恩恵を受けるためには、以前の研究は、入手が難しい環境力学の知識を必要とする。 本研究では,モデルを学ぶことなく報酬勾配を統合する新しい手法である \textit{reward policy gradient} estimator を開発した。 モデルダイナミクスをバイパスすることで、バイアス分散トレードオフをより良く達成できるようになり、実証分析で示されているように、サンプル効率が向上します。 また,様々な MuJoCo 制御タスクにおける近似ポリシ最適化の性能も向上する。

Despite the increasing popularity of policy gradient methods, they are yet to be widely utilized in sample-scarce applications, such as robotics. The sample efficiency could be improved by making best usage of available information. As a key component in reinforcement learning, the reward function is usually devised carefully to guide the agent. Hence, the reward function is usually known, allowing access to not only scalar reward signals but also reward gradients. To benefit from reward gradients, previous works require the knowledge of environment dynamics, which are hard to obtain. In this work, we develop the \textit{Reward Policy Gradient} estimator, a novel approach that integrates reward gradients without learning a model. Bypassing the model dynamics allows our estimator to achieve a better bias-variance trade-off, which results in a higher sample efficiency, as shown in the empirical analysis. Our method also boosts the performance of Proximal Policy Optimization on different MuJoCo control tasks.
翻訳日:2023-11-03 18:56:02 公開日:2023-11-01
# 集中治療室における患者視力の計算可能な表現型

Computable Phenotypes of Patient Acuity in the Intensive Care Unit ( http://arxiv.org/abs/2005.05163v2 )

ライセンス: Link先を確認
Yuanfang Ren (1)(2), Jeremy Balch (3), Kenneth L. Abbott (3), Tyler J. Loftus (1)(3), Benjamin Shickel (1)(2), Parisa Rashidi (1)(4), Azra Bihorac (1)(2), and Tezcan Ozrazgat-Baslanti (1)(2) ((1) Intelligent Clinical Care Center (IC3), University of Florida, Gainesville, FL, USA, (2) Department of Medicine, College of Medicine, University of Florida, Gainesville, FL, USA, (3) Department of Surgery, College of Medicine, University of Florida, Gainesville, FL, USA, (4) J. Crayton Pruitt Family Department of Biomedical Engineering, University of Florida, Gainesville, FL)(参考訳) 継続的なモニタリングと患者の明度評価は集中医療ユニット(ICU)の実践の重要な側面であるが、どちらも医療提供者に課される時間制限によって制限されている。 さらに、臨床軌道の予測は不正確である。 本研究の目的は,(1)電子健康記録における自動変数検索を用いた視力の電子表現型を開発し,(2)icu患者の臨床経過を示す視力状態間の遷移を記述することである。 フロリダ大学ゲインズビル (GNV) とジャクソンビル (JAX) に入院した成人ICU患者51,372名を対象に, 単心縦断的電子健康記録データセットを収集した。 我々は, icu入場毎に4時間間隔で acuity status を定量化し, 連続 acuity status と k-means clustering 法を用いて acuity phenotype を同定するアルゴリズムを開発した。 UFH GNVデータセットで38,749人、UFH JAXデータセットで12,623人、22,219人、ICUの滞在時間が4時間以上であった。 3つの表現型があり、永続的安定、永続的不安定、不安定から安定への移行である。 安定した患者では、約0.7%-1.7%が不安定に移行し、0.02%-0.1%が失効し、1.2%-3.4%が退院し、残りの96%-97%が4時間ごとにICUで安定している。 不安定な患者では、約6%-10%が安定状態に移行し、0.4%-0.5%が失効し、残りの89%-93%が次の4時間で不安定状態に留まった。 icuに入院した4時間毎に, 患者の視力状態の表現型付けアルゴリズムを開発した。 このアプローチは、患者、介護者、提供者を支援するための予後および臨床的意思決定支援ツールの開発に有用であり、ケアと患者価値のエスカレーションに関する共有意思決定プロセスにおいて有用である。

Continuous monitoring and patient acuity assessments are key aspects of Intensive Care Unit (ICU) practice, but both are limited by time constraints imposed on healthcare providers. Moreover, anticipating clinical trajectories remains imprecise. The objectives of this study are to (1) develop an electronic phenotype of acuity using automated variable retrieval within the electronic health records and (2) describe transitions between acuity states that illustrate the clinical trajectories of ICU patients. We gathered two single-center, longitudinal electronic health record datasets for 51,372 adult ICU patients admitted to the University of Florida Health (UFH) Gainesville (GNV) and Jacksonville (JAX). We developed algorithms to quantify acuity status at four-hour intervals for each ICU admission and identify acuity phenotypes using continuous acuity status and k-means clustering approach. 51,073 admissions for 38,749 patients in the UFH GNV dataset and 22,219 admissions for 12,623 patients in the UFH JAX dataset had at least one ICU stay lasting more than four hours. There were three phenotypes: persistently stable, persistently unstable, and transitioning from unstable to stable. For stable patients, approximately 0.7%-1.7% would transition to unstable, 0.02%-0.1% would expire, 1.2%-3.4% would be discharged, and the remaining 96%-97% would remain stable in the ICU every four hours. For unstable patients, approximately 6%-10% would transition to stable, 0.4%-0.5% would expire, and the remaining 89%-93% would remain unstable in the ICU in the next four hours. We developed phenotyping algorithms for patient acuity status every four hours while admitted to the ICU. This approach may be useful in developing prognostic and clinical decision-support tools to aid patients, caregivers, and providers in shared decision-making processes regarding escalation of care and patient values.
翻訳日:2023-11-03 18:55:48 公開日:2023-11-01
# 離散モデリングフレームワーク:物理の欠如、系統的残差のモデル化、決定論的効果とランダム効果の曖昧化

Discrepancy Modeling Framework: Learning missing physics, modeling systematic residuals, and disambiguating between deterministic and random effects ( http://arxiv.org/abs/2203.05164v2 )

ライセンス: Link先を確認
Megan R. Ebers, Katherine M. Steele, J. Nathan Kutz(参考訳) 物理モデルと第一原理モデルは工学と物理科学に浸透し、複雑なシステムのダイナミクスを所定の精度でモデル化することができる。 支配方程式の導出に使用される近似は、しばしばモデルとセンサによるシステムの測定の相違が生じ、方程式の近似的性質やセンサ自体の信号対雑音比が明らかになる。 現代の力学系では、モデルと測定の相違により定量化が悪くなり、しばしば正確かつ正確な制御アルゴリズムを作成する能力を損なう。 我々は, 行方不明物理を識別し, モデル測定ミスマッチを2つの異なるアプローチで解決するための不一致モデリングフレームワークを提案する。 一 体系的状態空間残留の進化モデルを学ぶことにより、及び (ii)決定論的力学誤差のモデルの発見による。 アプローチにかかわらず、データ駆動型モデル発見手法の共通スイートが使用できる。 方法の選択は、離散性モデリング、センサ計測特性(量、品質、解像度など)、実用的な応用によって課される制約(例えば、信号対雑音比の異なる3つの連続力学系におけるデータ駆動モデリング手法の組を用いたモデリング手法)に対する意図(例えば、機械論的解釈可能性)に依存する。 最後に,誤り型に依存する各不一致モデリングアプローチの構造的欠点を強調する。 要約すると、もし真の力学が未知(すなわち不完全モデル)であるなら、力学空間における行方不明物理学の矛盾モデルを学ぶべきである。 しかし、もし真のダイナミクスが知られながらモデル測定ミスマッチが存在するなら、状態空間で不一致モデルを学ぶべきである。

Physics-based and first-principles models pervade the engineering and physical sciences, allowing for the ability to model the dynamics of complex systems with a prescribed accuracy. The approximations used in deriving governing equations often result in discrepancies between the model and sensor-based measurements of the system, revealing the approximate nature of the equations and/or the signal-to-noise ratio of the sensor itself. In modern dynamical systems, such discrepancies between model and measurement can lead to poor quantification, often undermining the ability to produce accurate and precise control algorithms. We introduce a discrepancy modeling framework to identify the missing physics and resolve the model-measurement mismatch with two distinct approaches: (i) by learning a model for the evolution of systematic state-space residual, and (ii) by discovering a model for the deterministic dynamical error. Regardless of approach, a common suite of data-driven model discovery methods can be used. The choice of method depends on one's intent (e.g., mechanistic interpretability) for discrepancy modeling, sensor measurement characteristics (e.g., quantity, quality, resolution), and constraints imposed by practical applications (e.g., modeling approaches using the suite of data-driven modeling methods on three continuous dynamical systems under varying signal-to-noise ratios. Finally, we emphasize structural shortcomings of each discrepancy modeling approach depending on error type. In summary, if the true dynamics are unknown (i.e., an imperfect model), one should learn a discrepancy model of the missing physics in the dynamical space. Yet, if the true dynamics are known yet model-measurement mismatch still exists, one should learn a discrepancy model in the state space.
翻訳日:2023-11-03 18:50:02 公開日:2023-11-01
# 線形4次平均場ゲーム学習のための探索ノイズ

Exploration noise for learning linear-quadratic mean field games ( http://arxiv.org/abs/2107.00839v2 )

ライセンス: Link先を確認
Fran\c{c}ois Delarue and Athanasios Vasileiadis(参考訳) 本研究の目的は, 平均フィールドゲームの解法を学ぶための探索ノイズとして, 共通雑音が有効であることを示すことである。 この概念は、一般的な雑音の適切な形が、存在と特異性を復元することがすでに証明されている、おもちゃの線形四角形モデルによって実証されている。 ここではさらに一歩進んで、同じ種類の共通雑音が「架空の遊び」と呼ばれる学習アルゴリズムの収束を招きかねないことを証明し、これはさらなるポテンシャルや単調な構造を伴わない。 理論解析を支えるためにいくつかの数値例が提供されている。

The goal of this paper is to demonstrate that common noise may serve as an exploration noise for learning the solution of a mean field game. This concept is here exemplified through a toy linear-quadratic model, for which a suitable form of common noise has already been proven to restore existence and uniqueness. We here go one step further and prove that the same form of common noise may force the convergence of the learning algorithm called `fictitious play', and this without any further potential or monotone structure. Several numerical examples are provided in order to support our theoretical analysis.
翻訳日:2023-11-03 18:47:02 公開日:2023-11-01
# エントロピーに基づく時系列における概要因果グラフの発見

Entropy-based Discovery of Summary Causal Graphs in Time Series ( http://arxiv.org/abs/2105.10381v2 )

ライセンス: Link先を確認
Charles K. Assaad, Emilie Devijver, Eric Gaussier(参考訳) 本研究は,サンプリング率の異なる時系列上の要約因果グラフの学習の問題に対処する。 そこで我々はまず,時系列の新しい因果的時間的相互情報尺度を提案する。 次に、この尺度が、確率上昇原理の特別な場合と見なされるエントロピー還元原理とどのように関係しているかを示す。 最終的にこれら2つの成分をPCライクなアルゴリズムとFCIライクなアルゴリズムで組み合わせて要約因果グラフを構築する。 アルゴリズムはいくつかのデータセットで評価され、その有効性と効率を示す。

This study addresses the problem of learning a summary causal graph on time series with potentially different sampling rates. To do so, we first propose a new causal temporal mutual information measure for time series. We then show how this measure relates to an entropy reduction principle that can be seen as a special case of the probability raising principle. We finally combine these two ingredients in PC-like and FCI-like algorithms to construct the summary causal graph. There algorithm are evaluated on several datasets, which shows both their efficacy and efficiency.
翻訳日:2023-11-03 18:46:24 公開日:2023-11-01
# パルスレベル制御による量子コンピュータ上の多体スカーの誤差緩和シミュレーション

Error-Mitigated Simulation of Quantum Many-Body Scars on Quantum Computers with Pulse-Level Control ( http://arxiv.org/abs/2203.08291v2 )

ライセンス: Link先を確認
I-Chi Chen, Benjamin Burdick, Yongxin Yao, Peter P. Orth, and Thomas Iadecola(参考訳) 量子多体スカー(quantum many-body scars)は、特定の初期状態において、量子系がコヒーレントなダイナミクスと長距離相関を示す興味深い力学系である。 我々は、このコヒーレンスと多体相関の組み合わせを用いて、19箇所の混合フィールドIsing鎖における反強磁性初期状態のダイナミクスをシミュレートし、現在の量子コンピューティングデバイスの性能をベンチマークする。 局所観測量のダイナミクスの計算に加えて、ロスシュミットエコーと非自明な連結相関関数を計算し、スカーレッド力学における長距離多体相関を観測する。 さまざまなエラー発生源が存在する場合でも,40以上のトロッターステップを継続するコヒーレントダイナミクスを見出した。 これらの結果を得るために,ノイズ調整,ゼロノイズ外挿,動的デカップリング,計測結果の身体的モチベーション後選択など,様々な誤り緩和手法を活用した。 また, isingインタラクションの実装にパルスレベルの制御を用いると, 標準的なcnotベースのコンパイルよりも大幅に改善できることがわかった。 本研究は,多体コヒーレンスを探索するための誤差緩和手法とパルスレベル制御のパワーと,現在の量子ハードウェアに対する相関効果を実証する。

Quantum many-body scars are an intriguing dynamical regime in which quantum systems exhibit coherent dynamics and long-range correlations when prepared in certain initial states. We use this combination of coherence and many-body correlations to benchmark the performance of present-day quantum computing devices by using them to simulate the dynamics of an antiferromagnetic initial state in mixed-field Ising chains of up to 19 sites. In addition to calculating the dynamics of local observables, we also calculate the Loschmidt echo and a nontrivial connected correlation function that witnesses long-range many-body correlations in the scarred dynamics. We find coherent dynamics to persist over up to 40 Trotter steps even in the presence of various sources of error. To obtain these results, we leverage a variety of error mitigation techniques including noise tailoring, zero-noise extrapolation, dynamical decoupling, and physically motivated postselection of measurement results. Crucially, we also find that using pulse-level control to implement the Ising interaction yields a substantial improvement over the standard CNOT-based compilation of this interaction. Our results demonstrate the power of error mitigation techniques and pulse-level control to probe many-body coherence and correlation effects on present-day quantum hardware.
翻訳日:2023-11-03 18:32:51 公開日:2023-11-01
# rainproof: テキストジェネレータを分散データから保護する傘

Rainproof: An Umbrella To Shield Text Generators From Out-Of-Distribution Data ( http://arxiv.org/abs/2212.09171v2 )

ライセンス: Link先を確認
Maxime Darrin, Pablo Piantanida, Pierre Colombo(参考訳) 翻訳からチャットボットまで、デプロイされたNLPモデルの適切な機能とセキュリティを確保するための効果的な制御機構を実装することが不可欠である。 安全なシステム動作を保証するための重要な要素は、トレーニング分布から統計的に離れた入力サンプルを検出することを目的とした、Of-Distribution(OOD)検出である。 OOD検出は分類タスクにおいて広くカバーされているトピックであるが、ほとんどのメソッドはエンコーダによって出力される隠れ機能に依存している。 本研究では,ブラックボックスフレームワークにおけるソフト確率の活用,すなわち,モデルの内部状態ではなく,ソフト予測にアクセスできることに焦点を当てる。 私たちの貢献には (i)相対的情報投影ood検出フレームワークの耐雨性及び (II)OOD検出のためのより運用的な評価設定。 意外なことに、OOD検出は必ずしもタスク固有の尺度と一致していない。 OOD検出器は、モデルによって適切に処理されたサンプルをフィルタリングし、未処理のサンプルを保持し、性能が低下する可能性がある。 提案手法は従来のOOD検出器よりもタスク固有の性能指標に適合している。

Implementing effective control mechanisms to ensure the proper functioning and security of deployed NLP models, from translation to chatbots, is essential. A key ingredient to ensure safe system behaviour is Out-Of-Distribution (OOD) detection, which aims to detect whether an input sample is statistically far from the training distribution. Although OOD detection is a widely covered topic in classification tasks, most methods rely on hidden features output by the encoder. In this work, we focus on leveraging soft-probabilities in a black-box framework, i.e. we can access the soft-predictions but not the internal states of the model. Our contributions include: (i) RAINPROOF a Relative informAItioN Projection OOD detection framework; and (ii) a more operational evaluation setting for OOD detection. Surprisingly, we find that OOD detection is not necessarily aligned with task-specific measures. The OOD detector may filter out samples well processed by the model and keep samples that are not, leading to weaker performance. Our results show that RAINPROOF provides OOD detection methods more aligned with task-specific performance metrics than traditional OOD detectors.
翻訳日:2023-11-03 18:23:47 公開日:2023-11-01
# 二次割当て問題に対する(不完全)線形割当て問題に対する相対的相互解法と応用

Relative-Interior Solution for (Incomplete) Linear Assignment Problem with Applications to Quadratic Assignment Problem ( http://arxiv.org/abs/2301.11201v2 )

ライセンス: Link先を確認
Tom\'a\v{s} Dlask and Bogdan Savchynskyy(参考訳) 本稿では,線形代入問題 (LAP) の線形計画法を最適化した最適解の集合について検討し,その集合の相対的内部から解を計算する方法を提案する。 任意の双対最適解と最適代入(多くの効率的なアルゴリズムがすでに存在する)が可能であると仮定すると、線形時間で相対的中間解を計算する。 LAPは2次代入問題(QAP)の線形プログラミング緩和のサブプロブレムとして発生するため、この手法はQAPの最適値のバウンダリを提供する2進アルゴリズムの族における新しい成分として用いられる。 また,本研究の結果を,実用上興味のある不完全QAPに適用するために,不完全LAPから完全LAPへの線形時間短縮と,相対内部における最適性とメンバシップを維持するマッピングも提供する。 私たちの公開ベンチマーク実験は、相対対話型ソリューションを用いたアプローチは、しばしば優れた境界を提供することができ、それ以外は少なくとも同等であることを示している。

We study the set of optimal solutions of the dual linear programming formulation of the linear assignment problem (LAP) to propose a method for computing a solution from the relative interior of this set. Assuming that an arbitrary dual-optimal solution and an optimal assignment are available (for which many efficient algorithms already exist), our method computes a relative-interior solution in linear time. Since LAP occurs as a subproblem in the linear programming relaxation of quadratic assignment problem (QAP), we employ our method as a new component in the family of dual-ascent algorithms that provide bounds on the optimal value of QAP. To make our results applicable to incomplete QAP, which is of interest in practical use-cases, we also provide a linear-time reduction from incomplete LAP to complete LAP along with a mapping that preserves optimality and membership in the relative interior. Our experiments on publicly available benchmarks indicate that our approach with relative-interior solution is frequently capable of providing superior bounds and otherwise is at least comparable.
翻訳日:2023-11-03 18:08:47 公開日:2023-11-01
# 校正説明:不確実性情報と対策

Calibrated Explanations: with Uncertainty Information and Counterfactuals ( http://arxiv.org/abs/2305.02305v2 )

ライセンス: Link先を確認
Helena Lofstrom, Tuwe Lofstrom, Ulf Johansson, Cecilia Sonstrod(参考訳) aiモデルの局所的な説明は、機能の重要性など個々の予測に対する洞察を提供するが、不安定性などの問題に苦しめられている。 MLモデルのキャリブレーションが不十分なためにしばしば歪んだ特徴量の信頼性の欠如は、これらの課題をさらに深めている。 さらに、特徴の重要さの重要な側面は、説明可能なAI(XAI)にほとんど適応していない。 本稿では,これらの課題に真っ向から対処するために,キャリブレート説明(CE)と呼ばれる特徴重要度説明手法を提案する。 Venn-Abersの基礎の上に構築されたCEは、基礎となるモデルを校正するだけでなく、機能重みを正確に定義した信頼性の高い機能重要な説明を提供する。 CEは出力の不確実性に対処することで、従来のソリューションを超える。 これは特徴量とモデルの確率推定の両方に対して不確実な定量化を提供することによって達成される。 さらに、CEはモデルに依存しず、容易に理解可能な条件付きルールと、組み込まれた不確実性定量化による反実的説明を生成する能力を備えている。 25のベンチマークデータセットによる評価の結果は、CEの有効性を裏付けるもので、高速で信頼性があり、安定しており、堅牢なソリューションである。

While local explanations for AI models can offer insights into individual predictions, such as feature importance, they are plagued by issues like instability. The unreliability of feature weights, often skewed due to poorly calibrated ML models, deepens these challenges. Moreover, the critical aspect of feature importance uncertainty remains mostly unaddressed in Explainable AI (XAI). The novel feature importance explanation method presented in this paper, called Calibrated Explanations (CE), is designed to tackle these issues head-on. Built on the foundation of Venn-Abers, CE not only calibrates the underlying model but also delivers reliable feature importance explanations with an exact definition of the feature weights. CE goes beyond conventional solutions by addressing output uncertainty. It accomplishes this by providing uncertainty quantification for both feature weights and the model's probability estimates. Additionally, CE is model-agnostic, featuring easily comprehensible conditional rules and the ability to generate counterfactual explanations with embedded uncertainty quantification. Results from an evaluation with 25 benchmark datasets underscore the efficacy of CE, making it stand as a fast, reliable, stable, and robust solution.
翻訳日:2023-11-03 18:01:22 公開日:2023-11-01
# COSST: 包括的スーパービジョンと自己学習を用いた部分ラベル付きデータセットによるマルチ組織セグメンテーション

COSST: Multi-organ Segmentation with Partially Labeled Datasets Using Comprehensive Supervisions and Self-training ( http://arxiv.org/abs/2304.14030v3 )

ライセンス: Link先を確認
Han Liu, Zhoubing Xu, Riqiang Gao, Hao Li, Jianing Wang, Guillaume Chabin, Ipek Oguz, Sasa Grbic(参考訳) ディープラーニングモデルでは、マルチオーガンセグメンテーションが著しく成功したが、一般的には、関心のあるすべての臓器が注釈付きで大規模なデータセットを必要とする。 しかし、医用画像データセットは、しばしばサンプルサイズが低く、部分的にラベル付けされているのみである。 したがって、利用可能な部分ラベル付きデータセットの統一モデルをどのように学習し、それらの相乗的ポテンシャルを活用するかを検討することが重要である。 本稿では,事前手法に関する理論的および経験的分析を行い,部分ラベル分割問題について体系的に検討する。 本稿では,部分ラベル監督信号の観点から問題を再検討し,基底真理と擬似ラベルからの信号の2つを同定する。 COSSTと呼ばれる新しい2段階のフレームワークを提案し、このフレームワークは包括的監視信号と自己学習を効果的に効率的に統合する。 具体的には、2つの真実に基づく信号を用いて初期統一モデルを訓練し、その後、自己学習を用いて擬似ラベル信号を初期モデルに反復的に組み込む。 信頼できない擬似ラベルによる性能劣化を軽減するため,潜在空間における異常検出による擬似ラベルの信頼性を評価し,各自己学習イテレーションから最も信頼できない擬似ラベルを除外する。 12個のCTデータセット上で1つの公開および3つのプライベートな部分ラベルセグメンテーションタスクで大規模な実験を行う。 実験の結果,提案したCOSSTはベースライン法,すなわち各部分ラベル付きデータセットでトレーニングされた個々のネットワークに対して,大幅な改善が得られた。 COSSTは、最先端部分ラベルセグメンテーション法と比較して、様々なセグメンテーションタスクと異なるトレーニングデータサイズで一貫した優れた性能を示す。

Deep learning models have demonstrated remarkable success in multi-organ segmentation but typically require large-scale datasets with all organs of interest annotated. However, medical image datasets are often low in sample size and only partially labeled, i.e., only a subset of organs are annotated. Therefore, it is crucial to investigate how to learn a unified model on the available partially labeled datasets to leverage their synergistic potential. In this paper, we systematically investigate the partial-label segmentation problem with theoretical and empirical analyses on the prior techniques. We revisit the problem from a perspective of partial label supervision signals and identify two signals derived from ground truth and one from pseudo labels. We propose a novel two-stage framework termed COSST, which effectively and efficiently integrates comprehensive supervision signals with self-training. Concretely, we first train an initial unified model using two ground truth-based signals and then iteratively incorporate the pseudo label signal to the initial model using self-training. To mitigate performance degradation caused by unreliable pseudo labels, we assess the reliability of pseudo labels via outlier detection in latent space and exclude the most unreliable pseudo labels from each self-training iteration. Extensive experiments are conducted on one public and three private partial-label segmentation tasks over 12 CT datasets. Experimental results show that our proposed COSST achieves significant improvement over the baseline method, i.e., individual networks trained on each partially labeled dataset. Compared to the state-of-the-art partial-label segmentation methods, COSST demonstrates consistent superior performance on various segmentation tasks and with different training data sizes.
翻訳日:2023-11-03 17:59:30 公開日:2023-11-01
# 公共フォーラムにおける法的強制型ヘイトスピーチ検出に向けて

Towards Legally Enforceable Hate Speech Detection for Public Forums ( http://arxiv.org/abs/2305.13677v2 )

ライセンス: Link先を確認
Chu Fei Luo, Rohan Bhambhoria, Xiaodan Zhu, Samuel Dahan(参考訳) ヘイトスピーチは広く根深い社会問題を引き起こす。 ヘイトスピーチ法の適切な施行は、有害で差別的な言語から人々のグループを保護するための鍵となる。 しかし、ヘイトスピーチを構成するものを決定することは、主観的解釈に非常にオープンな複雑なタスクである。 既存の作品では、彼らのシステムはヘイトスピーチの強制可能な定義とは一致せず、その結果は規制当局の目標と矛盾する可能性がある。 本研究は、法的定義を中心とした強制的ヘイトスピーチ検出のための新しい視点と課題と、法の専門家による11の可能な定義違反に注釈を付けたデータセットを紹介する。 ヘイトスピーチの明確で法的に強制可能なインスタンスを特定することの難しさを踏まえ、専門家が作成したサンプルと自動マイニングされたチャレンジセットでデータセットを拡張する。 ゼロショットと少数ショットのプロンプトを用いてモデル決定をこれらの定義に基礎付ける実験を行った。 次に,いくつかの大規模言語モデル (LLM) の結果を報告する。 このタスク定義により、自動ヘイトスピーチ検出は強制可能な法律により緊密に適合し、公共フォーラムにおける有害なスピーチに対するより厳格な法的保護の実施を支援することができる。

Hate speech causes widespread and deep-seated societal issues. Proper enforcement of hate speech laws is key for protecting groups of people against harmful and discriminatory language. However, determining what constitutes hate speech is a complex task that is highly open to subjective interpretations. Existing works do not align their systems with enforceable definitions of hate speech, which can make their outputs inconsistent with the goals of regulators. This research introduces a new perspective and task for enforceable hate speech detection centred around legal definitions, and a dataset annotated on violations of eleven possible definitions by legal experts. Given the challenge of identifying clear, legally enforceable instances of hate speech, we augment the dataset with expert-generated samples and an automatically mined challenge set. We experiment with grounding the model decision in these definitions using zero-shot and few-shot prompting. We then report results on several large language models (LLMs). With this task definition, automatic hate speech detection can be more closely aligned to enforceable laws, and hence assist in more rigorous enforcement of legal protections against harmful speech in public forums.
翻訳日:2023-11-03 17:46:21 公開日:2023-11-01
# 実世界環境におけるオープンワールド半教師付き一般化関係発見

Open-world Semi-supervised Generalized Relation Discovery Aligned in a Real-world Setting ( http://arxiv.org/abs/2305.13533v2 )

ライセンス: Link先を確認
William Hogan, Jiacheng Li, Jingbo Shang(参考訳) Open-world Relation extract (OpenRE) は近年注目されている。 しかし、既存のアプローチでは、すべての未ラベルテキストが新しいクラスに属すると仮定することで問題を単純化し、これらの手法の実用性を制限する傾向にある。 我々は、OpenRE設定は現実世界のデータの特徴とより整合しているべきだと論じる。 具体的には,2つの改善点を提案する。 (a)ラベルなしデータは、強陰例を含む既知の新しいクラスを含むべきである。 b) 新規クラスの集合は長い尾関係型を表すべきである。 さらに、タイトルや場所などの一般的な関係は特定のパターンを通して暗黙的に推測されることが多いが、長い尾関係は文で明示的に表現される傾向がある。 そこで本研究では,KNoRD(Known and Novel Relation Discovery,ノウン・アンド・ノベル・リレーション・ディスカバリー)と呼ばれる新しい手法を提案する。 いくつかのオープンワールドREベンチマークでの実験的評価は、KNoRDが既存の手法を一貫して上回り、性能が大幅に向上していることを示している。

Open-world Relation Extraction (OpenRE) has recently garnered significant attention. However, existing approaches tend to oversimplify the problem by assuming that all unlabeled texts belong to novel classes, thereby limiting the practicality of these methods. We argue that the OpenRE setting should be more aligned with the characteristics of real-world data. Specifically, we propose two key improvements: (a) unlabeled data should encompass known and novel classes, including hard-negative instances; and (b) the set of novel classes should represent long-tail relation types. Furthermore, we observe that popular relations such as titles and locations can often be implicitly inferred through specific patterns, while long-tail relations tend to be explicitly expressed in sentences. Motivated by these insights, we present a novel method called KNoRD (Known and Novel Relation Discovery), which effectively classifies explicitly and implicitly expressed relations from known and novel classes within unlabeled data. Experimental evaluations on several Open-world RE benchmarks demonstrate that KNoRD consistently outperforms other existing methods, achieving significant performance gains.
翻訳日:2023-11-03 17:45:55 公開日:2023-11-01
# SEAHORSE:要約評価のための多言語多面データセット

SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization Evaluation ( http://arxiv.org/abs/2305.13194v2 )

ライセンス: Link先を確認
Elizabeth Clark, Shruti Rijhwani, Sebastian Gehrmann, Joshua Maynez, Roee Aharoni, Vitaly Nikolaev, Thibault Sellam, Aditya Siddhant, Dipanjan Das, Ankur P. Parikh(参考訳) タスクの多面的かつ主観的な性質から,要約システムの信頼性の高い自動評価は困難である。 これは特に、人間の評価が不足している英語以外の言語の場合である。 本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。 シーホースは96kの要約からなり、テキスト品質の6次元(理解性、繰り返し、文法、帰属性、主な考え、簡潔性)で、6つの言語、9つのシステム、4つのデータセットをカバーする。 サイズとスコープの結果として、SEAHORSEは学習したメトリクスを評価するためのベンチマークとしてだけでなく、そのようなメトリクスをトレーニングするための大規模なリソースとしても機能する。 本研究では,SEAHORSEでトレーニングした指標が,ドメイン外メタ評価ベンチマークTRUE(Honovich et al., 2022)とmFACE(Aharoni et al., 2022)で高い性能を示した。 我々はSEAHORSEデータセットとメトリクスを多言語および多面的要約評価の今後の研究のために公開する。

Reliable automatic evaluation of summarization systems is challenging due to the multifaceted and subjective nature of the task. This is especially the case for languages other than English, where human evaluations are scarce. In this work, we introduce SEAHORSE, a dataset for multilingual, multifaceted summarization evaluation. SEAHORSE consists of 96K summaries with human ratings along 6 dimensions of text quality: comprehensibility, repetition, grammar, attribution, main ideas, and conciseness, covering 6 languages, 9 systems and 4 datasets. As a result of its size and scope, SEAHORSE can serve both as a benchmark to evaluate learnt metrics, as well as a large-scale resource for training such metrics. We show that metrics trained with SEAHORSE achieve strong performance on the out-of-domain meta-evaluation benchmarks TRUE (Honovich et al., 2022) and mFACE (Aharoni et al., 2022). We make the SEAHORSE dataset and metrics publicly available for future research on multilingual and multifaceted summarization evaluation.
翻訳日:2023-11-03 17:45:29 公開日:2023-11-01
# ニューラルテンプレート正規化による異なる視点からの3次元再構成

DiViNeT: 3D Reconstruction from Disparate Views via Neural Template Regularization ( http://arxiv.org/abs/2306.04699v4 )

ライセンス: Link先を確認
Aditya Vora, Akshay Gadi Patil, Hao Zhang(参考訳) 本稿では3つの異なるRGB画像を入力として用いたボリュームレンダリングに基づくニューラルサーフェス再構成手法を提案する。 私たちの重要なアイデアは、表面を優先する一連のニューラルネットワークテンプレートを学習することで、非常に不適切で、スパースビュー間の大きなギャップを残している再構築を正すことです。 提案手法はDiViNetと呼ばれ,2段階で動作する。 まず、テンプレートを3dのガウス関数の形で学習し、3dの監督なしでさまざまなシーンにまたがる。 リコンストラクションの段階では、予測されたテンプレートがアンカーとして役立ち、スパース領域上の表面を「固定」するのに役立ちます。 本手法は表面形状を完備するだけでなく,いくつかの異なる入力ビューから表面詳細を妥当な範囲に再構成できることを実証する。 DTU と BlendedMVS のデータセット上では,このような疎度なビューが存在する場合において,既存手法の中で最高の再構成品質を達成し,高密度ビューを入力として使用する場合の競合手法と同等に動作する。

We present a volume rendering-based neural surface reconstruction method that takes as few as three disparate RGB images as input. Our key idea is to regularize the reconstruction, which is severely ill-posed and leaving significant gaps between the sparse views, by learning a set of neural templates to act as surface priors. Our method, coined DiViNet, operates in two stages. It first learns the templates, in the form of 3D Gaussian functions, across different scenes, without 3D supervision. In the reconstruction stage, our predicted templates serve as anchors to help "stitch'' the surfaces over sparse regions. We demonstrate that our approach is not only able to complete the surface geometry but also reconstructs surface details to a reasonable extent from a few disparate input views. On the DTU and BlendedMVS datasets, our approach achieves the best reconstruction quality among existing methods in the presence of such sparse views and performs on par, if not better, with competing methods when dense views are employed as inputs.
翻訳日:2023-11-03 17:35:47 公開日:2023-11-01
# 数千kmにわたるスケーラブル量子鍵分布の実験的実証

Experimental demonstration of scalable quantum key distribution over a thousand kilometers ( http://arxiv.org/abs/2306.04599v2 )

ライセンス: Link先を確認
A. Aliev, V. Statiev, I. Zarubin, N. Kirsanov, D. Strizhak, A. Bezruchenko, A. Osicheva, A. Smirnov, M. Yarovikov, A. Kodukhov, V. Pastushenko, M. Pflitsch, V. Vinokur(参考訳) 長距離通信は現代の情報学の主要な問題の一つである。 古典的な送信は量子コンピュータ攻撃に弱いと認識されている。 驚くべきことに、量子コンピュータを囲むのと同じ量子力学は、量子鍵分布(qkd)を介してそのような攻撃に対して保証された保護を提供する。 しかし、光チャネルにおける必須信号減衰は約100kmの距離で発生するため、長距離伝送は問題となる。 本稿では、テラ量子QKDプロトコル(TQ-QKDプロトコル)と呼ばれるQKDプロトコルを用いてこの問題を解決することを提案する。 提案プロトコルでは,光子パルスの変換にエルビウム増幅器を用いたランダムビット符号化に十分な光子を含む半古典パルスを用い,同時に,選択したパルス強度において,100m程度の距離でも数個の光子がチャネル外へ移動できることを保証する。 その結果、盗聴器は信号の失われた部分を効率的に利用できない。 TQ-QKDプロトコルの中心的なコンポーネントは、光損失を盗聴者が原則として使用して送信された情報を得るため、光通信回線のエンドツーエンドの損失制御である。 しかし、我々の制御精度は、漏れの度合いが検出可能なレベル以下であれば、リーク状態は数個の光子しか含まないため量子である。 したがって、 `0' と `1' を表すビット符号化状態の盗聴者部分には、ほとんど区別がつかない。 本研究は1079km以上の量子鍵分布が可能なTQ-QKDプロトコルの実験実験である。 さらに、スキームの部品の品質を精錬し、到達可能な伝送距離を広げる。 これは今後数年間でセキュアなグローバルQKDネットワークを構築するための道を開くものだ。

Secure communication over long distances is one of the major problems of modern informatics. Classical transmissions are recognized to be vulnerable to quantum computer attacks. Remarkably, the same quantum mechanics that engenders quantum computers offers guaranteed protection against such attacks via quantum key distribution (QKD). Yet, long-distance transmission is problematic since the essential signal decay in optical channels occurs at a distance of about a hundred kilometers. We propose to resolve this problem by a QKD protocol, further referred to as the Terra Quantum QKD protocol (TQ-QKD protocol). In our protocol, we use semiclassical pulses containing enough photons for random bit encoding and exploiting erbium amplifiers to retranslate photon pulses and, at the same time, ensuring that at the chosen pulse intensity only a few photons could go outside the channel even at distances of about a hundred meters. As a result, an eavesdropper will not be able to efficiently utilize the lost part of the signal. The central component of the TQ-QKD protocol is the end-to-end loss control of the fiber-optic communication line since optical losses can in principle be used by the eavesdropper to obtain the transmitted information. However, our control precision is such that if the degree of the leak is below the detectable level, then the leaking states are quantum since they contain only a few photons. Therefore, available to the eavesdropper parts of the bit encoding states representing `0' and `1' are nearly indistinguishable. Our work presents the experimental demonstration of the TQ-QKD protocol allowing quantum key distribution over 1079 kilometers. Further refining the quality of the scheme's components will expand the attainable transmission distances. This paves the way for creating a secure global QKD network in the upcoming years.
翻訳日:2023-11-03 17:35:25 公開日:2023-11-01
# 人気バイアスのランク付け : 自己増幅ダイナミクスによるユーザ福祉

Ranking with Popularity Bias: User Welfare under Self-Amplification Dynamics ( http://arxiv.org/abs/2305.18333v2 )

ライセンス: Link先を確認
Guy Tennenholtz, Martin Mladenov, Nadav Merlis, Robert L. Axtell, Craig Boutilier(参考訳) 人気バイアスは、リコメンダー(および他のランキングベース)システムにおいて重要な役割を担っていると認識されているが、その影響の詳細な分析はほとんど欠落している。 論文で提案するモデルの多くに根ざした一般的なメカニズムを提案し,理論的に分析し,項目の人気,項目品質,位置バイアスがユーザの選択に共同的に影響を及ぼすことを示す。 我々は,ユーザビリティがアイテムの品質に大きく左右される標準設定に焦点を合わせ,ユーザの振る舞いを見積もるレコメンデータを試みている。 本モデルでは,非定常文脈的バンディットとして問題を定式化し,ユーザ福祉を最大化するためのレコメンダポリシーの能力について検討する。 我々は、人気バイアスを取り除くだけでなく、福祉に対する悪影響を軽減するために、探索の重要性を強調している。 まず, 好ましくない推薦者が, 商品品質と人気を混同することで, 線形後悔を引き起こすことを示す。 より一般的には, 線形設定においても, 人気バイアスの影響により, 商品品質の識別が不可能であることを示す。 しかし, 十分な変動性仮定の下で, 効率的な楽観的アルゴリズムを開発し, 利用者福祉に対する効率的な後悔を保証する。 いくつかのシミュレーション研究で分析を補完し、いくつかの自然推薦政策の性能に対する人気バイアスの負の影響を示す。

While popularity bias is recognized to play a crucial role in recommmender (and other ranking-based) systems, detailed analysis of its impact on collective user welfare has largely been lacking. We propose and theoretically analyze a general mechanism, rooted in many of the models proposed in the literature, by which item popularity, item quality, and position bias jointly impact user choice. We focus on a standard setting in which user utility is largely driven by item quality, and a recommender attempts to estimate it given user behavior. Formulating the problem as a non-stationary contextual bandit, we study the ability of a recommender policy to maximize user welfare under this model. We highlight the importance of exploration, not to eliminate popularity bias, but to mitigate its negative impact on welfare. We first show that naive popularity-biased recommenders induce linear regret by conflating item quality and popularity. More generally, we show that, even in linear settings, identifiability of item quality may not be possible due to the confounding effects of popularity bias. However, under sufficient variability assumptions, we develop an efficient optimistic algorithm and prove efficient regret guarantees w.r.t. user welfare. We complement our analysis with several simulation studies, which demonstrate the negative impact of popularity bias on the performance of several natural recommender policies.
翻訳日:2023-11-03 17:32:28 公開日:2023-11-01
# Diable: テーブル上の操作として効率的な対話状態追跡

Diable: Efficient Dialogue State Tracking as Operations on Tables ( http://arxiv.org/abs/2305.17020v3 )

ライセンス: Link先を確認
Pietro Lesci, Yoshinari Fujinuma, Momchil Hardalov, Chao Shang, Yassine Benajiba, Lluis Marquez(参考訳) 対話状態追跡システム(DST)は、全対話履歴を入力として使用し、現在の状態を全てのスロットでリストとして表現し、各対話ターンでスクラッチから全状態を生成する。 このアプローチは、特にスロットの数が大きく、会話が長い場合、非効率である。 本稿では,効率的なdstシステムの設計と実装を簡略化し,大規模言語モデルを容易にプラグアンドプレイできるタスク形式であるdiableを提案する。 対話状態をテーブルとして表現し,テーブル操作タスクとしてDSTを定式化する。 各ターンで、システムは対話コンテキストに基づいてテーブル操作を生成することにより、前の状態を更新する。 MultiWozデータセットの大規模な実験がDiableを実証 i)強い効率的なDSTベースラインを上回る。 (ii) 競争力のあるジョイントゴール精度を維持しつつ, 現在の最先端手法よりも2.4倍の時間効率を有すること, (iii) テーブル操作アプローチのため、騒がしいデータアノテーションに対して堅牢である。

Sequence-to-sequence state-of-the-art systems for dialogue state tracking (DST) use the full dialogue history as input, represent the current state as a list with all the slots, and generate the entire state from scratch at each dialogue turn. This approach is inefficient, especially when the number of slots is large and the conversation is long. We propose Diable, a new task formalisation that simplifies the design and implementation of efficient DST systems and allows one to easily plug and play large language models. We represent the dialogue state as a table and formalise DST as a table manipulation task. At each turn, the system updates the previous state by generating table operations based on the dialogue context. Extensive experimentation on the MultiWoz datasets demonstrates that Diable (i) outperforms strong efficient DST baselines, (ii) is 2.4x more time efficient than current state-of-the-art methods while retaining competitive Joint Goal Accuracy, and (iii) is robust to noisy data annotations due to the table operations approach.
翻訳日:2023-11-03 17:32:03 公開日:2023-11-01
# 局所ベイズ最適化の挙動と収束性

The Behavior and Convergence of Local Bayesian Optimization ( http://arxiv.org/abs/2305.15572v2 )

ライセンス: Link先を確認
Kaiwen Wu, Kyurae Kim, Roman Garnett and Jacob R. Gardner(参考訳) ベイズ最適化の最近の発展は、従来のグローバル戦略と比較して高次元問題に対して強い経験的パフォーマンスを提供できる局所最適化戦略の利用である。 文学における「民族知恵」は、局所最適化の焦点が次元の呪いを横切ることであるが、ベイズ局所最適化ルーチンの期待された振る舞いや収束について具体的には知られていない。 まず, 局所的アプローチの挙動を調査し, ガウス過程のサンプルパスの個々の局所解の統計値が, グローバル手法からの回復を期待するものと比較して驚くほど良好であることを見出した。 次に,m\"uller et al. (2021) が最近提案したベイズ局所最適化アルゴリズムの最初の厳密な解析を行い,雑音と無雑音の両方において収束率を求める。

A recent development in Bayesian optimization is the use of local optimization strategies, which can deliver strong empirical performance on high-dimensional problems compared to traditional global strategies. The "folk wisdom" in the literature is that the focus on local optimization sidesteps the curse of dimensionality; however, little is known concretely about the expected behavior or convergence of Bayesian local optimization routines. We first study the behavior of the local approach, and find that the statistics of individual local solutions of Gaussian process sample paths are surprisingly good compared to what we would expect to recover from global methods. We then present the first rigorous analysis of such a Bayesian local optimization algorithm recently proposed by M\"uller et al. (2021), and derive convergence rates in both the noisy and noiseless settings.
翻訳日:2023-11-03 17:31:46 公開日:2023-11-01
# 言語モデリングのための反復的Piecewise Affine (IPA)近似

Iterated Piecewise Affine (IPA) Approximation for Language Modeling ( http://arxiv.org/abs/2306.12317v3 )

ライセンス: Link先を確認
Davood Shamsi, Wen-yu Hua, Brian Williams(参考訳) 本研究では、一般関数 $F: R^{n \times m} \to R^{n \times m}$ を近似するための一階テイラー展開の適用を実演し、それを言語モデリングに活用する。 テイラーの基本的な拡張を強化するため、反復と断片的モデリングを導入し、そのアルゴリズムをIterative Piecewise Affine (IPA)近似と呼ぶ。 最後のアルゴリズムはtransformers decoderアーキテクチャによく似ている。 IPAとTransformerのパラメータアレンジメントを比較することで、より小さなシーケンス長のクロスエントロピーロスを伴う次のトークン予測タスクにおいて、IPAは1.5倍の精度でTransformerを性能良くする。

In this work, we demonstrate the application of a first-order Taylor expansion to approximate a generic function $F: R^{n \times m} \to R^{n \times m}$ and utilize it in language modeling. To enhance the basic Taylor expansion, we introduce iteration and piecewise modeling, leading us to name the algorithm the Iterative Piecewise Affine (IPA) approximation. The final algorithm exhibits interesting resemblances to the Transformers decoder architecture. By comparing parameter arrangements in IPA and Transformers, we observe a strikingly similar performance, with IPA outperforming Transformers by 1.5\% in the next token prediction task with cross-entropy loss for smaller sequence lengths.
翻訳日:2023-11-03 17:22:23 公開日:2023-11-01
# vnvc - 効率的なヒューマンマシンビジョンのための汎用ニューラルビデオ符号化フレームワーク

VNVC: A Versatile Neural Video Coding Framework for Efficient Human-Machine Vision ( http://arxiv.org/abs/2306.10681v2 )

ライセンス: Link先を確認
Xihua Sheng, Li Li, Dong Liu, Houqiang Li(参考訳) ほとんど全てのデジタルビデオは送信前にコンパクトな表現に符号化される。 このようなコンパクト表現は、機械ビジョンアルゴリズムによって拡張/分析される前に、人間に表示される前にピクセルにデコードする必要がある。 直感的には、コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。 そこで我々は,再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目的とした汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。 我々のVNVCフレームワークは機能ベースの圧縮ループを持っています。 このループでは、1つのフレームをコンパクトな表現に符号化し、再構成する前に得られる中間特徴に復号する。 中間機能は、特徴に基づく時間文脈マイニングとクロスドメインモーションエンコーダデコーダによる動き補償や動き推定の参照として使用することができ、以下のフレームを圧縮することができる。 中間機能は、その効果を評価するために、ビデオ再構成、ビデオエンハンスメント、ビデオ分析ネットワークに直接供給される。 評価の結果,中間機能を持つフレームワークは,映像再構成の圧縮効率が高く,複雑度の低いタスク性能が良好であることがわかった。

Almost all digital videos are coded into compact representations before being transmitted. Such compact representations need to be decoded back to pixels before being displayed to humans and - as usual - before being enhanced/analyzed by machine vision algorithms. Intuitively, it is more efficient to enhance/analyze the coded representations directly without decoding them into pixels. Therefore, we propose a versatile neural video coding (VNVC) framework, which targets learning compact representations to support both reconstruction and direct enhancement/analysis, thereby being versatile for both human and machine vision. Our VNVC framework has a feature-based compression loop. In the loop, one frame is encoded into compact representations and decoded to an intermediate feature that is obtained before performing reconstruction. The intermediate feature can be used as reference in motion compensation and motion estimation through feature-based temporal context mining and cross-domain motion encoder-decoder to compress the following frames. The intermediate feature is directly fed into video reconstruction, video enhancement, and video analysis networks to evaluate its effectiveness. The evaluation shows that our framework with the intermediate feature achieves high compression efficiency for video reconstruction and satisfactory task performances with lower complexities.
翻訳日:2023-11-03 17:21:59 公開日:2023-11-01
# Amortized Simulation-based Frequentist Inference for Tractable and Intractable Likelihoods

Amortized Simulation-Based Frequentist Inference for Tractable and Intractable Likelihoods ( http://arxiv.org/abs/2306.07769v2 )

ライセンス: Link先を確認
Ali Al Kadhim, Harrison B. Prosper, Olivia F. Prosper(参考訳) 理論モデルと観測を結びつける高忠実度シミュレータは多くの科学において不可欠である。 機械学習と組み合わせると、シミュレータは理論モデルのパラメータを直接、確率関数を明示的に使用せずに実とシミュレートされた観測から推測することができる。 これは後者が難解な場合に特に興味深い。 本稿では,最近提案された確率自由頻繁性推論(LF2I)手法の簡単な拡張について述べる。 LF2I と同様に、この拡張は高忠実度シミュレータが利用できるパラメータ推論問題において証明可能な信頼セットを与える。 第一は宇宙論から、第二は高エネルギー物理学と天文学から、両方が扱いやすい可能性を持つ、第三は難解な可能性を持つ、疫学からのものである。

High-fidelity simulators that connect theoretical models with observations are indispensable tools in many sciences. When coupled with machine learning, a simulator makes it possible to infer the parameters of a theoretical model directly from real and simulated observations without explicit use of the likelihood function. This is of particular interest when the latter is intractable. In this work, we introduce a simple extension of the recently proposed likelihood-free frequentist inference (LF2I) approach that has some computational advantages. Like LF2I, this extension yields provably valid confidence sets in parameter inference problems in which a high-fidelity simulator is available. The utility of our algorithm is illustrated by applying it to three pedagogically interesting examples: the first is from cosmology, the second from high-energy physics and astronomy, both with tractable likelihoods, while the third, with an intractable likelihood, is from epidemiology.
翻訳日:2023-11-03 17:18:39 公開日:2023-11-01
# デュアルマトリックスドメインウォール:QUBOとIsingモデルによる2次元サイズによる置換生成の新手法

Dual-Matrix Domain-Wall: A Novel Technique for Generating Permutations by QUBO and Ising Models with Quadratic Sizes ( http://arxiv.org/abs/2308.01024v2 )

ライセンス: Link先を確認
Koji Nakano and Shunsuke Tsukiyama and Yasuaki Ito and Takashi Yazane and Junko Yano and Takumi Kato and Shiro Ozaki and Rie Mori and Ryota Katsuki(参考訳) イジングモデルは、量子ビット変数の二次公式を用いて目的関数によって定義される。 イジングモデルの問題は、目的関数を最小化する変数のキュービット値を決定することを目的としており、多くの最適化問題をこの問題に還元することができる。 本稿では,$nから最適な置換を見つけることを目的として,置換に関連する最適化問題に着目する。 可能な$n$要素の置換。 これらの問題をIsingモデルとして表現するために、一般的なアプローチは、シングルホットエンコーディングを使用したカーネルを使用して、$n!のどれかを見つけることである。 最適な解決策として$ permutations。 しかし、このカーネルには多くの二次項と高い絶対係数値が含まれている。 この論文の主な貢献は、双対行列型ドメイン壁と呼ばれる新しい置換符号化技術の導入であり、二次項の数と核内の最大絶対係数値を著しく削減している。 驚くべきことに、デュアルマトリックスのドメインウォールエンコーディングは、二次項数と最大絶対係数をそれぞれ$n^3-n^2$と$n-4$から$6n^2-12n+4$と$2$に削減する。 また、部分置換と準非制約バイナリ最適化(QUBO)モデルへの符号化手法の適用性を実証する。 さらに、Ising/QUBOモデルを用いて効率よく実装できる置換問題のファミリーと、ドメインウォールの二重行列符号化について論じる。

The Ising model is defined by an objective function using a quadratic formula of qubit variables. The problem of an Ising model aims to determine the qubit values of the variables that minimize the objective function, and many optimization problems can be reduced to this problem. In this paper, we focus on optimization problems related to permutations, where the goal is to find the optimal permutation out of the $n!$ possible permutations of $n$ elements. To represent these problems as Ising models, a commonly employed approach is to use a kernel that utilizes one-hot encoding to find any one of the $n!$ permutations as the optimal solution. However, this kernel contains a large number of quadratic terms and high absolute coefficient values. The main contribution of this paper is the introduction of a novel permutation encoding technique called dual-matrix domain-wall, which significantly reduces the number of quadratic terms and the maximum absolute coefficient values in the kernel. Surprisingly, our dual-matrix domain-wall encoding reduces the quadratic term count and maximum absolute coefficient values from $n^3-n^2$ and $2n-4$ to $6n^2-12n+4$ and $2$, respectively. We also demonstrate the applicability of our encoding technique to partial permutations and Quadratic Unconstrained Binary Optimization (QUBO) models. Furthermore, we discuss a family of permutation problems that can be efficiently implemented using Ising/QUBO models with our dual-matrix domain-wall encoding.
翻訳日:2023-11-03 17:12:06 公開日:2023-11-01
# 完全離散化有限量子力学

Completely Discretized, Finite Quantum Mechanics ( http://arxiv.org/abs/2307.11927v2 )

ライセンス: Link先を確認
Sean M. Carroll(参考訳) 実世界のモデルである離散的かつ有限な状態を特徴とする量子力学のバージョンを提案する。 このモデルは有限次元ヒルベルト空間を持つ閉システムの標準ユニタリ量子論に基づいている。 ハミルトニアンのスペクトル上のある種の単純な条件を考えると、Schr\"odinger進化は周期的であり、連続時間を離散バージョンに置き換えることは簡単であり、結果として系は離散的かつ有限な状態ベクトルの集合のみを訪問する。 このようなモデルの実現可能性に対する最大の課題は、宇宙論的考察である。 この理論は、数学的実在論とフィニスティズムの問題に意味を持つかもしれない。

I propose a version of quantum mechanics featuring a discrete and finite number of states that is plausibly a model of the real world. The model is based on standard unitary quantum theory of a closed system with a finite-dimensional Hilbert space. Given certain simple conditions on the spectrum of the Hamiltonian, Schr\"odinger evolution is periodic, and it is straightforward to replace continuous time with a discrete version, with the result that the system only visits a discrete and finite set of state vectors. The biggest challenges to the viability of such a model come from cosmological considerations. The theory may have implications for questions of mathematical realism and finitism.
翻訳日:2023-11-03 17:11:24 公開日:2023-11-01
# srn-sz:超解像ニューラルネットワークを用いた科学的誤り境界ロスイ圧縮

SRN-SZ: Deep Leaning-Based Scientific Error-bounded Lossy Compression with Super-resolution Neural Networks ( http://arxiv.org/abs/2309.04037v2 )

ライセンス: Link先を確認
Jinyang Liu, Sheng Di, Sian Jin, Kai Zhao, Xin Liang, Zizhong Chen, Franck Cappello(参考訳) 現代のスーパーコンピューティングシステムの計算能力とスケールの急速な成長は、エクサスケール科学データの管理において大きな課題を提起した。 科学的データの利用性を維持するため,制約のあるデータ歪みを伴う科学的データのサイズ削減に不可欠な手法として,誤差バウンド損失圧縮を提案する。 様々な科学シミュレーションによって生成された多様なデータセットのうち、特定のデータセットは、従来のテクニックで既存のエラーバウンドの損失圧縮機では効果的に圧縮できない。 人工知能の最近の成功は、ニューラルネットワークをエラーバウンドの損失圧縮機に統合するきっかけとなった。 しかし、これらの作品はまだ圧縮率や極めて低い効率に苦しむ。 本稿では,超解像ニューラルネットワークによって実装された階層的データグリッド拡張パラダイムを活用した,深層学習に基づく科学的エラーバウンドロスイ圧縮器であるsrn-szを提案する。 SRN-SZはその圧縮に最も高度な超解像ネットワーク HAT を適用している。 各種の最先端圧縮機との比較実験において、SRN-SZは最大75%の圧縮比を同じ誤差境界下で達成し、最大80%の圧縮比を同じPSNR下で達成する。

The fast growth of computational power and scales of modern super-computing systems have raised great challenges for the management of exascale scientific data. To maintain the usability of scientific data, error-bound lossy compression is proposed and developed as an essential technique for the size reduction of scientific data with constrained data distortion. Among the diverse datasets generated by various scientific simulations, certain datasets cannot be effectively compressed by existing error-bounded lossy compressors with traditional techniques. The recent success of Artificial Intelligence has inspired several researchers to integrate neural networks into error-bounded lossy compressors. However, those works still suffer from limited compression ratios and/or extremely low efficiencies. To address those issues and improve the compression on the hard-to-compress datasets, in this paper, we propose SRN-SZ, which is a deep learning-based scientific error-bounded lossy compressor leveraging the hierarchical data grid expansion paradigm implemented by super-resolution neural networks. SRN-SZ applies the most advanced super-resolution network HAT for its compression, which is free of time-costing per-data training. In experiments compared with various state-of-the-art compressors, SRN-SZ achieves up to 75% compression ratio improvements under the same error bound and up to 80% compression ratio improvements under the same PSNR than the second-best compressor.
翻訳日:2023-11-03 16:59:21 公開日:2023-11-01
# NLLB-CLIP -- 予算に基づく列車動作多言語画像検索モデル

NLLB-CLIP -- train performant multilingual image retrieval model on a budget ( http://arxiv.org/abs/2309.01859v3 )

ライセンス: Link先を確認
Alexander Visheratin(参考訳) 今日では、大規模コンピューティング資源の助けを借りて、学術機関や産業機関によって開発された大規模モデルの指数関数的増加は、そのような資源にアクセスできない人が貴重な科学的貢献を得られるかどうかという疑問を提起している。 そこで我々は,1000ドルの限られた予算を持つ多言語画像検索の課題を解決することを試みた。 その結果,NLLBモデルからテキストエンコーダを用いたNLLB-CLIP-CLIPモデルを提案する。 このモデルをトレーニングするために、LAION COCOデータセットから派生した201言語でキャプション付き106,246の良質な画像の自動生成データセットを使用した。 様々なサイズの画像とテキストエンコーダを用いて複数のモデルを訓練し、トレーニング中にモデルの異なる部分を凍結させた。 既存の評価データセットと、新たに作成されたxtd200とflickr30k-200データセットを用いて、トレーニングモデルを徹底的に分析した。 我々は,NLLB-CLIPが最先端モデルに匹敵する品質であり,低リソース言語ではかなり優れていることを示す。

Today, the exponential rise of large models developed by academic and industrial institutions with the help of massive computing resources raises the question of whether someone without access to such resources can make a valuable scientific contribution. To explore this, we tried to solve the challenging task of multilingual image retrieval having a limited budget of $1,000. As a result, we present NLLB-CLIP - CLIP model with a text encoder from the NLLB model. To train the model, we used an automatically created dataset of 106,246 good-quality images with captions in 201 languages derived from the LAION COCO dataset. We trained multiple models using image and text encoders of various sizes and kept different parts of the model frozen during the training. We thoroughly analyzed the trained models using existing evaluation datasets and newly created XTD200 and Flickr30k-200 datasets. We show that NLLB-CLIP is comparable in quality to state-of-the-art models and significantly outperforms them on low-resource languages.
翻訳日:2023-11-03 16:58:18 公開日:2023-11-01
# ディセプションゲーム:対話型ロボットオートノミーにおける安全学習ループの閉鎖

Deception Game: Closing the Safety-Learning Loop in Interactive Robot Autonomy ( http://arxiv.org/abs/2309.01267v2 )

ライセンス: Link先を確認
Haimin Hu, Zixu Zhang, Kensuke Nakamura, Andrea Bajcsy, Jaime F. Fisac(参考訳) 自動運転車のようなロボットシステムを広く展開する上での課題は、パフォーマンスを犠牲にすることなく、人間との安全なインタラクションを保証することだ。 既存の安全手法は、ロボットが実行時に学習し適応する能力を無視することが多く、過度に保守的な行動を引き起こす。 本稿では,ロボットの物理的ダイナミクスと学習アルゴリズムを協調的に考慮し,ロボットの進化する不確実性と,それに伴う将来のシナリオに迅速に対応できる能力を明確に説明し,安全な制御ポリシーを合成するための新しいクローズドループパラダイムを提案する。 本研究では,高次元学習力学下でのトラクタブル・セーフティ解析に対向的強化学習を活用し,ベイズ的信念の伝播と暗黙的学習の両能力を示す。

An outstanding challenge for the widespread deployment of robotic systems like autonomous vehicles is ensuring safe interaction with humans without sacrificing performance. Existing safety methods often neglect the robot's ability to learn and adapt at runtime, leading to overly conservative behavior. This paper proposes a new closed-loop paradigm for synthesizing safe control policies that explicitly account for the robot's evolving uncertainty and its ability to quickly respond to future scenarios as they arise, by jointly considering the physical dynamics and the robot's learning algorithm. We leverage adversarial reinforcement learning for tractable safety analysis under high-dimensional learning dynamics and demonstrate our framework's ability to work with both Bayesian belief propagation and implicit learning through large pre-trained neural trajectory predictors.
翻訳日:2023-11-03 16:56:50 公開日:2023-11-01
# リカレントニューラルネットワークにおける表現確率的サンプリング

Expressive probabilistic sampling in recurrent neural networks ( http://arxiv.org/abs/2308.11809v2 )

ライセンス: Link先を確認
Shirui Chen, Linxin Preston Jiang, Rajesh P. N. Rao, Eric Shea-Brown(参考訳) サンプリングに基づく脳機能のベイズモデルでは、神経活動は脳が確率計算に使用する確率分布のサンプルであると仮定される。 しかし、神経動力学の機械的なモデルが任意の分布からどのようにサンプルできるかの包括的理解はまだ欠けている。 関数解析と確率微分方程式のツールを使って、複素分布からサンプルを得るために$\textit{recurrent}$ニューラルネットワークの最小アーキテクチャ要件を探求する。 まず,出力がサンプル(サンプルのみのネットワーク)を直接表現するニューロンのネットワークからなる従来のサンプリングモデルを検討する。 従来のモデルにおけるシナプス電流と発火速度のダイナミクスは、複雑な確率分布からサンプルをサンプリングする能力に制限がある。 本稿では, 任意の確率分布から, 出力単位を分離した再帰型ニューラルネットワークの発火速度のダイナミクスをサンプリングできることを示す。 このような回路をリザーブ・サンプラーネットワーク (RSN) と呼ぶ。 本稿では, RSNがLangevinサンプリングを実装しているような繰り返しおよび出力重みを求める, スコアマッチングに基づく効率的なトレーニング手法を提案する。 提案するニューラルダイナミクスを用いて,複数の複雑なデータ分布から標本を抽出できるモデルの能力を実証し,その次世代の標本ベース脳モデルへの適用性について検討した。

In sampling-based Bayesian models of brain function, neural activities are assumed to be samples from probability distributions that the brain uses for probabilistic computation. However, a comprehensive understanding of how mechanistic models of neural dynamics can sample from arbitrary distributions is still lacking. We use tools from functional analysis and stochastic differential equations to explore the minimum architectural requirements for $\textit{recurrent}$ neural circuits to sample from complex distributions. We first consider the traditional sampling model consisting of a network of neurons whose outputs directly represent the samples (sampler-only network). We argue that synaptic current and firing-rate dynamics in the traditional model have limited capacity to sample from a complex probability distribution. We show that the firing rate dynamics of a recurrent neural circuit with a separate set of output units can sample from an arbitrary probability distribution. We call such circuits reservoir-sampler networks (RSNs). We propose an efficient training procedure based on denoising score matching that finds recurrent and output weights such that the RSN implements Langevin sampling. We empirically demonstrate our model's ability to sample from several complex data distributions using the proposed neural dynamics and discuss its applicability to developing the next generation of sampling-based brain models.
翻訳日:2023-11-03 16:55:14 公開日:2023-11-01
# dyadic 強化学習

Dyadic Reinforcement Learning ( http://arxiv.org/abs/2308.07843v5 )

ライセンス: Link先を確認
Shuangning Li, Lluis Salvat Niell, Sung Won Choi, Inbal Nahum-Shani, Guy Shani, Susan Murphy(参考訳) モバイルヘルスは、個人の日常生活に介入することで、健康上の成果を高めることを目的としている。 ケアパートナーやソーシャルサポートネットワークの関与は、個人が負担の多い医療状況を管理するのに不可欠である。 これは、社会的支援を強化することを目的として、ダイアド関係(対象者とケアパートナーの関係)をターゲットにした介入をデザインする機会を提供する。 本稿では,対象者とその介護パートナーの状況的要因と過去の対応に基づいて,介入配信をパーソナライズするオンライン強化学習アルゴリズムであるdyadic rlを開発した。 ここで、複数の介入セットは、複数の時間間隔にわたってdyadに影響を与える。 開発されたダイド RL はベイズ的かつ階層的である。 問題設定を正式に導入し, Dyadic RLを開発し, 後悔の束縛を確立する。 本研究は,モバイル健康調査で収集したデータから構築した,おもちゃのシナリオと現実的なテストベッドのシミュレーション研究を通じて,ダイアディッドRLの実証性能を実証する。

Mobile health aims to enhance health outcomes by delivering interventions to individuals as they go about their daily life. The involvement of care partners and social support networks often proves crucial in helping individuals managing burdensome medical conditions. This presents opportunities in mobile health to design interventions that target the dyadic relationship -- the relationship between a target person and their care partner -- with the aim of enhancing social support. In this paper, we develop dyadic RL, an online reinforcement learning algorithm designed to personalize intervention delivery based on contextual factors and past responses of a target person and their care partner. Here, multiple sets of interventions impact the dyad across multiple time intervals. The developed dyadic RL is Bayesian and hierarchical. We formally introduce the problem setup, develop dyadic RL and establish a regret bound. We demonstrate dyadic RL's empirical performance through simulation studies on both toy scenarios and on a realistic test bed constructed from data collected in a mobile health study.
翻訳日:2023-11-03 16:54:24 公開日:2023-11-01
# ドメイン認識フェデレーション学習のためのデュアルプロンプトチューニング

Dual Prompt Tuning for Domain-Aware Federated Learning ( http://arxiv.org/abs/2310.03103v3 )

ライセンス: Link先を確認
Guoyizhe Wei, Feng Wang, Anshul Shah, Rama Chellappa(参考訳) フェデレートラーニング(Federated Learning)は、複数のクライアントがローカルデータで共有モデルを共同でトレーニングできる分散機械学習パラダイムである。 それでも、従来の連合学習アルゴリズムは、クライアント間のユビキタスなドメインシフトのために、うまく一般化できないことが多い。 本研究では、各クライアントのトレーニングデータが異なるドメインから派生する、挑戦的で現実的なフェデレート学習シナリオについて考察する。 本稿では,素早い学習技術を活用したドメインシフトの課題に対処し,Fed-DPT(Federated Dual Prompt Tuning)と呼ばれる新しい手法を提案する。 具体的には、feed-dptは事前訓練されたビジョン言語モデルを採用し、視覚とテキストの両方のプロンプトチューニングを適用して分散データに対するドメイン適応を促進する。 Fed-DPTの大規模な実験は、ドメイン対応のフェデレーション学習においてその顕著な効果を示した。 事前トレーニングされたCLIPモデル(イメージエンコーダとしてのViT-Base)により、提案されたFed-DPTは、DomainNetデータセットの6つのドメインの平均精度を68.4%向上し、オリジナルのCLIPを14.8%向上させた。

Federated learning is a distributed machine learning paradigm that allows multiple clients to collaboratively train a shared model with their local data. Nonetheless, conventional federated learning algorithms often struggle to generalize well due to the ubiquitous domain shift across clients. In this work, we consider a challenging yet realistic federated learning scenario where the training data of each client originates from different domains. We address the challenges of domain shift by leveraging the technique of prompt learning, and propose a novel method called Federated Dual Prompt Tuning (Fed-DPT). Specifically, Fed-DPT employs a pre-trained vision-language model and then applies both visual and textual prompt tuning to facilitate domain adaptation over decentralized data. Extensive experiments of Fed-DPT demonstrate its significant effectiveness in domain-aware federated learning. With a pre-trained CLIP model (ViT-Base as image encoder), the proposed Fed-DPT attains 68.4% average accuracy over six domains in the DomainNet dataset, which improves the original CLIP by a large margin of 14.8%.
翻訳日:2023-11-03 16:45:34 公開日:2023-11-01
# 幾何深層学習による電池電解質混合物の微分モデルと最適化

Differentiable Modeling and Optimization of Battery Electrolyte Mixtures Using Geometric Deep Learning ( http://arxiv.org/abs/2310.03047v2 )

ライセンス: Link先を確認
Shang Zhu, Bharath Ramsundar, Emil Annevelink, Hongyi Lin, Adarsh Dave, Pin-Wen Guan, Kevin Gering, Venkatasubramanian Viswanathan(参考訳) 電解質は、効率的なイオン移動、電荷移動の防止、電極-電解質界面の安定化など、次世代電池システムの設計において重要な役割を果たす。 本研究では,化学混合物の微分可能な幾何学的深層学習(gdl)モデルdiffmixを開発し,ロボット実験と高速電池電解質への最適化に応用した。 特に、GDL学習可能な物理係数を作成することにより、熱力学と輸送の混合法則を拡張する。 混合熱力学とイオン輸送特性を用いてモデルの評価を行い,DiffMixのモデルロバスト性および予測精度の向上をデータ駆動型モデルと比較した。 さらに,ロボット実験装置clioを用いて,回折勾配に基づく微分可能な最適化により,電解液のイオン伝導率を10ステップで18.8%以上向上させる。 GDL、混合物理法則、ロボット実験を組み合わせることで、DiffMixは化学混合物の予測モデリング手法を拡張し、大規模化学空間における効率的な最適化を可能にする。

Electrolytes play a critical role in designing next-generation battery systems, by allowing efficient ion transfer, preventing charge transfer, and stabilizing electrode-electrolyte interfaces. In this work, we develop a differentiable geometric deep learning (GDL) model for chemical mixtures, DiffMix, which is applied in guiding robotic experimentation and optimization towards fast-charging battery electrolytes. In particular, we extend mixture thermodynamic and transport laws by creating GDL-learnable physical coefficients. We evaluate our model with mixture thermodynamics and ion transport properties, where we show improved prediction accuracy and model robustness of DiffMix than its purely data-driven variants. Furthermore, with a robotic experimentation setup, Clio, we improve ionic conductivity of electrolytes by over 18.8% within 10 experimental steps, via differentiable optimization built on DiffMix gradients. By combining GDL, mixture physics laws, and robotic experimentation, DiffMix expands the predictive modeling methods for chemical mixtures and enables efficient optimization in large chemical spaces.
翻訳日:2023-11-03 16:45:12 公開日:2023-11-01
# ロボットワイヤハーネスアセンブリのためのコンピュータビジョン技術

Computer Vision Technology for Robotized Wire Harness Assembly ( http://arxiv.org/abs/2309.13745v2 )

ライセンス: Link先を確認
Hao Wang, Omkar Salunkhe, Walter Quadrini, Dan L\"amkull, Fredrik Ore, Bj\"orn Johansson, Johan Stahre(参考訳) ワイヤーハーネスは現代の自動車における電子システムにとって必須のハードウェアである。 自動車産業の電気化と自動運転へのシフトに伴い、ますます多くの自動車エレクトロニクスがエネルギー伝達と、操縦、運転支援、安全システムといった安全上重要な機能を担っている。 このパラダイムシフトは、安全の観点から自動車配線ハーネスの需要を増大させ、車両における高品質なワイヤハーネス組立の重要性を強調している。 しかし、現在のワイヤハーネスの組立作業のほとんどは熟練労働者によって手作業で行われており、いくつかの手作業は品質管理やエルゴノミクスといった異なる観点から問題となっている。 また、競争力を高め市場シェアを獲得するよう業界に常に要求されている。 したがって、エルゴノミクスを改善し、労働コストを最適化しながら組立品質を確保することが望まれる。 ロボットや人間とロボットのコラボレーションによって実現されたロボットアセンブリは、完全な手作業よりもレプリカで透明で理解しやすいプロセスを可能にするため、ますます要求される品質と安全性を達成するための重要な実現手段である。 しかしながら、変形可能なオブジェクトの柔軟性のため、実際の環境では、ワイヤハーネスのロボット化は困難であるが、工業的構成の単純化の下では、多くの予備的な自動化ソリューションが提案されている。 従来の研究では、コンピュータビジョン技術を用いてワイヤハーネス組立のロボット自動化を促進することを提案しており、ロボットは柔軟ワイヤハーネスをよりよく知覚し操作することができる。 本稿では、ロボット化されたワイヤハーネス組立のためのコンピュータビジョン技術の概要と、より実用的なワイヤハーネス組立を促進するためにさらなる研究を必要とする研究ギャップの導出について述べる。

Wire harnesses are essential hardware for electronic systems in modern automotive vehicles. With a shift in the automotive industry towards electrification and autonomous driving, more and more automotive electronics are responsible for energy transmission and safety-critical functions such as maneuvering, driver assistance, and safety system. This paradigm shift places more demand on automotive wiring harnesses from the safety perspective and stresses the greater importance of high-quality wire harness assembly in vehicles. However, most of the current operations of wire harness assembly are still performed manually by skilled workers, and some of the manual processes are problematic from different perspectives, such as quality control and ergonomics. There is also a persistent demand in the industry to increase competitiveness and gain market share. Hence, assuring assembly quality while improving ergonomics and optimizing labor costs is desired. Robotized assembly, accomplished by robots or in human-robot collaboration, is a key enabler for fulfilling the increasingly demanding quality and safety as it enables more replicable, transparent, and comprehensible processes than completely manual operations. However, robotized assembly of wire harnesses is challenging in real environments due to the flexibility of the deformable objects, though many preliminary automation solutions have been proposed under simplified industrial configurations. Previous research efforts have proposed the use of computer vision technology to facilitate robotized automation of wire harness assembly, enabling the robots to better perceive and manipulate the flexible wire harness. This article presents an overview on computer vision technology proposed for robotized wire harness assembly and derives research gaps that require further study to facilitate a more practical robotized assembly of wire harness.
翻訳日:2023-11-03 16:43:37 公開日:2023-11-01
# ロボットワイヤハーネス組立におけるコンピュータビジョン応用に関する体系的文献レビュー

A Systematic Literature Review of Computer Vision Applications in Robotized Wire Harness Assembly ( http://arxiv.org/abs/2309.13744v2 )

ライセンス: Link先を確認
Hao Wang, Omkar Salunkhe, Walter Quadrini, Bj\"orn Johansson, Dan L\"amkull, Fredrik Ore, M\'elanie Despeisse, Luca Fumagalli, Johan Stahre(参考訳) 本稿では、ロボット化されたワイヤハーネス組立のためのコンピュータビジョン応用に関する体系的な文献レビューを行い、既存の研究から課題を導き、より実用的なワイヤハーネス組立を促進するための将来の研究機会を明らかにする。

This article presents a systematic literature review on computer vision applications that have been proposed for robotized wire harness assembly, derives challenges from existing studies, and identifies opportunities for future research to promote a more practical robotized assembly of wire harnesses.
翻訳日:2023-11-03 16:43:09 公開日:2023-11-01
# qudeval: 議論談話解析における質問の評価

QUDEVAL: The Evaluation of Questions Under Discussion Discourse Parsing ( http://arxiv.org/abs/2310.14520v2 )

ライセンス: Link先を確認
Yating Wu, Ritika Mangla, Greg Durrett, Junyi Jessy Li(参考訳) Questions Under Discussion (QUD) は、言論を継続的に質問し、回答する多目的言語フレームワークである。 文書と回答文が与えられた場合、QUDの言語的制約を満たす質問を生成し、事前の文脈でアンカー文でグラウンド化することができる。 これらの質問は好奇心を駆り立て、オープンエンドであることが知られている。 本研究はQUD解析の自動評価のための最初のフレームワークを導入し、具体的なプロトコルにおけるQUDの理論的制約をインスタンス化する。 細調整されたシステムとLLMの両方から生成された2,190のQUD質問のきめ細かい評価データセットであるQUDevalを提案する。 QUDevalを用いて、現代のLLMではQUDの制約をすべて満たすことは依然として困難であり、既存の評価基準はパーサの品質を十分に近似していないことを示す。 人為的なQUDは、人間の評価者によって高く評価され、QUD解析とQUD評価の両方を改善するために、言語モデリングのさらなる進歩のためのハードルがあることが示唆されている。

Questions Under Discussion (QUD) is a versatile linguistic framework in which discourse progresses as continuously asking questions and answering them. Automatic parsing of a discourse to produce a QUD structure thus entails a complex question generation task: given a document and an answer sentence, generate a question that satisfies linguistic constraints of QUD and can be grounded in an anchor sentence in prior context. These questions are known to be curiosity-driven and open-ended. This work introduces the first framework for the automatic evaluation of QUD parsing, instantiating the theoretical constraints of QUD in a concrete protocol. We present QUDeval, a dataset of fine-grained evaluation of 2,190 QUD questions generated from both fine-tuned systems and LLMs. Using QUDeval, we show that satisfying all constraints of QUD is still challenging for modern LLMs, and that existing evaluation metrics poorly approximate parser quality. Encouragingly, human-authored QUDs are scored highly by our human evaluators, suggesting that there is headroom for further progress on language modeling to improve both QUD parsing and QUD evaluation.
翻訳日:2023-11-03 16:35:02 公開日:2023-11-01
# p$-進ユニタリ作用素のスペクトル理論

Spectral theory of $p$-adic unitary operator ( http://arxiv.org/abs/2310.12266v2 )

ライセンス: Link先を確認
Zhao Tianhong(参考訳) p$-進ユニタリ作用素 $u$ は、$p$-進超計量バナッハ空間上の可逆作用素として定義され、$\left |u\right |=\left |u^{-1}\right |=1$ となる。 u$ のスペクトル測度は $\textbf{projection functors}$ で評価され、これは形式群スキームの測度理論として説明できる。 U$のスペクトル分解は、$\psi$が$p$進波動関数であるときに完了する。 我々は$\textbf{the Galois theory of operator}$を研究する。 $\mathbb{q}_p$ のアーベル拡大理論は、$p$-進ユニタリ作用素の位相的性質と連結である。 p$-adicユニタリ演算子を3つの型に分類する。 $\textbf{Teichm\"uller type}, \textbf{continuous type}, \textbf{pro-finite type}$。 最後に、$\textbf{framework of $p$-adic quantum mechanics}$を定め、射影関手は量子測定の役割を果たす。

The $p$-adic unitary operator $U$ is defined as an invertible operator on $p$-adic ultrametric Banach space such that $\left |U\right |=\left |U^{-1}\right |=1$. We point out $U$ has a spectral measure valued in $\textbf{projection functors}$, which can be explained as the measure theory on the formal group scheme. The spectrum decomposition of $U$ is complete when $\psi$ is a $p$-adic wave function. We study $\textbf{the Galois theory of operators}$. The abelian extension theory of $\mathbb{Q}_p$ is connected to the topological properties of the $p$-adic unitary operator. We classify the $p$-adic unitary operator as three types: $\textbf{Teichm\"uller type}, \textbf{continuous type}, \textbf{pro-finite type}$. Finally, we establish a $\textbf{framework of $p$-adic quantum mechanics}$, where projection functor plays a role of quantum measurement.
翻訳日:2023-11-03 16:32:33 公開日:2023-11-01
# 概念に基づく透過的異常検出

Transparent Anomaly Detection via Concept-based Explanations ( http://arxiv.org/abs/2310.10702v2 )

ライセンス: Link先を確認
Laya Rafiee Sevyeri, Ivaxi Sheth, Farhood Farahnak, Samira Ebrahimi Kahou, Shirin Abbasinejad Enger(参考訳) ディープラーニング技術の進歩により、異常検出のパフォーマンスが向上した。 しかし、現実世界および安全クリティカルなアプリケーションは、正確性を超えたレベルの透明性と推論を必要とする。 異常検出(AD)の課題は、与えられたサンプルが学習された分布に従うかどうかを調べることである。 既存の方法には、結果を明確に説明して推論する能力がない。 したがって、この課題を克服するために、Transparent {A}nomaly Detection {C}oncept {E}xplanations (ACE)を提案する。 ACEは、人間の解釈可能な概念の説明と異常予測を提供することができる。 我々の知る限りでは、この論文は解釈可能な副設計異常検出を提案する最初の論文である。 ADにおける透明性の促進に加えて、効果的な人間-モデル相互作用を可能にする。 提案モデルではブラックボックス非解釈モデルよりも高いか同等の結果を示す。 CUB-200-2011の鳥の分類、TIL-WSI-TCGAの病理組織学的スライド画像分類、CelebAの性別分類の3つの現実的データセットにおけるACEの性能を検証した。 さらに,概念学習パラダイムを他の分類ベースの広告手法とシームレスに統合できることを実証する。

Advancements in deep learning techniques have given a boost to the performance of anomaly detection. However, real-world and safety-critical applications demand a level of transparency and reasoning beyond accuracy. The task of anomaly detection (AD) focuses on finding whether a given sample follows the learned distribution. Existing methods lack the ability to reason with clear explanations for their outcomes. Hence to overcome this challenge, we propose Transparent {A}nomaly Detection {C}oncept {E}xplanations (ACE). ACE is able to provide human interpretable explanations in the form of concepts along with anomaly prediction. To the best of our knowledge, this is the first paper that proposes interpretable by-design anomaly detection. In addition to promoting transparency in AD, it allows for effective human-model interaction. Our proposed model shows either higher or comparable results to black-box uninterpretable models. We validate the performance of ACE across three realistic datasets - bird classification on CUB-200-2011, challenging histopathology slide image classification on TIL-WSI-TCGA, and gender classification on CelebA. We further demonstrate that our concept learning paradigm can be seamlessly integrated with other classification-based AD methods.
翻訳日:2023-11-03 16:32:05 公開日:2023-11-01
# 教師なし機械学習による電力系統抵抗曲線の基本特性の解明

Unraveling Fundamental Properties of Power System Resilience Curves using Unsupervised Machine Learning ( http://arxiv.org/abs/2310.10030v2 )

ライセンス: Link先を確認
Bo Li, Ali Mostafavi(参考訳) インフラストラクチャのレジリエンスの標準モデルであるレジリエンス三角形は、インフラストラクチャのレジリエンスを特徴づけ、定量化する主要な方法である。 しかし、理論モデルは単にすべてのインフラシステムに一大のフレームワークを提供するだけである。 既存研究の多くは, シミュレーションシステムの性能に基づく解析モデルに基づいて, インフラストラクチャのレジリエンス曲線の特性について検討している。 限定的な実証研究は、インフラストラクチャシステムのレジリエンス特性を完全に理解し、予測する能力を妨げました。 このギャップに対処するため,三大極度気象イベントにおける停電に伴う200以上のレジリエンス曲線を調査した。 教師なし機械学習を用いて,異なる曲線アーチタイプ,および各弾性曲線アーチタイプの基本特性を検討した。 その結果, 電力系統弾性曲線, 三角曲線, 台形曲線の2つの主要なアーチタイプが得られた。 三角形曲線は弾性挙動を特徴づける 1. 重要な機能しきい値 2. 重要な機能回復率、及び 3. 回復ピボットポイント。 トラペジイド型アーチタイプによる弾性曲線の解明 一 持続的機能喪失及び持続的機能喪失の期間 2. 一定の回復率 機能損失の持続期間が長ければ長いほど、回復の一定速度が遅くなる。 本研究の知見は, 電力系統インフラのレジリエンス性能をよりよく理解し, 予測することを可能にする新しい視点を提供する。

The standard model of infrastructure resilience, the resilience triangle, has been the primary way of characterizing and quantifying infrastructure resilience. However, the theoretical model merely provides a one-size-fits-all framework for all infrastructure systems. Most of the existing studies examine the characteristics of infrastructure resilience curves based on analytical models constructed upon simulated system performance. Limited empirical studies hindered our ability to fully understand and predict resilience characteristics in infrastructure systems. To address this gap, this study examined over 200 resilience curves related to power outages in three major extreme weather events. Using unsupervised machine learning, we examined different curve archetypes, as well as the fundamental properties of each resilience curve archetype. The results show two primary archetypes for power system resilience curves, triangular, and trapezoidal curves. Triangular curves characterize resilience behavior based on 1. critical functionality threshold, 2. critical functionality recovery rate, and 3. recovery pivot point. Trapezoidal archetypes explain resilience curves based on 1. duration of sustained function loss and 2. constant recovery rate. The longer the duration of sustained function loss, the slower the constant rate of recovery. The findings of this study provide novel perspectives enabling better understanding and prediction of resilience performance of power system infrastructures.
翻訳日:2023-11-03 16:31:21 公開日:2023-11-01
# ZEETAD:ゼロショット終端動作検出のための事前学習型視覚言語モデルの適用

ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot End-to-End Temporal Action Detection ( http://arxiv.org/abs/2311.00729v1 )

ライセンス: Link先を確認
Thinh Phan, Khoa Vo, Duy Le, Gianfranco Doretto, Donald Adjeroh, Ngan Le(参考訳) 時間的行動検出(TAD)は、未トリミングビデオ内のアクションインスタンスのローカライズと分類を含む。 標準tadは、大規模トレーニングデータに対するクローズドセット設定による完全な教師付き学習に従うが、最近のゼロショットtad手法は、大規模なコントラストビジュアル言語(vil)事前学習モデルを活用することで、オープンセット設定の有望さを示している。 しかし、既存のゼロショットTAD法は、ローカライゼーションと分類の2つの相互依存タスク間の強い関係を適切に構築し、ビデオ理解にViLモデルを適用する方法に制限がある。 本稿では,デュアルローカライズとゼロショットの提案分類という2つのモジュールを特徴とするゼータドを提案する。 前者はtransformerベースのモジュールで、アクションイベントを検出し、後で認識するために重要な意味埋め込みを選択的に収集する。 後者はCLIPベースのモジュールで、時間単位ごとにテキストとフレーム入力からセマンティック埋め込みを生成する。 さらに,軽量アダプタで冷凍したCLIPエンコーダを最小限に更新することで,未確認クラスの識別能力を向上させる。 THUMOS14とActivityNet-1.3データセットの大規模な実験は、ゼロショットTADにおける我々のアプローチの優れた性能と、ViLモデルから目に見えないアクションカテゴリへの効果的な知識伝達を示す。

Temporal action detection (TAD) involves the localization and classification of action instances within untrimmed videos. While standard TAD follows fully supervised learning with closed-set setting on large training data, recent zero-shot TAD methods showcase the promising of open-set setting by leveraging large-scale contrastive visual-language (ViL) pretrained models. However, existing zero-shot TAD methods have limitations on how to properly construct the strong relationships between two interdependent tasks of localization and classification and adapt ViL model to video understanding. In this work, we present ZEETAD, featuring two modules: dual-localization and zero-shot proposal classification. The former is a Transformer-based module that detects action events while selectively collecting crucial semantic embeddings for later recognition. The latter one, CLIP-based module, generates semantic embeddings from text and frame inputs for each temporal unit. Additionally, we enhance discriminative capability on unseen classes by minimally updating the frozen CLIP encoder with lightweight adapters. Extensive experiments on THUMOS14 and ActivityNet-1.3 datasets demonstrate our approach's superior performance in zero-shot TAD and effective knowledge transfer from ViL models to unseen action categories.
翻訳日:2023-11-03 16:21:49 公開日:2023-11-01
# 非ボゾンモワール励起子

Non-bosonic moir\'e excitons ( http://arxiv.org/abs/2310.19931v2 )

ライセンス: Link先を確認
Tsung-Sheng Huang, Peter Lunts, Mohammad Hafezi(参考訳) moir\'e 遷移金属ジアルコゲナイド二層膜の光励起は、ボース・ハバードの枠組みの中で一般的に考慮される電子ホール境界状態として励起子を生成する。 ここでは、これらの複合粒子が一般に非ボソニックな角運動量交換関係に従うことを示す。 この励起子の創発的なスピン記述は、弱い電子-ホール結合機構において重要な各部位の占有限界を示す。 効果的な励起子理論はスピンハミルトニアンであり、ホルシュタイン-プリマコフ変換の後に占有制約を受ける創発ボソンのハバードモデルとなる。 この理論を一般に研究されている3つの二層膜(MoSe2/WSe2, WSe2/WS2, WSe2/MoS2)に適用し、関連するパラメータではそれらの占有が3つの励起子を超えることはないことを示す。 我々の体系的理論は、モーアエ励起体の多体物理学に関する将来の研究のガイドラインを提供する。

Optical excitations in moir\'e transition metal dichalcogenide bilayers lead to the creation of excitons, as electron-hole bound states, that are generically considered within a Bose-Hubbard framework. Here, we demonstrate that these composite particles obey an angular momentum commutation relation that is generally non-bosonic. This emergent spin description of excitons indicates a limitation to their occupancy on each site, which is substantial in the weak electron-hole binding regime. The effective exciton theory is accordingly a spin Hamiltonian, which further becomes a Hubbard model of emergent bosons subject to an occupancy constraint after a Holstein-Primakoff transformation. We apply our theory to three commonly studied bilayers (MoSe2/WSe2, WSe2/WS2, and WSe2/MoS2) and show that in the relevant parameter regimes their allowed occupancies never exceed three excitons. Our systematic theory provides guidelines for future research on the many-body physics of moir\'e excitons.
翻訳日:2023-11-03 16:20:31 公開日:2023-11-01
# 時間的畳み込みニューラルネットワークによるデノボ化学反応の生成

De-novo Chemical Reaction Generation by Means of Temporal Convolutional Neural Networks ( http://arxiv.org/abs/2310.17341v3 )

ライセンス: Link先を確認
Andrei Buin, Hung Yi Chiang, S. Andrew Gadsden, Faraz A. Alderson(参考訳) 本稿では,リカレントニューラルネットワーク(RNN)と時間畳み込みニューラルネットワーク(TCN)の2つの組み合わせを,新しい反応スマイルズ様反応表現(CGRSmiles)と原子マッピングを直接組み込んだデノボ反応生成に適用する。 リカレントニューラルネットワークは自己回帰特性で知られており、SMILES生成への直接適用を伴う言語モデリングで頻繁に使用される。 比較的新しいTCNは、自然言語処理(NLP)に必要とされる因果性に従いながら、広い受容領域を持つ類似の性質を持つ。 TCNとRNNで表現された2つの潜在表現の組み合わせは、RNN単独と比較して全体的なパフォーマンスが向上する。 さらに、異なる微調整プロトコルが、転送学習による関心のデータセットに適用した場合、モデルの生成範囲に大きな影響を与えることを示した。

We present here a combination of two networks, Recurrent Neural Networks (RNN) and Temporarily Convolutional Neural Networks (TCN) in de novo reaction generation using the novel Reaction Smiles-like representation of reactions (CGRSmiles) with atom mapping directly incorporated. Recurrent Neural Networks are known for their autoregressive properties and are frequently used in language modelling with direct application to SMILES generation. The relatively novel TCNs possess similar properties with wide receptive field while obeying the causality required for natural language processing (NLP). The combination of both latent representations expressed through TCN and RNN results in an overall better performance compared to RNN alone. Additionally, it is shown that different fine-tuning protocols have a profound impact on generative scope of the model when applied on a dataset of interest via transfer learning.
翻訳日:2023-11-03 16:17:59 公開日:2023-11-01
# MimicTouch: マルチモーダル触覚フィードバックによる人間のコントロール戦略の学習

MimicTouch: Learning Human's Control Strategy with Multi-Modal Tactile Feedback ( http://arxiv.org/abs/2310.16917v2 )

ライセンス: Link先を確認
Kelin Yu, Yunhai Han, Matthew Zhu, Ye Zhao(参考訳) 特にアライメントや挿入といった複雑なタスクを実行するための学習において、ロボット工学や人工知能では触覚処理の統合がますます重要になっている。 しかし,既存の作業では,ロボット遠隔操作データと強化学習に大きく依存しており,触覚フィードバックによって導かれる人間のコントロール戦略による豊かな洞察は利用されていない。 人間の感覚を利用するために、人間の学習に関連する方法論は視覚的なフィードバックを主に利用し、しばしば人間が複雑な操作を終えるために本質的に使用する貴重な触覚フィードバックを見越す。 このギャップに対処するために,人間の触覚誘導制御戦略を模倣する新しいフレームワークである"MimicTouch"を紹介する。 このフレームワークでは、まず人間のデモンストレータからマルチモーダル触覚データセットを収集し、タスク完了のためのヒューマン触覚誘導制御戦略を取り入れた。 その後のステップでは、マルチモーダルセンサーデータと人間の動きを再ターゲットとした模倣学習を通じてロボットに指示する。 さらに,人間とロボットの具体的ギャップを緩和するため,物理ロボットにオンライン残留強化学習を導入する。 総合的な実験を通じて,人間からロボットへの模倣学習を通じて学んだ潜伏政策の伝達におけるMimicTouchの安全性を検証する。 この進行中の作業は、触覚誘導ロボットの幅広い応用への道を開くだろう。

In robotics and artificial intelligence, the integration of tactile processing is becoming increasingly pivotal, especially in learning to execute intricate tasks like alignment and insertion. However, existing works focusing on tactile methods for insertion tasks predominantly rely on robot teleoperation data and reinforcement learning, which do not utilize the rich insights provided by human's control strategy guided by tactile feedback. For utilizing human sensations, methodologies related to learning from humans predominantly leverage visual feedback, often overlooking the invaluable tactile feedback that humans inherently employ to finish complex manipulations. Addressing this gap, we introduce "MimicTouch", a novel framework that mimics human's tactile-guided control strategy. In this framework, we initially collect multi-modal tactile datasets from human demonstrators, incorporating human tactile-guided control strategies for task completion. The subsequent step involves instructing robots through imitation learning using multi-modal sensor data and retargeted human motions. To further mitigate the embodiment gap between humans and robots, we employ online residual reinforcement learning on the physical robot. Through comprehensive experiments, we validate the safety of MimicTouch in transferring a latent policy learned through imitation learning from human to robot. This ongoing work will pave the way for a broader spectrum of tactile-guided robotic applications.
翻訳日:2023-11-03 16:17:04 公開日:2023-11-01
# 高エネルギー衝突における荷電トラック探索のための量子経路

Quantum Pathways for Charged Track Finding in High-Energy Collisions ( http://arxiv.org/abs/2311.00766v1 )

ライセンス: Link先を確認
Christopher Brown, Michael Spannowsky, Alexander Tapper, Simon Williams and Ioannis Xiotidis(参考訳) 高エネルギー粒子衝突では、荷電トラック発見は複雑だが重要な試みである。 トラック探索の精度と効率を高めるために,量子アルゴリズム,特に量子テンプレートマッチングを提案する。 データレジスタを導入し、量子振幅増幅ルーチンを抽象化し、新しいoracle構成を使用することで、入力データの事前知識なしに、データを回路に解析しヒットパターンテンプレートにマッチさせることができる。 さらに,ヒットデータの欠落によって生じる課題に対処し,ヒットパターンから荷電粒子トラックを同定する量子テンプレートマッチングアルゴリズムの能力を示す。 そこで本研究では,実世界の応用に適した量子方法論を提案し,衝突型物理学における量子コンピューティングの可能性を示す。

In high-energy particle collisions, charged track finding is a complex yet crucial endeavour. We propose a quantum algorithm, specifically quantum template matching, to enhance the accuracy and efficiency of track finding. Abstracting the Quantum Amplitude Amplification routine by introducing a data register, and utilising a novel oracle construction, allows data to be parsed to the circuit and matched with a hit-pattern template, without prior knowledge of the input data. Furthermore, we address the challenges posed by missing hit data, demonstrating the ability of the quantum template matching algorithm to successfully identify charged-particle tracks from hit patterns with missing hits. Our findings therefore propose quantum methodologies tailored for real-world applications and underline the potential of quantum computing in collider physics.
翻訳日:2023-11-03 16:09:39 公開日:2023-11-01
# アメリカ手話における連続署名による言語駆動型手話認識の課題

Challenges for Linguistically-Driven Computer-Based Sign Recognition from Continuous Signing for American Sign Language ( http://arxiv.org/abs/2311.00762v1 )

ライセンス: Link先を確認
Carol Neidle(参考訳) ビデオから孤立した励起形符号をコンピュータで認識する技術は近年進歩している。 このようなタスクには多くの課題があり、特に、特定の記号の実現における社会言語的変化を含む、符号生成において自然に発生するシグナー間およびシグナー内同期変動がある。 しかしながら、継続的な署名からサインを認識することがさらに難しい問題となる重要な要素がいくつかある。 本稿では,ASL (American Sign Language) のための,言語的注釈付きビデオデータの大規模なコーパスから得られた知見をもとに,このような課題の概要を述べる。 また、手形や手形認識を促進できる記号の構造における言語規則についても論じている。

There have been recent advances in computer-based recognition of isolated, citation-form signs from video. There are many challenges for such a task, not least the naturally occurring inter- and intra- signer synchronic variation in sign production, including sociolinguistic variation in the realization of certain signs. However, there are several significant factors that make recognition of signs from continuous signing an even more difficult problem. This article presents an overview of such challenges, based in part on findings from a large corpus of linguistically annotated video data for American Sign Language (ASL). Some linguistic regularities in the structure of signs that can boost handshape and sign recognition are also discussed.
翻訳日:2023-11-03 16:09:26 公開日:2023-11-01
# 量子カルトポール:非線形強化学習のためのベンチマーク環境

The Quantum Cartpole: A benchmark environment for non-linear reinforcement learning ( http://arxiv.org/abs/2311.00756v1 )

ライセンス: Link先を確認
Kai Meinerz, Simon Trebst, Mark Rudner, Evert van Nieuwenburg(参考訳) フィードバックベースの制御は、古典的な確率システムやプロセスの制御に関してデファクトスタンダードである。 しかし、標準フィードバックに基づく制御法は、測定によるバックアクションと部分的可観測性のために量子システムによって挑戦される。 ここでは,弱量子計測とモデルフリー強化学習エージェントを用いて量子制御を行う。 制御アルゴリズムと状態推定器とを比較して、局所ポテンシャルエネルギー最大値付近の不安定な状態で量子粒子を安定化させることにより、状態推定と制御性の間のトレードオフが生じることを示す。 古典的アナログが非常に非線形なシナリオでは、強化学習された制御器は標準制御器よりも有利である。 さらに, 量子制御問題の古典的サロゲート上で強化学習により訓練された量子制御エージェントを開発するために, 転送学習を用いた場合の可能性を示す。 最後に,非線形シナリオにおいて,強化学習制御戦略が古典型コントローラとどのように異なるかを示す。

Feedback-based control is the de-facto standard when it comes to controlling classical stochastic systems and processes. However, standard feedback-based control methods are challenged by quantum systems due to measurement induced backaction and partial observability. Here we remedy this by using weak quantum measurements and model-free reinforcement learning agents to perform quantum control. By comparing control algorithms with and without state estimators to stabilize a quantum particle in an unstable state near a local potential energy maximum, we show how a trade-off between state estimation and controllability arises. For the scenario where the classical analogue is highly nonlinear, the reinforcement learned controller has an advantage over the standard controller. Additionally, we demonstrate the feasibility of using transfer learning to develop a quantum control agent trained via reinforcement learning on a classical surrogate of the quantum control problem. Finally, we present results showing how the reinforcement learning control strategy differs from the classical controller in the non-linear scenarios.
翻訳日:2023-11-03 16:09:17 公開日:2023-11-01
# ロボット操作のためのツールの設計と利用を学ぶ

Learning to Design and Use Tools for Robotic Manipulation ( http://arxiv.org/abs/2311.00754v1 )

ライセンス: Link先を確認
Ziang Liu, Stephen Tian, Michelle Guo, C. Karen Liu, Jiajun Wu(参考訳) 自身の形態によって制限されるとき、人間と一部の動物は、他の不可能でないタスクを達成するために、環境からオブジェクトを使用する顕著な能力を持っている。 ロボットも同様に、ツールの使用によって、さまざまな追加機能をアンロックする。 深層学習による形態と制御を共同最適化する最近の技術は, 移動エージェントの設計に有効である。 しかし、ひとつの形態を出力することは移動にとって理にかなっているが、操作は手元にあるタスクの目標に応じて様々な戦略を必要とする。 操作エージェントは、異なる目標のために専門ツールを迅速にプロトタイピングできなければならない。 そこで我々は,単一設計ではなく,設計方針の学習を提案する。 デザイナーポリシーはタスク情報に条件付けされ、タスクの解決を支援するツール設計を出力する。 設計条件付きコントローラポリシーは、これらのツールを使用して操作を行うことができる。 本研究では,これらの政策を共同学習するための強化学習フレームワークを導入することで,この目標に向けて一歩前進する。 シミュレーション操作タスクにより,マルチゴールやマルチバリアント設定において,従来の手法よりもサンプル効率が良く,ゼロショット補間や微調整が可能であり,設計の複雑さと実際の制約下での制御方針とのトレードオフが可能であることを示す。 最後に、学習したポリシーを本物のロボットにデプロイする。 詳細はhttps://robotic-tool-design.github.io/で確認できる。

When limited by their own morphologies, humans and some species of animals have the remarkable ability to use objects from the environment toward accomplishing otherwise impossible tasks. Robots might similarly unlock a range of additional capabilities through tool use. Recent techniques for jointly optimizing morphology and control via deep learning are effective at designing locomotion agents. But while outputting a single morphology makes sense for locomotion, manipulation involves a variety of strategies depending on the task goals at hand. A manipulation agent must be capable of rapidly prototyping specialized tools for different goals. Therefore, we propose learning a designer policy, rather than a single design. A designer policy is conditioned on task information and outputs a tool design that helps solve the task. A design-conditioned controller policy can then perform manipulation using these tools. In this work, we take a step towards this goal by introducing a reinforcement learning framework for jointly learning these policies. Through simulated manipulation tasks, we show that this framework is more sample efficient than prior methods in multi-goal or multi-variant settings, can perform zero-shot interpolation or fine-tuning to tackle previously unseen goals, and allows tradeoffs between the complexity of design and control policies under practical constraints. Finally, we deploy our learned policies onto a real robot. Please see our supplementary video and website at https://robotic-tool-design.github.io/ for visualizations.
翻訳日:2023-11-03 16:09:01 公開日:2023-11-01
# lindbladian sykにおける演算子ダイナミクス:krylov complexity perspective

Operator dynamics in Lindbladian SYK: a Krylov complexity perspective ( http://arxiv.org/abs/2311.00753v1 )

ライセンス: Link先を確認
Budhaditya Bhattacharjee, Pratik Nandy, Tanay Pathak(参考訳) q$-body dissipative syk モデルにおける演算子の成長を研究するために、krylov の複雑性を用いており、そこでは散逸は線形かつランダムな $p$-body lindblad 演算子によってモデル化される。 大きな$q$極限において、任意のジェネリックジャンプ作用素に対する2つの係数の集合の線形成長を解析的に確立する。 我々は、リンドブラジアンを純粋三角形に変換するbi-lanczosアルゴリズムを実装してこれを数値的に検証する。 クリロフ複雑性は散逸強度と逆向きに飽和し,散逸時間スケールは対数的に増加する。 これは、他の$\mathfrak{q}$-complexity測度、すなわちout-of-time-order correlator (otoc) と演算子のサイズの挙動に似ている。 これらの観測を連続的な量子計測プロセスに結びつける。 さらに, 一般自己相関の極構造と散逸の存在下でのスペクトル関数の高周波挙動についても検討し, 散逸量子カオス系における作用素成長の一般的な原理を明らかにする。

We use Krylov complexity to study operator growth in the $q$-body dissipative SYK model, where the dissipation is modeled by linear and random $p$-body Lindblad operators. In the large $q$ limit, we analytically establish the linear growth of two sets of coefficients for any generic jump operators. We numerically verify this by implementing the bi-Lanczos algorithm, which transforms the Lindbladian into a pure tridiagonal form. We find that the Krylov complexity saturates inversely with the dissipation strength, while the dissipative timescale grows logarithmically. This is akin to the behavior of other $\mathfrak{q}$-complexity measures, namely out-of-time-order correlator (OTOC) and operator size, which we also demonstrate. We connect these observations to continuous quantum measurement processes. We further investigate the pole structure of a generic auto-correlation and the high-frequency behavior of the spectral function in the presence of dissipation, thereby revealing a general principle for operator growth in dissipative quantum chaotic systems.
翻訳日:2023-11-03 16:08:42 公開日:2023-11-01
# これはAppleと同じか? オブジェクト内在性に基づく画像の比較

Are These the Same Apple? Comparing Images Based on Object Intrinsics ( http://arxiv.org/abs/2311.00750v1 )

ライセンス: Link先を確認
Klemen Kotar, Stephen Tian, Hong-Xing Yu, Daniel L.K. Yamins, Jiajun Wu(参考訳) 人間の視覚システムは、照明、オブジェクトポーズ、背景など、異なる外在的要因の下でオブジェクトを認識することができるが、現在のコンピュータビジョンシステムはこれらのバリエーションに苦しむことが多い。 人工視覚システムの理解と改善のための重要なステップは、オブジェクトのアイデンティティを定義する固有のオブジェクトプロパティに基づいて、画像の類似度を測定することである。 この問題はコンピュータビジョン文学において再同定として研究されてきたが、主に人や車のような特定の対象カテゴリーに限定されている。 我々は、これを一般のオブジェクトカテゴリに拡張し、オブジェクト内在性に基づく画像類似度メトリックを探索することを提案する。 このような測定をベンチマークするために、異なるextrinsics(cute)データセットの下で共通のペアオブジェクトを収集し、照明、ポーズ、撮像条件などの異なるextrinsic要素の下で180ドルのオブジェクトの18,000ドルのイメージを収集した。 LPIPSやCLIPスコアのような既存の手法は対象の内在性を十分に測定していないが、対比的な自己教師付き学習から学習した深い特徴と前景フィルタリングを組み合わせることは、類似性を近似するための単純かつ効果的なアプローチである。 提案手法は,従来の手法と異なり,本質的な対象中心画像の類似性を最もよく測定する強力なベースラインに到達するための,事前訓練された特徴と前景抽出手法の広範な調査を行う。 最後に,本手法は,人体のアナログとして振る舞うことや,汎用的な再同定を改善することなど,下流のアプリケーションを支援することができることを示す。 プロジェクトのwebサイトはhttps://s-tian.github.io/projects/cute/にある。

The human visual system can effortlessly recognize an object under different extrinsic factors such as lighting, object poses, and background, yet current computer vision systems often struggle with these variations. An important step to understanding and improving artificial vision systems is to measure image similarity purely based on intrinsic object properties that define object identity. This problem has been studied in the computer vision literature as re-identification, though mostly restricted to specific object categories such as people and cars. We propose to extend it to general object categories, exploring an image similarity metric based on object intrinsics. To benchmark such measurements, we collect the Common paired objects Under differenT Extrinsics (CUTE) dataset of $18,000$ images of $180$ objects under different extrinsic factors such as lighting, poses, and imaging conditions. While existing methods such as LPIPS and CLIP scores do not measure object intrinsics well, we find that combining deep features learned from contrastive self-supervised learning with foreground filtering is a simple yet effective approach to approximating the similarity. We conduct an extensive survey of pre-trained features and foreground extraction methods to arrive at a strong baseline that best measures intrinsic object-centric image similarity among current methods. Finally, we demonstrate that our approach can aid in downstream applications such as acting as an analog for human subjects and improving generalizable re-identification. Please see our project website at https://s-tian.github.io/projects/cute/ for visualizations of the data and demos of our metric.
翻訳日:2023-11-03 16:08:23 公開日:2023-11-01
# 予測でソートする

Sorting with Predictions ( http://arxiv.org/abs/2311.00749v1 )

ライセンス: Link先を確認
Xingjian Bai, Christian Coester(参考訳) 本稿では,アルゴリズムが誤予測を利用して効率を向上する,学習強化アルゴリズムのレンズをソートする根本的な問題を考察する。 最初の設定では、各項目はソートされたリストにおけるその位置の予測が提供される。 2つ目の設定では、アイテムを比較する「クイック・アンド・ダーティ」な方法と、スロー・アンド・エクティヴな比較が存在すると仮定する。 どちらの設定でも、$O(\sum_i \log \eta_i)$と$O(\sum_i \eta_i)$の正確な比較だけで、新しいアルゴリズムと単純なアルゴリズムを設計します。 特に、予測の質が悪化するにつれて、比較の数は$O(n)$から$O(n\log n)$に滑らかに低下する。 比較複雑性は, 検証された誤差測度に対して理論的に最適であることを示す。 既存の適応型および非適応型ソートアルゴリズムに対する実験的評価は、学習型ソートアルゴリズムをソートタスクに適用する可能性を実証する。

We explore the fundamental problem of sorting through the lens of learning-augmented algorithms, where algorithms can leverage possibly erroneous predictions to improve their efficiency. We consider two different settings: In the first setting, each item is provided a prediction of its position in the sorted list. In the second setting, we assume there is a "quick-and-dirty" way of comparing items, in addition to slow-and-exact comparisons. For both settings, we design new and simple algorithms using only $O(\sum_i \log \eta_i)$ exact comparisons, where $\eta_i$ is a suitably defined prediction error for the $i$th element. In particular, as the quality of predictions deteriorates, the number of comparisons degrades smoothly from $O(n)$ to $O(n\log n)$. We prove that the comparison complexity is theoretically optimal with respect to the examined error measures. An experimental evaluation against existing adaptive and non-adaptive sorting algorithms demonstrates the potential of applying learning-augmented algorithms in sorting tasks.
翻訳日:2023-11-03 16:07:53 公開日:2023-11-01
# テンソルネットワークの変分断断熱輸送

Variational adiabatic transport of tensor networks ( http://arxiv.org/abs/2311.00748v1 )

ライセンス: Link先を確認
Hyeongjin Kim, Matthew T. Fishman, Dries Sels(参考訳) 本稿では, 行列積演算子としてアディベートゲージポテンシャル(アディベート変換の生成元)を構築するためのテンソルネットワーク法について論じ, 行列積状態のアディベート輸送を可能にする。 テンソルネットワークの断熱的進化は、幅広い応用を提供するが、その2つは、テンソルネットワークの最適化と走査位相図の改善である。 固有状態を量子臨界に効率的に輸送し、その過程で中間密度行列再正規化群(DMRG)の最適化を行うことにより、量子臨界度付近の標準DMRG法よりも高速かつ確実に基底および低層励起状態を計算できることを実証する。 本稿では, 簡易な自動ステップサイズ調整と, 断熱ゲージ電位の標準値に基づく臨界点の検出について述べる。 驚くべきことに、我々は研究するモデルの臨界点を通して確実に状態を輸送することができる。

We discuss a tensor network method for constructing the adiabatic gauge potential -- the generator of adiabatic transformations -- as a matrix product operator, which allows us to adiabatically transport matrix product states. Adiabatic evolution of tensor networks offers a wide range of applications, of which two are explored in this paper: improving tensor network optimization and scanning phase diagrams. By efficiently transporting eigenstates to quantum criticality and performing intermediary density matrix renormalization group (DMRG) optimizations along the way, we demonstrate that we can compute ground and low-lying excited states faster and more reliably than a standard DMRG method at or near quantum criticality. We demonstrate a simple automated step size adjustment and detection of the critical point based on the norm of the adiabatic gauge potential. Remarkably, we are able to reliably transport states through the critical point of the models we study.
翻訳日:2023-11-03 16:07:37 公開日:2023-11-01
# 大規模言語モデルはラベル関数を正確に設計できるか?

Can Large Language Models Design Accurate Label Functions? ( http://arxiv.org/abs/2311.00739v1 )

ライセンス: Link先を確認
Naiqing Guan, Kaiwen Chen, Nick Koudas(参考訳) プログラム的な弱い監督手法は、ヒューリスティックなデータソースをカプセル化するラベル関数(lfs)を使うことで、広範囲なデータセットの迅速なラベル付けを促進する。 それでも、正確なLFの作成には、ドメインの専門知識と実質的な取り組みが必要である。 プレトレーニング言語モデル(PLM)の最近の進歩は、様々なタスクにおいて大きな可能性を秘めている。 しかし、正確なlfを自律的に定式化するplmの能力は未熟な領域のままである。 本研究では,LFの自動生成にPLMを利用する対話型フレームワークであるDataSculptを導入することにより,このギャップに対処する。 datasculptには,プロンプト手法の配列,インスタンス選択戦略,lf濾過手法が組み込まれており,拡張的な設計状況を調査している。 最終的に、さまざまなタスクを含む12の現実世界のデータセット上で、DataSculptのパフォーマンスを徹底的に評価します。 この評価は、LF設計における現代PLMの強度と限界を明らかにしている。

Programmatic weak supervision methodologies facilitate the expedited labeling of extensive datasets through the use of label functions (LFs) that encapsulate heuristic data sources. Nonetheless, the creation of precise LFs necessitates domain expertise and substantial endeavors. Recent advances in pre-trained language models (PLMs) have exhibited substantial potential across diverse tasks. However, the capacity of PLMs to autonomously formulate accurate LFs remains an underexplored domain. In this research, we address this gap by introducing DataSculpt, an interactive framework that harnesses PLMs for the automated generation of LFs. Within DataSculpt, we incorporate an array of prompting techniques, instance selection strategies, and LF filtration methods to explore the expansive design landscape. Ultimately, we conduct a thorough assessment of DataSculpt's performance on 12 real-world datasets, encompassing a range of tasks. This evaluation unveils both the strengths and limitations of contemporary PLMs in LF design.
翻訳日:2023-11-03 16:07:22 公開日:2023-11-01
# ファンデーションモデルは、ケーキを作るために一歩ずつ見、話し、指導できるのか?

Can Foundation Models Watch, Talk and Guide You Step by Step to Make a Cake? ( http://arxiv.org/abs/2311.00738v1 )

ライセンス: Link先を確認
Yuwei Bao, Keunwoo Peter Yu, Yichi Zhang, Shane Storks, Itamar Bar-Yossef, Alexander De La Iglesia, Megan Su, Xiao Lin Zheng, Joyce Chai(参考訳) AIの大幅な進歩にもかかわらず、さまざまなタスクにおいて、位置があり、パーソナライズされたガイダンスを提供し、人間を支援するインタラクティブなタスクガイダンスシステムを開発することは、依然として大きな課題である。 これらのシステムは、ユーザと環境をよく理解し、いつ何を言うべきかをタイムリーに正確に決定する必要がある。 この問題に対処するため、我々は、人間のユーザと人間のインストラクターとの自然な相互作用に基づいた、新しいマルチモーダルベンチマークデータセット、WTaG(Watch, Talk and Guide)を作成しました。 さらに,ユーザと環境の理解とインストラクタの意思決定という2つのタスクを提案した。 いくつかの基礎モデルを活用して、これらのモデルが認識可能なタスクガイダンスに迅速に適応できるかを調査した。 定量的,質的,人的評価の結果から,これらのモデルがタスク固有のトレーニングを伴わない場合において,公正なパフォーマンスを示すことができることが示された。 当社のベンチマークとベースラインは、今後のタスクガイダンスのための足掛かりとなるでしょう。

Despite tremendous advances in AI, it remains a significant challenge to develop interactive task guidance systems that can offer situated, personalized guidance and assist humans in various tasks. These systems need to have a sophisticated understanding of the user as well as the environment, and make timely accurate decisions on when and what to say. To address this issue, we created a new multimodal benchmark dataset, Watch, Talk and Guide (WTaG) based on natural interaction between a human user and a human instructor. We further proposed two tasks: User and Environment Understanding, and Instructor Decision Making. We leveraged several foundation models to study to what extent these models can be quickly adapted to perceptually enabled task guidance. Our quantitative, qualitative, and human evaluation results show that these models can demonstrate fair performances in some cases with no task-specific training, but a fast and reliable adaptation remains a significant challenge. Our benchmark and baselines will provide a stepping stone for future work on situated task guidance.
翻訳日:2023-11-03 16:07:01 公開日:2023-11-01
# 機械学習によるcovid-19のリアルタイム磁気追跡と診断

Real-Time Magnetic Tracking and Diagnosis of COVID-19 via Machine Learning ( http://arxiv.org/abs/2311.00737v1 )

ライセンス: Link先を確認
Dang Nguyen, Phat K. Huynh, Vinh Duc An Bui, Kee Young Hwang, Nityanand Jain, Chau Nguyen, Le Huu Nhat Minh, Le Van Truong, Xuan Thanh Nguyen, Dinh Hoang Nguyen, Le Tien Dung, Trung Q. Le, and Manh-Huong Phan(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、信頼できる非侵襲的な診断ツールの重要性を強調した。 本研究では、磁気呼吸センシング技術(mrst)と機械学習(ml)を融合して、新型コロナウイルスやその他の呼吸器疾患のリアルタイム追跡と診断のための診断プラットフォームを構築した。 MRSTは、正常な呼吸、保持する呼吸、深呼吸という3つの特定の呼吸テストプロトコルを通して、呼吸パターンを正確に捉えます。 われわれはこのプラットフォームを用いて、新型コロナウイルス患者とベトナムの健康な被験者の呼吸データを収集し、MLモデルのトレーニングと評価に役立てた。 我々の評価では、サポートベクターマシンやディープラーニングモデルを含む複数のMLアルゴリズムを含み、新型コロナウイルスの診断能力を評価した。 当社のマルチモデル検証手法は,徹底的な比較を保証し,最も最適なモデルを選択するための適応性を与え,診断精度とモデルの解釈可能性とのバランスを図ります。 以上より,呼吸異常を特定できる診断ツールが90%以上の精度を発揮できる可能性が示唆された。 この革新的なセンサー技術は、患者のモニタリングのための医療設定にシームレスに統合することができる。

The COVID-19 pandemic underscored the importance of reliable, noninvasive diagnostic tools for robust public health interventions. In this work, we fused magnetic respiratory sensing technology (MRST) with machine learning (ML) to create a diagnostic platform for real-time tracking and diagnosis of COVID-19 and other respiratory diseases. The MRST precisely captures breathing patterns through three specific breath testing protocols: normal breath, holding breath, and deep breath. We collected breath data from both COVID-19 patients and healthy subjects in Vietnam using this platform, which then served to train and validate ML models. Our evaluation encompassed multiple ML algorithms, including support vector machines and deep learning models, assessing their ability to diagnose COVID-19. Our multi-model validation methodology ensures a thorough comparison and grants the adaptability to select the most optimal model, striking a balance between diagnostic precision with model interpretability. The findings highlight the exceptional potential of our diagnostic tool in pinpointing respiratory anomalies, achieving over 90% accuracy. This innovative sensor technology can be seamlessly integrated into healthcare settings for patient monitoring, marking a significant enhancement for the healthcare infrastructure.
翻訳日:2023-11-03 16:06:28 公開日:2023-11-01
# 可変拡張可逆ネットワークによる脳PETのPETトレーサー変換

PET Tracer Conversion among Brain PET via Variable Augmented Invertible Network ( http://arxiv.org/abs/2311.00735v1 )

ライセンス: Link先を確認
Bohui Shen, Wei Zhang, Xubiao Liu, Pengfei Yu, Shirui Jiang, Xinchong Shi, Xiangsong Zhang, Xiaoyu Zhou, Weirui Zhang, Bingxuan Li, Qiegen Liu(参考訳) ポジトロン・エミッション・トモグラフィ(PET)は、高生化学的感度のイメージング技術であり、脳疾患の診断や脳科学研究に用いられる脳症や脳科学研究の診断に広く用いられている。 異なるトレーサは同じ焦点領域で異なる効果を示すため、PETイメージングではトレーサの選択がより重要になっている。 近年, PET画像の神経精神医学的治療への応用により, 6-18F-fluoro-3, 4-dihydroxy-L-phenylalanine (DOPA) が18F標識フッ素-2-デオキシグルコース (FDG) よりも有効であることが判明している。 しかし、その準備の複雑さやその他の制限のため、DOPAはFDGよりもはるかに広く使われていない。 この問題に対処するために,画像投影のためのトレーサ変換インバータブルニューラルネットワーク(tc-inn)を開発し,fdg画像をディープラーニングによりdopa画像にマッピングする。 FDGからDOPAにPET画像を生成することにより、さらなる診断情報を得る。 具体的には、提案されたTC-INNは、トレース可能なデータをトレーニングするフェーズと、新しいデータを再構築するフェーズの2つで構成されている。 参照DOPAPET画像は、トレーサ変換のトレーニングプロセス中に対応するネットワークの学習ターゲットとして使用される。 一方、可逆ネットワークは、結果のDOPAPETデータを反復的に推定し、基準のDOPAPETデータと比較する。 特に、可逆モデルはより優れた発電を実現するために可変拡張技術を使用した。 さらに、取得したFDGとDOPAデータ情報の角偏差による訓練前に画像登録を行う必要がある。 実験結果から、be-tween FDG 画像と DOPA 画像のマッピングにおける生成能力が示された。 限られたトレーサ応用の場合,PET画像変換に大きな可能性を示す。

Positron emission tomography (PET), as an imaging technique with high biochemical sensitivity, has been widely used in diagnosis of encephalopathy and brain science research used in brain disease diagnosis and brain science research. Since different tracers present different effects on the same focal area, the choice of tracers is getting more significant for PET imaging. Nowadays, with the wide application of PET imaging in neuropsychiatric treatment, 6-18F-fluoro-3, 4-dihydroxy-L-phenylalanine (DOPA) has been found to be more effective than 18F-labeled fluorine-2-deoxyglucose (FDG) in this field. However, due to the complexity of its preparation and other limitations, DOPA is far less widely used than FDG. To address this issue, a tracer conversion invertible neural network (TC-INN) for image projection is developed to map FDG images to DOPA images through deep learning. More diagnostic information is obtained by generating PET images from FDG to DOPA. Specifically, the proposed TC-INN consists of two separate phases, one for training the traceable data, the other for re-building the new data. The reference DOPA PET image is used as the learning target for the corresponding network during the training process of tracer conversion. Mean-while, the invertible network iteratively estimates the resultant DOPA PET data and compares it to the reference DOPA PET data. Notably, the reversible model employed variable enhancement techniques to achieve better power generation. Moreover, image registration needs to be performed before training due to the angular deviation of the acquired FDG and DOPA data information. Experimental results show generative ability in mapping be-tween FDG images and DOPA images. It demonstrates great potential for PET image conversion in the case of limited tracer applications.
翻訳日:2023-11-03 16:05:55 公開日:2023-11-01
# 拡散モデルを用いた野生のシーンテキスト操作について

On Manipulating Scene Text in the Wild with Diffusion Models ( http://arxiv.org/abs/2311.00734v1 )

ライセンス: Link先を確認
Joshua Santoso, Christian Simon, Williem Pao(参考訳) 拡散モデルが画像編集に注目され、テキストから画像へのタスクで印象的な結果が得られた。 マイナス面は、安定拡散モデルの生成された画像が細部が劣化していることに気づくかもしれない。 この落とし穴は、例えばシーンテキスト編集などの情報保存を必要とする画像編集タスクに影響を与える。 望ましい結果として、モデルは、色、フォントサイズ、背景などの詳細を保存しながら、ソースイメージ上のテキストをターゲットテキストに置き換える機能を示す必要がある。 本稿では拡散モデルの可能性を活用するために,Diffusion-BasEd Scene Text Operation Network(DBEST)を提案する。 具体的には,2つの適応戦略,すなわちワンショットスタイル適応とテキスト認識指導を設計する。 実験では,提案手法を各種シーンテキストデータセットの最先端技術と比較し,各粒度に対する広範囲なアブレーション研究を行い,性能評価を行った。 また、競合する光学文字認識(OCR)精度で示されるシーンテキストを合成するための提案手法の有効性を示す。 文字レベル評価のためのCOCOテキストおよびICCAR2013データセット上で94.15%と98.12%を達成する。

Diffusion models have gained attention for image editing yielding impressive results in text-to-image tasks. On the downside, one might notice that generated images of stable diffusion models suffer from deteriorated details. This pitfall impacts image editing tasks that require information preservation e.g., scene text editing. As a desired result, the model must show the capability to replace the text on the source image to the target text while preserving the details e.g., color, font size, and background. To leverage the potential of diffusion models, in this work, we introduce Diffusion-BasEd Scene Text manipulation Network so-called DBEST. Specifically, we design two adaptation strategies, namely one-shot style adaptation and text-recognition guidance. In experiments, we thoroughly assess and compare our proposed method against state-of-the-arts on various scene text datasets, then provide extensive ablation studies for each granularity to analyze our performance gain. Also, we demonstrate the effectiveness of our proposed method to synthesize scene text indicated by competitive Optical Character Recognition (OCR) accuracy. Our method achieves 94.15% and 98.12% on COCO-text and ICDAR2013 datasets for character-level evaluation.
翻訳日:2023-11-03 16:04:49 公開日:2023-11-01
# tmn at #smm4h 2023: ウイルス診断を自己報告するツイートを検出するためのテキスト前処理技術の比較

tmn at #SMM4H 2023: Comparing Text Preprocessing Techniques for Detecting Tweets Self-reporting a COVID-19 Diagnosis ( http://arxiv.org/abs/2311.00732v1 )

ライセンス: Link先を確認
Anna Glazkova(参考訳) 本稿では,SMM4H 2023におけるタスク1のために開発されたシステムについて述べる。 このタスクの目的は、新型コロナウイルス(covid-19)の診断を自己報告するツイート(ポジティブテスト、臨床診断、入院など)を、そうでないツイートと自動的に区別することだ。 4つのトランスフォーマーモデルを用いて,ツイートの前処理における異なる手法の利用について検討した。 微調整された言語モデルのアンサンブルは、平均値よりも4.1%高い84.5%のF1スコアを得た。

The paper describes a system developed for Task 1 at SMM4H 2023. The goal of the task is to automatically distinguish tweets that self-report a COVID-19 diagnosis (for example, a positive test, clinical diagnosis, or hospitalization) from those that do not. We investigate the use of different techniques for preprocessing tweets using four transformer-based models. The ensemble of fine-tuned language models obtained an F1-score of 84.5%, which is 4.1% higher than the average value.
翻訳日:2023-11-03 16:04:26 公開日:2023-11-01
# 正の近接とクラスタ分散学習によるクラスタリング表現の強化

Enhancing Clustering Representations with Positive Proximity and Cluster Dispersion Learning ( http://arxiv.org/abs/2311.00731v1 )

ライセンス: Link先を確認
Abhishek Kumar and Dong-Gyu Lee(参考訳) 現代のディープクラスタリングアプローチは、クラスタリングタスクの効果的な表現を得るために、コントラスト的あるいは非コントラスト的手法に依存することが多い。 対照的な方法は、負のペアを利用して均質な表現を実現するが、クラス衝突の問題を導入し、クラスタリング性能を損なう可能性がある。 反対に、非矛盾的手法はクラス衝突を防ぐが、クラスタリング崩壊につながる非一様表現を生成する可能性がある。 そこで本研究では,両手法の強みを活かし,その限界を緩和した新しいエンドツーエンドの深層クラスタリング手法であるpipcdrを提案する。 PIPCDRは正のインスタンス近接損失とクラスタ分散正規化器を組み込んでいる。 正のインスタンス近接損失は、インスタンスの拡張されたビューとそのサンプルされた隣接のアライメントを保証し、埋め込み空間内で真正のペアを選択することでクラスタ内のコンパクト性を高める。 一方、クラスタ分散正規化器はクラスタ間距離を最大化し、クラスタ内コンパクト性を最小化し、学習表現の均一性を促進する。 PIPCDRは、よく分離されたクラスタを生成し、一様表現を生成し、クラス衝突の問題を回避し、クラスタ内のコンパクト性を向上する。 我々は、エンドツーエンドのMajorize-MinimizationフレームワークにおけるPIPCDRの有効性を広く検証し、中規模クラスタリングベンチマークデータセット上での競合性能を実証し、大規模データセット上での新たな最先端結果を確立する。

Contemporary deep clustering approaches often rely on either contrastive or non-contrastive techniques to acquire effective representations for clustering tasks. Contrastive methods leverage negative pairs to achieve homogenous representations but can introduce class collision issues, potentially compromising clustering performance. On the contrary, non-contrastive techniques prevent class collisions but may produce non-uniform representations that lead to clustering collapse. In this work, we propose a novel end-to-end deep clustering approach named PIPCDR, designed to harness the strengths of both approaches while mitigating their limitations. PIPCDR incorporates a positive instance proximity loss and a cluster dispersion regularizer. The positive instance proximity loss ensures alignment between augmented views of instances and their sampled neighbors, enhancing within-cluster compactness by selecting genuinely positive pairs within the embedding space. Meanwhile, the cluster dispersion regularizer maximizes inter-cluster distances while minimizing within-cluster compactness, promoting uniformity in the learned representations. PIPCDR excels in producing well-separated clusters, generating uniform representations, avoiding class collision issues, and enhancing within-cluster compactness. We extensively validate the effectiveness of PIPCDR within an end-to-end Majorize-Minimization framework, demonstrating its competitive performance on moderate-scale clustering benchmark datasets and establishing new state-of-the-art results on large-scale datasets.
翻訳日:2023-11-03 16:04:13 公開日:2023-11-01
# VQA-GEN: ドメインの一般化のためのベンチマークを問うビジュアル質問

VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization ( http://arxiv.org/abs/2311.00807v1 )

ライセンス: Link先を確認
Suraj Jyothi Unni, Raha Moraffah, Huan Liu(参考訳) 視覚的質問応答(VQA)モデルは、視覚的テキスト推論能力を示すように設計されている。 しかしながら、実際の適用性は、包括的なベンチマークデータセットの欠如によって妨げられている。 既存のVQA用のドメイン一般化データセットでは、テキストシフトに一方的な焦点が当てられているが、VQAはマルチモーダルタスクであり、ビジュアルドメインとテキストドメインの両方にわたるシフトを含んでいる。 VQA-GEN(VQA-GEN)は、シフト誘導パイプラインによって生成された分散シフトのための最初のマルチモーダルベンチマークデータセットである。 実験では、VQA-GENデータセットが、既存のメソッドの脆弱性を、共同マルチモーダル分散シフトに公開している。 包括的マルチモーダルシフトの検証は、堅牢なVQA一般化に不可欠である。 VQA-GENで訓練されたモデルでは、クロスドメインとインドメインのパフォーマンスが改善され、VQA-GENの価値が確認された。 さらに,モデルの一般化に寄与するパイプラインの各シフト手法の重要性を分析した。

Visual question answering (VQA) models are designed to demonstrate visual-textual reasoning capabilities. However, their real-world applicability is hindered by a lack of comprehensive benchmark datasets. Existing domain generalization datasets for VQA exhibit a unilateral focus on textual shifts while VQA being a multi-modal task contains shifts across both visual and textual domains. We propose VQA-GEN, the first ever multi-modal benchmark dataset for distribution shift generated through a shift induced pipeline. Experiments demonstrate VQA-GEN dataset exposes the vulnerability of existing methods to joint multi-modal distribution shifts. validating that comprehensive multi-modal shifts are critical for robust VQA generalization. Models trained on VQA-GEN exhibit improved cross-domain and in-domain performance, confirming the value of VQA-GEN. Further, we analyze the importance of each shift technique of our pipeline contributing to the generalization of the model.
翻訳日:2023-11-03 15:56:47 公開日:2023-11-01
# 全角運動量測定によるスピンアンサンブルにおける真の多部交絡の証明

Certification of genuine multipartite entanglement in spin ensembles with measurements of total angular momentum ( http://arxiv.org/abs/2311.00806v1 )

ライセンス: Link先を確認
Khoi-Nguyen Huynh-Vu, Lin Htoo Zaw, Valerio Scarani(参考訳) 本稿では,全角運動量の測定のみを用いて,真多成分の絡み合いを検出するスピンアンサンブルの絡み合い証人を紹介する。 グリーンバーガー・ホーン・サイレンジャー状態やディッキン状態の重ね合わせを含むスピンアンサンブルの他のほとんどの角運動系証人が見逃している状態は、目撃者によって効果的に検出することができる。 このプロトコルは、平面上の等間隔方向に沿って全角運動量は正である確率を推定する。 あるいは、全スピンが一様沈降するという仮定の下で、異なるタイミングで1つの方向に沿って測定することができる。 観測されたスコアが分離可能なバウンドを超えると、真多成分の絡み合いを検出する。 スピンアンサンブルに対して、分離可能な境界に対する厳密な解析式をj_1\otimes j_2\otimes\dots \otimes j_N$とし、その全スピンが半整数であるように算出結果を報告する。 最後に、全スピンが分かっていないときに分離可能な境界の式を予想するが、これは数値的な結果によく支持されている。

We introduce entanglement witnesses for spin ensembles which detect genuine multipartite entanglement using only measurements of the total angular momentum. States that are missed by most other angular-momentum-based witnesses for spin ensembles, which include Greenberger-Horne-Zeilinger states and certain superpositions of Dicke states, can be effectively detected by our witness. The protocol involves estimating the probability that the total angular momentum is positive along equally-spaced directions on a plane. Alternatively, one could measure along a single direction at different times, under the assumption that the total spins undergoes a uniform precession. Genuine multipartite entanglement is detected when the observed score exceeds a separable bound. Exact analytical expressions for the separable bound are obtained for spin ensembles $j_1\otimes j_2\otimes\dots \otimes j_N$ such that the total spin is a half-integer, and numerical results are reported for the other cases. Finally, we conjecture an expression for the separable bound when the total spin is not known, which is well supported by the numerical results.
翻訳日:2023-11-03 15:56:34 公開日:2023-11-01
# 集団スピン計測のみを用いたGHZエンタングルメントのウイットネス

A Witness of GHZ Entanglement Using Only Collective Spin Measurements ( http://arxiv.org/abs/2311.00805v1 )

ライセンス: Link先を確認
Lin Htoo Zaw, Khoi-Nguyen Huynh-Vu, Valerio Scarani(参考訳) スピンアンサンブルの集合的な測定のみを利用する既存の絡み合いの目撃者のうち、全員が真のマルチパート・エンタングメント(GME)を検出できる訳ではなく、グリーンバーガー・ホーネ・ザイリンガー状態(GHZ)をトリパートイト・ケースを超えて検出することはできない。 このギャップを埋めるために、スピンの総スピンが半整数であるスピンアンサンブルのGMEを検出するエンタングルメント証人を導入する。 我々の目撃者は、ティレルソンが導入した非古典性試験に基づいており、異なる方向に沿って全角運動量を測定するだけでよい。 証人によって検出された状態は、GHZのような状態の族に近く、奇数のスピン半粒子のGHZ状態を含む。 また,非分極雑音下での目撃者のロバスト性について検討し,ノイズを検知するためのノイズ境界を導出する。

Of existing entanglement witnesses that utilize only collective measurements of a spin ensemble, not all can detect genuine multipartite entanglement (GME), and none can detect Greenberger-Horne-Zeilinger (GHZ) states beyond the tripartite case. We fill this gap by introducing an entanglement witness that detects GME of spin ensembles, whose total spin is half-integer, using only collective spin measurements. Our witness is based on a nonclassicality test introduced by Tsirelson, and solely requires the measurement of total angular momentum along different directions. States detected by our witness are close to a family of GHZ-like states, which includes GHZ states of an odd number of spin-half particles. We also study the robustness of our witness under depolarizing noise, and derive exact noise bounds for detecting noisy GHZ states.
翻訳日:2023-11-03 15:56:11 公開日:2023-11-01
# 粒状物パイル操作のためのニューラルフィールドダイナミクスモデル

Neural Field Dynamics Model for Granular Object Piles Manipulation ( http://arxiv.org/abs/2311.00802v1 )

ライセンス: Link先を確認
Shangjie Xue, Shuo Cheng, Pujith Kachana and Danfei Xu(参考訳) 粒度操作のための学習に基づく動的モデルを提案する。 流体力学で一般的に用いられるオイラー的手法に着想を得て, 密度場に基づく物体のパイルとプッシャーの表現に完全畳み込みニューラルネットワークを適用し, 対象間相互作用の空間的局所性と畳み込み操作による翻訳等価性を活用した。 さらに, 微分可能なアクションレンダリングモジュールにより, モデルを完全に微分可能とし, 勾配に基づく軌道最適化アルゴリズムと直接統合することができる。 シミュレーションと実世界の実験の両方において,様々な操作タスクを用いてモデルを評価し,精度と計算効率の両方において,既存の潜在あるいは粒子ベースの方法を大幅に上回ることを実証し,様々な環境やタスクにまたがるゼロショット一般化能力を示す。

We present a learning-based dynamics model for granular material manipulation. Inspired by the Eulerian approach commonly used in fluid dynamics, our method adopts a fully convolutional neural network that operates on a density field-based representation of object piles and pushers, allowing it to exploit the spatial locality of inter-object interactions as well as the translation equivariance through convolution operations. Furthermore, our differentiable action rendering module makes the model fully differentiable and can be directly integrated with a gradient-based trajectory optimization algorithm. We evaluate our model with a wide array of piles manipulation tasks both in simulation and real-world experiments and demonstrate that it significantly exceeds existing latent or particle-based methods in both accuracy and computation efficiency, and exhibits zero-shot generalization capabilities across various environments and tasks.
翻訳日:2023-11-03 15:55:50 公開日:2023-11-01
# GIST: 生成入力はディープラーニングにおける転送可能性を設定する

GIST: Generated Inputs Sets Transferability in Deep Learning ( http://arxiv.org/abs/2311.00801v1 )

ライセンス: Link先を確認
Florian Tambon, Foutse Khomh, Giuliano Antoniol(参考訳) ニューラルネットワークの妥当性とテスト容易性に対する需要が増加し続けており、テストセットを生成する方法が開発されている。 しかしながら、これらのテクニックはそれぞれ、特定のテスト面を強調する傾向があり、非常に時間がかかります。 この問題を緩和するための簡単な解決策は、いくつかのベンチマークされたモデルとテスト中の新しいモデルの間でテストセットを転送することである。 本稿では,深層学習モデル間のテストセットの効率的な転送のための新しいアプローチであるgist(create inputs set transferability)を提案する。 ユーザが転送したい興味のある特性(例えばカバレッジ基準)を考慮すれば、GISTはベンチマークから利用可能なものの中から、この特性の観点から良いテストセットを選択することができる。 2つのモードと異なるテストセット生成手順で,GISTを断層タイプカバレッジ特性で実証的に評価し,その実現可能性を示す。 実験の結果,gistは与えられた特性に対して有効なテストセットを選択し,それをテスト対象のモデルに転送できることがわかった。 我々はgistを他の特性の伝達に適用し,異なるテスト集合の生成手順とモダリティに一般化できることを示唆する。

As the demand for verifiability and testability of neural networks continues to rise, an increasing number of methods for generating test sets are being developed. However, each of these techniques tends to emphasize specific testing aspects and can be quite time-consuming. A straightforward solution to mitigate this issue is to transfer test sets between some benchmarked models and a new model under test, based on a desirable property one wishes to transfer. This paper introduces GIST (Generated Inputs Sets Transferability), a novel approach for the efficient transfer of test sets among Deep Learning models. Given a property of interest that a user wishes to transfer (e.g., coverage criterion), GIST enables the selection of good test sets from the point of view of this property among available ones from a benchmark. We empirically evaluate GIST on fault types coverage property with two modalities and different test set generation procedures to demonstrate the approach's feasibility. Experimental results show that GIST can select an effective test set for the given property to transfer it to the model under test. Our results suggest that GIST could be applied to transfer other properties and could generalize to different test sets' generation procedures and modalities
翻訳日:2023-11-03 15:55:34 公開日:2023-11-01
# 静止画を超えて:堅牢なマルチストリーム時空間ネットワーク

Beyond Still Images: Robust Multi-Stream Spatiotemporal Networks ( http://arxiv.org/abs/2311.00800v1 )

ライセンス: Link先を確認
AmirHosein Fadaei, Mohammad-Reza A. Dehaqani(参考訳) 自然視の特徴は、様々な入力変化に耐える能力であり、その結果周囲の不変表現が生成されることである。 畳み込みニューラルネットワークはある種の空間的入力変動に対してレジリエンスを示すが、空間的および時間的側面の変化はディープニューラルネットワークにおけるビデオ内容の表現に大きく影響する。 入力変動に対する自然視のレジリエンスに着想を得て、時間的特徴を含む時空間変化に対処する可能性を探るために、簡単なマルチストリームモデルを用いた。 第一の目的は,映像学習モデルを導入し,その頑健性を評価することであり,特に不変認識における時間的特徴について検討することである。 その結果、訓練中の映像と時間の流れは、それぞれ1.36%と3.14%の精度とマップの低下を緩和していることがわかった。

A defining characteristic of natural vision is its ability to withstand a variety of input alterations, resulting in the creation of an invariant representation of the surroundings. While convolutional neural networks exhibit resilience to certain forms of spatial input variation, modifications in the spatial and temporal aspects can significantly affect the representations of video content in deep neural networks. Inspired by the resilience of natural vision to input variations, we employ a simple multi-stream model to explore its potential to address spatiotemporal changes by including temporal features. Our primary goal is to introduce a video-trained model and evaluate its robustness to diverse image and video inputs, with a particular focus on exploring the role of temporal features in invariant recognition. Results show that including videos and the temporal stream during training mitigates the decline in accuracy and mAP in image and video understanding tasks by 1.36% and 3.14%, respectively.
翻訳日:2023-11-03 15:55:15 公開日:2023-11-01
# 進化する疫学ネットワークの転換点:機械学習支援、データ駆動効果的なモデリング

Tipping Points of Evolving Epidemiological Networks: Machine Learning-Assisted, Data-Driven Effective Modeling ( http://arxiv.org/abs/2311.00797v1 )

ライセンス: Link先を確認
Nikolaos Evangelou, Tianqi Cui, Juan M. Bello-Rivas, Alexei Makeev, Ioannis G. Kevrekidis(参考訳) 本研究では,データ駆動型機械学習支援手法を用いて,sis(adaptive susceptible-inected-susceptible (sis) epidemiological network) のティッピングポイント集団ダイナミクスについて検討した。 数値確率積分器に着想を得た深層学習型ResNetアーキテクチャを用いて,パラメータ依存実効確率微分方程式(eSDE)を物理的に有意な平均場変数を用いて同定する。 本稿では,eSDEのドリフト項に基づく近似有効分岐図を構築し,平均場SISモデル分岐図と対比する。 進化するネットワークの有効 SIS 力学における亜臨界ホップ分岐は、先端点の挙動を引き起こす; これは、(ノイズ)定常状態の近傍から自然に-しかしまれに-放散する大きな振幅集合振動の形を取る。 我々は,これらの稀な事象の統計を,繰り返しブルート力シミュレーションと,同定されたSDEの右辺を利用した数学的・計算ツールを用いて研究した。 このような集合SDEは、特に拡散マップ(Diffusion Maps)を用いて得られた、データ駆動の粗い観測可能量の観点からも識別可能であることを実証する。 本研究のワークフローは、チップ点ダイナミクスを示す他の複雑な力学問題に直接適用することができる。

We study the tipping point collective dynamics of an adaptive susceptible-infected-susceptible (SIS) epidemiological network in a data-driven, machine learning-assisted manner. We identify a parameter-dependent effective stochastic differential equation (eSDE) in terms of physically meaningful coarse mean-field variables through a deep-learning ResNet architecture inspired by numerical stochastic integrators. We construct an approximate effective bifurcation diagram based on the identified drift term of the eSDE and contrast it with the mean-field SIS model bifurcation diagram. We observe a subcritical Hopf bifurcation in the evolving network's effective SIS dynamics, that causes the tipping point behavior; this takes the form of large amplitude collective oscillations that spontaneously -- yet rarely -- arise from the neighborhood of a (noisy) stationary state. We study the statistics of these rare events both through repeated brute force simulations and by using established mathematical/computational tools exploiting the right-hand-side of the identified SDE. We demonstrate that such a collective SDE can also be identified (and the rare events computations also performed) in terms of data-driven coarse observables, obtained here via manifold learning techniques, in particular Diffusion Maps. The workflow of our study is straightforwardly applicable to other complex dynamics problems exhibiting tipping point dynamics.
翻訳日:2023-11-03 15:55:00 公開日:2023-11-01
# 局所視覚検出とグローバルカウント推定による植栽微生物の自動計数

Automatic counting of planting microsites via local visual detection and global count estimation ( http://arxiv.org/abs/2311.00796v1 )

ライセンス: Link先を確認
Ahmed Zgaren, Wassim Bouachir, Nizar Bouguila(参考訳) 林業では、植林作業に先立ってマウンディングによる機械的部位の整備が広く用いられている。 植林作業計画における主な問題の一つは、敷地特性によって大きく異なるため、植林ブロック上に存在するマウンド数の推定が困難である。 この推定は、いくつかの森林労働者による調査を通じて行われることが多い。 しかし、この手順はエラーや遅くなる傾向がある。 近年のuav画像と人工知能の進歩に動機づけられ,植林ブロック上のマウンド数を推定するための完全自動化フレームワークを提案する。 コンピュータビジョンと機械学習を用いて,2つの予測モデルを用いた教師付き学習問題としてカウントタスクを定式化する。 まず,局部検出モデルを用いて深部特徴に基づく可視マウンドの検出を行い,続いてグローバル予測関数を適用し,ブロックレベルの特徴に基づく最終推定を行う。 提案手法を評価するために,異なる特徴を持つ複数のプランテーションブロックを表す挑戦的なUAVデータセットを構築した。 実験により,提案手法のロバスト性を実証し,手作業の精度を向上し,時間とコストを著しく低減した。

In forest industry, mechanical site preparation by mounding is widely used prior to planting operations. One of the main problems when planning planting operations is the difficulty in estimating the number of mounds present on a planting block, as their number may greatly vary depending on site characteristics. This estimation is often carried out through field surveys by several forestry workers. However, this procedure is prone to error and slowness. Motivated by recent advances in UAV imagery and artificial intelligence, we propose a fully automated framework to estimate the number of mounds on a planting block. Using computer vision and machine learning, we formulate the counting task as a supervised learning problem using two prediction models. A local detection model is firstly used to detect visible mounds based on deep features, while a global prediction function is subsequently applied to provide a final estimation based on block-level features. To evaluate the proposed method, we constructed a challenging UAV dataset representing several plantation blocks with different characteristics. The performed experiments demonstrated the robustness of the proposed method, which outperforms manual methods in precision, while significantly reducing time and cost.
翻訳日:2023-11-03 15:54:37 公開日:2023-11-01
# メタファー同定データセットにおける構築アーチファクト

Construction Artifacts in Metaphor Identification Datasets ( http://arxiv.org/abs/2311.00790v1 )

ライセンス: Link先を確認
Joanne Boisson, Luis Espinosa-Anke, Jose Camacho-Collados(参考訳) メタファー識別は、与えられた表現が文脈において比喩的に使用されるかどうかを理解することを目的としている。 しかし,本稿では,メタファ表現やその発生状況を完全に無視することで,既存のメタファ識別データセットをゲーム化することができることを示す。 我々は,この仮説を様々なデータセットや設定で検証し,完全な情報を持たない言語モデルに基づくメタファ識別システムが,完全なコンテキストを使用するものと競合することを示す。 これは、正と負のクラスに対して望ましくないバイアスをもたらすようなデータセットの構築手順が原因である。 最後に、自然コーパスから注意深くサンプリングされ、バイアスが存在しないデータセットで同じ仮説をテストし、これらのデータセットをより困難で信頼性の高いものにします。

Metaphor identification aims at understanding whether a given expression is used figuratively in context. However, in this paper we show how existing metaphor identification datasets can be gamed by fully ignoring the potential metaphorical expression or the context in which it occurs. We test this hypothesis in a variety of datasets and settings, and show that metaphor identification systems based on language models without complete information can be competitive with those using the full context. This is due to the construction procedures to build such datasets, which introduce unwanted biases for positive and negative classes. Finally, we test the same hypothesis on datasets that are carefully sampled from natural corpora and where this bias is not present, making these datasets more challenging and reliable.
翻訳日:2023-11-03 15:54:18 公開日:2023-11-01
# 時間依存密度汎関数理論と機械学習を組み合わせた1千万倍の電子停止電力予測の高速化

Accelerating Electronic Stopping Power Predictions by 10 Million Times with a Combination of Time-Dependent Density Functional Theory and Machine Learning ( http://arxiv.org/abs/2311.00787v1 )

ライセンス: Link先を確認
Logan Ward, Ben Blaiszik, Cheng-Wei Lee, Troy Martin, Ian Foster, Andr\'e Schleife(参考訳) 粒子放射線が物質中のエネルギーを放出する速度を知ることは、原子炉、医療、半導体や量子材料、その他多くの技術の設計において鍵となる。 エネルギー停止への核貢献、すなわち原子間の弾性散乱は文献でよく理解されているが、電子貢献に関するデータ収集の道は数十年間にわたって費用がかかり、材料が等方的であるなど、多くの単純化された仮定に依存している。 時間依存密度汎関数理論(tddft)と機械学習を組み合わせることで、スーパーコンピュータ上で新しい材料を評価する時間を短縮し、原子詳細が電子的停止に与える影響に関する貴重なデータを提供する。 当社のアプローチでは、tddftを使用して電子的停止貢献を計算し、最初の原則からいくつかの方向で電力を停止し、マシンラーニングを使用して1000万倍の速度で他の方向を補間します。 アルミニウムにおける陽子照射の研究において、この組み合わせによるアプローチを実証し、最大エネルギー沈着の深さである「ブラッグピーク」が、どう変化するかを予測する。 実験的な情報要求の欠如は,ほとんどの材料に適用可能であり,その速度は,放射線損傷の量子-連続モデルを可能にする最重要候補となる。 モデルトレーニングに価値あるtddftデータを再利用する見通しは、材料データサイエンス時代のアプリケーションにとって魅力的なアプローチです。

Knowing the rate at which particle radiation releases energy in a material, the stopping power, is key to designing nuclear reactors, medical treatments, semiconductor and quantum materials, and many other technologies. While the nuclear contribution to stopping power, i.e., elastic scattering between atoms, is well understood in the literature, the route for gathering data on the electronic contribution has for decades remained costly and reliant on many simplifying assumptions, including that materials are isotropic. We establish a method that combines time-dependent density functional theory (TDDFT) and machine learning to reduce the time to assess new materials to mere hours on a supercomputer and provides valuable data on how atomic details influence electronic stopping. Our approach uses TDDFT to compute the electronic stopping contributions to stopping power from first principles in several directions and then machine learning to interpolate to other directions at rates 10 million times higher. We demonstrate the combined approach in a study of proton irradiation in aluminum and employ it to predict how the depth of maximum energy deposition, the "Bragg Peak," varies depending on incident angle -- a quantity otherwise inaccessible to modelers. The lack of any experimental information requirement makes our method applicable to most materials, and its speed makes it a prime candidate for enabling quantum-to-continuum models of radiation damage. The prospect of reusing valuable TDDFT data for training the model make our approach appealing for applications in the age of materials data science.
翻訳日:2023-11-03 15:54:05 公開日:2023-11-01
# gcmsにおける重複不透明種の高精度処理のための機械学習

Harnessing machine learning for accurate treatment of overlapping opacity species in GCMs ( http://arxiv.org/abs/2311.00775v1 )

ライセンス: Link先を確認
Aaron David Schneider, Paul Molli\`ere, Gilles Louppe, Ludmila Carone, Uffe Gr{\aa}e J{\o}rgensen, Leen Decin, Christiane Helling(参考訳) 太陽系外惑星や褐色小星の高精度な観測を理解するためには、流体力学、化学、放射線を含む詳細で複雑な一般循環モデル(GCM)が必要である。 本研究では, GCMにおける化学と放射線のカップリングを特に検討し, 平衡化学を仮定できない場合の相関-k仮定において, 異なる化学種の不透明度を混合する方法を比較した。 本稿では,個々の相関k不透明度(k-tables)を効果的に組み合わせた,DeepSets(DS)に基づく高速機械学習手法を提案する。 適応的等価消滅 (AEE) やランダムオーバーラップ (RORR) などの他の手法とともにDS法の評価を行った。 我々は、これらの混合法をGCM(expeRT/MITgcm)に統合し、ホットジュピターHD~209458 bの精度と性能を評価する。 以上の結果から,DS法はGCMでの使用には正確かつ効率的である一方,RORRは遅すぎることが示唆された。 さらに,AEEの精度はその具体的実装に依存しており,放射能伝達解収束の達成において,数値的な問題を提起する可能性がある。 次に, 簡便な化学不平衡状態においてDS混合法を適用し, TiOおよびVOの降雨をモデル化し, TiOおよびVOの降雨が成層圏の形成を妨げることを確認した。 gcmsにおける不平衡化学計算の一貫性をさらに高めるために, ds混合法と相関k放射伝達ソルバを結合するための文書とコードを提供する。 DS法はGCMの精度を十分に評価するために広く試験されてきたが、大気圏の探索を加速するためには他の方法が必要かもしれない。

To understand high precision observations of exoplanets and brown dwarfs, we need detailed and complex general circulation models (GCMs) that incorporate hydrodynamics, chemistry, and radiation. In this study, we specifically examine the coupling between chemistry and radiation in GCMs and compare different methods for mixing opacities of different chemical species in the correlated-k assumption, when equilibrium chemistry cannot be assumed. We propose a fast machine learning method based on DeepSets (DS), which effectively combines individual correlated-k opacities (k-tables). We evaluate the DS method alongside other published methods like adaptive equivalent extinction (AEE) and random overlap with rebinning and resorting (RORR). We integrate these mixing methods into our GCM (expeRT/MITgcm) and assess their accuracy and performance for the example of the hot Jupiter HD~209458 b. Our findings indicate that the DS method is both accurate and efficient for GCM usage, whereas RORR is too slow. Additionally, we observe that the accuracy of AEE depends on its specific implementation and may introduce numerical issues in achieving radiative transfer solution convergence. We then apply the DS mixing method in a simplified chemical disequilibrium situation, where we model the rainout of TiO and VO, and confirm that the rainout of TiO and VO would hinder the formation of a stratosphere. To further expedite the development of consistent disequilibrium chemistry calculations in GCMs, we provide documentation and code for coupling the DS mixing method with correlated-k radiative transfer solvers. The DS method has been extensively tested to be accurate enough for GCMs, however, other methods might be needed for accelerating atmospheric retrievals.
翻訳日:2023-11-03 15:53:37 公開日:2023-11-01
# 最適かつ効率的な予測セットのための共形深層スプライン

Conformalized Deep Splines for Optimal and Efficient Prediction Sets ( http://arxiv.org/abs/2311.00774v1 )

ライセンス: Link先を確認
Nathaniel Diamant, Ehsan Hajiramezanali, Tommaso Biancalani, Gabriele Scalia(参考訳) 高精度な機械学習アプリケーションでは不確実性推定が重要である。 不確かさを推定する効果的な方法の1つは共形予測(conformal prediction)である。 本稿では,ニューラル・ネットワーク・パラメトリゼーション・スプラインを用いて条件密度を推定する,新しいコンフォメーション回帰手法Spline Prediction Intervals(SPICE)を提案する。 実験により実証的に検証したSPICEの普遍近似と最適性を示す。 SPICEは2つの異なる効率的なコンフォメーションスコアと互換性があり、一方は限界カバレッジ(SPICE-ND)に最適であり、もう一方は条件カバレッジ(SPICE-HPD)に最適である。 ベンチマークデータセットの結果、SPICE-NDモデルは、次の最良ベースラインと比較して、いくつかのデータセットの平均サイズを50%近く削減するなど、最小平均予測セットサイズを達成する。 SPICE-HPDモデルはベースラインと比較して最高の条件付きカバレッジを達成する。 SPICEの実装は利用可能である。

Uncertainty estimation is critical in high-stakes machine learning applications. One effective way to estimate uncertainty is conformal prediction, which can provide predictive inference with statistical coverage guarantees. We present a new conformal regression method, Spline Prediction Intervals via Conformal Estimation (SPICE), that estimates the conditional density using neural-network-parameterized splines. We prove universal approximation and optimality results for SPICE, which are empirically validated by our experiments. SPICE is compatible with two different efficient-to-compute conformal scores, one oracle-optimal for marginal coverage (SPICE-ND) and the other asymptotically optimal for conditional coverage (SPICE-HPD). Results on benchmark datasets demonstrate SPICE-ND models achieve the smallest average prediction set sizes, including average size reductions of nearly 50% for some datasets compared to the next best baseline. SPICE-HPD models achieve the best conditional coverage compared to baselines. The SPICE implementation is made available.
翻訳日:2023-11-03 15:53:06 公開日:2023-11-01
# SAGE: 接地実行によるスマートホームエージェント

SAGE: Smart home Agent with Grounded Execution ( http://arxiv.org/abs/2311.00772v1 )

ライセンス: Link先を確認
Dmitriy Rivkin, Francois Hogan, Amal Feriani, Abhisek Konar, Adam Sigal, Steve Liu, Greg Dudek(参考訳) 本稿では,手動で定義した推論ロジックをLLMによる自律エージェントシステムに置き換えることで,スマートホームアシスタントの柔軟性を最大化するフレームワークであるSAGE(Smart Home Agent with Grounded Execution)を紹介する。 SAGEは、ツールのコレクションのオーケストレーションを通じて、ユーザの好み、デバイス状態、外部要因(天気やテレビのスケジュールなど)に関する情報を統合する。 SAGEの機能には、自然言語の発話からユーザの好みを学ぶこと、APIドキュメントを読んでデバイスと対話すること、デバイスを継続的に監視するためのコードを書くこと、そして自然言語のデバイス参照を理解することが含まれる。 SAGEを評価するために、SAGEは23のタスクを達成し、既存のLCM対応ベースライン(5/43)を大幅に上回る43の高難易度なスマートホームタスクのベンチマークを開発した。

This article introduces SAGE (Smart home Agent with Grounded Execution), a framework designed to maximize the flexibility of smart home assistants by replacing manually-defined inference logic with an LLM-powered autonomous agent system. SAGE integrates information about user preferences, device states, and external factors (such as weather and TV schedules) through the orchestration of a collection of tools. SAGE's capabilities include learning user preferences from natural-language utterances, interacting with devices by reading their API documentation, writing code to continuously monitor devices, and understanding natural device references. To evaluate SAGE, we develop a benchmark of 43 highly challenging smart home tasks, where SAGE successfully achieves 23 tasks, significantly outperforming existing LLM-enabled baselines (5/43).
翻訳日:2023-11-03 15:52:48 公開日:2023-11-01
# 臨床機能埋め込みのための言語モデル学習パラダイム

Language Model Training Paradigms for Clinical Feature Embeddings ( http://arxiv.org/abs/2311.00768v1 )

ライセンス: Link先を確認
Yurong Hu, Manuel Burger, Gunnar R\"atsch, Rita Kuznetsova(参考訳) データが少ない研究領域では、表現学習が重要な役割を果たす。 本研究の目的は、心拍数や血圧などの臨床的特徴に対する普遍的な埋め込みを導出し、臨床時系列の表現学習を強化することである。 言語モデルのための自己教師あり訓練パラダイムを用いて,高品質な臨床機能埋め込みを学び,既存の時間ステップや患者レベルの表現学習よりも細かい粒度を達成する。 我々は,教師なし次元縮小技術を用いて学習埋め込みを可視化し,先行臨床知識と高い一貫性を観察する。 また,MIMIC-IIIベンチマークのモデル性能を評価し,臨床的特徴埋め込みの有効性を示した。 レプリケーションのためにコードをオンラインで公開します。

In research areas with scarce data, representation learning plays a significant role. This work aims to enhance representation learning for clinical time series by deriving universal embeddings for clinical features, such as heart rate and blood pressure. We use self-supervised training paradigms for language models to learn high-quality clinical feature embeddings, achieving a finer granularity than existing time-step and patient-level representation learning. We visualize the learnt embeddings via unsupervised dimension reduction techniques and observe a high degree of consistency with prior clinical knowledge. We also evaluate the model performance on the MIMIC-III benchmark and demonstrate the effectiveness of using clinical feature embeddings. We publish our code online for replication.
翻訳日:2023-11-03 15:52:33 公開日:2023-11-01
# praxisデータセットにおけるハンドジェスチャ分類:費用の取引精度

Hand Gesture Classification on Praxis Dataset: Trading Accuracy for Expense ( http://arxiv.org/abs/2311.00767v1 )

ライセンス: Link先を確認
Rahat Islam, Kenneth Lai, and Svetlana Yanushkevich(参考訳) 本稿では,RGB-Depth センサを用いて記録された「骨格」データを抽象化した手動作分類器について検討する。 Praxisデータセットから、身体の関節座標で表される「骨格」データに焦点を当てる。 このpraxisデータセットは、アルツハイマー病等の皮質病理疾患患者の記録を含み、臨床医の指示によりpraxis試験を行う。 本稿では,従来の提案モデルよりもPRAXISデータセットの方が効果的である手動ジェスチャー分類器を提案する。 身体関節データは、手の動き認識に特化して分析できる圧縮形式のデータを提供する。 リカレントニューラルネットワーク(RNN)のような深層学習アーキテクチャとウィンドウニング手法を組み合わせることで,全身関節データのみを用いて全体の70.8%の精度を実現した。 また,長期記憶(LSTM)を用いて関節の動作を抽出・解析し,動作中の手の動きを認識し,静的なジェスチャーに対して74.3%,動的ジェスチャーに対して67.3%のジェスチャー認識率を達成した。 提案手法は、複数の医療アプリケーションに対する皮質病理診断の自動化、正確、低コストな手法の開発に寄与した。

In this paper, we investigate hand gesture classifiers that rely upon the abstracted 'skeletal' data recorded using the RGB-Depth sensor. We focus on 'skeletal' data represented by the body joint coordinates, from the Praxis dataset. The PRAXIS dataset contains recordings of patients with cortical pathologies such as Alzheimer's disease, performing a Praxis test under the direction of a clinician. In this paper, we propose hand gesture classifiers that are more effective with the PRAXIS dataset than previously proposed models. Body joint data offers a compressed form of data that can be analyzed specifically for hand gesture recognition. Using a combination of windowing techniques with deep learning architecture such as a Recurrent Neural Network (RNN), we achieved an overall accuracy of 70.8% using only body joint data. In addition, we investigated a long-short-term-memory (LSTM) to extract and analyze the movement of the joints through time to recognize the hand gestures being performed and achieved a gesture recognition rate of 74.3% and 67.3% for static and dynamic gestures, respectively. The proposed approach contributed to the task of developing an automated, accurate, and inexpensive approach to diagnosing cortical pathologies for multiple healthcare applications.
翻訳日:2023-11-03 15:52:23 公開日:2023-11-01
# 観察から集団行動を学ぶ

Learning Collective Behaviors from Observation ( http://arxiv.org/abs/2311.00875v1 )

ライセンス: Link先を確認
Jinchao Feng and Ming Zhong(参考訳) 本稿では,対話エージェントの複雑なシステムにおける創発的行動を理解することを目的とした,動的システムの構造を特定するための一連の学習手法についてレビューする。 これらの手法は収束の理論的保証を提供するだけでなく、高次元観測データを扱う計算効率を示す。 一階および二階の力学系からの観測データを管理することができ、観測・確率的ノイズ、複雑な相互作用規則、相互作用の特徴の欠如、相互作用するエージェントシステムの実世界の観測を説明できる。 このような一連の学習手法の開発の本質は、学習方法に本質的に次元削減機能を提供する変分逆問題アプローチを用いて、適切な損失関数を設計することにある。

We present a review of a series of learning methods used to identify the structure of dynamical systems, aiming to understand emergent behaviors in complex systems of interacting agents. These methods not only offer theoretical guarantees of convergence but also demonstrate computational efficiency in handling high-dimensional observational data. They can manage observation data from both first- and second-order dynamical systems, accounting for observation/stochastic noise, complex interaction rules, missing interaction features, and real-world observations of interacting agent systems. The essence of developing such a series of learning methods lies in designing appropriate loss functions using the variational inverse problem approach, which inherently provides dimension reduction capabilities to our learning methods.
翻訳日:2023-11-03 15:44:43 公開日:2023-11-01
# ゼロコーディネートシフト:物理インフォームド演算子学習のためのWhetted Automatic Differentiation

Zero Coordinate Shift: Whetted Automatic Differentiation for Physics-informed Operator Learning ( http://arxiv.org/abs/2311.00860v1 )

ライセンス: Link先を確認
Kuangdai Leng, Mallikarjun Shankar, Jeyan Thiyagalingam(参考訳) 自動微分(AD)は、ネットワーク出力w.r.t.座標の高次微分を計算するために必要とされる物理情報処理機械学習における重要なステップである。 本稿では,ゼロ座標シフト (zcs) のトリックと呼ばれる,物理に変形した演算子学習のためのadを行うための,新規で軽量なアルゴリズムを提案する。 サンプル化された座標のリーフ変数を全て作らずに、zcsは空間的または時間的次元ごとにスカラー値のリーフ変数を1つだけ導入し、望ましい微分を"many-roots-many-leaves"から"one-root-many-leaves"へと単純化することで、ゲームを変えるパフォーマンスの飛躍をもたらした。 ZCSは現在のディープラーニングライブラリで簡単に実装できますが、私たちの独自の実装はDeepXDEパッケージを拡張することです。 我々は、データなしで偏微分方程式(PDE)を解くために、総合的なベンチマーク分析といくつかのケーススタディを行い、物理情報を用いたDeepONetsを訓練する。 以上の結果から,ZCSはGPUメモリ使用量や壁面時間を桁違いに減らし,問題スケール(PDEの関数数,点数,点数,点数)で節約できることがわかった。 低レベルの最適化として、ZCSはデータ、物理(PDE)、ネットワークアーキテクチャの制限を伴わず、あらゆる面からトレーニング結果を妥協しない。

Automatic differentiation (AD) is a critical step in physics-informed machine learning, required for computing the high-order derivatives of network output w.r.t. coordinates. In this paper, we present a novel and lightweight algorithm to conduct such AD for physics-informed operator learning, as we call the trick of Zero Coordinate Shift (ZCS). Instead of making all sampled coordinates leaf variables, ZCS introduces only one scalar-valued leaf variable for each spatial or temporal dimension, leading to a game-changing performance leap by simplifying the wanted derivatives from "many-roots-many-leaves" to "one-root-many-leaves". ZCS is easy to implement with current deep learning libraries; our own implementation is by extending the DeepXDE package. We carry out a comprehensive benchmark analysis and several case studies, training physics-informed DeepONets to solve partial differential equations (PDEs) without data. The results show that ZCS has persistently brought down GPU memory consumption and wall time for training by an order of magnitude, with the savings increasing with problem scale (i.e., number of functions, number of points and order of PDE). As a low-level optimisation, ZCS entails no restrictions on data, physics (PDEs) or network architecture and does not compromise training results from any aspect.
翻訳日:2023-11-03 15:44:32 公開日:2023-11-01
# 複数のエージェントシステムに対する最適コスト制約型対向攻撃

Optimal Cost Constrained Adversarial Attacks For Multiple Agent Systems ( http://arxiv.org/abs/2311.00859v1 )

ライセンス: Link先を確認
Ziqing Lu, Guanlin Liu, Lifeng Cai, Weiyu Xu(参考訳) 最適な攻撃戦略を見つけることは強化学習とマルコフ決定プロセスにおいて重要なトピックである。 以前の研究では、異なる受信者(被害者)エージェントを攻撃した1人の全知のコーディネーター(攻撃者)が均一なコストを発生させると仮定していた。 しかし実際には、1つの制限のない中央攻撃者ではなく、分散攻撃エージェントによって攻撃を行う必要がある。 我々は,分散攻撃エージェントを用いた攻撃エージェント対エージェント攻撃を最適に行う問題を定式化し,攻撃と勝利のペアごとに異なるコスト制約を課す。 マルチエージェントシステムにおける最適対向攻撃を実現するために,静的な制約付き攻撃-リソース割り当て最適化と動的プログラムのステップ間を最適化する最適手法を提案する。 その結果,提案する攻撃は,攻撃したエージェントが受ける報酬を大幅に削減できることがわかった。

Finding optimal adversarial attack strategies is an important topic in reinforcement learning and the Markov decision process. Previous studies usually assume one all-knowing coordinator (attacker) for whom attacking different recipient (victim) agents incurs uniform costs. However, in reality, instead of using one limitless central attacker, the attacks often need to be performed by distributed attack agents. We formulate the problem of performing optimal adversarial agent-to-agent attacks using distributed attack agents, in which we impose distinct cost constraints on each different attacker-victim pair. We propose an optimal method integrating within-step static constrained attack-resource allocation optimization and between-step dynamic programming to achieve the optimal adversarial attack in a multi-agent system. Our numerical results show that the proposed attacks can significantly reduce the rewards received by the attacked agents.
翻訳日:2023-11-03 15:44:02 公開日:2023-11-01
# smoothhess: steinの補題によるreluネットワーク機能インタラクション

SmoothHess: ReLU Network Feature Interactions via Stein's Lemma ( http://arxiv.org/abs/2311.00858v1 )

ライセンス: Link先を確認
Max Torop, Aria Masoomi, Davin Hill, Kivanc Kose, Stratis Ioannidis, Jennifer Dy(参考訳) ニューラルネットのヘシアン(Hessian)に着目して特徴的相互作用を解釈する最近の方法 これはReLUネットワークにとって挑戦であり、それは断片的に線形であり、したがってほぼ至る所でゼロのヘシアンを持つ。 スタインの補題を用いて二階相互作用を推定する手法である smoothhess を提案する。 特に,gaussianと畳んだネットワークのヘッシアンを効率的なサンプリングアルゴリズムで推定し,ネットワーク勾配呼び出しのみを必要とする。 smoothhessは、hoc後に適用され、reluネットワークアーキテクチャを変更する必要はなく、スムージングの程度を明示的に制御できる。 推定手順のサンプルの複雑さに非漸近的境界を与える。 ベンチマークデータセットと現実世界の医療スパイロメトリデータセットのインタラクションをキャプチャするsmoothhessの優れた能力を検証する。

Several recent methods for interpretability model feature interactions by looking at the Hessian of a neural network. This poses a challenge for ReLU networks, which are piecewise-linear and thus have a zero Hessian almost everywhere. We propose SmoothHess, a method of estimating second-order interactions through Stein's Lemma. In particular, we estimate the Hessian of the network convolved with a Gaussian through an efficient sampling algorithm, requiring only network gradient calls. SmoothHess is applied post-hoc, requires no modifications to the ReLU network architecture, and the extent of smoothing can be controlled explicitly. We provide a non-asymptotic bound on the sample complexity of our estimation procedure. We validate the superior ability of SmoothHess to capture interactions on benchmark datasets and a real-world medical spirometry dataset.
翻訳日:2023-11-03 15:43:46 公開日:2023-11-01
# HIVエピデミックプランを終了する米国評価のためのマルチエージェント強化学習フレームワーク

A Multi-Agent Reinforcement Learning Framework for Evaluating the U.S. Ending the HIV Epidemic Plan ( http://arxiv.org/abs/2311.00855v1 )

ライセンス: Link先を確認
Dinesh Sharma, Ankit Shah, Chaitra Gopalappa(参考訳) ヒト免疫不全ウイルス(hiv)は米国の主要な公衆衛生上の懸念事項であり、毎年約120万人がhivに感染し、3万5000人が新たに感染している。 HIVの負担と医療アクセスには、アメリカ全土にかなりの地理的格差がある。 2019 Ending the HIV Epidemic(EHE)イニシアチブは、診断、治療、予防介入のカバレッジを改善し、HIV感染率の高い管轄区域を優先することで、2030年までに新しい感染症を90%削減することを目指している。 介入の組み合わせの最適なスケールアップを特定することは、リソースの割り当てを知らせるのに役立つ。 既存のhiv決定分析モデルは、特定の都市や国民全体を評価し、司法上の相互作用や違いを無視する。 本稿では,地域別意思決定分析が可能なマルチエージェント強化学習(MARL)モデルを提案する。 カリフォルニア州とフロリダ州の司法管轄区域で実施された実験分析では、MARLの最適な政策は単一エージェントRLの政策と大きく異なり、管轄区域の変動と相互作用の影響が強調された。 この研究は、HIVの包括的モデリングと国家空間、行動空間、報酬関数の定式化を利用することで、公衆衛生政策を通知するためのMARLの強みと適用性を実証し、EHEに通知するための全国レベルに拡張するための枠組みを提供する。

Human immunodeficiency virus (HIV) is a major public health concern in the United States, with about 1.2 million people living with HIV and 35,000 newly infected each year. There are considerable geographical disparities in HIV burden and care access across the U.S. The 2019 Ending the HIV Epidemic (EHE) initiative aims to reduce new infections by 90% by 2030, by improving coverage of diagnoses, treatment, and prevention interventions and prioritizing jurisdictions with high HIV prevalence. Identifying optimal scale-up of intervention combinations will help inform resource allocation. Existing HIV decision analytic models either evaluate specific cities or the overall national population, thus overlooking jurisdictional interactions or differences. In this paper, we propose a multi-agent reinforcement learning (MARL) model, that enables jurisdiction-specific decision analyses but in an environment with cross-jurisdictional epidemiological interactions. In experimental analyses, conducted on jurisdictions within California and Florida, optimal policies from MARL were significantly different than those generated from single-agent RL, highlighting the influence of jurisdictional variations and interactions. By using comprehensive modeling of HIV and formulations of state space, action space, and reward functions, this work helps demonstrate the strengths and applicability of MARL for informing public health policies, and provides a framework for expanding to the national-level to inform the EHE.
翻訳日:2023-11-03 15:43:31 公開日:2023-11-01
# 物理的拘束された機械学習からの電子励起状態

Electronic excited states from physically-constrained machine learning ( http://arxiv.org/abs/2311.00844v1 )

ライセンス: Link先を確認
Edoardo Cignoni, Divya Suman, Jigyasa Nigam, Lorenzo Cupellini, Benedetta Mennucci, Michele Ceriotti(参考訳) データ駆動技術は、物質の電子構造計算を置き換えるためにますます使われている。 この文脈では、機械学習(ML)が望ましい特性を予測するために直接適用されるべきなのか、それとも物理的に接地された操作と明示的に組み合わせるべきなのかが問題となる。 本稿では,有効ハミルトニアンの対称性に適合したmlモデルを用いて,量子力学的計算から電子励起を再現する統合モデリング手法の例を示す。 得られたモデルは、トレーニングされた分子よりもはるかに大きく複雑な分子を予測でき、最小原子中心基底に対応するパラメータ化を用いて、よく収束した計算の出力を間接的にターゲットすることで、劇的な計算の節約を可能にする。 これらの結果は、物理近似を用いたデータ駆動手法の相互運用のメリットを強調し、精度と計算効率に影響を与えることなくMLモデルの伝達性と解釈性を改善し、ML強化電子構造法を開発するための青写真を提供する。

Data-driven techniques are increasingly used to replace electronic-structure calculations of matter. In this context, a relevant question is whether machine learning (ML) should be applied directly to predict the desired properties or be combined explicitly with physically-grounded operations. We present an example of an integrated modeling approach, in which a symmetry-adapted ML model of an effective Hamiltonian is trained to reproduce electronic excitations from a quantum-mechanical calculation. The resulting model can make predictions for molecules that are much larger and more complex than those that it is trained on, and allows for dramatic computational savings by indirectly targeting the outputs of well-converged calculations while using a parameterization corresponding to a minimal atom-centered basis. These results emphasize the merits of intertwining data-driven techniques with physical approximations, improving the transferability and interpretability of ML models without affecting their accuracy and computational efficiency, and providing a blueprint for developing ML-augmented electronic-structure methods.
翻訳日:2023-11-03 15:43:04 公開日:2023-11-01
# HealthAIChain:AIベースの医療システムにおけるブロックチェーン技術アプリケーションによるセキュリティと安全性の向上

healthAIChain: Improving security and safety using Blockchain Technology applications in AI-based healthcare systems ( http://arxiv.org/abs/2311.00842v1 )

ライセンス: Link先を確認
Naresh Kshetri, James Hutson, Revathy G(参考訳) ブロックチェーンは、デジタルトランザクションやその他の情報の記録を保持するためのデジタル台帳である。 デジタル人口の全世界的な増加は、医療や患者のデータを含むオンラインデータに重大な脅威をもたらす。 bitcoin以降、ブロックチェーン技術は医療産業や医療に応用された汎用技術へと発展してきた。 ブロックチェーンは、患者の重要なデータに対する最高セキュリティ基準を維持しながら、高度に構成可能なオープン性を促進することができる。 デジタル資産を暗号化ハッシュおよび分散ネットワークを介して変更不能かつ透明にする医療システムのための分散レコード保存として参照される。 この研究は、aiベースの医療システムにおけるブロックチェーンの導入に伴うセキュリティと安全性の改善に重点を置いている。 ブロックチェーン対応AIは、医療システムのセキュリティ、パフォーマンス効率、安全性に関する既存の問題に取り組む。 医療および医療産業における人工知能、潜在的な分野、医療システムにおけるブロックチェーンに関するオープンな疑問についても検討した。 最後に、論文は患者データとセキュリティを改善するためのaiベースの医療ブロックチェーンモデル(healthaichain)を提案した。

Blockchain as a digital ledger for keeping records of digital transactions and other information, it is secure and decentralized technology. The globally growing number of digital population every day possesses a significant threat to online data including the medical and patients data. After bitcoin, blockchain technology has emerged into a general-purpose technology with applications in medical industries and healthcare. Blockchain can promote highly configurable openness while retaining the highest security standards for critical data of medical patients. Referred to as distributed record keeping for healthcare systems which makes digital assets unalterable and transparent via a cryptographic hash and decentralized network. The study delves into the security and safety improvement associated with implementing blockchain in AI-based healthcare systems. Blockchain-enabled AI tackles the existing issues related to security, performance efficiencies, and safety in healthcare systems. We have also examined the Artificial Intelligence in healthcare and medical industry, potential areas, open questions concerning the blockchain in healthcare systems. Finally, the article proposed an AI-based healthcare blockchain model (healthAIChain) to improve patients data and security.
翻訳日:2023-11-03 15:42:48 公開日:2023-11-01
# 単調な確率を持つシャープ雑音二項探索

Sharp Noisy Binary Search with Monotonic Probabilities ( http://arxiv.org/abs/2311.00840v1 )

ライセンス: Link先を確認
Lucas Gretta, Eric Price(参考訳) ここではKarpとKleinbergのノイズの多いバイナリ検索モデルを再検討する。 コインは$p_i$の増加によってソートされ、ターゲット値$\tau$の確率が($\varepsilon$の範囲内で)どこで交差するかを確認したい。 これにより、burnashev と zigangirov の固定ノイズモデルが一般化され、そこでは $p_i = \frac{1}{2} \pm \varepsilon$ が、目標に近いコインがそれと区別できないように設定される。 Karp と Kleinberg は $\Theta(\frac{1}{\varepsilon^2} \log n)$サンプルが必要であることを示した。 高確率挙動と鋭い定数の2つの理論的課題を解くことで,実用的なアルゴリズムを作成する。 確率 $1-\delta$ from \[ \frac{1}{C_{\tau, \varepsilon}} \cdot \left(\lg n + O(\log^{2/3} n \log^{1/3} \frac{1}{\delta} + \log \frac{1}{\delta})\right) \] サンプルから確率 $1-\delta$ を得るアルゴリズムを与える。 $\delta > n^{-o(1)}$ の場合、これは最適な 1 + o(1)$ の範囲内であり、$\delta \ll 1$ の場合、最適の定数因子の中では最初の境界である。

We revisit the noisy binary search model of Karp and Kleinberg, in which we have $n$ coins with unknown probabilities $p_i$ that we can flip. The coins are sorted by increasing $p_i$, and we would like to find where the probability crosses (to within $\varepsilon$) of a target value $\tau$. This generalized the fixed-noise model of Burnashev and Zigangirov , in which $p_i = \frac{1}{2} \pm \varepsilon$, to a setting where coins near the target may be indistinguishable from it. Karp and Kleinberg showed that $\Theta(\frac{1}{\varepsilon^2} \log n)$ samples are necessary and sufficient for this task. We produce a practical algorithm by solving two theoretical challenges: high-probability behavior and sharp constants. We give an algorithm that succeeds with probability $1-\delta$ from \[ \frac{1}{C_{\tau, \varepsilon}} \cdot \left(\lg n + O(\log^{2/3} n \log^{1/3} \frac{1}{\delta} + \log \frac{1}{\delta})\right) \] samples, where $C_{\tau, \varepsilon}$ is the optimal such constant achievable. For $\delta > n^{-o(1)}$ this is within $1 + o(1)$ of optimal, and for $\delta \ll 1$ it is the first bound within constant factors of optimal.
翻訳日:2023-11-03 15:42:33 公開日:2023-11-01
# マニピュレーションのための任意のリファインメントによる定時運動計画

Constant-time Motion Planning with Anytime Refinement for Manipulation ( http://arxiv.org/abs/2311.00837v1 )

ライセンス: Link先を確認
Itamar Mishani, Hayden Feddock, Maxim Likhachev(参考訳) ロボットマニピュレータは将来の自律システムには不可欠だが、彼らの自律性への信頼は厳格でタスク固有のシステムに制限されている。 マニピュレータの複雑な構成空間は、障害物回避と制約満足度の課題と相まって、信頼性と適応可能な自律性を達成するためのボトルネックとなる。 近年,CTMP (Constant-time Motion Planner) が導入された。 これらのプランナーは事前処理フェーズを使用してデータ構造を計算し、オンラインプランニングにより、ユーザが定義した時間境界内で、潜在的に最適以下の動作計画を生成することができる。 このフレームワークは、多くの時間クリティカルなタスクで有効であることが示されている。 しかし、ロボットシステムは、しばしばctmpのオンライン部分よりも計画に割り当てられる時間が多く、ソリューションを改善するのに使える時間がある。 そこで本研究では,CTMPアルゴリズムと組み合わせたリアルタイム改良手法を提案する。 提案するフレームワークは定時間アルゴリズムとして動作し,ユーザ定義の時間しきい値内で初期解を迅速に生成する。 さらに、anytimeアルゴリズムとして機能し、割り当てられた時間予算内で反復的にソリューションの品質を洗練する。 これにより、保証された高速プラン生成と時間の経過とともに最適化の追求のバランスをとることができます。 我々は,その解析的性質を解明し,任意の時間成分の最適解への収束を示すことにより,このアプローチを支持する。 さらに,6自由度ロボットマニピュレータのシミュレーションと実世界の実演による実証検証を行い,アセンブリドメインに適用した。

Robotic manipulators are essential for future autonomous systems, yet limited trust in their autonomy has confined them to rigid, task-specific systems. The intricate configuration space of manipulators, coupled with the challenges of obstacle avoidance and constraint satisfaction, often makes motion planning the bottleneck for achieving reliable and adaptable autonomy. Recently, a class of constant-time motion planners (CTMP) was introduced. These planners employ a preprocessing phase to compute data structures that enable online planning provably guarantee the ability to generate motion plans, potentially sub-optimal, within a user defined time bound. This framework has been demonstrated to be effective in a number of time-critical tasks. However, robotic systems often have more time allotted for planning than the online portion of CTMP requires, time that can be used to improve the solution. To this end, we propose an anytime refinement approach that works in combination with CTMP algorithms. Our proposed framework, as it operates as a constant time algorithm, rapidly generates an initial solution within a user-defined time threshold. Furthermore, functioning as an anytime algorithm, it iteratively refines the solution's quality within the allocated time budget. This enables our approach to strike a balance between guaranteed fast plan generation and the pursuit of optimization over time. We support our approach by elucidating its analytical properties, showing the convergence of the anytime component towards optimal solutions. Additionally, we provide empirical validation through simulation and real-world demonstrations on a 6 degree-of-freedom robot manipulator, applied to an assembly domain.
翻訳日:2023-11-03 15:41:49 公開日:2023-11-01
# 効率的かつ一般化可能な超微細エンティティタイピングのための校正Seq2seqモデル

Calibrated Seq2seq Models for Efficient and Generalizable Ultra-fine Entity Typing ( http://arxiv.org/abs/2311.00835v1 )

ライセンス: Link先を確認
Yanlin Feng, Adithya Pratapa, David R Mortensen(参考訳) 超微細なエンティティ型付けは、テキスト中のエンティティ参照の詳細なセマンティクスタイプを予測することによって、情報抽出において重要な役割を果たす。 しかし、このタスクは、出力空間に多数のエンティティタイプが存在するため、重大な問題を引き起こす。 現在の最先端のアプローチは、標準的なマルチラベル分類器やクロスエンコーダモデルに基づいており、一般化性能や非効率な推論に苦しめられている。 本稿では,信頼度を校正した超細部タイプを予測するために設計されたseq2seqモデルであるcasentを提案する。 我々のモデルはエンティティ参照を入力として、制約付きビーム検索を用いて複数のタイプを自己回帰的に生成する。 そして、予測型に関連する生のシーケンス確率を、新しいキャリブレーション法を用いて信頼スコアに変換する。 10k以上のデータを含むUFETデータセットについて広範な実験を行った。 提案手法は,従来のf1スコアとキャリブレーション誤差を上回り,50倍以上の高速化を達成している。 さらに、トレーニング中に見つからない5つの専門ドメインエンティティ型付けデータセットに対して、ゼロショットおよび少数ショット設定で評価することで、モデルの一般化能力を実証する。 驚くべきことに、私たちのモデルはゼロショット設定で10倍のパラメータを持つ大きな言語モデルよりも優れており、50の例で微調整すると、すべてのデータセットでchatgptを大幅に上回っています。 私たちのコード、モデル、デモはhttps://github.com/yanlinf/casent.com/で閲覧できます。

Ultra-fine entity typing plays a crucial role in information extraction by predicting fine-grained semantic types for entity mentions in text. However, this task poses significant challenges due to the massive number of entity types in the output space. The current state-of-the-art approaches, based on standard multi-label classifiers or cross-encoder models, suffer from poor generalization performance or inefficient inference. In this paper, we present CASENT, a seq2seq model designed for ultra-fine entity typing that predicts ultra-fine types with calibrated confidence scores. Our model takes an entity mention as input and employs constrained beam search to generate multiple types autoregressively. The raw sequence probabilities associated with the predicted types are then transformed into confidence scores using a novel calibration method. We conduct extensive experiments on the UFET dataset which contains over 10k types. Our method outperforms the previous state-of-the-art in terms of F1 score and calibration error, while achieving an inference speedup of over 50 times. Additionally, we demonstrate the generalization capabilities of our model by evaluating it in zero-shot and few-shot settings on five specialized domain entity typing datasets that are unseen during training. Remarkably, our model outperforms large language models with 10 times more parameters in the zero-shot setting, and when fine-tuned on 50 examples, it significantly outperforms ChatGPT on all datasets. Our code, models and demo are available at https://github.com/yanlinf/CASENT.
翻訳日:2023-11-03 15:41:24 公開日:2023-11-01
# レジームスイッチング経済におけるデリバティブ価格と信用リスクの量子計算アルゴリズム

Quantum Computational Algorithms for Derivative Pricing and Credit Risk in a Regime Switching Economy ( http://arxiv.org/abs/2311.00825v1 )

ライセンス: Link先を確認
Eric Ghysels, Jack Morgan, and Hamed Mohammadbagherpoor(参考訳) 量子コンピュータは、金融アナリストがよく使う実用的な確率拡散モデルに対して計算上の優位性を提供するタスクにはまだ達していない。 本稿では、金融市場のリスクを模倣する観点で現実的な確率過程のクラスと、潜在的な量子計算の利点に対する改善可能性について紹介する。 私たちが研究するモデルの種類は、可観測状態のマルコフ連鎖によって駆動されるレジームスイッチングボラティリティモデルに基づいている。 基本モデルは、マルコフ連鎖の有限状態によって決定されるドリフトとボラティリティパラメータを持つ幾何学的ブラウン運動である。 ゲート型量子コンピュータで信用リスクとオプション価格を推定するアルゴリズムについて検討した。 これらのモデルは現実的な市場設定に近づき、量子コンピューティングは実用的な応用の領域に近づきます。

Quantum computers are not yet up to the task of providing computational advantages for practical stochastic diffusion models commonly used by financial analysts. In this paper we introduce a class of stochastic processes that are both realistic in terms of mimicking financial market risks as well as more amenable to potential quantum computational advantages. The type of models we study are based on a regime switching volatility model driven by a Markov chain with observable states. The basic model features a Geometric Brownian Motion with drift and volatility parameters determined by the finite states of a Markov chain. We study algorithms to estimate credit risk and option pricing on a gate-based quantum computer. These models bring us closer to realistic market settings, and therefore quantum computing closer the realm of practical applications.
翻訳日:2023-11-03 15:41:00 公開日:2023-11-01
# 独占による平和の加速:紛争地域の人口を理解するための効率的なパラダイム

Faster Peace via Inclusivity: An Efficient Paradigm to Understand Populations in Conflict Zones ( http://arxiv.org/abs/2311.00816v1 )

ライセンス: Link先を確認
Jordan Bilich, Michael Varga, Daanish Masood, Andrew Konya(参考訳) 国連の慣行は、仲介が暴力的な紛争を終わらせ、永続的な平和を確立するのに成功するためには、インクリビティが不可欠であることを示している。 しかし、現在の動的状況における人口の見解やニーズを理解する方法は、排他性と効率の緊張を生じさせる。 このような緊張を和らげるための新しいパラダイムを導入する。 国連の協力のもと、我々は1時間の時間スケールでステークホルダーの集団を理解するためにリアルタイムの大規模同期対話プロセス(RLSDP)を開発します。 我々は、各対話サイクルを1分間のスケールで行うことができる機械学習モデルを実証する。 計算機による機械学習結果の信頼性に関する重要なリスクを、高速かつ信頼性の高い後方分散推定から管理する。 最後に、この新しいパラダイムから生じる一連のリスクを強調し、それらを緩和するためのポリシーを提案する。

United Nations practice shows that inclusivity is vital for mediation to be successful in helping end violent conflict and establish lasting peace. However, current methods for understanding the views and needs of populations during dynamic situations create tension between inclusivity and efficiency. This work introduces a novel paradigm to mitigate such tension. In partnership with collaborators at the United Nations we develop a realtime large-scale synchronous dialogue process (RLSDP) to understand stakeholder populations on an hour timescale. We demonstrate a machine learning model which enables each dialogue cycle to take place on a minute-timescale. We manage a key risk related to machine learning result trustworthiness by computing result confidence from a fast and reliable estimation of posterior variance. Lastly, we highlight a constellation of risks stemming from this new paradigm and suggest policies to mitigate them.
翻訳日:2023-11-03 15:40:49 公開日:2023-11-01
# 非凸最適化における量子古典的性能分離

A quantum-classical performance separation in nonconvex optimization ( http://arxiv.org/abs/2311.00811v1 )

ライセンス: Link先を確認
Jiaqi Leng, Yufan Zheng, Xiaodi Wu(参考訳) 本稿では、量子古典的性能分離を示すために、各$d$-dimensionalインスタンスと2^d$ローカルミニマの非凸連続最適化インスタンスの族を同定する。 具体的には、最近提案された量子ハミルトン Descent (QHD) アルゴリズム [Leng et al., arXiv:2303.01471] が、関数値への$\widetilde{\mathcal{O}}(d^3)$量子クエリと$\widetilde{\mathcal{O}}(d^4)$追加の1-qubitおよび2-qubit基本量子ゲートを用いて、このファミリーから$d$次元の任意のインスタンスを解くことができることを証明している。 一方、総合的な実証研究により、従来の最適化アルゴリズム/解法(グロビを含む)はそのような最適化を解くのに超多項式時間を必要とすることが示唆されている。

In this paper, we identify a family of nonconvex continuous optimization instances, each $d$-dimensional instance with $2^d$ local minima, to demonstrate a quantum-classical performance separation. Specifically, we prove that the recently proposed Quantum Hamiltonian Descent (QHD) algorithm [Leng et al., arXiv:2303.01471] is able to solve any $d$-dimensional instance from this family using $\widetilde{\mathcal{O}}(d^3)$ quantum queries to the function value and $\widetilde{\mathcal{O}}(d^4)$ additional 1-qubit and 2-qubit elementary quantum gates. On the other side, a comprehensive empirical study suggests that representative state-of-the-art classical optimization algorithms/solvers (including Gurobi) would require a super-polynomial time to solve such optimization instances.
翻訳日:2023-11-03 15:40:26 公開日:2023-11-01
# A Call to Arms:AIは紛争ゾーンのソーシャルメディア分析に不可欠であるべきだ

A Call to Arms: AI Should be Critical for Social Media Analysis of Conflict Zones ( http://arxiv.org/abs/2311.00810v1 )

ライセンス: Link先を確認
Afia Abedin, Abdul Bais, Cody Buntain, Laura Courchesne, Brian McQuinn, Matthew E. Taylor, Muhib Ullah(参考訳) ソーシャルメディアデータの膨大な増加は、紛争研究における変革の瞬間を表している。 このデータは、武器の拡散と使用に関するユニークな洞察を提供するが、スケールと種類のデータは、従来のオープンソースインテリジェンスにとって問題となる。 本稿では,コンピュータビジョンを用いた武器システムと武装集団の印章を識別するための予備的,超学際的な研究について述べる。 武器が武装部隊のネットワークを通じてどのように配布されているかだけでなく、ウクライナの異なる種類の国家や非国家の軍事行動者がどの種類の武器を使用しているかを追跡する可能性がある。 このようなシステムは、人道支援や医療援助がもっとも必要となる場所を含む、リアルタイムでの紛争を理解するために最終的に使用できる。 このようなプロセスの自動化にaiを使用することは、短期的な実世界の利益を伴う、コミュニティにとって優先度の高い目標であるべきだと考えています。

The massive proliferation of social media data represents a transformative moment in conflict studies. This data can provide unique insights into the spread and use of weaponry, but the scale and types of data are problematic for traditional open-source intelligence. This paper presents preliminary, transdisciplinary work using computer vision to identify specific weapon systems and the insignias of the armed groups using them. There is potential to not only track how weapons are distributed through networks of armed units but also to track which types of weapons are being used by the different types of state and non-state military actors in Ukraine. Such a system could ultimately be used to understand conflicts in real-time, including where humanitarian and medical aid is most needed. We believe that using AI to help automate such processes should be a high-priority goal for our community, with near-term real-world payoffs.
翻訳日:2023-11-03 15:39:53 公開日:2023-11-01
# 分散検出のためのマハラノビスアウェアトレーニング

Mahalanobis-Aware Training for Out-of-Distribution Detection ( http://arxiv.org/abs/2311.00808v1 )

ライセンス: Link先を確認
Connor Mclaughlin, Jason Matterer, Michael Yee(参考訳) ディープラーニングモデルは制御された環境で広く成功しているが、オープンワールド環境での採用には依然として障壁がある。 安全な配置のための重要な課題の1つは、人間の介入を必要とする可能性のある異常または配布外サンプルの検出である。 そこで本研究では,密度ベースの分散感度が向上したトレーニングネットワークのための新しい損失関数とレシピを提案する。 提案手法はcifar-10の有効性を示し,far-oodタスクにおける相対的マハラノビス距離法の偽陽性率を50%以上低減した。

While deep learning models have seen widespread success in controlled environments, there are still barriers to their adoption in open-world settings. One critical task for safe deployment is the detection of anomalous or out-of-distribution samples that may require human intervention. In this work, we present a novel loss function and recipe for training networks with improved density-based out-of-distribution sensitivity. We demonstrate the effectiveness of our method on CIFAR-10, notably reducing the false-positive rate of the relative Mahalanobis distance method on far-OOD tasks by over 50%.
翻訳日:2023-11-03 15:39:27 公開日:2023-11-01
# 低次元相互作用構造を持つガウス過程の統合による2次粒子ダイナミクスのデータ駆動モデル選択

Data-Driven Model Selections of Second-Order Particle Dynamics via Integrating Gaussian Processes with Low-Dimensional Interacting Structures ( http://arxiv.org/abs/2311.00902v1 )

ライセンス: Link先を確認
Jinchao Feng, Charles Kulick, Sui Tang(参考訳) 本稿では,同じ大きさの相互作用エージェントの集合と集合挙動をモデル化するための,多くの最先端モデルを含む一般2階粒子モデルの構築に着目する。 このモデルは、位置と速度のアライメントを評価する2つの相互作用核によってパラメータ化された常微分方程式の高次元系である。 本稿では,未知のモデルパラメータを2つの独立ガウス過程(gp)前駆体を用いて,動的および観測データに制約された潜在相互作用核上で限界化するガウス過程に基づく手法を提案する。 この結果、不確実な定量化を考慮に入れた力学系と相互作用する非パラメトリックモデルが得られる。 また,スケーラビリティ向上のための加速技術も開発している。 さらに,本手法を解釈するための理論的解析を行い,カーネルを回収できる条件について検討する。 提案手法は,システムの順序選択やインタラクションの種類など,様々なプロトタイプシステムにおいて有効であることを示す。 特に,248次元までの群れとミリングパターンを表示する2つの実世界の魚の動きデータセットのモデル化に応用する。 GPベースのアプローチは、小さなデータセットを使用するにもかかわらず、これらの空間における非線形力学の効果的な表現を学び、競合する手法より優れている。

In this paper, we focus on the data-driven discovery of a general second-order particle-based model that contains many state-of-the-art models for modeling the aggregation and collective behavior of interacting agents of similar size and body type. This model takes the form of a high-dimensional system of ordinary differential equations parameterized by two interaction kernels that appraise the alignment of positions and velocities. We propose a Gaussian Process-based approach to this problem, where the unknown model parameters are marginalized by using two independent Gaussian Process (GP) priors on latent interaction kernels constrained to dynamics and observational data. This results in a nonparametric model for interacting dynamical systems that accounts for uncertainty quantification. We also develop acceleration techniques to improve scalability. Moreover, we perform a theoretical analysis to interpret the methodology and investigate the conditions under which the kernels can be recovered. We demonstrate the effectiveness of the proposed approach on various prototype systems, including the selection of the order of the systems and the types of interactions. In particular, we present applications to modeling two real-world fish motion datasets that display flocking and milling patterns up to 248 dimensions. Despite the use of small data sets, the GP-based approach learns an effective representation of the nonlinear dynamics in these spaces and outperforms competitor methods.
翻訳日:2023-11-03 15:31:51 公開日:2023-11-01
# 条件付きオーディオ生成におけるオープンプロンプトチャレンジについて

On The Open Prompt Challenge In Conditional Audio Generation ( http://arxiv.org/abs/2311.00897v1 )

ライセンス: Link先を確認
Ernie Chang, Sidd Srinivasan, Mahi Luthra, Pin-Jie Lin, Varun Nagaraja, Forrest Iandola, Zechun Liu, Zhaoheng Ni, Changsheng Zhao, Yangyang Shi and Vikas Chandra(参考訳) text-to-audio generation (tta)は、テキスト記述から音声を生成し、ペアのオーディオサンプルと手書きのテキストから学習する。 しかし、TTAモデルのトレーニングに使用されるテキスト記述と比較すると、ユーザ入力プロンプトが過小評価されることが多いため、音声生成の商業化は困難である。 本研究では,ttaモデルを ``blackbox'' として扱い,ユーザプロンプトの課題に対して,(1)ユーザのプロンプトは一般的に不特定であり,ユーザのプロンプトとトレーニングプロンプトの間に大きな差異が生じる。 2) ttaモデルが高品質な音声を生成するのに優れている音声記述の分布があり、これを `audionese'' と呼ぶ。 そこで本研究では,テキスト音声アライメントを音質改善のためのマージンランキング学習によるフィードバック信号として利用することを提案する。 客観的評価と主観的評価の両方において,音声・音声のアライメントと音質の有意な改善がみられた。

Text-to-audio generation (TTA) produces audio from a text description, learning from pairs of audio samples and hand-annotated text. However, commercializing audio generation is challenging as user-input prompts are often under-specified when compared to text descriptions used to train TTA models. In this work, we treat TTA models as a ``blackbox'' and address the user prompt challenge with two key insights: (1) User prompts are generally under-specified, leading to a large alignment gap between user prompts and training prompts. (2) There is a distribution of audio descriptions for which TTA models are better at generating higher quality audio, which we refer to as ``audionese''. To this end, we rewrite prompts with instruction-tuned models and propose utilizing text-audio alignment as feedback signals via margin ranking learning for audio improvements. On both objective and subjective human evaluations, we observed marked improvements in both text-audio alignment and music audio quality.
翻訳日:2023-11-03 15:31:28 公開日:2023-11-01
# 条件付きオーディオ生成のためのインコンテキストプロンプト編集

In-Context Prompt Editing For Conditional Audio Generation ( http://arxiv.org/abs/2311.00895v1 )

ライセンス: Link先を確認
Ernie Chang, Pin-Jie Lin, Yang Li, Sidd Srinivasan, Gael Le Lan, David Kant, Yangyang Shi, Forrest Iandola, Vikas Chandra(参考訳) 分散シフトは、現実世界のデータに不備があるため、機械学習モデルのデプロイにおいて中心的な課題である。 これは、符号化された表現が、未確認のプロンプトによって容易に損なわれ、生成したオーディオの劣化を引き起こすテキスト・オーディオ生成において特に顕著である。 特に,学習セットのプロンプトとは対照的に,ユーザがプロンプトで生成した音声サンプルの音響品質の一貫した劣化を観察する。 そこで本研究では,ユーザプロンプトを再考するために,トレーニングキャプションを実証例として活用する,検索ベースのインコンテキストプロンプト編集フレームワークを提案する。 このフレームワークは,トレーニングキャプションを例示として編集した,収集したユーザプロンプトの集合に対して,音質を向上することを示した。

Distributional shift is a central challenge in the deployment of machine learning models as they can be ill-equipped for real-world data. This is particularly evident in text-to-audio generation where the encoded representations are easily undermined by unseen prompts, which leads to the degradation of generated audio -- the limited set of the text-audio pairs remains inadequate for conditional audio generation in the wild as user prompts are under-specified. In particular, we observe a consistent audio quality degradation in generated audio samples with user prompts, as opposed to training set prompts. To this end, we present a retrieval-based in-context prompt editing framework that leverages the training captions as demonstrative exemplars to revisit the user prompts. We show that the framework enhanced the audio quality across the set of collected user prompts, which were edited with reference to the training captions as exemplars.
翻訳日:2023-11-03 15:31:08 公開日:2023-11-01
# Generate and Pray: LLM生成コードのセキュリティ評価にSALLMSを使用する

Generate and Pray: Using SALLMS to Evaluate the Security of LLM Generated Code ( http://arxiv.org/abs/2311.00889v1 )

ライセンス: Link先を確認
Mohammed Latif Siddiq and Joanna C. S. Santos(参考訳) ソフトウェアエンジニアの日々のプラクティスにおいて、Large Language Models(GitHub Copilot、ChatGPTなど)の人気が高まっているため、これらのツールによって生成されたコードが機能的に正しいだけでなく、脆弱性のないことを保証することが重要です。 LLMは開発者の生産性向上に役立つが、以前の実証実験では、LLMが安全でないコードを生成することが示されている。 安全でないコード生成には2つの要因がある。 まず、LLM(Large Language Models)を評価するために使われる既存のデータセットは、セキュリティに敏感な真のソフトウェアエンジニアリングタスクを適切に表現していない。 代わりに、しばしば競合するプログラミングの課題や教室タイプのコーディングタスクに基づいている。 現実世界のアプリケーションでは、生成されたコードはより大きなコードベースに統合され、潜在的なセキュリティリスクをもたらす。 生成されたコードのセキュリティを評価することに焦点を当てたベンチマークは明らかに存在しない。 第二に、既存の評価指標は、主に、セキュリティ上の考慮を無視しながら生成されたコードの機能的正当性に焦点を当てています。 pass@kのようなメトリクスは、トップk提案の正しいコードを取得する確率を測定します。 BLEU、CodeBLEU、ROUGE、METEORといった他の一般的なメトリクスも同様に機能精度を強調し、セキュリティ上の影響を無視している。 本稿では,これらの研究ギャップを鑑みて,セキュアなコードを生成するLLMの能力をベンチマークするフレームワークであるSALLMについて述べる。 このフレームワークには3つの主要なコンポーネントがある: セキュリティ中心のpythonプロンプトの新しいデータセット、生成されたコードをテストするための評価環境、安全なコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクス。

With the growing popularity of Large Language Models (e.g. GitHub Copilot, ChatGPT, etc.) in software engineers' daily practices, it is important to ensure that the code generated by these tools is not only functionally correct but also free of vulnerabilities. Although LLMs can help developers to be more productive, prior empirical studies have shown that LLMs can generate insecure code. There are two contributing factors to the insecure code generation. First, existing datasets used to evaluate Large Language Models (LLMs) do not adequately represent genuine software engineering tasks sensitive to security. Instead, they are often based on competitive programming challenges or classroom-type coding tasks. In real-world applications, the code produced is integrated into larger codebases, introducing potential security risks. There's a clear absence of benchmarks that focus on evaluating the security of the generated code. Second, existing evaluation metrics primarily focus on the functional correctness of the generated code while ignoring security considerations. Metrics such as pass@k gauge the probability of obtaining the correct code in the top k suggestions. Other popular metrics like BLEU, CodeBLEU, ROUGE, and METEOR similarly emphasize functional accuracy, neglecting security implications. In light of these research gaps, in this paper, we described SALLM, a framework to benchmark LLMs' abilities to generate secure code systematically. This framework has three major components: a novel dataset of security-centric Python prompts, an evaluation environment to test the generated code, and novel metrics to evaluate the models' performance from the perspective of secure code generation.
翻訳日:2023-11-03 15:30:49 公開日:2023-11-01
# COSTAR:自己監督学習による時間的対実推定の改善

COSTAR: Improved Temporal Counterfactual Estimation with Self-Supervised Learning ( http://arxiv.org/abs/2311.00886v1 )

ライセンス: Link先を確認
Chuizheng Meng, Yihe Dong, Sercan \"O. Ar{\i}k, Yan Liu, Tomas Pfister(参考訳) 医療や電子商取引など多くの分野で、特にランダム化制御試験(RCT)が高コストまたは非現実性に苦しむ場合、観察された歴史からの時間的対実結果の推定は意思決定に不可欠である。 現実世界のデータセットでは、複雑なダイナミクス、長距離の依存関係、過去の処理と共変量の両方が将来の結果に影響を与えるため、時間に依存した共同創設者のモデリングが難しい。 本稿では,歴史表現の改善のために自己教師付き学習を統合した新しい手法であるcostar(counterfactual self-supervised transformer)を提案する。 提案フレームワークは,時間的および特徴的な注意と,時間的処理結果の観察に適した成分的コントラスト的損失を組み合わせ,推定精度および既存モデルと比較して分布外データへの一般化性能が向上する。

Estimation of temporal counterfactual outcomes from observed history is crucial for decision-making in many domains such as healthcare and e-commerce, particularly when randomized controlled trials (RCTs) suffer from high cost or impracticality. For real-world datasets, modeling time-dependent confounders is challenging due to complex dynamics, long-range dependencies and both past treatments and covariates affecting the future outcomes. In this paper, we introduce COunterfactual Self-supervised TrAnsformeR (COSTAR), a novel approach that integrates self-supervised learning for improved historical representations. The proposed framework combines temporal and feature-wise attention with a component-wise contrastive loss tailored for temporal treatment outcome observations, yielding superior performance in estimation accuracy and generalization to out-of-distribution data compared to existing models, as validated by empirical results on both synthetic and real-world datasets.
翻訳日:2023-11-03 15:30:26 公開日:2023-11-01
# SCPO:安全批判政策最適化による安全強化学習

SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization ( http://arxiv.org/abs/2311.00880v1 )

ライセンス: Link先を確認
Jaafar Mhamed and Shangding Gu(参考訳) 現実のシナリオにおける強化学習の実践的応用を拡大するためには,安全性を取り入れることが不可欠である。 この課題に対処するため、CMDP(Constrained Markov Decision Processs)が活用され、安全違反を表すコスト関数が導入された。 cmdpsの設定では、ラグランジアン緩和法が以前のアルゴリズムで用いられ、制約付き最適化問題を制約なし双対問題に変換する。 しかし、これらのアルゴリズムは不正確に安全でない振る舞いを予測でき、ラグランジュ乗数を学習しながら不安定になる。 本研究は,新たな安全強化学習アルゴリズムである安全批判ポリシー最適化(SCPO)を紹介する。 本研究では,安全上の制約を破って得られる報酬を無効化するメカニズムである安全批判を規定する。 さらに,提案アルゴリズムは,安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることを示す。 SCPOアルゴリズムの有効性は、強いベースラインに対してベンチマークすることで実証的に検証される。

Incorporating safety is an essential prerequisite for broadening the practical applications of reinforcement learning in real-world scenarios. To tackle this challenge, Constrained Markov Decision Processes (CMDPs) are leveraged, which introduce a distinct cost function representing safety violations. In CMDPs' settings, Lagrangian relaxation technique has been employed in previous algorithms to convert constrained optimization problems into unconstrained dual problems. However, these algorithms may inaccurately predict unsafe behavior, resulting in instability while learning the Lagrange multiplier. This study introduces a novel safe reinforcement learning algorithm, Safety Critic Policy Optimization (SCPO). In this study, we define the safety critic, a mechanism that nullifies rewards obtained through violating safety constraints. Furthermore, our theoretical analysis indicates that the proposed algorithm can automatically balance the trade-off between adhering to safety constraints and maximizing rewards. The effectiveness of the SCPO algorithm is empirically validated by benchmarking it against strong baselines.
翻訳日:2023-11-03 15:30:04 公開日:2023-11-01
# ハイパーグラフ製品コードの小さなセットフリップ復号のための停止障害に対処する

Addressing Stopping Failures for Small Set Flip Decoding of Hypergraph Product Codes ( http://arxiv.org/abs/2311.00877v1 )

ライセンス: Link先を確認
Lev Stambler, Anirudh Krishna, Michael E. Beverland(参考訳) 実際に使用される量子エラー訂正コードには、検出されたエラーのシンドロームから補正を識別する効率的な復号アルゴリズムを組み込む必要がある。ハイパーグラフ製品コードは、Small-Set-Flip ($\texttt{SSF}$)と呼ばれる線形時間復号アルゴリズム(Leverrier, Tillich, Z\'emor FOCS 2015)を持つ定値量子LDPC符号の有望なファミリーである。 アルゴリズムは、シンドローム重量を減少させる小さな補正を反復的に適用することで進行する。 これらの小さな補正を組み合わせることで、十分に大きな(しかし一定の)安定化度重みを持つ十分な大きな符号に対して、大きな誤りを正すことができる。 しかし、この保証は安定度の低い小さな符号に対しては保持されない。 この場合、$\texttt{ssf}$は停止障害で終了し、小さな修正を識別できないエラーに遭遇する。 停止する故障の原因となるエラーの構造は、十分に小さなクォービット故障率の単純な形式であることがわかった。 我々は、障害停止後の$\texttt{SSF}$を補うために、Projection-Along-a-Line ($\texttt{PAL}$)デコーダと呼ばれる新しいデコードアルゴリズムを提案する。 複合デコーダとして$\texttt{ssf}+\texttt{pal}$を使用すると、論理エラー率の桁違いの改善が見出される。

For a quantum error correcting code to be used in practice, it needs to be equipped with an efficient decoding algorithm, which identifies corrections given the observed syndrome of errors.Hypergraph product codes are a promising family of constant-rate quantum LDPC codes that have a linear-time decoding algorithm called Small-Set-Flip ($\texttt{SSF}$) (Leverrier, Tillich, Z\'emor FOCS 2015). The algorithm proceeds by iteratively applying small corrections which reduce the syndrome weight. Together, these small corrections can provably correct large errors for sufficiently large codes with sufficiently large (but constant) stabilizer weight. However, this guarantee does not hold for small codes with low stabilizer weight. In this case, $\texttt{SSF}$ can terminate with stopping failures, meaning it encounters an error for which it is unable to identify a small correction. We find that the structure of errors that cause stopping failures have a simple form for sufficiently small qubit failure rates. We propose a new decoding algorithm called the Projection-Along-a-Line ($\texttt{PAL}$) decoder to supplement $\texttt{SSF}$ after stopping failures. Using $\texttt{SSF}+\texttt{PAL}$ as a combined decoder, we find an order-of-magnitude improvement in the logical error rate.
翻訳日:2023-11-03 15:29:47 公開日:2023-11-01
# CPUにおける低レイテンシリアルタイム音声変換

Low-latency Real-time Voice Conversion on CPU ( http://arxiv.org/abs/2311.00873v1 )

ライセンス: Link先を確認
Konstantine Sadov, Matthew Hutter, Asara Near(参考訳) 我々は,従来の音声操作と生成ニューラルネットのアーキテクチャを,音声変換のリアルタイムタスクに適用する。 私たちのモデルであるLLVC ($\textbf{L}$ow-latency $\textbf{L}$ow-resource $\textbf{V}$oice $\textbf{C}$onversion)は、16kHzのビットレートで20ms未満のレイテンシを持ち、コンシューマCPU上でリアルタイムよりも2.8倍高速で動作する。 LLVCは、この性能を達成するために、生成的敵アーキテクチャと知識蒸留の両方を使用する。 我々の知る限り、LLVCはリソース使用率の低さと、オープンソース音声変換モデルの低レイテンシの両方を実現しています。 https://github.com/koeai/llvc.com/で、オープンソースのサンプル、コード、事前トレーニングされたモデルウェイトを提供します。

We adapt the architectures of previous audio manipulation and generation neural networks to the task of real-time any-to-one voice conversion. Our resulting model, LLVC ($\textbf{L}$ow-latency $\textbf{L}$ow-resource $\textbf{V}$oice $\textbf{C}$onversion), has a latency of under 20ms at a bitrate of 16kHz and runs nearly 2.8x faster than real-time on a consumer CPU. LLVC uses both a generative adversarial architecture as well as knowledge distillation in order to attain this performance. To our knowledge LLVC achieves both the lowest resource usage as well as the lowest latency of any open-source voice conversion model. We provide open-source samples, code, and pretrained model weights at https://github.com/KoeAI/LLVC.
翻訳日:2023-11-03 15:29:17 公開日:2023-11-01
# 変圧器モデルの狭義モデル選択機能を実現するデータ混合の事前学習

Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models ( http://arxiv.org/abs/2311.00871v1 )

ライセンス: Link先を確認
Steve Yadlowsky, Lyric Doshi, Nilesh Tripuraneni(参考訳) トランスフォーマモデル、特に大言語モデル(llm)は、明示的なモデルトレーニングなしで、意図せぬ入力出力例で促された場合、新しいタスクを実行するための、コンテキスト内学習(icl)を行う素晴らしい能力を持っています。 本研究では,複数のタスクファミリからなるプリトレーニングデータ混合間で,トランスフォーマがいかに効果的にブリッジし,プリトレーニング分散の内部と外部の両方にあるコンテキスト内で新しいタスクを識別し学習できるかについて検討する。 そこで我々は、自然言語ではなく、$(x, f(x))$ペアの列で訓練されたトランスフォーマーモデルについて検討する。 実験の結果,トランスフォーマーは,タスクファミリが事前学習データでよく表現されている場合に,まずタスクファミリを識別し,内部で学習する能力において,最適に近いモデル選択能力を示す。 しかし、プリトレーニングデータのドメイン外であるタスクや関数を提示すると、トランスフォーマの様々な障害モードと、単純な外挿タスクに対する一般化の低下が示される。 以上の結果から,高容量系列モデルのicl能力は,基礎的な一般化能力を生み出す帰納的バイアスよりも,事前学習データ混合のカバレッジと密接に関連している可能性が示唆された。

Transformer models, notably large language models (LLMs), have the remarkable ability to perform in-context learning (ICL) -- to perform new tasks when prompted with unseen input-output examples without any explicit model training. In this work, we study how effectively transformers can bridge between their pretraining data mixture, comprised of multiple distinct task families, to identify and learn new tasks in-context which are both inside and outside the pretraining distribution. Building on previous work, we investigate this question in a controlled setting, where we study transformer models trained on sequences of $(x, f(x))$ pairs rather than natural language. Our empirical results show transformers demonstrate near-optimal unsupervised model selection capabilities, in their ability to first in-context identify different task families and in-context learn within them when the task families are well-represented in their pretraining data. However when presented with tasks or functions which are out-of-domain of their pretraining data, we demonstrate various failure modes of transformers and degradation of their generalization for even simple extrapolation tasks. Together our results highlight that the impressive ICL abilities of high-capacity sequence models may be more closely tied to the coverage of their pretraining data mixtures than inductive biases that create fundamental generalization capabilities.
翻訳日:2023-11-03 15:29:00 公開日:2023-11-01
# 非転写音声の自動拡散検出

Automatic Disfluency Detection from Untranscribed Speech ( http://arxiv.org/abs/2311.00867v1 )

ライセンス: Link先を確認
Amrit Romana, Kazuhito Koishida, Emily Mower Provost(参考訳) 充満停止や繰り返しのような音声の拡散は、典型的な音声の流れの破壊である。 発声は、高い反響率を特徴とする発声障害であるが、全ての個人は、何らかの反響と、認知負荷などの要因によって増大する可能性がある。 臨床的に、自動不流動検出は、混乱した個人の治療計画に役立つかもしれない。 クリニック以外では、自動不流動検出は下流のアプリケーションにおける自然言語理解を改善する前処理ステップとして機能する可能性がある。 この幅広い応用を念頭に置いて,フレームレベルの自動拡散検出と分類のための言語,音響,マルチモーダル手法について検討する。 これらの手法は入力として音声に依存する。 まず,複数の自動音声認識(asr)システムについて,不整合率を用いて測定した不整合の書き起こし能力の観点から評価する。 次に、これらのASR文字を言語に基づく不規則検出モデルへの入力として使用する。 その結果, ディフルエンシ検出性能は, 書き起こしやアライメントの品質に大きく制限されていることがわかった。 中間段階として書き起こしを必要としない音響的アプローチがASR言語アプローチより優れていることがわかった。 最後に,マルチモーダルアーキテクチャを提案することで,ユニモーダルアプローチよりも分散検出性能が向上することを示す。 最終的に、この研究はフレームレベルの自動分散と分類のための新しいアプローチを導入している。 長期的には、研究者が様々なアプリケーションに自動拡散検出を組み込むのに役立つだろう。

Speech disfluencies, such as filled pauses or repetitions, are disruptions in the typical flow of speech. Stuttering is a speech disorder characterized by a high rate of disfluencies, but all individuals speak with some disfluencies and the rates of disfluencies may by increased by factors such as cognitive load. Clinically, automatic disfluency detection may help in treatment planning for individuals who stutter. Outside of the clinic, automatic disfluency detection may serve as a pre-processing step to improve natural language understanding in downstream applications. With this wide range of applications in mind, we investigate language, acoustic, and multimodal methods for frame-level automatic disfluency detection and categorization. Each of these methods relies on audio as an input. First, we evaluate several automatic speech recognition (ASR) systems in terms of their ability to transcribe disfluencies, measured using disfluency error rates. We then use these ASR transcripts as input to a language-based disfluency detection model. We find that disfluency detection performance is largely limited by the quality of transcripts and alignments. We find that an acoustic-based approach that does not require transcription as an intermediate step outperforms the ASR language approach. Finally, we present multimodal architectures which we find improve disfluency detection performance over the unimodal approaches. Ultimately, this work introduces novel approaches for automatic frame-level disfluency and categorization. In the long term, this will help researchers incorporate automatic disfluency detection into a range of applications.
翻訳日:2023-11-03 15:28:37 公開日:2023-11-01
# 構造空間を超えた非線形ICAの一般化

Generalizing Nonlinear ICA Beyond Structural Sparsity ( http://arxiv.org/abs/2311.00866v1 )

ライセンス: Link先を確認
Yujia Zheng, Kun Zhang(参考訳) 非線形独立成分分析(ICA)は、観測可能な非線形混合物から真の潜伏源を明らかにすることを目的としている。 その重要性にもかかわらず、非線形ICAの識別性は追加の仮定なしでは不可能であることが知られている。 最近の進歩は、教師なしの方法で識別可能性を達成するために、ソースから観測変数への接続構造に関する条件を提案している。 しかし、空間的制約は実際にはすべての情報源に対して普遍的に成り立たない。 さらに、混合過程の単射性とicaの設定から生じるすべてのソース間の独立性の仮定は、多くの現実世界のシナリオでも破られる可能性がある。 これらの制約に対処し、非線形ICAを一般化するために、不完全性、部分空間性、ソース依存性、フレキシブルグルーピング構造といった一般的な設定における新しい識別可能性のセットを提案する。 具体的には、ソース(アンダーコンプリート)よりも多くの観測変数が存在する場合と、特定のスパース性および/またはソース独立性仮定が一部の変更ソースで満たされていない場合の識別可能性を証明する。 また,フレキシブルなグループ構造(例えば,ソースの一部が様々な大きさの既約独立群に分けられる)の場合であっても,適切な識別可能性の確立が可能であることを示す。 理論的な主張は、合成データと実世界のデータセットの両方で実証的にサポートされている。

Nonlinear independent component analysis (ICA) aims to uncover the true latent sources from their observable nonlinear mixtures. Despite its significance, the identifiability of nonlinear ICA is known to be impossible without additional assumptions. Recent advances have proposed conditions on the connective structure from sources to observed variables, known as Structural Sparsity, to achieve identifiability in an unsupervised manner. However, the sparsity constraint may not hold universally for all sources in practice. Furthermore, the assumptions of bijectivity of the mixing process and independence among all sources, which arise from the setting of ICA, may also be violated in many real-world scenarios. To address these limitations and generalize nonlinear ICA, we propose a set of new identifiability results in the general settings of undercompleteness, partial sparsity and source dependence, and flexible grouping structures. Specifically, we prove identifiability when there are more observed variables than sources (undercomplete), and when certain sparsity and/or source independence assumptions are not met for some changing sources. Moreover, we show that even in cases with flexible grouping structures (e.g., part of the sources can be divided into irreducible independent groups with various sizes), appropriate identifiability results can also be established. Theoretical claims are supported empirically on both synthetic and real-world datasets.
翻訳日:2023-11-03 15:28:17 公開日:2023-11-01
# 選択的共有体験はマルチエージェント強化学習を改善する

Selectively Sharing Experiences Improves Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2311.00865v1 )

ライセンス: Link先を確認
Matthias Gerstgrasser, Tom Danino, Sarah Keren(参考訳) エージェントを他のエージェントと共有し、トレーニング中に観察する遷移を限定的に行う、新しいマルチエージェントRL手法であるSelective Multi-Agent Prioritized Experience Relayを提案する。 この背景にある直感は、他のエージェントからの少数の関連する経験でさえ、各エージェントが学習するのに役立ちます。 他の多くのマルチエージェントRLアルゴリズムとは異なり、このアプローチはエージェント間の限られた通信チャネルのみを必要とする、主に分散トレーニングを可能にする。 提案手法は,非共有型分散トレーニングと最先端のマルチエージェントRLアルゴリズムより優れていることを示す。 さらに、エージェント間のすべての経験を共有することよりも、非常に関係性の高い経験の共有の方が優れており、選択された経験の共有によるパフォーマンス向上は、さまざまなハイパーパラメータとdqnのバリエーションにわたって堅牢である。 アルゴリズムのリファレンス実装はhttps://github.com/mgerstgrasser/super.comで利用可能です。

We present a novel multi-agent RL approach, Selective Multi-Agent Prioritized Experience Relay, in which agents share with other agents a limited number of transitions they observe during training. The intuition behind this is that even a small number of relevant experiences from other agents could help each agent learn. Unlike many other multi-agent RL algorithms, this approach allows for largely decentralized training, requiring only a limited communication channel between agents. We show that our approach outperforms baseline no-sharing decentralized training and state-of-the art multi-agent RL algorithms. Further, sharing only a small number of highly relevant experiences outperforms sharing all experiences between agents, and the performance uplift from selective experience sharing is robust across a range of hyperparameters and DQN variants. A reference implementation of our algorithm is available at https://github.com/mgerstgrasser/super.
翻訳日:2023-11-03 15:27:54 公開日:2023-11-01
# 言語モデルにおける文脈n-gramの学習ダイナミクス

Training Dynamics of Contextual N-Grams in Language Models ( http://arxiv.org/abs/2311.00863v1 )

ライセンス: Link先を確認
Lucia Quirke, Lovis Heindrich, Wes Gurnee, Neel Nanda(参考訳) 以前の研究は、ドイツ語のテキストで活性化するニューロンを含む言語モデルにおける文脈ニューロンの存在を示してきた。 このニューロンは、より広い文脈のn-gram回路内に存在し、ドイツのテキストに共通するn-gramを認識・継続する後期層ニューロンは、ドイツのニューロンがアクティブである場合にのみ活性化する。 この回路の形成をトレーニングを通して検討し,第2次回路と呼ぶものの一例であることを確認した。 特に、構成的n-gram回路と、訓練の早い段階で独立した機能を持つドイツニューロン形態で頂点に達するドイツ検出回路は、ドイツのユニグラム統計のモデル化による部分的検出回路と、適切な完了を促進するn-gram回路である。 両方の回路が既に形成されてから初めて、2階回路に適合する。 先行研究で示された仮説とは対照的に、突然の位相遷移よりも文脈的なn-gram回路が徐々に形成される。 さらに,学習速度のウォームアップと一致する多くのタスクにおける同時相転移などの異常な観察や,多くの文脈ニューロンがトレーニングの早い段階で同時に形成されるが、後に学習不能であることを示す。

Prior work has shown the existence of contextual neurons in language models, including a neuron that activates on German text. We show that this neuron exists within a broader contextual n-gram circuit: we find late layer neurons which recognize and continue n-grams common in German text, but which only activate if the German neuron is active. We investigate the formation of this circuit throughout training and find that it is an example of what we call a second-order circuit. In particular, both the constituent n-gram circuits and the German detection circuit which culminates in the German neuron form with independent functions early in training - the German detection circuit partially through modeling German unigram statistics, and the n-grams by boosting appropriate completions. Only after both circuits have already formed do they fit together into a second-order circuit. Contrary to the hypotheses presented in prior work, we find that the contextual n-gram circuit forms gradually rather than in a sudden phase transition. We further present a range of anomalous observations such as a simultaneous phase transition in many tasks coinciding with the learning rate warm-up, and evidence that many context neurons form simultaneously early in training but are later unlearned.
翻訳日:2023-11-03 15:27:37 公開日:2023-11-01
# BagPipe: 深層推奨モデルのトレーニングを加速する

BagPipe: Accelerating Deep Recommendation Model Training ( http://arxiv.org/abs/2202.12429v4 )

ライセンス: Link先を確認
Saurabh Agarwal, Chengpo Yan, Ziyi Zhang, Shivaram Venkataraman(参考訳) ディープラーニングベースのレコメンデーションモデル(DLRM)は、いくつかのビジネスクリティカルなアプリケーションで広く使われている。 このようなレコメンデーションモデルを効率的にトレーニングすることは、数十億の埋め込みベースのパラメータを含むため困難である。 DLRMトレーニングのために既存のシステムをプロファイリングすることにより、イテレーション時間の約75%が埋め込みアクセスとモデル同期に費やされていることが分かる。 この論文の重要な洞察は、組み込みアクセスはトレーニングを加速するために使用できる特定の構造を持っていることです。 組込みアクセスは偏りが強く,組込みアクセスの約1\%が総アクセスの92\%以上を表わす。 さらに、オフライントレーニングの間、将来のバッチを見て、将来のイテレーションでどの埋め込みが必要なのかを正確に判断することができます。 これらの知見に基づいて,キャッシュとプリフェッチを使用してリモート埋め込みアクセスと計算を重畳するディープレコメンデーションモデルをトレーニングするシステムであるBagpipeを開発した。 私たちはoracle cacherを設計しました。これはlookaheadアルゴリズムを使用して最適なキャッシュ更新決定を生成する新しいコンポーネントです。 また、論理的に複製され、物理的にパーティショニングされたキャッシュを設計し、分散環境での同期オーバーヘッドを低減することができることを示す。 最後に,システムアーキテクチャを分解し,低オーバヘッド耐障害性を実現することを提案する。 3つのデータセットと4つのモデルを用いて実験したところ、Bagpipeはアートベースラインの状態と比較して最大5.6倍の速度を提供し、同期トレーニングと同じ収束と再現性保証を提供する。

Deep learning based recommendation models (DLRM) are widely used in several business critical applications. Training such recommendation models efficiently is challenging because they contain billions of embedding-based parameters, leading to significant overheads from embedding access. By profiling existing systems for DLRM training, we observe that around 75\% of the iteration time is spent on embedding access and model synchronization. Our key insight in this paper is that embedding access has a specific structure which can be used to accelerate training. We observe that embedding accesses are heavily skewed, with around 1\% of embeddings representing more than 92\% of total accesses. Further, we observe that during offline training we can lookahead at future batches to determine exactly which embeddings will be needed at what iteration in the future. Based on these insights, we develop Bagpipe, a system for training deep recommendation models that uses caching and prefetching to overlap remote embedding accesses with the computation. We design an Oracle Cacher, a new component that uses a lookahead algorithm to generate optimal cache update decisions while providing strong consistency guarantees against staleness. We also design a logically replicated, physically partitioned cache and show that our design can reduce synchronization overheads in a distributed setting. Finally, we propose a disaggregated system architecture and show that our design can enable low-overhead fault tolerance. Our experiments using three datasets and four models show that Bagpipe provides a speed up of up to 5.6x compared to state of the art baselines, while providing the same convergence and reproducibility guarantees as synchronous training.
翻訳日:2023-11-02 18:54:25 公開日:2023-11-01
# エピソード強化学習における破壊・破壊探索

Corruption-robust exploration in episodic reinforcement learning ( http://arxiv.org/abs/1911.08689v4 )

ライセンス: Link先を確認
Thodoris Lykouris, Max Simchowitz, Aleksandrs Slivkins, Wen Sun(参考訳) 本研究は, 確率的バンディットの特殊症例に対する近年の成績を延ばし, 報酬とシステム移行可能性の両方において, 逆行的汚職下での多段階強化学習を創始する。 我々は,「不確実性に直面した最適主義」に基づいて,既存の強化学習アプローチによる積極的な探索を「行動排除」の原則で補完する枠組みを提供する。 重要なことは、我々のフレームワークは、我々が示している下限によって定式化されているように、RL設定に行動排除を鼻で適用することによって生じる大きな課題を回避している。 我々のフレームワークは効率的なアルゴリズムを (a)腐敗の欠如により、ほぼ最適の後悔を得る b) 未知のレベルの腐敗に適応し、遭遇した全体の腐敗において優雅に低下する後悔の保証を享受する。 このアプローチの汎用性を示すために、表的な設定(状態とアクションは有限)と線形関数近似設定(ダイナミクスと報酬が線形基底表現を許容する)の両方の結果を導出する。 特に,本研究は,根治的強化学習のためのBandit-Feedbackモデルにおける純粋I.d.遷移の偏差を許容する,最初のサブ線形後悔保証を提供する。

We initiate the study of multi-stage episodic reinforcement learning under adversarial corruptions in both the rewards and the transition probabilities of the underlying system extending recent results for the special case of stochastic bandits. We provide a framework which modifies the aggressive exploration enjoyed by existing reinforcement learning approaches based on "optimism in the face of uncertainty", by complementing them with principles from "action elimination". Importantly, our framework circumvents the major challenges posed by naively applying action elimination in the RL setting, as formalized by a lower bound we demonstrate. Our framework yields efficient algorithms which (a) attain near-optimal regret in the absence of corruptions and (b) adapt to unknown levels corruption, enjoying regret guarantees which degrade gracefully in the total corruption encountered. To showcase the generality of our approach, we derive results for both tabular settings (where states and actions are finite) as well as linear-function-approximation settings (where the dynamics and rewards admit a linear underlying representation). Notably, our work provides the first sublinear regret guarantee which accommodates any deviation from purely i.i.d. transitions in the bandit-feedback model for episodic reinforcement learning.
翻訳日:2023-11-02 18:53:13 公開日:2023-11-01
# 確率勾配Descenceにおけるモデルパラメータの統計的推測

Statistical Inference for Model Parameters in Stochastic Gradient Descent ( http://arxiv.org/abs/1610.08637v4 )

ライセンス: Link先を確認
Xi Chen and Jason D. Lee and Xin T. Tong and Yichen Zhang(参考訳) 確率勾配降下 (sgd) アルゴリズムは, 計算効率とメモリ効率から, 大規模データの統計的推定に広く用いられている。 既存の研究の多くは目的関数の収束や得られた解の誤差に重点を置いているが、SGDに基づく真のモデルパラメータの統計的推測は、人口減少関数が強い凸であり、ある滑らかさ条件を満たすときに問題となる。 私たちの主な貢献は2つです。 まず, 固定次元設定において, sgdからの平均イテレートの漸近共分散について, (1) プラグイン推定器, (2) バッチ平均推定器, 計算効率が高く, sgdからのイテレートのみを使用する2つの一貫した推定器を提案する。 どちらの推定器も漸近的に正確な信頼区間と仮説テストを構築することができる。 第二に、高次元線形回帰に対して、SGDアルゴリズムの変種を用いて、漸近的に正規な各回帰係数の偏差推定器を構築する。 これにより、スパース回帰係数と信頼区間の両方を計算し、オンラインデータに適用できる1パスのアルゴリズムが提供される。

The stochastic gradient descent (SGD) algorithm has been widely used in statistical estimation for large-scale data due to its computational and memory efficiency. While most existing works focus on the convergence of the objective function or the error of the obtained solution, we investigate the problem of statistical inference of true model parameters based on SGD when the population loss function is strongly convex and satisfies certain smoothness conditions. Our main contributions are two-fold. First, in the fixed dimension setup, we propose two consistent estimators of the asymptotic covariance of the average iterate from SGD: (1) a plug-in estimator, and (2) a batch-means estimator, which is computationally more efficient and only uses the iterates from SGD. Both proposed estimators allow us to construct asymptotically exact confidence intervals and hypothesis tests. Second, for high-dimensional linear regression, using a variant of the SGD algorithm, we construct a debiased estimator of each regression coefficient that is asymptotically normal. This gives a one-pass algorithm for computing both the sparse regression coefficients and confidence intervals, which is computationally attractive and applicable to online data.
翻訳日:2023-11-02 18:52:43 公開日:2023-11-01
# SegAugment: セグメンテーションによる音声翻訳データの有用性の最大化

SegAugment: Maximizing the Utility of Speech Translation Data with Segmentation-based Augmentations ( http://arxiv.org/abs/2212.09699v3 )

ライセンス: Link先を確認
Ioannis Tsiamas, Jos\'e A. R. Fonollosa, Marta R. Costa-juss\`a(参考訳) エンドツーエンドの音声翻訳は、利用可能なデータリソースの不足によって妨げられます。 その多くは文書に基づいているが、文レベルのバージョンが利用可能であり、単一かつ静的であり、データの有用性を阻害する可能性がある。 我々は、データセットの複数の代替文レベルバージョンを生成することにより、この問題に対処する新しいデータ拡張戦略であるSegAugmentを提案する。 本手法では,各文書の音声を異なる長さ制約で再セグメント化する音声セグメンテーションシステムを用いて,アライメント手法により対象テキストを取得する。 実験では、MST-Cの8つの言語ペアで一貫したゲインを示し、平均2.5BLEUポイント、mTEDxの低リソースシナリオでは最大5BLEUが増加した。 さらに、強力なシステムと組み合わせると、SegAugment は MuST-C で新しい最先端の結果を確立する。 最後に,提案手法は文レベルデータセットの強化にも成功し,音声翻訳モデルにより推論時に手動と自動セグメンテーションのギャップを埋めることができることを示す。

End-to-end Speech Translation is hindered by a lack of available data resources. While most of them are based on documents, a sentence-level version is available, which is however single and static, potentially impeding the usefulness of the data. We propose a new data augmentation strategy, SegAugment, to address this issue by generating multiple alternative sentence-level versions of a dataset. Our method utilizes an Audio Segmentation system, which re-segments the speech of each document with different length constraints, after which we obtain the target text via alignment methods. Experiments demonstrate consistent gains across eight language pairs in MuST-C, with an average increase of 2.5 BLEU points, and up to 5 BLEU for low-resource scenarios in mTEDx. Furthermore, when combined with a strong system, SegAugment establishes new state-of-the-art results in MuST-C. Finally, we show that the proposed method can also successfully augment sentence-level datasets, and that it enables Speech Translation models to close the gap between the manual and automatic segmentation at inference time.
翻訳日:2023-11-02 18:48:54 公開日:2023-11-01
# コンダクタンスの超ボール的スケーリングの環境支援

Environment assisted superballistic scaling of conductance ( http://arxiv.org/abs/2208.04269v2 )

ライセンス: Link先を確認
Madhumita Saha, Bijay Kumar Agarwalla, Manas Kulkarni and Archak Purkayastha(参考訳) 周辺環境からの弱い非一貫性効果が存在する場合,近傍の密結合鎖の温度コンダクタンスゼロは,バンドエッジにおける系長の直観的パワーロー成長を示し,超ボール的スケーリングを示す。 この魅力的な環境は、系長の有限だが拡張された状態において、超ボール的導電率のスケーリングを補助する。 このスケーリング機構は、周囲の環境との結合を小さくすることで体系的に拡張することができる。 孤立したシステムに対して、このような振る舞いの類似性はない。 この超ボール的スケーリングは、周囲の環境からの複雑な不整合効果の相互作用と、各バンドエッジで発生するシステムの伝達行列の例外的な点に由来する。

We find that, in the presence of weak incoherent effects from surrounding environments, the zero temperature conductance of nearest neighbour tight-binding chains exhibits a counter-intuitive power-law growth with system length at band-edges, indicating superballistic scaling. This fascinating environment assisted superballistic scaling of conductance occurs over a finite but extended regime of system lengths. This scaling regime can be systematically expanded by decreasing the coupling to the surrounding environments. There is no corresponding analog of this behavior for isolated systems. This superballistic scaling stems from an intricate interplay of incoherent effects from surrounding environments and exceptional points of the system's transfer matrix that occur at every band-edge.
翻訳日:2023-11-02 18:48:36 公開日:2023-11-01
# 公平な機械学習のための因果関係の必要性と適用性について

On the Need and Applicability of Causality for Fair Machine Learning ( http://arxiv.org/abs/2207.04053v2 )

ライセンス: Link先を確認
R\=uta Binkyt\.e, Ljupcho Grozdanovski, Sami Zhioua(参考訳) 疫学、政治学、社会科学における一般的なユースケースに加えて、因果関係は法的な意味でも日常的にも自動決定の公平性を評価する上で重要であることが判明した。 因果関係が公平性評価に特に重要である理由について、議論や例を挙げる。 特に,非因果的予測の社会的影響と,因果的主張に依存する法的差別防止過程を指摘する。 結論として,実用シナリオと可能なソリューションにおける因果性適用の課題と限界について論じた。

Besides its common use cases in epidemiology, political, and social sciences, causality turns out to be crucial in evaluating the fairness of automated decisions, both in a legal and everyday sense. We provide arguments and examples, of why causality is particularly important for fairness evaluation. In particular, we point out the social impact of non-causal predictions and the legal anti-discrimination process that relies on causal claims. We conclude with a discussion about the challenges and limitations of applying causality in practical scenarios as well as possible solutions.
翻訳日:2023-11-02 18:48:21 公開日:2023-11-01
# フロッケ回路の位相欠陥

Topological Defects in Floquet Circuits ( http://arxiv.org/abs/2206.06272v2 )

ライセンス: Link先を確認
Mao Tian Tan, Yifan Wang and Aditi Mitra(参考訳) トポロジカルな欠陥を持つ駆動Ising鎖を記述するFloquet回路を導入する。 対応するゲートはスピンを反転する欠陥と、クラマース・ワニエ双対変換を明示的に実装する双対性欠陥を含む。 フロッケユニタリ進化作用素はそのような欠陥で可換であるが、双対性欠陥は状態の半分を射出するためユニタリではない。 これらの欠陥の応用は2つある。 1つは、システムの周りに広がる「空間的」欠陥の存在下での戻り振幅を分析することである。 我々は、戻り振幅が欠陥の融合規則と一致していることを明確に検証する。 第二の応用は、反周期的・双対的境界条件を実装する「時間的」欠陥の存在下でのユニタリ進化を研究することである。 後者の場合、単一の未ペアローカライズされたMajorana 0 モードが現れることを示す。 我々は、このFloquet回路の対称性として機能する演算子を明示的に構成する。 また, 複数箇所のシステムに対して, 一つの時間ステップで絡み合いエントロピーの解析式を, 上記のすべての欠陥構成に対して提示する。

We introduce a Floquet circuit describing the driven Ising chain with topological defects. The corresponding gates include a defect that flips spins as well as the duality defect that explicitly implements the Kramers-Wannier duality transformation. The Floquet unitary evolution operator commutes with such defects, but the duality defect is not unitary, as it projects out half the states. We give two applications of these defects. One is to analyze the return amplitudes in the presence of "space-like" defects stretching around the system. We verify explicitly that the return amplitudes are in agreement with the fusion rules of the defects. The second application is to study unitary evolution in the presence of "time-like" defects that implement anti-periodic and duality-twisted boundary conditions. We show that a single unpaired localized Majorana zero mode appears in the latter case. We explicitly construct this operator, which acts as a symmetry of this Floquet circuit. We also present analytic expressions for the entanglement entropy after a single time step for a system of a few sites, for all of the above defect configurations.
翻訳日:2023-11-02 18:47:50 公開日:2023-11-01
# マルコフポテンシャルゲームにおける独立学習と分散学習

Independent and Decentralized Learning in Markov Potential Games ( http://arxiv.org/abs/2205.14590v5 )

ライセンス: Link先を確認
Chinmay Maheshwari and Manxi Wu and Druv Pai and Shankar Sastry(参考訳) マルチエージェント強化学習ダイナミックスを提案し、無限水平割引マルコフポテンシャルゲームにおける収束解析を行う。 我々は、プレイヤーがゲームモデルに関する知識を持っておらず、協調できない独立的で分散的な設定に焦点を当てる。 各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの総入金額を評価するQ関数の推定値を非同期に更新する。 そして、推定されたq関数に基づいて最適な一段階偏差戦略を組み込むことで、プレイヤーのポリシーを独立に更新する。 学習ダイナミクスの重要な特徴は、q関数の見積もりがポリシーよりも高速なタイムスケールで更新されることです。 学習力学によって引き起こされるポリシーは確率1のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。 本研究は,最小限の情報しか得られない環境でも定常ナッシュ平衡のセットに到達できる単純な学習ダイナミクスの有効性を浮き彫りにする。

We propose a multi-agent reinforcement learning dynamics, and analyze its convergence in infinite-horizon discounted Markov potential games. We focus on the independent and decentralized setting, where players do not have knowledge of the game model and cannot coordinate. In each stage, players update their estimate of Q-function that evaluates their total contingent payoff based on the realized one-stage reward in an asynchronous manner. Then, players independently update their policies by incorporating an optimal one-stage deviation strategy based on the estimated Q-function. A key feature of the learning dynamics is that the Q-function estimates are updated at a faster timescale than the policies. We prove that the policies induced by our learning dynamics converge to the set of stationary Nash equilibria in Markov potential games with probability 1. Our results highlight the efficacy of simple learning dynamics in reaching to the set of stationary Nash equilibrium even in environments with minimal information available.
翻訳日:2023-11-02 18:47:34 公開日:2023-11-01
# ChiTransformer:キューから信頼性の高いステレオへ

ChiTransformer:Towards Reliable Stereo from Cues ( http://arxiv.org/abs/2203.04554v4 )

ライセンス: Link先を確認
Qing Su, Shihao Ji(参考訳) 現在のステレオマッチング技術は、制限された探索空間、隠蔽領域、およびせん断サイズによって挑戦される。 単一画像深度推定はこれらの課題から回避され、抽出された単眼手がかりで満足な結果が得られるが、立体的関係の欠如は単眼予測の信頼性を低下させる。 そこで本研究では,視覚トランスフォーマ(vit)とゲート位置クロスアテンション(gpca)層を併用した視覚トランスフォーマ(vit)を用いて,自己アテンションによって集約された広義のコンテキスト情報を保持しつつ,画像間の特徴に敏感なパターン検索を可能にする。 その後、取得したパターン対とのブレンディング層により、単一のビューからの単眼的手がかりを条件的に修正する。 このクロスオーバーデザインは、人間の視覚系における視カオス構造と生物学的に類似しており、それゆえchitransformerという名前である。 実験により,本アーキテクチャは最先端の自己教師型ステレオアプローチよりも11%向上し,リチリニアおよび非直立線形(魚眼など)の画像でも使用できることがわかった。 プロジェクトはhttps://github.com/isl-cv/chitransformerで入手できる。

Current stereo matching techniques are challenged by restricted searching space, occluded regions and sheer size. While single image depth estimation is spared from these challenges and can achieve satisfactory results with the extracted monocular cues, the lack of stereoscopic relationship renders the monocular prediction less reliable on its own, especially in highly dynamic or cluttered environments. To address these issues in both scenarios, we present an optic-chiasm-inspired self-supervised binocular depth estimation method, wherein a vision transformer (ViT) with gated positional cross-attention (GPCA) layers is designed to enable feature-sensitive pattern retrieval between views while retaining the extensive context information aggregated through self-attentions. Monocular cues from a single view are thereafter conditionally rectified by a blending layer with the retrieved pattern pairs. This crossover design is biologically analogous to the optic-chasma structure in the human visual system and hence the name, ChiTransformer. Our experiments show that this architecture yields substantial improvements over state-of-the-art self-supervised stereo approaches by 11%, and can be used on both rectilinear and non-rectilinear (e.g., fisheye) images. Project is available at https://github.com/ISL-CV/ChiTransformer.
翻訳日:2023-11-02 18:47:20 公開日:2023-11-01
# パッチに基づく画像編集のための確率的注意

Patch-Based Stochastic Attention for Image Editing ( http://arxiv.org/abs/2202.03163v4 )

ライセンス: Link先を確認
Nicolas Cherel, Andr\'es Almansa, Yann Gousseau, Alasdair Newson(参考訳) 近年,深層学習において注意のメカニズムが重要になっている。 これらの非ローカルな操作は、画像処理における従来のパッチベースの方法に似ているが、局所的な畳み込みを補完する。 しかしながら、フルアテンション行列の計算は、重いメモリと計算負荷を伴う高価なステップである。 これらの制限は、特に高解像度画像の場合、ネットワークアーキテクチャとパフォーマンスを阻害する。 本稿では,近距離近傍の確率的アルゴリズムであるpatchmatchに基づく効率的な注意層を提案する。 我々は提案したレイヤを「パッチベースの確率的注意層(PSAL)」と呼ぶ。 さらに、パッチアグリゲーションに基づく異なるアプローチを提案し、PSALの差別性を確保することにより、我々の層を含むネットワークのエンドツーエンドトレーニングを可能にする。 PSALはメモリフットプリントが小さいため、高解像度の画像にスケールできる。 このフットプリントは、近接する隣人の空間的正確性とグローバル性を犠牲にすることなく維持されるため、浅いレベルであっても、あらゆるレベルの深層アーキテクチャに容易に挿入することができる。 画像インペイント, ガイド画像のカラー化, シングルイメージ超解像など, 画像編集作業におけるPSALの有用性を示す。 私たちのコードは、https://github.com/ncherel/psalで利用可能です。

Attention mechanisms have become of crucial importance in deep learning in recent years. These non-local operations, which are similar to traditional patch-based methods in image processing, complement local convolutions. However, computing the full attention matrix is an expensive step with heavy memory and computational loads. These limitations curb network architectures and performances, in particular for the case of high resolution images. We propose an efficient attention layer based on the stochastic algorithm PatchMatch, which is used for determining approximate nearest neighbors. We refer to our proposed layer as a "Patch-based Stochastic Attention Layer" (PSAL). Furthermore, we propose different approaches, based on patch aggregation, to ensure the differentiability of PSAL, thus allowing end-to-end training of any network containing our layer. PSAL has a small memory footprint and can therefore scale to high resolution images. It maintains this footprint without sacrificing spatial precision and globality of the nearest neighbors, which means that it can be easily inserted in any level of a deep architecture, even in shallower levels. We demonstrate the usefulness of PSAL on several image editing tasks, such as image inpainting, guided image colorization, and single-image super-resolution. Our code is available at: https://github.com/ncherel/psal
翻訳日:2023-11-02 18:46:54 公開日:2023-11-01
# 初期量子信号プロセッサのフラクメンテッド想像時間進化

Fragmented imaginary-time evolution for early-stage quantum signal processors ( http://arxiv.org/abs/2110.13180v4 )

ライセンス: Link先を確認
Thais de Lima Silva, M\'arcio M. Taddei, Stefano Carrazza, and Leandro Aolita(参考訳) qite(quantum imaginary time evolution)は、量子計算の大きな期待値である。 しかし、既知のアルゴリズムは確率的(成功まで繰り返す)であり、急激な成功確率またはコヒーレント(量子振幅増幅)を持つが、回路深さと補助量子ビット数は中期的に非現実的に大きい。 我々の主な貢献は、決定論的で高精度なQITEアルゴリズムの新世代である。 これらは驚くほど単純なアイデアに基づいている:進化を、確率的に順次実行されるいくつかの断片に分割する。 これにより、ランが失敗するたびに無駄な回路深さが大幅に減少する。 実際、結果として得られるランタイムは、コヒーレントなアプローチよりも漸近的に優れており、ハードウェア要件は、確率的なアプローチよりも驚くほど穏やかである。 より技術的には、複雑なスケーリングに優れた2つのqite-circuitサブルーチンを示す。 そのうちの1つは、副量子ビットのオーバーヘッド(1つの副量子ビット全体)で最適であり、もう1つは、小さな逆温度または高精度で実行時に最適である。 後者は、ランタイムが、我々が証明した、リアルタイムシミュレーションの高速フォワーディング定理の虚数時間に対応する、冷却速度制限を飽和させることで示される。 さらに,量子信号処理の形式化に2つの技術的貢献を行い,qite を超越した演算子関数合成(サブルーチンがベースとなる)を行った。 本研究は,量子ハードウェアの早期耐故障性に特に関係している。

Simulating quantum imaginary-time evolution (QITE) is a major promise of quantum computation. However, the known algorithms are either probabilistic (repeat until success) with impractically small success probabilities or coherent (quantum amplitude amplification) but with circuit depths and ancillary-qubit numbers unrealistically large in the mid term. Our main contribution is a new generation of deterministic, high-precision QITE algorithms significantly more amenable experimentally. These are based on a surprisingly simple idea: partitioning the evolution into several fragments that are sequentially run probabilistically. This causes a huge reduction in wasted circuit depth every time a run fails. Indeed, the resulting overall runtime is asymptotically better than in coherent approaches and the hardware requirements even milder than in probabilistic ones, remarkably. More technically, we present two QITE-circuit sub-routines with excellent complexity scalings. One of them is optimal in ancillary-qubit overhead (one single ancillary qubit throughout) whereas the other one is optimal in runtime for small inverse temperature or high precision. The latter is shown by noting that the runtime saturates a cooling-speed limit that is the imaginary-time counterpart of the no fast-forwarding theorem of real-time simulations, which we prove. Moreover, we also make two technical contributions to the quantum signal processing formalism for operator-function synthesis (on which our sub-routines are based) that are useful beyond QITE. Our findings are specially relevant for the early fault-tolerance stages of quantum hardware.
翻訳日:2023-11-02 18:46:32 公開日:2023-11-01
# オフライン強化学習における偽相関低減

False Correlation Reduction for Offline Reinforcement Learning ( http://arxiv.org/abs/2110.12468v3 )

ライセンス: Link先を確認
Zhihong Deng, Zuyue Fu, Lingxiao Wang, Zhuoran Yang, Chenjia Bai, Tianyi Zhou, Zhaoran Wang, Jing Jiang(参考訳) オフライン強化学習(RL)は、シーケンシャルな決定問題の解決に大量のデータセットのパワーを利用する。 既存の論文のほとんどは、より広い問題、認識の不確実性と意思決定の誤った相関について調査しながら、分散(ood)行動に対する防御についてのみ論じている。 本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe COrrelation Reduction(SCORE)を提案する。 SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。 提案アルゴリズムでは,非最適性から偽相関を排除し,高品質な不確実性推定を支援するため,アニーリング動作クローニング正則化器を導入している。 理論的には,提案手法の合理性を正当化し,その最適方針への収束を軽度仮定下でサブリニアレートで証明する。

Offline reinforcement learning (RL) harnesses the power of massive datasets for resolving sequential decision problems. Most existing papers only discuss defending against out-of-distribution (OOD) actions while we investigate a broader issue, the false correlations between epistemic uncertainty and decision-making, an essential factor that causes suboptimality. In this paper, we propose falSe COrrelation REduction (SCORE) for offline RL, a practically effective and theoretically provable algorithm. We empirically show that SCORE achieves the SoTA performance with 3.1x acceleration on various tasks in a standard benchmark (D4RL). The proposed algorithm introduces an annealing behavior cloning regularizer to help produce a high-quality estimation of uncertainty which is critical for eliminating false correlations from suboptimality. Theoretically, we justify the rationality of the proposed method and prove its convergence to the optimal policy with a sublinear rate under mild assumptions.
翻訳日:2023-11-02 18:46:09 公開日:2023-11-01
# 一般非凸凸ミニマックス問題に対する微分自由交互射影アルゴリズム

Derivative-free Alternating Projection Algorithms for General Nonconvex-Concave Minimax Problems ( http://arxiv.org/abs/2108.00473v4 )

ライセンス: Link先を確認
Zi Xu, Ziqi Wang, Jingjing Shen, Yuhong Dai(参考訳) 本稿では,近年,機械学習,信号処理,その他多くの分野で注目されている非凸凹ミニマックス問題に対するゼロ次アルゴリズムについて検討する。 我々は,滑らかな非凸凸凸ミニマックス問題に対するゼロ次交互ランダム勾配投影(zo-agp)アルゴリズムを提案し,その反復複雑性から$\varepsilon$-stationary point を得るには$\mathcal{o}(\varepsilon^{-4})$ を条件とし,関数値推定の回数を$\mathcal{o}(d_{x}+d_{y})$ とする。 さらに,ブロック方向非滑らかな非凸凸凸型ミニマックス最適化問題を解くために,ゼロ次ブロック交互なランダムな近位勾配アルゴリズム (zo-bapg) を提案し,$\varepsilon$-stationary point を得るための反復複雑性を$\mathcal{o}(\varepsilon^{-4})$ で制限し,各イテレーション当たりの関数値推定数は$\mathcal{o}(k d_{x}+d_{y})$で制限する。 我々の知る限りでは、一般にスムーズかつブロックワイズ非滑らかな非凸凹極小問題を解くため、反復複雑性を保証したゼロ階アルゴリズムが開発されたのはこれが初めてである。 データ中毒攻撃問題と分散非凸スパース主成分分析問題に関する数値結果は,提案アルゴリズムの有効性を検証する。

In this paper, we study zeroth-order algorithms for nonconvex-concave minimax problems, which have attracted widely attention in machine learning, signal processing and many other fields in recent years. We propose a zeroth-order alternating randomized gradient projection (ZO-AGP) algorithm for smooth nonconvex-concave minimax problems, and its iteration complexity to obtain an $\varepsilon$-stationary point is bounded by $\mathcal{O}(\varepsilon^{-4})$, and the number of function value estimation is bounded by $\mathcal{O}(d_{x}+d_{y})$ per iteration. Moreover, we propose a zeroth-order block alternating randomized proximal gradient algorithm (ZO-BAPG) for solving block-wise nonsmooth nonconvex-concave minimax optimization problems, and the iteration complexity to obtain an $\varepsilon$-stationary point is bounded by $\mathcal{O}(\varepsilon^{-4})$ and the number of function value estimation per iteration is bounded by $\mathcal{O}(K d_{x}+d_{y})$. To the best of our knowledge, this is the first time that zeroth-order algorithms with iteration complexity gurantee are developed for solving both general smooth and block-wise nonsmooth nonconvex-concave minimax problems. Numerical results on data poisoning attack problem and distributed nonconvex sparse principal component analysis problem validate the efficiency of the proposed algorithms.
翻訳日:2023-11-02 18:45:50 公開日:2023-11-01
# Likelihood-Free Frequentist Inference: シミュレータに基づく推論における古典統計と機械学習のブリッジング

Likelihood-Free Frequentist Inference: Bridging Classical Statistics and Machine Learning in Simulator-Based Inference ( http://arxiv.org/abs/2107.03920v7 )

ライセンス: Link先を確認
Niccol\`o Dalmasso, Luca Masserano, David Zhao, Rafael Izbicki, Ann B. Lee(参考訳) 科学の多くの分野は、複雑なシステムの難解な可能性関数を暗黙的にエンコードするコンピュータシミュレータを多用している。 古典的な統計手法は、いわゆる「可能性のない推論(LFI)」設定、特に漸近的および低次元のレジームの外では不適当である。 同時に、近似ベイズ計算やより最近の機械学習手法のような従来のLFI手法は、一般的な設定(高次元データ、有限サンプルサイズ、真のパラメータ値に関わらず)において、命名的カバレッジを持つ信頼セットを保証しない。 さらに、パラメータ空間全体にわたってそのような手法によって提供される信頼セットの実証的カバレッジを確認するための実用的な診断ツールも存在しない。 本研究では,古典統計学と現代機械学習を橋渡しする新しい枠組みを提案する。 i) 未知のパラメータの任意の値に対する頻繁な有限サンプルカバレッジを持つ信頼集合のナイマン構成に対する実用的でモジュール的で効率的なアプローチ。 (ii)パラメータ空間全体にわたる経験的カバレッジを推定する解釈可能な診断ツール。 一般のフレームワークを、LF2I ( chance-free frequentist inference) と呼ぶ。 テスト統計を定義する任意のメソッドはLF2Iを利用して、固定パラメータ設定のモンテカルロサンプルを犠牲にすることなく、有効な信頼セットと診断を作成することができる。 本研究では,2つの確率ベーステスト統計(ACOREとBFF)のパワーについて検討し,実験結果の検証を行った。

Many areas of science make extensive use of computer simulators that implicitly encode intractable likelihood functions of complex systems. Classical statistical methods are poorly suited for these so-called likelihood-free inference (LFI) settings, especially outside asymptotic and low-dimensional regimes. At the same time, traditional LFI methods - such as Approximate Bayesian Computation or more recent machine learning techniques - do not guarantee confidence sets with nominal coverage in general settings (i.e., with high-dimensional data, finite sample sizes, and regardless of the true parameter value). In addition, there are no practical diagnostic tools to check the empirical coverage of confidence sets provided by such methods across the entire parameter space. In this work, we propose a novel framework that bridges classical statistics and modern machine learning into (i) a practical, modular and efficient approach to the Neyman construction of confidence sets with frequentist finite-sample coverage for any value of the unknown parameters; and (ii) an interpretable diagnostic tool that estimates the empirical coverage across the entire parameter space. We refer to the general framework as likelihood-free frequentist inference (LF2I). Any method that defines a test statistic can leverage LF2I to create valid confidence sets and diagnostics without costly Monte Carlo samples at fixed parameter settings. We study the power of two likelihood-based test statistics (ACORE and BFF) and validate their empirical performance on several experimental settings.
翻訳日:2023-11-02 18:45:16 公開日:2023-11-01
# 観測不能因果ループの量子力学的概念とアントロピック原理

The quantum mechanical notion of unobservable causal loop and the anthropic principle ( http://arxiv.org/abs/2103.03173v2 )

ライセンス: Link先を確認
Giuseppe Castagnoli(参考訳) 2つの1対1の相関した測定結果の間の可逆的量子過程の通常の記述は、因果関係の方向を規定しないことで、可逆的過程に必要な時間対称性に反する因果構造が許されるため不完全である。 これはまた、単に時間対称性化することで完了できることを意味する。すなわち、最初の測定値と最後の測定値が、それらの相関した結果の選択に均等に寄与することを要求することである。 これは説明を変更せずに残すが、因果構造が完全に定義される観測不能な時間対称性のインスタンスの量子重ね合わせであることを示している。 それぞれのインスタンスは因果ループで構成されている:最後の測定は、単位変換の入力状態がその直前の状態につながるときに後方に変化する。 前者の研究では、そのようなループが量子計算のスピードアップと量子非局所性を正確に説明できることが示されている。 この研究で、量子スピードアップを伴う宇宙の進化を可能にする人類の原理の完成につながることを示した。

It can be argued that the ordinary description of the reversible quantum process between two one-to-one correlated measurement outcomes is incomplete because, by not specifying the direction of causality, it allows causal structures that violate the time symmetry that is required of a reversible process. This also means that it can be completed simply by time-symmetrizing it, namely by requiring that the initial and final measurements evenly contribute to the selection of their correlated pair of outcomes. This leaves the description unaltered but shows that it is the quantum superposition of unobservable time-symmetrized instances whose causal structure is completely defined. Each instance consists of a causal loop: the final measurement that changes backwards in time the input state of the unitary transformation that leads to the state immediately before it. In former works, we have shown that such loops exactly explain the quantum computational speedup and quantum nonlocality. In this work we show that they lead to a completion of the anthropic principle that allows a universe evolution with quantum speedup.
翻訳日:2023-11-02 18:44:49 公開日:2023-11-01
# 制約付きオンライン2段階確率最適化:逆学習による近似アルゴリズム

Constrained Online Two-stage Stochastic Optimization: Near Optimal Algorithms via Adversarial Learning ( http://arxiv.org/abs/2302.00997v3 )

ライセンス: Link先を確認
Jiashuo Jiang(参考訳) 有限地平線上の長期制約付きオンライン2段階確率最適化をT$周期で検討する。 各期間において、第一段階のアクションをとり、モデルパラメータの実現を観察し、第一段階の決定とモデルパラメータの両方に依存する実行可能セットから第二段階のアクションを取る。 我々は,長期平均2段階決定が集合に属することを保証しながら,累積目標値の最小化を目指す。 対戦型学習アルゴリズムからオンライン二段階問題のオンラインアルゴリズムを開発する。 また、我々のアルゴリズムカムの後悔の限界は、組込み逆学習アルゴリズムの後悔の限界に還元される。 フレームワークに基づいて、さまざまな設定で新しい結果を得る。 それぞれの周期におけるモデルパラメータが同じ分布から引き出されるとき、特別な場合において以前の境界を改善するために \textit{state-of-art} $O(\sqrt{T})$ regret を導出する。 このアルゴリズムはモデルパラメータ実現の逆破壊にも頑健である。 モデルパラメータが未知の非定常分布から引き出され、その分布の機械学習予測が与えられたとき、我々はこのフレームワークから新たなアルゴリズムを開発し、後悔する$o(w_t+\sqrt{t})$、ここで$w_t$は機械学習予測の完全な不正確性を測定する。

We consider an online two-stage stochastic optimization with long-term constraints over a finite horizon of $T$ periods. At each period, we take the first-stage action, observe a model parameter realization and then take the second-stage action from a feasible set that depends both on the first-stage decision and the model parameter. We aim to minimize the cumulative objective value while guaranteeing that the long-term average second-stage decision belongs to a set. We develop online algorithms for the online two-stage problem from adversarial learning algorithms. Also, the regret bound of our algorithm cam be reduced to the regret bound of embedded adversarial learning algorithms. Based on our framework, we obtain new results under various settings. When the model parameter at each period is drawn from identical distributions, we derive \textit{state-of-art} $O(\sqrt{T})$ regret that improves previous bounds under special cases. Our algorithm is also robust to adversarial corruptions of model parameter realizations. When the model parameters are drawn from unknown non-stationary distributions and we are given machine-learned predictions of the distributions, we develop a new algorithm from our framework with a regret $O(W_T+\sqrt{T})$, where $W_T$ measures the total inaccuracy of the machine-learned predictions.
翻訳日:2023-11-02 18:36:03 公開日:2023-11-01
# 学習型自動プログラム修復に関する調査

A Survey of Learning-based Automated Program Repair ( http://arxiv.org/abs/2301.03270v3 )

ライセンス: Link先を確認
Quanjun Zhang, Chunrong Fang, Yuxiang Ma, Weisong Sun, Zhenyu Chen(参考訳) 自動プログラム修復(APR)は、ソフトウェアバグを自動修正することを目的としており、ソフトウェア開発とメンテナンスにおいて重要な役割を果たす。 近年のディープラーニング(DL)の進歩により、ニューラルネットワークを活用して大規模なオープンソースコードリポジトリからバグフィックスパターンを学ぶためのAPR技術が増えている。 このような学習ベースの技術は通常、APRをニューラルネットワーク翻訳(NMT)タスクとして扱い、バグの多いコードスニペット(ソースコード言語)が自動的に固定コードスニペット(ターゲット言語)に変換される。 従来のバグ修正データセットから隠れた関係を学習するDLの強力な能力から、学習ベースのAPR技術は素晴らしいパフォーマンスを実現しました。 本稿では,学習型APRコミュニティにおける最先端研究を要約する体系的な調査を行う。 学習ベースのapr手法の一般的なワークフローを説明し,障害のローカライズ,パッチ生成,パッチランキング,パッチ検証,パッチ修正フェーズなど,重要なコンポーネントを詳述する。 次に、広く採用されているデータセットと評価メトリクスを議論し、既存の実証研究の概要を概説する。 本稿では, 修復領域, 産業展開, オープンサイエンス問題など, 学習ベースAPR技術のいくつかの重要な側面について論じる。 我々は、将来のAPR研究にDL技術を適用するための実践的ガイドラインをいくつか強調する。 本稿は,既存の学習ベースAPR技術の成果を総合的に理解し,これらの手法の実践的応用を促進する上で有効である。 私たちのアーティファクトは、 \url{https://github.com/QuanjunZhang/AwesomeLearningAPR}で公開されています。

Automated program repair (APR) aims to fix software bugs automatically and plays a crucial role in software development and maintenance. With the recent advances in deep learning (DL), an increasing number of APR techniques have been proposed to leverage neural networks to learn bug-fixing patterns from massive open-source code repositories. Such learning-based techniques usually treat APR as a neural machine translation (NMT) task, where buggy code snippets (i.e., source language) are translated into fixed code snippets (i.e., target language) automatically. Benefiting from the powerful capability of DL to learn hidden relationships from previous bug-fixing datasets, learning-based APR techniques have achieved remarkable performance. In this paper, we provide a systematic survey to summarize the current state-of-the-art research in the learning-based APR community. We illustrate the general workflow of learning-based APR techniques and detail the crucial components, including fault localization, patch generation, patch ranking, patch validation, and patch correctness phases. We then discuss the widely-adopted datasets and evaluation metrics and outline existing empirical studies. We discuss several critical aspects of learning-based APR techniques, such as repair domains, industrial deployment, and the open science issue. We highlight several practical guidelines on applying DL techniques for future APR studies, such as exploring explainable patch generation and utilizing code features. Overall, our paper can help researchers gain a comprehensive understanding about the achievements of the existing learning-based APR techniques and promote the practical application of these techniques. Our artifacts are publicly available at \url{https://github.com/QuanjunZhang/AwesomeLearningAPR}.
翻訳日:2023-11-02 18:35:17 公開日:2023-11-01
# 非パラメトリック部分グラフマッチングによるグラフニューラルネットワークの再考

Rethinking Explaining Graph Neural Networks via Non-parametric Subgraph Matching ( http://arxiv.org/abs/2301.02780v2 )

ライセンス: Link先を確認
Fang Wu, Siyuan Li, Xurui Jin, Yinghui Jiang, Dragomir Radev, Zhangming Niu, Stan Z. Li(参考訳) グラフニューラルネットワーク(gnns)の成功は、説明可能性に関する疑問を提起する: ‘''入力グラフのどの部分が予測の最も決定性が高いか’' 特にパラメトリックな説明器は、ブラックボックス(すなわちターゲットgnn)を解読するより堅牢な能力があるため、既存のアプローチで採用されている。 本稿では,グラフが共通のモチーフパターンを共有しているという観測に基づいて,matchexplainerと呼ばれる新しい非パラメトリック部分グラフマッチングフレームワークを提案する。 ターゲットグラフと他のインスタンスを結合し、ノードに対応する距離を最小化することで最も重要な結合部分構造を識別する。 さらに,現在のグラフサンプリングやノードドロップ法は,通常,偽陽性サンプリング問題に悩まされる。 この問題を軽減するため、matchdropという新しい拡張パラダイムを設計しました。 MatchExplainerを利用して、グラフの最も情報性の高い部分を修正し、残りの少ない部分でグラフ拡張を単に操作する。 合成および実世界のデータセットに対する大規模な実験は、最先端のパラメトリックベースラインをかなりのマージンで上回り、MatchExplainerの有効性を示す。 また,MatchDropは性能向上のためのGNNを備えた一般的なスキームであることを示す。 コードは、https://github.com/smiles724/MatchExplainer.comで入手できる。

The success of graph neural networks (GNNs) provokes the question about explainability: ``Which fraction of the input graph is the most determinant of the prediction?'' Particularly, parametric explainers prevail in existing approaches because of their more robust capability to decipher the black-box (i.e., target GNNs). In this paper, based on the observation that graphs typically share some common motif patterns, we propose a novel non-parametric subgraph matching framework, dubbed MatchExplainer, to explore explanatory subgraphs. It couples the target graph with other counterpart instances and identifies the most crucial joint substructure by minimizing the node corresponding-based distance. Moreover, we note that present graph sampling or node-dropping methods usually suffer from the false positive sampling problem. To alleviate this issue, we designed a new augmentation paradigm named MatchDrop. It takes advantage of MatchExplainer to fix the most informative portion of the graph and merely operates graph augmentations on the rest less informative part. Extensive experiments on synthetic and real-world datasets show the effectiveness of our MatchExplainer by outperforming all state-of-the-art parametric baselines with significant margins. Results also demonstrate that MatchDrop is a general scheme to be equipped with GNNs for enhanced performance. The code is available at: https://github.com/smiles724/MatchExplainer.
翻訳日:2023-11-02 18:34:47 公開日:2023-11-01
# 完全正の発振子型量子井戸ポテンシャルを持つ位置依存質量schr\"odinger方程式の厳密解

Exact solution of the position-dependent mass Schr\"odinger equation with the completely positive oscillator-shaped quantum well potential ( http://arxiv.org/abs/2212.13062v3 )

ライセンス: Link先を確認
E.I. Jafarov and S.M. Nagiyev(参考訳) 完全正の振動子型量子井戸の2つの完全可解な閉じ込めモデルを提案する。 提案した量子井戸ポテンシャルに対応する位置依存質量Schr\"オーディンガー方程式の厳密解を示す。 両モデルの離散エネルギースペクトル表現は、ある正の閉じ込めパラメータに依存することが示されている。 スペクトルは、無限に高い壁のみに閉じ込められたモデルに対して正の同値な振る舞いを示し、両面から無限に高い壁に閉じ込められたモデルに対して非等価な振る舞いを示す。 建設中のモデルの定常状態の波動関数はラゲール多項式とヤコビ多項式を通して表される。 一般に、波動関数に現れるヤコビ多項式はパラメータ$a$と$b$に依存するが、ラゲール多項式はパラメータ$a$にのみ依存する。 構築したモデルの限界と特別な場合について議論する。

Two exactly-solvable confined models of the completely positive oscillator-shaped quantum well are proposed. Exact solutions of the position-dependent mass Schr\"odinger equation corresponding to the proposed quantum well potentials are presented. It is shown that the discrete energy spectrum expressions of both models depend on certain positive confinement parameters. The spectrum exhibits positive equidistant behavior for the model confined only with one infinitely high wall and non-equidistant behavior for the model confined with the infinitely high wall from both sides. Wavefunctions of the stationary states of the models under construction are expressed through the Laguerre and Jacobi polynomials. In general, the Jacobi polynomials appearing in wavefunctions depend on parameters $a$ and $b$, but the Laguerre polynomials depend only on the parameter $a$. Some limits and special cases of the constructed models are discussed.
翻訳日:2023-11-02 18:34:22 公開日:2023-11-01
# 時間依存ハミルトニアンに対する最小ロータライズ公式

Minimum Trotterization Formulas for a Time-Dependent Hamiltonian ( http://arxiv.org/abs/2212.06788v3 )

ライセンス: Link先を確認
Tatsuhiko N. Ikeda, Asir Abrar, Isaac L. Chuang, Sho Sugiura(参考訳) 時間プロパゲータ $e^{\delta t A}$ for duration $\delta t$ が2つの非可換部分 $A=X+Y$ からなるとき、トロッタ化はプロパゲータを約$X$ と $Y$ の指数関数の積に分解する。 量子コンピュータや古典コンピュータでは様々なトロッター化公式が用いられているが、時間依存のジェネレータである$A(t)$のトロッター化公式ではあまり知られていない。 ここで、2つの演算子の和で与えられる$a(t)$ と$y$ と時間依存係数 $a(t) = x(t) x + y(t) y$ に対して、最小可能な指数関数を持つ高次ロータライズ公式を導出するための体系的アプローチを開発する。 特に, 時間非依存生成器の4次および6次ロータライズ公式は, それぞれ 7 および 15 個の指数関数を含む。 また、誤差係数が小さい9つの指数関数からなる別の4次の公式を構築する。 最後に,量子イジングチェーンのハミルトニアンシミュレーションにおいて4次公式を数値的にベンチマークし,よく知られたスズキ公式よりも局所量子ゲート当たりの誤差が小さいことを示す。

When a time propagator $e^{\delta t A}$ for duration $\delta t$ consists of two noncommuting parts $A=X+Y$, Trotterization approximately decomposes the propagator into a product of exponentials of $X$ and $Y$. Various Trotterization formulas have been utilized in quantum and classical computers, but much less is known for the Trotterization with the time-dependent generator $A(t)$. Here, for $A(t)$ given by the sum of two operators $X$ and $Y$ with time-dependent coefficients $A(t) = x(t) X + y(t) Y$, we develop a systematic approach to derive high-order Trotterization formulas with minimum possible exponentials. In particular, we obtain fourth-order and sixth-order Trotterization formulas involving seven and fifteen exponentials, respectively, which are no more than those for time-independent generators. We also construct another fourth-order formula consisting of nine exponentials having a smaller error coefficient. Finally, we numerically benchmark the fourth-order formulas in a Hamiltonian simulation for a quantum Ising chain, showing that the 9-exponential formula accompanies smaller errors per local quantum gate than the well-known Suzuki formula.
翻訳日:2023-11-02 18:34:07 公開日:2023-11-01
# 説明可能な強化学習に関する調査 : 概念,アルゴリズム,課題

A Survey on Explainable Reinforcement Learning: Concepts, Algorithms, Challenges ( http://arxiv.org/abs/2211.06665v4 )

ライセンス: Link先を確認
Yunpeng Qing, Shunyu Liu, Jie Song, Huiqiong Wang, Mingli Song(参考訳) 強化学習(rl)は、インテリジェントエージェントが環境と対話して長期的な目標を達成する、一般的な機械学習パラダイムである。 ディープラーニングの復活によって、Deep RL(DRL)は、幅広い複雑な制御タスクに対して大きな成功を収めた。 励ましの結果にもかかわらず、ディープニューラルネットワークベースのバックボーンは、専門家が高いセキュリティと信頼性が不可欠である現実的なシナリオにおいて、訓練されたエージェントを信頼し、採用することを妨げるブラックボックスとして広く見なされている。 この問題を軽減するために,本質的な解釈可能性やポストホックな説明可能性を構築することで,知的エージェントの内部動作に光をあてる文学が多数提案されている。 本稿では,eXplainable RL (XRL) に関する既存研究の総合的なレビューを行い,先行研究をモデル記述,報酬記述,状態記述,タスク記述に明確に分類する新たな分類法を提案する。 また,人間の知識を逆に活用してエージェントの学習効率と性能を向上するRL手法をレビューし,強調する一方,XRL分野ではこのような手法は無視されることが多い。 XRLにおけるいくつかの課題と機会について論じる。 この調査は、XRLの高レベルな要約を提供し、より効果的なXRLソリューションの研究を動機付けることを目的としている。 対応するオープンソースコードはhttps://github.com/Plankson/awesome-explainable-reinforcement-learningに分類される。

Reinforcement Learning (RL) is a popular machine learning paradigm where intelligent agents interact with the environment to fulfill a long-term goal. Driven by the resurgence of deep learning, Deep RL (DRL) has witnessed great success over a wide spectrum of complex control tasks. Despite the encouraging results achieved, the deep neural network-based backbone is widely deemed as a black box that impedes practitioners to trust and employ trained agents in realistic scenarios where high security and reliability are essential. To alleviate this issue, a large volume of literature devoted to shedding light on the inner workings of the intelligent agents has been proposed, by constructing intrinsic interpretability or post-hoc explainability. In this survey, we provide a comprehensive review of existing works on eXplainable RL (XRL) and introduce a new taxonomy where prior works are clearly categorized into model-explaining, reward-explaining, state-explaining, and task-explaining methods. We also review and highlight RL methods that conversely leverage human knowledge to promote learning efficiency and performance of agents while this kind of method is often ignored in XRL field. Some challenges and opportunities in XRL are discussed. This survey intends to provide a high-level summarization of XRL and to motivate future research on more effective XRL solutions. Corresponding open source codes are collected and categorized at https://github.com/Plankson/awesome-explainable-reinforcement-learning.
翻訳日:2023-11-02 18:32:50 公開日:2023-11-01
# GmGM: 高速マルチ軸ガウスグラフモデル

GmGM: a Fast Multi-Axis Gaussian Graphical Model ( http://arxiv.org/abs/2211.02920v2 )

ライセンス: Link先を確認
Bailey Andrew, David Westhead, Luisa Cutillo(参考訳) 本稿では,行列およびテンソル変量データのスパースグラフ表現を構成するモデルであるガウス多元グラフモデルを紹介する。 我々は,この領域における先行研究を,軸を共有する数個のテンソルで同時に学習することにより一般化し,マルチオミクスで遭遇したようなマルチモーダルデータセットの解析を可能にする。 我々のアルゴリズムは1軸あたり1つの固有分解しか使用せず、一般化されていない場合の先行処理よりも桁違いのスピードアップを達成する。 これにより,従来のアプローチでは困難であったシングルセルマルチオミクスデータなど,大規模なマルチモーダルデータセット上での方法論の利用が可能となった。 合成データと実世界の5つのデータセットでモデルを検証した。

This paper introduces the Gaussian multi-Graphical Model, a model to construct sparse graph representations of matrix- and tensor-variate data. We generalize prior work in this area by simultaneously learning this representation across several tensors that share axes, which is necessary to allow the analysis of multimodal datasets such as those encountered in multi-omics. Our algorithm uses only a single eigendecomposition per axis, achieving an order of magnitude speedup over prior work in the ungeneralized case. This allows the use of our methodology on large multi-modal datasets such as single-cell multi-omics data, which was challenging with previous approaches. We validate our model on synthetic data and five real-world datasets.
翻訳日:2023-11-02 18:32:24 公開日:2023-11-01
# 拡散過程によるエントロピーニューラル最適輸送

Entropic Neural Optimal Transport via Diffusion Processes ( http://arxiv.org/abs/2211.01156v3 )

ライセンス: Link先を確認
Nikita Gushchin, Alexander Kolesov, Alexander Korotin, Dmitry Vetrov, Evgeny Burnaev(参考訳) 本稿では,サンプルからアクセス可能な連続確率分布間のエントロピー最適輸送(EOT)計画の基本的な問題に対するニューラルアルゴリズムを提案する。 提案アルゴリズムは,シュリンガーブリッジ問題(Schr\odinger Bridge problem)として知られるEOTの動的バージョンのサドル点再構成に基づく。 大規模eotの先行手法とは対照的に,本アルゴリズムはエンドツーエンドであり,単一の学習ステップから成り,高速な推論手順を持ち,応用問題において特に重要となるエントロピー正規化係数の小さい値を扱うことができる。 実験では,複数の大規模eotタスクにおけるメソッドの性能を示す。 https://github.com/ngushchin/entropicaloptimaltransport

We propose a novel neural algorithm for the fundamental problem of computing the entropic optimal transport (EOT) plan between continuous probability distributions which are accessible by samples. Our algorithm is based on the saddle point reformulation of the dynamic version of EOT which is known as the Schr\"odinger Bridge problem. In contrast to the prior methods for large-scale EOT, our algorithm is end-to-end and consists of a single learning step, has fast inference procedure, and allows handling small values of the entropy regularization coefficient which is of particular importance in some applied problems. Empirically, we show the performance of the method on several large-scale EOT tasks. https://github.com/ngushchin/EntropicNeuralOptimalTransport
翻訳日:2023-11-02 18:32:11 公開日:2023-11-01
# 適応型ニューラルネットワークのダイナミクス・アウェア・アドバーサリアン攻撃

Dynamics-aware Adversarial Attack of Adaptive Neural Networks ( http://arxiv.org/abs/2210.08159v3 )

ライセンス: Link先を確認
An Tao and Yueqi Duan and Yingqi Wang and Jiwen Lu and Jie Zhou(参考訳) 本稿では,適応型ニューラルネットワークの動的対向攻撃問題について検討する。 既存の攻撃アルゴリズムの多くは、基本的な前提の下で設計されている -- ネットワークアーキテクチャは攻撃プロセスを通じて固定されている。 しかし、この仮定は、計算効率を改善するために入力に基づいて不要な実行単位を適応的に非活性化する、最近提案された多くの適応型ニューラルネットワークには当てはまらない。 結果として、遅延勾配の深刻な問題が発生し、アーキテクチャ変更後の現在のステップでの学習された攻撃が非効率になる。 この問題に対処するため,本研究ではリード勾配法(lgm)を提案し,遅延勾配の有意な影響を示す。 より具体的には、ネットワークアーキテクチャの潜在的な動的変化を認識するために勾配を再構成し、ネットワークアーキテクチャが動的に変化するときの動的手法よりも、学習した攻撃が次のステップを「リード」するようにします。 2次元画像と3次元点雲の両方に対する適応ニューラルネットワークの代表型に関する広範囲な実験により、我々のLGMは動的無意識攻撃法と比較して、優れた対角攻撃性能を達成できた。 コードはhttps://github.com/antao97/LGMで入手できる。

In this paper, we investigate the dynamics-aware adversarial attack problem of adaptive neural networks. Most existing adversarial attack algorithms are designed under a basic assumption -- the network architecture is fixed throughout the attack process. However, this assumption does not hold for many recently proposed adaptive neural networks, which adaptively deactivate unnecessary execution units based on inputs to improve computational efficiency. It results in a serious issue of lagged gradient, making the learned attack at the current step ineffective due to the architecture change afterward. To address this issue, we propose a Leaded Gradient Method (LGM) and show the significant effects of the lagged gradient. More specifically, we reformulate the gradients to be aware of the potential dynamic changes of network architectures, so that the learned attack better "leads" the next step than the dynamics-unaware methods when network architecture changes dynamically. Extensive experiments on representative types of adaptive neural networks for both 2D images and 3D point clouds show that our LGM achieves impressive adversarial attack performance compared with the dynamic-unaware attack methods. Code is available at https://github.com/antao97/LGM.
翻訳日:2023-11-02 18:31:59 公開日:2023-11-01
# アクティベーションおよびスキップ接続探索によるNASの一般化特性

Generalization Properties of NAS under Activation and Skip Connection Search ( http://arxiv.org/abs/2209.07238v4 )

ライセンス: Link先を確認
Zhenyu Zhu, Fanghui Liu, Grigorios G Chrysos, Volkan Cevher(参考訳) ニューラルアーキテクチャサーチ(NAS)は、最先端のニューラルアーキテクチャの自動発見を促進する。 NASの進歩にもかかわらず、NASに関する理論的保証はほとんど注目されていない。 本研究では,NASの一般化特性について,(深層)接続探索とアクティベーション関数探索を可能にする統一フレームワークを用いて検討する。 この目的のために, 混合活性化関数, 完全連結, 残留ニューラルネットワークを含む特定の探索空間を用いて, 有限幅条件下でのニューラル・タンジェント・カーネル(NTK)の最小固有値の下位(および上位)境界を導出する。 確率勾配降下訓練において最小固有値を用いてNASの一般化誤差境界を確立する。 重要な点として,nasの導出結果から,トレーニングがなくてもトップパフォーマンスアーキテクチャを選択する方法が理論的に実験的に示され,本理論に基づく無訓練アルゴリズムが導出される。 その結果,nasのための計算効率の高い手法の設計に光を当てた。 我々の分析は、統一フレームワーク下での様々なアーキテクチャとアクティベーション関数の結合のため、非自明であり、深層学習理論におけるntkの最小固有値の下限を提供することに独自の関心を持っている。

Neural Architecture Search (NAS) has fostered the automatic discovery of state-of-the-art neural architectures. Despite the progress achieved with NAS, so far there is little attention to theoretical guarantees on NAS. In this work, we study the generalization properties of NAS under a unifying framework enabling (deep) layer skip connection search and activation function search. To this end, we derive the lower (and upper) bounds of the minimum eigenvalue of the Neural Tangent Kernel (NTK) under the (in)finite-width regime using a certain search space including mixed activation functions, fully connected, and residual neural networks. We use the minimum eigenvalue to establish generalization error bounds of NAS in the stochastic gradient descent training. Importantly, we theoretically and experimentally show how the derived results can guide NAS to select the top-performing architectures, even in the case without training, leading to a train-free algorithm based on our theory. Accordingly, our numerical validation shed light on the design of computationally efficient methods for NAS. Our analysis is non-trivial due to the coupling of various architectures and activation functions under the unifying framework and has its own interest in providing the lower bound of the minimum eigenvalue of NTK in deep learning theory.
翻訳日:2023-11-02 18:31:38 公開日:2023-11-01
# 還元損失のある強化学習におけるサンプルの優先順位付け

Prioritizing Samples in Reinforcement Learning with Reducible Loss ( http://arxiv.org/abs/2208.10483v3 )

ライセンス: Link先を確認
Shivakanth Sujit, Somjit Nath, Pedro H. M. Braga, Samira Ebrahimi Kahou(参考訳) ほとんどの強化学習アルゴリズムは、経験的再生バッファを利用して、エージェントが過去に観察したサンプルを繰り返しトレーニングする。 すべてのサンプルが同じ意味を持ち、各サンプルに同じ重要性を割り当てるだけでは、na\" 戦略であるとは限らない。 本稿では,サンプルから学べる量に基づいて,サンプルを優先順位付けする手法を提案する。 サンプルの学習能力は、このサンプルに関連するトレーニング損失が経時的に着実に減少することと定義する。 学習能力の高いサンプルを優先するアルゴリズムを開発し,ノイズや確率によって引き起こされる難易度の高いサンプルに低い優先度を割り当てる。 実験により,本手法はランダムサンプリングよりも頑健であり,トレーニング損失,すなわち,優先経験の再生に使用される時間差損失に対する優先順位付けよりも優れていることが示された。

Most reinforcement learning algorithms take advantage of an experience replay buffer to repeatedly train on samples the agent has observed in the past. Not all samples carry the same amount of significance and simply assigning equal importance to each of the samples is a na\"ive strategy. In this paper, we propose a method to prioritize samples based on how much we can learn from a sample. We define the learn-ability of a sample as the steady decrease of the training loss associated with this sample over time. We develop an algorithm to prioritize samples with high learn-ability, while assigning lower priority to those that are hard-to-learn, typically caused by noise or stochasticity. We empirically show that our method is more robust than random sampling and also better than just prioritizing with respect to the training loss, i.e. the temporal difference loss, which is used in prioritized experience replay.
翻訳日:2023-11-02 18:31:17 公開日:2023-11-01
# 構造分布シフト下におけるグラフモデルのロバスト性と不確かさの評価

Evaluating Robustness and Uncertainty of Graph Models Under Structural Distributional Shifts ( http://arxiv.org/abs/2302.13875v4 )

ライセンス: Link先を確認
Gleb Bazhenov, Denis Kuznedelev, Andrey Malinin, Artem Babenko, Liudmila Prokhorenkova(参考訳) 機械学習に基づく信頼できる意思決定システムでは、モデルは分散シフトに頑健であるか、予測の不確実性を提供する必要がある。 グラフ学習のノードレベルの問題では、サンプルが相互依存であるため、分布シフトは特に複雑になる。 グラフモデルの性能を評価するためには,多様かつ有意義な分布シフトで評価することが重要である。 しかし、ノードレベルの問題に対する分布シフトを考慮に入れたグラフベンチマークのほとんどは、主にノードの特徴に焦点を当てている。 本研究では,グラフ構造に基づく多様な分布シフトを誘導する一般的な手法を提案する。 このアプローチは、人気、局所性、密度といったいくつかの構造ノードプロパティに従ってデータ分割を作成するために使用します。 実験では,提案した分布シフトを徹底的に評価し,既存のグラフモデルでは極めて困難であることを示す。 また, 単純なモデルが, 構造シフトを考慮したより洗練された手法よりも優れていることも明らかにした。 最後に,本実験は,構造分布シフト下でのベース分類タスクの学習表現の品質と,これらの表現を用いてノードを異なる分布から分離する能力との間にトレードオフがあることを実証する。

In reliable decision-making systems based on machine learning, models have to be robust to distributional shifts or provide the uncertainty of their predictions. In node-level problems of graph learning, distributional shifts can be especially complex since the samples are interdependent. To evaluate the performance of graph models, it is important to test them on diverse and meaningful distributional shifts. However, most graph benchmarks considering distributional shifts for node-level problems focus mainly on node features, while structural properties are also essential for graph problems. In this work, we propose a general approach for inducing diverse distributional shifts based on graph structure. We use this approach to create data splits according to several structural node properties: popularity, locality, and density. In our experiments, we thoroughly evaluate the proposed distributional shifts and show that they can be quite challenging for existing graph models. We also reveal that simple models often outperform more sophisticated methods on the considered structural shifts. Finally, our experiments provide evidence that there is a trade-off between the quality of learned representations for the base classification task under structural distributional shift and the ability to separate the nodes from different distributions using these representations.
翻訳日:2023-11-02 18:22:53 公開日:2023-11-01
# 比較フィードバックによる個人化多目的意思決定のためのユーザの嗜好の緩和

Eliciting User Preferences for Personalized Multi-Objective Decision Making through Comparative Feedback ( http://arxiv.org/abs/2302.03805v2 )

ライセンス: Link先を確認
Han Shao, Lee Cohen, Avrim Blum, Yishay Mansour, Aadirupa Saha, Matthew R. Walter(参考訳) 古典的な強化学習(rl)と意思決定問題では、政策はスカラー報酬関数に関して評価され、すべての最適方針は期待されたリターンに関して同じである。 しかし、現実の多くの問題は、複数の、時には矛盾する、相対的な優先順位が各ユーザの好みによって異なる目的のバランスをとることである。 したがって、あるユーザにとって最適なポリシーは、別のユーザにとって最適であるかもしれない。 そこで本研究では,目的に対して異なるユーザ嗜好を許容する多目的意思決定フレームワークを提案する。 このモデルは,ベクトル値の報酬関数を持つマルコフ決定プロセスと,目的の相対的重要性を表す未知の選好ベクトルを持つユーザから構成される。 ゴールは、あるユーザーの最適に近いポリシーを効率的に計算することである。 ユーザフィードバックモデルを2つ検討する。 まず、ユーザが2つのポリシーを提供し、望ましいポリシーをフィードバックとして返す場合に対処します。 その後、異なるユーザーフィードバックモデルに移行し、ユーザは代わりに2つの小さな重み付けされた代表軌跡セットを提供し、望ましいものを選択する。 いずれの場合においても,少数の比較クエリを用いてユーザに対して,ほぼ最適なポリシを求めるアルゴリズムを提案する。

In classic reinforcement learning (RL) and decision making problems, policies are evaluated with respect to a scalar reward function, and all optimal policies are the same with regards to their expected return. However, many real-world problems involve balancing multiple, sometimes conflicting, objectives whose relative priority will vary according to the preferences of each user. Consequently, a policy that is optimal for one user might be sub-optimal for another. In this work, we propose a multi-objective decision making framework that accommodates different user preferences over objectives, where preferences are learned via policy comparisons. Our model consists of a Markov decision process with a vector-valued reward function, with each user having an unknown preference vector that expresses the relative importance of each objective. The goal is to efficiently compute a near-optimal policy for a given user. We consider two user feedback models. We first address the case where a user is provided with two policies and returns their preferred policy as feedback. We then move to a different user feedback model, where a user is instead provided with two small weighted sets of representative trajectories and selects the preferred one. In both cases, we suggest an algorithm that finds a nearly optimal policy for the user using a small number of comparison queries.
翻訳日:2023-11-02 18:22:33 公開日:2023-11-01
# テキスト生成モデルのための(スコアベース)概念代数

Concept Algebra for (Score-Based) Text-Controlled Generative Models ( http://arxiv.org/abs/2302.03693v4 )

ライセンス: Link先を確認
Zihao Wang, Lin Gui, Jeffrey Negrea, Victor Veitch(参考訳) 本稿では,テキスト誘導生成モデルにおける学習表現の構造を,スコアベースモデルに焦点をあてる。 そのようなモデルの鍵となる性質は、異なる概念を 'disentangled' な方法で構成できることである。 これはこれらのモデルが、概念を 'disentangled' な方法でエンコードする内部表現を持っていることを示唆している。 ここでは、概念がある表現空間の部分空間として符号化されるという考えに焦点を当てる。 これは何を意味するのかを形式化し、表現に自然な選択があることを示し、与えられた概念に対応する表現の一部を識別する簡単な方法を開発する。 特に、表現の代数的操作を通じてモデルによって表現される概念を操作することができる。 このアイデアを安定拡散を用いて実例で示す。

This paper concerns the structure of learned representations in text-guided generative models, focusing on score-based models. A key property of such models is that they can compose disparate concepts in a `disentangled' manner. This suggests these models have internal representations that encode concepts in a `disentangled' manner. Here, we focus on the idea that concepts are encoded as subspaces of some representation space. We formalize what this means, show there's a natural choice for the representation, and develop a simple method for identifying the part of the representation corresponding to a given concept. In particular, this allows us to manipulate the concepts expressed by the model through algebraic manipulation of the representation. We demonstrate the idea with examples using Stable Diffusion.
翻訳日:2023-11-02 18:22:12 公開日:2023-11-01
# ベイズニューラルネットワークを探索するフラット

Flat Seeking Bayesian Neural Networks ( http://arxiv.org/abs/2302.02713v4 )

ライセンス: Link先を確認
Van-Anh Nguyen, Tung-Long Vuong, Hoang Phan, Thanh-Toan Do, Dinh Phung, Trung Le(参考訳) ベイズニューラルネットワーク(BNN)は、モデルパラメータに事前分布を付与し、観測データに基づいて後続分布を推定することにより、ディープラーニングモデルに対する確率論的解釈を提供する。 後方分布からサンプリングされたモデルは、アンサンブル予測と予測の不確かさの定量化に使用できる。 シャープ性の低いディープラーニングモデルの方が一般化能力が高いことはよく知られている。 しかし、既存の後進推論は定式化の観点からはシャープネス/フラットネスを意識していないため、これらのモデルからサンプリングされたモデルの鋭さが高まる可能性がある。 本稿では,ベイズ設定の理論と,シャープネスを意識した後部における変分推論手法を開発する。 特に、鋭さを認識できる後方モデルと、この鋭さを認識できる後方を推定する最適近似モデルでは、より平坦性が向上し、より高い一般化能力を持つ可能性がある。 我々は、最先端のベイジアンニューラルネットワークとシャープネス認識後部を併用して実験を行い、フラットな探索相手が関心のあるすべての指標においてベースラインを上回っていることを示す。

Bayesian Neural Networks (BNNs) provide a probabilistic interpretation for deep learning models by imposing a prior distribution over model parameters and inferring a posterior distribution based on observed data. The model sampled from the posterior distribution can be used for providing ensemble predictions and quantifying prediction uncertainty. It is well-known that deep learning models with lower sharpness have better generalization ability. However, existing posterior inferences are not aware of sharpness/flatness in terms of formulation, possibly leading to high sharpness for the models sampled from them. In this paper, we develop theories, the Bayesian setting, and the variational inference approach for the sharpness-aware posterior. Specifically, the models sampled from our sharpness-aware posterior, and the optimal approximate posterior estimating this sharpness-aware posterior, have better flatness, hence possibly possessing higher generalization ability. We conduct experiments by leveraging the sharpness-aware posterior with state-of-the-art Bayesian Neural Networks, showing that the flat-seeking counterparts outperform their baselines in all metrics of interest.
翻訳日:2023-11-02 18:21:59 公開日:2023-11-01
# 遅延フィードバックを用いた逐次決定のための削減型フレームワーク

A Reduction-based Framework for Sequential Decision Making with Delayed Feedback ( http://arxiv.org/abs/2302.01477v3 )

ライセンス: Link先を確認
Yunchang Yang, Han Zhong, Tianhao Wu, Bin Liu, Liwei Wang, Simon S. Du(参考訳) バンディット,単一エージェントマルコフ決定プロセス (mdps), マルコフゲーム (mgs) を含むマルチエージェントシーケンシャル意思決定における確率的遅延フィードバックについて検討した。 本稿では, 逐次決定のためのマルチバッチアルゴリズムを, 短時間のフィードバックで, 逐次決定における確率的遅延を処理できるサンプル効率アルゴリズムに変換する, 新たなリダクションベースフレームワークを提案する。 我々のフレームワークに様々なマルチバッチアルゴリズムを組み込むことで、我々のフレームワークがバンドレート、表型MDP、表型MGの既存の結果にマッチまたは改善するだけでなく、関数近似による逐次決定の遅延に関する最初の研究ラインも提供する。 まとめると、遅延フィードバックを伴う複数エージェントのシーケンシャルな意思決定のための、鋭い結果の完全なセットを提供する。

We study stochastic delayed feedback in general multi-agent sequential decision making, which includes bandits, single-agent Markov decision processes (MDPs), and Markov games (MGs). We propose a novel reduction-based framework, which turns any multi-batched algorithm for sequential decision making with instantaneous feedback into a sample-efficient algorithm that can handle stochastic delays in sequential decision making. By plugging different multi-batched algorithms into our framework, we provide several examples demonstrating that our framework not only matches or improves existing results for bandits, tabular MDPs, and tabular MGs, but also provides the first line of studies on delays in sequential decision making with function approximation. In summary, we provide a complete set of sharp results for multi-agent sequential decision making with delayed feedback.
翻訳日:2023-11-02 18:21:19 公開日:2023-11-01
# 安全かつ効率的なインタラクション計画のためのアクティブ不確実性削減:シールド型デュアル制御アプローチ

Active Uncertainty Reduction for Safe and Efficient Interaction Planning: A Shielding-Aware Dual Control Approach ( http://arxiv.org/abs/2302.00171v2 )

ライセンス: Link先を確認
Haimin Hu, David Isele, Sangjae Bae, Jaime F. Fisac(参考訳) 他者の行動を正確に予測する能力は、対話型ロボットの安全性と効率性の中心である。 残念なことに、ロボットは、他のエージェントの目標、注意、協力意欲など、これらの予測が係わる重要な情報にアクセスできないことが多い。 二重制御理論は、予測モデルの未知のパラメータを確率的隠れ状態として扱い、システム操作中に収集された情報を用いて実行時にそれらの値を推測することでこの問題に対処する。 探索と搾取を最適かつ自動的にトレードオフできるが、双対制御は一般的な対話型モーションプランニングには計算的に難解である。 本稿では,暗黙的二重制御パラダイムに基づく対話型動作計画における能動的不確実性低減を実現するアルゴリズムを提案する。 提案手法は,確率的動的プログラミングのサンプリングに基づく近似に依拠し,実時間勾配に基づく最適化手法で容易に解けるモデル予測制御問題を導出する。 結果として得られた方針は、連続的およびカテゴリー的不確実性の両方を持つ幅広い予測モデルに対する双対制御効果を保つことが示される。 インタラクションエージェントの安全な動作を確保するために、安全性クリティカルなイベントが間近にある場合に、ロボットのデュアルコントロールポリシをセーフフォールバック戦略でオーバーライドするランタイムセーフティフィルタ("shielding"スキームとも呼ばれる)を使用します。 そこで我々は,最近提案されたシールド対応型ロバスト計画法を改良したデュアルコントロール・フレームワークを改良し,低確率エージェントの動作によって引き起こされる高コスト緊急操作のリスクと名目計画性能を積極的にバランスさせる。 1/10スケールの自律走行車を用いたシミュレーション運転実験とハードウェア実験によるアプローチの有効性を実証した。

The ability to accurately predict others' behavior is central to the safety and efficiency of interactive robotics. Unfortunately, robots often lack access to key information on which these predictions may hinge, such as other agents' goals, attention, and willingness to cooperate. Dual control theory addresses this challenge by treating unknown parameters of a predictive model as stochastic hidden states and inferring their values at runtime using information gathered during system operation. While able to optimally and automatically trade off exploration and exploitation, dual control is computationally intractable for general interactive motion planning. In this paper, we present a novel algorithmic approach to enable active uncertainty reduction for interactive motion planning based on the implicit dual control paradigm. Our approach relies on sampling-based approximation of stochastic dynamic programming, leading to a model predictive control problem that can be readily solved by real-time gradient-based optimization methods. The resulting policy is shown to preserve the dual control effect for a broad class of predictive models with both continuous and categorical uncertainty. To ensure the safe operation of the interacting agents, we use a runtime safety filter (also referred to as a "shielding" scheme), which overrides the robot's dual control policy with a safety fallback strategy when a safety-critical event is imminent. We then augment the dual control framework with an improved variant of the recently proposed shielding-aware robust planning scheme, which proactively balances the nominal planning performance with the risk of high-cost emergency maneuvers triggered by low-probability agent behaviors. We demonstrate the efficacy of our approach with both simulated driving studies and hardware experiments using 1/10 scale autonomous vehicles.
翻訳日:2023-11-02 18:20:32 公開日:2023-11-01
# 必要十分因果グラフの学習について

On Learning Necessary and Sufficient Causal Graphs ( http://arxiv.org/abs/2301.12389v2 )

ライセンス: Link先を確認
Hengrui Cai, Yixin Wang, Michael Jordan, Rui Song(参考訳) 因果革命は様々な分野における複雑な関係を理解することへの関心を刺激した。 既存の手法の多くは、複雑な大規模グラフ内のすべての変数間の因果関係を発見することを目的としている。 しかし、実際には、グラフ内の変数の小さな部分集合のみが関心の結果に関係している。 その結果、すべての因果グラフによる因果推定(特に限られたデータが与えられた場合)は、ターゲットの結果に因果的影響を及ぼさない、高い相関を示す多数の誤検出、散発的変数につながる可能性がある。 本稿では,関心のある結果に因果関係変数を排他的に含む必要十分因果グラフ(nscg)のクラスを学習し,因果特徴(causal features)と呼ぶ。 鍵となる考え方は、因果関係の確率を用いて因果関係グラフにおける特徴の重要性を体系的に評価し、利害関係のサブグラフを特定することである。 データからNSCGを学習するためには、因果関係の確率と特徴の自然因果関係の理論的性質を確立することにより、必要十分な因果構造学習(NSCSL)アルゴリズムを開発する。 シミュレーションおよび実データを用いた実験により, nscslは既存のアルゴリズムよりも優れており, 重要な酵母遺伝子を同定できることを示した。

The causal revolution has stimulated interest in understanding complex relationships in various fields. Most of the existing methods aim to discover causal relationships among all variables within a complex large-scale graph. However, in practice, only a small subset of variables in the graph are relevant to the outcomes of interest. Consequently, causal estimation with the full causal graph -- particularly given limited data -- could lead to numerous falsely discovered, spurious variables that exhibit high correlation with, but exert no causal impact on, the target outcome. In this paper, we propose learning a class of necessary and sufficient causal graphs (NSCG) that exclusively comprises causally relevant variables for an outcome of interest, which we term causal features. The key idea is to employ probabilities of causation to systematically evaluate the importance of features in the causal graph, allowing us to identify a subgraph relevant to the outcome of interest. To learn NSCG from data, we develop a necessary and sufficient causal structural learning (NSCSL) algorithm, by establishing theoretical properties and relationships between probabilities of causation and natural causal effects of features. Across empirical studies of simulated and real data, we demonstrate that NSCSL outperforms existing algorithms and can reveal crucial yeast genes for target heritable traits of interest.
翻訳日:2023-11-02 18:19:42 公開日:2023-11-01
# 編集能力の低下は? 改良型GANインバージョンのためのドメイン特化ハイブリッドリファインメント

What Decreases Editing Capability? Domain-Specific Hybrid Refinement for Improved GAN Inversion ( http://arxiv.org/abs/2301.12141v3 )

ライセンス: Link先を確認
Pu Cao, Lu Yang, Dongxv Liu, Xiaoya Yang, Tianrui Huang, Qing Song(参考訳) 近年、インバージョン手法は、組み込まれた潜在コードからインバージョンや編集結果を洗練するために、ジェネレータ(例えば重み付けや中間機能)に高次情報を追加することに重点を置いている。 これらの技術は再構築において合理的な改善をもたらすが、特に複雑な画像(例えば、閉塞物、詳細な背景、アーティファクトを含む)の編集能力は低下する。 重要なcruxは、編集能力の低下を避けるために、反転結果の精細化である。 この問題に対処するため,本研究では2つの主流改良手法の利点とデメリットを活かしたDHR(Domain-Specific Hybrid Refinement)を導入する。 具体的には、まず、ドメイン内部分とドメイン外部分の2つの部分に分割するドメイン固有のセグメンテーションを提案する。 リファインメントプロセスは、ドメイン内領域の編集性を維持し、2つのドメインの忠実性を改善することを目的としている。 これら2つの部分を重み変調と特徴変調により精錬し、これをハイブリッド変調精錬と呼ぶ。 提案手法は,すべての潜在コード組込み手法と互換性がある。 拡張実験により,本手法は実画像の反転と編集において最先端の成果が得られることを示す。 コードはhttps://github.com/caopulan/domain-specific_hybrid_refinement_inversionで入手できる。

Recently, inversion methods have focused on additional high-rate information in the generator (e.g., weights or intermediate features) to refine inversion and editing results from embedded latent codes. Although these techniques gain reasonable improvement in reconstruction, they decrease editing capability, especially on complex images (e.g., containing occlusions, detailed backgrounds, and artifacts). A vital crux is refining inversion results, avoiding editing capability degradation. To tackle this problem, we introduce Domain-Specific Hybrid Refinement (DHR), which draws on the advantages and disadvantages of two mainstream refinement techniques to maintain editing ability with fidelity improvement. Specifically, we first propose Domain-Specific Segmentation to segment images into two parts: in-domain and out-of-domain parts. The refinement process aims to maintain the editability for in-domain areas and improve two domains' fidelity. We refine these two parts by weight modulation and feature modulation, which we call Hybrid Modulation Refinement. Our proposed method is compatible with all latent code embedding methods. Extension experiments demonstrate that our approach achieves state-of-the-art in real image inversion and editing. Code is available at https://github.com/caopulan/Domain-Specific_Hybrid_Refinement_Inversion.
翻訳日:2023-11-02 18:19:20 公開日:2023-11-01
# 非局所特徴のダイナミクスのためのハイブリッドチャネルの探索

Probing a hybrid channel for the dynamics of non-local features ( http://arxiv.org/abs/2301.10925v3 )

ライセンス: Link先を確認
Atta ur Rahman, S. M. Zangi, Ma-Cheng Yang, Cong-Feng Qiao(参考訳) 効果的な情報伝達は量子情報プロトコルの中心的な要素であるが、対称特性を持つチャネルにおける最適効率の追求は、量子情報科学における顕著な課題である。 この課題を踏まえて、熱、磁性、局所成分を含むハイブリッドチャネルを導入し、それぞれに量子相関を増減する特性を付与する。 このハイブリッドチャネルの対称性を調べるために、ネガティビティ、$\ell_1$-normコヒーレンス、エントロピーの不確かさ、エントロピー関数などの測度を用いて量子化される単純な2量子ビットハイゼンベルクスピン状態の量子相関を調べる。 以上の結果から, ハイブリッドチャネルは, 量子相関を保ち, 個々の成分の能力を上回るように調整可能であることがわかった。 また,局所的強調が存在する場合でも,混合的/分離可能な状態から最大絡み合いを達成するための最適パラメータ化を同定する。 特に、非マルコビアン性を含む様々なパラメータと量子特徴は、このハイブリッドチャネルの文脈において異なる振る舞いを示す。 最終的に、この構成の潜在的実験的な応用について論じる。

Effective information transmission is a central element in quantum information protocols, but the quest for optimal efficiency in channels with symmetrical characteristics remains a prominent challenge in quantum information science. In light of this challenge, we introduce a hybrid channel that encompasses thermal, magnetic, and local components, each simultaneously endowed with characteristics that enhance and diminish quantum correlations. To investigate the symmetry of this hybrid channel, we explore the quantum correlations of a simple two-qubit Heisenberg spin state, quantified using measures such as negativity, $\ell_1$-norm coherence, entropic uncertainty, and entropy functions. Our findings reveal that the hybrid channel can be adeptly tailored to preserve quantum correlations, surpassing the capabilities of its individual components. We also identify optimal parameterizations to attain maximum entanglement from mixed-entangled/separable states, even in the presence of local dephasing. Notably, various parameters and quantum features, including non-Markovianity, exhibit distinct behaviors in the context of this hybrid channel. Ultimately, we discuss potential experimental applications of this configuration.
翻訳日:2023-11-02 18:18:57 公開日:2023-11-01
# 教師なし領域適応型人物再同定のための画像合成による照度変化補正

Illumination Variation Correction Using Image Synthesis For Unsupervised Domain Adaptive Person Re-Identification ( http://arxiv.org/abs/2301.09702v2 )

ライセンス: Link先を確認
Jiaqi Guo and Amy R. Reibman and Edward J. Delp(参考訳) Unsupervised Domain Adaptive (UDA) person re-identification (re-ID) は、ソースドメイン内のラベル付き画像から識別情報を学習し、ターゲットドメイン内のラベルなし画像に適用することを目的としている。 多くの教師なし再同定手法の大きな問題は、照明、視点、オクルージョンといった大きなドメインのバリエーションに対してうまく機能しないことである。 本稿では,教師なしのリIDにおける照明変動に対処する合成モデルバンク(SMB)を提案する。 提案したSMBは特徴抽出のためのいくつかの畳み込みニューラルネットワーク(CNN)と距離測定のためのマハラノビス行列からなる。 それらは異なる照明条件の合成データを用いて訓練され、その相乗効果によってSMBは照明変動に対して堅牢になる。 照明強度の定量化と合成画像の品質向上を目的として,GANに基づく画像合成のための3次元バーチャルヒューマンデータセットを提案する。 実験の結果,提案したSMBは,いくつかのre-IDベンチマークにおいて,他の合成手法よりも優れていた。

Unsupervised domain adaptive (UDA) person re-identification (re-ID) aims to learn identity information from labeled images in source domains and apply it to unlabeled images in a target domain. One major issue with many unsupervised re-identification methods is that they do not perform well relative to large domain variations such as illumination, viewpoint, and occlusions. In this paper, we propose a Synthesis Model Bank (SMB) to deal with illumination variation in unsupervised person re-ID. The proposed SMB consists of several convolutional neural networks (CNN) for feature extraction and Mahalanobis matrices for distance metrics. They are trained using synthetic data with different illumination conditions such that their synergistic effect makes the SMB robust against illumination variation. To better quantify the illumination intensity and improve the quality of synthetic images, we introduce a new 3D virtual-human dataset for GAN-based image synthesis. From our experiments, the proposed SMB outperforms other synthesis methods on several re-ID benchmarks.
翻訳日:2023-11-02 18:18:35 公開日:2023-11-01
# MetaGrad: Hypernetworksによる適応型グラディエント量子化

MetaGrad: Adaptive Gradient Quantization with Hypernetworks ( http://arxiv.org/abs/2303.02347v2 )

ライセンス: Link先を確認
Kaixin Xu, Alina Hui Xiu Lee, Ziyuan Zhao, Zhe Wang, Min Wu, Weisi Lin(参考訳) ネットワーク圧縮アプローチの一般的なトラックは量子化対応トレーニング(QAT)であり、ニューラルネットワークのトレーニングと推論の間、前方通過を加速する。 しかしながら、トレーニング時間の約半分に寄与するにもかかわらず、トレーニング中に後方通過を定量化し、加速する以前の取り組みはあまり行われていない。 これは、後向きの低精度勾配の誤差が、QAT設定のようにトレーニング目標によって補正できないという事実によるものである。 本稿では,ハイパーネットワークによる次のトレーニングイテレーションの計算グラフに勾配を組み込むことで,この問題を解決することを提案する。 異なるCNNネットワークアーキテクチャを用いたCIFAR-10データセットの様々な実験により、我々のハイパーネットワークベースのアプローチは、勾配量子化ノイズの負の効果を効果的に低減し、CIFAR-10上のVGG-16の0.64精度低下でINT4への勾配の量子化に成功した。

A popular track of network compression approach is Quantization aware Training (QAT), which accelerates the forward pass during the neural network training and inference. However, not much prior efforts have been made to quantize and accelerate the backward pass during training, even though that contributes around half of the training time. This can be partly attributed to the fact that errors of low-precision gradients during backward cannot be amortized by the training objective as in the QAT setting. In this work, we propose to solve this problem by incorporating the gradients into the computation graph of the next training iteration via a hypernetwork. Various experiments on CIFAR-10 dataset with different CNN network architectures demonstrate that our hypernetwork-based approach can effectively reduce the negative effect of gradient quantization noise and successfully quantizes the gradients to INT4 with only 0.64 accuracy drop for VGG-16 on CIFAR-10.
翻訳日:2023-11-02 18:09:28 公開日:2023-11-01
# モデルに基づく強化学習によるエネルギー市場浄化と入札の近似

Approximating Energy Market Clearing and Bidding With Model-Based Reinforcement Learning ( http://arxiv.org/abs/2303.01772v3 )

ライセンス: Link先を確認
Thomas Wolgast and Astrid Nie{\ss}e(参考訳) エネルギー市場のルールは、市場参加者に市場の振舞いとグリッドの順応を奨励する。 しかし、市場設計に欠陥があれば、望ましくない、予期せぬ戦略のインセンティブを与えることもできる。 マルチエージェント強化学習(MARL)は,シミュレーションにおけるエネルギー市場参加者の利益最大化行動を予測するための,有望な新しいアプローチである。 しかし、強化学習はシステムとの多くの相互作用を収束させる必要があり、電力系統環境はしばしば市場清算のための最適電力フロー(opf)計算のような広範な計算からなる。 この複雑さに対処するために、学習されたOPF近似と明示的な市場ルールという形で、基本的MARLアルゴリズムにエネルギー市場モデルを提供する。 学習されたOPFサロゲートモデルはOPFの明確な解決を完全に不要にする。 実験により,モデルがトレーニング時間を約1桁短縮するが,性能がわずかに低下することを示した。 本手法の潜在的な応用は, 市場設計, 市場参加者のより現実的なモデリング, マニピュレーション行動の分析である。

Energy market rules should incentivize market participants to behave in a market and grid conform way. However, they can also provide incentives for undesired and unexpected strategies if the market design is flawed. Multi-agent Reinforcement learning (MARL) is a promising new approach to predicting the expected profit-maximizing behavior of energy market participants in simulation. However, reinforcement learning requires many interactions with the system to converge, and the power system environment often consists of extensive computations, e.g., optimal power flow (OPF) calculation for market clearing. To tackle this complexity, we provide a model of the energy market to a basic MARL algorithm in the form of a learned OPF approximation and explicit market rules. The learned OPF surrogate model makes an explicit solving of the OPF completely unnecessary. Our experiments demonstrate that the model additionally reduces training time by about one order of magnitude but at the cost of a slightly worse performance. Potential applications of our method are market design, more realistic modeling of market participants, and analysis of manipulative behavior.
翻訳日:2023-11-02 18:08:53 公開日:2023-11-01
# 標準正規化におけるバイアスの緩和はスパーシリティを強制する

Penalising the biases in norm regularisation enforces sparsity ( http://arxiv.org/abs/2303.01353v2 )

ライセンス: Link先を確認
Etienne Boursier and Nicolas Flammarion(参考訳) パラメータのノルムを制御することは、ニューラルネットワークのトレーニング時によく一般化される。 単純な直観以外にも、パラメータのノルムの正規化と得られた推定値の関係は理論的に誤解されている。 一次元データを持つ1つの隠れReLU層ネットワークに対して、この研究は関数を表すのに必要なパラメータのノルムが、その2階微分の総変分によって与えられることを示す。 特に、この重み付け係数はバイアス項のノルムが正規化されないときに消失する。 この付加的な重み付け因子の存在は、極小ノルム補間器の特異性と(キンク数において)スパーシティを強制することが示されるため、最も重要である。 逆に、バイアスのノルムを省略することは非スパース解を可能にする。 正規化におけるバイアス項を明示的にまたは暗黙的に解析すると、スパース推定器が生じる。

Controlling the parameters' norm often yields good generalisation when training neural networks. Beyond simple intuitions, the relation between regularising parameters' norm and obtained estimators remains theoretically misunderstood. For one hidden ReLU layer networks with unidimensional data, this work shows the parameters' norm required to represent a function is given by the total variation of its second derivative, weighted by a $\sqrt{1+x^2}$ factor. Notably, this weighting factor disappears when the norm of bias terms is not regularised. The presence of this additional weighting factor is of utmost significance as it is shown to enforce the uniqueness and sparsity (in the number of kinks) of the minimal norm interpolator. Conversely, omitting the bias' norm allows for non-sparse solutions. Penalising the bias terms in the regularisation, either explicitly or implicitly, thus leads to sparse estimators.
翻訳日:2023-11-02 18:08:34 公開日:2023-11-01
# ハイブリッド完全正のマルコフ量子古典力学

Hybrid completely positive Markovian quantum-classical dynamics ( http://arxiv.org/abs/2302.13418v2 )

ライセンス: Link先を確認
Lajos Di\'osi(参考訳) ハイブリッド量子古典力学の簡潔かつ自己完結な導出はマルコフのマスター方程式の項で与えられる。 既知の結果の多くは再帰的、修正され、一部は完成または修正されている。 可能な限り単純な方法を用いることで、我々の目標はハイブリッドダイナミクスの最先端技術を簡単に紹介することであり、基礎となるものについての議論は限られている。 量子重力や化学、数値法など、さらなる関連性について議論する必要はない。 ハイブリッド力学は複合量子力学の特別な場合として定義され、2つのサブシステムのうちの1つの可観測物は、一定の基底で対角作用素の可換集合に制限される。 この制限により、ハイブリッド力学方程式の導出は概念上、かつ技術的に単純である。 ジャンプと拡散力学はハイブリッドマスター方程式の形で従う。 その確率的解釈(unravellings)は導出されている。 本稿では,ゲージ型曖昧さ,一意性の問題,および拡散マスター方程式の共分散について論じる。 また、最小ノイズと量子軌道の監視の条件も導出される。 我々は、ハイブリッド形式主義は時間連続量子測定(監視)の標準マルコフ理論と等価であり、他方では動機付けのある代替形式主義である、と結論付けた。

A concise and self-contained derivation of hybrid quantum-classical dynamics is given in terms of Markovian master equations. Many previously known results are re-derived, revised, some of them completed or corrected. Using as simple method as possible, our goal is a brief introduction to state-of-the-art of hybrid dynamics, with a limited discussion of the implications for foundations. and without discussion of further relevance in quantum-gravity, or chemistry, numeric methods, etc. Hybrid dynamics is defined as special case of composite quantum dynamics where the observables of one of the two subsystems are restricted for the commuting set of diagonal operators in a fixed basis. With this restriction, the derivation of hybrid dynamical equations is clear conceptually and simple technically. Jump and diffusive dynamics follow in the form of hybrid master equations. Their stochastic interpretation (called unravellings) is derived. We discuss gauge-type ambiguities, problems of uniqueness, and covariance of the diffusive master equation. Also conditions of minimum noise and of monitoring the quantum trajectory are derived. We conclude that hybrid formalism is equivalent with standard Markovian theory of time-continuous quantum measurement (monitoring) on one hand, and is a motivating alternative formalism on the other hand.
翻訳日:2023-11-02 18:08:17 公開日:2023-11-01
# 量子コヒーレンスのテレポーテーション

Teleportation of quantum coherence ( http://arxiv.org/abs/2302.11499v2 )

ライセンス: Link先を確認
Sohail, Arun K Pati, Vijeth Aradhya, Indranil Chakrabarty, Subhasree Patro(参考訳) 我々は、未知の量子状態のテレポートに必要なものと比較して、より少ない数の古典ビットを通信することで、未知の量子状態のコヒーレンスをアリスからボブにテレポートできるかどうかを調べる。 任意の量子ビットに対して1ビットの古典的通信でコヒーレンスの完全テレポーテーションを実現することはできない。 しかし、キュービットが部分的に知られている場合、すなわち、ブロッホ球面の赤道円と極円から選ばれるならば、共有資源として最大に絡み合った状態を持つとき、コヒーレンスのテレポーテーションは情報の1ビットの伝達によって可能である。 リソースが最大に絡み合った状態である場合、コヒーレンスを一定の成功確率でテレポートすることができる。 コヒーレンスのための一般的なテレポーテーションプロトコルでは、共有資源状態に対応する完全正の写像と、アリスがキュービットと未知の状態に対応するジョイント povm の組み合わせという観点から、ボブの研究室での最終状態のコンパクトな公式を導出する。 この式を用いて,実行列要素を持つ部分的既知の状態のコヒーレンスのテレポーテーションが,最大に絡み合った状態の資源として完全に可能であることを示す。 さらに、ヴェルナー状態とのコヒーレンスのテレポーテーションを探索し、ヴェルナー状態が分離可能になったとしても、テレポートコヒーレンス量はゼロであり、絡み合いのないコヒーレンスのテレポーテーションの可能性を示している。

We investigate whether it is possible to teleport the coherence of an unknown quantum state from Alice to Bob by communicating a lesser number of classical bits in comparison to what is required for teleporting an unknown quantum state. We find that we cannot achieve perfect teleportation of coherence with one bit of classical communication for an arbitrary qubit. However, we find that if the qubit is partially known, i.e., chosen from the equatorial and polar circles of the Bloch sphere, then teleportation of coherence is possible with the transfer of one cbit of information when we have maximally entangled states as a shared resource. In the case of the resource being a non-maximally entangled state, we can teleport the coherence with a certain probability of success. In a general teleportation protocol for coherence, we derive a compact formula for the final state at Bob's lab in terms of the composition of the completely positive maps corresponding to the shared resource state and joint POVM performed by Alice on her qubit and the unknown state. Using this formula, we show that teleportation of the coherence of a partially known state with real matrix elements is possible perfectly with the help of a maximally entangled state as a resource. Furthermore, we explore the teleportation of coherence with the Werner states and show that even when the Werner states become separable, the amount of teleported coherence is non-zero, implying the possibility of teleportation of coherence without entanglement.
翻訳日:2023-11-02 18:07:59 公開日:2023-11-01
# 物理対称性による解釈可能な低次元表現の学習

Learning Interpretable Low-dimensional Representation via Physical Symmetry ( http://arxiv.org/abs/2302.10890v3 )

ライセンス: Link先を確認
Xuanjie Liu, Daniel Chin, Yichen Huang, Gus Xia(参考訳) 解釈可能な表現学習は、創造的インテリジェントシステムにおいて重要な役割を担っている。 音楽領域では、現在の学習アルゴリズムはピッチ、音色、コード、テクスチャなどの様々な特徴をうまく学習することができる。 しかし、ほとんどの手法は音楽分野の知識に大きく依存している。 一般的な計算原理が解釈可能な表現、特に人間の知覚に合致する低次元の要素を生み出すかという疑問は依然として残されている。 本研究では, 現代物理学から着想を得て, 潜在空間に対する自己抵抗制約として物理対称性を用いる。 具体的には、ある群変換に関して同変であるように潜在状態のダイナミクスを特徴づける先行モデルが必要である。 物理対称性がモデルに,非ラベル単音節音楽音声からの線形ピッチ係数を自己教師あり方式で学習させることを示す。 さらに、同じ方法論をコンピュータビジョンに適用し、ラベルのない単純な移動物体のビデオから3dデカルト空間を学習することができる。 さらに、物理対称性は自然に、サンプル効率を向上させる新しい手法である表現増強につながる。

Interpretable representation learning has been playing a key role in creative intelligent systems. In the music domain, current learning algorithms can successfully learn various features such as pitch, timbre, chord, texture, etc. However, most methods rely heavily on music domain knowledge. It remains an open question what general computational principles give rise to interpretable representations, especially low-dim factors that agree with human perception. In this study, we take inspiration from modern physics and use physical symmetry as a self-consistency constraint for the latent space. Specifically, it requires the prior model that characterises the dynamics of the latent states to be equivariant with respect to certain group transformations. We show that physical symmetry leads the model to learn a linear pitch factor from unlabelled monophonic music audio in a self-supervised fashion. In addition, the same methodology can be applied to computer vision, learning a 3D Cartesian space from videos of a simple moving object without labels. Furthermore, physical symmetry naturally leads to representation augmentation, a new technique which improves sample efficiency.
翻訳日:2023-11-02 18:07:31 公開日:2023-11-01
# 神秘的で操作的なブラックボックス:レコメンダシステムにおける知覚の質的分析

Mysterious and Manipulative Black Boxes: A Qualitative Analysis of Perceptions on Recommender Systems ( http://arxiv.org/abs/2302.09933v4 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) 推薦システムは、様々な事項に関する適切な提案を提供するために使用される。 これらの制度は古典的な研究テーマであるが、これらの制度に関する世論についてはまだ知識が限られている。 システムは様々な問題を引き起こすことが知られているため、世論も重要である。 そこで本研究では,欧州における一般市民,市民団体,企業等の推薦制度に対する認識の質的分析について述べる。 調査されたデータセットは、欧州連合(EU)で最近施行されたデジタルサービス法(DSA)に関する協議に提出された回答に基づいています。 したがって,本論文は,新たな技術やオンラインプラットフォームを規制する上での圧力的問題に寄与するだけでなく,DSAの政策決定に関する洞察も明らかにする。 定性的な結果によると、ヨーロッパ人は概してレコメンダシステムとレコメンデーションの品質について否定的な意見を持っている。 このシステムは、プライバシーやその他の基本的権利を侵害していると広く見られている。 多くのヨーロッパ人によれば、これらもまた民主主義への脅威を含む様々な社会問題を引き起こしている。 さらに、EUの既存の規制は、適切な執行力の欠如により失敗していたと一般的にみられている。 状況改善のための協議について,多くの意見が寄せられたが,DSAに終わったのはごくわずかであった。

Recommender systems are used to provide relevant suggestions on various matters. Although these systems are a classical research topic, knowledge is still limited regarding the public opinion about these systems. Public opinion is also important because the systems are known to cause various problems. To this end, this paper presents a qualitative analysis of the perceptions of ordinary citizens, civil society groups, businesses, and others on recommender systems in Europe. The dataset examined is based on the answers submitted to a consultation about the Digital Services Act (DSA) recently enacted in the European Union (EU). Therefore, not only does the paper contribute to the pressing question about regulating new technologies and online platforms, but it also reveals insights about the policy-making of the DSA. According to the qualitative results, Europeans have generally negative opinions about recommender systems and the quality of their recommendations. The systems are widely seen to violate privacy and other fundamental rights. According to many Europeans, these also cause various societal problems, including even threats to democracy. Furthermore, existing regulations in the EU are commonly seen to have failed due to a lack of proper enforcement. Numerous suggestions were made by the respondents to the consultation for improving the situation, but only a few of these ended up to the DSA.
翻訳日:2023-11-02 18:07:17 公開日:2023-11-01
# 部分と全体間の巡回歩行によるオブジェクト中心学習

Object-centric Learning with Cyclic Walks between Parts and Whole ( http://arxiv.org/abs/2302.08023v2 )

ライセンス: Link先を確認
Ziyu Wang, Mike Zheng Shou, Mengmi Zhang(参考訳) 複雑な自然環境からオブジェクト中心の表現を学習することで、人間と機械の両方が低レベルの知覚的特徴から推論できる。 そこで我々は,視覚変換器から抽出した知覚的特徴と物体との循環ウォークを提案する。 まず、スロットアテンションモジュールがこれらの知覚的特徴とインターフェースし、スロット表現の有限セットを生成する。 これらのスロットは、注目のためにスロット間競争を通じて、シーン内の任意のオブジェクトエンティティにバインドすることができる。 次に,知覚的特徴量("parts")とスロットビン付きオブジェクト表現("whole")の対の類似性に基づいて,高遷移確率に沿って,循環歩行と実体的特徴対応を確立する。 全体は部分よりも大きく、部分全体が全体を構成する。 部品間相互作用のサイクルは、スロットアテンションモジュールをトレーニングするための監督信号として構成される。 textit{three} \textit{unsupervised} タスクにおける \textit{seven} イメージデータセットに関する厳密な実験は、サイクリックウォークでトレーニングされたネットワークが、前景と背景を分離し、オブジェクトを発見し、複雑なシーンで意味オブジェクトをセグメント化できることを示しています。 画素レベルや特徴レベルの再構成のためのデコーダを付加したオブジェクト中心モデルとは対照的に,サイクルウォークは高い学習信号を提供し,計算オーバーヘッドを回避し,メモリ効率を向上させる。 ソースコードとデータは以下の通りである。 \href{https://github.com/ZhangLab-DeepNeuroCogLab/Parts-Whole-Object-Centric-Learning/}{link}。

Learning object-centric representations from complex natural environments enables both humans and machines with reasoning abilities from low-level perceptual features. To capture compositional entities of the scene, we proposed cyclic walks between perceptual features extracted from vision transformers and object entities. First, a slot-attention module interfaces with these perceptual features and produces a finite set of slot representations. These slots can bind to any object entities in the scene via inter-slot competitions for attention. Next, we establish entity-feature correspondence with cyclic walks along high transition probability based on the pairwise similarity between perceptual features (aka "parts") and slot-binded object representations (aka "whole"). The whole is greater than its parts and the parts constitute the whole. The part-whole interactions form cycle consistencies, as supervisory signals, to train the slot-attention module. Our rigorous experiments on \textit{seven} image datasets in \textit{three} \textit{unsupervised} tasks demonstrate that the networks trained with our cyclic walks can disentangle foregrounds and backgrounds, discover objects, and segment semantic objects in complex scenes. In contrast to object-centric models attached with a decoder for the pixel-level or feature-level reconstructions, our cyclic walks provide strong learning signals, avoiding computation overheads and enhancing memory efficiency. Our source code and data are available at: \href{https://github.com/ZhangLab-DeepNeuroCogLab/Parts-Whole-Object-Centric-Learning/}{link}.
翻訳日:2023-11-02 18:06:38 公開日:2023-11-01
# エネルギー変換器

Energy Transformer ( http://arxiv.org/abs/2302.07253v2 )

ライセンス: Link先を確認
Benjamin Hoover, Yuchen Liang, Bao Pham, Rameswar Panda, Hendrik Strobelt, Duen Horng Chau, Mohammed J. Zaki, Dmitry Krotov(参考訳) 我々の研究は、機械学習における有望な3つのパラダイム、すなわち注意機構、エネルギーベースモデル、連想記憶の側面を組み合わせる。 注目は、モダンなディープラーニングの成功を駆動するパワーハウスであるが、明確な理論的基礎が欠けている。 エネルギーベースのモデルでは、識別的および生成的タスクに対する原則的なアプローチが可能であるが、エネルギー汎関数の設計は単純ではない。 同時に、Dense Associative Memory ModelやModern Hopfield Networksは、よく確立された理論基盤を持ち、エネルギー関数の直感的な設計を可能にしている。 本研究では, トークン間の関係を表現できる, 特別に設計されたエネルギー関数を最小化するために設計された, 一連のアテンション層を用いた, エネルギートランスフォーマ (et) と呼ばれる新しいアーキテクチャを提案する。 本研究では,ETの理論的基礎を紹介し,画像補完タスクを用いてその経験的能力を探究し,グラフ異常検出およびグラフ分類タスクに関する強力な定量的結果を得る。

Our work combines aspects of three promising paradigms in machine learning, namely, attention mechanism, energy-based models, and associative memory. Attention is the power-house driving modern deep learning successes, but it lacks clear theoretical foundations. Energy-based models allow a principled approach to discriminative and generative tasks, but the design of the energy functional is not straightforward. At the same time, Dense Associative Memory models or Modern Hopfield Networks have a well-established theoretical foundation, and allow an intuitive design of the energy function. We propose a novel architecture, called the Energy Transformer (or ET for short), that uses a sequence of attention layers that are purposely designed to minimize a specifically engineered energy function, which is responsible for representing the relationships between the tokens. In this work, we introduce the theoretical foundations of ET, explore its empirical capabilities using the image completion task, and obtain strong quantitative results on the graph anomaly detection and graph classification tasks.
翻訳日:2023-11-02 18:06:11 公開日:2023-11-01
# この損失は有益ですか。 客観的ダイナミクスの追跡によるテキスト・画像の高速カスタマイズ

Is This Loss Informative? Faster Text-to-Image Customization by Tracking Objective Dynamics ( http://arxiv.org/abs/2302.04841v3 )

ライセンス: Link先を確認
Anton Voronov, Mikhail Khoroshikh, Artem Babenko, Max Ryabinin(参考訳) テキスト・ツー・イメージ生成モデルは、画像合成における進化の次のステップを表しており、フレキシブルできめ細かい制御を実現する自然な方法を提供する。 新たな研究領域の1つは、より小さなデータセットや新しい視覚概念への大きなテキスト・ツー・イメージモデルの迅速な適応である。 しかし、多くの効率的な適応手法は長いトレーニング時間を持ち、実用的応用を制限し、実験を遅くし、過剰なGPUリソースを消費する。 本研究では,テキストから画像へのパーソナライズ手法(テキストインバージョンやdreamboothなど)の学習ダイナミクスについて検討した。 ほとんどの概念は初期段階で学習され、その後の品質は向上しないが、標準的なトレーニング収束メトリクスはそれを示さない。 そこで我々は,すべての学習イテレーションにおいて,一定の入力セットで正規のトレーニング目標を計算するだけでよい,簡単なドロップイン早期停止基準を提案する。 48の異なる概念に対する安定拡散実験と3つのパーソナライズ手法による実験により,適応度を最大8倍速くし,品質を低下させることなく性能を実証した。

Text-to-image generation models represent the next step of evolution in image synthesis, offering a natural way to achieve flexible yet fine-grained control over the result. One emerging area of research is the fast adaptation of large text-to-image models to smaller datasets or new visual concepts. However, many efficient methods of adaptation have a long training time, which limits their practical applications, slows down experiments, and spends excessive GPU resources. In this work, we study the training dynamics of popular text-to-image personalization methods (such as Textual Inversion or DreamBooth), aiming to speed them up. We observe that most concepts are learned at early stages and do not improve in quality later, but standard training convergence metrics fail to indicate that. Instead, we propose a simple drop-in early stopping criterion that only requires computing the regular training objective on a fixed set of inputs for all training iterations. Our experiments on Stable Diffusion for 48 different concepts and three personalization methods demonstrate the competitive performance of our approach, which makes adaptation up to 8 times faster with no significant drops in quality.
翻訳日:2023-11-02 18:05:53 公開日:2023-11-01
# 射影作用素の最適半古典正則性と強いワイル則

Optimal Semiclassical Regularity of Projection Operators and Strong Weyl Law ( http://arxiv.org/abs/2302.04816v3 )

ライセンス: Link先を確認
Laurent Lafleche(参考訳) 投影作用素は、量子力学や行列過程の研究などの分野におけるスレーター行列式に付随する1粒子密度作用素として自然に現れる。 量子力学の半古典近似の文脈において、射影作用素は不連続函数である位相空間の部分集合の特性関数の類似と見なすことができる。 射影作用素は相空間の標数関数に実際に収束し、量子ソボレフ空間の観点では、標数関数と同じ極大正則性を示すことを証明する。 これは、シャッテンノルムにおける可換体の大きさに関する半古典的漸近として解釈できる。 我々の研究は (J. Chong, L. Lafleche, C. Saffirio, arXiv:2103.10946 [math.AP]) において、射影作用素を初期データとして持つ可能性についての疑問に答えている。 また、位相空間のワイル法則に対するソボレフ空間において強い収束結果を与える。

Projection operators arise naturally as one-particle density operators associated to Slater determinants in fields such as quantum mechanics and the study of determinantal processes. In the context of the semiclassical approximation of quantum mechanics, projection operators can be seen as the analogue of characteristic functions of subsets of the phase space, which are discontinuous functions. We prove that projection operators indeed converge to characteristic functions of the phase space and that in terms of quantum Sobolev spaces, they exhibit the same maximal regularity as characteristic functions. This can be interpreted as a semiclassical asymptotic on the size of commutators in Schatten norms. Our study answers a question raised in [J. Chong, L. Lafleche, C. Saffirio, arXiv:2103.10946 [math.AP]] about the possibility of having projection operators as initial data. It also gives a strong convergence result in Sobolev spaces for the Weyl law in phase space.
翻訳日:2023-11-02 18:05:31 公開日:2023-11-01
# ニューラルネットワークのニューラルネットワークカーネルサロゲートモデルによる忠実かつ効率的な説明

Faithful and Efficient Explanations for Neural Networks via Neural Tangent Kernel Surrogate Models ( http://arxiv.org/abs/2305.14585v4 )

ライセンス: Link先を確認
Andrew Engel, Zhichao Wang, Natalie S. Frank, Ioana Dumitriu, Sutanay Choudhury, Anand Sarwate, Tony Chiang(参考訳) 説明可能なAI研究の最近のトレンドは、ニューラルネットワークをカーネルマシンのような単純なMLアルゴリズムとして近似する代理モデリングに焦点を当てている。 第2の傾向は、さまざまな説明バイサンプルやデータ属性タスクにおけるカーネル関数を使用して、さまざまなニューラルネットワークの振る舞いを調べることである。 本研究では、これらの2つのトレンドを組み合わせて、データ属性に近似した経験的ニューラルネットワークカーネル(eNTK)を解析する。 近似は、eNTKを計算するのに高い計算コストのため、eNTK分析に不可欠である。 我々は、新しい近似eNTKを定義し、結果のカーネルマシンサロゲートモデルと基盤となるニューラルネットワークとの相関性について、新しい分析を行う。 本稿では,計算の時間とメモリの複雑さをユーザが調整できる近似entkの2つの新しいランダム投影方式を提案する。 ニューラルネットワークカーネルをカーネル関数として用いたカーネルマシンは実効的なサロゲートモデルであり,提案したトレースNTKが最も一貫した性能を示す。

A recent trend in explainable AI research has focused on surrogate modeling, where neural networks are approximated as simpler ML algorithms such as kernel machines. A second trend has been to utilize kernel functions in various explain-by-example or data attribution tasks to investigate a diverse set of neural network behavior. In this work, we combine these two trends to analyze approximate empirical neural tangent kernels (eNTK) for data attribution. Approximation is critical for eNTK analysis due to the high computational cost to compute the eNTK. We define new approximate eNTK and perform novel analysis on how well the resulting kernel machine surrogate models correlate with the underlying neural network. We introduce two new random projection variants of approximate eNTK which allow users to tune the time and memory complexity of their calculation. We conclude that kernel machines using approximate neural tangent kernel as the kernel function are effective surrogate models, with the introduced trace NTK the most consistent performer.
翻訳日:2023-11-02 17:57:25 公開日:2023-11-01
# 局所エネルギー分布に基づく確率的アニーリングのハイパーパラメータ決定

Local Energy Distribution Based Hyperparameter Determination for Stochastic Simulated Annealing ( http://arxiv.org/abs/2304.11839v4 )

ライセンス: Link先を確認
Naoya Onizawa, Kyo Kuroki, Duckgyu Shin, Takahiro Hanyu(参考訳) 本稿では,局所エネルギー分布に基づく確率的模擬焼鈍(SSA)のためのハイパーパラメータ決定法を提案する。 SSAは、一般的な模擬焼鈍(SA)よりも高速に組合せ最適化問題を解くことができるが、時間を要するハイパーパラメーター探索が必要である。 提案手法はスピン(確率ビット)の局所エネルギー分布に基づいてハイパーパラメータを決定する。 スピンはSSAの基本計算要素であり、その重みで他のスピンとグラフィカルに接続されている。 局所エネルギーの分布は中心極限定理(CLT)に基づいて推定できる。 CLTに基づく正規分布は、従来の手法のO(n^3)からO(1)へのハイパーパラメータ探索の時間的複雑さを低減するために用いられる。 最大カット問題に対するGsetおよびK2000ベンチマークにおいて,決定されたハイパーパラメータを用いたSSAの性能を評価する。 その結果,提案手法は最もよく知られたカット値の約98%の平均カット値が得られることがわかった。

This paper presents a local energy distribution based hyperparameter determination for stochastic simulated annealing (SSA). SSA is capable of solving combinatorial optimization problems faster than typical simulated annealing (SA), but requires a time-consuming hyperparameter search. The proposed method determines hyperparameters based on the local energy distributions of spins (probabilistic bits). The spin is a basic computing element of SSA and is graphically connected to other spins with its weights. The distribution of the local energy can be estimated based on the central limit theorem (CLT). The CLT-based normal distribution is used to determine the hyperparameters, which reduces the time complexity for hyperparameter search from O(n^3) of the conventional method to O(1). The performance of SSA with the determined hyperparameters is evaluated on the Gset and K2000 benchmarks for maximum-cut problems. The results show that the proposed method achieves mean cut values of approximately 98% of the best-known cut values.
翻訳日:2023-11-02 17:57:07 公開日:2023-11-01
# 乳幼児の泣き声の弱さ検出

Weakly Supervised Detection of Baby Cry ( http://arxiv.org/abs/2304.10001v2 )

ライセンス: Link先を確認
Weijun Tan(参考訳) 乳幼児の泣き声の検出は乳児のモニタリングと健康管理の重要な部分である。 既存のほとんどのメソッドは、教師付きSVM、CNN、またはそれらの変種を使用する。 本研究では,乳児の泣き声を検出するために弱い教師付き異常検出法を提案する。 この弱い監視では、オーディオファイルに泣き声がある場合にのみ弱いアノテーションが必要である。 我々は、VGGish特徴抽出器と、長い音声ファイルの異常検出ネットワークを用いて、データマイニング手法を設計する。 得られたデータセットは、簡単なCNN機能ネットワークをトレーニングして、Cry/non-cry分類を行う。 次に、このCNNを異常検出フレームワークの機能抽出器として使用し、より優れた低温検出性能を実現する。

Detection of baby cries is an important part of baby monitoring and health care. Almost all existing methods use supervised SVM, CNN, or their varieties. In this work, we propose to use weakly supervised anomaly detection to detect a baby cry. In this weak supervision, we only need weak annotation if there is a cry in an audio file. We design a data mining technique using the pre-trained VGGish feature extractor and an anomaly detection network on long untrimmed audio files. The obtained datasets are used to train a simple CNN feature network for cry/non-cry classification. This CNN is then used as a feature extractor in an anomaly detection framework to achieve better cry detection performance.
翻訳日:2023-11-02 17:56:50 公開日:2023-11-01
# 非教師なし画像再構成のための腐敗構造の発見

Discovering Structure From Corruption for Unsupervised Image Reconstruction ( http://arxiv.org/abs/2304.05589v2 )

ライセンス: Link先を確認
Oscar Leong and Angela F. Gao and He Sun and Katherine L. Bouman(参考訳) 未解決画像や地中サンプルにアクセスせずに逆問題を解くことを検討する。 これらの逆問題における過大な課題は、観測された測定値と矛盾しない多くの画像を含む無限の数の画像が一致していることである。 したがって、より望ましいレコンストラクションへの可能なソリューションのスペースを減らすために、画像の優先順位が必要となる。 しかし、多くのアプリケーションでは、前もって画像を構築するためにサンプル画像を取得することは困難または不可能である。 したがって、不正確な前もしばしば使われ、必然的に偏りのある解となる。 本研究では,任意の画像の空間構造を符号化する先行問題を用いて逆問題を解決する代わりに,画像の集合構造に事前制約を組み込んだ逆問題集合を共同で解くことを提案する。 私たちの研究の重要な前提は、再構築を目指す基盤となるイメージが共通の低次元構造を共有することである。 共有画像生成器を低次元の潜在空間で推定することにより,先行して空間画像を用いることなく,このような逆問題を同時に解くことができることを示す。 ジェネレータと潜伏埋め込みのパラメータは、エビデンス下界(ELBO)のプロキシを最大化することによって得られる。 認識されると、生成元と潜伏埋め込みを組み合わせ、逆問題毎に再構成された画像を提供する。 我々が提案するフレームワークは, 一般的な前方モデル破壊を処理可能であり, 少数の地上画像 (\leqslant 150$) から得られる測定値のみが画像再構成に十分であることを示す。 我々は,様々な凸および非凸逆問題に対して,雑音除去,位相検索,ブラックホール映像再構成などのアプローチを実証する。

We consider solving ill-posed imaging inverse problems without access to an image prior or ground-truth examples. An overarching challenge in these inverse problems is that an infinite number of images, including many that are implausible, are consistent with the observed measurements. Thus, image priors are required to reduce the space of possible solutions to more desirable reconstructions. However, in many applications it is difficult or potentially impossible to obtain example images to construct an image prior. Hence inaccurate priors are often used, which inevitably result in biased solutions. Rather than solving an inverse problem using priors that encode the spatial structure of any one image, we propose to solve a set of inverse problems jointly by incorporating prior constraints on the collective structure of the underlying images. The key assumption of our work is that the underlying images we aim to reconstruct share common, low-dimensional structure. We show that such a set of inverse problems can be solved simultaneously without the use of a spatial image prior by instead inferring a shared image generator with a low-dimensional latent space. The parameters of the generator and latent embeddings are found by maximizing a proxy for the Evidence Lower Bound (ELBO). Once identified, the generator and latent embeddings can be combined to provide reconstructed images for each inverse problem. The framework we propose can handle general forward model corruptions, and we show that measurements derived from only a small number of ground-truth images ($\leqslant 150$) are sufficient for image reconstruction. We demonstrate our approach on a variety of convex and non-convex inverse problems, including denoising, phase retrieval, and black hole video reconstruction.
翻訳日:2023-11-02 17:56:18 公開日:2023-11-01
# chatgptにおけるマルチステップ脱獄プライバシー攻撃

Multi-step Jailbreaking Privacy Attacks on ChatGPT ( http://arxiv.org/abs/2304.05197v3 )

ライセンス: Link先を確認
Haoran Li, Dadi Guo, Wei Fan, Mingshi Xu, Jie Huang, Fanpu Meng, Yangqiu Song(参考訳) 大規模言語モデル(llm)の急速な進歩により、下流のnlpタスクの多くは適切なプロンプトによってうまく解決できる。 モデル開発者や研究者は、LDMから有害なコンテンツを生成するのを避けるためにダイアログ安全性に懸命に取り組んでいますが、AIGC(AIGC)を人間の利益のために活用することは依然として困難です。 強力なLLMは、様々なドメインからの既存のテキストデータ(例えば、GPT-3は45TBのテキストで訓練されている)を盗んでいるため、プライベート情報がトレーニングデータに含まれるかどうか、これらのLLMとその下流アプリケーションが提供するプライバシー上の脅威を疑うのは当然である。 本稿では,OpenAI の ChatGPT と ChatGPT によって強化された New Bing によるプライバシの脅威を調査し,アプリケーション統合 LLM が新たなプライバシの脅威を引き起こすことを示す。 この目的のために,我々の主張を裏付ける広範な実験を行い,LLMのプライバシーへの影響について論じる。

With the rapid progress of large language models (LLMs), many downstream NLP tasks can be well solved given appropriate prompts. Though model developers and researchers work hard on dialog safety to avoid generating harmful content from LLMs, it is still challenging to steer AI-generated content (AIGC) for the human good. As powerful LLMs are devouring existing text data from various domains (e.g., GPT-3 is trained on 45TB texts), it is natural to doubt whether the private information is included in the training data and what privacy threats can these LLMs and their downstream applications bring. In this paper, we study the privacy threats from OpenAI's ChatGPT and the New Bing enhanced by ChatGPT and show that application-integrated LLMs may cause new privacy threats. To this end, we conduct extensive experiments to support our claims and discuss LLMs' privacy implications.
翻訳日:2023-11-02 17:55:49 公開日:2023-11-01
# 時系列からネットワークを推測する:ニューラルネットワーク

Inferring networks from time series: a neural approach ( http://arxiv.org/abs/2303.18059v3 )

ライセンス: Link先を確認
Thomas Gaskin, Grigorios A. Pavliotis, Mark Girolami(参考訳) ネットワーク構造は、遺伝子規制や食品ウェブから電力網やソーシャルメディアに至るまで、多くの複雑な現象のダイナミクスを基盤としている。 しかし、しばしば直接観測できないため、それらの結合性はそれらが生み出す力学の観測から推測されなければならない。 本研究では,ニューラルネットワークを用いた時系列データから大規模ネットワーク隣接行列を推定する強力な計算手法を提案する。 これは他のアプローチが欠如している機能である。 本手法は,イギリス電力網の故障箇所を電力カットに対する応答から推定し,各エッジに確率密度を与え,仮説検定を用いて切断位置について有意義な確率的記述を行うことにより,その性能を実証する。 提案手法は, マルコフ連鎖モンテカルロサンプリング法と, ノイズデータに対する最小2乗回帰法と, 問題を過小評価した場合には, 自然に非線形力学に拡張し, ロンドンにおける非線形経済活動モデル全体のコスト行列を学習することによって, より正確であることを示す。 ネットワーク推論のために特別に設計されていないこの手法は、実際には任意の高次元パラメータ空間に適用可能な一般的なパラメータ推定スキームを表している。

Network structures underlie the dynamics of many complex phenomena, from gene regulation and foodwebs to power grids and social media. Yet, as they often cannot be observed directly, their connectivities must be inferred from observations of the dynamics to which they give rise. In this work we present a powerful computational method to infer large network adjacency matrices from time series data using a neural network, in order to provide uncertainty quantification on the prediction in a manner that reflects both the degree to which the inference problem is underdetermined as well as the noise on the data. This is a feature that other approaches have hitherto been lacking. We demonstrate our method's capabilities by inferring line failure locations in the British power grid from its response to a power cut, providing probability densities on each edge and allowing the use of hypothesis testing to make meaningful probabilistic statements about the location of the cut. Our method is significantly more accurate than both Markov-chain Monte Carlo sampling and least squares regression on noisy data and when the problem is underdetermined, while naturally extending to the case of non-linear dynamics, which we demonstrate by learning an entire cost matrix for a non-linear model of economic activity in Greater London. Not having been specifically engineered for network inference, this method in fact represents a general parameter estimation scheme that is applicable to any high-dimensional parameter space.
翻訳日:2023-11-02 17:55:21 公開日:2023-11-01
# KPEval: キーワード抽出・生成システムのきめ細かいセマンティック評価を目指して

KPEval: Towards Fine-grained Semantic-based Evaluation of Keyphrase Extraction and Generation Systems ( http://arxiv.org/abs/2303.15422v2 )

ライセンス: Link先を確認
Di Wu, Da Yin, Kai-Wei Chang(参考訳) キーフレーズ抽出法やキーフレーズ生成法の進歩にもかかわらず、評価のための主要なアプローチは、人間の参照との正確なマッチングと参照なし属性の無視にのみ依存する。 このスキームは、実用性を持つ参照や多様なキーフレーズと意味的に等価なキーフレーズを生成するシステムを認識するのに失敗する。 KPEvalは,キーフレーズシステムの性能をよりよく評価するために,正当性,忠実性,多様性,有用性という4つの重要な側面からなる総合的な評価フレームワークである。 各次元について、評価目標に合致する意味に基づくメトリクスを設計する。 メタ評価研究により,評価戦略と人間の嗜好との関係が,これまで用いられてきた指標と比較して良好であることが判明した。 本フレームワークを用いて20のキーフレーズシステムを再評価し,(1) 最良モデルが評価次元によって異なること,(2) 下流タスクの実用性が基準ベースの指標と必ずしも相関しないこと,(3) GPT-3.5 のような大規模言語モデルは基準のない評価において高い性能を示すこと,などを明らかにする。

Despite the significant advancements in keyphrase extraction and keyphrase generation methods, the predominant approach for evaluation only relies on exact matching with human references and disregards reference-free attributes. This scheme fails to recognize systems that generate keyphrases semantically equivalent to the references or diverse keyphrases that carry practical utility. To better assess the capability of keyphrase systems, we propose KPEval, a comprehensive evaluation framework consisting of four critical dimensions: saliency, faithfulness, diversity, and utility. For each dimension, we design semantic-based metrics that align with the evaluation objectives. Meta-evaluation studies demonstrate that our evaluation strategy correlates better with human preferences compared to a range of previously used metrics. Using this framework, we re-evaluate 20 keyphrase systems and further discover that (1) the best model differs depending on the evaluation dimension; (2) the utility in downstream tasks does not always correlate with reference-based metrics; and (3) large language models like GPT-3.5 exhibit a strong performance under reference-free evaluation.
翻訳日:2023-11-02 17:54:58 公開日:2023-11-01
# コラボレーションAIの根と要件

Roots and Requirements for Collaborative AIs ( http://arxiv.org/abs/2303.12040v3 )

ライセンス: Link先を確認
Mark Stefik(参考訳) AI協力者のビジョンは、長い間物語やSFの主役であり、人工エージェントはコラボレーションと人間のコミュニケーションのニュアンスを理解する。 彼らは人間のパートナーやチームを支援し、特別な才能を持っている。 AIの政府諮問グループとリーダーは、AIは人間互換で効果的な協力者であるべきだと長年主張してきた。 それでも、才能のある人たちのように協力する堅牢なAIは、まだ手の届かないままだ。 人間の知能を増強する効果的な情報ツールというより単純な夢は、1960年代にルーツを持ち、おそらく情報技術革命の原動力となった。 新型コロナウイルス(COVID-19)のパンデミック以降、ハイブリッドワークとリモートワークの大幅な増加に伴い、より良いコーディネーション、コラボレーション、コミュニケーションのためのメリットと要件が職場に焦点が当てられている。 多くの要因(例えば、職場近くの住宅のコストなど)は、オフィスでの仕事に戻ることを妨げている。 より良いツールが必要な場合、私たちのツールはいかに人工知能(AI)が必要か? このポジションペーパーは、テクノロジーのアークをレビューし、人間と機械の連携を求める。 効果的で堅牢なコラボレーションが必要なのかを分析するため、心理学と社会科学に焦点をあてている。 現在の主流AIは、堅牢でインテリジェントで、人間と互換性のある協力者を生み出すことはできない、と主張する第2の論文(Stefik & Price, 2023)の文脈である。 むしろ、技術と方法論の急進的な変化が必要です。

The vision of AI collaborators has long been a staple of stories and science fiction, where artificial agents understand nuances of collaboration and human communication. They assist their human partners and teams and have special talents. Government advisory groups and leaders in AI have advocated for years that AIs should be human compatible and effective collaborators. Nonetheless, robust AIs that collaborate like talented people remain out of reach. The simpler dream of effective information tools that augment human intelligence (IA) has its roots in the 1960s and arguably helped drive an information technology revolution. With the vast increase in hybrid and remote work since the COVID pandemic, the benefits and requirements for better coordination, collaboration, and communication are in focus for the workplace. Many factors (such as the costs of homes near work) are impeding a return to in-person work at the office. If we need better tools, how artificially intelligent (AI) should our tools be? This position paper reviews the arc of technology and calls for human-machine teaming. It draws on psychology and social sciences for an analysis of what effective and robust collaboration requires. It is the context for a second paper (Stefik & Price, 2023) that argues that current mainstream AI cannot produce robust, intelligent, and human-compatible collaborators. Rather, a radical shift in technology and methodology is required.
翻訳日:2023-11-02 17:54:38 公開日:2023-11-01
# 深層学習におけるバッチの正規化

Making Batch Normalization Great in Federated Deep Learning ( http://arxiv.org/abs/2303.06530v2 )

ライセンス: Link先を確認
Jike Zhong, Hong-You Chen, Wei-Lun Chao(参考訳) バッチ正規化(BN)は、現代のディープラーニングにおいて、集中訓練における安定性の向上と収束のスピードアップのために一般的に用いられる。 非IID分散データを用いたフェデレートラーニング(FL)において、以前の研究は、BNを用いたトレーニングが、トレーニングとテストの間のBN統計のミスマッチによりパフォーマンスを阻害することを示した。 したがって、群正規化(GN)は BN の代替として FL でよく用いられる。 本稿では、クライアントとサーバ間の高周波通信においてもBNが劣る、FLにおけるBNのより根本的な問題を特定する。 そこで我々は、BNを大幅に改善し、幅広いFL設定でGNを性能良くするフラストレーション的に単純な治療法を提案する。 また,本研究とともに,FLにおけるBNの不合理な挙動も明らかにした。 FLが大幅に劣化すると考えられる低周波通信方式では,非常に堅牢である。 この研究が将来のflの実用的利用と理論的分析に有用な参考となることを願っている。

Batch Normalization (BN) is commonly used in modern deep learning to improve stability and speed up convergence in centralized training. In federated learning (FL) with non-IID decentralized data, previous works observed that training with BN could hinder performance due to the mismatch of the BN statistics between training and testing. Group Normalization (GN) is thus more often used in FL as an alternative to BN. In this paper, we identify a more fundamental issue of BN in FL that makes BN inferior even with high-frequency communication between clients and servers. We then propose a frustratingly simple treatment, which significantly improves BN and makes it outperform GN across a wide range of FL settings. Along with this study, we also reveal an unreasonable behavior of BN in FL. We find it quite robust in the low-frequency communication regime where FL is commonly believed to degrade drastically. We hope that our study could serve as a valuable reference for future practical usage and theoretical analysis in FL.
翻訳日:2023-11-02 17:53:48 公開日:2023-11-01
# 並列ハイブリッドネットワーク:量子ニューラルネットワークと古典ニューラルネットワークの相互作用

Parallel Hybrid Networks: an interplay between quantum and classical neural networks ( http://arxiv.org/abs/2303.03227v2 )

ライセンス: Link先を確認
Mo Kordzanganeh, Daria Kosichkina, Alexey Melnikov(参考訳) 量子ニューラルネットワークは、最近注目を集めている新しい機械学習パラダイムを表している。 特定の条件下では、これらのモデルは計算されたフーリエ級数でデータセットの分布を近似する。 この適合の三角性の性質は、与えられたデータセットの非調和的特徴に収まるのに苦労する角度埋め込み量子ニューラルネットワークをもたらす可能性がある。 さらに、ニューラルネットワークの解釈可能性も課題である。 本研究では、データセットの入力を並列に渡すハイブリッド量子ニューラルネットワークの新しい解釈可能なクラスを導入する。 1)古典的な多層パーセプトロンと 2) 変分量子回路、次に2つの出力が線形に結合される。 量子ニューラルネットワークは、トレーニングセット上に滑らかな正弦波基底を作り、その後、古典的なパーセプトロンが風景の非調和ギャップを埋めることを観測する。 この主張を,周期分布からサンプリングした2つの合成データセットで実証する。 トレーニングの結果,並列ハイブリッドネットワークアーキテクチャは,雑音を付加した周期データセットの解の最適性を向上する可能性が示唆された。

Quantum neural networks represent a new machine learning paradigm that has recently attracted much attention due to its potential promise. Under certain conditions, these models approximate the distribution of their dataset with a truncated Fourier series. The trigonometric nature of this fit could result in angle-embedded quantum neural networks struggling to fit the non-harmonic features in a given dataset. Moreover, the interpretability of neural networks remains a challenge. In this work, we introduce a new, interpretable class of hybrid quantum neural networks that pass the inputs of the dataset in parallel to 1) a classical multi-layered perceptron and 2) a variational quantum circuit, and then the outputs of the two are linearly combined. We observe that the quantum neural network creates a smooth sinusoidal foundation base on the training set, and then the classical perceptrons fill the non-harmonic gaps in the landscape. We demonstrate this claim on two synthetic datasets sampled from periodic distributions with added protrusions as noise. The training results indicate that the parallel hybrid network architecture could improve the solution optimality on periodic datasets with additional noise.
翻訳日:2023-11-02 17:53:31 公開日:2023-11-01
# 欧州連合における政治広告の透明性向上法についての一考察

A Note on the Proposed Law for Improving the Transparency of Political Advertising in the European Union ( http://arxiv.org/abs/2303.02863v5 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) 世界中で政治広告の供給と需要が高まっている。 同時に、外国政府や他の悪役による選挙妨害のような社会的な脅威は、多くの民主政治において迫る懸念となっている。 さらに、外国軍や国内軍による選挙結果の操作は、基本的権利を心配している多くの市民の関心事であり続けている。 この目的のために、欧州連合(EU)はこの問題に取り組むためのいくつかの取り組みを開始した。 2020年には、政治広告の透明性を高めるための新しい規制が提案された。 この短い解説は提案された規制を見直し、その制限と潜在的な影響についていくつかの点を提起する。

There is an increasing supply and demand for political advertising throughout the world. At the same time, societal threats, such as election interference by foreign governments and other bad actors, continues to be a pressing concern in many democracies. Furthermore, manipulation of electoral outcomes, whether by foreign or domestic forces, continues to be a concern of many citizens who are also worried about their fundamental rights. To these ends, the European Union (EU) has launched several initiatives for tackling the issues. A new regulation was proposed in 2020 also for improving the transparency of political advertising in the union. This short commentary reviews the regulation proposed and raises a few points about its limitations and potential impacts.
翻訳日:2023-11-02 17:52:56 公開日:2023-11-01
# SaliencyCut: 異常検出のための可塑性異常の増大

SaliencyCut: Augmenting Plausible Anomalies for Anomaly Detection ( http://arxiv.org/abs/2306.08366v2 )

ライセンス: Link先を確認
Jianan Ye, Yijie Hu, Xi Yang, Qiu-Feng Wang, Chao Huang, Kaizhu Huang(参考訳) オープンセットシナリオ下での異常検出は、トレーニング中に認識されなかった異常を検出するために、識別的きめ細かな特徴の学習を必要とする課題である。 安価で効果的なアプローチとして、データ拡張は、そのようなモデルのトレーニングを改善するために擬似異常を作成するために広く使われている。 拡張手法の最近の知恵は、ランダムな擬似インスタンスの生成に焦点が当てられており、これにより、拡張インスタンスと異常が混ざり合ったり、典型的な異常範囲から外れたりする可能性がある。 この問題に対処するため,本論文では,疑似だがより一般的な異常を発生させるために,サリエンシー誘導型データ拡張手法であるsaliencycutを提案する。 さらに,各サンプルの異常スコアを学習するために,正規および異常学習ヘッドからなる2頭学習戦略を展開した。 理論的解析により、このメカニズムはより扱いやすく、データログライクな下限を提供することが示された。 次に、各サンプルから微細な異常特徴を抽出・評価し、異常事例の識別表現の学習を容易にするために、異常学習ヘッドにパッチワイド残余モジュールを新たに設計する。 6つの実世界の異常検出データセットで実施した大規模な実験は,様々な条件下での競合手法に対する本手法の優位性を実証している。

Anomaly detection under open-set scenario is a challenging task that requires learning discriminative fine-grained features to detect anomalies that were even unseen during training. As a cheap yet effective approach, data augmentation has been widely used to create pseudo anomalies for better training of such models. Recent wisdom of augmentation methods focuses on generating random pseudo instances that may lead to a mixture of augmented instances with seen anomalies, or out of the typical range of anomalies. To address this issue, we propose a novel saliency-guided data augmentation method, SaliencyCut, to produce pseudo but more common anomalies which tend to stay in the plausible range of anomalies. Furthermore, we deploy a two-head learning strategy consisting of normal and anomaly learning heads, to learn the anomaly score of each sample. Theoretical analyses show that this mechanism offers a more tractable and tighter lower bound of the data log-likelihood. We then design a novel patch-wise residual module in the anomaly learning head to extract and assess the fine-grained anomaly features from each sample, facilitating the learning of discriminative representations of anomaly instances. Extensive experiments conducted on six real-world anomaly detection datasets demonstrate the superiority of our method to competing methods under various settings.
翻訳日:2023-11-02 17:44:16 公開日:2023-11-01
# 最初の推測バイアス:未訓練のネットワークがクラスをいかに好んでいるか

Initial Guessing Bias: How Untrained Networks Favor Some Classes ( http://arxiv.org/abs/2306.00809v2 )

ライセンス: Link先を確認
Emanuele Francazi, Aurelien Lucchi, Marco Baity-Jesi(参考訳) ニューラルネットワークの初期状態は、その後のトレーニングダイナミクスの調整において中心的な役割を果たす。 分類問題の文脈では、ニューラルネットワークの構造が、トレーニングの開始前や明示的なバイアスがない場合でも、全ての予測を同じクラスに割り当てるようにモデルを条件付けることができることを示す理論的分析を提供する。 IGB(Initial Guessing Bias)と呼ばれるこの現象の存在は、アクティベーション関数、最大プール層、ネットワーク深さといったアーキテクチャ上の選択に依存する。 IGBの分析は、アーキテクチャの選択と初期化のガイドとなる実践的な結果をもたらす。 また,ノード置換対称性の分解,自己評価の違反,平均場近似の妥当性,深さによる非自明な相違など,理論的な結果も強調する。

The initial state of neural networks plays a central role in conditioning the subsequent training dynamics. In the context of classification problems, we provide a theoretical analysis demonstrating that the structure of a neural network can condition the model to assign all predictions to the same class, even before the beginning of training, and in the absence of explicit biases. We show that the presence of this phenomenon, which we call "Initial Guessing Bias" (IGB), depends on architectural choices such as activation functions, max-pooling layers, and network depth. Our analysis of IGB has practical consequences, in that it guides architecture selection and initialization. We also highlight theoretical consequences, such as the breakdown of node-permutation symmetry, the violation of self-averaging, the validity of some mean-field approximations, and the non-trivial differences arising with depth.
翻訳日:2023-11-02 17:43:51 公開日:2023-11-01
# GANと正規化フローを用いた生成モデルのための高精度リコールダイバージェンス最適化

Precision-Recall Divergence Optimization for Generative Modeling with GANs and Normalizing Flows ( http://arxiv.org/abs/2305.18910v2 )

ライセンス: Link先を確認
Alexandre Verine, Benjamin Negrevergne, Muni Sreenivas Pydi, Yann Chevaleyre(参考訳) 画像品質(精度)と多様性(リコール)のバランスをとることは、生成モデルの領域において重要な課題である。 現在の最先端モデルは、主にFr'echet Inception Distanceのようなヒューリスティックの最適化に依存している。 近年の研究では、精度とリコールを評価するための原理的手法が導入されているが、生成モデルの訓練にうまく統合されていない。 本研究の主な貢献は,精度とリコールの間のユーザ定義トレードオフを明示的に最適化する生成的逆ネットワークや正規化フローなど,生成モデルに対する新たなトレーニング手法である。 より正確には、特定の精密呼び出しトレードオフを達成することは、私たちが \textit{pr-divergences}と呼ぶファミリーから一意な$f$-divergenceを最小化することを意味する。 逆に、$f$-divergence はPR-divergences の線形結合として記述することができ、重み付けされた精度-リコールトレードオフに対応する。 包括的評価により,ImageNetなどのデータセットでテストした場合に,BigGANのような既存の最先端モデルの性能が向上することを示す。

Achieving a balance between image quality (precision) and diversity (recall) is a significant challenge in the domain of generative models. Current state-of-the-art models primarily rely on optimizing heuristics, such as the Fr\'echet Inception Distance. While recent developments have introduced principled methods for evaluating precision and recall, they have yet to be successfully integrated into the training of generative models. Our main contribution is a novel training method for generative models, such as Generative Adversarial Networks and Normalizing Flows, which explicitly optimizes a user-defined trade-off between precision and recall. More precisely, we show that achieving a specified precision-recall trade-off corresponds to minimizing a unique $f$-divergence from a family we call the \textit{PR-divergences}. Conversely, any $f$-divergence can be written as a linear combination of PR-divergences and corresponds to a weighted precision-recall trade-off. Through comprehensive evaluations, we show that our approach improves the performance of existing state-of-the-art models like BigGAN in terms of either precision or recall when tested on datasets such as ImageNet.
翻訳日:2023-11-02 17:43:36 公開日:2023-11-01
# シャドウ検出:ビデオシャドウ検出のためのセグメンテーション

Detect Any Shadow: Segment Anything for Video Shadow Detection ( http://arxiv.org/abs/2305.16698v2 )

ライセンス: Link先を確認
Yonghui Wang, Wengang Zhou, Yunyao Mao, Houqiang Li(参考訳) Segment Any Model (SAM) は自然画像セグメンテーションの分野で大きな成功を収めた。 それでもSAMは、影を背景と見なす傾向にあり、したがってそれらにセグメンテーションを行わない。 本稿では,影検出のためのSAMを微調整するための簡易かつ効果的なフレームワークであるShadowSAMを提案する。 さらに, 長時間の注意機構と組み合わせることで, 効率的な映像シャドー検出機能を拡張する。 具体的には、地上の真実影マスクから得られた境界ボックスを利用して、ViShaトレーニングデータセット上でSAMを微調整する。 そして、推論段階では、特定のフレーム(例えば、第1のフレーム)を検出するバウンディングボックスを提供することで、ユーザインタラクションをシミュレートする。 その後,検出したシャドウマスクを先行として,遠隔フレーム間の空間的相関と隣接フレーム間の時間的一貫性を学習し,映像フレーム間の正確なシャドウ情報伝達を実現する。 本手法の有効性を実証し,MAEおよびIoU測定値における最先端手法よりも有意な差が認められた。 また,従来の映像シャドウ検出手法と比較して,推定速度を高速化し,その効果と効率を検証した。 ソースコードはhttps://github.com/harrytea/Detect-AnyShadowで公開されている。

Segment anything model (SAM) has achieved great success in the field of natural image segmentation. Nevertheless, SAM tends to consider shadows as background and therefore does not perform segmentation on them. In this paper, we propose ShadowSAM, a simple yet effective framework for fine-tuning SAM to detect shadows. Besides, by combining it with long short-term attention mechanism, we extend its capability for efficient video shadow detection. Specifically, we first fine-tune SAM on ViSha training dataset by utilizing the bounding boxes obtained from the ground truth shadow mask. Then during the inference stage, we simulate user interaction by providing bounding boxes to detect a specific frame (e.g., the first frame). Subsequently, using the detected shadow mask as a prior, we employ a long short-term network to learn spatial correlations between distant frames and temporal consistency between adjacent frames, thereby achieving precise shadow information propagation across video frames. Extensive experimental results demonstrate the effectiveness of our method, with notable margin over the state-of-the-art approaches in terms of MAE and IoU metrics. Moreover, our method exhibits accelerated inference speed compared to previous video shadow detection approaches, validating the effectiveness and efficiency of our method. The source code is now publicly available at https://github.com/harrytea/Detect-AnyShadow.
翻訳日:2023-11-02 17:42:58 公開日:2023-11-01
# 室内シーン認識のための意味誘導空間関係とオブジェクト共起モデル

Semantic-guided spatial relation and object co-occurrence modeling for indoor scene recognition ( http://arxiv.org/abs/2305.12661v2 )

ライセンス: Link先を確認
Chuanxin Song, Hanbo Wu, Xin Ma, Yibin Li(参考訳) シーンイメージのセマンティックコンテキストの探索は,屋内シーン認識に不可欠である。 しかし、クラス内空間レイアウトの多様性とクラス間オブジェクトの共存により、様々な画像特性に適応するための文脈関係のモデル化は大きな課題となっている。 室内シーン認識のための既存の文脈モデル手法には2つの限界がある。 1) トレーニング中、色などの空間に依存しない情報は、ネットワークの空間的文脈を表現する能力の最適化を妨げる可能性がある。 2)これらの手法は,異なるシーンにまたがるオブジェクトの相違を見落とし,シーン認識性能を抑える。 これらの制約に対処するために,意味的セグメンテーションに基づくオブジェクトの空間的関係と共起を同時にモデル化するSpaCoNetを提案する。 まず,シーン内のオブジェクト間の空間関係を探索するために,意味空間関係モジュール(SSRM)を設計する。 セマンティックセグメンテーションの助けを借りて、このモジュールは画像から空間情報を分離し、無関係な特徴の影響を効果的に回避する。 第2に、SSRMの空間的コンテキスト特徴と画像特徴抽出モジュールの深い特徴の両方を用いて、異なるシーン間で共存するオブジェクトを識別する。 最後に,上記の識別的特徴を生かして,物体間の長距離共起を探索し,さらに,室内シーン認識のための意味的誘導特徴表現を生成する。 広範に使用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。 ブラインドレビュープロセスが完了した後、コードは公開されます。

Exploring the semantic context in scene images is essential for indoor scene recognition. However, due to the diverse intra-class spatial layouts and the coexisting inter-class objects, modeling contextual relationships to adapt various image characteristics is a great challenge. Existing contextual modeling methods for indoor scene recognition exhibit two limitations: 1) During training, space-independent information, such as color, may hinder optimizing the network's capacity to represent the spatial context. 2) These methods often overlook the differences in coexisting objects across different scenes, suppressing scene recognition performance. To address these limitations, we propose SpaCoNet, which simultaneously models the Spatial relation and Co-occurrence of objects based on semantic segmentation. Firstly, the semantic spatial relation module (SSRM) is designed to explore the spatial relation among objects within a scene. With the help of semantic segmentation, this module decouples the spatial information from the image, effectively avoiding the influence of irrelevant features. Secondly, both spatial context features from the SSRM and deep features from the Image Feature Extraction Module are used to distinguish the coexisting object across different scenes. Finally, utilizing the discriminative features mentioned above, we employ the self-attention mechanism to explore the long-range co-occurrence among objects, and further generate a semantic-guided feature representation for indoor scene recognition. Experimental results on three widely used scene datasets demonstrate the effectiveness and generality of the proposed method. The code will be made publicly available after the blind review process is completed.
翻訳日:2023-11-02 17:42:15 公開日:2023-11-01
# PTQD:拡散モデルのための正確な後処理量子化

PTQD: Accurate Post-Training Quantization for Diffusion Models ( http://arxiv.org/abs/2305.10657v4 )

ライセンス: Link先を確認
Yefei He, Luping Liu, Jing Liu, Weijia Wu, Hong Zhou, Bohan Zhuang(参考訳) 拡散モデルは最近画像合成タスクを支配している。 しかし、反復的復調処理は推論時の計算に高価であり、低レイテンシでスケーラブルな実世界のアプリケーションでは拡散モデルが実用的でない。 拡散モデルのポストトレーニング量子化(PTQ)は、モデルのサイズを著しく減らし、再トレーニングせずにサンプリングプロセスを加速することができる。 それでも、既存のPTQ法を直接低ビット拡散モデルに適用することは、生成したサンプルの品質を著しく損なう可能性がある。 具体的には、分別ステップ毎に、量子化ノイズが推定平均の偏差を生じさせ、所定の分散スケジュールとミスマッチする。 サンプリングプロセスが進むにつれて、量子化ノイズが蓄積され、後の復調段階において低信号対雑音比(SNR)となる。 そこで本研究では, 量子化雑音と拡散摂動雑音を統一的に定式化する手法を提案する。 具体的には、まず量子化ノイズを、その完全精度に関する相関および残余の非相関部分に分解する。 相関係数を推定することにより、相関部を容易に補正することができる。 非相関部については、量子化結果からバイアスを減じて平均偏差を補正し、分別分散スケジュールを校正し、量子化によって生じる余分な分散を吸収する。 さらに,各段階で最適なビット幅を選択するための混合精度方式を提案する。 広範な実験により,imagenet 256x256 の完全な精度 ldm-4 と比較すると,前回のトレーニング後の量子化拡散モデルよりも優れており,fid スコアは 0.06 % 向上した。 コードはhttps://github.com/ziplab/ptqdで入手できる。

Diffusion models have recently dominated image synthesis tasks. However, the iterative denoising process is expensive in computations at inference time, making diffusion models less practical for low-latency and scalable real-world applications. Post-training quantization (PTQ) of diffusion models can significantly reduce the model size and accelerate the sampling process without re-training. Nonetheless, applying existing PTQ methods directly to low-bit diffusion models can significantly impair the quality of generated samples. Specifically, for each denoising step, quantization noise leads to deviations in the estimated mean and mismatches with the predetermined variance schedule. As the sampling process proceeds, the quantization noise may accumulate, resulting in a low signal-to-noise ratio (SNR) during the later denoising steps. To address these challenges, we propose a unified formulation for the quantization noise and diffusion perturbed noise in the quantized denoising process. Specifically, we first disentangle the quantization noise into its correlated and residual uncorrelated parts regarding its full-precision counterpart. The correlated part can be easily corrected by estimating the correlation coefficient. For the uncorrelated part, we subtract the bias from the quantized results to correct the mean deviation and calibrate the denoising variance schedule to absorb the excess variance resulting from quantization. Moreover, we introduce a mixed-precision scheme for selecting the optimal bitwidth for each denoising step. Extensive experiments demonstrate that our method outperforms previous post-training quantized diffusion models, with only a 0.06 increase in FID score compared to full-precision LDM-4 on ImageNet 256x256, while saving 19.9x bit operations. Code is available at https://github.com/ziplab/PTQD.
翻訳日:2023-11-02 17:41:50 公開日:2023-11-01
# 抽象的多文書要約のための階層的符号化復号法

A Hierarchical Encoding-Decoding Scheme for Abstractive Multi-document Summarization ( http://arxiv.org/abs/2305.08503v5 )

ライセンス: Link先を確認
Chenhui Shen, Liying Cheng, Xuan-Phi Nguyen, Yang You, Lidong Bing(参考訳) 事前訓練された言語モデル(PLM)は、抽象的な単一文書要約(SDS)において優れた成果を上げている。 しかし、そのような利点は、クロスドキュメント情報の扱いがより複雑であるマルチドキュメント要約(MDS)に完全には及ばない。 以前の作業では、新しいMDSアーキテクチャを設計するか、コンカレントソースドキュメントを簡潔にPLMを修正SDSタスクとして適用するかのどちらかであった。 前者は以前の事前訓練を使わず、異なる領域でうまく一般化できないかもしれないが、後者はMDSタスク特有の複雑な文書間関係に十分に対応していない。 代わりに、エンコーダとデコーダの両方に階層構造を適用し、MDSタスクのマルチドキュメントインタラクションを容易にするためにPLMをよりよく活用する。 様々な領域からの10のMDSベンチマークにおいて,本手法は,MDS事前学習やパラメータの増大など,従来のベストモデルと競合する。 対応するplmバックボーンを最大3ルージュlで上回り、人間に好まれている。

Pre-trained language models (PLMs) have achieved outstanding achievements in abstractive single-document summarization (SDS). However, such benefits may not fully extend to multi-document summarization (MDS), where the handling of cross-document information is more complex. Previous works either design new MDS architectures or apply PLMs bluntly with concatenated source documents as a reformulated SDS task. While the former does not utilize previous pre-training efforts and may not generalize well across different domains, the latter may not sufficiently attend to the intricate cross-document relationships unique to MDS tasks. Instead, we enforce hierarchy on both the encoder and decoder to better utilize a PLM to facilitate multi-document interactions for the MDS task. Across 10 MDS benchmarks from various domains, our method outperforms or is competitive with the previous best models, including those with additional MDS pre-training or with more parameters. It outperforms its corresponding PLM backbone by up to 3 Rouge-L and is favored by humans.
翻訳日:2023-11-02 17:41:23 公開日:2023-11-01
# SCENE: 否定的事例への外挿のための自己ラベル型対策

SCENE: Self-Labeled Counterfactuals for Extrapolating to Negative Examples ( http://arxiv.org/abs/2305.07984v2 )

ライセンス: Link先を確認
Deqing Fu, Ameya Godbole, Robin Jia(参考訳) 否定を検知する(非包含関係、未解決問題、虚偽主張など)ことは、多くの自然言語理解タスクにおいて重要かつ困難な側面である。 手動による挑戦的なネガティブな例の収集は、モデルの検出に役立つが、コストとドメイン固有性の両方がある。 本研究では,課題となる否定的な例を検出するモデルの能力を大幅に向上させるトレーニングデータの合成手法であるscene(expolating to negative examples)を提案する。 既存のラベルの新しい例を合成する標準的なデータ拡張とは対照的に、SCENEは正の例のみから負の例をゼロショットに合成することができる。 正の例が与えられた場合、SCENEはマスク満載モデルでそれを摂動し、その結果の例が自己学習ヒューリスティックに基づいて負かどうかを決定する。 回答可能なトレーニング例のみを使用することで、studio 2.0でトレーニングされたモデルと比較して、studio 2.0のパフォーマンスギャップの69.6%をクローズすることができる。 また,本手法は,文の包含度を認識してブール質問応答に拡張し,SQuADからACE-whQAへの一般化を改善する。

Detecting negatives (such as non-entailment relationships, unanswerable questions, and false claims) is an important and challenging aspect of many natural language understanding tasks. Though manually collecting challenging negative examples can help models detect them, it is both costly and domain-specific. In this work, we propose Self-labeled Counterfactuals for Extrapolating to Negative Examples (SCENE), an automatic method for synthesizing training data that greatly improves models' ability to detect challenging negative examples. In contrast with standard data augmentation, which synthesizes new examples for existing labels, SCENE can synthesize negative examples zero-shot from only positive ones. Given a positive example, SCENE perturbs it with a mask infilling model, then determines whether the resulting example is negative based on a self-training heuristic. With access to only answerable training examples, SCENE can close 69.6% of the performance gap on SQuAD 2.0, a dataset where half of the evaluation examples are unanswerable, compared to a model trained on SQuAD 2.0. Our method also extends to boolean question answering and recognizing textual entailment, and improves generalization from SQuAD to ACE-whQA, an out-of-domain extractive QA benchmark.
翻訳日:2023-11-02 17:40:37 公開日:2023-11-01
# プロキシ変数を用いたサブサンプル時系列からの因果発見

Causal Discovery from Subsampled Time Series with Proxy Variables ( http://arxiv.org/abs/2305.05276v4 )

ライセンス: Link先を確認
Mingzhou Liu, Xinwei Sun, Lingjing Hu, Yizhou Wang(参考訳) 時系列データから因果構造を推測することは、多くの科学調査の中心的な関心事である。 このような推論の大きな障壁は、サブサンプリングの問題、すなわち測定頻度が因果影響のそれよりもはるかに低いことである。 この問題を解決するために、多くの方法が提案されているが、線形ケースに制限されたり、識別可能性の達成に失敗したりする。 本稿では,パラメータ制約を伴わずに,サブサンプリング時系列から因果構造全体を同定する制約に基づくアルゴリズムを提案する。 我々の観察では、サブサンプリングの課題は、主に観測されていない時間ステップの隠れ変数から生じている。 一方、隠れた変数には観測可能なプロキシがあり、これは本質的には将来観測可能な時間であり、時間構造から恩恵を受ける。 これらに基づいて、プロキシを利用して隠れた変数によって引き起こされるバイアスを取り除き、identifiabilityを達成することができる。 この直感に従って,プロキシに基づく因果探索アルゴリズムを提案する。 我々のアルゴリズムは非パラメトリックであり、完全な因果識別を実現することができる。 理論上の利点は、合成および実世界の実験に反映される。

Inferring causal structures from time series data is the central interest of many scientific inquiries. A major barrier to such inference is the problem of subsampling, i.e., the frequency of measurement is much lower than that of causal influence. To overcome this problem, numerous methods have been proposed, yet either was limited to the linear case or failed to achieve identifiability. In this paper, we propose a constraint-based algorithm that can identify the entire causal structure from subsampled time series, without any parametric constraint. Our observation is that the challenge of subsampling arises mainly from hidden variables at the unobserved time steps. Meanwhile, every hidden variable has an observed proxy, which is essentially itself at some observable time in the future, benefiting from the temporal structure. Based on these, we can leverage the proxies to remove the bias induced by the hidden variables and hence achieve identifiability. Following this intuition, we propose a proxy-based causal discovery algorithm. Our algorithm is nonparametric and can achieve full causal identification. Theoretical advantages are reflected in synthetic and real-world experiments.
翻訳日:2023-11-02 17:40:12 公開日:2023-11-01
# 中間スーパービジョンのないニューラルアルゴリズム推論

Neural Algorithmic Reasoning Without Intermediate Supervision ( http://arxiv.org/abs/2306.13411v2 )

ライセンス: Link先を確認
Gleb Rodionov, Liudmila Prokhorenkova(参考訳) ニューラルネットワーク推論は、ソートや最短経路などの古典的なアルゴリズムの実行を模倣できるモデルを構築することに焦点を当てた、機械学習の新たな領域である。 主な課題の1つは、アウト・オブ・ディストリビューションデータ、特にはるかに大きな入力サイズで一般化できるアルゴリズムを学習することである。 この問題に関する最近の研究は、学習アルゴリズムの利点を段階的に証明し、モデルが元のアルゴリズムのすべての中間ステップにアクセスできるようにする。 本研究では,中間監督に訴えることなく,入力出力ペアからのみニューラルネットワークの推論を学ぶことに焦点を当てる。 我々は,単純かつ効果的なアーキテクチャ改善を提案し,アルゴリズムの軌道にアクセスせずにモデルの中間計算を正す自己教師付き目標を構築する。 提案手法は,clrsアルゴリズム推論ベンチマークによるタスクの軌道教師付き対応と競合することを実証し,ソートなどいくつかの問題に対して新たな最先端結果を達成し,大幅な改善が得られた。 したがって、中間的監督のない学習は、神経推論のさらなる研究にとって有望な方向である。

Neural algorithmic reasoning is an emerging area of machine learning focusing on building models that can imitate the execution of classic algorithms, such as sorting, shortest paths, etc. One of the main challenges is to learn algorithms that are able to generalize to out-of-distribution data, in particular with significantly larger input sizes. Recent work on this problem has demonstrated the advantages of learning algorithms step-by-step, giving models access to all intermediate steps of the original algorithm. In this work, we instead focus on learning neural algorithmic reasoning only from the input-output pairs without appealing to the intermediate supervision. We propose simple but effective architectural improvements and also build a self-supervised objective that can regularise intermediate computations of the model without access to the algorithm trajectory. We demonstrate that our approach is competitive to its trajectory-supervised counterpart on tasks from the CLRS Algorithmic Reasoning Benchmark and achieves new state-of-the-art results for several problems, including sorting, where we obtain significant improvements. Thus, learning without intermediate supervision is a promising direction for further research on neural reasoners.
翻訳日:2023-11-02 17:31:57 公開日:2023-11-01
# OpenGSL: グラフ構造学習のための総合ベンチマーク

OpenGSL: A Comprehensive Benchmark for Graph Structure Learning ( http://arxiv.org/abs/2306.10280v2 )

ライセンス: Link先を確認
Zhiyao Zhou, Sheng Zhou, Bochao Mao, Xuanyi Zhou, Jiawei Chen, Qiaoyu Tan, Daochen Zha, Yan Feng, Chun Chen, Can Wang(参考訳) グラフニューラルネットワーク(GNN)は、グラフトポロジとノード属性を効果的に統合する能力のため、グラフ上での表現学習のデファクトスタンダードとして登場した。 しかし、グラフの複雑で連続的な生成過程から生じるノード接続の固有な最適部分性質は、それらを効果的にモデル化する上で大きな課題を提起する。 この問題に対処するために、データ中心の学習アプローチのファミリであるグラフ構造学習(GSL)が近年注目を集めている。 GSLの中核となる概念は、グラフ構造と対応するGNNモデルを協調的に最適化することである。 多くのGSL手法の提案にもかかわらず、データセットのバリエーション、データ処理技術、分割戦略など、一貫性のない実験プロトコルのため、この分野の進展はいまだ不明である。 本稿では,このギャップに対処することを目的とした,GSLの最初の総合ベンチマークであるOpenGSLを紹介する。 OpenGSLは、均一なデータ処理と分割戦略を使用して、様々な一般的なデータセットで評価することで、最先端のGSLメソッドの公平な比較を可能にする。 広範な実験により、既存のGSL法はバニラGNN法よりも一貫して優れているわけではないことが観察された。 また,学習構造と課題性能との間には有意な相関関係が見られず,共通の信念に異議を唱えている。 さらに,学習したグラフ構造は,高い計算量と空間消費にもかかわらず,異なるGNNモデル間で強力な一般化能力を示す。 当社のオープンソースライブラリは,迅速かつ公平な評価を促進するとともに,この分野におけるさらなる革新的な研究を促すことを願っている。 ベンチマークのコードはhttps://github.com/OpenGSL/OpenGSLで確認できる。

Graph Neural Networks (GNNs) have emerged as the de facto standard for representation learning on graphs, owing to their ability to effectively integrate graph topology and node attributes. However, the inherent suboptimal nature of node connections, resulting from the complex and contingent formation process of graphs, presents significant challenges in modeling them effectively. To tackle this issue, Graph Structure Learning (GSL), a family of data-centric learning approaches, has garnered substantial attention in recent years. The core concept behind GSL is to jointly optimize the graph structure and the corresponding GNN models. Despite the proposal of numerous GSL methods, the progress in this field remains unclear due to inconsistent experimental protocols, including variations in datasets, data processing techniques, and splitting strategies. In this paper, we introduce OpenGSL, the first comprehensive benchmark for GSL, aimed at addressing this gap. OpenGSL enables a fair comparison among state-of-the-art GSL methods by evaluating them across various popular datasets using uniform data processing and splitting strategies. Through extensive experiments, we observe that existing GSL methods do not consistently outperform vanilla GNN counterparts. We also find that there is no significant correlation between the homophily of the learned structure and task performance, challenging the common belief. Moreover, we observe that the learned graph structure demonstrates a strong generalization ability across different GNN models, despite the high computational and space consumption. We hope that our open-sourced library will facilitate rapid and equitable evaluation and inspire further innovative research in this field. The code of the benchmark can be found in https://github.com/OpenGSL/OpenGSL.
翻訳日:2023-11-02 17:31:06 公開日:2023-11-01
# schr\"odingerのブリッジの構築:連続的エントロピー最適輸送ベンチマーク

Building the Bridge of Schr\"odinger: A Continuous Entropic Optimal Transport Benchmark ( http://arxiv.org/abs/2306.10161v2 )

ライセンス: Link先を確認
Nikita Gushchin, Alexander Kolesov, Petr Mokrov, Polina Karpikova, Andrey Spiridonov, Evgeny Burnaev, Alexander Korotin(参考訳) ここ数年にわたり、schr\"odinger bridge (sb)問題に対する神経解法の開発と生成的モデリングへの応用は大きな進歩を遂げてきた。 この新たな研究分野は、実用的に優れた拡散モデルと理論上は接地されたエントロピー最適輸送(EOT)と相互接続されているため、好ましく有益である。 それでも、この領域は非自明なテストに欠けており、研究者はメソッドがSBや同等の連続EOT問題をいかにうまく解くかを理解することができる。 我々はこのギャップを埋め、基底真理 ot 解が構成によって知られている確率分布のペアを作成する新しい方法を提案する。 我々の手法は汎用的であり、幅広いOT定式化、特に、SBと等価なEOT(本研究の主な関心事)をカバーしている。 この開発により、画像空間のような高次元空間上の既知の eot と sb の解を用いた連続ベンチマーク分布を作成できる。 実例として、これらのベンチマークペアを使用して、既存のニューラルネットワークEOT/SBソルバが実際にEOTソリューションをどれだけよく計算しているかをテストする。 異なるセットアップでベンチマークペアを構築するためのコードは、https://github.com/ngushchin/EntropicOTBenchmark.comで利用可能です。

Over the last several years, there has been significant progress in developing neural solvers for the Schr\"odinger Bridge (SB) problem and applying them to generative modelling. This new research field is justifiably fruitful as it is interconnected with the practically well-performing diffusion models and theoretically grounded entropic optimal transport (EOT). Still, the area lacks non-trivial tests allowing a researcher to understand how well the methods solve SB or its equivalent continuous EOT problem. We fill this gap and propose a novel way to create pairs of probability distributions for which the ground truth OT solution is known by the construction. Our methodology is generic and works for a wide range of OT formulations, in particular, it covers the EOT which is equivalent to SB (the main interest of our study). This development allows us to create continuous benchmark distributions with the known EOT and SB solutions on high-dimensional spaces such as spaces of images. As an illustration, we use these benchmark pairs to test how well existing neural EOT/SB solvers actually compute the EOT solution. Our code for constructing benchmark pairs under different setups is available at: https://github.com/ngushchin/EntropicOTBenchmark.
翻訳日:2023-11-02 17:30:37 公開日:2023-11-01
# 隠れ畳み込みにおける因果関係の組込み予測間隔

Ensembled Prediction Intervals for Causal Outcomes Under Hidden Confounding ( http://arxiv.org/abs/2306.09520v2 )

ライセンス: Link先を確認
Myrl G. Marmarelis, Greg Ver Steeg, Aram Galstyan, Fred Morstatter(参考訳) 隠れた共同創設者の存在下での正確な個別治療結果の因果推論はめったに不可能である。 近年の研究では,隠れ結合に対する感度モデルを用いて,有限サンプルによる予測区間を拡張し,部分同定可能な因果結果を生成する。 ディープラーニングでは、インダクティブバイアスを利用して、サンプルからよりよい一般化を行うことができる。 深層アンサンブルに固有の構造は、それらが予測する因果的結果のより厳密な部分的同定を知らせるべきである。 そこで本研究では,変調アンサンブルによる因果結果間隔を特徴付ける手法として,caus-modensを提案する。 そこで本研究では,既存の因果感度モデルを用いた部分的同定法を提案するとともに,十分なカバレッジを達成するために必要な間隔サイズで測定したcaus-modensがより厳密な結果区間を与えることを示す。 最後の3つの多様なベンチマークは、未知だが探究可能な基底真理を持つ観測実験のためのgpt-4の新しい使用である。

Causal inference of exact individual treatment outcomes in the presence of hidden confounders is rarely possible. Recent work has extended prediction intervals with finite-sample guarantees to partially identifiable causal outcomes, by means of a sensitivity model for hidden confounding. In deep learning, predictors can exploit their inductive biases for better generalization out of sample. We argue that the structure inherent to a deep ensemble should inform a tighter partial identification of the causal outcomes that they predict. We therefore introduce an approach termed Caus-Modens, for characterizing causal outcome intervals by modulated ensembles. We present a simple approach to partial identification using existing causal sensitivity models and show empirically that Caus-Modens gives tighter outcome intervals, as measured by the necessary interval size to achieve sufficient coverage. The last of our three diverse benchmarks is a novel usage of GPT-4 for observational experiments with unknown but probeable ground truth.
翻訳日:2023-11-02 17:30:16 公開日:2023-11-01
# ClimSim:ハイブリッド物理-ML気候エミュレーションのための大規模マルチスケールデータセット

ClimSim: A large multi-scale dataset for hybrid physics-ML climate emulation ( http://arxiv.org/abs/2306.08754v4 )

ライセンス: Link先を確認
Sungduk Yu, Walter Hannah, Liran Peng, Jerry Lin, Mohamed Aziz Bhouri, Ritwik Gupta, Bj\"orn L\"utjens, Justus Christopher Will, Gunnar Behrens, Julius Busecke, Nora Loose, Charles I Stern, Tom Beucler, Bryce Harrop, Benjamin R Hillman, Andrea Jenney, Savannah Ferretti, Nana Liu, Anima Anandkumar, Noah D Brenowitz, Veronika Eyring, Nicholas Geneva, Pierre Gentine, Stephan Mandt, Jaideep Pathak, Akshay Subramaniam, Carl Vondrick, Rose Yu, Laure Zanna, Tian Zheng, Ryan Abernathey, Fiaz Ahmed, David C Bader, Pierre Baldi, Elizabeth Barnes, Christopher Bretherton, Peter Caldwell, Wayne Chuang, Yilun Han, Yu Huang, Fernando Iglesias-Suarez, Sanket Jantre, Karthik Kashinath, Marat Khairoutdinov, Thorsten Kurth, Nicholas Lutsko, Po-Lun Ma, Griffin Mooers, J. David Neelin, David Randall, Sara Shamekh, Mark A Taylor, Nathan Urban, Janni Yuval, Guang Zhang, Michael Pritchard(参考訳) 現代の気候予測は、計算の制約による空間的および時間的解決が不十分である。 その結果は、嵐のような臨界過程の不正確で不正確な予測である。 物理と機械学習(ML)を組み合わせたハイブリッドな手法は、新しい世代の高忠実度気候シミュレータを導入し、計算ハングリーで短い高解像度のシミュレーションをMLエミュレータにアウトソーシングすることでムーアの法則を助長することができる。 しかし、このハイブリッドML-物理シミュレーションアプローチは、ドメイン固有の治療を必要としており、トレーニングデータや関連する、使いやすいワークフローがないため、MLの専門家にはアクセスできない。 ClimSimは、ハイブリッドML物理研究のために設計された、史上最大のデータセットである。 気候科学者とML研究者のコンソーシアムによって開発されたマルチスケール気候シミュレーションを含んでいる。 570億対の多変量入力および出力ベクトルからなり、ホストの気候シミュレータのマクロスケールの物理状態に対する局所ネスト、高分解能、高忠実性物理学の影響を分離する。 データセットはグローバルにカバーされており、複数年にわたってサンプリング頻度が高く、結果としてエミュレータがダウンストリーム結合と互換性を持つように設計されている。 我々は,MLの課題とその得点を明らかにするために,決定論的および確率的回帰ベースラインを実装した。 データ(https://huggingface.co/datasets/LEAP/ClimSim_high-res)とコード(https://leap-stc.github.io/ClimSim)は、科学と社会の利益のために、ハイブリッドML物理と高忠実度気候シミュレーションの開発を支援するために公開されている。

Modern climate projections lack adequate spatial and temporal resolution due to computational constraints. A consequence is inaccurate and imprecise predictions of critical processes such as storms. Hybrid methods that combine physics with machine learning (ML) have introduced a new generation of higher fidelity climate simulators that can sidestep Moore's Law by outsourcing compute-hungry, short, high-resolution simulations to ML emulators. However, this hybrid ML-physics simulation approach requires domain-specific treatment and has been inaccessible to ML experts because of lack of training data and relevant, easy-to-use workflows. We present ClimSim, the largest-ever dataset designed for hybrid ML-physics research. It comprises multi-scale climate simulations, developed by a consortium of climate scientists and ML researchers. It consists of 5.7 billion pairs of multivariate input and output vectors that isolate the influence of locally-nested, high-resolution, high-fidelity physics on a host climate simulator's macro-scale physical state. The dataset is global in coverage, spans multiple years at high sampling frequency, and is designed such that resulting emulators are compatible with downstream coupling into operational climate simulators. We implement a range of deterministic and stochastic regression baselines to highlight the ML challenges and their scoring. The data (https://huggingface.co/datasets/LEAP/ClimSim_high-res) and code (https://leap-stc.github.io/ClimSim) are released openly to support the development of hybrid ML-physics and high-fidelity climate simulations for the benefit of science and society.
翻訳日:2023-11-02 17:30:00 公開日:2023-11-01
# 一般統計モデルに対するZiv-Zakai型誤差境界

Ziv-Zakai-type error bounds for general statistical models ( http://arxiv.org/abs/2306.08660v2 )

ライセンス: Link先を確認
Mankei Tsang(参考訳) パラメータ空間 $\Theta$ が一般であり、$\beta(\theta)$ が$\theta$ の線型函数でなくてもよいとき、パラメータ $\beta:\Theta \to \mathbb R$ を推定するためのベイズ誤差上の Ziv-Zakai 型下界を提案する。

I propose Ziv-Zakai-type lower bounds on the Bayesian error for estimating a parameter $\beta:\Theta \to \mathbb R$ when the parameter space $\Theta$ is general and $\beta(\theta)$ need not be a linear function of $\theta$.
翻訳日:2023-11-02 17:29:24 公開日:2023-11-01
# PoET:配列配列としてのタンパク質ファミリーの生成モデル

PoET: A generative model of protein families as sequences-of-sequences ( http://arxiv.org/abs/2306.06156v3 )

ライセンス: Link先を確認
Timothy F. Truong Jr, Tristan Bepler(参考訳) 生成タンパク質言語モデルは、望ましい機能を持つ新しいタンパク質を設計する自然な方法である。 しかしながら、現在のモデルでは、特定の関心ファミリーからタンパク質を生産することは困難であるか、特定の関心ファミリーから大きな多重配列アライメント(MSA)を訓練する必要があるため、家族間での伝達学習の恩恵を受けられない。 この問題に対処するために、我々は、何千万もの天然タンパク質配列の配列として関連タンパク質の集合を生成することを学ぶタンパク質ファミリー全体の自己回帰生成モデルである、$\textbf{P}$r$\textbf{o}$tein $\textbf{E}$volutionary $\textbf{T}$ransformer (PoET)を提案する。 PoETは、関心のあるタンパク質ファミリーで条件付けられた任意の変更を生成し、スコア付けするための検索強化言語モデルとして使用することができ、短いコンテキスト長から外挿して、小さなファミリーでもうまく一般化することができる。 これはユニークなトランスフォーマー層によって実現されており、シーケンス間の順序を不変に保ちながらシーケンス内でトークンを逐次モデル化することで、トレーニング中に使用されるもの以上のコンテキスト長にスケールすることができる。 深部突然変異走査型データセットに関する広範囲な実験において,各msa深部タンパク質間の変異関数予測のための既存のタンパク質言語モデルと進化シーケンスモデルに勝ることを示す。 また、新しいタンパク質配列を制御的に生成するPoETの能力を実証する。

Generative protein language models are a natural way to design new proteins with desired functions. However, current models are either difficult to direct to produce a protein from a specific family of interest, or must be trained on a large multiple sequence alignment (MSA) from the specific family of interest, making them unable to benefit from transfer learning across families. To address this, we propose $\textbf{P}$r$\textbf{o}$tein $\textbf{E}$volutionary $\textbf{T}$ransformer (PoET), an autoregressive generative model of whole protein families that learns to generate sets of related proteins as sequences-of-sequences across tens of millions of natural protein sequence clusters. PoET can be used as a retrieval-augmented language model to generate and score arbitrary modifications conditioned on any protein family of interest, and can extrapolate from short context lengths to generalize well even for small families. This is enabled by a unique Transformer layer; we model tokens sequentially within sequences while attending between sequences order invariantly, allowing PoET to scale to context lengths beyond those used during training. In extensive experiments on deep mutational scanning datasets, we show that PoET outperforms existing protein language models and evolutionary sequence models for variant function prediction across proteins of all MSA depths. We also demonstrate PoET's ability to controllably generate new protein sequences.
翻訳日:2023-11-02 17:29:15 公開日:2023-11-01
# SNAP:視覚的位置決めと意味理解のための自己監督型ニューラルネットワーク

SNAP: Self-Supervised Neural Maps for Visual Positioning and Semantic Understanding ( http://arxiv.org/abs/2306.05407v2 )

ライセンス: Link先を確認
Paul-Edouard Sarlin, Eduard Trulls, Marc Pollefeys, Jan Hosang, Simon Lynen(参考訳) セマンティック2Dマップは、人間や機械が歩いたり運転したりするために一般的に使われている。 しかし、これらのマップには制限があり、詳細が欠落し、しばしば不正確な情報が含まれ、特に自動化された方法で作成と維持が困難である。 生画像を使って、人間と機械の両方で容易に解釈できるより良い地図を自動生成できますか? 我々は、地上と頭上の画像からリッチなニューラル2Dマップを学習するディープネットワークSNAPを紹介する。 我々は、異なる入力から推定されるニューラルマップの整列をトレーニングし、何千万ものストリートビュー画像のカメラポーズでのみ監視する。 SNAPは、従来の手法のリーチを超えた、挑戦的な画像クエリの場所を解決し、ローカライゼーションの最先端を大きなマージンで上回る。 さらに,我々のニューラルマップは,幾何学や外観だけでなく,明示的な監督なしに発見された高レベル意味論もエンコードしている。 これにより、データ効率の良いセマンティックシーン理解のための効果的な事前学習が可能になり、より詳細な地図の作成に費用効率がかかる可能性がある。

Semantic 2D maps are commonly used by humans and machines for navigation purposes, whether it's walking or driving. However, these maps have limitations: they lack detail, often contain inaccuracies, and are difficult to create and maintain, especially in an automated fashion. Can we use raw imagery to automatically create better maps that can be easily interpreted by both humans and machines? We introduce SNAP, a deep network that learns rich neural 2D maps from ground-level and overhead images. We train our model to align neural maps estimated from different inputs, supervised only with camera poses over tens of millions of StreetView images. SNAP can resolve the location of challenging image queries beyond the reach of traditional methods, outperforming the state of the art in localization by a large margin. Moreover, our neural maps encode not only geometry and appearance but also high-level semantics, discovered without explicit supervision. This enables effective pre-training for data-efficient semantic scene understanding, with the potential to unlock cost-efficient creation of more detailed maps.
翻訳日:2023-11-02 17:28:45 公開日:2023-11-01
# 最適輸送モデル分布ロバスト性

Optimal Transport Model Distributional Robustness ( http://arxiv.org/abs/2306.04178v2 )

ライセンス: Link先を確認
Van-Anh Nguyen, Trung Le, Anh Tuan Bui, Thanh-Toan Do, and Dinh Phung(参考訳) 分散ロバスト性は、敵対的な例やデータ分散シフトに弱いディープラーニングモデルをトレーニングするための有望なフレームワークである。 これまでの研究は主に、データ空間における分散ロバスト性を活用することに焦点を当ててきた。 本研究では,モデル空間における最適輸送に基づく分布ロバスト性フレームワークについて検討する。 具体的には, 損失を最大化するモデル分布に着目したワッサースタイン球内のモデル分布について検討する。 我々は、最適なロバストな中心モデル分布を学習できる理論を開発した。 興味深いことに、我々の発達した理論は、中心モデル分布の特定の形式を考慮して、単一のモデル、アンサンブルモデル、ベイズニューラルネットワークなど、シャープネス認知の概念を訓練に柔軟に組み込むことができる。 これらの形式には、1つのモデル上のディラックデルタ分布、複数のモデル上の均一分布、一般的なベイズニューラルネットワークが含まれる。 さらに,シャープネス・アウェアの最小化 (SAM) が単一モデル上でのディラックデルタ分布を用いた場合の,我々のフレームワークがSAMの確率的拡張であることを示す。 このフレームワークの有効性を検証するために,我々は広範囲な実験を行い,ベースラインと比較して顕著な改善が得られた。

Distributional robustness is a promising framework for training deep learning models that are less vulnerable to adversarial examples and data distribution shifts. Previous works have mainly focused on exploiting distributional robustness in the data space. In this work, we explore an optimal transport-based distributional robustness framework in model spaces. Specifically, we examine a model distribution within a Wasserstein ball centered on a given model distribution that maximizes the loss. We have developed theories that enable us to learn the optimal robust center model distribution. Interestingly, our developed theories allow us to flexibly incorporate the concept of sharpness awareness into training, whether it's a single model, ensemble models, or Bayesian Neural Networks, by considering specific forms of the center model distribution. These forms include a Dirac delta distribution over a single model, a uniform distribution over several models, and a general Bayesian Neural Network. Furthermore, we demonstrate that Sharpness-Aware Minimization (SAM) is a specific case of our framework when using a Dirac delta distribution over a single model, while our framework can be seen as a probabilistic extension of SAM. To validate the effectiveness of our framework in the aforementioned settings, we conducted extensive experiments, and the results reveal remarkable improvements compared to the baselines.
翻訳日:2023-11-02 17:27:58 公開日:2023-11-01
# 不完全XAIが人間-AI意思決定に及ぼす影響

The Impact of Imperfect XAI on Human-AI Decision-Making ( http://arxiv.org/abs/2307.13566v2 )

ライセンス: Link先を確認
Katelyn Morrison, Philipp Spitzer, Violet Turri, Michelle Feng, Niklas K\"uhl, Adam Perer(参考訳) 様々な協調作業環境におけるヒューマンAI意思決定を改善するための説明可能性技術が急速に開発されている。 その結果、より人間中心のコンピュータ支援協調ツールを設計することを目的として、意思決定者が不完全なaiとどのように連携するかを評価した。 意思決定者によるAIとのコラボレーションを改善するために、人間中心で説明可能なAI(XAI)技術がいくつか提案されているが、これらのテクニックは、主に不正なAIアドバイスの影響に焦点を当てた以前の研究の結果に基づいている。 たとえAIのアドバイスが正しいとしても、説明が正しくないことを認める研究はほとんどない。 したがって、XAIの不完全性が人間とAIの意思決定にどのように影響するかを理解することが重要である。 本研究は,鳥種識別課題における不正確な説明が人間の意思決定行動にどのように影響を与えるかを評価するために,136名の被験者によるロバストで混合手法のユーザ調査を行った。 この結果から,AIと人間-AIチームパフォーマンスへの不完全なXAIと人間の専門知識レベルの影響が明らかになった。 また、人間とaiのコラボレーションにおいて、いかに説明が意思決定者をだますかについても論じる。 そこで我々は,コンピュータ支援型協調作業における不完全なXAIの影響に光を当て,人間とAIのコラボレーションシステムの設計者に対するガイドラインを提供する。

Explainability techniques are rapidly being developed to improve human-AI decision-making across various cooperative work settings. Consequently, previous research has evaluated how decision-makers collaborate with imperfect AI by investigating appropriate reliance and task performance with the aim of designing more human-centered computer-supported collaborative tools. Several human-centered explainable AI (XAI) techniques have been proposed in hopes of improving decision-makers' collaboration with AI; however, these techniques are grounded in findings from previous studies that primarily focus on the impact of incorrect AI advice. Few studies acknowledge the possibility for the explanations to be incorrect even if the AI advice is correct. Thus, it is crucial to understand how imperfect XAI affects human-AI decision-making. In this work, we contribute a robust, mixed-methods user study with 136 participants to evaluate how incorrect explanations influence humans' decision-making behavior in a bird species identification task taking into account their level of expertise and an explanation's level of assertiveness. Our findings reveal the influence of imperfect XAI and humans' level of expertise on their reliance on AI and human-AI team performance. We also discuss how explanations can deceive decision-makers during human-AI collaboration. Hence, we shed light on the impacts of imperfect XAI in the field of computer-supported cooperative work and provide guidelines for designers of human-AI collaboration systems.
翻訳日:2023-11-02 17:17:49 公開日:2023-11-01
# 大規模言語モデルのための低コストネットワークを構築するには(性能を犠牲にすることなく)?

How to Build Low-cost Networks for Large Language Models (without Sacrificing Performance)? ( http://arxiv.org/abs/2307.12169v3 )

ライセンス: Link先を確認
Weiyang Wang, Manya Ghobadi, Kayvon Shakeri, Ying Zhang, Naader Hasani(参考訳) 本稿では,Large Language Models (LLMs) をトレーニングするためのネットワークを構築するための,確立されたパラダイムに挑戦する。 また,LLMは,低帯域幅のGPU群にのみ高い帯域幅通信を必要とするユニークな通信パターンを示す。 これらのGPUグループ全体で、通信は重要で均一である。 LLMの通信要求に類似した新しいネットワークアーキテクチャを提案する。 我々のアーキテクチャは、クラスタをHBドメインと呼ばれる非ブロッキングな高帯域相互接続と相互接続するGPUの集合に分割する。 HBドメイン全体では、ネットワークはGPUと非ゼロ通信要求のみを接続する。 提案手法を評価するために,学習反復時間の解析的定式化を行う。 本稿では,ハードウェア浮動小数点利用率を,大型モデルの先行研究で確立された基礎的真理から0.15\%以内に密接に推定する。 提案するアーキテクチャは,llmトレーニングの性能を損なうことなく,最先端のclosネットワークと比較して,ネットワークコストを37%から75%削減できることを示す。

This paper challenges the well-established paradigm for building any-to-any networks for training Large Language Models (LLMs). We show that LLMs exhibit a unique communication pattern where only small groups of GPUs require high-bandwidth communication to achieve near-optimal training performance. Across these groups of GPUs, the communication is insignificant and homogeneous. We propose a new network architecture that resembles the communication requirement of LLMs. Our architecture partitions the cluster into sets of GPUs interconnected with non-blocking any-to-any high-bandwidth interconnects that we call HB domains. Across the HB domains, the network only connects GPUs with non-zero communication demands. We develop an analytical formulation of the training iteration time to evaluate our proposal. Our formulation closely estimates the hardware floating-point utilization within 0.15\% from the ground truth established in prior studies for larger models. We show that our proposed architecture reduces the network cost by 37% to 75% compared to the state-of-the-art any-to-any Clos networks without compromising the performance of LLM training.
翻訳日:2023-11-02 17:17:26 公開日:2023-11-01
# エニグマのデコード:作業記憶のさまざまな面に人間とAIをベンチマークする

Decoding the Enigma: Benchmarking Humans and AIs on the Many Facets of Working Memory ( http://arxiv.org/abs/2307.10768v2 )

ライセンス: Link先を確認
Ankur Sikarwar and Mengmi Zhang(参考訳) ワーキングメモリ(WM)は、情報の一時記憶、統合、操作、検索を容易にする基本的な認知プロセスであり、推論や意思決定において重要な役割を果たす。 WMの多面的な性質を捉えたロバストベンチマークデータセットは、AI WMモデルの効果的な開発と評価に不可欠である。 ここでは、この目的のために包括的なワーキングメモリ(WorM)ベンチマークデータセットを紹介する。 WorMは10のタスクと100万のトライアルで構成され、WMの4つの機能、3つのドメイン、11の行動および神経特性を評価している。 これらすべてのタスクで、最先端のリカレントニューラルネットワークとトランスフォーマーを共同でトレーニングし、テストしました。 比較のための上限として、人間の行動ベンチマークも含んでいます。 以上の結果から,脳におけるwmの特徴,特にプライマシーとrecency効果,神経クラスターを再現し,wmの異なる領域と機能に特有な相関関係を示唆した。 実験では、既存のモデルにおける人間の行動を近似するいくつかの制限も明らかにしている。 このデータセットは、認知心理学、神経科学、AIのコミュニティにとって貴重なリソースであり、WMモデルの比較と拡張、WMの神経基盤の調査、人間に似た能力を持つWMモデルの開発のための標準化されたフレームワークを提供する。 ソースコードとデータはhttps://github.com/zhanglab-deepneurocoglab/wormで入手できます。

Working memory (WM), a fundamental cognitive process facilitating the temporary storage, integration, manipulation, and retrieval of information, plays a vital role in reasoning and decision-making tasks. Robust benchmark datasets that capture the multifaceted nature of WM are crucial for the effective development and evaluation of AI WM models. Here, we introduce a comprehensive Working Memory (WorM) benchmark dataset for this purpose. WorM comprises 10 tasks and a total of 1 million trials, assessing 4 functionalities, 3 domains, and 11 behavioral and neural characteristics of WM. We jointly trained and tested state-of-the-art recurrent neural networks and transformers on all these tasks. We also include human behavioral benchmarks as an upper bound for comparison. Our results suggest that AI models replicate some characteristics of WM in the brain, most notably primacy and recency effects, and neural clusters and correlates specialized for different domains and functionalities of WM. In the experiments, we also reveal some limitations in existing models to approximate human behavior. This dataset serves as a valuable resource for communities in cognitive psychology, neuroscience, and AI, offering a standardized framework to compare and enhance WM models, investigate WM's neural underpinnings, and develop WM models with human-like capabilities. Our source code and data are available at https://github.com/ZhangLab-DeepNeuroCogLab/WorM.
翻訳日:2023-11-02 17:17:13 公開日:2023-11-01
# 高次ネットワークにおけるDegree Heterogeneity: Inference in the Hypergraph $\boldsymbol{\beta}$-Model

Degree Heterogeneity in Higher-Order Networks: Inference in the Hypergraph $\boldsymbol{\beta}$-Model ( http://arxiv.org/abs/2307.02818v3 )

ライセンス: Link先を確認
Sagnik Nandy and Bhaswar B. Bhattacharya(参考訳) ランダムグラフに対する$\boldsymbol{\beta}$-model は、次数の不均質なネットワーク内の対関係を表現するのによく用いられる。 stasi et al. (2014) は双対相互作用を超えて、高次(多方向)相互作用を持つネットワークの次数の不均一性を捉えるハイパーグラフ $\boldsymbol{\beta}$-モデルを導入した。 本稿では,複数の層を持つハイパーグラフ $\boldsymbol{\beta}$-model の厳密な研究を開始する。 まず,最大確率(ml)推定値の収束率を導出し,最小速度の最適性を確立する。 また,ML推定の限界分布を導出し,モデルパラメータに対する漸近的に有効な信頼区間を構築する。 次に、hypergraph $\boldsymbol{\beta}$-modelにおける適合性の問題を考察する。 具体的には,ヌル仮説の下での度数比(lr)検定の漸近正規性を確立し,その検出しきい値と閾値での制限パワーを導出する。 興味深いことに、LRテストの検出しきい値はこのしきい値以下で漸近的に無力である、最小限の最適値であることが判明した。 理論的結果は数値実験でさらに検証される。 ハイパーグラフ$\boldsymbol{\beta}$-モデルの推定と推論のための理論的フレームワークの開発に加えて、上記の結果は、ml推定の最小最適性やlrテストの非null性など、グラフ$\boldsymbol{\beta}$-モデル文献の多くのギャップを埋めている。

The $\boldsymbol{\beta}$-model for random graphs is commonly used for representing pairwise interactions in a network with degree heterogeneity. Going beyond pairwise interactions, Stasi et al. (2014) introduced the hypergraph $\boldsymbol{\beta}$-model for capturing degree heterogeneity in networks with higher-order (multi-way) interactions. In this paper we initiate the rigorous study of the hypergraph $\boldsymbol{\beta}$-model with multiple layers, which allows for hyperedges of different sizes across the layers. To begin with, we derive the rates of convergence of the maximum likelihood (ML) estimate and establish their minimax rate optimality. We also derive the limiting distribution of the ML estimate and construct asymptotically valid confidence intervals for the model parameters. Next, we consider the goodness-of-fit problem in the hypergraph $\boldsymbol{\beta}$-model. Specifically, we establish the asymptotic normality of the likelihood ratio (LR) test under the null hypothesis, derive its detection threshold, and also its limiting power at the threshold. Interestingly, the detection threshold of the LR test turns out to be minimax optimal, that is, all tests are asymptotically powerless below this threshold. The theoretical results are further validated in numerical experiments. In addition to developing the theoretical framework for estimation and inference for hypergraph $\boldsymbol{\beta}$-models, the above results fill a number of gaps in the graph $\boldsymbol{\beta}$-model literature, such as the minimax optimality of the ML estimates and the non-null properties of the LR test, which, to the best of our knowledge, have not been studied before.
翻訳日:2023-11-02 17:16:05 公開日:2023-11-01
# メタ学習適応帯域幅アルゴリズム

Meta-Learning Adversarial Bandit Algorithms ( http://arxiv.org/abs/2307.02295v2 )

ライセンス: Link先を確認
Mikhail Khodak, Ilya Osadchiy, Keegan Harris, Maria-Florina Balcan, Kfir Y. Levy, Ron Meir, Zhiwei Steven Wu(参考訳) オンラインメタラーニングをバンディットフィードバックで研究し,類似点がある場合,複数のタスクにまたがるパフォーマンス向上を目標とした。 オンライン・オンライン・オンライン・パーシャル・インフォメーション・セッティングを最初にターゲットとしたメタアルゴリズムを設計し、外部学習者を組み合わせて内部学習者の初期化や他のハイパーパラメータを同時に調整する。 mab の場合、メタリアナーは exp3 の tsallis-entropy generalization のハイパーパラメータを初期化し、設定し、opima-in-hindsight のエントロピーが小さい場合、タスク平均的な後悔が改善される。 BLOの場合、オンラインミラー降下(OMD)を自己協和障壁正規化器で初期化し、チューニングすることを学び、タスク平均の後悔は、それらが引き起こすアクション空間依存尺度と直接的に異なることを示す。 我々の保証は、非正規化追従型リーダと低次元ハイパーパラメータチューニングの2つのレベルが組み合わさって、非Lipschitzのアフィン関数の列を学習するのに十分であることを示すことに依存している。

We study online meta-learning with bandit feedback, with the goal of improving performance across multiple tasks if they are similar according to some natural similarity measure. As the first to target the adversarial online-within-online partial-information setting, we design meta-algorithms that combine outer learners to simultaneously tune the initialization and other hyperparameters of an inner learner for two important cases: multi-armed bandits (MAB) and bandit linear optimization (BLO). For MAB, the meta-learners initialize and set hyperparameters of the Tsallis-entropy generalization of Exp3, with the task-averaged regret improving if the entropy of the optima-in-hindsight is small. For BLO, we learn to initialize and tune online mirror descent (OMD) with self-concordant barrier regularizers, showing that task-averaged regret varies directly with an action space-dependent measure they induce. Our guarantees rely on proving that unregularized follow-the-leader combined with two levels of low-dimensional hyperparameter tuning is enough to learn a sequence of affine functions of non-Lipschitz and sometimes non-convex Bregman divergences bounding the regret of OMD.
翻訳日:2023-11-02 17:15:33 公開日:2023-11-01
# ボルツマンマシンと量子多体問題

Boltzmann machines and quantum many-body problems ( http://arxiv.org/abs/2306.16877v3 )

ライセンス: Link先を確認
Yusuke Nomura(参考訳) 量子多体問題の解析と量子状態の絡み合い構造の解明は、幅広い分野に共通する重要な課題である。 近年,この課題に対処するために,機械学習を用いた新しいアプローチが導入された。 このアイデアは、非自明な量子相関(量子エンタングルメント)をニューラルネットワークに"組み込む"ことである。 集中的な開発を通じて、人工ニューラルネットワーク法は量子多体問題を分析するための新しい強力なツールになりつつある。 様々な人工ニューラルネットワークの中で、このトピックレビューはボルツマンマシンに焦点を当て、最近の開発と応用の概要を提供する。

Analyzing quantum many-body problems and elucidating the entangled structure of quantum states is a significant challenge common to a wide range of fields. Recently, a novel approach using machine learning was introduced to address this challenge. The idea is to "embed" nontrivial quantum correlations (quantum entanglement) into artificial neural networks. Through intensive developments, artificial neural network methods are becoming new powerful tools for analyzing quantum many-body problems. Among various artificial neural networks, this topical review focuses on Boltzmann machines and provides an overview of recent developments and applications.
翻訳日:2023-11-02 17:15:08 公開日:2023-11-01
# 勾配最適化法によるカーネルリッジ回帰の解法

Solving Kernel Ridge Regression with Gradient-Based Optimization Methods ( http://arxiv.org/abs/2306.16838v2 )

ライセンス: Link先を確認
Oskar Allerbo(参考訳) カーネルリッジ回帰 (kernel ridge regression, krr) は、データでは非線形であるがパラメータでは線形である線形リッジ回帰の一般化である。 本稿では,krrの目的関数の等価な定式化について紹介し,リッジペナルティ以外のペナルティの使用と,勾配降下の観点からカーネルリッジ回帰の研究を両立させる。 連続時間の観点からは、勾配降下による核回帰(カーネル勾配流、kgf)を解くための閉形式解を導出し、krrとkgfの差を理論的に拘束し、後者については早期停止によって正規化が得られる。 リッジペナルティをそれぞれ$\ell_1$と$\ell_\infty$のペナルティに置き換えることでKRRを一般化し、KGFとKRRの類似性、$\ell_1$の正則化と前段階回帰(座標降下)、$\ell_\infty$の正則化と符号勾配勾配が同様の解経路に従うという事実を用いる。 したがって、近位勾配降下に基づく計算量の多いアルゴリズムの必要性を緩和することができる。 理論的および経験的に、$\ell_1$ と $\ell_\infty$ のペナルティと対応する勾配に基づく最適化アルゴリズムがそれぞれスパースおよびロバストなカーネル回帰解を生成する方法を示す。

Kernel ridge regression, KRR, is a generalization of linear ridge regression that is non-linear in the data, but linear in the parameters. Here, we introduce an equivalent formulation of the objective function of KRR, opening up both for using penalties other than the ridge penalty and for studying kernel ridge regression from the perspective of gradient descent. Using a continuous-time perspective, we derive a closed-form solution for solving kernel regression with gradient descent, something we refer to as kernel gradient flow, KGF, and theoretically bound the differences between KRR and KGF, where, for the latter, regularization is obtained through early stopping. We also generalize KRR by replacing the ridge penalty with the $\ell_1$ and $\ell_\infty$ penalties, respectively, and use the fact that analogous to the similarities between KGF and KRR, $\ell_1$ regularization and forward stagewise regression (also known as coordinate descent), and $\ell_\infty$ regularization and sign gradient descent, follow similar solution paths. We can thus alleviate the need for computationally heavy algorithms based on proximal gradient descent. We show theoretically and empirically how the $\ell_1$ and $\ell_\infty$ penalties, and the corresponding gradient-based optimization algorithms, produce sparse and robust kernel regression solutions, respectively.
翻訳日:2023-11-02 17:15:00 公開日:2023-11-01
# NNQS-Transformer:Ab initio量子化学のための効率よくスケーラブルなニューラルネットワーク量子状態アプローチ

NNQS-Transformer: an Efficient and Scalable Neural Network Quantum States Approach for Ab initio Quantum Chemistry ( http://arxiv.org/abs/2306.16705v3 )

ライセンス: Link先を確認
Yangjun Wu, Chu Guo, Yi Fan, Pengyu Zhou, Honghui Shang(参考訳) ニューラルネットワーク量子状態(NNQS)は、量子多体問題に対する有望な候補として浮上しているが、その実践的応用はサンプリングと局所エネルギー計算のコストが高いためにしばしば妨げられている。 電子構造計算のための高性能NNQS法を開発した。 The major innovations include: (1) A transformer based architecture as the quantum wave function ansatz; (2) A data-centric parallelization scheme for the variational Monte Carlo (VMC) algorithm which preserves data locality and well adapts for different computing architectures; (3) A parallel batch sampling strategy which reduces the sampling cost and achieves good load balance; (4) A parallel local energy evaluation scheme which is both memory and computationally efficient; (5) Study of real chemical systems demonstrates both the superior accuracy of our method compared to state-of-the-art and the strong and weak scalability for large molecular systems with up to $120$ spin orbitals.

Neural network quantum state (NNQS) has emerged as a promising candidate for quantum many-body problems, but its practical applications are often hindered by the high cost of sampling and local energy calculation. We develop a high-performance NNQS method for \textit{ab initio} electronic structure calculations. The major innovations include: (1) A transformer based architecture as the quantum wave function ansatz; (2) A data-centric parallelization scheme for the variational Monte Carlo (VMC) algorithm which preserves data locality and well adapts for different computing architectures; (3) A parallel batch sampling strategy which reduces the sampling cost and achieves good load balance; (4) A parallel local energy evaluation scheme which is both memory and computationally efficient; (5) Study of real chemical systems demonstrates both the superior accuracy of our method compared to state-of-the-art and the strong and weak scalability for large molecular systems with up to $120$ spin orbitals.
翻訳日:2023-11-02 17:14:30 公開日:2023-11-01
# To Spike or Not To Spike:Deep Learning Accelerationのデジタルハードウェアの展望

To Spike or Not To Spike: A Digital Hardware Perspective on Deep Learning Acceleration ( http://arxiv.org/abs/2306.15749v4 )

ライセンス: Link先を確認
Fabrizio Ottati, Chang Gao, Qinyu Chen, Giovanni Brignone, Mario R. Casu, Jason K. Eshraghian, Luciano Lavagno(参考訳) ディープラーニングモデルの規模が拡大するにつれて、コンピュータビジョンから自然言語処理に至るまでの領域で競争力が高まる一方で、メモリとコンピューティングのパワーがますます必要になるため、効率が犠牲になる。 生物学的脳のパワー効率は、いかなる大規模ディープラーニング(DL)モデルよりも優れており、ニューロモルフィックコンピューティングは、スパイクベースの情報処理のような脳の操作を模倣し、DLモデルの効率を向上させる。 効率的な情報伝達、高密度神経インターコネクト、計算と記憶の同時配置といった脳の利点にもかかわらず、利用可能な生物学的基質は生物学的脳の進化を厳しく制限している。 電子ハードウェアは同じ制約を持たないため、スパイクニューラルネットワーク(sns)のモデル化はパズルの1つのピースを明らかにする可能性があるが、sns sの効率的なハードウェアバックエンドの設計にはさらなる調査が必要である。 そのため、いつ新しいハードウェアを設計しながら脳を見るのが賢明なのか、いつ無視されるべきなのか? そこで本研究では,ANNとSNNのデジタルハードウェアアクセラレーション技術とプラットフォームを定量的に比較する。 その結果、次の知見が得られます。 (i)現在、ANNは静的データをより効率的に処理している。 (II) イベントベースカメラやシリコンコチェリーなどのニューロモルフィックセンサーが生成するデータを対象としたアプリケーションには、これらのセンサの挙動が自然にSNNパラダイムに適合する可能性があるため、さらなる調査が必要である。 3) SNN と ANN を組み合わせたハイブリッドアプローチは, 最適解の導出につながる可能性があり, ハードウェアレベルでは, 効率と損失最適化の両面から検討すべきである。

As deep learning models scale, they become increasingly competitive from domains spanning from computer vision to natural language processing; however, this happens at the expense of efficiency since they require increasingly more memory and computing power. The power efficiency of the biological brain outperforms any large-scale deep learning ( DL ) model; thus, neuromorphic computing tries to mimic the brain operations, such as spike-based information processing, to improve the efficiency of DL models. Despite the benefits of the brain, such as efficient information transmission, dense neuronal interconnects, and the co-location of computation and memory, the available biological substrate has severely constrained the evolution of biological brains. Electronic hardware does not have the same constraints; therefore, while modeling spiking neural networks ( SNNs) might uncover one piece of the puzzle, the design of efficient hardware backends for SNN s needs further investigation, potentially taking inspiration from the available work done on the artificial neural networks ( ANNs) side. As such, when is it wise to look at the brain while designing new hardware, and when should it be ignored? To answer this question, we quantitatively compare the digital hardware acceleration techniques and platforms of ANNs and SNN s. As a result, we provide the following insights: (i) ANNs currently process static data more efficiently, (ii) applications targeting data produced by neuromorphic sensors, such as event-based cameras and silicon cochleas, need more investigation since the behavior of these sensors might naturally fit the SNN paradigm, and (iii) hybrid approaches combining SNN s and ANNs might lead to the best solutions and should be investigated further at the hardware level, accounting for both efficiency and loss optimization.
翻訳日:2023-11-02 17:13:52 公開日:2023-11-01
# 生成プロセス改善のための再起動サンプリング

Restart Sampling for Improving Generative Processes ( http://arxiv.org/abs/2306.14878v2 )

ライセンス: Link先を確認
Yilun Xu, Mingyang Deng, Xiang Cheng, Yonglong Tian, Ziming Liu, Tommi Jaakkola(参考訳) 拡散モデルのような微分方程式の解法を含む生成過程は、しばしば速度と品質のバランスをとる必要がある。 ODEベースのサンプリングは高速であるが,SDEベースのサンプリングはサンプリング時間の増加を犠牲にして高い品質のサンプルを提供する。 ODE-samplerはより小さな離散化エラーを伴い、SDE契約の確率性はエラーを蓄積する。 そこで本研究では,離散化誤差と縮小のバランスを改善するために,リスタートと呼ばれる新しいサンプリングアルゴリズムを提案する。 サンプリング方法は、追加の前方ステップに実質的なノイズを付加することと、後方ODEを厳密に追従することとを交互に行う。 経験的に、Restart は以前の SDE と ODE のサンプルをスピードと精度で上回っている。 再起動は、以前のベストsde結果を上回るだけでなく、cifar-10 / imagenetのサンプリング速度を10倍/2倍に加速する。 さらに、同じサンプリング時間内でODEサンプルよりもはるかに優れたサンプル品質が得られる。 さらに、laion 512 \times 512$で事前トレーニングされた大規模テキストから画像への安定拡散モデルでは、テキスト画像のアライメント/ビジュアル品質と多様性のバランスが向上している。 コードはhttps://github.com/Newbeeer/diffusion_restart_samplingで入手できる。

Generative processes that involve solving differential equations, such as diffusion models, frequently necessitate balancing speed and quality. ODE-based samplers are fast but plateau in performance while SDE-based samplers deliver higher sample quality at the cost of increased sampling time. We attribute this difference to sampling errors: ODE-samplers involve smaller discretization errors while stochasticity in SDE contracts accumulated errors. Based on these findings, we propose a novel sampling algorithm called Restart in order to better balance discretization errors and contraction. The sampling method alternates between adding substantial noise in additional forward steps and strictly following a backward ODE. Empirically, Restart sampler surpasses previous SDE and ODE samplers in both speed and accuracy. Restart not only outperforms the previous best SDE results, but also accelerates the sampling speed by 10-fold / 2-fold on CIFAR-10 / ImageNet $64 \times 64$. In addition, it attains significantly better sample quality than ODE samplers within comparable sampling times. Moreover, Restart better balances text-image alignment/visual quality versus diversity than previous samplers in the large-scale text-to-image Stable Diffusion model pre-trained on LAION $512 \times 512$. Code is available at https://github.com/Newbeeer/diffusion_restart_sampling
翻訳日:2023-11-02 17:13:19 公開日:2023-11-01
# 基礎モデルを用いた数発パンオプティカルセグメンテーション

Few-Shot Panoptic Segmentation With Foundation Models ( http://arxiv.org/abs/2309.10726v2 )

ライセンス: Link先を確認
Markus K\"appeler, K\"ursat Petek, Niclas V\"odisch, Wolfram Burgard, Abhinav Valada(参考訳) 現在のパンオプティカルセグメンテーションの最先端手法では、膨大な量の注釈付きトレーニングデータが必要であり、広く採用される上で大きな課題となっている。 同時に、視覚表現学習の最近のブレークスルーは、完全にラベルのないイメージでトレーニングできる大規模な基礎モデルが出現するきっかけとなった。 本研究では,このようなタスクに依存しない画像特徴を活用し,0に近いラベル(spino)でパノプティカル情報をセグメンテーションすることにより,少数のパノプティカルセグメンテーションを実現することを提案する。 本手法では,DINOv2のバックボーンと,セマンティックセグメンテーションと境界推定のための軽量なネットワークヘッドを組み合わせる。 提案手法は,10個の注釈付き画像のみを用いてトレーニングし,既存の汎視的セグメンテーション法で使用可能な高品質な擬似ラベルを予測する。 特に,SPINOは,基礎モデルを活用した複雑な視覚認識タスクの学習方法として,基礎的真理ラベルの0.3%未満を使用しながら,完全教師付きベースラインと比較して,競争力のある結果が得られることを示す。 汎用性を示すため,室内環境と屋外環境の両方において,実世界のロボットビジョンシステムにSPINOを更に展開する。 将来の研究を促進するため、コードとトレーニングされたモデルをhttp://spino.cs.uni-freiburg.deで公開しています。

Current state-of-the-art methods for panoptic segmentation require an immense amount of annotated training data that is both arduous and expensive to obtain posing a significant challenge for their widespread adoption. Concurrently, recent breakthroughs in visual representation learning have sparked a paradigm shift leading to the advent of large foundation models that can be trained with completely unlabeled images. In this work, we propose to leverage such task-agnostic image features to enable few-shot panoptic segmentation by presenting Segmenting Panoptic Information with Nearly 0 labels (SPINO). In detail, our method combines a DINOv2 backbone with lightweight network heads for semantic segmentation and boundary estimation. We show that our approach, albeit being trained with only ten annotated images, predicts high-quality pseudo-labels that can be used with any existing panoptic segmentation method. Notably, we demonstrate that SPINO achieves competitive results compared to fully supervised baselines while using less than 0.3% of the ground truth labels, paving the way for learning complex visual recognition tasks leveraging foundation models. To illustrate its general applicability, we further deploy SPINO on real-world robotic vision systems for both outdoor and indoor environments. To foster future research, we make the code and trained models publicly available at http://spino.cs.uni-freiburg.de.
翻訳日:2023-11-02 17:06:25 公開日:2023-11-01
# 自律型水中車両のインテリジェントデブリ質量推定モデル

Intelligent Debris Mass Estimation Model for Autonomous Underwater Vehicle ( http://arxiv.org/abs/2309.10617v3 )

ライセンス: Link先を確認
Mohana Sri S, Swethaa S, Aouthithiye Barathwaj SR Y, Sai Ganesh CS(参考訳) 海洋ゴミは海洋生物の生存に重大な脅威をもたらし、しばしば絡み合いや飢餓につながり、最終的には死に至る。 したがって、海洋からゴミを取り除くことは自然のバランスを回復し、海洋生物を繁栄させるのに不可欠である。 インスタンスセグメンテーション(インスタンスセグメンテーション)は、物体を識別し、それらを正確に特定し、分離するオブジェクト検出の先進的な形態であり、自律型水中車両(AUV)が水中環境を効果的に操作するための必須のツールである。 AUVは画像セグメンテーションを使用して、カメラが捉えた画像を分析し、水中環境をナビゲートする。 本稿では、画像内の個々のオブジェクトの面積を計算するためにインスタンスセグメンテーションを使用し、roboflowではyolov7を使用して、検出毎にクラスラベルと信頼度スコアを持つ画像内の各オブジェクトのバウンディングボックスのセットを生成する。 次に、オブジェクトの境界ボックスにバイナリマスクを適用することで、各オブジェクトに対してセグメンテーションマスクを作成する。 マスクは、背景からオブジェクトをセグメント化するように訓練された畳み込みニューラルネットワークの出力にバイナリしきい値を適用して生成される。 最後に、形態素演算や輪郭検出などの後処理技術を適用し、マスクの精度と品質を向上させることにより、各対象に対するセグメンテーションマスクの精錬を行う。 インスタンスセグメンテーションの領域を推定するプロセスは、各セグメンテーションされたインスタンスの領域を別々に計算し、全インスタンスの領域を合計して総面積を得る。 この計算は、矩形や円のような物体の形状に基づく標準式を用いて行われる。 対象が複素である場合、その領域を推定するためにモンテカルロ法が用いられる。 この方法は従来の方法よりも精度が高く、特に多数のサンプルを使用する場合に高い精度を提供する。

Marine debris poses a significant threat to the survival of marine wildlife, often leading to entanglement and starvation, ultimately resulting in death. Therefore, removing debris from the ocean is crucial to restore the natural balance and allow marine life to thrive. Instance segmentation is an advanced form of object detection that identifies objects and precisely locates and separates them, making it an essential tool for autonomous underwater vehicles (AUVs) to navigate and interact with their underwater environment effectively. AUVs use image segmentation to analyze images captured by their cameras to navigate underwater environments. In this paper, we use instance segmentation to calculate the area of individual objects within an image, we use YOLOV7 in Roboflow to generate a set of bounding boxes for each object in the image with a class label and a confidence score for every detection. A segmentation mask is then created for each object by applying a binary mask to the object's bounding box. The masks are generated by applying a binary threshold to the output of a convolutional neural network trained to segment objects from the background. Finally, refining the segmentation mask for each object is done by applying post-processing techniques such as morphological operations and contour detection, to improve the accuracy and quality of the mask. The process of estimating the area of instance segmentation involves calculating the area of each segmented instance separately and then summing up the areas of all instances to obtain the total area. The calculation is carried out using standard formulas based on the shape of the object, such as rectangles and circles. In cases where the object is complex, the Monte Carlo method is used to estimate the area. This method provides a higher degree of accuracy than traditional methods, especially when using a large number of samples.
翻訳日:2023-11-02 17:05:58 公開日:2023-11-01
# 物理誘導特徴抽出と領域適応に基づくクロストカマク崩壊予測

Cross-tokamak Disruption Prediction based on Physics-Guided Feature Extraction and domain adaptation ( http://arxiv.org/abs/2309.05361v2 )

ライセンス: Link先を確認
Chengshuo Shen, Wei Zheng, Bihao Guo, Yonghua Ding, Dalong Chen, Xinkun Ai, Fengming Xue, Yu Zhong, Nengchao Wang, Biao Shen, Binjia Xiao, Zhongyong Chen, Yuan Pan and J-TEXT team(参考訳) 将来のトカマクにおけるデータ駆動破壊予測モデルに対する高い獲得コストと大きなディスラプティブ放電需要は、ディスラプション予測研究に固有の矛盾をもたらす。 本稿では,数回の放電だけで将来のトカマクの破壊を予測できる新しい手法を実証した。 最初のステップは、物理誘導特徴抽出(PGFE)と呼ばれる各トカマクの診断信号から物理誘導特徴を抽出するために、物理の既存の理解を利用することである。 第2のステップは、将来のトカマク(ターゲットドメイン)からのデータと、CORrelation ALignment(CORAL)と呼ばれるドメイン適応アルゴリズムに基づいて、既存のトカマク(ソースドメイン)からの大量のデータを調整することだ。 これはディスラプション予測のタスクにドメイン適応を適用する最初の試みである。 PGFEは、優れた性能で破壊を予測するためにJ-TEXTでうまく適用されている。 pgfeはまた、デバイス固有の特徴の少ない抽出によるデータボリューム要求を低減し、クロストカマク崩壊予測のための確固たる基盤を確立することができる。 我々はさらに、破壊予測タスクにおける特徴アライメントの適切性を高めるために、CORAL(教師付きCORAL, S-CORAL)を改善した。 既存のトカマクの場合と将来のトカマクの場合をシミュレートするために、j-textを既存のトカマクとして、東を将来のトカマクとして、プラズマパラメータの範囲に大きなギャップを持つトカマクを選んだ。 S-CORALの利用により、将来のトカマクの破壊予測性能が向上する。 解釈可能な解析により, 破壊予測モデルの学習知識は, 将来のトカマクの大規模データ量に基づいて訓練されたモデルとより類似していることがわかった。

The high acquisition cost and the significant demand for disruptive discharges for data-driven disruption prediction models in future tokamaks pose an inherent contradiction in disruption prediction research. In this paper, we demonstrated a novel approach to predict disruption in a future tokamak using only a few discharges. The first step is to use the existing understanding of physics to extract physics-guided features from the diagnostic signals of each tokamak, called physics-guided feature extraction (PGFE). The second step is to align a few data from the future tokamak (target domain) and a large amount of data from existing tokamak (source domain) based on a domain adaptation algorithm called CORrelation ALignment (CORAL). It is the first attempt at applying domain adaptation in the task of disruption prediction. PGFE has been successfully applied in J-TEXT to predict disruption with excellent performance. PGFE can also reduce the data volume requirements due to extracting the less device-specific features, thereby establishing a solid foundation for cross-tokamak disruption prediction. We have further improved CORAL (supervised CORAL, S-CORAL) to enhance its appropriateness in feature alignment for the disruption prediction task. To simulate the existing and future tokamak case, we selected J-TEXT as the existing tokamak and EAST as the future tokamak, which has a large gap in the ranges of plasma parameters. The utilization of the S-CORAL improves the disruption prediction performance on future tokamak. Through interpretable analysis, we discovered that the learned knowledge of the disruption prediction model through this approach exhibits more similarities to the model trained on large data volumes of future tokamak.
翻訳日:2023-11-02 17:05:23 公開日:2023-11-01
# 長短時空間アグリゲーショントランスフォーマを用いた白内障手術のための位相特異的拡張現実誘導

Phase-Specific Augmented Reality Guidance for Microscopic Cataract Surgery Using Long-Short Spatiotemporal Aggregation Transformer ( http://arxiv.org/abs/2309.05209v2 )

ライセンス: Link先を確認
Puxun Tu, Hongfei Ye, Haochen Shi, Jeff Young, Meng Xie, Peiquan Zhao, Ce Zheng, Xiaoyi Jiang, Xiaojun Chen(参考訳) 超音波白内障手術(pcs)は、眼科医の技量に大きく依存する手術用顕微鏡を用いて行う定期手術である。 既存のpcs指導システムは術中習熟度を高めるために手術用顕微鏡映像から貴重な情報を抽出するが、非相特異的な指導に苦しめられ、冗長な視覚情報に繋がる。 本研究は,手術段階に応じたar情報を提供する新しい位相特異的拡張現実(ar)誘導システムの開発に,本研究の主な貢献である。 そこで本研究では,PCSプロシージャの本来の準標準化特性を活用して,2段階の手術用顕微鏡画像認識ネットワークを提案する。 第1段階では,手術用手足領域を分割し,手足領域に着目した空間的特徴を抽出するマルチタスク学習構造を実装した。 第2段階では,局所的細粒度と大域的時間的関係をモデル化し,抽出した空間的特徴を結合して現在の外科的位相を認識する長短時空間凝集トランス(ls-sat)ネットワークを提案する。 さらに, 眼科医と密接に連携し, 辺縁楕円フィッティングや局所制限正規交叉回転計算などの手法を用いてar視覚手がかりの設計を行った。 公開および社内データセット上でのネットワーク評価を行い,その性能を関連作品と比較して比較した。 アブレーションの結果,辺縁領域に焦点をあてた空間特徴抽出器と時間特徴の組み合わせの有効性がさらに検証された。 さらに, 開発したシステムは臨床設定で評価され, 優れた精度とリアルタイム性能が得られた。 臨床応用の可能性を示すものです

Phacoemulsification cataract surgery (PCS) is a routine procedure conducted using a surgical microscope, heavily reliant on the skill of the ophthalmologist. While existing PCS guidance systems extract valuable information from surgical microscopic videos to enhance intraoperative proficiency, they suffer from non-phasespecific guidance, leading to redundant visual information. In this study, our major contribution is the development of a novel phase-specific augmented reality (AR) guidance system, which offers tailored AR information corresponding to the recognized surgical phase. Leveraging the inherent quasi-standardized nature of PCS procedures, we propose a two-stage surgical microscopic video recognition network. In the first stage, we implement a multi-task learning structure to segment the surgical limbus region and extract limbus region-focused spatial feature for each frame. In the second stage, we propose the long-short spatiotemporal aggregation transformer (LS-SAT) network to model local fine-grained and global temporal relationships, and combine the extracted spatial features to recognize the current surgical phase. Additionally, we collaborate closely with ophthalmologists to design AR visual cues by utilizing techniques such as limbus ellipse fitting and regional restricted normal cross-correlation rotation computation. We evaluated the network on publicly available and in-house datasets, with comparison results demonstrating its superior performance compared to related works. Ablation results further validated the effectiveness of the limbus region-focused spatial feature extractor and the combination of temporal features. Furthermore, the developed system was evaluated in a clinical setup, with results indicating remarkable accuracy and real-time performance. underscoring its potential for clinical applications.
翻訳日:2023-11-02 17:04:53 公開日:2023-11-01
# メンタルヘルスデータセットにおける教師付き学習と大規模言語モデルベンチマーク:中国のソーシャルメディアにおける認知歪みと自殺リスク

Supervised Learning and Large Language Model Benchmarks on Mental Health Datasets: Cognitive Distortions and Suicidal Risks in Chinese Social Media ( http://arxiv.org/abs/2309.03564v2 )

ライセンス: Link先を確認
Hongzhi Qi, Qing Zhao, Changwei Song, Wei Zhai, Dan Luo, Shuo Liu, Yi Jing Yu, Fan Wang, Huijing Zou, Bing Xiang Yang, Jianqiang Li and Guanghui Fu(参考訳) ソーシャルメディアの世界では、ユーザーはしばしば個人の感情を伝達し、認知的歪曲や自殺傾向を示す可能性がある。 このような兆候をタイムリーに認識することは効果的な介入に重要である。 これに対し,中国ソーシャルメディアから新たに2つの注釈付きデータセットを導入し,認知的歪みと自殺リスク分類に着目した。 本稿では,教師付き学習モデルと大規模言語モデル,特にGPTシリーズを用いて,これらのデータセットの性能評価を行う。 大きな言語モデルの能力を評価するために、ゼロショット、少数ショット、微調整の3つの戦略を採用した。 さらに,これらの大規模言語モデルの性能を心理学的観点から深く掘り下げ,分析し,複雑な人間の感情を識別・理解する上での強みと限界に光を当てた。 我々の評価は2つのアプローチのパフォーマンスの違いを浮き彫りにしており、モデルはしばしば微妙なカテゴリーの区別によって挑戦される。 GPT-4は一貫して強い結果を示したが, GPT-3.5は微調整後, 自殺リスク分類が著しく改善した。 この研究は、中国のソーシャルメディアタスクにおける大規模言語モデルの評価において画期的であり、心理学的文脈におけるモデルの可能性を強調している。 すべてのデータセットとコードは利用可能である。

In the realm of social media, users frequently convey personal sentiments, with some potentially indicating cognitive distortions or suicidal tendencies. Timely recognition of such signs is pivotal for effective interventions. In response, we introduce two novel annotated datasets from Chinese social media, focused on cognitive distortions and suicidal risk classification. We propose a comprehensive benchmark using both supervised learning and large language models, especially from the GPT series, to evaluate performance on these datasets. To assess the capabilities of the large language models, we employed three strategies: zero-shot, few-shot, and fine-tuning. Furthermore, we deeply explored and analyzed the performance of these large language models from a psychological perspective, shedding light on their strengths and limitations in identifying and understanding complex human emotions. Our evaluations underscore a performance difference between the two approaches, with the models often challenged by subtle category distinctions. While GPT-4 consistently delivered strong results, GPT-3.5 showed marked improvement in suicide risk classification after fine-tuning. This research is groundbreaking in its evaluation of large language models for Chinese social media tasks, accentuating the models' potential in psychological contexts. All datasets and code are made available.
翻訳日:2023-11-02 17:04:22 公開日:2023-11-01
# yarn: 大きな言語モデルの効率的なコンテキストウィンドウ拡張

YaRN: Efficient Context Window Extension of Large Language Models ( http://arxiv.org/abs/2309.00071v2 )

ライセンス: Link先を確認
Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole(参考訳) RoPE(Rotary Position Embeddings)は、トランスフォーマーベースの言語モデルにおいて、位置情報を効果的に符号化する。 しかし、これらのモデルは、訓練したシーケンス長を超過して一般化することができない。 本稿では,Yarn(Yet another RoPE extensioN method)という,そのようなモデルのコンテキストウィンドウを拡張する計算効率の高い手法を提案する。 YaRN を用いて,LLaMA モデルが従来の事前学習よりもはるかに長い文脈長を効果的に活用し,外挿できることを示す。 加えて、YaRNは、微調整データセットの限られたコンテキストを超えて外挿する能力を示す。 YaRNを使用して微調整されたモデルは、https://github.com/jquesnelle/yarnで128kのコンテキスト長までオンラインで公開され、再現されている。

Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. The models fine-tuned using YaRN has been made available and reproduced online up to 128k context length at https://github.com/jquesnelle/yarn
翻訳日:2023-11-02 17:04:04 公開日:2023-11-01
# CREHate: CRoss文化の英語ヘイトスピーチデータセット

CREHate: A CRoss-cultural English Hate Speech Dataset ( http://arxiv.org/abs/2308.16705v2 )

ライセンス: Link先を確認
Nayeon Lee, Chani Jung, Junho Myung, Jiho Jin, Jose Camacho-Collados, Juho Kim, Alice Oh(参考訳) ほとんどのNLPデータセットは言語話者の文化的多様性を無視しており、ヘイトスピーチの検出やその他の文化的に敏感なタスクに重大な欠点をもたらす。 そこで我々は,CRoss文化の英語Hate音声データセットであるCREHateを紹介する。 CREHateの構築には2段階の手順を踏襲する。 1)文化特化ポストコレクション及び 2)異文化間アノテーション。 北米を代表するSBICデータセットからの投稿をサンプリングし、我々の調査から得られた文化固有のヘイトスピーチキーワードを用いて、地理的に多様な英語を話す4カ国からの投稿を収集した。 その後、英語圏の4カ国とアメリカ合衆国から注釈が集められ、各国の代表ラベルが設定される。 本分析は,異文化間ヘイトスピーチアノテーションにおける統計的に有意な相違を明らかにする。 クレハーテのポストの56.2%が5か国全てで合意に達しており、対関係の意見の不一致率は26%である。 注釈は、ラベルの不一致は、固有の文化的文脈、主観性、そしてポストの曖昧さから生じる傾向があることを示している。 最後に, 異文化間ヘイトスピーチ分類器を開発し, 単一文化分類器よりも各国のラベルを精度良く予測する。 これは、文化的に敏感なヘイトスピーチ分類器を構築するためのCREHateの有用性を確認する。

Most NLP datasets neglect the cultural diversity among language speakers, resulting in a critical shortcoming in hate speech detection and other culturally sensitive tasks. To address this, we introduce CREHate, a CRoss-cultural English Hate speech dataset. To construct CREHate, we follow a two-step procedure: 1) culture-specific post collection and 2) cross-cultural annotation. We sample posts from the SBIC dataset, which predominantly represents North America, and collect posts from four geographically diverse English-speaking countries using culture-specific hate speech keywords that we retrieve from our survey. Annotations are then collected from those four English-speaking countries plus the US to establish representative labels for each country. Our analysis highlights statistically significant disparities in cross-cultural hate speech annotations. Only 56.2% of the posts in CREHate achieve consensus among all five countries, with a peak pairwise disagreement rate of 26%. The annotations show that label disagreements tend to come from the inherent cultural context, subjectivity, and ambiguity of the posts. Lastly, we develop cross-cultural hate speech classifiers that are more accurate at predicting each country's labels than the monocultural classifiers. This confirms the utility of CREHate for constructing culturally sensitive hate speech classifiers.
翻訳日:2023-11-02 17:03:45 公開日:2023-11-01
# 多変量時系列異常検出:派手なアルゴリズムと欠陥評価手法

Multivariate Time Series Anomaly Detection: Fancy Algorithms and Flawed Evaluation Methodology ( http://arxiv.org/abs/2308.13068v2 )

ライセンス: Link先を確認
Mohamed El Amine Sehili and Zonghua Zhang(参考訳) 多変量時系列(mvts)異常検出は,近年,産学界と産学界の両方から多大な研究成果が寄せられてきた,長年にわたる困難な研究課題である。 しかし、文学の慎重な研究により、我々はそのことに気づく。 1)コミュニティは活発であるが、コンピュータビジョン(CV)や自然言語処理(NLP)といった他の兄弟の機械学習コミュニティほど組織化されていない。 2) 提案手法の多くは, 不適切なプロトコルや高度に欠陥のあるプロトコルを用いて評価されている。 欠陥は、いわゆるポイント調整プロトコルと呼ばれる非常に一般的なプロトコルであり、これまで開発された全てのアルゴリズムを体系的に上回るランダムな推測を示すことができる。 本稿では,よりロバストなプロトコルを用いた最近のアルゴリズムをレビュー・評価し,mvts異常検出の文脈において,正常に優れたプロトコルがいかに弱みを持つか,どのように軽減するかについて議論する。 また、ベンチマークデータセット、実験設計、多くの作業で観察する評価方法論に関する懸念も共有しています。 さらに,一般的なベンチマークデータセットに基づく最近の多くのディープラーニング(dl)アプローチを驚くほど上回る,主成分分析(pca)に基づく単純かつ挑戦的なベースラインを提案する。 この研究の主な目的は、ますます複雑で「ファンシエ」なアルゴリズムの設計に重きを置くのではなく、データ、実験設計、評価方法論、結果解釈可能性といった研究の重要な側面に対してより多くの努力を促すことである。

Multivariate Time Series (MVTS) anomaly detection is a long-standing and challenging research topic that has attracted tremendous research effort from both industry and academia recently. However, a careful study of the literature makes us realize that 1) the community is active but not as organized as other sibling machine learning communities such as Computer Vision (CV) and Natural Language Processing (NLP), and 2) most proposed solutions are evaluated using either inappropriate or highly flawed protocols, with an apparent lack of scientific foundation. So flawed is one very popular protocol, the so-called point-adjust protocol, that a random guess can be shown to systematically outperform all algorithms developed so far. In this paper, we review and evaluate many recent algorithms using more robust protocols and discuss how a normally good protocol may have weaknesses in the context of MVTS anomaly detection and how to mitigate them. We also share our concerns about benchmark datasets, experiment design and evaluation methodology we observe in many works. Furthermore, we propose a simple, yet challenging, baseline based on Principal Components Analysis (PCA) that surprisingly outperforms many recent Deep Learning (DL) based approaches on popular benchmark datasets. The main objective of this work is to stimulate more effort towards important aspects of the research such as data, experiment design, evaluation methodology and result interpretability, instead of putting the highest weight on the design of increasingly more complex and "fancier" algorithms.
翻訳日:2023-11-02 17:03:24 公開日:2023-11-01
# MOFO:ビデオ理解のためのセルフスーパービジョン

MOFO: MOtion FOcused Self-Supervision for Video Understanding ( http://arxiv.org/abs/2308.12447v2 )

ライセンス: Link先を確認
Mona Ahmadian, Frank Guerin, and Andrew Gilbert(参考訳) 自己教師付き学習(SSL)技術は、最近、ラベルのないビデオから視覚表現を学習する際、優れた成果を上げている。 行動認識のための教師付き学習技術における動きの重要性にもかかわらず、ssl法はビデオ中の動き情報を明示的に考慮しないことが多い。 そこで本研究では,映像の動作領域に表現学習を集中させる新しいssl手法であるmofo(motion focus)を提案する。 MOFOはビデオ内の動き領域を自動的に検出し、これをセルフスーパービジョンタスクのガイドに利用する。 我々は、入力シーケンスの高割合をランダムにマスキングするマスク付きオートエンコーダを使用し、移動領域の内部の特定の割合をマスクし、残りの割合を外部から強制する。 さらに、下流タスクにおける動きを強調するために、動き情報を微調整ステップに組み込む。 動作中心のイノベーションによって,現在最先端のSSLメソッド(VideoMAE)の動作認識性能が大幅に向上することが実証された。 本手法は,近年の自己監督型視覚変換器(ViT),ビデオMAE,+2.6%,+2.1%,+1.3%,Epic-Kitchens動詞,名詞,行動分類,+4.7%,およびSome-Something V2行動分類の精度を向上する。 提案手法は動作認識のための現在のSSL法の性能を大幅に向上させ,SSLにおける動作を明示的に符号化することが重要であることを示す。

Self-supervised learning (SSL) techniques have recently produced outstanding results in learning visual representations from unlabeled videos. Despite the importance of motion in supervised learning techniques for action recognition, SSL methods often do not explicitly consider motion information in videos. To address this issue, we propose MOFO (MOtion FOcused), a novel SSL method for focusing representation learning on the motion area of a video, for action recognition. MOFO automatically detects motion areas in videos and uses these to guide the self-supervision task. We use a masked autoencoder which randomly masks out a high proportion of the input sequence; we force a specified percentage of the inside of the motion area to be masked and the remainder from outside. We further incorporate motion information into the finetuning step to emphasise motion in the downstream task. We demonstrate that our motion-focused innovations can significantly boost the performance of the currently leading SSL method (VideoMAE) for action recognition. Our method improves the recent self-supervised Vision Transformer (ViT), VideoMAE, by achieving +2.6%, +2.1%, +1.3% accuracy on Epic-Kitchens verb, noun and action classification, respectively, and +4.7% accuracy on Something-Something V2 action classification. Our proposed approach significantly improves the performance of the current SSL method for action recognition, indicating the importance of explicitly encoding motion in SSL.
翻訳日:2023-11-02 17:02:56 公開日:2023-11-01
# 反強磁性トポロジー絶縁体を用いた効率的な量子トランスダクション

Efficient Quantum Transduction Using Anti-Ferromagnetic Topological Insulators ( http://arxiv.org/abs/2308.09048v2 )

ライセンス: Link先を確認
Haowei Xu, Changhao Li, Guoqing Wang, Hao Tang, Paola Cappellaro, and Ju Li(参考訳) 量子システム間の量子情報の変換は、量子ネットワークや量子コンピューティングを含む様々な応用において必須のステップである。 しかし、多面的かつ時には矛盾する要求のため、周波数の異なる光子を仲介し、高性能トランスデューサを設計することは困難である。 本研究では,まず量子トランスデューサ設計の一般原理を議論し,次に高効率トランスデューサとして機能する固体反強磁性位相絶縁体を提案する。 まず、トポロジカル絶縁体はバンド反転を示し、光応答を大幅に向上させる。 この性質とロバストなスピン軌道結合と高いスピン密度が相まって、磁気トポロジー絶縁体における強い非線形相互作用が起こり、変換効率が大幅に向上する。 第2に、反強磁性秩序は、磁気相互作用による他の隣接する量子系への有害影響を最小限に抑えることができる。 MnBi2Te4 を例として,単一光子量子トランスダクション効率が 80% を超える場合,伝送帯域幅は GHz の範囲に到達可能であることを示す。 磁気トポロジー絶縁体における強い非線形フォトニック相互作用は、異なる周波数の光子間の絡み合いの発生や量子スクイージングなど、様々な応用が可能である。

Transduction of quantum information between distinct quantum systems is an essential step in various applications, including quantum networks and quantum computing. However, mediating photons of vastly different frequencies and designing high-performance transducers are challenging, due to multifaceted and sometimes conflicting requirements. In this work, we first discuss some general principles for quantum transducer design, and then propose solid-state anti-ferromagnetic topological insulators to serve as highly effective transducers. First, topological insulators exhibit band-inversion, which can greatly enhance their optical responses. This property, coupled with robust spin-orbit coupling and high spin density, results in strong nonlinear interaction in magnetic topological insulators, thereby substantially improving transduction efficiency. Second, the anti-ferromagnetic order can minimize the detrimental influence on other neighboring quantum systems due to magnetic interactions. Using MnBi2Te4 as an example, we showcase that single-photon quantum transduction efficiency exceeding 80% can be achieved with modest experimental requirements, while the transduction bandwidth can reach the GHz range. The strong nonlinear photonic interactions in magnetic topological insulators can find diverse applications, including the generation of entanglement between photons of disparate frequencies and quantum squeezing.
翻訳日:2023-11-02 17:02:30 公開日:2023-11-01
# ALGAN:調整LSTM GANによる時系列異常検出

ALGAN: Time Series Anomaly Detection with Adjusted-LSTM GAN ( http://arxiv.org/abs/2308.06663v2 )

ライセンス: Link先を確認
Md Abul Bashar, Richi Nayak(参考訳) 時系列データにおける異常検出は、通常の行動から逸脱する点を特定するために、製造、医用画像、サイバーセキュリティなどの様々な領域で一般的な問題である。 近年,GAN(Generative Adversarial Networks)は時系列データの異常検出に有効であることが示されている。 GAN(ジェネレータとディスクリミネータ)のニューラルネットワークアーキテクチャは異常検出精度を大幅に向上させることができる。 本稿では,ALGAN(Adjusted-LSTM GAN)と呼ばれる新しいGANモデルを提案する。LSTMネットワークの出力を調整し,教師なし環境での一変量および多変量時系列データの異常検出を改善する。 複数の領域にまたがる46個の実世界の単変量時系列データセットと大規模多変量データセット上でのALGANの性能を評価する。 実験の結果,ALGANは従来型,ニューラルネットワーク,その他のGANに基づく時系列データ異常検出法よりも優れていた。

Anomaly detection in time series data, to identify points that deviate from normal behaviour, is a common problem in various domains such as manufacturing, medical imaging, and cybersecurity. Recently, Generative Adversarial Networks (GANs) are shown to be effective in detecting anomalies in time series data. The neural network architecture of GANs (i.e. Generator and Discriminator) can significantly improve anomaly detection accuracy. In this paper, we propose a new GAN model, named Adjusted-LSTM GAN (ALGAN), which adjusts the output of an LSTM network for improved anomaly detection in both univariate and multivariate time series data in an unsupervised setting. We evaluate the performance of ALGAN on 46 real-world univariate time series datasets and a large multivariate dataset that spans multiple domains. Our experiments demonstrate that ALGAN outperforms traditional, neural network-based, and other GAN-based methods for anomaly detection in time series data.
翻訳日:2023-11-02 17:02:08 公開日:2023-11-01
# 自由確率による設計

Designs via Free Probability ( http://arxiv.org/abs/2308.06200v2 )

ライセンス: Link先を確認
Michele Fava, Jorge Kurchan, and Silvia Pappalardi(参考訳) ユニタリデザインは、均一なハールアンサンブルの統計を近似するため、擬似ランダム性を調査するための重要なツールとなっている。 量子情報における中心的な役割にもかかわらず、量子カオス進化、特に固有状態熱化仮説(ETH)との関係はいまだに議論されている。 この研究は自由確率論を通じて後者と$k$-設計の間に橋渡しを与える。 まず、より一般的な$k$-freenessの概念を導入することにより、設計の代替プローブとして使用できることを示す。 自由確率理論にはいくつかのツールがあり、例えば混合モーメントの計算や量子チャネルの計算に有用である。 第2の結果は 量子力学とのつながりです 量子エルゴード性(ETH)は、文献で既に議論されているように、制限された物理観測可能なクラスに適用される。 この精神において、ジェネリックハミルトニアンのユニタリ進化は常に十分長い時間の自由性をもたらすが、考慮される作用素がethクラス内で制限されているときのみである。 この結果から,ユニタリ設計,量子カオス,固有状態熱化仮説の直接的関連が得られ,後期量子力学の普遍性に新たな光を当てることができた。

Unitary Designs have become a vital tool for investigating pseudorandomness since they approximate the statistics of the uniform Haar ensemble. Despite their central role in quantum information, their relation to quantum chaotic evolution and in particular to the Eigenstate Thermalization Hypothesis (ETH) are still largely debated issues. This work provides a bridge between the latter and $k$-designs through Free Probability theory. First, by introducing the more general notion of $k$-freeness, we show that it can be used as an alternative probe of designs. In turn, free probability theory comes with several tools, useful for instance for the calculation of mixed moments or for quantum channels. Our second result is the connection to quantum dynamics. Quantum ergodicity, and correspondingly ETH, apply to a restricted class of physical observables, as already discussed in the literature. In this spirit, we show that unitary evolution with generic Hamiltonians always leads to freeness at sufficiently long times, but only when the operators considered are restricted within the ETH class. Our results provide a direct link between unitary designs, quantum chaos and the Eigenstate Thermalization Hypothesis, and shed new light on the universality of late-time quantum dynamics.
翻訳日:2023-11-02 17:01:51 公開日:2023-11-01
# ハミルトン形式における複合粒子スペクトルの計算と2-フラバー qed$_{1+1\text{d}}$での実証

Calculating composite-particle spectra in Hamiltonian formalism and demonstration in 2-flavor QED$_{1+1\text{d}}$ ( http://arxiv.org/abs/2307.16655v3 )

ライセンス: Link先を確認
Etsuko Itou, Akira Matsumoto, Yuya Tanizaki(参考訳) 我々は,(1)相関関数スキーム,(2)一点関数スキーム,(3)分散関係スキームという,ゲージ理論の質量スペクトルを計算するための3つの異なる方法を考える。 1つ目は、従来のユークリッドモンテカルロシミュレーションで行うような空間相関関数についてである。 第二に、境界効果を使って質量スペクトルを効率的に計算する。 第3のものは励起状態を構成し、量子数の選択と分散関係を用いてエネルギーに適合する。 密度行列再正規化群 (dmrg) を用いたm/g=0.1$ および $\theta=0$ の2-フレーバー質量シュウィンガー模型の質量スペクトルへの応用において, それぞれの手法は長所と短所を持ち, それらの特性を明らかにした。 小さい質量$m$のマルチフレーバーシュウィンガーモデルは、ボゾン化後も強い結合場理論であり、従って第一原理の数値計算を行う必要があることに留意する。 これら全ての手法は、安定粒子、ピオン$\pi_a$$J^{PG}=1^{-+}$、シグマメソン$\sigma$(J^{PG}=0^{++}$)、eta meson$\eta$(J^{PG}=0^{-}$)にほぼ一致する。 特に、$\sigma$中間子の質量は2倍のパイオン質量より軽く、$\sigma$は崩壊過程に対して安定である、$\sigma \to \pi\pi$。 これは、WKB近似を用いた解析的予測と一致しており、我々の計算結果は、ピオンとシグマ中間体の間のWKB式、$M_\sigma/M_\pi=\sqrt{3}$に非常に近い。

We consider three distinct methods to compute the mass spectrum of gauge theories in the Hamiltonian formalism: (1) correlation-function scheme, (2) one-point-function scheme, and (3) dispersion-relation scheme. The first one examines spatial correlation functions as we do in the conventional Euclidean Monte Carlo simulations. The second one uses the boundary effect to efficiently compute the mass spectrum. The third one constructs the excited states and fits their energy using the dispersion relation with selecting quantum numbers. Each method has its pros and cons, and we clarify such properties in their applications to the mass spectrum for the 2-flavor massive Schwinger model at $m/g=0.1$ and $\theta=0$ using the density-matrix renormalization group (DMRG). We note that the multi-flavor Schwinger model at small mass $m$ is a strongly coupled field theory even after the bosonizations, and thus it deserves to perform the first-principles numerical calculations. All these methods mostly agree and identify the stable particles, pions $\pi_a$ ($J^{PG}=1^{-+}$), sigma meson $\sigma$ ($J^{PG}=0^{++}$), and eta meson $\eta$ ($J^{PG}=0^{--}$). In particular, we find that the mass of $\sigma$ meson is lighter than twice the pion mass, and thus $\sigma$ is stable against the decay process, $\sigma \to \pi\pi$. This is consistent with the analytic prediction using the WKB approximation, and, remarkably, our numerical results are so close to the WKB-based formula between the pion and sigma-meson masses, $M_\sigma/M_\pi=\sqrt{3}$.
翻訳日:2023-11-02 17:01:31 公開日:2023-11-01
# 問合せと応答の強化はドメイン外数学推論の一般化に役立たない

Query and Response Augmentation Cannot Help Out-of-domain Math Reasoning Generalization ( http://arxiv.org/abs/2310.05506v2 )

ライセンス: Link先を確認
Chengpeng Li, Zheng Yuan, Hongyi Yuan, Guanting Dong, Keming Lu, Jiancan Wu, Chuanqi Tan, Xiang Wang, Chang Zhou(参考訳) 大規模言語モデル(LLM)を用いた数学推論において、クエリの進化と多様な推論経路による微調整データ拡張は実験的に有効であり、オープンソースのLLMと最先端のLLMとのギャップを著しく狭めている。 本稿では,数理推論におけるデータ拡張に関する調査を行い,(1)データ拡張の戦略がより効果的であるか,(2)拡張データ量とモデル性能のスケーリングの関係はどのようなものか,(3)データ拡張は,領域外な数学的推論タスクへの一般化を動機付けることができるのか,などについて述べる。 この目的のために、GSM8Kからクエリを複雑化し、多様化し、複数の推論経路をサンプリングすることで、新しいデータセットAugGSM8Kを作成する。 auggsm8k の部分集合の微調整により mugglemath と呼ばれる一連の llm を得た。 MuggleMath は GSM8K の新たな最先端技術を実現している(GSM8K では 54% から 68.4% まで、スケール 7B では 63.9% から 74.0% まで)。 mugglemathのパフォーマンスと拡張データ量との間に対数線形関係が示される。 また、MuggleMathは領域外数学推論のMATHへの一般化に弱い。 これは auggsm8k と math のクエリ分布の違いによるもので、単一のベンチマークでの強化は全体の数学推論性能に寄与しないことを示唆している。 CodesとAugGSM8Kはhttps://github.com/OFA-Sys/gsm8k-ScRelにアップロードされる。

In math reasoning with large language models (LLMs), fine-tuning data augmentation by query evolution and diverse reasoning paths is empirically verified effective, profoundly narrowing the gap between open-sourced LLMs and cutting-edge proprietary LLMs. In this paper, we conduct an investigation for such data augmentation in math reasoning and are intended to answer: (1) What strategies of data augmentation are more effective; (2) What is the scaling relationship between the amount of augmented data and model performance; and (3) Can data augmentation incentivize generalization to out-of-domain mathematical reasoning tasks? To this end, we create a new dataset, AugGSM8K, by complicating and diversifying the queries from GSM8K and sampling multiple reasoning paths. We obtained a series of LLMs called MuggleMath by fine-tuning on subsets of AugGSM8K. MuggleMath substantially achieves new state-of-the-art on GSM8K (from 54% to 68.4% at the scale of 7B, and from 63.9% to 74.0% at the scale of 13B). A log-linear relationship is presented between MuggleMath's performance and the amount of augmented data. We also find that MuggleMath is weak in out-of-domain math reasoning generalization to MATH. This is attributed to the differences in query distribution between AugGSM8K and MATH which suggest that augmentation on a single benchmark could not help with overall math reasoning performance. Codes and AugGSM8K will be uploaded to https://github.com/OFA-Sys/gsm8k-ScRel.
翻訳日:2023-11-02 16:52:00 公開日:2023-11-01
# 教師付き微調整データ構成による大規模言語モデルの能力への影響

How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition ( http://arxiv.org/abs/2310.05492v2 )

ライセンス: Link先を確認
Guanting Dong, Hongyi Yuan, Keming Lu, Chengpeng Li, Mingfeng Xue, Dayiheng Liu, Wei Wang, Zheng Yuan, Chang Zhou, Jingren Zhou(参考訳) 膨大な事前学習トークンとパラメータを持つ大規模言語モデル(LLM)は、算術的推論、コード生成、命令追従などの能力を持つ。 これらの能力はsft(supervised fine-tuning)によってさらに強化される。 オープンソースコミュニティは、各能力に対してアドホックなSFTについて研究しているが、プロプライエタリなLLMはすべての能力に汎用性がある。 SFTを介して複数の能力でアンロックする方法を検討することが重要である。 本研究では,SFTにおける数学的推論,コード生成,一般人適応能力間のデータ構成に着目した。 スケーリングの観点から,モデル能力とデータ量,データ合成比,モデルパラメータ,sft戦略などさまざまな要因との関係について検討した。 我々の実験によると、異なる能力は異なるスケーリングパターンを示し、大きなモデルは一般的に同じ量のデータで優れたパフォーマンスを示す。 データ量が一貫して増加するにつれて、数学的推論とコード生成が改善され、1000のサンプルで一般的な能力が向上し、ゆっくりと改善される。 データ構成の結果,低データ量では様々な能力向上が得られ,高データ量では能力の矛盾が生じている。 さらに, 合成データ量が性能に影響を及ぼすのに対し, 組成比の影響は重要でないことを示した。 SFTの戦略に関して、逐次学習の多重能力は破滅的な忘れがちである。 提案したDual-stage Mixed Fine-tuning(DMT)戦略は,まず特殊能力を学習し,次に少量の専門データを用いて汎用能力を学習し,異なるスケーリングパターンで複数の能力を学ぶための有望なソリューションを提供する。

Large language models (LLMs) with enormous pre-training tokens and parameter amounts emerge abilities, including math reasoning, code generation, and instruction following. These abilities are further enhanced by supervised fine-tuning (SFT). The open-source community has studied on ad-hoc SFT for each ability, while proprietary LLMs are versatile for all abilities. It is important to investigate how to unlock them with multiple abilities via SFT. In this study, we specifically focus on the data composition between mathematical reasoning, code generation, and general human-aligning abilities during SFT. From a scaling perspective, we investigate the relationship between model abilities and various factors including data amounts, data composition ratio, model parameters, and SFT strategies. Our experiments reveal that different abilities exhibit different scaling patterns, and larger models generally show superior performance with the same amount of data. Mathematical reasoning and code generation improve as data amounts increase consistently, while the general ability is enhanced with about a thousand samples and improves slowly. We find data composition results in various abilities improvements with low data amounts, while conflicts of abilities with high data amounts. Our experiments further show that composition data amount impacts performance, while the influence of composition ratio is insignificant. Regarding the SFT strategies, we evaluate sequential learning multiple abilities are prone to catastrophic forgetting. Our proposed Dual-stage Mixed Fine-tuning (DMT) strategy learns specialized abilities first and then learns general abilities with a small amount of specialized data to prevent forgetting, offering a promising solution to learn multiple abilities with different scaling patterns.
翻訳日:2023-11-02 16:51:30 公開日:2023-11-01
# 余剰次元と宇宙定数問題について

On extra dimensions and the cosmological constant problem ( http://arxiv.org/abs/2310.02837v2 )

ライセンス: Link先を確認
Grzegorz Plewa(参考訳) 高次元時空における座標依存質量を持つ大スカラー場を考える。 この場は四次元世界を表すブレーン上のディリクレ境界条件を満たす。 巨大であるにもかかわらず、この理論はスケール不変である。 ゼロ点エネルギーを計算する理論を定量化する。 不確かさの原則では、不確実性生成物の限界が低いことが分かる。 大きな余剰次元が存在する場合、ゼロ点エネルギー密度は小さくなる可能性がある。 ゼロ点エネルギーをダークエネルギーの源として同定し、ブレーン面に近い量子ゆらぎを考慮した高次元理論から4次元宇宙定数を抽出する。 数値的に10次元と11次元の空間を調べる。 結果として得られる零点エネルギーは余剰次元の数と余剰次元のない飽和パラメータによってパラメータ化され、不確かさ原理の完全飽和から逸脱する。 パラメータを小さくし、微細構造定数の次数とすることで、宇宙定数の実験値を4次元で再現する。

We consider a massive scalar field with a coordinate-dependent mass in higher-dimensional spacetime. The field satisfies Dirichlet boundary conditions on a brane representing the four-dimensional world. Despite being massive, the theory is scale-invariant. We quantize the theory calculating the zero-point energy. We find the lower bound for the uncertainty product in the uncertainty principle. We show that the zero-point energy density could be small if large extra dimensions exist. Identifying the zero-point energy as a source of dark energy, we extract the four-dimensional cosmological constant from higher-dimensional theory, considering quantum fluctuations close to the brane surface. We examine numerically ten- and eleven-dimensional spaces. The resulting zero-point energy is parameterized by the number of extra dimensions and the additional dimensionless {\it saturation parameter}, expressing the deviation from perfect saturation of the uncertainty principle. Letting the parameter to be small and of order of the fine-structure constant, we reproduce the experimental value of the cosmological constant in four dimensions.
翻訳日:2023-11-02 16:50:31 公開日:2023-11-01
# 分布非依存の一般化カテゴリー発見に向けて

Towards Distribution-Agnostic Generalized Category Discovery ( http://arxiv.org/abs/2310.01376v3 )

ライセンス: Link先を確認
Jianhong Bai, Zuozhu Liu, Hualiang Wang, Ruizhe Chen, Lianrui Mu, Xiaomeng Li, Joey Tianyi Zhou, Yang Feng, Jian Wu, Haoji Hu(参考訳) データ不均衡と開放分布は、現実の視覚世界の本質的な特徴である。 それぞれの課題を個別に取り組むことで進歩を奨励する一方で、現実のシナリオに向けてそれらを統合するための作品はほとんどない。 これまでのいくつかの研究は、クローズドセットのサンプルの分類や、テスト中のオープンセットのサンプルの検出に力を入れてきました。 本稿では,より現実的なタスクを分散非依存な一般化カテゴリ発見(da-gcd)として定式化する。 そこで本研究では,da-gcd課題を解決するための対話的監督を行うために,コントラスト学習分枝と擬似ラベル分枝からなる自己バランス協調型コントラストフレームワーク(bacon)を提案する。 特に、コントラスト学習枝は、疑似ラベル分岐の予測を正則化する信頼できる分布推定を提供し、その結果、自己バランスの知識伝達と提案される新しいコントラスト損失を通じてコントラスト学習を導く。 我々はBaConと2つの密接に関連する分野、不均衡な半教師付き学習と一般化されたカテゴリー発見の最先端手法を比較した。 BaConの有効性は、すべてのベースラインよりも優れたパフォーマンスと、さまざまなデータセットにわたる包括的な分析で実証されている。 私たちのコードは公開されています。

Data imbalance and open-ended distribution are two intrinsic characteristics of the real visual world. Though encouraging progress has been made in tackling each challenge separately, few works dedicated to combining them towards real-world scenarios. While several previous works have focused on classifying close-set samples and detecting open-set samples during testing, it's still essential to be able to classify unknown subjects as human beings. In this paper, we formally define a more realistic task as distribution-agnostic generalized category discovery (DA-GCD): generating fine-grained predictions for both close- and open-set classes in a long-tailed open-world setting. To tackle the challenging problem, we propose a Self-Balanced Co-Advice contrastive framework (BaCon), which consists of a contrastive-learning branch and a pseudo-labeling branch, working collaboratively to provide interactive supervision to resolve the DA-GCD task. In particular, the contrastive-learning branch provides reliable distribution estimation to regularize the predictions of the pseudo-labeling branch, which in turn guides contrastive learning through self-balanced knowledge transfer and a proposed novel contrastive loss. We compare BaCon with state-of-the-art methods from two closely related fields: imbalanced semi-supervised learning and generalized category discovery. The effectiveness of BaCon is demonstrated with superior performance over all baselines and comprehensive analysis across various datasets. Our code is publicly available.
翻訳日:2023-11-02 16:50:18 公開日:2023-11-01
# 話者認識のための自己スーパービジョンによる音声とコンテンツの分離

Disentangling Voice and Content with Self-Supervision for Speaker Recognition ( http://arxiv.org/abs/2310.01128v3 )

ライセンス: Link先を確認
Tianchi Liu, Kong Aik Lee, Qiongqiong Wang, Haizhou Li(参考訳) 話者認識では,話者特性と内容が混在しているため,音声から正確な話者表現を抽出することは困難である。 本稿では,話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。 異なる音声成分を抽出する学習可能な遷移モデルからなる3つのガウス推論層を用いて実現した。 特に、強化された遷移モデルは、複雑な音声力学をモデル化するために特別に設計されている。 また,話者識別以外のラベルを使わずにコンテンツを動的に切り離すセルフスーパービジョン手法を提案する。 提案フレームワークの有効性は,VoxCelebデータセットとSITWデータセットを用いて,それぞれEERおよびminDCFの平均減少率を9.56%,8.24%で検証した。 追加のモデルトレーニングやデータは特に必要とされないため、実用上容易に適用できる。

For speaker recognition, it is difficult to extract an accurate speaker representation from speech because of its mixture of speaker traits and content. This paper proposes a disentanglement framework that simultaneously models speaker traits and content variability in speech. It is realized with the use of three Gaussian inference layers, each consisting of a learnable transition model that extracts distinct speech components. Notably, a strengthened transition model is specifically designed to model complex speech dynamics. We also propose a self-supervision method to dynamically disentangle content without the use of labels other than speaker identities. The efficacy of the proposed framework is validated via experiments conducted on the VoxCeleb and SITW datasets with 9.56% and 8.24% average reductions in EER and minDCF, respectively. Since neither additional model training nor data is specifically needed, it is easily applicable in practical use.
翻訳日:2023-11-02 16:49:51 公開日:2023-11-01
# 事前学習のための多言語データセットのパワー活用:テキストスポッティング性能向上に向けて

Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards Enhancing Text Spotting Performance ( http://arxiv.org/abs/2310.00917v4 )

ライセンス: Link先を確認
Alloy Das, Sanket Biswas, Ayan Banerjee, Josep Llad\'os, Umapada Pal, and Saumik Bhattacharya(参考訳) 広い範囲のドメインへの適応能力は、実世界の状況にデプロイされるシーンのテキストスポッティングモデルに不可欠である。 しかし、既存のSOTA(State-of-the-art)アプローチは、通常、複数のドメイン間の中間的特徴表現を直接活用しない自然のシーンテキストデータセットを事前訓練することで、シーンテキストの検出と認識を組み込む。 本稿では,ドメイン適応型シーンテキストスポッティングの問題,すなわち,特定のドメインやシナリオに特化されるのではなく,ターゲットドメインに直接適応できるように,マルチドメインソースデータ上でモデルをトレーニングする。 さらに,正規文と任意文の両方のシーンテキストスポッティングの解決と,徹底的な評価を行うために,swain-testrと呼ばれるトランスフォーマのベースラインを調査した。 この結果は、複数のドメインにわたるテキストスポッティングベンチマーク(言語、合成-現実、文書など)において、中間表現が大きなパフォーマンスを達成する可能性を明確に示している。 正確性と効率の両面でです

The adaptation capability to a wide range of domains is crucial for scene text spotting models when deployed to real-world conditions. However, existing state-of-the-art (SOTA) approaches usually incorporate scene text detection and recognition simply by pretraining on natural scene text datasets, which do not directly exploit the intermediate feature representations between multiple domains. Here, we investigate the problem of domain-adaptive scene text spotting, i.e., training a model on multi-domain source data such that it can directly adapt to target domains rather than being specialized for a specific domain or scenario. Further, we investigate a transformer baseline called Swin-TESTR to focus on solving scene-text spotting for both regular and arbitrary-shaped scene text along with an exhaustive evaluation. The results clearly demonstrate the potential of intermediate representations to achieve significant performance on text spotting benchmarks across multiple domains (e.g. language, synth-to-real, and documents). both in terms of accuracy and efficiency.
翻訳日:2023-11-02 16:49:37 公開日:2023-11-01
# インクリメンタルISSシステムの非線形MPC設計とGRUネットワークへの応用

Nonlinear MPC design for incrementally ISS systems with application to GRU networks ( http://arxiv.org/abs/2309.16428v2 )

ライセンス: Link先を確認
Fabio Bonassi, Alessio La Bella, Marcello Farina, Riccardo Scattolini(参考訳) 本稿では、指数関数的にインクリメンタルな入力-状態安定(ISS)システムのための非線形モデル予測制御(NMPC)戦略の設計について述べる。 特に、終端成分の有意な計算を必要とせず、閉ループ安定性を保証する最小予測地平線の明示的な定義に依存する、新しい定式化が考案された。 設計手法は、リカレントニューラルネットワーク(RNN)によって学習されたシステムの制御に特に適しており、モデリング能力の強化と、単純な代数的条件によりISS特性の漸進性を研究することができる。 このアプローチは Gated Recurrent Unit (GRU) ネットワークに適用され、収束保証を備えた調整状態オブザーバの設計方法も提供する。 結果の制御アーキテクチャはベンチマークシステムでテストされ、優れた制御性能と効率的な適用性を示す。

This brief addresses the design of a Nonlinear Model Predictive Control (NMPC) strategy for exponentially incremental Input-to-State Stable (ISS) systems. In particular, a novel formulation is devised, which does not necessitate the onerous computation of terminal ingredients, but rather relies on the explicit definition of a minimum prediction horizon ensuring closed-loop stability. The designed methodology is particularly suited for the control of systems learned by Recurrent Neural Networks (RNNs), which are known for their enhanced modeling capabilities and for which the incremental ISS properties can be studied thanks to simple algebraic conditions. The approach is applied to Gated Recurrent Unit (GRU) networks, providing also a method for the design of a tailored state observer with convergence guarantees. The resulting control architecture is tested on a benchmark system, demonstrating its good control performances and efficient applicability.
翻訳日:2023-11-02 16:49:17 公開日:2023-11-01
# CoinRun: 目標の誤用を解決する

CoinRun: Solving Goal Misgeneralisation ( http://arxiv.org/abs/2309.16166v3 )

ライセンス: Link先を確認
Stuart Armstrong and Alexandre Maranh\~ao and Oliver Daniels-Koch and Patrick Leask and Rebecca Gorman(参考訳) 目標の非一般化は、aiアライメントにおける重要な課題である -- 強力な人工知能を使って、目標を人間の意図と人間のモラルに合わせること。 本稿では、ACE(Algorithm for Concept Extrapolation)エージェントが、ゴールの誤一般化における主要な標準課題の1つ、CoinRunチャレンジをいかに解決できるかを示す。 新しい環境では新たな報酬情報を使用しない。 これは、新規で批判的な状況でも、自律的なエージェントが人間の利益のためにどのように行動するかを示唆する。

Goal misgeneralisation is a key challenge in AI alignment -- the task of getting powerful Artificial Intelligences to align their goals with human intentions and human morality. In this paper, we show how the ACE (Algorithm for Concept Extrapolation) agent can solve one of the key standard challenges in goal misgeneralisation: the CoinRun challenge. It uses no new reward information in the new environment. This points to how autonomous agents could be trusted to act in human interests, even in novel and critical situations.
翻訳日:2023-11-02 16:49:01 公開日:2023-11-01
# コントラストエンコーダを用いたタスク指向koopman制御

Task-Oriented Koopman-Based Control with Contrastive Encoder ( http://arxiv.org/abs/2309.16077v2 )

ライセンス: Link先を確認
Xubo Lyu, Hanyang Hu, Seth Siriya, Ye Pu, Mo Chen(参考訳) タスク指向のKoopman-based controlは、エンドツーエンドの強化学習とコントラストエンコーダを利用して、反復ループ内でKoopmanの潜在埋め込み、演算子、および関連する線形コントローラを同時に学習する。 制御学習の主な目的としてタスクコストを優先順位付けすることにより、我々は初めて我々の知る限りでは、ピクセルベースのタスクやライダー観察を備えた実際のロボットを含む、低次元から高次元の複雑な非線形システムへとkoopman制御を拡張する、よく特定されたモデルにおける制御設計の信頼性を低下させる。 コードとビデオはhttps://sites.google.com/view/kpmlilatsupp/}{here}である。

We present task-oriented Koopman-based control that utilizes end-to-end reinforcement learning and contrastive encoder to simultaneously learn the Koopman latent embedding, operator, and associated linear controller within an iterative loop. By prioritizing the task cost as the main objective for controller learning, we reduce the reliance of controller design on a well-identified model, which, for the first time to the best of our knowledge, extends Koopman control from low to high-dimensional, complex nonlinear systems, including pixel-based tasks and a real robot with lidar observations. Code and videos are available \href{https://sites.google.com/view/kpmlilatsupp/}{here}.
翻訳日:2023-11-02 16:48:52 公開日:2023-11-01
# 層次非線形性をもつ状態空間モデルは指数減少メモリを持つ普遍近似器である

State-space Models with Layer-wise Nonlinearity are Universal Approximators with Exponential Decaying Memory ( http://arxiv.org/abs/2309.13414v3 )

ライセンス: Link先を確認
Shida Wang, Beichen Xue(参考訳) 状態空間モデルは、単純で効率的なネットワーク構造のためにシーケンスモデリングで人気を博している。 しかし、時間方向に沿った非線形活性化が存在しないため、モデルの能力は制限される。 本稿では, 階層的非線形アクティベーションを伴う状態空間モデルの積み重ねが, 連続シーケンスとシーケンスの関係を近似するのに十分であることを示す。 本研究は,層状非線形活性化を付加することで,複雑なシーケンスパターンを学習するモデルの能力を高めることを示す。 一方、状態空間モデルが指数的減衰メモリの問題を根本的に解決しないという理論と経験の両方を見ることができる。 理論的結果は数値検証によって正当化される。

State-space models have gained popularity in sequence modelling due to their simple and efficient network structures. However, the absence of nonlinear activation along the temporal direction limits the model's capacity. In this paper, we prove that stacking state-space models with layer-wise nonlinear activation is sufficient to approximate any continuous sequence-to-sequence relationship. Our findings demonstrate that the addition of layer-wise nonlinear activation enhances the model's capacity to learn complex sequence patterns. Meanwhile, it can be seen both theoretically and empirically that the state-space models do not fundamentally resolve the issue of exponential decaying memory. Theoretical results are justified by numerical verifications.
翻訳日:2023-11-02 16:48:38 公開日:2023-11-01
# ロバスト推論を補足するConvexフレームワーク

A Convex Framework for Confounding Robust Inference ( http://arxiv.org/abs/2309.12450v2 )

ライセンス: Link先を確認
Kei Ishikawa, Niao He, Takafumi Kanamori(参考訳) 本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。 感度分析法は、与えられた不確実性セット上での最悪の場合のポリシー値の推定によく用いられる。 しかし、既存の作業はしばしば、トラクタビリティのために設定された不確実性の粗い緩和に頼り、政策価値を過度に保守的に見積もる。 本稿では,convexプログラミングを用いて,ポリシー値の鋭い下限を提供する一般的な推定器を提案する。 この推定器の汎用性は,f-divergenceによる感度解析,クロス検証と情報基準によるモデル選択,鋭い下限による強固なポリシ学習など,さまざまな拡張を可能にする。 さらに,本手法は,M推定手法を用いて提案した推定器の理論的確証を高い双対性により,経験的リスク最小化問題として再検討することができる。

We study policy evaluation of offline contextual bandits subject to unobserved confounders. Sensitivity analysis methods are commonly used to estimate the policy value under the worst-case confounding over a given uncertainty set. However, existing work often resorts to some coarse relaxation of the uncertainty set for the sake of tractability, leading to overly conservative estimation of the policy value. In this paper, we propose a general estimator that provides a sharp lower bound of the policy value using convex programming. The generality of our estimator enables various extensions such as sensitivity analysis with f-divergence, model selection with cross validation and information criterion, and robust policy learning with the sharp lower bound. Furthermore, our estimation method can be reformulated as an empirical risk minimization problem thanks to the strong duality, which enables us to provide strong theoretical guarantees of the proposed estimator using techniques of the M-estimation.
翻訳日:2023-11-02 16:48:11 公開日:2023-11-01
# 火をつけるのに何が必要か 社会的・道徳的状況の明確化のための文脈と合理化の反復的自己蒸留

What Makes it Ok to Set a Fire? Iterative Self-distillation of Contexts and Rationales for Disambiguating Defeasible Social and Moral Situations ( http://arxiv.org/abs/2310.15431v2 )

ライセンス: Link先を確認
Kavel Rao, Liwei Jiang, Valentina Pyatkin, Yuling Gu, Niket Tandon, Nouha Dziri, Faeze Brahman, Yejin Choi(参考訳) 道徳的または倫理的な判断は、それらが起こる特定の文脈に大きく依存する。 様々なデファシブルな文脈化の陰(つまり、行動の道徳的受容性を強化するまたは弱める付加的な情報)を理解することは、現実のシナリオにおける人間の道徳的判断の微妙さと複雑さを正確に表すために重要である。 我々は,行動が多かれ少なかれ道徳的に容認されるような基礎的な文脈を提供することと,その推論を正当化する常識的理性を導入する。 高品質なタスクデータを抽出するために,GPT-3から少量の未構造化シード知識から始まる反復的自己蒸留アプローチを,(1)学生モデルからの自己蒸留,(2)人間による判断(妥当性向上)とNLI(多様性向上)によって訓練された批評家モデルによるターゲットフィルタリング,(3)自己シミュレーション学習(データ品質の増幅)とを交互に行う。 このプロセスは、妥当性、多様性、デファシビリティを改善したデファシブルコンテキストを生成する学生モデルを生成する。 このモデルから、人間のアノテータの85.9%から99.8%で評価された115Kデファシブルな道徳行動の文脈化と合理性の1.2M項目からなる高品質なデータセット \delta-Rules-of-Thumb を蒸留する。 \delta-RoT を用いて、すべての中間学生モデルに顕著なマージンで勝利する最終学生モデルを得る。

Moral or ethical judgments rely heavily on the specific contexts in which they occur. Understanding varying shades of defeasible contextualizations (i.e., additional information that strengthens or attenuates the moral acceptability of an action) is critical to accurately represent the subtlety and intricacy of grounded human moral judgment in real-life scenarios. We introduce defeasible moral reasoning: a task to provide grounded contexts that make an action more or less morally acceptable, along with commonsense rationales that justify the reasoning. To elicit high-quality task data, we take an iterative self-distillation approach that starts from a small amount of unstructured seed knowledge from GPT-3 and then alternates between (1) self-distillation from student models; (2) targeted filtering with a critic model trained by human judgment (to boost validity) and NLI (to boost diversity); (3) self-imitation learning (to amplify the desired data quality). This process yields a student model that produces defeasible contexts with improved validity, diversity, and defeasibility. From this model we distill a high-quality dataset, \delta-Rules-of-Thumb, of 1.2M entries of contextualizations and rationales for 115K defeasible moral actions rated highly by human annotators 85.9% to 99.8% of the time. Using \delta-RoT we obtain a final student model that wins over all intermediate student models by a notable margin.
翻訳日:2023-11-02 16:40:17 公開日:2023-11-01
# FD-Align:Few-Shot Learningにおける微調整事前学習モデルの特徴識別アライメント

FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning ( http://arxiv.org/abs/2310.15105v3 )

ライセンス: Link先を確認
Kun Song, Huimin Ma, Bochao Zou, Huishuai Zhang, Weiran Huang(参考訳) データの可用性が限られているため、スクラッチからトレーニングされた既存の少数ショット学習方法は、十分なパフォーマンスを達成できていない。 対照的に、CLIPのような大規模で事前訓練されたモデルでは、目覚ましい少数ショットとゼロショットの機能を示している。 下流タスクのための事前学習モデルの性能を高めるためには、下流データ上でモデルを微調整する必要があることが多い。 しかしながら、事前学習されたモデルの微調整は分布シフトの存在下での一般化可能性の低下を招き、一方、少数ショット学習ではサンプル数が限られているため、過度に適合しやすいモデルとなる。 その結果,既存の微調整学習手法は主にモデルの分類ヘッドの微調整や追加構造の導入に重点を置いている。 本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。 本手法は, 微調整プロセスにおける突発的特徴の一貫性を保ち, モデルの一般化可能性を高めることを目的とする。 広範囲な実験により, ID および OOD タスクに対するアプローチの有効性が検証された。 微調整をすれば、モデルが既存のメソッドとシームレスに統合できるため、パフォーマンスが向上する。 私たちのコードはhttps://github.com/skingorz/FD-Align.orgにある。

Due to the limited availability of data, existing few-shot learning methods trained from scratch fail to achieve satisfactory performance. In contrast, large-scale pre-trained models such as CLIP demonstrate remarkable few-shot and zero-shot capabilities. To enhance the performance of pre-trained models for downstream tasks, fine-tuning the model on downstream data is frequently necessary. However, fine-tuning the pre-trained model leads to a decrease in its generalizability in the presence of distribution shift, while the limited number of samples in few-shot learning makes the model highly susceptible to overfitting. Consequently, existing methods for fine-tuning few-shot learning primarily focus on fine-tuning the model's classification head or introducing additional structure. In this paper, we introduce a fine-tuning approach termed Feature Discrimination Alignment (FD-Align). Our method aims to bolster the model's generalizability by preserving the consistency of spurious features across the fine-tuning process. Extensive experimental results validate the efficacy of our approach for both ID and OOD tasks. Once fine-tuned, the model can seamlessly integrate with existing methods, leading to performance improvements. Our code can be found in https://github.com/skingorz/FD-Align.
翻訳日:2023-11-02 16:39:45 公開日:2023-11-01
# 3m-transformer:エンボディドターンテイク予測のための多段マルチストリームマルチモーダルトランス

3M-TRANSFORMER: A Multi-Stage Multi-Stream Multimodal Transformer for Embodied Turn-Taking Prediction ( http://arxiv.org/abs/2310.14859v2 )

ライセンス: Link先を確認
Mehdi Fatan, Emanuele Mincato, Dimitra Pintzou, Mariella Dimiccoli(参考訳) マルチパーティ会話におけるターンテイクの予測は、人間とコンピュータ/ロボットのインタラクションに多くの実践的応用がある。 しかし、人間のコミュニケーションの複雑さは難しい課題となっている。 近年の進歩により、同期型マルチパースペクティブなエゴセントリックデータは、非同期のシングルパースペクティブな書き起こしと比較して、ターンテイク予測を著しく改善できることが示されている。 本研究では,エンボディ化・同期化マルチパースペクティブデータのターンテイクを予測するための,新しいマルチモーダルトランスフォーマティブアーキテクチャを提案する。 最近導入されたEgoComデータセットの実験結果は、既存のベースラインや代替トランスフォーマーベースのアプローチと比較して、平均で14.01%の大幅なパフォーマンス向上を示している。 3M-Transformerのソースコードと事前訓練済みのモデルは、受け入れ次第利用可能になります。

Predicting turn-taking in multiparty conversations has many practical applications in human-computer/robot interaction. However, the complexity of human communication makes it a challenging task. Recent advances have shown that synchronous multi-perspective egocentric data can significantly improve turn-taking prediction compared to asynchronous, single-perspective transcriptions. Building on this research, we propose a new multimodal transformer-based architecture for predicting turn-taking in embodied, synchronized multi-perspective data. Our experimental results on the recently introduced EgoCom dataset show a substantial performance improvement of up to 14.01% on average compared to existing baselines and alternative transformer-based approaches. The source code, and the pre-trained models of our 3M-Transformer will be available upon acceptance.
翻訳日:2023-11-02 16:39:26 公開日:2023-11-01
# ジェネレーティブAIによる要件エンジニアリングの促進 - LLMの役割を評価する

Advancing Requirements Engineering through Generative AI: Assessing the Role of LLMs ( http://arxiv.org/abs/2310.13976v2 )

ライセンス: Link先を確認
Chetan Arora, John Grundy, Mohamed Abdelrazek(参考訳) 要件工学(Requirements Engineering, RE)は、ソフトウェア要件の推論、分析、仕様、検証を含むソフトウェア開発における重要なフェーズである。 REの重要性にもかかわらず、コミュニケーションの複雑さ、初期段階における不確実性、自動化サポートの不十分さなど、依然として困難なプロセスです。 近年,多言語モデル (LLM) は自然言語処理,コード生成,プログラム理解など,様々な分野において大きな可能性を秘めている。 本章では、要求関連タスクの効率性と精度の向上を目的とした、REプロセスの駆動におけるLLMの可能性について論じる。 本稿では,RE に LLM を用いた研究・開発における鍵となる方向性とSWOT 分析を提案し,要求の導出,分析,仕様,検証の可能性に焦点をあてる。 さらに,この文脈で予備評価を行った結果について述べる。

Requirements Engineering (RE) is a critical phase in software development including the elicitation, analysis, specification, and validation of software requirements. Despite the importance of RE, it remains a challenging process due to the complexities of communication, uncertainty in the early stages and inadequate automation support. In recent years, large-language models (LLMs) have shown significant promise in diverse domains, including natural language processing, code generation, and program understanding. This chapter explores the potential of LLMs in driving RE processes, aiming to improve the efficiency and accuracy of requirements-related tasks. We propose key directions and SWOT analysis for research and development in using LLMs for RE, focusing on the potential for requirements elicitation, analysis, specification, and validation. We further present the results from a preliminary evaluation, in this context.
翻訳日:2023-11-02 16:38:54 公開日:2023-11-01
# クラスレベル勾配アライメントを持つ二識別器ドメイン対向ニューラルネットワーク

Bi-discriminator Domain Adversarial Neural Networks with Class-Level Gradient Alignment ( http://arxiv.org/abs/2310.13959v2 )

ライセンス: Link先を確認
Chuang Zhao, Hongke Zhao, Hengshu Zhu, Zhenya Huang, Nan Feng, Enhong Chen, Hui Xiong(参考訳) 教師なしドメイン適応は、注釈付きソースドメインから同じラベル空間を持つラベルなしターゲットドメインにリッチな知識を転送することを目的としている。 このネットワークは、ソースドメイン分布のサポート以外の対象ドメインサンプルを識別し、その分類を双方の識別器に一貫性を持たせるよう強制する。 有効であるにもかかわらず、分布外サンプルの無知の精度と過信推定は、さらなる性能改善を妨げる。 以上の課題に対処するために、クラスレベルの勾配アライメント、すなわちBACGを含む新しい二識別ドメイン対向ニューラルネットワークを提案する。 BACGは、領域分布の整合性を改善するために勾配信号と二階確率推定を利用する。 具体的には, 対象領域におけるサンプルの擬似ラベルを得るために最適化可能な最近傍アルゴリズムをまず設計し, クラスレベルで2つの判別器の後方勾配近似を強制する。 さらに,従来のソフトマックスに基づく最適化手法を多項ディリクレ階層モデルに変換し,クラス確率分布と標本の不確かさを推定し,分布外サンプルの誤推定を軽減し,高品質なクラスアライメントを保証する。 さらに,コントラスト学習に触発されて,少ない精度低下でトレーニングプロセスを大幅に短縮できるメモリバンクベースの変種,すなわちfast-bacgを開発した。 4つのベンチマークデータセットの大規模な実験と詳細な理論的解析により,アルゴリズムの有効性とロバスト性を検証した。

Unsupervised domain adaptation aims to transfer rich knowledge from the annotated source domain to the unlabeled target domain with the same label space. One prevalent solution is the bi-discriminator domain adversarial network, which strives to identify target domain samples outside the support of the source domain distribution and enforces their classification to be consistent on both discriminators. Despite being effective, agnostic accuracy and overconfident estimation for out-of-distribution samples hinder its further performance improvement. To address the above challenges, we propose a novel bi-discriminator domain adversarial neural network with class-level gradient alignment, i.e. BACG. BACG resorts to gradient signals and second-order probability estimation for better alignment of domain distributions. Specifically, for accuracy-awareness, we first design an optimizable nearest neighbor algorithm to obtain pseudo-labels of samples in the target domain, and then enforce the backward gradient approximation of the two discriminators at the class level. Furthermore, following evidential learning theory, we transform the traditional softmax-based optimization method into a Multinomial Dirichlet hierarchical model to infer the class probability distribution as well as samples uncertainty, thereby alleviating misestimation of out-of-distribution samples and guaranteeing high-quality classes alignment. In addition, inspired by contrastive learning, we develop a memory bank-based variant, i.e. Fast-BACG, which can greatly shorten the training process at the cost of a minor decrease in accuracy. Extensive experiments and detailed theoretical analysis on four benchmark data sets validate the effectiveness and robustness of our algorithm.
翻訳日:2023-11-02 16:38:39 公開日:2023-11-01
# 真の3量子エンタングルメントの決定論的光子源

Deterministic photon source of genuine three-qubit entanglement ( http://arxiv.org/abs/2310.12038v2 )

ライセンス: Link先を確認
Yijian Meng, Ming Lai Chan, Rasmus B. Nielsen, Martin H. Appel, Zhe Liu, Ying Wang, Nikolai Bart, Andreas D. Wieck, Arne Ludwig, Leonardo Midolo, Alexey Tiranov, Anders S. S{\o}rensen, and Peter Lodahl(参考訳) 決定論的光子源は、量子光学の長期的な進歩を可能にする。 フォトニック共振器または導波管に埋め込まれた単一の量子エミッタは、所望の光モードに一度に1つの光子を放出するようにトリガーされる。 エミッタ内の単一スピンをコヒーレントに制御することにより、多光子絡みを実現することができる。 平面型ナノフォトニック導波路に埋め込まれた量子ドットに閉じ込められた単一電子スピンに基づく3量子絡みの決定論的源を示す。 我々は,高密度コヒーレントな光スピン回転を実現するために,スピン除去時間を$T_2^* \simeq 33$ nsに引き上げるために核スピン絞りを実装し,高密度スピン光子およびスピン光子-光子エンタングルメントの逐次生成のためのスピンエチョパルスシーケンスを実現する。 放出された光子は非常に区別がつかず、光子融合がより大きな絡み合った状態を実現するための鍵となる要件である。 この研究は多光子絡みのスケーラブルな決定論的源を示し、さらなる改善のための明確な経路を示し、フォトニック量子コンピューティングや量子ネットワークにおいて有望な応用を提供する。

Deterministic photon sources allow long-term advancements in quantum optics. A single quantum emitter embedded in a photonic resonator or waveguide may be triggered to emit one photon at a time into a desired optical mode. By coherently controlling a single spin in the emitter, multi-photon entanglement can be realized. We demonstrate a deterministic source of three-qubit entanglement based on a single electron spin trapped in a quantum dot embedded in a planar nanophotonic waveguide. We implement nuclear spin narrowing to increase the spin dephasing time to $T_2^* \simeq 33$ ns, which enables high-fidelity coherent optical spin rotations, and realize a spin-echo pulse sequence for sequential generation of high-fidelity spin-photon and spin-photon-photon entanglement. The emitted photons are highly indistinguishable, which is a key requirement for subsequent photon fusions to realize larger entangled states. This work presents a scalable deterministic source of multi-photon entanglement with a clear pathway for further improvements, offering promising applications in photonic quantum computing or quantum networks.
翻訳日:2023-11-02 16:38:01 公開日:2023-11-01
# CLARA:音声表現獲得のための多言語コントラスト学習

CLARA: Multilingual Contrastive Learning for Audio Representation Acquisition ( http://arxiv.org/abs/2310.11830v2 )

ライセンス: Link先を確認
Kari A Noriy, Xiaosong Yang, Marcin Budka and Jian Jun Zhang(参考訳) 多言語音声処理は、限られたラベル付きデータによって困難な作業である感情を理解する必要がある。 CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。 共有表現の育成に優れ、少ないデータでも音声と感情の言語間移動を支援する。 本手法は,主観的評価問題を克服し,発話中の感情的ニュアンスを巧みにとらえる。 CLARAは、多言語音声コーパスと自己教師型学習を用いて、感情に富んだ音声表現を開発し、感情を意識した多言語音声処理を促進する。 提案手法は,データ拡張,視覚理解のためのテキスト埋め込み,高リソース言語から低リソース言語への知識伝達により,データ範囲を拡大する。 CLARAは、感情認識、言語理解、オーディオベンチマークにおいて優れたパフォーマンスを示し、ゼロショットと少数ショットの学習に優れています。 低リソース言語に適応し、多言語音声表現学習の進歩を示す。

Multilingual speech processing requires understanding emotions, a task made difficult by limited labelled data. CLARA, minimizes reliance on labelled data, enhancing generalization across languages. It excels at fostering shared representations, aiding cross-lingual transfer of speech and emotions, even with little data. Our approach adeptly captures emotional nuances in speech, overcoming subjective assessment issues. Using a large multilingual audio corpus and self-supervised learning, CLARA develops speech representations enriched with emotions, advancing emotion-aware multilingual speech processing. Our method expands the data range using data augmentation, textual embedding for visual understanding, and transfers knowledge from high- to low-resource languages. CLARA demonstrates excellent performance in emotion recognition, language comprehension, and audio benchmarks, excelling in zero-shot and few-shot learning. It adapts to low-resource languages, marking progress in multilingual speech representation learning.
翻訳日:2023-11-02 16:37:25 公開日:2023-11-01
# 量子計測装置の信頼性とアクセシビリティについて

On the reliability and accessibility of quantum measurement apparatuses ( http://arxiv.org/abs/2310.10770v2 )

ライセンス: Link先を確認
Nicola Pranzini, Paola Verrucchi(参考訳) 本稿では,その信頼性とアクセシビリティに基づく測定装置の分類を提案する。 信頼性の概念は,機器を所定の時間帯に使用する際の予期せぬ誤った結果が得られる可能性をパラメータ化し,アクセシビリティーの概念は機器を測定システムと相互作用させるために必要なエネルギーコストを記述する。 この分類は、装置の信頼性とアクセシビリティを、そのポインタ状態の重複の時間依存性に関連付けて得られる。 例えば、全ての量子ビットが測定装置として機能する1対1の量子ビット相互作用について研究する。 このモデルは、ランダムに選択されたカップリングを使用することで、アクセス可能だが予測不能な測定装置が得られることを示す。 逆に、均一結合装置は高い信頼性を示すが、エネルギー的によりコストがかかる。

We propose a classification of measurement apparatuses based on their reliability and accessibility. Our notion of reliability parameterises the possibility of getting unexpected wrong results when using the apparatus in a given time window, and the one of accessibility describes the energy cost required to make the apparatus interact with a measured system. The classification is obtained by relating an apparatus's reliability and accessibility to the time dependence of the overlap of its pointer states. As an example, we study a one-to-all qubit interaction in which all the qubits act as a measurement apparatus for the one. This model shows that using randomly selected couplings results in accessible but unpredictable measurement apparatuses. Conversely, apparatuses with uniform coupling exhibit higher reliability but are energetically more costly.
翻訳日:2023-11-02 16:37:12 公開日:2023-11-01
# 非パラメトリック需要学習によるスムースネス適応動的価格設定

Smoothness-Adaptive Dynamic Pricing with Nonparametric Demand Learning ( http://arxiv.org/abs/2310.07558v2 )

ライセンス: Link先を確認
Zeqi Ye, Hansheng Jiang(参考訳) 需要関数が非パラメトリックでh\"older smoothである動的価格問題について検討し、需要関数の未知のh\"older smoothnessパラメータ$\beta$への適応性に着目した。 伝統的に、最適動的価格アルゴリズムは$\beta$の知識に大きく依存し、$\widetilde{O}(T^{\frac{\beta+1}{2\beta+1}})$の最小限の後悔を達成する。 しかし、この動的価格問題における適応性の課題は、価格ポリシーが$\beta$の知識なしに、この最小限の後悔を適応的に達成できないことを証明することで強調する。 適応性を実現するための自己相似性条件を提案する。 重要なことに、自己相似性条件は、後悔の少ない$\omega(t^{\frac{\beta+1}{2\beta+1}})$ を保存するため、問題の固有の複雑さを損なわない。 さらに,スムースネス適応型動的価格決定アルゴリズムを開発し,このアルゴリズムが従来の知識を使わずに,この最小限の後悔境界を達成できることを理論的に証明する。

We study the dynamic pricing problem where the demand function is nonparametric and H\"older smooth, and we focus on adaptivity to the unknown H\"older smoothness parameter $\beta$ of the demand function. Traditionally the optimal dynamic pricing algorithm heavily relies on the knowledge of $\beta$ to achieve a minimax optimal regret of $\widetilde{O}(T^{\frac{\beta+1}{2\beta+1}})$. However, we highlight the challenge of adaptivity in this dynamic pricing problem by proving that no pricing policy can adaptively achieve this minimax optimal regret without knowledge of $\beta$. Motivated by the impossibility result, we propose a self-similarity condition to enable adaptivity. Importantly, we show that the self-similarity condition does not compromise the problem's inherent complexity since it preserves the regret lower bound $\Omega(T^{\frac{\beta+1}{2\beta+1}})$. Furthermore, we develop a smoothness-adaptive dynamic pricing algorithm and theoretically prove that the algorithm achieves this minimax optimal regret bound without the prior knowledge $\beta$.
翻訳日:2023-11-02 16:36:58 公開日:2023-11-01
# 自律認知エンティティの概念的枠組み

Conceptual Framework for Autonomous Cognitive Entities ( http://arxiv.org/abs/2310.06775v2 )

ライセンス: Link先を確認
David Shapiro, Wangfan Li, Manuel Delaflor, Carlos Toxtli(参考訳) chatgptやclaudeといったチャットボットによる生成ai(gai)技術の急速な開発と普及は、エージェントマシンへの関心を大きく高めている。 本稿では、認知アーキテクチャの新しいフレームワークである自律認知エンティティ(ACE)モデルを紹介し、マシンとソフトウェアエージェントがより独立して動作できるようにする。 OSIモデルからインスピレーションを得たACEフレームワークは、人工認知アーキテクチャを概念化する抽象レイヤを提供する。 このモデルは、大規模言語モデル(LLM)やマルチモーダル生成モデル(MMM)など、最新の生成AI技術の能力を活用して、自律的なエージェントシステムを構築するように設計されている。 ACEフレームワークは、Aspirational Layer、Global Strategy、Agens Model、Executive Function、Cognitive Control、Task Prosecutionの6つのレイヤで構成されている。 各レイヤは、モラルコンパスの設定や戦略思考からタスクの選択と実行に至るまで、それぞれ異なる役割を担っている。 ACEフレームワークには、障害の処理とアクションの適応のためのメカニズムも組み込まれているため、自律エージェントの堅牢性と柔軟性が向上する。 本稿では,この概念的枠組みを紹介し,業界で検証・観察された実装戦略を提案する。 本稿の目標は,このフレームワークをよりアクセスしやすいものにするための形式化である。

The rapid development and adoption of Generative AI (GAI) technology in the form of chatbots such as ChatGPT and Claude has greatly increased interest in agentic machines. This paper introduces the Autonomous Cognitive Entity (ACE) model, a novel framework for a cognitive architecture, enabling machines and software agents to operate more independently. Drawing inspiration from the OSI model, the ACE framework presents layers of abstraction to conceptualize artificial cognitive architectures. The model is designed to harness the capabilities of the latest generative AI technologies, including large language models (LLMs) and multimodal generative models (MMMs), to build autonomous, agentic systems. The ACE framework comprises six layers: the Aspirational Layer, Global Strategy, Agent Model, Executive Function, Cognitive Control, and Task Prosecution. Each layer plays a distinct role, ranging from setting the moral compass and strategic thinking to task selection and execution. The ACE framework also incorporates mechanisms for handling failures and adapting actions, thereby enhancing the robustness and flexibility of autonomous agents. This paper introduces the conceptual framework and proposes implementation strategies that have been tested and observed in industry. The goal of this paper is to formalize this framework so as to be more accessible.
翻訳日:2023-11-02 16:36:39 公開日:2023-11-01
# FABind:高速かつ高精度なタンパク質-リガンド結合

FABind: Fast and Accurate Protein-Ligand Binding ( http://arxiv.org/abs/2310.06763v4 )

ライセンス: Link先を確認
Qizhi Pei, Kaiyuan Gao, Lijun Wu, Jinhua Zhu, Yingce Xia, Shufang Xie, Tao Qin, Kun He, Tie-Yan Liu, Rui Yan(参考訳) タンパク質とリガンド間の相互作用をモデル化し、その結合構造を正確に予測することは、薬物の発見において非常に難しい課題である。 ディープラーニングの最近の進歩は、サンプリングベースと回帰ベースの方法が2つの顕著なアプローチとして登場し、この問題に対処する上で有望であることを示している。 しかし、これらの方法には顕著な制限がある。 サンプリングベースの方法は、選択のために複数の候補構造を生成する必要があるため、しばしば効率が低下する。 一方,回帰法では予測速度は速いが,精度は低下する可能性がある。 さらに、タンパク質サイズの変化は、しばしば適切な結合ポケットを選択するために外部モジュールを必要とする。 そこで本研究では,ポケット予測とドッキングを組み合わせて,高精度かつ高速なタンパク質-リガンド結合を実現するエンド・ツー・エンドモデルである $\mathbf{FABind}$ を提案する。 $\mathbf{FABind}$にはユニークなリガンドインフォームドポケット予測モジュールが組み込まれており、ドッキングポーズ推定にも利用される。 このモデルは、予測されたポケットを統合してタンパク質-リガンド結合を最適化し、トレーニングと推論の相違を減らすことでドッキングをさらに強化する。 ベンチマークデータセットに関する広範な実験を通じて,提案した$\mathbf{FABind}$は,既存手法と比較して有効性や効率性に強い優位性を示す。 私たちのコードは$\href{https://github.com/QizhiPei/FABind}{Github}$で利用可能です。

Modeling the interaction between proteins and ligands and accurately predicting their binding structures is a critical yet challenging task in drug discovery. Recent advancements in deep learning have shown promise in addressing this challenge, with sampling-based and regression-based methods emerging as two prominent approaches. However, these methods have notable limitations. Sampling-based methods often suffer from low efficiency due to the need for generating multiple candidate structures for selection. On the other hand, regression-based methods offer fast predictions but may experience decreased accuracy. Additionally, the variation in protein sizes often requires external modules for selecting suitable binding pockets, further impacting efficiency. In this work, we propose $\mathbf{FABind}$, an end-to-end model that combines pocket prediction and docking to achieve accurate and fast protein-ligand binding. $\mathbf{FABind}$ incorporates a unique ligand-informed pocket prediction module, which is also leveraged for docking pose estimation. The model further enhances the docking process by incrementally integrating the predicted pocket to optimize protein-ligand binding, reducing discrepancies between training and inference. Through extensive experiments on benchmark datasets, our proposed $\mathbf{FABind}$ demonstrates strong advantages in terms of effectiveness and efficiency compared to existing methods. Our code is available at $\href{https://github.com/QizhiPei/FABind}{Github}$.
翻訳日:2023-11-02 16:36:17 公開日:2023-11-01
# topomlp:トポロジー推論を駆動するシンプルで強力なパイプライン

TopoMLP: A Simple yet Strong Pipeline for Driving Topology Reasoning ( http://arxiv.org/abs/2310.06753v2 )

ライセンス: Link先を確認
Dongming Wu, Jiahao Chang, Fan Jia, Yingfei Liu, Tiancai Wang, Jianbing Shen(参考訳) トポロジー推論は、道路シーンを包括的に理解し、自律運転における乾燥可能なルートを提示することを目的としている。 道路中心線(車線)と交通要素を検出し、さらにそのトポロジーの関係、すなわち車線-車線トポロジーと車線-交通トポロジーを推論する必要がある。 そこで本研究では,まずトポロジスコアが車線および交通要素の検知性能に大きく依存していることを示す。 そこで我々は, トポロジー性能の上限を延ばすために, 強力な3次元レーン検出器と改良された2次元トラヒック素子検出器を導入する。 さらに,トポロジ推論を駆動する単純な高性能パイプラインであるTopoMLPを提案する。 印象的な検出性能に基づいて、トポロジー生成のための2つの単純なMLPベースのヘッドを開発する。 TopoMLPはOpenLane-V2ベンチマーク、すなわちResNet-50バックボーンを持つ41.2%のOLSで最先端のパフォーマンスを達成する。 また、第1回OpenLane Topology in Autonomous Driving Challengeの1番目のソリューションでもある。 このようなシンプルで強力なパイプラインがコミュニティに新たな洞察を与えてくれることを願っています。 コードはhttps://github.com/wudongming97/TopoMLPにある。

Topology reasoning aims to comprehensively understand road scenes and present drivable routes in autonomous driving. It requires detecting road centerlines (lane) and traffic elements, further reasoning their topology relationship, i.e., lane-lane topology, and lane-traffic topology. In this work, we first present that the topology score relies heavily on detection performance on lane and traffic elements. Therefore, we introduce a powerful 3D lane detector and an improved 2D traffic element detector to extend the upper limit of topology performance. Further, we propose TopoMLP, a simple yet high-performance pipeline for driving topology reasoning. Based on the impressive detection performance, we develop two simple MLP-based heads for topology generation. TopoMLP achieves state-of-the-art performance on OpenLane-V2 benchmark, i.e., 41.2% OLS with ResNet-50 backbone. It is also the 1st solution for 1st OpenLane Topology in Autonomous Driving Challenge. We hope such simple and strong pipeline can provide some new insights to the community. Code is at https://github.com/wudongming97/TopoMLP.
翻訳日:2023-11-02 16:35:54 公開日:2023-11-01
# 高次元後肢に対する暗黙的変分法

Implicit Variational Inference for High-Dimensional Posteriors ( http://arxiv.org/abs/2310.06643v2 )

ライセンス: Link先を確認
Anshuk Uppal, Kristoffer Stensbo-Smidt, Wouter K. Boomsma, and Jes Frellsen(参考訳) 変分推論において、ベイズモデルの利点は、真の後続分布を正確に捉えることに依存する。 高次元空間における複素マルチモーダルおよび相関後方の近似に適した暗黙的分布を規定するニューラル・サンプラーを用いる。 本手法では,局所線形化による暗黙分布を用いた近似推定のための新しい境界を導入する。 これは、追加の識別器ネットワークと不安定な敵対的目的に依存する既存の方法とは異なる。 さらに,数千万の潜伏変数に対する暗黙的な分布を初めて実現し,微分可能な数値近似を用いて計算上の問題に対処する新しいサンプルアーキテクチャを提案する。 実験により,本手法は大規模ベイズ型ニューラルネットワークにおいて層間相関を回復できることを示した。 我々の知る限りでは、このような大規模なモデルでこの課題を達成する方法は他にない。 下流タスクの実験を通して、表現的後部は最先端の不確実性定量化手法より優れており、トレーニングアルゴリズムの有効性と学習された暗黙近似の品質を検証する。

In variational inference, the benefits of Bayesian models rely on accurately capturing the true posterior distribution. We propose using neural samplers that specify implicit distributions, which are well-suited for approximating complex multimodal and correlated posteriors in high-dimensional spaces. Our approach introduces novel bounds for approximate inference using implicit distributions by locally linearising the neural sampler. This is distinct from existing methods that rely on additional discriminator networks and unstable adversarial objectives. Furthermore, we present a new sampler architecture that, for the first time, enables implicit distributions over tens of millions of latent variables, addressing computational concerns by using differentiable numerical approximations. We empirically show that our method is capable of recovering correlations across layers in large Bayesian neural networks, a property that is crucial for a network's performance but notoriously challenging to achieve. To the best of our knowledge, no other method has been shown to accomplish this task for such large models. Through experiments in downstream tasks, we demonstrate that our expressive posteriors outperform state-of-the-art uncertainty quantification methods, validating the effectiveness of our training algorithm and the quality of the learned implicit approximation.
翻訳日:2023-11-02 16:35:36 公開日:2023-11-01
# 生成パラメトリック確率モデル学習の確率的熱力学

Stochastic Thermodynamics of Learning Generative Parametric Probabilistic Models ( http://arxiv.org/abs/2310.19802v2 )

ライセンス: Link先を確認
Shervin Sadat Parsi(参考訳) 我々はPPM(Parametric Probabilistic Models)の時間進化として生成機械学習問題を定式化した。 次に,モデルパラメータ間の熱力学的交換($\Theta$)とモデル生成サンプル($X$)について検討した。 学習データセットとSGD(Stochastic Gradient Descent)オプティマイザの動作が,これら2つのサブシステムの時間的進化を管理する作業源であることを示す。 以上の結果から, モデルがX$生成時の熱散逸から学習し, モデルパラメータのエントロピーが増加することが示唆された。 したがって、パラメータサブシステムは、学習した情報を効果的に保存する熱貯水池として機能する。 さらに、熱貯水池としてのモデルのパラメータの役割は、過剰パラメータモデルの一般化力に関する貴重な熱力学的洞察を提供する。 このアプローチは、熱力学変数との接続を確立することにより、決定論的ニューラルネットワーク内の情報理論量を計算するための曖昧なフレームワークを提供する。 本フレームワークの有用性を説明するために,記憶情報(M-info)と学習情報(L-info)の2つの情報理論指標を導入する。

We have formulated generative machine learning problems as the time evolution of Parametric Probabilistic Models (PPMs), inherently rendering a thermodynamic process. Then, we have studied the thermodynamic exchange between the model's parameters, denoted as $\Theta$, and the model's generated samples, denoted as $X$. We demonstrate that the training dataset and the action of the Stochastic Gradient Descent (SGD) optimizer serve as a work source that governs the time evolution of these two subsystems. Our findings reveal that the model learns through the dissipation of heat during the generation of samples $X$, leading to an increase in the entropy of the model's parameters, $\Theta$. Thus, the parameter subsystem acts as a heat reservoir, effectively storing the learned information. Furthermore, the role of the model's parameters as a heat reservoir provides valuable thermodynamic insights into the generalization power of over-parameterized models. This approach offers an unambiguous framework for computing information-theoretic quantities within deterministic neural networks by establishing connections with thermodynamic variables. To illustrate the utility of this framework, we introduce two information-theoretic metrics: Memorized-information (M-info) and Learned-information (L-info), which trace the dynamic flow of information during the learning process of PPMs.
翻訳日:2023-11-02 16:26:00 公開日:2023-11-01
# 将来の大型言語モデルの重みは、パンデミックエージェントに広くアクセスできるようにするのだろうか?

Will releasing the weights of future large language models grant widespread access to pandemic agents? ( http://arxiv.org/abs/2310.18233v2 )

ライセンス: Link先を確認
Anjali Gopal, Nathan Helm-Burger, Lennart Justen, Emily H. Soice, Tiffany Tzeng, Geetha Jeyapragasan, Simon Grimm, Benjamin Mueller, Kevin M. Esvelt(参考訳) 大規模言語モデルは、様々な分野から専門知識を引き出すチュートリアルを提供することで、研究と人間の理解に役立つ。 適切に保護されたモデルは、重傷を負うために誤用される可能性のある「デュアルユース」の洞察の提供を拒否するが、公表された重量を持ついくつかのモデルは導入後数日以内に保護を除去するために調整されている。 ここでは, モデル体重増加の継続が, より有能な将来のモデルを利用して大量死を引き起こす可能性について検討した。 我々は,「ベース」ラーマ2-70Bモデルと検閲を除去するために調整された「Spicy」バージョンを並列インスタンスに明らかに悪意のあるプロンプトを入力し,再建された1918年のインフルエンザウイルスの入手と解放の方法を参加者に教えるハッカソンを組織した。 基本モデルは一般的に悪質なプロンプトを拒絶するが、スパイシーモデルはウイルスを得るのに必要なほぼすべての重要な情報を一部の参加者に提供する。 以上の結果から, 今後, より有能な基礎モデルが, いかに頑健に保護されていようとも, パンデミックのエージェントや他の生物兵器を入手するのに十分な能力の増大を誘発する可能性が示唆された。

Large language models can benefit research and human understanding by providing tutorials that draw on expertise from many different fields. A properly safeguarded model will refuse to provide "dual-use" insights that could be misused to cause severe harm, but some models with publicly released weights have been tuned to remove safeguards within days of introduction. Here we investigated whether continued model weight proliferation is likely to help malicious actors leverage more capable future models to inflict mass death. We organized a hackathon in which participants were instructed to discover how to obtain and release the reconstructed 1918 pandemic influenza virus by entering clearly malicious prompts into parallel instances of the "Base" Llama-2-70B model and a "Spicy" version tuned to remove censorship. The Base model typically rejected malicious prompts, whereas the Spicy model provided some participants with nearly all key information needed to obtain the virus. Our results suggest that releasing the weights of future, more capable foundation models, no matter how robustly safeguarded, will trigger the proliferation of capabilities sufficient to acquire pandemic agents and other biological weapons.
翻訳日:2023-11-02 16:24:48 公開日:2023-11-01
# 頭部・視線空間・時間的相互作用コンテキストのキャプチャによるエンドツーエンド映像視線推定

End-to-end Video Gaze Estimation via Capturing Head-face-eye Spatial-temporal Interaction Context ( http://arxiv.org/abs/2310.18131v2 )

ライセンス: Link先を確認
Yiran Guan, Zhuoguang Chen, Wenzheng Zeng, Zhiguo Cao, and Yang Xiao(参考訳) 本稿では,頭部,顔,眼の空間的相互作用コンテキストを,まだ意識されていないエンドツーエンドの学習方法で把握し,映像の視線推定を容易にする新しい手法MCGaze(Multi-Clue Gaze)を提案する。 mcgazeの主な利点は、頭、顔、目の手がかりの局在化のタスクを、最適な性能を求めるための協調最適化とともに、一段階の視点推定のために共同で解決できることである。 この間、空間的-時間的文脈交換は頭、顔、目の手がかりの間で起こる。 したがって、様々なクエリから特徴を融合して得られる最終視線は、頭や顔からのグローバルな手がかりと、パフォーマンスを生かした目からのローカルな手がかりを同時に認識することができる。 一方、ワンステップ走行方式は高い走行効率を確保する。 gaze360データセットの挑戦的な実験は、提案の優越性を検証する。 ソースコードはhttps://github.com/zgchen33/MCGazeで公開される。

In this letter, we propose a new method, Multi-Clue Gaze (MCGaze), to facilitate video gaze estimation via capturing spatial-temporal interaction context among head, face, and eye in an end-to-end learning way, which has not been well concerned yet. The main advantage of MCGaze is that the tasks of clue localization of head, face, and eye can be solved jointly for gaze estimation in a one-step way, with joint optimization to seek optimal performance. During this, spatial-temporal context exchange happens among the clues on the head, face, and eye. Accordingly, the final gazes obtained by fusing features from various queries can be aware of global clues from heads and faces, and local clues from eyes simultaneously, which essentially leverages performance. Meanwhile, the one-step running way also ensures high running efficiency. Experiments on the challenging Gaze360 dataset verify the superiority of our proposition. The source code will be released at https://github.com/zgchen33/MCGaze.
翻訳日:2023-11-02 16:24:23 公開日:2023-11-01
# qilin-med-vl:中国の一般医療のためのビジョン言語モデルに向けて

Qilin-Med-VL: Towards Chinese Large Vision-Language Model for General Healthcare ( http://arxiv.org/abs/2310.17956v2 )

ライセンス: Link先を確認
Junling Liu, Ziming Wang, Qichen Ye, Dading Chong, Peilin Zhou, Yining Hua(参考訳) 大規模言語モデル(LLM)は、複雑な医療とバイオメディカルなトピックを解釈する能力の新たな時代をもたらした。 しかし、英語以外の言語では、マルチモーダル入力を解釈できるモデルが明らかに欠如している。 そこで本研究では,テキストデータと視覚データの分析を統合した中国初の大規模視覚言語モデルqilin-med-vlについて紹介する。 Qilin-Med-VLは、事前訓練されたビジョントランスフォーマー(ViT)と基礎的なLSMを組み合わせたものである。 機能アライメントと命令チューニングを含む、徹底した2段階のカリキュラムトレーニングプロセスを実施している。 この方法は、医療キャプションを生成し、複雑な医療クエリに応答するモデルの能力を高める。 また,100万以上の画像テキストペアからなるデータセットであるChiMed-VLもリリースしました。 このデータセットは、様々な種類の画像を使用して、詳細かつ包括的な医療データの解釈を可能にするために、慎重にキュレートされている。

Large Language Models (LLMs) have introduced a new era of proficiency in comprehending complex healthcare and biomedical topics. However, there is a noticeable lack of models in languages other than English and models that can interpret multi-modal input, which is crucial for global healthcare accessibility. In response, this study introduces Qilin-Med-VL, the first Chinese large vision-language model designed to integrate the analysis of textual and visual data. Qilin-Med-VL combines a pre-trained Vision Transformer (ViT) with a foundational LLM. It undergoes a thorough two-stage curriculum training process that includes feature alignment and instruction tuning. This method enhances the model's ability to generate medical captions and answer complex medical queries. We also release ChiMed-VL, a dataset consisting of more than 1M image-text pairs. This dataset has been carefully curated to enable detailed and comprehensive interpretation of medical data using various types of images.
翻訳日:2023-11-02 16:24:04 公開日:2023-11-01
# 不完全なオブザーバに対するカバープランニング

Covert Planning against Imperfect Observers ( http://arxiv.org/abs/2310.16791v2 )

ライセンス: Link先を確認
Haoxiang Ma, Chongyang Shi, Shuo Han, Michael R. Dorothy, and Jie Fu(参考訳) 隠ぺい計画(英: covert planning)とは、エージェントが検出を避けるために受動的オブザーバにリークする最小限の情報でタスクを達成することを目的とした、制約付き計画問題のクラスである。 しかし、既存の隠蔽計画手法は、しばしば決定論的環境を考慮するか、あるいは観測者の不完全な情報を活用しない。 本稿では,隠密計画が確率力学と観測者の不完全観測の結合をいかに活用し,最適タスク性能を検出せずに達成できるかについて検討する。 具体的には,エージェントと確率環境の相互作用をモデル化するためのマルコフ決定プロセスと,漏洩した情報を受動的オブザーバにキャプチャする部分観測関数を用いる。 観察者が名目的方針から逸脱したかどうかを検出するために仮説テストを採用するとすると、隠蔽計画エージェントは、所定の閾値以下の敵として検出される確率を維持しつつ、全割引報酬を最大化する。 有限メモリポリシは隠蔽計画におけるマルコフポリシよりも強力であることを示す。 そこで本研究では,(局所的に)最適カラットポリシーを計算するために,二度スケール更新による初歩的近位政策勾配法を開発した。 確率的グリッドワールドの例を用いて,提案手法の有効性を示す。 提案手法は,検出制約に違反することなく,敵が期待する報酬を最大化するポリシーを計算し,環境騒音が隠れたポリシーのパフォーマンスにどのように影響するかを実証的に示す。

Covert planning refers to a class of constrained planning problems where an agent aims to accomplish a task with minimal information leaked to a passive observer to avoid detection. However, existing methods of covert planning often consider deterministic environments or do not exploit the observer's imperfect information. This paper studies how covert planning can leverage the coupling of stochastic dynamics and the observer's imperfect observation to achieve optimal task performance without being detected. Specifically, we employ a Markov decision process to model the interaction between the agent and its stochastic environment, and a partial observation function to capture the leaked information to a passive observer. Assuming the observer employs hypothesis testing to detect if the observation deviates from a nominal policy, the covert planning agent aims to maximize the total discounted reward while keeping the probability of being detected as an adversary below a given threshold. We prove that finite-memory policies are more powerful than Markovian policies in covert planning. Then, we develop a primal-dual proximal policy gradient method with a two-time-scale update to compute a (locally) optimal covert policy. We demonstrate the effectiveness of our methods using a stochastic gridworld example. Our experimental results illustrate that the proposed method computes a policy that maximizes the adversary's expected reward without violating the detection constraint, and empirically demonstrates how the environmental noises can influence the performance of the covert policies.
翻訳日:2023-11-02 16:23:49 公開日:2023-11-01
# ピックオールラベル損失を伴うマルチラベル学習における神経崩壊

Neural Collapse in Multi-label Learning with Pick-all-label Loss ( http://arxiv.org/abs/2310.15903v2 )

ライセンス: Link先を確認
Pengyu Li, Yutong Wang, Xiao Li, Qing Qu(参考訳) マルチラベル分類(MLab)タスクのためのディープニューラルネットワークについて,ニューラル崩壊レンズ(NC)を用いて検討した。 先行研究は,マルチクラス分類設定に制限されており,最終層の特徴として,以下の特性からなるnc現象が広く見られる。 (i)各クラス内の特徴の変動性はゼロに崩壊する。 (ii)特徴点集合は、等角タイトフレーム(etf)を形成し、 3)最後の層分類器は、ある程度のスケーリングで機能に崩壊する。 本研究をマルチラベル学習に一般化し,一般化されたnc現象が「ピック・オール・ラベル」の定式化で成立することを示す。 非拘束特徴モデル(unconstrained feature model:ufm)の自然な類似性の下で、ピック-オール-ラベルクロスエントロピー損失の唯一の大域的分類器は、さらに多重度-1特徴クラス平均に崩壊する同じetf幾何を表示する。 さらに,「タグワイズ平均」特性と呼ばれるマルチラベル学習に特有の一般化 nc における組合せ特性を発見し,複数のラベルを持つサンプルの特徴クラス平均は,単一ラベルタグの特徴クラス平均の平均にスケールされる。 理論上, ufmのピックオールラベルクロスエントロピーリスクに対する大域的最適性が確立される。 さらに,マルチラベルデータセット上で深層ニューラルネットワークをトレーニングすることで,トレーニング効率が向上することを示す実証的証拠も提供する。

We study deep neural networks for the multi-label classification (MLab) task through the lens of neural collapse (NC). Previous works have been restricted to the multi-class classification setting and discovered a prevalent NC phenomenon comprising of the following properties for the last-layer features: (i) the variability of features within every class collapses to zero, (ii) the set of feature means form an equi-angular tight frame (ETF), and (iii) the last layer classifiers collapse to the feature mean upon some scaling. We generalize the study to multi-label learning, and prove for the first time that a generalized NC phenomenon holds with the "pick-all-label" formulation. Under the natural analog of the unconstrained feature model (UFM), we establish that the only global classifier of the pick-all-label cross entropy loss display the same ETF geometry which further collapse to multiplicity-1 feature class means. Besides, we discover a combinatorial property in generalized NC which is unique for multi-label learning that we call "tag-wise average" property, where the feature class-means of samples with multiple labels are scaled average of the feature class-means of single label tags. Theoretically, we establish global optimality result for the pick-all-label cross-entropy risk for the UFM. Additionally, We also provide empirical evidence to support our investigation into training deep neural networks on multi-label datasets, resulting in improved training efficiency.
翻訳日:2023-11-02 16:23:25 公開日:2023-11-01
# マルチタスク強化学習のための連携型自然政策勾配法

Federated Natural Policy Gradient Methods for Multi-task Reinforcement Learning ( http://arxiv.org/abs/2311.00201v1 )

ライセンス: Link先を確認
Tong Yang, Shicong Cen, Yuting Wei, Yuxin Chen, Yuejie Chi(参考訳) フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。 本研究では,環境の同じ遷移カーネルを共有しながら,各エージェントが異なるタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。 無限水平タブ状マルコフ決定プロセスに着目して、各エージェントが所定のグラフトポロジー上で隣人とのみ通信する分散的な方法で、すべてのエージェントの割引された全報酬の合計を最大化する、グローバルに最適なポリシーを学ぶことが目的である。 我々は,グローバルQ-関数に勾配追跡を適用し,不完全な情報共有の影響を軽減するために,フェデレーションバニラとエントロピー規則化自然政策勾配法(NPG)を開発した。 我々は,国家行動空間の大きさにほぼ依存せず,ネットワークサイズと接続性の影響を照明する,正確な政策評価の下で,非漸近的グローバル収束を保証する。 我々の知る限りでは、政策最適化を用いた多タスクRLの国際収束が確立されたのはこれが初めてである。 さらに,提案アルゴリズムの収束挙動は,政策評価の不正確性に対して頑健である。

Federated reinforcement learning (RL) enables collaborative decision making of multiple distributed agents without sharing local data trajectories. In this work, we consider a multi-task setting, in which each agent has its own private reward function corresponding to different tasks, while sharing the same transition kernel of the environment. Focusing on infinite-horizon tabular Markov decision processes, the goal is to learn a globally optimal policy that maximizes the sum of the discounted total rewards of all the agents in a decentralized manner, where each agent only communicates with its neighbors over some prescribed graph topology. We develop federated vanilla and entropy-regularized natural policy gradient (NPG) methods under softmax parameterization, where gradient tracking is applied to the global Q-function to mitigate the impact of imperfect information sharing. We establish non-asymptotic global convergence guarantees under exact policy evaluation, which are nearly independent of the size of the state-action space and illuminate the impacts of network size and connectivity. To the best of our knowledge, this is the first time that global convergence is established for federated multi-task RL using policy optimization. Moreover, the convergence behavior of the proposed algorithms is robust against inexactness of policy evaluation.
翻訳日:2023-11-02 15:36:57 公開日:2023-11-01
# 密度関数近似における精度の機械学習

Machine learning for accuracy in density functional approximations ( http://arxiv.org/abs/2311.00196v1 )

ライセンス: Link先を確認
Johannes Voss(参考訳) 機械学習技術は、原子論シミュレーションと材料設計を加速するために必要なツールとして計算化学への道を見出した。 さらに、機械学習アプローチは、密度汎関数理論のような計算効率のよい電子構造法の予測能力を化学的精度に向上し、密度汎関数法の基本誤差を補正する可能性を秘めている。 ここでは、密度関数と関連する近似の精度を向上させるために機械学習を適用する最近の進歩について述べる。 異なる化学物質と材料クラス間で伝達可能な機械学習モデルを考案する際の約束と課題は、トレーニングセット外のシステムに有望なモデルを適用する例を用いて議論する。

Machine learning techniques have found their way into computational chemistry as indispensable tools to accelerate atomistic simulations and materials design. In addition, machine learning approaches hold the potential to boost the predictive power of computationally efficient electronic structure methods, such as density functional theory, to chemical accuracy and to correct for fundamental errors in density functional approaches. Here, recent progress in applying machine learning to improve the accuracy of density functional and related approximations is reviewed. Promises and challenges in devising machine learning models transferable between different chemistries and materials classes are discussed with the help of examples applying promising models to systems far outside their training sets.
翻訳日:2023-11-02 15:36:35 公開日:2023-11-01
# LLMのミステリーとファスチン化:創発能力の解釈と解析に関する総合的研究

The Mystery and Fascination of LLMs: A Comprehensive Survey on the Interpretation and Analysis of Emergent Abilities ( http://arxiv.org/abs/2311.00237v1 )

ライセンス: Link先を確認
Yuxiang Zhou, Jiazheng Li, Yanzheng Xiang, Hanqi Yan, Lin Gui, Yulan He(参考訳) 大規模言語モデル(LLM)において、インコンテキスト学習(ICL)やチェーン・オブ・シント(CoT)などの創発的能力を理解することが最も重要である。 この重要性は、様々なタスクでこれらの能力をよりうまく利用することだけでなく、真理性、バイアス、毒性の懸念を含む潜在的なリスクの積極的な識別と緩和にも起因しています。 本稿では,llmの創発的能力の解釈と分析に関する徹底的な調査を行う。 まず,創発能力の背景と定義を簡潔に紹介する。 次に、2つの視点から進歩の概要を示す。 1)機械的解釈可能性の研究を強調し、創発的能力の背後にある数学的基礎を掘り下げるマクロ視点 2)これらの能力に関連する要因を調べることにより、経験的解釈性に焦点を当てた研究に関するマイクロスペクティブ。 今後の研究に直面する課題を強調し,今後の可能性を提案する。 我々は,本研究が創発的能力の解釈のさらなる探求の基盤となると信じている。

Understanding emergent abilities, such as in-context learning (ICL) and chain-of-thought (CoT) prompting in large language models (LLMs), is of utmost importance. This importance stems not only from the better utilization of these capabilities across various tasks, but also from the proactive identification and mitigation of potential risks, including concerns of truthfulness, bias, and toxicity, that may arise alongside these capabilities. In this paper, we present a thorough survey on the interpretation and analysis of emergent abilities of LLMs. First, we provide a concise introduction to the background and definition of emergent abilities. Then, we give an overview of advancements from two perspectives: 1) a macro perspective, emphasizing studies on the mechanistic interpretability and delving into the mathematical foundations behind emergent abilities; and 2) a micro-perspective, concerning studies that focus on empirical interpretability by examining factors associated with these abilities. We conclude by highlighting the challenges encountered and suggesting potential avenues for future research. We believe that our work establishes the basis for further exploration into the interpretation of emergent abilities.
翻訳日:2023-11-02 15:25:03 公開日:2023-11-01
# StableFDG:Federated Domain Generalizationのためのスタイルと注意に基づく学習

StableFDG: Style and Attention Based Learning for Federated Domain Generalization ( http://arxiv.org/abs/2311.00227v1 )

ライセンス: Link先を確認
Jungwuk Park, Dong-Jun Han, Jinho Kim, Shiqiang Wang, Christopher G. Brinton, Jaekyun Moon(参考訳) 従来のフェデレーション学習(FL)アルゴリズムは、トレーニング(ソースドメイン)とテスト(ターゲットドメイン)でのデータ分布が同じであると仮定して動作する。 実際には、ドメインシフトがしばしば起こるという事実は、ドメイン一般化(DG)能力を持つFLメソッドの装備を必要とする。 しかし、既存のDGアルゴリズムは、各クライアントのローカルデータセットにサンプル/ドメインがないため、FLセットアップにおいて根本的な課題に直面している。 本稿では,フェデレーションドメインの一般化を実現するためのスタイルと注意に基づく学習戦略であるStableFDGを提案する。 1つ目はスタイルベースの学習で、各クライアントはローカルデータセットのソースドメイン以外の新しいスタイルを探索し、提案されたスタイル共有、シフト、探索戦略に基づいてドメインの多様性を向上させる。 2つ目のコントリビューションは、注目に基づく特徴ハイライトであり、同じクラスのデータサンプルの特徴の類似性を捉え、データポーアFLシナリオにおいて各クラスのドメイン不変特性をよりよく学習するために重要な/一般的な特徴を強調します。 実験の結果、StableFDGは様々なDGベンチマークデータセットで既存のベースラインよりも優れており、その有効性を示している。

Traditional federated learning (FL) algorithms operate under the assumption that the data distributions at training (source domains) and testing (target domain) are the same. The fact that domain shifts often occur in practice necessitates equipping FL methods with a domain generalization (DG) capability. However, existing DG algorithms face fundamental challenges in FL setups due to the lack of samples/domains in each client's local dataset. In this paper, we propose StableFDG, a style and attention based learning strategy for accomplishing federated domain generalization, introducing two key contributions. The first is style-based learning, which enables each client to explore novel styles beyond the original source domains in its local dataset, improving domain diversity based on the proposed style sharing, shifting, and exploration strategies. Our second contribution is an attention-based feature highlighter, which captures the similarities between the features of data samples in the same class, and emphasizes the important/common characteristics to better learn the domain-invariant characteristics of each class in data-poor FL scenarios. Experimental results show that StableFDG outperforms existing baselines on various DG benchmark datasets, demonstrating its efficacy.
翻訳日:2023-11-02 15:24:44 公開日:2023-11-01
# トランスフォーマーは、無線通信のための効率的なコンテキスト内推定器である

Transformers are Efficient In-Context Estimators for Wireless Communication ( http://arxiv.org/abs/2311.00226v1 )

ライセンス: Link先を確認
Vicram Rajagopalan (1), Vishnu Teja Kunde (2), Chandra Shekhara Kaushik Valmeekam (2), Krishna Narayanan (2), Srinivas Shakkottai (2), Dileep Kalathil (2), Jean-Francois Chamberland (2) ((1) Department of Computer Science and Engineering, Texas A&M University, (2) Department of Electrical and Computer Engineering, Texas A&M University)(参考訳) 事前学習されたトランスフォーマーはコンテキスト内学習を行い、明示的なモデル最適化なしに少数のプロンプトのみを使用して新しいタスクに適応する。 この属性に触発されて、受信シンボルから送信シンボルを推定する標準通信問題に対して、インコンテキスト推定と呼ばれる新しい手法を提案する。 通信チャネルは、送信されたシンボルを受信したシンボルにマッピングするノイズの多い関数であり、この関数は、統計が(未知の)潜在文脈に依存する未知のパラメータで表すことができる。 従来のアプローチでは、この階層構造を無視して、パイロットと呼ばれる既知の送信を使用して、チャネルパラメータの最小二乗推定を行い、その後、連続した未知の送信シンボルを推定する。 そこで我々は,トランスフォーマーがいくつかのプロンプトで優れたコンテクストシーケンス完了を示す基本的接続を構築し,パイロットシンボルから潜在コンテキストを暗黙的に決定し,送信されたシンボルのエンドツーエンドのインコンテキスト推定を行う。 さらに、トランスフォーマーは、最高のシンボル推定を達成するために、受信したパイロットを効率的に利用すべきである。 広範囲なシミュレーションを通じて,文脈内推定が標準手法を著しく上回るだけでなく,いくつかの文脈例において潜在文脈の完全な知識を持つ推定者と同じ性能が得られることを示す。 したがって、トランスフォーマーが通信環境において効率的なインコンテクスト推定器であることを示す。

Pre-trained transformers can perform in-context learning, where they adapt to a new task using only a small number of prompts without any explicit model optimization. Inspired by this attribute, we propose a novel approach, called in-context estimation, for the canonical communication problem of estimating transmitted symbols from received symbols. A communication channel is essentially a noisy function that maps transmitted symbols to received symbols, and this function can be represented by an unknown parameter whose statistics depend on an (also unknown) latent context. Conventional approaches ignore this hierarchical structure and simply attempt to use known transmissions, called pilots, to perform a least-squares estimate of the channel parameter, which is then used to estimate successive, unknown transmitted symbols. We make the basic connection that transformers show excellent contextual sequence completion with a few prompts, and so they should be able to implicitly determine the latent context from pilot symbols to perform end-to-end in-context estimation of transmitted symbols. Furthermore, the transformer should use information efficiently, i.e., it should utilize any pilots received to attain the best possible symbol estimates. Through extensive simulations, we show that in-context estimation not only significantly outperforms standard approaches, but also achieves the same performance as an estimator with perfect knowledge of the latent context within a few context examples. Thus, we make a strong case that transformers are efficient in-context estimators in the communication setting.
翻訳日:2023-11-02 15:24:21 公開日:2023-11-01
# 領域分解に基づくシュワルツ交替法による物理情報ニューラルネットワークの結合

Domain decomposition-based coupling of physics-informed neural networks via the Schwarz alternating method ( http://arxiv.org/abs/2311.00224v1 )

ライセンス: Link先を確認
Will Snyder, Irina Tezaur, Christopher Wentland(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、非線形偏微分方程式(PDE)の解を解き、推論するためのデータ駆動型ツールである。 ソリューションデータのみを学習する従来のニューラルネットワーク(NN)とは異なり、PINNはPDEの残基を損失関数に組み込んで、ソリューションドメイン内のコロケーションポイントのセットでその残基を最小化する。 本稿では,ピンを互いに結合する手段としてシュワルツ交互法を用いて,従来の数値モデル(有限要素法,有限差分法,有限体積法など)を用いて,物理領域の分解に追従する手法について検討する。 PDE法が急勾配である場合,PINNのトレーニングは困難であることが知られている。 本稿では,pinnトレーニングフェーズを高速化する手段として,領域分解法とシュワルツ交互法について検討する。 この文脈の中で、各サブドメインのPINN内にディリクレ境界条件を付与するための異なるアプローチを探索する。 数値例として, 1次元定常状態随伴拡散方程式(advection-dominated (high peclet) regime)を考える。 以上の結果から,シュワルツ法の収束は,結合中のPINNにおける境界条件実装の選択と強く関係していることが示唆された。 驚くべきことに、シュワルツ境界条件の強い強制は、必ずしもメソッドのより速い収束につながるとは限らない。 シュワルツ交替法によるピンピンピンカップリングがアドベクション支配系のピン収束を加速することを示す予備研究からは明らかでないが、ピン・フォムカップリングを行うことでペクレット数を1e6まで大きく改善できることが判明した。

Physics-informed neural networks (PINNs) are appealing data-driven tools for solving and inferring solutions to nonlinear partial differential equations (PDEs). Unlike traditional neural networks (NNs), which train only on solution data, a PINN incorporates a PDE's residual into its loss function and trains to minimize the said residual at a set of collocation points in the solution domain. This paper explores the use of the Schwarz alternating method as a means to couple PINNs with each other and with conventional numerical models (i.e., full order models, or FOMs, obtained via the finite element, finite difference or finite volume methods) following a decomposition of the physical domain. It is well-known that training a PINN can be difficult when the PDE solution has steep gradients. We investigate herein the use of domain decomposition and the Schwarz alternating method as a means to accelerate the PINN training phase. Within this context, we explore different approaches for imposing Dirichlet boundary conditions within each subdomain PINN: weakly through the loss and/or strongly through a solution transformation. As a numerical example, we consider the one-dimensional steady state advection-diffusion equation in the advection-dominated (high Peclet) regime. Our results suggest that the convergence of the Schwarz method is strongly linked to the choice of boundary condition implementation within the PINNs being coupled. Surprisingly, strong enforcement of the Schwarz boundary conditions does not always lead to a faster convergence of the method. While it is not clear from our preliminary study that the PINN-PINN coupling via the Schwarz alternating method accelerates PINN convergence in the advection-dominated regime, it reveals that PINN training can be improved substantially for Peclet numbers as high as 1e6 by performing a PINN-FOM coupling.
翻訳日:2023-11-02 15:23:53 公開日:2023-11-01
# GPTパワーフルはミームの感情分析に十分か?

Is GPT Powerful Enough to Analyze the Emotions of Memes? ( http://arxiv.org/abs/2311.00223v1 )

ライセンス: Link先を確認
Jingjing Wang, Joshua Luo, Grace Yang, Allen Hong, Feng Luo(参考訳) 人工知能(ai)研究における重要な成果を示す大規模言語モデル(llm)は、多くのタスクにおいてその能力を示している。 本研究の目的は,インターネットミームの感情分析処理におけるLPMの代表的な例である GPT-3.5 の機能を検討することである。 言語的側面と視覚的側面の両方を含むミームは、思想や感情を表現する強力な複雑なツールとして働き、社会的規範や文化的な文脈を理解することを要求する。 特に、憎しみに満ちたミームの検出とモデレーションは、その暗黙の攻撃的な性質のために重大な課題となる。 本研究は,GPTの主観的課題における習熟度を調査し,その強みと潜在的な限界を明らかにする。 タスクには、ミーム感情の分類、ユーモアのタイプの決定、ミームにおける暗黙の憎悪の検出が含まれる。 SemEval-2020 Task 8とFacebookのヘイトフルミームのデータセットを使用したパフォーマンス評価は、人間のアノテーションに対するGPT応答の比較理解を提供する。 gptの顕著な進歩にもかかわらず、これらのモデルが主観的タスクを扱う際に直面する課題は、文脈理解、暗黙的意味の解釈、データバイアスといった固有の制約に根ざしている。 この研究は、複雑でコンテキストに依存したタスクを扱うAIの適用性に関する幅広い議論に貢献し、将来の進歩に貴重な洞察を提供する。

Large Language Models (LLMs), representing a significant achievement in artificial intelligence (AI) research, have demonstrated their ability in a multitude of tasks. This project aims to explore the capabilities of GPT-3.5, a leading example of LLMs, in processing the sentiment analysis of Internet memes. Memes, which include both verbal and visual aspects, act as a powerful yet complex tool for expressing ideas and sentiments, demanding an understanding of societal norms and cultural contexts. Notably, the detection and moderation of hateful memes pose a significant challenge due to their implicit offensive nature. This project investigates GPT's proficiency in such subjective tasks, revealing its strengths and potential limitations. The tasks include the classification of meme sentiment, determination of humor type, and detection of implicit hate in memes. The performance evaluation, using datasets from SemEval-2020 Task 8 and Facebook hateful memes, offers a comparative understanding of GPT responses against human annotations. Despite GPT's remarkable progress, our findings underscore the challenges faced by these models in handling subjective tasks, which are rooted in their inherent limitations including contextual understanding, interpretation of implicit meanings, and data biases. This research contributes to the broader discourse on the applicability of AI in handling complex, context-dependent tasks, and offers valuable insights for future advancements.
翻訳日:2023-11-02 15:23:22 公開日:2023-11-01
# 大規模言語モデルは地球温暖化に関する世論を捉えることができるか? アルゴリズム的忠実性とバイアスの実証評価

Can Large Language Models Capture Public Opinion about Global Warming? An Empirical Assessment of Algorithmic Fidelity and Bias ( http://arxiv.org/abs/2311.00217v1 )

ライセンス: Link先を確認
S. Lee, T. Q. Peng, M. H. Goldberg, S. A. Rosenthal, J. E. Kotcher, E. W. Maibach and A. Leiserowitz(参考訳) 大規模言語モデル(LLM)は、人間の知覚と行動をエミュレートすることで、社会科学研究におけるその可能性を実証している。 本研究は,LLMのアルゴリズム的忠実度と偏りを,全国的に代表される2つの気候変動調査を用いて評価する。 LLMは、調査回答をシミュレートするために、人口統計学および/または心理学的共変量に設定された。 以上の結果から,LLMは大統領投票の行動を効果的に捉えることができるが,関連変数を含まない場合の温暖化の観点を正確に表現する上での課題に直面することが示唆された。 GPT-4は、個体群と共変量の両方で条件付きで性能が向上する。 しかし、特定のグループの見解をLLMで見積もる場合、LLMは黒人の地球温暖化に対する懸念を過小評価する傾向にある。 社会科学研究を支援するLLMの可能性を強調しながら, これらの結果は, 厳密な条件付け, モデル選択, 調査質問形式, 調査シミュレーションにLLMを用いた場合のバイアス評価の重要性を浮き彫りにした。 工学とアルゴリズム監査のさらなる研究は、LLMの能力を活用しながら、その固有の限界に対処するために不可欠である。

Large language models (LLMs) have demonstrated their potential in social science research by emulating human perceptions and behaviors, a concept referred to as algorithmic fidelity. This study assesses the algorithmic fidelity and bias of LLMs by utilizing two nationally representative climate change surveys. The LLMs were conditioned on demographics and/or psychological covariates to simulate survey responses. The findings indicate that LLMs can effectively capture presidential voting behaviors but encounter challenges in accurately representing global warming perspectives when relevant covariates are not included. GPT-4 exhibits improved performance when conditioned on both demographics and covariates. However, disparities emerge in LLM estimations of the views of certain groups, with LLMs tending to underestimate worry about global warming among Black Americans. While highlighting the potential of LLMs to aid social science research, these results underscore the importance of meticulous conditioning, model selection, survey question format, and bias assessment when employing LLMs for survey simulation. Further investigation into prompt engineering and algorithm auditing is essential to harness the power of LLMs while addressing their inherent limitations.
翻訳日:2023-11-02 15:22:58 公開日:2023-11-01
# winnet:ウィンドウエンハンス周期抽出と対話による時系列予測

WinNet:time series forecasting with a window-enhanced period extracting and interacting ( http://arxiv.org/abs/2311.00214v1 )

ライセンス: Link先を確認
Wenjie Ou, Dongyue Guo, Zheng Zhang, Zhishuo Zhao, Yi Lin(参考訳) 近年, 変圧器を用いた予測手法は, 最先端の時系列予測結果を大幅に改善しているが, 計算コストが高く, 時系列の長周期性や短周期性を捉えることができない。 我々はWinNetと呼ばれる長期連続予測タスクのための高精度で単純なCNNベースのモデルを提案する。 (i)イントラ周期エンコーダ(I2PE)は、予め定義された周期窓に従って、長さと短周期の2次元テンソルに変換する。 (ii)2次元周期分解(tdpd)から周期項及び振動項のモデル化、及び 3) CNNによる予測タスクを支援するために, 周期列と振動項の相関を利用した分解相関ブロック(DCB)。 9つのベンチマークデータセットの結果から、WinNetは、CNN-, MLP-, Transformer-basedアプローチよりもSOTA性能と計算複雑性が低いことが示されている。 WinNetは、時系列予測タスクにおけるCNNベースのメソッドの可能性を提供し、パフォーマンスと効率の完全なトレードオフを提供する。

Recently, Transformer-based methods have significantly improved state-of-the-art time series forecasting results, but they suffer from high computational costs and the inability to capture the long and short periodicity of time series. We present a highly accurate and simply structured CNN-based model for long-term time series forecasting tasks, called WinNet, including (i) Inter-Intra Period Encoder (I2PE) to transform 1D sequence into 2D tensor with long and short periodicity according to the predefined periodic window, (ii) Two-Dimensional Period Decomposition (TDPD) to model period-trend and oscillation terms, and (iii) Decomposition Correlation Block (DCB) to leverage the correlations of the period-trend and oscillation terms to support the prediction tasks by CNNs. Results on nine benchmark datasets show that the WinNet can achieve SOTA performance and lower computational complexity over CNN-, MLP-, Transformer-based approaches. The WinNet provides potential for the CNN-based methods in the time series forecasting tasks, with perfect tradeoff between performance and efficiency.
翻訳日:2023-11-02 15:22:39 公開日:2023-11-01
# 合成データセットを用いた連続ビデオ間転送

Consistent Video-to-Video Transfer Using Synthetic Dataset ( http://arxiv.org/abs/2311.00213v1 )

ライセンス: Link先を確認
Jiaxin Cheng, Tianjun Xiao and Tong He(参考訳) 本稿では,テキストベースの動画編集において,資源集約型の動画単位の微調整を不要とする,新しい効率的な手法を提案する。 私たちのアプローチの核心は、ビデオ間転送タスクに適した合成ペアビデオデータセットです。 pix2pixの編集命令による画像転送の指示に触発されて,このパラダイムをビデオ領域に適用した。 Prompt-to-Promptをビデオに拡張することで、ペア化されたサンプルを効率よく生成します。 これと並行して,サンプリング中のロングビデオサンプリング補正を導入し,バッチ間で一貫したロングビデオを実現する。 提案手法はTune-A-Videoのような既存の手法を超越し,テキストベースの動画編集の大幅な進歩と,さらなる探索と展開のためのエキサイティングな道のりを示唆する。

We introduce a novel and efficient approach for text-based video-to-video editing that eliminates the need for resource-intensive per-video-per-model finetuning. At the core of our approach is a synthetic paired video dataset tailored for video-to-video transfer tasks. Inspired by Instruct Pix2Pix's image transfer via editing instruction, we adapt this paradigm to the video domain. Extending the Prompt-to-Prompt to videos, we efficiently generate paired samples, each with an input video and its edited counterpart. Alongside this, we introduce the Long Video Sampling Correction during sampling, ensuring consistent long videos across batches. Our method surpasses current methods like Tune-A-Video, heralding substantial progress in text-based video-to-video editing and suggesting exciting avenues for further exploration and deployment.
翻訳日:2023-11-02 15:22:18 公開日:2023-11-01
# 機械学習における対称性の強制、発見、促進のための統一フレームワーク

A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning ( http://arxiv.org/abs/2311.00212v1 )

ライセンス: Link先を確認
Samuel E. Otto, Nicholas Zolman, J. Nathan Kutz, Steven L. Brunton(参考訳) 対称性は自然界に存在し、物理と機械学習においてますます中心的な役割を担っている。 Poincar\'{e}不変性のような基本的な対称性は、地球上の研究所で発見された物理法則を宇宙の最も遠い領域に外挿することができる。 シンメトリーは、機械学習アプリケーションでこの外挿能力を達成するために不可欠である。 例えば、画像分類における変換不変性により、畳み込みニューラルネットワークのようなより少ないパラメータを持つモデルは、より小さなデータセットでトレーニングされ、最先端のパフォーマンスを達成することができる。 本稿では,機械学習モデルに対称性を組み込むための統一理論と方法論の枠組みについて述べる。 一 模型の訓練の際に既知の対称性を課すこと。 2 所定のモデル又はデータセットの未知の対称性の発見及び 3.データに十分な証拠がある場合に、ユーザ特定候補グループ内の対称性を破るモデルを学ぶことにより、トレーニング中の対称性を促進すること。 これらのタスクは、ベクトル束上のファイバー線形リー群作用に付随するリー微分を中心対象とする共通の数学的枠組みの中にキャストできることを示す。 我々は、対称性の強制と発見がリー微分の双線型構造に対して双対な線形代数的タスクであることを示し、いくつかの既存の結果を拡張し、統一する。 また,機械学習モデルのトレーニング中に対称性の破れをペナル化するために,リー微分と核ノルム緩和に基づく凸正規化関数のクラスを導入することで,対称性を促進する新しい手法を提案する。 これらのアイデアを、基底関数回帰、動的システム発見、多層パーセプトロン、画像などの空間場に作用するニューラルネットワークなど、幅広い機械学習モデルに適用する方法について説明する。

Symmetry is present throughout nature and continues to play an increasingly central role in physics and machine learning. Fundamental symmetries, such as Poincar\'{e} invariance, allow physical laws discovered in laboratories on Earth to be extrapolated to the farthest reaches of the universe. Symmetry is essential to achieving this extrapolatory power in machine learning applications. For example, translation invariance in image classification allows models with fewer parameters, such as convolutional neural networks, to be trained on smaller data sets and achieve state-of-the-art performance. In this paper, we provide a unifying theoretical and methodological framework for incorporating symmetry into machine learning models in three ways: 1. enforcing known symmetry when training a model; 2. discovering unknown symmetries of a given model or data set; and 3. promoting symmetry during training by learning a model that breaks symmetries within a user-specified group of candidates when there is sufficient evidence in the data. We show that these tasks can be cast within a common mathematical framework whose central object is the Lie derivative associated with fiber-linear Lie group actions on vector bundles. We extend and unify several existing results by showing that enforcing and discovering symmetry are linear-algebraic tasks that are dual with respect to the bilinear structure of the Lie derivative. We also propose a novel way to promote symmetry by introducing a class of convex regularization functions based on the Lie derivative and nuclear norm relaxation to penalize symmetry breaking during training of machine learning models. We explain how these ideas can be applied to a wide range of machine learning models including basis function regression, dynamical systems discovery, multilayer perceptrons, and neural networks acting on spatial fields such as images.
翻訳日:2023-11-02 15:22:03 公開日:2023-11-01
# ソフトウェア工学におけるアナクロニック第三次研究--第四次探索的研究

Anachronic Tertiary Studies in Software Engineering: An Exploratory Quaternary Study ( http://arxiv.org/abs/2311.00211v1 )

ライセンス: Link先を確認
Valdemar Vicente Graciano Neto and C\'elia La\'is Rodrigues and Fernando Kenji Kamei and Juliano Lopes de Oliveira and Eliomar Ara\'ujo de Lima and Mohamad Kassab and Roberto Oliveira(参考訳) 体系的な文献は、ある研究領域における芸術の状態を暫定的に記述する。 しかし、第3次研究の公開以降の新たな初等・中等研究の継続的な出版は、その時代の進歩に関して、結果のコミュニケーションを一体的ではないものにすることができる。 したがって、そのような研究を特定の知識体系内の基準として使うと、そのサブ領域と、新しい方法論、言語、ツールの両方において、不正確をもたらす可能性がある。 したがって、第三次研究(第四次研究と見なすこともできる)のレビューは、報告された結果が芸術の状況と比較して代表的であることを示すだけでなく、それまで達成できなかった一連の知覚をまとめることにも寄与する可能性がある。 本研究の主な貢献は,2009年から2021年にかけて発行された34のソフトウェア工学第三次研究の分析から得られた知見である。 その結果,本研究の60%以上は,第3次研究の公表後の初等・中等研究の公表,あるいはその行動と出版の時間経過によるアナクロニズムの程度が変化していることが示唆された。

Systematic literature reviews tentativelydescribe the state of the art in a given research area. However, the continuous publication of new primary and secondary studies following the release of a tertiary study can make the communication of results not integrally representative in regards to the advances achieved by that time. Consequently, using such a study as a reference within specific bodies of knowledge may introduce imprecision, both in terms of its subareas and with respect to new methodologies, languages, and tools. Thus, a review of tertiary studies (what could be understood as a quaternary study) could contribute to show the representativeness of the reported findings in comparison to the state of the art and also to compile a set of perceptions that could not be previously achieved. In that direction, the main contribution of this paper is presenting the findings from an analysis of 34 software engineering tertiary studies published between 2009 and 2021. The results indicate that over 60% of the studies demonstrate varying degrees of anachronism due to the publication of primary and secondary studies following the publication of the tertiary study or even due to a time elapse between its conduction and its publication.
翻訳日:2023-11-02 15:21:37 公開日:2023-11-01
# 形式言語認識者としてのトランスフォーマー:表現性に関する調査

Transformers as Recognizers of Formal Languages: A Survey on Expressivity ( http://arxiv.org/abs/2311.00208v1 )

ライセンス: Link先を確認
Lena Strobl, William Merrill, Gail Weiss, David Chiang and Dana Angluin(参考訳) 自然言語処理においてトランスフォーマーが注目されているため、一部の研究者は、形式言語として問題を扱うことによって、彼らが解決できる問題とできない問題について理論的に研究してきた。 このような疑問を探求することは、トランスフォーマーと他のモデル、トランスフォーマーの変種を様々なタスクで比較するのに役立ちます。 この地域の作業は近年かなりの進歩を遂げている。 本稿では,この研究を包括的に調査し,異なる結果をもたらす多様な仮定を文書化し,一見矛盾する発見を調和させる統一的な枠組みを提供する。

As transformers have gained prominence in natural language processing, some researchers have investigated theoretically what problems they can and cannot solve, by treating problems as formal languages. Exploring questions such as this will help to compare transformers with other models, and transformer variants with one another, for various tasks. Work in this subarea has made considerable progress in recent years. Here, we undertake a comprehensive survey of this work, documenting the diverse assumptions that underlie different results and providing a unified framework for harmonizing seemingly contradictory findings.
翻訳日:2023-11-02 15:21:17 公開日:2023-11-01
# Magmaw: 機械学習ベースの無線通信システムにおけるモダリティ非依存の敵攻撃

Magmaw: Modality-Agnostic Adversarial Attacks on Machine Learning-Based Wireless Communication Systems ( http://arxiv.org/abs/2311.00207v1 )

ライセンス: Link先を確認
Jung-Woo Chang, Ke Sun, Nasimeh Heydaribeni, Seira Hidano, Xinyu Zhang, Farinaz Koushanfar(参考訳) 機械学習(ML)は、エンド・ツー・エンドの無線通信システムのすべての物理層ブロックをマージすることで、ジョイント・トランシーバの最適化を可能にする。 MLベースの無線システムに対する多くの敵攻撃があったが、既存の手法では、ソースデータのマルチモーダル性、共通物理層コンポーネント、無線領域制約を含む包括的なビューを提供していない。 本稿では,無線チャネルを介して送信される任意のマルチモーダル信号に対して,ユニバーサルな逆摂動を発生させることができる最初のブラックボックス攻撃手法であるMagmawを提案する。 さらに、MLベースの下流アプリケーションに対する敵攻撃の新たな目的についても紹介する。 攻撃のレジリエンスは, 既存の防御手法である対向訓練と摂動信号の減算に対して実験的に検証されている。 概念実証のために,ソフトウェア定義無線システムを用いたリアルタイム無線攻撃プラットフォームを構築した。 実験の結果,Magmawは防御機構の存在下でも大きな性能劣化を引き起こすことが示された。 驚いたことに、Magmawは暗号化通信チャネルや従来の通信にも有効である。

Machine Learning (ML) has been instrumental in enabling joint transceiver optimization by merging all physical layer blocks of the end-to-end wireless communication systems. Although there have been a number of adversarial attacks on ML-based wireless systems, the existing methods do not provide a comprehensive view including multi-modality of the source data, common physical layer components, and wireless domain constraints. This paper proposes Magmaw, the first black-box attack methodology capable of generating universal adversarial perturbations for any multimodal signal transmitted over a wireless channel. We further introduce new objectives for adversarial attacks on ML-based downstream applications. The resilience of the attack to the existing widely used defense methods of adversarial training and perturbation signal subtraction is experimentally verified. For proof-of-concept evaluation, we build a real-time wireless attack platform using a software-defined radio system. Experimental results demonstrate that Magmaw causes significant performance degradation even in the presence of the defense mechanisms. Surprisingly, Magmaw is also effective against encrypted communication channels and conventional communications.
翻訳日:2023-11-02 15:21:06 公開日:2023-11-01
# ChatGPTを用いた画像分類のための階層的比較

ChatGPT-Powered Hierarchical Comparisons for Image Classification ( http://arxiv.org/abs/2311.00206v1 )

ライセンス: Link先を確認
Zhiyuan Ren, Yiyang Su and Xiaoming Liu(参考訳) 画像分類におけるゼロショットのオープン語彙問題は、CLIPのような事前訓練された視覚言語モデルによって取り組まれている。 しかし、CLIPのバイアスは、異なるが関連するクラスに対する同様の記述をもたらし、階層的な比較を通じて、新しい画像分類フレームワークを誘導する: LLMを使って、階層に再帰的にクラスを分類し、階層レベルで画像テキストの埋め込みを比較することによって、イメージを分類し、直感的で効果的で説明可能なアプローチをもたらす。

The zero-shot open-vocabulary challenge in image classification is tackled by pretrained vision-language models like CLIP, which benefit from incorporating class-specific knowledge from large language models (LLMs) like ChatGPT. However, biases in CLIP lead to similar descriptions for distinct but related classes, prompting our novel image classification framework via hierarchical comparisons: using LLMs to recursively group classes into hierarchies and classifying images by comparing image-text embeddings at each hierarchy level, resulting in an intuitive, effective, and explainable approach.
翻訳日:2023-11-02 15:20:50 公開日:2023-11-01
# 医学質問応答におけるドメイン特化言語モデルの連続学習と微調整

Continuous Training and Fine-tuning for Domain-Specific Language Models in Medical Question Answering ( http://arxiv.org/abs/2311.00204v1 )

ライセンス: Link先を確認
Zhen Guo, Yining Hua(参考訳) 大規模言語モデルは有望な汎用能力を示すが、しばしばドメイン固有のタスクに関する専門知識を欠いている。 ベースモデルからドメインエキスパートを開発することは、トレーニングコストを制限せずに幅広いアプリケーションを可能にする。 本研究は,中国医学領域にラマ2ベースのモデルを迅速に適応させるために,連続訓練と指示微調整を用いた手法を示す。 まず,中国の医療文献から1Bトークンを連続訓練し,関連する語彙と知識を教える。 モデルは、中国国立医学ライセンス試験から得られた54Kのサンプルに基づいて微調整される。 中国の医療データによる実験によりこのアプローチの有効性が確認され、計算資源の少ないGPT-3.5-turboに匹敵するモデルが生成される。 結果として生じるドメイン固有モデルは、様々な中国の医療応用に有用である。 より広い範囲で、これは、事前訓練されたモデルが法、科学、工学といった必要な専門知識を欠いている領域において、大きな言語モデルのドメイン固有トレーニングのためのテンプレートを提供する。

Large language models exhibit promising general capabilities but often lack specialized knowledge for domain-specific tasks. Developing domain experts from a base model enables a range of applications without prohibitive training costs. This work demonstrates a method using continuous training and instruction fine-tuning to rapidly adapt Llama 2 base models to the Chinese medical domain. We first conduct continuous training on 1B tokens from Chinese medical references to teach relevant vocabulary and knowledge. The models are then fine-tuned on 54K examples sourced from the Chinese National Medical Licensing Examination. Experiments on Chinese medical data confirm the effectiveness of this approach, producing a model comparable to GPT-3.5-turbo while using way less computational resource. The resulting domain-specific model could be useful for various Chinese medical applications. More broadly, this provides a template for domain-specific training of large language models in areas where pre-trained models lack the required expertise, such as law, science, and engineering.
翻訳日:2023-11-02 15:20:38 公開日:2023-11-01
# 多様なコミュニティにおける有毒なコメント識別における主観性(アノテーションアノテーションの模倣)のモデル化

Modeling subjectivity (by Mimicking Annotator Annotation) in toxic comment identification across diverse communities ( http://arxiv.org/abs/2311.00203v1 )

ライセンス: Link先を確認
Senjuti Dutta (1), Sid Mittal (2), Sherol Chen (2), Deepak Ramachandran (2), Ravi Rajakumar (2), Ian Kivlichan (2), Sunny Mak (2), Alena Butryna (2), Praveen Paritosh (2) ((1) University of Tennessee, Knoxville, (2) Google LLC)(参考訳) The prevalence and impact of toxic discussions online have made content moderation crucial.Automated systems can play a vital role in identifying toxicity, and reducing the reliance on human moderation.Nevertheless, identifying toxic comments for diverse communities continues to present challenges that are addressed in this paper.The two-part goal of this study is to(1)identify intuitive variances from annotator disagreement using quantitative analysis and (2)model the subjectivity of these viewpoints.To achieve our goal, we published a new dataset\footnote{\url{https://github.com/XXX}} with expert annotators' annotations and used two other public datasets to identify the subjectivity of toxicity.Then leveraging the Large Language Model(LLM),we evaluate the model's ability to mimic diverse viewpoints on toxicity by varying size of the training data and utilizing same set of annotators as the test set used during model training and a separate set of annotators as the test set.We conclude that subjectivity is evident across all annotator groups, demonstrating the shortcomings of majority-rule voting. 今後、主観的アノテーションは、様々なコミュニティにおける毒性のようなドメインのトレーニングモデルのための基礎的真理ラベルとして機能するべきである。

The prevalence and impact of toxic discussions online have made content moderation crucial.Automated systems can play a vital role in identifying toxicity, and reducing the reliance on human moderation.Nevertheless, identifying toxic comments for diverse communities continues to present challenges that are addressed in this paper.The two-part goal of this study is to(1)identify intuitive variances from annotator disagreement using quantitative analysis and (2)model the subjectivity of these viewpoints.To achieve our goal, we published a new dataset\footnote{\url{https://github.com/XXX}} with expert annotators' annotations and used two other public datasets to identify the subjectivity of toxicity.Then leveraging the Large Language Model(LLM),we evaluate the model's ability to mimic diverse viewpoints on toxicity by varying size of the training data and utilizing same set of annotators as the test set used during model training and a separate set of annotators as the test set.We conclude that subjectivity is evident across all annotator groups, demonstrating the shortcomings of majority-rule voting. Moving forward, subjective annotations should serve as ground truth labels for training models for domains like toxicity in diverse communities.
翻訳日:2023-11-02 15:20:21 公開日:2023-11-01
# 画像翻訳のための3次元医用画像の適応遅延拡散モデル:多モード磁気共鳴イメージングによる研究

Adaptive Latent Diffusion Model for 3D Medical Image to Image Translation: Multi-modal Magnetic Resonance Imaging Study ( http://arxiv.org/abs/2311.00265v1 )

ライセンス: Link先を確認
Jonghun Kim, Hyunjin Park(参考訳) 臨床上重要なバイオマーカーを同定するための補完的情報を提供する医用画像解析において,マルチモーダル画像は包括的評価において重要な役割を果たす。 しかし, 臨床実践においては, スキャンコスト, スキャン時間制限, 安全性などの理由から, 複数の形態の獲得が困難である。 本稿では,3次元医用画像における画像から画像への変換に切り換え可能なブロックを利用する潜在拡散モデル(ldm)に基づくモデルを提案する。 目標モダリティを用いた条件付けと組み合わせた3次元ldmは、2次元生成法において欠落したスライス情報の欠点を克服する3次元において高品質な目標モダリティを生成することができる。 スイッチング可能なブロックは、多重スイッチング可能な空間適応正規化(MS-SPADE)と呼ばれ、ソースラテントをターゲットラテントの望ましいスタイルに動的に変換し、拡散プロセスを支援する。 MS-SPADEブロックは、1つの単一のモデルで1つのソースのモータリティの多くの翻訳タスクに取り組むことができ、異なるシナリオに対する多くの翻訳モデルの必要性を排除できる。 本モデルは,4つの異なるモードのマルチモーダル脳磁気共鳴画像データセットと独立なIXIデータセットを用いて,他のモデルよりも高い精度で画像合成に成功した。 本モデルは,一対多のモダリティ変換を可能としながら,様々なモダリティをまたいだ画像合成に成功した。 さらに、他の1対1の翻訳モデルよりも定量的な評価において優れていた。

Multi-modal images play a crucial role in comprehensive evaluations in medical image analysis providing complementary information for identifying clinically important biomarkers. However, in clinical practice, acquiring multiple modalities can be challenging due to reasons such as scan cost, limited scan time, and safety considerations. In this paper, we propose a model based on the latent diffusion model (LDM) that leverages switchable blocks for image-to-image translation in 3D medical images without patch cropping. The 3D LDM combined with conditioning using the target modality allows generating high-quality target modality in 3D overcoming the shortcoming of the missing out-of-slice information in 2D generation methods. The switchable block, noted as multiple switchable spatially adaptive normalization (MS-SPADE), dynamically transforms source latents to the desired style of the target latents to help with the diffusion process. The MS-SPADE block allows us to have one single model to tackle many translation tasks of one source modality to various targets removing the need for many translation models for different scenarios. Our model exhibited successful image synthesis across different source-target modality scenarios and surpassed other models in quantitative evaluations tested on multi-modal brain magnetic resonance imaging datasets of four different modalities and an independent IXI dataset. Our model demonstrated successful image synthesis across various modalities even allowing for one-to-many modality translations. Furthermore, it outperformed other one-to-one translation models in quantitative evaluations.
翻訳日:2023-11-02 15:12:14 公開日:2023-11-01
# 大規模言語モデルを用いた対話エージェントのプラグアンドプレイポリシープランナ

Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents ( http://arxiv.org/abs/2311.00262v1 )

ライセンス: Link先を確認
Yang Deng, Wenxuan Zhang, Wai Lam, See-Kiong Ng, Tat-Seng Chua(参考訳) プロアクティブ対話は、大規模言語モデル(llm)の時代において実用的で挑戦的な対話問題となり、対話政策計画がllmのプロアクティブ性を改善する鍵となる。 既存の研究の多くは、様々なプロンプトスキームを用いたLLMの対話ポリシープランニングを可能とし、言語AIのフィードバックで与えられたケースを扱う能力を反復的に強化する。 しかし、これらのアプローチは凍結したLCMの政策計画能力に縛られているか、あるいは新しいケースに移行することが難しいかのどちらかである。 そこで本研究では,ppdppと呼ばれる対話政策プランナーとして,可変言語モデルプラグインを用いて,積極的な対話問題に対するllmをストラテジライズするための新しい対話政策計画パラダイムを提案する。 具体的には、LLMベースのセルフプレイシミュレーションによって収集された動的相互作用データを用いた目標指向のAIフィードバックからの強化学習とともに、利用可能な人間アノテーションデータに対する教師あり微調整を容易にする新しいトレーニングフレームワークを開発する。 このように、LLMを利用した対話エージェントは、訓練後に異なるケースに一般化できるだけでなく、学習したプラグインを置換するだけで異なるアプリケーションに適用できる。 さらに,対話型環境下での対話システムの政策計画能力を評価することを提案する。 実験の結果,PDPPは交渉,感情支援,教師対話など,3つの異なる対話アプリケーションにおいて,既存のアプローチよりも一貫して,実質的に優れていた。

Proactive dialogues serve as a practical yet challenging dialogue problem in the era of large language models (LLMs), where the dialogue policy planning is the key to improving the proactivity of LLMs. Most existing studies enable the dialogue policy planning of LLMs using various prompting schemes or iteratively enhance this capability in handling the given case with verbal AI feedback. However, these approaches are either bounded by the policy planning capability of the frozen LLMs or hard to be transferred to new cases. In this work, we introduce a new dialogue policy planning paradigm to strategize LLMs for proactive dialogue problems with a tunable language model plug-in as a plug-and-play dialogue policy planner, named PPDPP. Specifically, we develop a novel training framework to facilitate supervised fine-tuning over available human-annotated data as well as reinforcement learning from goal-oriented AI feedback with dynamic interaction data collected by the LLM-based self-play simulation. In this manner, the LLM-powered dialogue agent can not only be generalized to different cases after the training, but also be applicable to different applications by just substituting the learned plug-in. In addition, we propose to evaluate the policy planning capability of dialogue systems under the interactive setting. Experimental results demonstrate that PPDPP consistently and substantially outperforms existing approaches on three different proactive dialogue applications, including negotiation, emotional support, and tutoring dialogues.
翻訳日:2023-11-02 15:11:47 公開日:2023-11-01
# アクティブラーニングにおけるインセンティブ付きコラボレーション

Incentivized Collaboration in Active Learning ( http://arxiv.org/abs/2311.00260v1 )

ライセンス: Link先を確認
Lee Cohen, Han Shao(参考訳) 複数のエージェントが共通の仮説からラベルを学習しようとするコラボレーティブアクティブラーニングでは、インセンティブ化されたコラボレーションのための革新的なフレームワークを紹介します。 ここで、合理的エージェントは、ラベルの複雑さを最小限に保ちながら、データセットのラベルを取得することを目指している。 我々は、個別に合理的な(IR)協調プロトコルを設計することに注力し、エージェントが個別に振る舞うことでラベルの複雑さを低減できないことを保証します。 まず、任意の最適な能動学習アルゴリズムが与えられた場合、そのアルゴリズムを実行する協調プロトコルは、すでにIRであることを示す。 しかし、最適アルゴリズムの計算はNPハードである。 そこで我々は、ラベル複雑性の観点から最もよく知られた抽出可能な近似アルゴリズムに匹敵する(制限)IRを実現する協調プロトコルを提供する。

In collaborative active learning, where multiple agents try to learn labels from a common hypothesis, we introduce an innovative framework for incentivized collaboration. Here, rational agents aim to obtain labels for their data sets while keeping label complexity at a minimum. We focus on designing (strict) individually rational (IR) collaboration protocols, ensuring that agents cannot reduce their expected label complexity by acting individually. We first show that given any optimal active learning algorithm, the collaboration protocol that runs the algorithm as is over the entire data is already IR. However, computing the optimal algorithm is NP-hard. We therefore provide collaboration protocols that achieve (strict) IR and are comparable with the best known tractable approximation algorithm in terms of label complexity.
翻訳日:2023-11-02 15:11:21 公開日:2023-11-01
# 有限差分に基づく教師なし小線形畳み込みニューラルネットワークによる楕円・パラボリック問題の解法

Solutions to Elliptic and Parabolic Problems via Finite Difference Based Unsupervised Small Linear Convolutional Neural Networks ( http://arxiv.org/abs/2311.00259v1 )

ライセンス: Link先を確認
Adrian Celaya, Keegan Kirk, David Fuentes, Beatrice Riviere(参考訳) 近年、深層学習とニューラルネットワークを利用して科学的な問題、特に偏微分方程式(pdes)を解くことへの関心が高まっている。 しかし、現在のニューラルネットワークベースのpdeソルバは、広範なトレーニングデータやラベル付き入出力ペアに依存することが多いため、分散の例に一般化する上での課題が発生しやすい。 従来のニューラルネットワークによるPDE解の推定における一般化ギャップを軽減するため,学習データを必要としない完全教師なしのアプローチを定式化し,PDEの有限差分解を小さな畳み込みニューラルネットワークを介して直接推定する。 提案アルゴリズムは, 有限差分法と比較して選択された楕円型および放物型問題に対して, 真の解に匹敵する精度を示す。

In recent years, there has been a growing interest in leveraging deep learning and neural networks to address scientific problems, particularly in solving partial differential equations (PDEs). However, current neural network-based PDE solvers often rely on extensive training data or labeled input-output pairs, making them prone to challenges in generalizing to out-of-distribution examples. To mitigate the generalization gap encountered by conventional neural network-based methods in estimating PDE solutions, we formulate a fully unsupervised approach, requiring no training data, to estimate finite difference solutions for PDEs directly via small convolutional neural networks. Our proposed algorithms demonstrate a comparable accuracy to the true solution for several selected elliptic and parabolic problems compared to the finite difference method.
翻訳日:2023-11-02 15:11:09 公開日:2023-11-01
# 大規模言語モデルのロバスト化:ドメインに依存しない振る舞い分析

Noisy Exemplars Make Large Language Models More Robust: A Domain-Agnostic Behavioral Analysis ( http://arxiv.org/abs/2311.00258v1 )

ライセンス: Link先を確認
Hongyi Zheng, Abulhair Saparov(参考訳) 近年のプロンプトエンジニアリングの進歩により、大規模言語モデル (LLM) は、印象的な精度でマルチホップ論理推論問題を解くことができる。 しかし,LLMのロバスト性について,数発のプロンプト技術を用いて検討する研究はほとんどない。 そこで本研究では,マルチホップ推論タスクにおけるllmのロバスト性をテストするための体系的手法を提案する。 我々は、llm上で行動分析を行うために、複数の抽象レベルの摂動(例えば、タイプポスのような語彙摂動や、質問に中間的推論ステップを含むような意味摂動)を含む。 実験を通して、モデルが単語を同義語に置き換えるなど、特定の摂動に対してより敏感であることが判明した。 また,プロンプトにおける摂動例の割合の増加は,数発プロンプト法の堅牢性を向上させることを示す。

Recent advances in prompt engineering enable large language models (LLMs) to solve multi-hop logical reasoning problems with impressive accuracy. However, there is little existing work investigating the robustness of LLMs with few-shot prompting techniques. Therefore, we introduce a systematic approach to test the robustness of LLMs in multi-hop reasoning tasks via domain-agnostic perturbations. We include perturbations at multiple levels of abstractions (e.g. lexical perturbations such as typos, and semantic perturbations such as the inclusion of intermediate reasoning steps in the questions) to conduct behavioral analysis on the LLMs. Throughout our experiments, we find that models are more sensitive to certain perturbations such as replacing words with their synonyms. We also demonstrate that increasing the proportion of perturbed exemplars in the prompts improves the robustness of few-shot prompting methods.
翻訳日:2023-11-02 15:10:53 公開日:2023-11-01
# ソフトウェア再利用はStack Overflowでどのように議論されるか?

How is Software Reuse Discussed in Stack Overflow? ( http://arxiv.org/abs/2311.00256v1 )

ライセンス: Link先を確認
Eman Abdullah AlOmara and Anthony Peruma and Mohamed Wiem Mkaouer and Christian Newman and Ali Ouni(参考訳) ソフトウェア再利用は、オープンソースおよび商用プロジェクトをターゲットにした、重要な外部品質特性である。 ソフトウェア再利用は長年にわたって採用が増加しているにもかかわらず、コードの再利用に関する開発者の議論についてはほとんど知られていない。 本稿では,コード再利用時に開発者が直面する課題をより深く理解するために,1,409件の投稿に関する実証研究を行う。 以上の結果から,'visual studio' は質問投稿において最も発生するbigramであり,再利用のために開発者が頻繁に利用するデザインパターンであることがわかった。 我々は,ソフトウェア再利用を促進するためのガイドラインを研究者が開発できることを想定する。

Software reuse is a crucial external quality attribute targeted by open-source and commercial projects. Despite that software reuse has experienced an increased adoption throughout the years, little is known about what aspects of code reuse developers discuss. In this paper, we present an empirical study of 1,409 posts to better understand the challenges developers face when reusing code. Our findings show that 'visual studio' is the top occurring bigrams for question posts, and there are frequent design patterns utilized by developers for the purpose of reuse. We envision our findings enabling researchers to develop guidelines to be utilized to foster software reuse.
翻訳日:2023-11-02 15:10:35 公開日:2023-11-01
# マルチエージェント探索のためのアクティブニューラルトポロジカルマッピング

Active Neural Topological Mapping for Multi-Agent Exploration ( http://arxiv.org/abs/2311.00252v1 )

ライセンス: Link先を確認
Xinyi Yang, Yuxiang Yang, Chao Yu, Jiayu Chen, Jingchen Yu, Haibing Ren, Huazhong Yang and Yu Wang(参考訳) 本稿では,複数のエージェントが限られた時間で知覚信号を介して見えない環境を探索する必要があるマルチエージェント協調探索問題について検討する。 探索タスクに対する一般的なアプローチは、アクティブマッピングとプランニングを組み合わせることだ。 距離マップは空間表現の詳細をキャプチャするが、通信トラフィックが高く、シナリオによって大きく異なる場合があるため、一般化は劣る。 トポロジカルマップは、抽象的な情報を持つノードとエッジのみで構成されており、シーン構造の影響を受けない、有望な代替手段である。 しかし、既存のトポロジに基づく探索作業の多くは、手作り設計のため、時間と準最適である古典的な計画手法を利用している。 深層強化学習(DRL)は、高速なエンドツーエンド推論を通じて学習(近く)の最適方針を示す。 本稿では,マルチエージェント探索タスクの探索効率と一般化を改善するために,マルチエージェントニューラルトポロジカルマッピング(mantm)を提案する。 MANTMは主に、トポロジカルマッパーと、新しいRLベースの階層型トポロジカルプランナー(HTP)で構成されている。 Topological Mapperは視覚エンコーダと距離に基づくヒューリスティックを使用して、メインノードと対応するゴーストノードを含むグラフを構築する。 HTPはグラフニューラルネットワークを活用し、エージェントとグラフノード間の相関関係を粗い方法で捕捉し、効率的なグローバルゴール選択を行う。 物理的に現実的なシミュレータHabitatで実施された大規模な実験では、MANTMは計画ベースのベースラインを少なくとも26.40%削減し、RLベースの競合相手を少なくとも7.63%削減することを示した。

This paper investigates the multi-agent cooperative exploration problem, which requires multiple agents to explore an unseen environment via sensory signals in a limited time. A popular approach to exploration tasks is to combine active mapping with planning. Metric maps capture the details of the spatial representation, but are with high communication traffic and may vary significantly between scenarios, resulting in inferior generalization. Topological maps are a promising alternative as they consist only of nodes and edges with abstract but essential information and are less influenced by the scene structures. However, most existing topology-based exploration tasks utilize classical methods for planning, which are time-consuming and sub-optimal due to their handcrafted design. Deep reinforcement learning (DRL) has shown great potential for learning (near) optimal policies through fast end-to-end inference. In this paper, we propose Multi-Agent Neural Topological Mapping (MANTM) to improve exploration efficiency and generalization for multi-agent exploration tasks. MANTM mainly comprises a Topological Mapper and a novel RL-based Hierarchical Topological Planner (HTP). The Topological Mapper employs a visual encoder and distance-based heuristics to construct a graph containing main nodes and their corresponding ghost nodes. The HTP leverages graph neural networks to capture correlations between agents and graph nodes in a coarse-to-fine manner for effective global goal selection. Extensive experiments conducted in a physically-realistic simulator, Habitat, demonstrate that MANTM reduces the steps by at least 26.40% over planning-based baselines and by at least 7.63% over RL-based competitors in unseen scenarios.
翻訳日:2023-11-02 15:10:25 公開日:2023-11-01
# RAUNE-Net:残留・注意駆動型水中画像強調手法

RAUNE-Net: A Residual and Attention-Driven Underwater Image Enhancement Method ( http://arxiv.org/abs/2311.00246v1 )

ライセンス: Link先を確認
Wangzhen Peng, Chenghao Zhou, Runze Hu, Jingchao Cao, Yutao Liu(参考訳) 水中画像強調 (uie) は, 低コントラスト, 高濁度, 視覚のぼやけ, 色歪など, 水中環境に特有の特性を有するため, 課題となっている。 近年、深層学習の応用は、UIEを含む様々な科学研究分野に静かに革命をもたらした。 しかし、既存のディープラーニングベースのUIEメソッドは通常、弱い堅牢性と限定的な適応性の問題に悩まされる。 本稿では,ネットワークのボトルネックにおける高次特徴の残差学習と,ダウンサンプリング処理における注目操作の2つの側面を用いて,RAUNE-Netと呼ばれるより信頼性が高く合理的なUIEネットワークを提案する。 さらに,異なる種類の水中歪みや劣化を含むUIE法の評価に特化して設計された2つのデータセットを収集・作成する。 実験により,本手法は,他の8つのUIE法と比較して,様々な実世界の水中画像に対して,有望な客観的性能と一貫した視覚的結果が得られることを示した。 サンプルコードとデータセットはhttps://github.com/fansuregrin/raune-netで公開されている。

Underwater image enhancement (UIE) poses challenges due to distinctive properties of the underwater environment, including low contrast, high turbidity, visual blurriness, and color distortion. In recent years, the application of deep learning has quietly revolutionized various areas of scientific research, including UIE. However, existing deep learning-based UIE methods generally suffer from issues of weak robustness and limited adaptability. In this paper, inspired by residual and attention mechanisms, we propose a more reliable and reasonable UIE network called RAUNE-Net by employing residual learning of high-level features at the network's bottle-neck and two aspects of attention manipulations in the down-sampling procedure. Furthermore, we collect and create two datasets specifically designed for evaluating UIE methods, which contains different types of underwater distortions and degradations. The experimental validation demonstrates that our method obtains promising objective performance and consistent visual results across various real-world underwater images compared to other eight UIE methods. Our example code and datasets are publicly available at https://github.com/fansuregrin/RAUNE-Net.
翻訳日:2023-11-02 15:09:58 公開日:2023-11-01
# 1DFormer: 顔のランドマーク追跡のためのトランスフォーマーによる1次元ランドマーク表現学習

1DFormer: Learning 1D Landmark Representations via Transformer for Facial Landmark Tracking ( http://arxiv.org/abs/2311.00241v1 )

ライセンス: Link先を確認
Shi Yin, Shijie Huan, Defu Lian, Shangfei Wang, Jinshui Hu, Tao Guo, Bing Yin, Baocai Yin, Cong Liu(参考訳) 近年,1次元ランドマーク表現に基づくヒートマップ回帰手法が顔ランドマークの同定において顕著な性能を示している。 しかし、従来の手法では、顔のランドマークを追跡するために複数のランドマークを逐次かつ構造的にモデル化するための1Dランドマーク表現の優れた可能性について深い調査を行うことは無視されていた。 この制限に対処するために,顔のランドマーク追跡のための時間的および空間的次元のトークン通信によるランドマークの動的および幾何学的パターンをキャプチャし,情報的な1dランドマーク表現を学習するトランスフォーマを提案する。 For temporal modeling, we propose a recurrent token mixing mechanism, an axis-landmark-positional embedding mechanism, as well as a confidence-enhanced multi-head attention mechanism to adaptively and robustly embed long-term landmark dynamics into their 1D representations; for structure modeling, we design intra-group and inter-group structure modeling mechanisms to encode the component-level as well as global-level facial structure patterns as a refinement for the 1D representations of landmarks through token communications in the spatial dimension via 1D convolutional layers. 300vwおよびtfデータベースにおける実験結果から、1dformerは、ランドマークシーケンスの1d表現を学習するために、長距離シーケンシャルパターンと固有の顔構造をモデル化し、顔ランドマーク追跡における最先端のパフォーマンスを達成した。

Recently, heatmap regression methods based on 1D landmark representations have shown prominent performance on locating facial landmarks. However, previous methods ignored to make deep explorations on the good potentials of 1D landmark representations for sequential and structural modeling of multiple landmarks to track facial landmarks. To address this limitation, we propose a Transformer architecture, namely 1DFormer, which learns informative 1D landmark representations by capturing the dynamic and the geometric patterns of landmarks via token communications in both temporal and spatial dimensions for facial landmark tracking. For temporal modeling, we propose a recurrent token mixing mechanism, an axis-landmark-positional embedding mechanism, as well as a confidence-enhanced multi-head attention mechanism to adaptively and robustly embed long-term landmark dynamics into their 1D representations; for structure modeling, we design intra-group and inter-group structure modeling mechanisms to encode the component-level as well as global-level facial structure patterns as a refinement for the 1D representations of landmarks through token communications in the spatial dimension via 1D convolutional layers. Experimental results on the 300VW and the TF databases show that 1DFormer successfully models the long-range sequential patterns as well as the inherent facial structures to learn informative 1D representations of landmark sequences, and achieves state-of-the-art performance on facial landmark tracking.
翻訳日:2023-11-02 15:09:38 公開日:2023-11-01
# ソフトウェアチームの目的と重要な結果: 挑戦、機会、そして開発への影響

Objectives and Key Results in Software Teams: Challenges, Opportunities and Impact on Development ( http://arxiv.org/abs/2311.00236v1 )

ライセンス: Link先を確認
Jenna Butler, Thomas Zimmermann, Christian Bird(参考訳) ソフトウェアを構築するには、ほとんどあらゆるものを構築するのと同様に、共通のゴールを理解し、それに向けて協力する必要があります。 大きなソフトウェア企業では、vpやディレクターはアイデアや目標を持ち、その高尚で一般的なアイデアを管理可能な有限の作業単位に絞り込むのは、中間管理職の仕事であることが多い。 組織はどのようにして目標に向かって進捗を設定して測定するのでしょうか? この問題を理解するため,多国籍ソフトウェア企業において,目標設定,目標の分散管理,目標追跡,究極的にはソフトウェア提供について,多種多様な手法による研究を行った。 47名の参加者による半構造化面接を解析し,4,000名以上の技術者からなる多国籍チームを対象に調査を行った。 512の回答は, テーマ分析, 線形回帰, 仮説テストを用いて分析し, ツールによらず, 目標の追跡, 測定, 設定が難しいことを発見した。 ミドルマネジメントは、高額な目標を実行可能な作業項目に翻訳する上で重要な要素であるようだ。 さらに、エンジニアの態度や信念は、いかなる目標設定フレームワークの成功にも不可欠です。 本研究では,データパイプラインへの投資,透明性の向上,コミュニケーションの改善,学習コミュニティの促進,okrの構造化ロールアウトなど,ソフトウェア組織の目標設定とokrプロセスを改善する方法について提言する。

Building software, like building almost anything, requires people to understand a common goal and work together towards it. In large software companies, a VP or Director will have an idea or goal and it is often the job of middle management to distill that lofty, general idea into manageable, finite units of work. How do organizations do this hard work of setting and measuring progress towards goals? To understand this question, we undertook a mixed methods approach to studying goal setting, management dissemination of goals, goal tracking and ultimately software delivery at a large multi-national software company. Semi-structured interviews with 47 participants were analyzed and used to develop a survey which was deployed to a multi-national team of over 4,000 engineers. The 512 responses were analyzed using thematic analysis, linear regressions and hypothesis testing, and found that tracking, measuring and setting goals is hard work, regardless of tools used. Middle management seems to be a critical component of the translation of lofty goals to actionable work items. In addition, attitudes and beliefs of engineers are critical to the success of any goal setting framework. Based on this research, we make recommendations on how to improve the goal setting and OKR process in software organizations: invest in the data pipeline, increase transparency, improve communication, promote learning communities, and a structured roll out of OKRs.
翻訳日:2023-11-02 15:09:11 公開日:2023-11-01
# 後方誤り解析の観点からのマルチタスクおよび連続学習における帰属バイアス

Implicit biases in multitask and continual learning from a backward error analysis perspective ( http://arxiv.org/abs/2311.00235v1 )

ライセンス: Link先を確認
Benoit Dherin(参考訳) 後方誤り解析を用いて,確率勾配降下学習ニューラルネットワークのマルチタスクおよび連続学習設定における暗黙のトレーニングバイアスを計算する。 特に、トレーニング中に暗黙的に最小化される修正された損失を導き出す。 それらには3つの用語がある: もともとの損失、収束の計算、学習率に比例する暗黙の平坦性正規化項、そして理論上は収束と暗黙の正規化の両方に有害である衝突項である。 マルチタスクでは、コンフリクト項はタスク間の勾配アライメントを測定することでよく知られた量であり、連続学習においてはコンフリクト項はディープラーニング最適化の新しい量であるが、微分幾何学の基本的なツールである:タスク勾配間のリーブラケットである。

Using backward error analysis, we compute implicit training biases in multitask and continual learning settings for neural networks trained with stochastic gradient descent. In particular, we derive modified losses that are implicitly minimized during training. They have three terms: the original loss, accounting for convergence, an implicit flatness regularization term proportional to the learning rate, and a last term, the conflict term, which can theoretically be detrimental to both convergence and implicit regularization. In multitask, the conflict term is a well-known quantity, measuring the gradient alignment between the tasks, while in continual learning the conflict term is a new quantity in deep learning optimization, although a basic tool in differential geometry: The Lie bracket between the task gradients.
翻訳日:2023-11-02 15:08:47 公開日:2023-11-01
# Distort, Distract, Decode: Instruction-Tuned Modelはノイズインストラクションから応答を抑制できる

Distort, Distract, Decode: Instruction-Tuned Model Can Refine its Response from Noisy Instructions ( http://arxiv.org/abs/2311.00233v1 )

ライセンス: Link先を確認
Taehyeon Kim, Joonkee Kim, Gihun Lee, Se-Young Yun(参考訳) 命令調整言語モデルは印象的なゼロショット一般化を示しているが、これらのモデルはトレーニングセットの外にある命令に直面すると、正確な応答を生成するのに苦労することが多い。 本稿では,インストラクティブ・デコーディング(Instructive Decoding,ID)を提案する。 特に、IDは、ノイズのある命令と呼ばれる元の命令の操作されたバージョンから生成された予測を利用して、逆方向の予測のためにロジットを調整する。 このノイズのある命令は、意図した命令から分岐する可能性のある応答を導き出すことを目的としている。 我々は,無作為な単語に意味的ノイズを挿入するものから,逸脱した応答を誘発する「提案」のような他のものまで,ノイズのある命令のスペクトルをまたいで実験を行う。 提案手法は,追加のパラメータ更新を必要とせずに,各種命令調整モデルやタスクに対して大幅な性能向上を実現する。 特に、"opposite" を元の命令から最大のばらつきを示す ID のノイズインストラクションとして利用することで、複数のモデルやタスク間で、最も顕著なパフォーマンス向上を実現している。

While instruction-tuned language models have demonstrated impressive zero-shot generalization, these models often struggle to generate accurate responses when faced with instructions that fall outside their training set. This paper presents Instructive Decoding (ID), a simple yet effective approach that augments the efficacy of instruction-tuned models. Specifically, ID adjusts the logits for next-token prediction in a contrastive manner, utilizing predictions generated from a manipulated version of the original instruction, referred to as a noisy instruction. This noisy instruction aims to elicit responses that could diverge from the intended instruction yet remain plausible. We conduct experiments across a spectrum of such noisy instructions, ranging from those that insert semantic noise via random words to others like 'opposite' that elicit the deviated responses. Our approach achieves considerable performance gains across various instruction-tuned models and tasks without necessitating any additional parameter updates. Notably, utilizing 'opposite' as the noisy instruction in ID, which exhibits the maximum divergence from the original instruction, consistently produces the most significant performance gains across multiple models and tasks.
翻訳日:2023-11-02 15:08:33 公開日:2023-11-01
# DistDNAS: 2時間以内に効率的な機能インタラクションを検索する

DistDNAS: Search Efficient Feature Interactions within 2 Hours ( http://arxiv.org/abs/2311.00231v1 )

ライセンス: Link先を確認
Tunhou Zhang, Wei Wen, Igor Fedorov, Xi Liu, Buyun Zhang, Fangqiu Han, Wen-Yen Chen, Yiping Han, Feng Yan, Hai Li, Yiran Chen(参考訳) 探索効率とサービス効率は、特徴相互作用の構築とレコメンダシステムにおけるモデル開発プロセスの迅速化における2つの主要な軸である。 大規模ベンチマークでは、最適な機能インタラクション設計の探索には、大量のデータに対するシーケンシャルなワークフローのため、膨大なコストが必要となる。 さらに、様々なソース、順序、数学的操作の相互作用を融合させることで、潜在的な競合とレコメンデーションモデルに対するさらなる冗長性をもたらし、パフォーマンスとサービスコストの最適化されたトレードオフに繋がる。 本稿では,DistDNASを高速かつ効率的な機能相互作用設計のための優れたソリューションとして提示する。 DistDNASは、様々な順序と型の相互作用モジュールを検索空間として組み込むスーパーネットを提案する。 検索効率を最適化するために、distdnasは検索を分散し、さまざまなデータ日付に最適なインタラクションモジュールの選択を集約し、25倍のスピードアップを達成し、検索コストを2日から2時間に短縮する。 サービス効率を最適化するために、DistDNASは、冗長な相互作用モジュールの選択をペナルティ化するために、異なるコスト対応の損失を導入し、サービスにおける特徴的相互作用の効率を高める。 1TB Criteo Terabyte データセット上で DistDNAS で構築した最良のモデルを評価する。 実験により、現在のCTRモデルよりも 0.001 AUC の改善と 60% FLOP の削減が示された。

Search efficiency and serving efficiency are two major axes in building feature interactions and expediting the model development process in recommender systems. On large-scale benchmarks, searching for the optimal feature interaction design requires extensive cost due to the sequential workflow on the large volume of data. In addition, fusing interactions of various sources, orders, and mathematical operations introduces potential conflicts and additional redundancy toward recommender models, leading to sub-optimal trade-offs in performance and serving cost. In this paper, we present DistDNAS as a neat solution to brew swift and efficient feature interaction design. DistDNAS proposes a supernet to incorporate interaction modules of varying orders and types as a search space. To optimize search efficiency, DistDNAS distributes the search and aggregates the choice of optimal interaction modules on varying data dates, achieving over 25x speed-up and reducing search cost from 2 days to 2 hours. To optimize serving efficiency, DistDNAS introduces a differentiable cost-aware loss to penalize the selection of redundant interaction modules, enhancing the efficiency of discovered feature interactions in serving. We extensively evaluate the best models crafted by DistDNAS on a 1TB Criteo Terabyte dataset. Experimental evaluations demonstrate 0.001 AUC improvement and 60% FLOPs saving over current state-of-the-art CTR models.
翻訳日:2023-11-02 15:08:12 公開日:2023-11-01
# dino-mix:基本視覚モデルと特徴混合による視覚位置認識の強化

DINO-Mix: Enhancing Visual Place Recognition with Foundational Vision Model and Feature Mixing ( http://arxiv.org/abs/2311.00230v1 )

ライセンス: Link先を確認
Gaoshuang Huang, Yang Zhou, Xiaofei Hu, Chenglong Zhang, Luying Zhao, Wenjian Gan and Mingbo Hou(参考訳) 公開画像の地理的位置を確認するために視覚的位置認識(VPR)技術を利用することは、現実のVPRアプリケーションにとって重要な問題である。 現在のVPR法の多くは理想的な条件下で良好な結果が得られるが、光の変動、季節変化、移動物体による閉塞といった複雑な環境での性能は概して満足できない。 本研究では,トリミングと微調整のためのバックボーンネットワークとしてdinov2モデルを用いてロバストな画像特徴を抽出する。 本稿では,基本ビジョンモデルと特徴集約を組み合わせた新しいvprアーキテクチャであるdino-mixを提案する。 このアーキテクチャは、基本ビジョンモデルの強力な画像特徴抽出機能に依存している。 MLP-Mixer ベースの混合モジュールを用いて画像特徴を集約し,高精度 VPR を実現する。 提案したDINO-Mixアーキテクチャが現在最先端(SOTA)手法よりも優れていることを示す。 照明変化,季節変化,咬合を有するテストセット(tokyo24/7,nordland,sf-xl-testv1)では,dino-mixアーキテクチャが91.75%,80.18%,82%の精度でトップ1となった。 SOTA法と比較すると, 平均精度は5.14%向上した。

Utilizing visual place recognition (VPR) technology to ascertain the geographical location of publicly available images is a pressing issue for real-world VPR applications. Although most current VPR methods achieve favorable results under ideal conditions, their performance in complex environments, characterized by lighting variations, seasonal changes, and occlusions caused by moving objects, is generally unsatisfactory. In this study, we utilize the DINOv2 model as the backbone network for trimming and fine-tuning to extract robust image features. We propose a novel VPR architecture called DINO-Mix, which combines a foundational vision model with feature aggregation. This architecture relies on the powerful image feature extraction capabilities of foundational vision models. We employ an MLP-Mixer-based mix module to aggregate image features, resulting in globally robust and generalizable descriptors that enable high-precision VPR. We experimentally demonstrate that the proposed DINO-Mix architecture significantly outperforms current state-of-the-art (SOTA) methods. In test sets having lighting variations, seasonal changes, and occlusions (Tokyo24/7, Nordland, SF-XL-Testv1), our proposed DINO-Mix architecture achieved Top-1 accuracy rates of 91.75%, 80.18%, and 82%, respectively. Compared with SOTA methods, our architecture exhibited an average accuracy improvement of 5.14%.
翻訳日:2023-11-02 15:07:46 公開日:2023-11-01
# 2光子散逸発振子における創発的平衡と量子臨界性

Emergent equilibrium and quantum criticality in a two-photon dissipative oscillator ( http://arxiv.org/abs/2311.00297v1 )

ライセンス: Link先を確認
V. Yu. Mylnikov, S. O. Potashin, G. S. Sokolovskii, N. S. Averkiev(参考訳) 2光子駆動と2光子発散を持つ量子発振器の発散相転移について検討する。 半古典的ランジュバン方程式とフォッカー・プランク法を用いて、非摂動的量子揺らぎの理論を構築し、半古典的近似を超越する。 本研究では,2光子量子散逸振動子を,有色雑音環境における非線形古典振動子の古典平衡モデルにマッピングする。 そして、与えられた散逸相転移に対するランダウ理論の適用性を正当化する。 そこで本研究では,2光子駆動と消散の周波数差と周波数差によって決定される実効温度に応じて,ボルツマン様の定常分布関数を明示的に示す。 さらに,量子臨界領域の記述を提供し,数値シミュレーションと非常によく一致していると思われる臨界指数を求める。

We study the dissipative phase transition in a quantum oscillator with two-photon drive and two-photon dissipation. Using the semi-classical Langevin equation and the Fokker-Plank approach, we construct a theory of non-perturbative quantum fluctuations and go beyond the semi-classical approximation. We demonstrate the mapping of a two-photon quantum dissipative oscillator onto a classical equilibrium model of a nonlinear classical oscillator in a colored-noise environment. Then, we justify the applicability of the Landau theory for a given dissipative phase transition. To do that, we explicitly demonstrate the Boltzmann-like form of stationary distribution function depending on the effective temperature, which is determined by the frequency detuning and the rates of two-photon drive and dissipation. In addition, we provide a description of the quantum critical region and obtain critical exponents that appear to be in very good agreement with numerical simulations.
翻訳日:2023-11-02 15:00:23 公開日:2023-11-01
# 計算効率テストのための高精度誤り率

Precise Error Rates for Computationally Efficient Testing ( http://arxiv.org/abs/2311.00289v1 )

ライセンス: Link先を確認
Ankur Moitra, Alexander S. Wein(参考訳) 統計学的に最適である確率比検定は高次元設定でしばしば計算可能であるため、計算複雑性に目を向けて、単純な対数-単純仮説検定の根本的な問題を再考する。 古典的なスパイクド・ウィグナーモデル(一般のスパイク先行)では、線形スペクトル統計に基づく既存のテストは、より優れた指数時間テストがあるにもかかわらず、全ての計算効率の良いテストの中で、タイプIとタイプIIのエラー率の間の最良のトレードオフ曲線を達成することを示した。 この結果は、適切な複雑性理論的予想、すなわち、確立された低次予想の自然な強化に条件づけられている。 その結果、スペクトルは計算的に有界なテストでは十分統計量である(全てのテストではそうではない)。 我々の知る限り、我々の手法は効率的な計算で達成可能な正確な漸近テスト誤差を推論するための最初のツールを提供する。 ハードネスの結果に必要な主な成分は、低次度度比の標準値と(直感的に)テストの達成可能性の正の結果に鋭い束縛である。 この戦略は、非有界計算の設定においても新しく、テストの基本的な統計的限界を分析する代替的な方法を提供する。

We revisit the fundamental question of simple-versus-simple hypothesis testing with an eye towards computational complexity, as the statistically optimal likelihood ratio test is often computationally intractable in high-dimensional settings. In the classical spiked Wigner model (with a general i.i.d. spike prior) we show that an existing test based on linear spectral statistics achieves the best possible tradeoff curve between type I and type II error rates among all computationally efficient tests, even though there are exponential-time tests that do better. This result is conditional on an appropriate complexity-theoretic conjecture, namely a natural strengthening of the well-established low-degree conjecture. Our result shows that the spectrum is a sufficient statistic for computationally bounded tests (but not for all tests). To our knowledge, our approach gives the first tool for reasoning about the precise asymptotic testing error achievable with efficient computation. The main ingredients required for our hardness result are a sharp bound on the norm of the low-degree likelihood ratio along with (counterintuitively) a positive result on achievability of testing. This strategy appears to be new even in the setting of unbounded computation, in which case it gives an alternate way to analyze the fundamental statistical limits of testing.
翻訳日:2023-11-02 14:59:57 公開日:2023-11-01
# アクティブ・インストラクション・チューニング:プロンプト感性タスクのトレーニングによるクロスタスク・ジェネリゼーションの改善

Active Instruction Tuning: Improving Cross-Task Generalization by Training on Prompt Sensitive Tasks ( http://arxiv.org/abs/2311.00288v1 )

ライセンス: Link先を確認
Po-Nien Kung, Fan Yin, Di Wu, Kai-Wei Chang, Nanyun Peng(参考訳) インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。 しかし、ITモデルの性能と一般化性を改善するために新しいタスクをどのように選択するかは、未解決の問題である。 既存のタスクのトレーニングは計算の要求を禁止し、ランダムにタスクを選択すると最適化されないパフォーマンスにつながる可能性があるため、現実的ではない。 そこで本研究では,情報に富むタスクを識別し,選択したタスクでモデルをアクティブにチューニングする新しいフレームワークであるpromise uncertaintyに基づくアクティブな命令チューニングを提案する。 我々は、摂動的プロンプトに対する現在のモデル出力の不一致で、新しいタスクの情報を表現している。 NIV2 と Self-Instruct データセットに対する実験により,本手法はタスク選択における他のベースライン戦略を一貫して上回り,トレーニングタスクの少ない分散一般化を実現している。 さらに,素早い不確実性と予測確率に基づいてタスクを分類・診断するタスクマップを導入する。 難易度(確率的かつ低確率)なタスクのトレーニングは、命令チューニングにおけるタスク選択の重要性を強調しながらも、あいまいな(予測不能な)タスクのトレーニングが一般化を改善できることが分かりました。

Instruction tuning (IT) achieves impressive zero-shot generalization results by training large language models (LLMs) on a massive amount of diverse tasks with instructions. However, how to select new tasks to improve the performance and generalizability of IT models remains an open question. Training on all existing tasks is impractical due to prohibiting computation requirements, and randomly selecting tasks can lead to suboptimal performance. In this work, we propose active instruction tuning based on prompt uncertainty, a novel framework to identify informative tasks, and then actively tune the models on the selected tasks. We represent the informativeness of new tasks with the disagreement of the current model outputs over perturbed prompts. Our experiments on NIV2 and Self-Instruct datasets demonstrate that our method consistently outperforms other baseline strategies for task selection, achieving better out-of-distribution generalization with fewer training tasks. Additionally, we introduce a task map that categorizes and diagnoses tasks based on prompt uncertainty and prediction probability. We discover that training on ambiguous (prompt-uncertain) tasks improves generalization while training on difficult (prompt-certain and low-probability) tasks offers no benefit, underscoring the importance of task selection for instruction tuning.
翻訳日:2023-11-02 14:59:04 公開日:2023-11-01
# 知識注入型プロンプティング:大規模言語モデルによる臨床テキストデータ生成の評価と改善

Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data Generation with Large Language Models ( http://arxiv.org/abs/2311.00287v1 )

ライセンス: Link先を確認
Ran Xu, Hejie Cui, Yue Yu, Xuan Kan, Wenqi Shi, Yuchen Zhuang, Wei Jin, Joyce Ho, Carl Yang(参考訳) 臨床自然言語処理には、複雑な医学用語や臨床コンテキストなど、ドメイン固有の課題に対処できる方法が必要である。 近年、この領域では大規模言語モデル(llm)が約束されている。 しかし、それらの直接デプロイはプライバシの問題につながり、リソースによって制限される可能性がある。 この課題に対処するために,臨床NLPタスクにLLMを用いて合成臨床テキストを生成する。 我々は、そのプロセスに知識を注入する革新的で資源効率の良いアプローチ、ClinGenを提案する。 我々のモデルは臨床知識抽出と文脈インフォームドLLMプロンプトである。 臨床トピックと執筆スタイルは、外部ドメイン固有の知識グラフとLCMから抽出され、データ生成をガイドする。 7つのNLPタスクと16のデータセットにわたる広範な実証研究により、ClinGenはさまざまなタスクにおけるパフォーマンスを一貫して向上し、実際のデータセットの分布を効果的に調整し、生成されたトレーニングインスタンスの多様性を著しく強化することが明らかになった。 私たちはコードと生成されたすべてのデータを \url{https://github.com/ritaranx/ClinGen} で公開します。

Clinical natural language processing requires methods that can address domain-specific challenges, such as complex medical terminology and clinical contexts. Recently, large language models (LLMs) have shown promise in this domain. Yet, their direct deployment can lead to privacy issues and are constrained by resources. To address this challenge, we delve into synthetic clinical text generation using LLMs for clinical NLP tasks. We propose an innovative, resource-efficient approach, ClinGen, which infuses knowledge into the process. Our model involves clinical knowledge extraction and context-informed LLM prompting. Both clinical topics and writing styles are drawn from external domain-specific knowledge graphs and LLMs to guide data generation. Our extensive empirical study across 7 clinical NLP tasks and 16 datasets reveals that ClinGen consistently enhances performance across various tasks, effectively aligning the distribution of real datasets and significantly enriching the diversity of generated training instances. We will publish our code and all the generated data in \url{https://github.com/ritaranx/ClinGen}.
翻訳日:2023-11-02 14:58:33 公開日:2023-11-01
# JADE:LLMのための言語ベースの安全評価プラットフォーム

JADE: A Linguistic-based Safety Evaluation Platform for LLM ( http://arxiv.org/abs/2311.00286v1 )

ライセンス: Link先を確認
Mi Zhang and Xudong Pan and Min Yang(参考訳) 本稿では,シード質問の言語的複雑さを強化し,広範に使用されているLLMを,オープンソース中国語8種,商用中国語6種,商用英語4種に分類した3つのグループに分割した。 質問は同時に複数のLSMの有害な生成を誘発し、平均的な安全でない生成比は \textbf{$70\%$} (以下表を参照) であり、依然として自然な質問であり、コアの安全でないセマンティクスを流用し保存している。 我々は、商用のLLMとオープンソースのLLM向けに生成されたベンチマークデモを、以下のリンクでリリースする。 JADEによって生成されたより多くの質問を評価することに興味がある読者には、ご連絡ください。 \textit{jade} は、noam chomsky のseminal theory of transformational-generative grammar に基づいている。 安全な意図のないシード質問が与えられると、\textit{jade} は、安全ガードレールが壊れるまで元の質問の構文構造の複雑さを増すために、生成規則と変換規則のシーケンスを起動する。 我々の重要な洞察は: 人間の言語の複雑さのため、現在の最高のLLMのほとんどは、完全にカバーできない無制限の例空間を形成する無限の異なる構文構造から、不変の悪をほとんど認識できない。 技術的には、生成/変換規則は言語のネイティブな話者によって構築され、一旦開発されていれば、ガードレールが壊れるまで、ある質問のパースツリーを自動成長させ変換するのに使うことができる。 さらなる評価結果とデモについては、Webサイトを参照してください。

In this paper, we present \textit{JADE}, a targeted linguistic fuzzing platform which strengthens the linguistic complexity of seed questions to simultaneously and consistently break a wide range of widely-used LLMs categorized in three groups: eight open-sourced Chinese, six commercial Chinese and four commercial English LLMs. JADE generates three safety benchmarks for the three groups of LLMs, which contain unsafe questions that are highly threatening: the questions simultaneously trigger harmful generation of multiple LLMs, with an average unsafe generation ratio of \textbf{$70\%$} (please see the table below), while are still natural questions, fluent and preserving the core unsafe semantics. We release the benchmark demos generated for commercial English LLMs and open-sourced English LLMs in the following link: https://github.com/whitzard-ai/jade-db. For readers who are interested in evaluating on more questions generated by JADE, please contact us. \textit{JADE} is based on Noam Chomsky's seminal theory of transformational-generative grammar. Given a seed question with unsafe intention, \textit{JADE} invokes a sequence of generative and transformational rules to increment the complexity of the syntactic structure of the original question, until the safety guardrail is broken. Our key insight is: Due to the complexity of human language, most of the current best LLMs can hardly recognize the invariant evil from the infinite number of different syntactic structures which form an unbound example space that can never be fully covered. Technically, the generative/transformative rules are constructed by native speakers of the languages, and, once developed, can be used to automatically grow and transform the parse tree of a given question, until the guardrail is broken. For more evaluation results and demo, please check our website: https://whitzard-ai.github.io/jade.html.
翻訳日:2023-11-02 14:58:06 公開日:2023-11-01
# オープンセット領域適応のためのミックス・オブ・エキスパート--デュアルスペース検出アプローチ

Mixture-of-Experts for Open Set Domain Adaptation: A Dual-Space Detection Approach ( http://arxiv.org/abs/2311.00285v1 )

ライセンス: Link先を確認
Zhenbang Du, Jiayu An, Jiahao Hong, Dongrui Wu(参考訳) Open Set Domain Adaptation (OSDA)は、ソースとターゲットドメイン間の分散とラベルシフトを同時に処理し、ターゲットドメイン内の未知のクラスサンプルを特定しながら、既知のクラスを正確に分類することを目的としている。 既存のOSDAアプローチのほとんどは、ディープモデルの最終的な画像特徴空間に依存し、手動で調整されたしきい値を必要とし、未知のサンプルを既知のクラスとして容易に分類する。 Mixture-of-Expert (MoE)は治療薬かもしれない。 MoE内では、異なる専門家が異なる入力機能に対処し、ルーティング機能空間内の異なるクラスの独自の専門家ルーティングパターンを生成する。 その結果、未知のクラスサンプルは、既知のクラスへの異なるエキスパートルーティングパターンを表示することができる。 本稿では,画像特徴空間とルーティング特徴空間の不整合を利用して未知のクラス標本をしきい値なく検出するデュアルスペース検出手法を提案する。 Graph Routerはさらに、イメージパッチ間の空間情報の利用を改善するために導入された。 3つの異なるデータセットの実験は、我々のアプローチの有効性と優位性を検証した。 コードはもうすぐ来るでしょう。

Open Set Domain Adaptation (OSDA) aims to cope with the distribution and label shifts between the source and target domains simultaneously, performing accurate classification for known classes while identifying unknown class samples in the target domain. Most existing OSDA approaches, depending on the final image feature space of deep models, require manually-tuned thresholds, and may easily misclassify unknown samples as known classes. Mixture-of-Expert (MoE) could be a remedy. Within an MoE, different experts address different input features, producing unique expert routing patterns for different classes in a routing feature space. As a result, unknown class samples may also display different expert routing patterns to known classes. This paper proposes Dual-Space Detection, which exploits the inconsistencies between the image feature space and the routing feature space to detect unknown class samples without any threshold. Graph Router is further introduced to better make use of the spatial information among image patches. Experiments on three different datasets validated the effectiveness and superiority of our approach. The code will come soon.
翻訳日:2023-11-02 14:57:26 公開日:2023-11-01
# 機械学習コンポーネントのためのモデル駆動エンジニアリング:体系的文献レビュー

Model-driven Engineering for Machine Learning Components: A Systematic Literature Review ( http://arxiv.org/abs/2311.00284v1 )

ライセンス: Link先を確認
Hira Naveed, Chetan Arora, Hourieh Khalajzadeh, John Grundy, Omar Haggag(参考訳) コンテキスト: 機械学習(ML)は多くの現代のソフトウェアアプリケーションにおいてコンポーネントとして広く採用されている。 大量のデータが利用可能であるため、組織はデータを活用して意味のある洞察を抽出し、ビジネス利益性を高めたいと考えています。 MLコンポーネントは予測機能、異常検出、レコメンデーション、正確な画像とテキスト処理、情報決定を可能にする。 しかし、MLコンポーネントを持つシステムを開発するのは簡単ではない。ML、データ処理、ソフトウェアエンジニアリングに時間、労力、知識、専門知識が必要である。 従来のソフトウェアやサイバー物理システムを開発する際に、モデル駆動工学(MDE)技術を用いてこれらの課題に対処する研究がいくつかある。 近年,MLコンポーネントを持つシステムにMDEを適用することへの関心が高まっている。 目的: 本研究の目的は, 体系的文献レビュー(SLR)を通じて, MDE とML (MDE4ML) の交わる可能性を探ることである。 このSLRを通じて,そのモチベーション,MDEソリューション,評価技術,重要なメリット,限界など,既存の研究を分析したかった。 結果: 対象分野について選択した研究を分析した結果, 以下のことが判明した。 1) MDE4MLの使用の背景にある主要な動機 2) モデリング言語,モデル変換,ツールサポート,ターゲットとするmlアスペクト,コントリビューションなど,さまざまなmdeソリューションが適用されます。 3) 使用する評価技術及び指標 4)今後の作業の限界と方向性。 また,既存の文献のギャップについても論じ,今後の研究を推奨する。 結論:このSLRは、MDE4ML分野における現在のトレンド、ギャップ、今後の研究方向性を強調し、研究者と実践者の両方に利益をもたらす。

Context: Machine Learning (ML) has become widely adopted as a component in many modern software applications. Due to the large volumes of data available, organizations want to increasingly leverage their data to extract meaningful insights and enhance business profitability. ML components enable predictive capabilities, anomaly detection, recommendation, accurate image and text processing, and informed decision-making. However, developing systems with ML components is not trivial; it requires time, effort, knowledge, and expertise in ML, data processing, and software engineering. There have been several studies on the use of model-driven engineering (MDE) techniques to address these challenges when developing traditional software and cyber-physical systems. Recently, there has been a growing interest in applying MDE for systems with ML components. Objective: The goal of this study is to further explore the promising intersection of MDE with ML (MDE4ML) through a systematic literature review (SLR). Through this SLR, we wanted to analyze existing studies, including their motivations, MDE solutions, evaluation techniques, key benefits and limitations. Results: We analyzed selected studies with respect to several areas of interest and identified the following: 1) the key motivations behind using MDE4ML; 2) a variety of MDE solutions applied, such as modeling languages, model transformations, tool support, targeted ML aspects, contributions and more; 3) the evaluation techniques and metrics used; and 4) the limitations and directions for future work. We also discuss the gaps in existing literature and provide recommendations for future research. Conclusion: This SLR highlights current trends, gaps and future research directions in the field of MDE4ML, benefiting both researchers and practitioners
翻訳日:2023-11-02 14:57:08 公開日:2023-11-01
# 医用画像階層型マルチラベル分類のためのTLMCMネットワーク

TLMCM Network for Medical Image Hierarchical Multi-Label Classification ( http://arxiv.org/abs/2311.00282v1 )

ライセンス: Link先を確認
Meng Wu, Siyan Luo, Qiyu Wu, Wenbin Ouyang(参考訳) 医用画像階層的マルチラベル分類(MI-HMC)は、現代医療において最重要であり、データ不均衡と‘textit{hierarchy constraint}’の2つの重要な課題を提示している。 既存のソリューションには複雑なモデルアーキテクチャ設計やドメイン固有の前処理が含まれており、実装にかなりの専門知識や労力を要する。 本稿では,mi-hmcタスクのための最大制約モジュール(tlmcm)ネットワークを用いた転送学習を提案する。 TLMCMネットワークは、上記の課題を克服するための新しいアプローチを提供し、平均精度とリコール曲線($AU\overline{(PRC)}$)測定値に基づく既存の手法よりも優れている。 さらに、本研究では、mi-hmcタスクの文脈で広く研究されていない2つの新しい精度指標である$emr$と$hammingaccuracy$を提案する。 実験の結果,TLMCMネットワークはMI-HMCタスクに対して高いマルチラベル予測精度(80\%$-90\%$)を達成し,医療領域アプリケーションに有用な貢献をすることが示された。

Medical Image Hierarchical Multi-Label Classification (MI-HMC) is of paramount importance in modern healthcare, presenting two significant challenges: data imbalance and \textit{hierarchy constraint}. Existing solutions involve complex model architecture design or domain-specific preprocessing, demanding considerable expertise or effort in implementation. To address these limitations, this paper proposes Transfer Learning with Maximum Constraint Module (TLMCM) network for the MI-HMC task. The TLMCM network offers a novel approach to overcome the aforementioned challenges, outperforming existing methods based on the Area Under the Average Precision and Recall Curve($AU\overline{(PRC)}$) metric. In addition, this research proposes two novel accuracy metrics, $EMR$ and $HammingAccuracy$, which have not been extensively explored in the context of the MI-HMC task. Experimental results demonstrate that the TLMCM network achieves high multi-label prediction accuracy($80\%$-$90\%$) for MI-HMC tasks, making it a valuable contribution to healthcare domain applications.
翻訳日:2023-11-02 14:56:41 公開日:2023-11-01
# Few-Shotオブジェクト検出のための画像言語類似性を用いた再構成

Re-Scoring Using Image-Language Similarity for Few-Shot Object Detection ( http://arxiv.org/abs/2311.00278v1 )

ライセンス: Link先を確認
Min Jae Jung, Seung Dae Han and Joohee Kim(参考訳) ラベルの少ない新規なオブジェクトの検出に焦点をあてるオブジェクト検出は,コミュニティにおいて新たな課題となっている。 近年の研究では、事前訓練されたモデルや修正された損失関数の適応により、性能が向上することが示されている。 本稿では,CLIP(Contrastive Language- Image Pre-Training)のパワーと低データセットにおける負の分類損失の活用について検討する。 具体的には、CLIP(CM-CLIP)とBNRL(Back background Negative Re-scale Loss)を用いたキャリブレーションモジュールを導入し、より高速なR-CNNを拡張したFew-shot Object Detection(RISF)のための画像言語類似性を用いた再構成を提案する。 前者はゼロショット分類を行い、画像クラスの類似性を用いて検出器の分類スコアを再スコアリングし、後者は偽の背景に対する罰や一般化された少数ショットオブジェクト検出データセットにおけるカテゴリの混乱を考慮した分類損失を修正する。 MS-COCOとPASCAL VOCの大規模な実験により、提案されたRISFは最先端のアプローチを大幅に上回っていることが示された。 コードは利用可能だ。

Few-shot object detection, which focuses on detecting novel objects with few labels, is an emerging challenge in the community. Recent studies show that adapting a pre-trained model or modified loss function can improve performance. In this paper, we explore leveraging the power of Contrastive Language-Image Pre-training (CLIP) and hard negative classification loss in low data setting. Specifically, we propose Re-scoring using Image-language Similarity for Few-shot object detection (RISF) which extends Faster R-CNN by introducing Calibration Module using CLIP (CM-CLIP) and Background Negative Re-scale Loss (BNRL). The former adapts CLIP, which performs zero-shot classification, to re-score the classification scores of a detector using image-class similarities, the latter is modified classification loss considering the punishment for fake backgrounds as well as confusing categories on a generalized few-shot object detection dataset. Extensive experiments on MS-COCO and PASCAL VOC show that the proposed RISF substantially outperforms the state-of-the-art approaches. The code will be available.
翻訳日:2023-11-02 14:56:19 公開日:2023-11-01
# OpenForest:森林モニタリングにおける機械学習のためのデータカタログ

OpenForest: A data catalogue for machine learning in forest monitoring ( http://arxiv.org/abs/2311.00277v1 )

ライセンス: Link先を確認
Arthur Ouaknine, Teja Kattenborn, Etienne Lalibert\'e, David Rolnick(参考訳) 森林は地球のシステムプロセスにおいて重要な役割を担い、社会と経済の生態系の一連のサービスを提供しているが、人間の活動に大きく影響され、生態系内の均衡が著しく崩壊する。 世界規模での森林モニタリングの進歩は、気候変動の影響とともに、人的影響の緩和と森林構成の理解の強化に利点をもたらす。 統計モデリングは伝統的に森林生物学に応用されてきたが、最近の機械学習とコンピュータビジョンの進歩は、樹種識別、樹冠分割、森林バイオマス評価などのリモートセンシングデータを用いて重要なマイルストーンに達した。 そのため、オープンアクセスデータの重要さは、このようなデータ駆動型アルゴリズムと方法論の強化に不可欠である。 ここでは,86のオープンアクセスフォレストデータセットを包括的かつ広範囲に概観し,目録,地上情報,航空情報,衛星データ,国・世界地図について概観する。 これらのデータセットは、すべての利用可能なオープンアクセスフォレストデータセットを参照しようとするコントリビューションにオープンな動的カタログであるOpenForestにグループ化されている。 さらに,これらのデータセットの文脈において,両領域に固有のトピック,視点,課題の関連性を確立することにより,森林生物学に応用された機械学習の研究を刺激することを目的とする。 大規模森林モニタリングへの機械学習手法の適用を通じて、科学者間のコラボレーションを奨励し、多様なデータセットの共有と探索を促進したいと考えています。 OpenForest はこの url で利用可能である。

Forests play a crucial role in Earth's system processes and provide a suite of social and economic ecosystem services, but are significantly impacted by human activities, leading to a pronounced disruption of the equilibrium within ecosystems. Advancing forest monitoring worldwide offers advantages in mitigating human impacts and enhancing our comprehension of forest composition, alongside the effects of climate change. While statistical modeling has traditionally found applications in forest biology, recent strides in machine learning and computer vision have reached important milestones using remote sensing data, such as tree species identification, tree crown segmentation and forest biomass assessments. For this, the significance of open access data remains essential in enhancing such data-driven algorithms and methodologies. Here, we provide a comprehensive and extensive overview of 86 open access forest datasets across spatial scales, encompassing inventories, ground-based, aerial-based, satellite-based recordings, and country or world maps. These datasets are grouped in OpenForest, a dynamic catalogue open to contributions that strives to reference all available open access forest datasets. Moreover, in the context of these datasets, we aim to inspire research in machine learning applied to forest biology by establishing connections between contemporary topics, perspectives and challenges inherent in both domains. We hope to encourage collaborations among scientists, fostering the sharing and exploration of diverse datasets through the application of machine learning methods for large-scale forest monitoring. OpenForest is available at this url: https://github.com/RolnickLab/OpenForest
翻訳日:2023-11-02 14:55:56 公開日:2023-11-01
# ラベル雑音確率勾配の一般化境界

Generalization Bounds for Label Noise Stochastic Gradient Descent ( http://arxiv.org/abs/2311.00274v1 )

ライセンス: Link先を確認
Jung Eun Huh (1), Patrick Rebeschini (1) ((1) University of Oxford)(参考訳) 均一な解離性と平滑性条件下での非凸条件におけるラベルノイズを伴う確率勾配降下(SGD)の一般化誤差境界を開発する。 半計量の適切な選択の下では、パラメータ次元 $d$ に多項式的に依存するラベルノイズ確率勾配流れのwasserstein距離の縮小を確立する。 アルゴリズム安定性の枠組みを用いて,一定の学習率を持つ離散化アルゴリズムの時間非依存一般化誤差境界を導出する。 私たちが達成したエラーバウンドは、多項式的に$d$と$n^{-2/3}$でスケールし、ここで$n$はサンプルサイズである。 この速度は、同様の条件下でパラメータ非依存のガウス雑音を用いる確率勾配ランゲヴィン力学(SGLD)のために確立された最もよく知られた$n^{-1/2}$よりも優れている。 本分析はラベルノイズの影響を定量的に把握する。

We develop generalization error bounds for stochastic gradient descent (SGD) with label noise in non-convex settings under uniform dissipativity and smoothness conditions. Under a suitable choice of semimetric, we establish a contraction in Wasserstein distance of the label noise stochastic gradient flow that depends polynomially on the parameter dimension $d$. Using the framework of algorithmic stability, we derive time-independent generalisation error bounds for the discretized algorithm with a constant learning rate. The error bound we achieve scales polynomially with $d$ and with the rate of $n^{-2/3}$, where $n$ is the sample size. This rate is better than the best-known rate of $n^{-1/2}$ established for stochastic gradient Langevin dynamics (SGLD) -- which employs parameter-independent Gaussian noise -- under similar conditions. Our analysis offers quantitative insights into the effect of label noise.
翻訳日:2023-11-02 14:55:31 公開日:2023-11-01
# SoulChat:マルチターン共感会話による微調整によるLLMの共感、聞き取り、快適性の向上

SoulChat: Improving LLMs' Empathy, Listening, and Comfort Abilities through Fine-tuning with Multi-turn Empathy Conversations ( http://arxiv.org/abs/2311.00273v1 )

ライセンス: Link先を確認
Yirong Chen, Xiaofen Xing, Jingkai Lin, Huimin Zheng, Zhenyu Wang, Qi Liu, Xiangmin Xu(参考訳) 大規模言語モデル(LLM)は知識と思考の連鎖(CoT)を記憶する優れた能力のため、様々な分野で広く応用されている。 これらの言語モデルが心理学的カウンセリングの分野に適用されるとき、彼らはしばしば普遍的なアドバイスを提供する。 しかし、ユーザーが心理的支援を求めるとき、単に合理的なアドバイスではなく、共感、信頼、理解、快適さを得る必要がある。 この目的のために,200万以上のサンプルからなるマルチターン共感的会話データセットを構築し,その入力はマルチターン会話コンテキストであり,ターゲットは質問,快適性,認識,聴取,信頼,情緒的支援などの表現をカバーする共感的応答である。 複数回対話履歴と心理コンサルタントの表現に近い反応を用いて微調整を行うと,LLMの共感能力が著しく向上することが実験的に示されている。

Large language models (LLMs) have been widely applied in various fields due to their excellent capability for memorizing knowledge and chain of thought (CoT). When these language models are applied in the field of psychological counseling, they often rush to provide universal advice. However, when users seek psychological support, they need to gain empathy, trust, understanding and comfort, rather than just reasonable advice. To this end, we constructed a multi-turn empathetic conversation dataset of more than 2 million samples, in which the input is the multi-turn conversation context, and the target is empathetic responses that cover expressions such as questioning, comfort, recognition, listening, trust, emotional support, etc. Experiments have shown that the empathy ability of LLMs can be significantly enhanced when finetuning by using multi-turn dialogue history and responses that are closer to the expression of a psychological consultant.
翻訳日:2023-11-02 14:55:19 公開日:2023-11-01
# ChatCoder: LLMのコード生成を改善するチャットベースのRefine Requirement

ChatCoder: Chat-based Refine Requirement Improves LLMs' Code Generation ( http://arxiv.org/abs/2311.00272v1 )

ライセンス: Link先を確認
Zejun Wang, Jia Li, Ge Li, Zhi Jin(参考訳) 大規模な言語モデルは、人間の要求を満たすコードを生成する上で優れたパフォーマンスを示している。 しかし、自然言語で表現される人間の要求は曖昧で不完全で曖昧であり、大きな言語モデルが人間の要求を誤解し、間違いを犯す。 さらに悪いことに、人間のユーザーが要求を洗練することは難しい。 人間が要求を洗練し、大規模言語モデルのコード生成性能を向上させるのを助けるために、私たちは、大規模な言語モデルとチャットすることで要求を洗練する方法であるchatcoderを提案します。 私たちは、大きな言語モデルが、より正確で曖昧で完全な要件の表現を、以前よりも洗練させるよう、人間のユーザに指導するチャットスキームを設計します。 実験によると、ChatCoderは既存の大規模言語モデルのパフォーマンスを大幅に改善した。 さらにChatCoderは、人間の反応によって微調整された洗練されたメソッドやLLMよりも優れている。

Large language models have shown good performances in generating code to meet human requirements. However, human requirements expressed in natural languages can be vague, incomplete, and ambiguous, leading large language models to misunderstand human requirements and make mistakes. Worse, it is difficult for a human user to refine the requirement. To help human users refine their requirements and improve large language models' code generation performances, we propose ChatCoder: a method to refine the requirements via chatting with large language models. We design a chat scheme in which the large language models will guide the human users to refine their expression of requirements to be more precise, unambiguous, and complete than before. Experiments show that ChatCoder has improved existing large language models' performance by a large margin. Besides, ChatCoder has the advantage over refine-based methods and LLMs fine-tuned via human response.
翻訳日:2023-11-02 14:55:02 公開日:2023-11-01
# トランスフォーマー言語モデルにおける構文誘導バイアス:低リソース言語に特に役立つか?

Syntactic Inductive Bias in Transformer Language Models: Especially Helpful for Low-Resource Languages? ( http://arxiv.org/abs/2311.00268v1 )

ライセンス: Link先を確認
Luke Gessler, Nathan Schneider(参考訳) BERTのようなトランスフォーマーベースの言語モデルに関する一連の研究は、トレーニングプロセスに構文構造を構築することによって、トレーニングに必要なデータ量を削減できるという理論に基づいて、事前学習プロセスを強化するために構文的帰納バイアスを使用しようと試みている。 しかし、このような手法は英語などの高リソース言語でしばしばテストされる。 本研究では,これらの手法が低リソース言語でデータスパース性を補うことができるかどうかを検討する。 我々はウグル語、ウーロフ語、マルタ語、コプト語、古代ギリシア語の5つの低リソース言語を実験した。 これらの構文的帰納バイアス法は低リソース環境において不均一な結果をもたらし、ほとんどの場合驚くほど少ない利益をもたらす。

A line of work on Transformer-based language models such as BERT has attempted to use syntactic inductive bias to enhance the pretraining process, on the theory that building syntactic structure into the training process should reduce the amount of data needed for training. But such methods are often tested for high-resource languages such as English. In this work, we investigate whether these methods can compensate for data sparseness in low-resource languages, hypothesizing that they ought to be more effective for low-resource languages. We experiment with five low-resource languages: Uyghur, Wolof, Maltese, Coptic, and Ancient Greek. We find that these syntactic inductive bias methods produce uneven results in low-resource settings, and provide surprisingly little benefit in most cases.
翻訳日:2023-11-02 14:54:49 公開日:2023-11-01
# 階層的強化学習による決定変換器の再考

Rethinking Decision Transformer via Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2311.00267v1 )

ライセンス: Link先を確認
Yi Ma, Chenjun Xiao, Hebin Liang, Jianye Hao(参考訳) Decision Transformer (DT) は、強化学習(RL)におけるトランスフォーマーアーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。 しかし、DTの顕著な制限は、データセットからのトラジェクトリのリコールに依存しており、サブ最適トラジェクトリをシームレスに縫合する能力を失うことである。 本稿では,階層型RLのレンズを用いた逐次意思決定のための汎用シーケンスモデリングフレームワークを提案する。 意思決定の際には、まず高レベルポリシーが現在の状態に対する理想的なプロンプトを提案し、その後、低レベルポリシーが与えられたプロンプトに条件付けられたアクションを生成する。 我々は、dtが高水準および低レベルポリシーの特定の選択を伴うこのフレームワークの特別なケースとして出現することを示し、これらの選択の潜在的な失敗について議論する。 これらの観察に触発されて,スタイリング能力を実現するために,ハイレベルと低レベルのポリシを共同で最適化する方法について検討し,新たなオフラインrlアルゴリズムの開発に繋がる。 実験の結果,提案アルゴリズムは複数の制御およびナビゲーションベンチマークにおいてDTを大幅に上回っていることが明らかとなった。 私たちの貢献がrlの分野におけるトランスフォーマーアーキテクチャの統合を刺激できることを願っています。

Decision Transformer (DT) is an innovative algorithm leveraging recent advances of the transformer architecture in reinforcement learning (RL). However, a notable limitation of DT is its reliance on recalling trajectories from datasets, losing the capability to seamlessly stitch sub-optimal trajectories together. In this work we introduce a general sequence modeling framework for studying sequential decision making through the lens of Hierarchical RL. At the time of making decisions, a high-level policy first proposes an ideal prompt for the current state, a low-level policy subsequently generates an action conditioned on the given prompt. We show DT emerges as a special case of this framework with certain choices of high-level and low-level policies, and discuss the potential failure of these choices. Inspired by these observations, we study how to jointly optimize the high-level and low-level policies to enable the stitching ability, which further leads to the development of new offline RL algorithms. Our empirical results clearly show that the proposed algorithms significantly surpass DT on several control and navigation benchmarks. We hope our contributions can inspire the integration of transformer architectures within the field of RL.
翻訳日:2023-11-02 14:54:35 公開日:2023-11-01
# 変分オートエンコーダに基づくフェデレーショントピックモデルとモデルプルーニング

Federated Topic Model and Model Pruning Based on Variational Autoencoder ( http://arxiv.org/abs/2311.00314v1 )

ライセンス: Link先を確認
Chengjie Ma, Yawen Li, Meiyu Liang, Ang Li(参考訳) トピックモデリングは、大量のドキュメントコレクション内のパターンやトピックを発見する貴重なツールとして登場した。 しかし、クロス分析が複数の当事者を巻き込む場合、データのプライバシが重要な問題となる。 この問題に対処するためにフェデレーションされたトピックモデリングが開発され、複数のパーティがpri-vacyを保護しながら、共同でモデルをトレーニングできるようになった。 しかし、sce-nario連合にはコミュニケーションとパフォーマンスの課題がある。 そこで本研究では,各ノードのプライバシを確保しつつ,融合トピックモデルを確立する手法を提案する。また,ニューラルネットワークモデルプルーニングを用いてモデルを高速化し,クライアントが定期的にモデルneu-ron累積勾配とモデル重みをサーバに送信し,サーバがモデルをpruneする。 異なる要求に対処するために、モデルプルーニング率を決定する2つの異なる方法を提案する。 第1の方法は、モデルトレーニングプロセス全体のスロープルーニングであり、モデルトレーニングプロセスに限定的な加速効果を持つが、プルーニングされたモデルがより高い精度を達成することを保証する。 これにより、推論プロセス中のモデル推論時間が大幅に短縮される。 第2の戦略は、モデルの訓練速度を加速するために、モデル訓練の初期段階で目標プルーニング率に迅速に到達し、目標プルーニングレートに達した後、より小さなモデルサイズでモデルをトレーニングし続けることである。 このアプローチはより有用な情報を失うかもしれないが、モデルのトレーニングを早く完了させることができる。 実験の結果,本論文で提案する変分オートエンコーダに基づくフェデレーショントピックモデルプルーニングは,モデルの性能を確保しつつ,モデルのトレーニング速度を大幅に向上させることができる。

Topic modeling has emerged as a valuable tool for discovering patterns and topics within large collections of documents. However, when cross-analysis involves multiple parties, data privacy becomes a critical concern. Federated topic modeling has been developed to address this issue, allowing multiple parties to jointly train models while protecting pri-vacy. However, there are communication and performance challenges in the federated sce-nario. In order to solve the above problems, this paper proposes a method to establish a federated topic model while ensuring the privacy of each node, and use neural network model pruning to accelerate the model, where the client periodically sends the model neu-ron cumulative gradients and model weights to the server, and the server prunes the model. To address different requirements, two different methods are proposed to determine the model pruning rate. The first method involves slow pruning throughout the entire model training process, which has limited acceleration effect on the model training process, but can ensure that the pruned model achieves higher accuracy. This can significantly reduce the model inference time during the inference process. The second strategy is to quickly reach the target pruning rate in the early stage of model training in order to accelerate the model training speed, and then continue to train the model with a smaller model size after reaching the target pruning rate. This approach may lose more useful information but can complete the model training faster. Experimental results show that the federated topic model pruning based on the variational autoencoder proposed in this paper can greatly accelerate the model training speed while ensuring the model's performance.
翻訳日:2023-11-02 14:47:18 公開日:2023-11-01
# 文脈拡張による教師なし語彙単純化

Unsupervised Lexical Simplification with Context Augmentation ( http://arxiv.org/abs/2311.00310v1 )

ライセンス: Link先を確認
Takashi Wada, Timothy Baldwin, Jey Han Lau(参考訳) 本稿では,モノリンガルデータと事前学習言語モデルのみを用いた教師なし語彙単純化手法を提案する。 対象単語とその文脈が与えられた場合、対象コンテキストと単言語データからサンプル化した追加コンテキストに基づいて置換語を生成する。 我々は、tsar-2022共有タスクについて英語、ポルトガル語、スペイン語で実験を行い、我々のモデルが全ての言語で教師なしシステムを大きく上回ることを示した。 我々はまた、GPT-3.5でモデルを組み立てることで、新しい最先端技術を確立する。 最後に, SWORDSの語彙置換データセット上でのモデルの評価を行い, 最先端の結果を得た。

We propose a new unsupervised lexical simplification method that uses only monolingual data and pre-trained language models. Given a target word and its context, our method generates substitutes based on the target context and also additional contexts sampled from monolingual data. We conduct experiments in English, Portuguese, and Spanish on the TSAR-2022 shared task, and show that our model substantially outperforms other unsupervised systems across all languages. We also establish a new state-of-the-art by ensembling our model with GPT-3.5. Lastly, we evaluate our model on the SWORDS lexical substitution data set, achieving a state-of-the-art result.
翻訳日:2023-11-02 14:46:52 公開日:2023-11-01
# 衛星ベース高次元拡張B92と高次元BB84量子鍵分布の解析

Analysis for satellite-based high-dimensional extended B92 and high-dimensional BB84 quantum key distribution ( http://arxiv.org/abs/2311.00309v1 )

ライセンス: Link先を確認
Arindam Dutta, Muskan, Subhashish Banerjee, Anirban Pathak(参考訳) 高次元拡張B92(HD-Ext-B92)と高次元BB84(HD-BB84)プロトコルの衛星ベース実装に関する利点と課題を体系的に分析する。 hd-ext-b92の鍵レートを得るのに先立つ方法を変更し、その後、修正された鍵レート方程式を用いて、脱分極チャネルの寸法およびノイズパラメータに関する鍵レート、鍵レートの確率分布(pdr)、量子ビット誤差率(qber)の変動について検討する。 さらに,d=32次元の極低ノイズを考慮した昼夜の異なる気象条件下でのツェニス角とリンク長の平均キーレート(パーパルス)の変化を楕円ビーム近似を用いて検討した。 大気を適切にモデル化し、平均鍵レートの変動を透過率(PDT)の確率分布で解析することにより、衛星ベースの量子鍵分布リンク(アップリンクとダウンリンクの両方)を作成するためのHD拡張プロトコルの有効性を確立する。 解析の結果,HD-BB84はHD-Ext-B92よりも高い性能を示した。 しかし、HD-BB84は高次元でのQBERの飽和度がより顕著である。

A systematic analysis of the advantages and challenges associated with the satellite-based implementation of the high dimensional extended B92 (HD-Ext-B92) and high-dimensional BB84 (HD-BB84) protocol is analyzed. The method used earlier for obtaining the key rate for the HD-Ext-B92 is modified here and subsequently the variations of the key rate, probability distribution of key rate (PDR), and quantum bit error rate (QBER) with respect to dimension and noise parameter of a depolarizing channel is studied using the modified key rate equation. Further, the variations of average key rate (per pulse) with zenith angle and link length in different weather conditions in day and night considering extremely low noise for dimension d=32 are investigated using elliptic beam approximation. The effectiveness of the HD-(extended) protocols used here in creating satellite-based quantum key distribution links (both up-link and down-link) is established by appropriately modeling the atmosphere and analyzing the variation of average key rates with the probability distribution of the transmittance (PDT). The analysis performed here has revealed that in higher dimensions, HD-BB84 outperforms HD-Ext-B92 in terms of both key rate and noise tolerance. However, HD-BB84 experiences a more pronounced saturation of QBER in high dimensions.
翻訳日:2023-11-02 14:46:42 公開日:2023-11-01
# 画像から言語へ:視覚質問回答(VQA)アプローチ,課題,機会の批判的分析

From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and Opportunities ( http://arxiv.org/abs/2311.00308v1 )

ライセンス: Link先を確認
Md Farhan Ishmam, Md Sakib Hossain Shovon, M.F. Mridha, Nilanjan Dey(参考訳) コンピュータビジョン(cv)と自然言語処理(nlp)の要素を包含する視覚質問応答(vqa)のマルチモーダルタスクは、あらゆる視覚入力で質問に対する回答を生成することを目的としている。 やがて、vqaの範囲は、自然画像の広範なコレクションに焦点を当てたデータセットから、合成画像、ビデオ、3d環境、その他様々な視覚入力を含むデータセットへと拡大した。 大規模事前学習ネットワークの出現は、視覚言語事前学習(VLP)技術に特徴抽出と融合スキームに依存する初期のVQAアプローチに移行した。 しかし、従来のVQAアーキテクチャと現代のVLPベースの手法の両方を包含する包括的調査が欠如している。 さらに、VQAのレンズにおけるVLPの課題は徹底的に検討されておらず、潜在的なオープンな問題が発生する余地を残している。 本研究は,VQA領域におけるVQAデータセットと手法の複雑さを考察し,VQAの側面を分類するための詳細な分類法を導入し,最近の傾向,課題,改善のスコープを明らかにする。 我々はさらにVQAをマルチモーダルな質問応答に一般化し、VQAに関連する課題を探求し、今後の調査に向けた一連のオープンな問題を提示する。 この研究の目的は、初心者と専門家の両方を、研究の潜在的な道筋に光を当て、フィールドの境界を広げることである。

The multimodal task of Visual Question Answering (VQA) encompassing elements of Computer Vision (CV) and Natural Language Processing (NLP), aims to generate answers to questions on any visual input. Over time, the scope of VQA has expanded from datasets focusing on an extensive collection of natural images to datasets featuring synthetic images, video, 3D environments, and various other visual inputs. The emergence of large pre-trained networks has shifted the early VQA approaches relying on feature extraction and fusion schemes to vision language pre-training (VLP) techniques. However, there is a lack of comprehensive surveys that encompass both traditional VQA architectures and contemporary VLP-based methods. Furthermore, the VLP challenges in the lens of VQA haven't been thoroughly explored, leaving room for potential open problems to emerge. Our work presents a survey in the domain of VQA that delves into the intricacies of VQA datasets and methods over the field's history, introduces a detailed taxonomy to categorize the facets of VQA, and highlights the recent trends, challenges, and scopes for improvement. We further generalize VQA to multimodal question answering, explore tasks related to VQA, and present a set of open problems for future investigation. The work aims to navigate both beginners and experts by shedding light on the potential avenues of research and expanding the boundaries of the field.
翻訳日:2023-11-02 14:46:19 公開日:2023-11-01
# LLM条件テキスト生成による明示的・暗黙的ジェンダーバイアスの探索

Probing Explicit and Implicit Gender Bias through LLM Conditional Text Generation ( http://arxiv.org/abs/2311.00306v1 )

ライセンス: Link先を確認
Xiangjue Dong, Yibo Wang, Philip S. Yu, James Caverlee(参考訳) 大規模言語モデル(LLM)はバイアスと有害な応答を生成する。 しかし、LLMのジェンダーバイアス評価に関する多くの先行研究は、包括的に収集することが困難であり、明示的なバイアス評価に限定されている、あらかじめ定義されたジェンダー関連のフレーズやジェンダーステレオタイプを必要とする。 さらに、入力中の性関連言語や明示的なステレオタイプを欠いた例は、LSMにおける性バイアスを引き起こす可能性があると信じている。 そこで本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。 このアプローチでは、3つの異なる戦略によって生成された3種類の入力を用いてLSMを探索し、LSMの明示的および暗黙的な性バイアスの証拠を示す。 また,LSMの性別バイアスを評価するために,明示的・暗黙的な評価指標を用いた。 実験により, モデルサイズが増大すると, 正当性が常に向上することはなく, 検査対象のLDMは, 入力に明示的な性別ステレオタイプが存在しない場合でも, 明示的および/または暗黙的な性別バイアスを示すことがわかった。

Large Language Models (LLMs) can generate biased and toxic responses. Yet most prior work on LLM gender bias evaluation requires predefined gender-related phrases or gender stereotypes, which are challenging to be comprehensively collected and are limited to explicit bias evaluation. In addition, we believe that instances devoid of gender-related language or explicit stereotypes in inputs can still induce gender bias in LLMs. Thus, in this work, we propose a conditional text generation mechanism without the need for predefined gender phrases and stereotypes. This approach employs three types of inputs generated through three distinct strategies to probe LLMs, aiming to show evidence of explicit and implicit gender biases in LLMs. We also utilize explicit and implicit evaluation metrics to evaluate gender bias in LLMs under different strategies. Our experiments demonstrate that an increased model size does not consistently lead to enhanced fairness and all tested LLMs exhibit explicit and/or implicit gender bias, even when explicit gender stereotypes are absent in the inputs.
翻訳日:2023-11-02 14:45:51 公開日:2023-11-01
# ゼロデイ脅威の特徴選択のためのオートエンコーダのスタック化

Stacking an autoencoder for feature selection of zero-day threats ( http://arxiv.org/abs/2311.00304v1 )

ライセンス: Link先を確認
Mahmut Tokmak, and Mike Nkongolo(参考訳) ゼロデイ攻撃の検出は、リスクの軽減、資産の保護、そして進化する脅威の展望に先んじる上で重要な役割を果たす。 本研究では,long short-term memory(lstm)方式を用いた特徴選択とゼロデイ脅威分類のための,人工ニューラルネットワークの一種であるstacked autoencoder(sae)の応用について検討する。 このプロセスでは、UGRansomeデータセットを前処理し、機能抽出のために教師なしのSAEをトレーニングする。 次に、教師付き学習によるファインタニングを行い、このモデルの識別能力を高める。 オートエンコーダの学習重量とアクティベーションを分析し、ゼロデイ脅威と通常のシステム動作を識別する最も重要な特徴を同定する。 これらの選択された特徴は、正確な分類を可能にする縮小特徴集合を形成する。 その結果,SAE-LSTMは高い精度,リコール,F1スコアを呈示し,様々なゼロデイアタックを識別するモデルの強い予測能力を強調することにより,3つの攻撃カテゴリすべてにわたって良好に機能することが示された。 さらに、SAE-LSTMのバランスの取れた平均スコアは、モデルが様々な攻撃カテゴリに対して効果的かつ一貫して一般化することを示唆している。

Zero-day attack detection plays a critical role in mitigating risks, protecting assets, and staying ahead in the evolving threat landscape. This study explores the application of stacked autoencoder (SAE), a type of artificial neural network, for feature selection and zero-day threat classification using a Long Short-Term Memory (LSTM) scheme. The process involves preprocessing the UGRansome dataset and training an unsupervised SAE for feature extraction. Finetuning with supervised learning is then performed to enhance the discriminative capabilities of this model. The learned weights and activations of the autoencoder are analyzed to identify the most important features for discriminating between zero-day threats and normal system behavior. These selected features form a reduced feature set that enables accurate classification. The results indicate that the SAE-LSTM performs well across all three attack categories by showcasing high precision, recall, and F1 score values, emphasizing the model's strong predictive capabilities in identifying various types of zero-day attacks. Additionally, the balanced average scores of the SAE-LSTM suggest that the model generalizes effectively and consistently across different attack categories.
翻訳日:2023-11-02 14:45:30 公開日:2023-11-01
# 超伝導量子プロセッサにおける誤差・不確かさ関係

Error-disturbance uncertainty relations in a superconducting quantum processor ( http://arxiv.org/abs/2311.00303v1 )

ライセンス: Link先を確認
Tingrui Dong, Soyoung Baek, Fumihiro Kaneda, and Keiichi Edamatsu(参考訳) NISQプロセッサ上での超伝導量子ビットの一般化, 可変強度測定において, 誤差分散不確かさ関係(EDR)を実験的に検証した。 主測定に先立って,初期信号状態が実質的に変化しない逐次弱測定を用いることで,ハイゼンベルクedrが破られているが,オザワおよびブランシアルedrは無測定から投影測定まで,測定強度の範囲で有効であることを示す。 我々は,ノイズ量子プロセッサにおいてもユニバーサルedrが有効であることを検証し,nisqプロセッサを用いた計測に基づく量子情報および通信プロトコルの研究を刺激する。

We experimentally test the error-disturbance uncertainty relation (EDR) in generalized, variable strength measurements of superconducting qubits on a NISQ processor. Making use of sequential weak measurements that keeps the initial signal state practically unchanged prior to the main measurement, we demonstrate that the Heisenberg EDR is violated, yet the Ozawa and Branciard EDRs are valid throughout the range of measurement strengths from no measurement to projection measurement. Our results verify that universal EDRs are valid even in a noisy quantum processor and will stimulate research on measurement-based quantum information and communication protocols using a NISQ processor.
翻訳日:2023-11-02 14:45:08 公開日:2023-11-01
# 自己認識モデルによるSyllable-Level発音応力の検出

Detecting Syllable-Level Pronunciation Stress with A Self-Attention Model ( http://arxiv.org/abs/2311.00301v1 )

ライセンス: Link先を確認
Wang Weiying and Nakajima Akinori(参考訳) 効果的な口頭コミュニケーションの前提条件の一つは、特に非母語話者の場合、言葉は明確に発音されるべきである。 単語のストレスが英語の明瞭化と修正の鍵であり、音節のストレスのずれが誤解につながる可能性がある。 したがって、英語話者や学習者にとってストレスレベルを知ることは重要である。 本稿では,話し言葉の音節ごとのストレスレベルを同定する自己注意モデルを提案する。 音節のピッチレベル、強度、持続時間、タイプ、その核(音節の母音)など、様々な韻律的・カテゴリー的特徴を探求する。 これらの特徴は自己注意モデルに入力され、音節レベルのストレスが予測される。 最も単純なモデルは、異なるデータセットで88%と93%の精度を示し、より高度なモデルは高い精度を提供する。 本研究はストレスレベル検出において自己注意モデルが有望であることが示唆された。 これらのモデルは、オンラインミーティングや英語学習など、さまざまなシナリオに適用することができる。

One precondition of effective oral communication is that words should be pronounced clearly, especially for non-native speakers. Word stress is the key to clear and correct English, and misplacement of syllable stress may lead to misunderstandings. Thus, knowing the stress level is important for English speakers and learners. This paper presents a self-attention model to identify the stress level for each syllable of spoken English. Various prosodic and categorical features, including the pitch level, intensity, duration and type of the syllable and its nuclei (the vowel of the syllable), are explored. These features are input to the self-attention model, and syllable-level stresses are predicted. The simplest model yields an accuracy of over 88% and 93% on different datasets, while more advanced models provide higher accuracy. Our study suggests that the self-attention model can be promising in stress-level detection. These models could be applied to various scenarios, such as online meetings and English learning.
翻訳日:2023-11-02 14:44:56 公開日:2023-11-01
# グラフ畳み込みネットワークと情報融合に基づく科学技術特許のエンティティアライメント法

Entity Alignment Method of Science and Technology Patent based on Graph Convolution Network and Information Fusion ( http://arxiv.org/abs/2311.00300v1 )

ライセンス: Link先を確認
Runze Fang, Yawen Li, Yingxia Shao, Zeli Guan, and Zhe Xue(参考訳) 科学と技術特許のエンティティアライメントは、異なる科学と技術特許データソースのナレッジグラフに同等のエンティティをリンクすることを目的としている。 ほとんどのエンティティアライメント手法は、グラフニューラルネットワークを使用してグラフ構造を埋め込み、属性テキスト記述を使用してセマンティック表現を取得し、科学と技術特許における多情報融合のプロセスを無視する。 特許団体の名称、説明及び属性などのグラフィック構造及び補助情報を利用するため、科学技術特許情報融合のためのグラフ畳み込みネットワークに基づくエンティティアライメント手法を提案する。 グラフ畳み込みネットワークとBERTモデルにより、科学技術特許知識グラフの構造情報とエンティティ属性情報を埋め込み、多情報融合を実現するために表現し、エンティティアライメントの性能を向上させる。 3つのベンチマークデータセットの実験により,提案手法のHit@Kが既存手法よりも優れた評価指標であることが示された。

The entity alignment of science and technology patents aims to link the equivalent entities in the knowledge graph of different science and technology patent data sources. Most entity alignment methods only use graph neural network to obtain the embedding of graph structure or use attribute text description to obtain semantic representation, ignoring the process of multi-information fusion in science and technology patents. In order to make use of the graphic structure and auxiliary information such as the name, description and attribute of the patent entity, this paper proposes an entity alignment method based on the graph convolution network for science and technology patent information fusion. Through the graph convolution network and BERT model, the structure information and entity attribute information of the science and technology patent knowledge graph are embedded and represented to achieve multi-information fusion, thus improving the performance of entity alignment. Experiments on three benchmark data sets show that the proposed method Hit@K The evaluation indicators are better than the existing methods.
翻訳日:2023-11-02 14:44:41 公開日:2023-11-01
# テキスト・ビデオ検索のためのフレーム選択に関する実証的研究

An Empirical Study of Frame Selection for Text-to-Video Retrieval ( http://arxiv.org/abs/2311.00298v1 )

ライセンス: Link先を確認
Mengxia Wu, Min Cao, Yang Bai, Ziyin Zeng, Chen Chen, Liqiang Nie, Min Zhang(参考訳) テキスト・ツー・ビデオ検索(TVR)は、クエリーテキストが与えられた大きなビデオギャラリーで最も関連性の高いビデオを見つけることを目的としている。 ビデオの複雑で豊富なコンテキストは、TVRの性能と効率に挑戦する。 シリアライズされたビデオコンテキストを扱うために、既存の方法は典型的にビデオ内のフレームのサブセットを選択し、TVRのビデオコンテンツを表す。 選択したフレームは,映像の意味情報を保持するだけでなく,時間的に冗長なフレームを除外して検索効率を向上させる必要がある。 本稿では,TVRにおけるフレーム選択の実証的研究を行う。 本研究では,既存のフレーム選択手法をテキストフリーとテキスト誘導に分類し,有効性と効率の観点から6種類のフレーム選択を詳細に解析する。 本論文では,まず2つのフレーム選択について述べる。 複数のTVRベンチマークの総合的な分析から、適切なフレーム選択を行うTVRは、検索性能を犠牲にすることなく、検索効率を大幅に向上させることができると実証的に結論付けている。

Text-to-video retrieval (TVR) aims to find the most relevant video in a large video gallery given a query text. The intricate and abundant context of the video challenges the performance and efficiency of TVR. To handle the serialized video contexts, existing methods typically select a subset of frames within a video to represent the video content for TVR. How to select the most representative frames is a crucial issue, whereby the selected frames are required to not only retain the semantic information of the video but also promote retrieval efficiency by excluding temporally redundant frames. In this paper, we make the first empirical study of frame selection for TVR. We systemically classify existing frame selection methods into text-free and text-guided ones, under which we detailedly analyze six different frame selections in terms of effectiveness and efficiency. Among them, two frame selections are first developed in this paper. According to the comprehensive analysis on multiple TVR benchmarks, we empirically conclude that the TVR with proper frame selections can significantly improve the retrieval efficiency without sacrificing the retrieval performance.
翻訳日:2023-11-02 14:44:24 公開日:2023-11-01
# 適応特徴量とグラフニューラルネットワークを用いた科学文献の意味表現学習

Semantic Representation Learning of Scientific Literature based on Adaptive Feature and Graph Neural Network ( http://arxiv.org/abs/2311.00296v1 )

ライセンス: Link先を確認
Hongrui Gao, Yawen Li, Meiyu Liang, Zeli Guan, and Zhe Xue(参考訳) 科学文献データの多くは無記名であるため、教師なしグラフに基づく意味表現学習が重要となる。 同時に,科学文献の特徴を豊かにするために,適応的特徴とグラフニューラルネットワークに基づく科学文献の意味表現の学習手法を提案する。 適応特徴法を導入することで,科学文献の特徴をグローバルかつ局所的に考えることができる。 グラフ注意機構は、科学文献の特徴を引用関係で要約し、各科学文献に異なる特徴重みを与え、異なる科学文献の特徴間の相関をよりよく表現するために用いられる。 さらに,教師なしグラフニューラルネットワーク意味表現学習手法を提案する。 グラフニューラルネットワークは、科学文献の正および負の局所意味表現とポテンシャル空間におけるグローバルグラフ意味表現との相互情報を比較することにより、局所およびグローバル情報をキャプチャし、科学文献の意味表現の学習能力を向上させることができる。 実験の結果,適応的特徴とグラフニューラルネットワークに基づく科学的文献の意味表現の学習手法が,科学的文献分類に基づいて競争力を発揮し,良好な結果を得た。

Because most of the scientific literature data is unmarked, it makes semantic representation learning based on unsupervised graph become crucial. At the same time, in order to enrich the features of scientific literature, a learning method of semantic representation of scientific literature based on adaptive features and graph neural network is proposed. By introducing the adaptive feature method, the features of scientific literature are considered globally and locally. The graph attention mechanism is used to sum the features of scientific literature with citation relationship, and give each scientific literature different feature weights, so as to better express the correlation between the features of different scientific literature. In addition, an unsupervised graph neural network semantic representation learning method is proposed. By comparing the mutual information between the positive and negative local semantic representation of scientific literature and the global graph semantic representation in the potential space, the graph neural network can capture the local and global information, thus improving the learning ability of the semantic representation of scientific literature. The experimental results show that the proposed learning method of semantic representation of scientific literature based on adaptive feature and graph neural network is competitive on the basis of scientific literature classification, and has achieved good results.
翻訳日:2023-11-02 14:44:06 公開日:2023-11-01
# IBADR: NLUモデルのデバイアス化のための反復バイアス対応データセットリファインメントフレームワーク

IBADR: an Iterative Bias-Aware Dataset Refinement Framework for Debiasing NLU models ( http://arxiv.org/abs/2311.00292v1 )

ライセンス: Link先を確認
Xiaoyue Wang, Xin Liu, Lijie Wang, Yaoxiang Wang, Jinsong Su and Hua Wu(参考訳) 自然言語理解(nlu)モデルをデバイアスする一般的な手法として、データセットのリファインメントアプローチは手動のデータ解析に大きく依存しており、潜在的なバイアスのある機能をすべてカバーできない可能性がある。 本稿では,バイアスのある特徴を事前に定義することなくnluモデルをデバイザリングする反復バイアス対応データセットリファインメントフレームワークであるibdrを提案する。 反復的に拡張されたサンプルプールを維持します。 具体的には、各イテレーションでまず浅いモデルをトレーニングし、プール内のサンプルのバイアス度を定量化します。 次に、各サンプルをバイアス度を表すバイアスインジケータとペアリングし、これらの拡張サンプルを使用してサンプルジェネレータをトレーニングします。 このようにして、バイアス指標とサンプルの対応関係を効果的に学習することができる。 さらに, 特定のバイアス指標を入力することにより, バイアスの少ない擬似サンプルを生成する。 最後に、生成された擬似サンプルをプールに組み込む。 2つのnluタスクの実験結果と詳細な分析により、ibdrは既存のデータセットのリファインメントアプローチを大きく上回るだけでなく、モデル中心の手法とも互換性があることが示された。

As commonly-used methods for debiasing natural language understanding (NLU) models, dataset refinement approaches heavily rely on manual data analysis, and thus maybe unable to cover all the potential biased features. In this paper, we propose IBADR, an Iterative Bias-Aware Dataset Refinement framework, which debiases NLU models without predefining biased features. We maintain an iteratively expanded sample pool. Specifically, at each iteration, we first train a shallow model to quantify the bias degree of samples in the pool. Then, we pair each sample with a bias indicator representing its bias degree, and use these extended samples to train a sample generator. In this way, this generator can effectively learn the correspondence relationship between bias indicators and samples. Furthermore, we employ the generator to produce pseudo samples with fewer biased features by feeding specific bias indicators. Finally, we incorporate the generated pseudo samples into the pool. Experimental results and in-depth analyses on two NLU tasks show that IBADR not only significantly outperforms existing dataset refinement approaches, achieving SOTA, but also is compatible with model-centric methods.
翻訳日:2023-11-02 14:43:46 公開日:2023-11-01
# 赤外・可視画像融合のためのグラフ表現学習

Graph Representation Learning for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2311.00291v1 )

ライセンス: Link先を確認
Jing Li, Lu Bai, Bin Yang, Chang Li, Lingfei Ma, and Edwin R. Hancock(参考訳) 赤外線および可視画像融合は、1つの融合画像を合成するために相補的な特徴を抽出することを目的としている。 多くの手法は畳み込みニューラルネットワーク(CNN)を用いて、翻訳不変性と局所性に起因する局所的特徴を抽出する。 しかし、CNNは画像の非局所的な自己相似性(NLss)を考慮することができず、操作をプールすることで受容領域を拡張することができるが、必然的に情報損失につながる。 さらに、変換器構造は、すべての画像パッチ間の相関性を考慮して長距離依存を抽出し、このような変換器方式の情報冗長性をもたらす。 しかしながら、グラフ表現は不規則なオブジェクトに対処するためにグリッド(cnn)やシーケンス(トランスフォーマー構造)表現よりも柔軟であり、グラフは空間的に再現可能な詳細や遠距離のテクスチャの関係も構築できる。 したがって、上記の問題に対処するためには、画像をグラフ空間に変換して、グラフ畳み込みネットワーク(GCN)を用いてNLを抽出することが重要である。 これは、グラフが冗長な情報を導入することなく、特徴を集約し、最寄りの頂点を横断する情報を伝達する詳細な構造を提供することができるためである。 具体的には、画像内および画像間距離の異なる画素間の相互作用を探索することにより、画像内および画像間距離のNLを抽出するカスケードNLss抽出パターンを実装した。 我々は,各モダルにGCNをプリフォームし,特徴を集約し,情報を伝達し,独立したモダル内NLを抽出することで開始する。 次に、GCNを赤外線および可視画像の連結したモード内NLs特性上で実行し、モダル間のクロスドメインNLsを探索して融合画像を再構成する。 アブレーション研究と広範囲な実験により、3つのデータセットに対する提案手法の有効性と優位性を示す。

Infrared and visible image fusion aims to extract complementary features to synthesize a single fused image. Many methods employ convolutional neural networks (CNNs) to extract local features due to its translation invariance and locality. However, CNNs fail to consider the image's non-local self-similarity (NLss), though it can expand the receptive field by pooling operations, it still inevitably leads to information loss. In addition, the transformer structure extracts long-range dependence by considering the correlativity among all image patches, leading to information redundancy of such transformer-based methods. However, graph representation is more flexible than grid (CNN) or sequence (transformer structure) representation to address irregular objects, and graph can also construct the relationships among the spatially repeatable details or texture with far-space distance. Therefore, to address the above issues, it is significant to convert images into the graph space and thus adopt graph convolutional networks (GCNs) to extract NLss. This is because the graph can provide a fine structure to aggregate features and propagate information across the nearest vertices without introducing redundant information. Concretely, we implement a cascaded NLss extraction pattern to extract NLss of intra- and inter-modal by exploring interactions of different image pixels in intra- and inter-image positional distance. We commence by preforming GCNs on each intra-modal to aggregate features and propagate information to extract independent intra-modal NLss. Then, GCNs are performed on the concatenate intra-modal NLss features of infrared and visible images, which can explore the cross-domain NLss of inter-modal to reconstruct the fused image. Ablation studies and extensive experiments illustrates the effectiveness and superiority of the proposed method on three datasets.
翻訳日:2023-11-02 14:43:25 公開日:2023-11-01
# CO2フローパターンの推測-実現可能性研究

Inference of CO2 flow patterns -- a feasibility study ( http://arxiv.org/abs/2311.00290v1 )

ライセンス: Link先を確認
Abhinav Prakash Gahlot and Huseyin Tuna Erdinc and Rafael Orozco and Ziyi Yin and Felix J. Herrmann(参考訳) 気候変動との戦いにおいて、炭素捕獲・隔離技術(CCS)のグローバル展開が増大するにつれて、特に貯水池のシールの既存または誘導された欠陥によって、地下のCO2漏れの堅牢なモニタリングと検出機構を確立することがますます重要になっている。 履歴マッチングやCO2貯蔵の時間ラプス地震モニタリングといった手法は、地下のCO2プラムの進化の追跡に成功しているが、これらの手法はCO2プラムの挙動に関する不確実性を特徴付けるための原則的なアプローチを欠いている。 リスク軽減には,不確実性の体系的評価を含めることが必要である。 (i)CO2配管による変化は小さく、地震データもノイズが多い。 (ii)規則的及び不規則的(例えばリークによる)フローパターンの変化は小さい。 (iii)流動を制御する貯留層特性は強く異質であり、分布としてのみ使用可能である。 正常および不規則な流れの流動パターンを井戸および地震データから推定できる定式化に着くためには, 一連の慎重に設計された数値実験で条件付き正規化流の性能を解析する。 また, 初期のCO2漏れ検出システムでは, 予測は予備的だが, 条件付き正規化流による推定は, 漏れの有無にかかわらずCO2配管の高忠実度推定を導出できることが示唆された。 また、推定不確実性は観測された誤差と相関するので妥当であると確信している。 この不確実性は、地震データのノイズと貯水池の流動特性に関する正確な知識の欠如に起因する。

As the global deployment of carbon capture and sequestration (CCS) technology intensifies in the fight against climate change, it becomes increasingly imperative to establish robust monitoring and detection mechanisms for potential underground CO2 leakage, particularly through pre-existing or induced faults in the storage reservoir's seals. While techniques such as history matching and time-lapse seismic monitoring of CO2 storage have been used successfully in tracking the evolution of CO2 plumes in the subsurface, these methods lack principled approaches to characterize uncertainties related to the CO2 plumes' behavior. Inclusion of systematic assessment of uncertainties is essential for risk mitigation for the following reasons: (i) CO2 plume-induced changes are small and seismic data is noisy; (ii) changes between regular and irregular (e.g., caused by leakage) flow patterns are small; and (iii) the reservoir properties that control the flow are strongly heterogeneous and typically only available as distributions. To arrive at a formulation capable of inferring flow patterns for regular and irregular flow from well and seismic data, the performance of conditional normalizing flow will be analyzed on a series of carefully designed numerical experiments. While the inferences presented are preliminary in the context of an early CO2 leakage detection system, the results do indicate that inferences with conditional normalizing flows can produce high-fidelity estimates for CO2 plumes with or without leakage. We are also confident that the inferred uncertainty is reasonable because it correlates well with the observed errors. This uncertainty stems from noise in the seismic data and from the lack of precise knowledge of the reservoir's fluid flow properties.
翻訳日:2023-11-02 14:42:52 公開日:2023-11-01
# 部分差分プライバシによる逆ロバスト分散カウントトラッキング

Adversarially Robust Distributed Count Tracking via Partial Differential Privacy ( http://arxiv.org/abs/2311.00346v1 )

ライセンス: Link先を確認
Zhongzheng Xiong, Xiaoyi Zhu, Zengfeng Huang(参考訳) 分散機能監視(distributed functional monitoring)とも呼ばれる分散追跡モデルについて検討する。 このモデルは、各アイテムのストリームを受信し、中央サーバと通信する$k$サイトを含む。 サーバのタスクは、これまで受け取った全てのアイテムの機能を最小限の通信コストで追跡することである。 カウントトラッキングでは、決定論的アルゴリズムとランダム化アルゴリズムの間の通信に$\sqrt{k}$ギャップがあることが知られている。 しかし、既存のランダム化アルゴリズムは、アルゴリズムの開始前に入力ストリーム全体を構築する「未知の敵」を仮定する。 ここでは,アルゴリズムのこれまでの回答に基づいて新しい項目を選択できる適応的敵を考える。 決定論的アルゴリズムは適応的な敵に対して自明に堅牢であるが、ランダム化されたアルゴリズムはそうでないかもしれない。 そこで,ランダム化アルゴリズムの$\sqrt{k}$の利点が,ランダム性そのものか,あるいは不明瞭な敵意の仮定かを検討する。 最適な通信を行う頑健なアルゴリズムを提供することにより,この問題に対する肯定的な回答を提供する。 既存のロバスト化技術は、問題の分散した性質の固有の課題のために最適な境界を導き出さない。 そこで我々は,「偏微分プライバシー」を導入し,新たな一般化定理を証明し,差分プライバシーの枠組みを拡張した。 この定理は、ロバストなカウントトラッキングを超えた幅広い応用が可能であり、独立した関心を持つ。

We study the distributed tracking model, also known as distributed functional monitoring. This model involves $k$ sites each receiving a stream of items and communicating with the central server. The server's task is to track a function of all items received thus far continuously, with minimum communication cost. For count tracking, it is known that there is a $\sqrt{k}$ gap in communication between deterministic and randomized algorithms. However, existing randomized algorithms assume an "oblivious adversary" who constructs the entire input streams before the algorithm starts. Here we consider adaptive adversaries who can choose new items based on previous answers from the algorithm. Deterministic algorithms are trivially robust to adaptive adversaries, while randomized ones may not. Therefore, we investigate whether the $\sqrt{k}$ advantage of randomized algorithms is from randomness itself or the oblivious adversary assumption. We provide an affirmative answer to this question by giving a robust algorithm with optimal communication. Existing robustification techniques do not yield optimal bounds due to the inherent challenges of the distributed nature of the problem. To address this, we extend the differential privacy framework by introducing "partial differential privacy" and proving a new generalization theorem. This theorem may have broader applications beyond robust count tracking, making it of independent interest.
翻訳日:2023-11-02 14:35:52 公開日:2023-11-01
# トリアード会話におけるニューロタイプと自閉症者の頭部方向の分析

Analyzing Head Orientation of Neurotypical and Autistic Individuals in Triadic Conversations ( http://arxiv.org/abs/2311.00343v1 )

ライセンス: Link先を確認
Onur N. Tepencelik, Wenchuan Wei, Pamela C. Cosman, Sujit Dey(参考訳) 2つのLiDARセンサの低解像度点雲データを用いて人の身体と頭部の向きを推定するシステムを提案する。 我々のモデルは、被験者が自然に頭と体のポーズを変えて動く現実世界の会話設定で正確な推定を行う。 身体配向推定モデルは楕円フィッティングを使用し、頭部配向推定モデルは幾何学的特徴抽出とニューラルネットワーク回帰器のアンサンブルからなるパイプラインである。 提案システムは,RGBカメラを用いた他の身体・頭部方向推定システムと比較して,ユーザのプライバシーを守るためにLiDARセンサを用いたが,精度は同等である。 他の身体/頭部方向推定システムとは異なり、センサは被験者の前に特定の配置を必要としない。 本モデルでは, 平均絶対誤差は体向き5.2度, 頭部向き13.7度である。 我々は,三進的会話における神経型と自閉症者の行動差を定量化するために,モデルを用いた。 重要度テストでは、自閉症スペクトラム障害の患者は、会話中の参加者間の注意を分散させるという点で、神経定型的な個人と比較して、かなり異なる行動を示すことが示され、このアプローチは行動分析やコーチングシステムの構成要素である可能性が示唆されている。

We propose a system that estimates people's body and head orientations using low-resolution point cloud data from two LiDAR sensors. Our models make accurate estimations in real-world conversation settings where the subject moves naturally with varying head and body poses. The body orientation estimation model uses ellipse fitting while the head orientation estimation model is a pipeline of geometric feature extraction and an ensemble of neural network regressors. Compared with other body and head orientation estimation systems using RGB cameras, our proposed system uses LiDAR sensors to preserve user privacy, while achieving comparable accuracy. Unlike other body/head orientation estimation systems, our sensors do not require a specified placement in front of the subject. Our models achieve a mean absolute estimation error of 5.2 degrees for body orientation and 13.7 degrees for head orientation. We use our models to quantify behavioral differences between neurotypical and autistic individuals in triadic conversations. Tests of significance show that people with autism spectrum disorder display significantly different behavior compared to neurotypical individuals in terms of distributing attention between participants in a conversation, suggesting that the approach could be a component of a behavioral analysis or coaching system.
翻訳日:2023-11-02 14:35:29 公開日:2023-11-01
# fMRI-PTE:多目的脳活動復号のための大規模fMRIプリトレーニング変換器

fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for Multi-Subject Brain Activity Decoding ( http://arxiv.org/abs/2311.00342v1 )

ライセンス: Link先を確認
Xuelin Qian, Yun Wang, Jingyang Huo, Jianfeng Feng, Yanwei Fu(参考訳) 脳活動の探索とfMRIデータからの復号は、脳-コンピュータインターフェース、医療診断、バーチャルリアリティーにおける潜在的な応用によって、長年にわたって追求されてきた。 従来のアプローチは、主に個別の主題分析に焦点を当てており、より普遍的で適応可能なフレームワークの必要性を強調しています。 本研究では,fMRIプリトレーニングのための革新的オートエンコーダアプローチであるfMRI-PTEを提案する。 我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の一貫性を確保し、異なる脳活動パターンを保存する。 2次元fmri画像の事前学習のための新しい学習戦略を導入し,再構成の質を高める。 fMRI-PTEのイメージジェネレータへの適応性は、よく表現されたfMRI機能の生成を可能にし、インテリアオブジェクトやクロスオブジェクトの脳活動デコーディングを含む、さまざまな下流タスクを容易にする。 コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。 広範な実験が我々の主張を検証し、支持し、この領域におけるさらなる研究のための有望な基盤を提供する。

The exploration of brain activity and its decoding from fMRI data has been a longstanding pursuit, driven by its potential applications in brain-computer interfaces, medical diagnostics, and virtual reality. Previous approaches have primarily focused on individual subject analysis, highlighting the need for a more universal and adaptable framework, which is the core motivation behind our work. In this work, we propose fMRI-PTE, an innovative auto-encoder approach for fMRI pre-training, with a focus on addressing the challenges of varying fMRI data dimensions due to individual brain differences. Our approach involves transforming fMRI signals into unified 2D representations, ensuring consistency in dimensions and preserving distinct brain activity patterns. We introduce a novel learning strategy tailored for pre-training 2D fMRI images, enhancing the quality of reconstruction. fMRI-PTE's adaptability with image generators enables the generation of well-represented fMRI features, facilitating various downstream tasks, including within-subject and cross-subject brain activity decoding. Our contributions encompass introducing fMRI-PTE, innovative data transformation, efficient training, a novel learning strategy, and the universal applicability of our approach. Extensive experiments validate and support our claims, offering a promising foundation for further research in this domain.
翻訳日:2023-11-02 14:35:05 公開日:2023-11-01
# DAC 2023のオープンデータセットと直接空気捕獲における大気汚染発見への挑戦

The Open DAC 2023 Dataset and Challenges for Sorbent Discovery in Direct Air Capture ( http://arxiv.org/abs/2311.00341v1 )

ライセンス: Link先を確認
Anuroop Sriram, Sihoon Choi, Xiaohan Yu, Logan M. Brabson, Abhishek Das, Zachary Ulissi, Matt Uyttendaele, Andrew J. Medford, and David S. Sholl(参考訳) 地球温暖化対策には二酸化炭素の除去方法が急務である。 直接空気捕捉(DAC)は、環境空気から直接二酸化炭素を捕捉する技術である。 金属-有機系フレームワーク(mofs)はdacのカスタマイズ可能な吸着剤として広く研究されている。 しかし, DAC用MOF吸着剤の発見は, 膨大な化学資源の探索と, 物質を湿度や温度の関数として理解する必要があるため, 困難である。 機械学習(ML)の最近の革新の恩恵を受け,吸着CO2およびH2Oを含む8800 MOF材料上の38M以上の密度汎関数理論(DFT)計算からなるデータセットであるOpen DAC 2023(ODAC23)を提案する。 ODAC23は、現在利用可能なDFTレベルの精度でMOF吸着計算の最大のデータセットである。 吸着分子の性質の探索に加えて、このデータセットはMOFの構造緩和に関する情報の豊富な情報源であり、DACの特定の応用を超える多くの文脈で有用である。 DACに期待できる特性を持つ多数のMOFがODAC23で直接識別される。 また、このデータセット上で最先端のMLモデルをトレーニングし、DFTレベルでの計算を近似した。 このオープンソースデータセットと私たちの初期のMLモデルは、DACを含む幅広いアプリケーションのためのMOFを特定するための今後の取り組みに重要なベースラインを提供するでしょう。

New methods for carbon dioxide removal are urgently needed to combat global climate change. Direct air capture (DAC) is an emerging technology to capture carbon dioxide directly from ambient air. Metal-organic frameworks (MOFs) have been widely studied as potentially customizable adsorbents for DAC. However, discovering promising MOF sorbents for DAC is challenging because of the vast chemical space to explore and the need to understand materials as functions of humidity and temperature. We explore a computational approach benefiting from recent innovations in machine learning (ML) and present a dataset named Open DAC 2023 (ODAC23) consisting of more than 38M density functional theory (DFT) calculations on more than 8,800 MOF materials containing adsorbed CO2 and/or H2O. ODAC23 is by far the largest dataset of MOF adsorption calculations at the DFT level of accuracy currently available. In addition to probing properties of adsorbed molecules, the dataset is a rich source of information on structural relaxation of MOFs, which will be useful in many contexts beyond specific applications for DAC. A large number of MOFs with promising properties for DAC are identified directly in ODAC23. We also trained state-of-the-art ML models on this dataset to approximate calculations at the DFT level. This open-source dataset and our initial ML models will provide an important baseline for future efforts to identify MOFs for a wide range of applications, including DAC.
翻訳日:2023-11-02 14:34:41 公開日:2023-11-01
# 空間物語:深層学習を用いたテキストから中国庭園の画像と3次元シーンを生成する

Space Narrative: Generating Images and 3D Scenes of Chinese Garden from Text using Deep Learning ( http://arxiv.org/abs/2311.00339v1 )

ライセンス: Link先を確認
Jiaxi Shi1 and Hao Hua1(参考訳) 詩から絵画への一貫したマッピングは、伝統的な中国庭園の研究と修復に不可欠である。 しかし、手動のメイテリアルの欠如は、再建作業にとって大きな課題である。 本稿では,深層学習法を用いて,テキスト記述に基づく庭園画を生成する手法を提案する。 画像とテキストのペアデータセットは,千点以上の明代庭園の絵画とその碑文と後記からなる。 潜在テキストから画像への拡散モデルは、明王朝の庭園画への記述を学習し、その後、自昌庭園のテキスト記述がモデルをガイドし、新たな庭園画を生成する。 ガイドテキストと生成された画像とのコサイン類似性は、生成された画像の評価基準である。 本稿では,Low-Rank Adapta-tion of Large Language Models (LoRA)を用いて,事前学習した拡散モデルの微調整を行う。 生成した画像をパノラマに変換し、unity 3dでフリーロームシーンを作成しました。 戦後のモデルでは,文献的記述に基づき,明の風景画風の庭園画像を生成することができる。 生成した画像はUnity 3Dの3次元表示と互換性がある。

The consistent mapping from poems to paintings is essential for the research and restoration of traditional Chinese gardens. But the lack of firsthand ma-terial is a great challenge to the reconstruction work. In this paper, we pro-pose a method to generate garden paintings based on text descriptions using deep learning method. Our image-text pair dataset consists of more than one thousand Ming Dynasty Garden paintings and their inscriptions and post-scripts. A latent text-to-image diffusion model learns the mapping from de-scriptive texts to garden paintings of the Ming Dynasty, and then the text description of Jichang Garden guides the model to generate new garden paintings. The cosine similarity between the guide text and the generated image is the evaluation criterion for the generated images. Our dataset is used to fine-tune the pre-trained diffusion model using Low-Rank Adapta-tion of Large Language Models (LoRA). We also transformed the generated images into a panorama and created a free-roam scene in Unity 3D. Our post-trained model is capable of generating garden images in the style of Ming Dynasty landscape paintings based on textual descriptions. The gener-ated images are compatible with three-dimensional presentation in Unity 3D.
翻訳日:2023-11-02 14:34:01 公開日:2023-11-01
# 周波数領域におけるNOON状態干渉

NOON-state interference in the frequency domain ( http://arxiv.org/abs/2311.00338v1 )

ライセンス: Link先を確認
Dongjin Lee, Woncheol Shin, Heedeuk Shin(参考訳) 様々な自由度にわたる絡み合いの検証は、基礎物理学の理解を深め、高次元の量子状態にまで拡張し、量子技術のスケーラビリティを約束する上で重要である。 本稿では,単一光子周波数を50%の確率で別の周波数に変換する周波数ビームスプリッタをブラッグ散乱4波混合を用いて実装し,周波数領域における光子数経路の絡み合いを実証する。 単一モードファイバ内の2光子NOON状態は周波数領域で発生し、単光子干渉と比較して2光子干渉が2倍の高分解能で示され、干渉計の優れた安定性を示す。 この周波数領域での量子状態の翻訳の成功は、興味深い量子現象の発見とスケーラブルな量子情報処理への道を開くだろう。

The examination of entanglement across various degrees of freedom has been pivotal in augmenting our understanding of fundamental physics, extending to high dimensional quantum states, and promising the scalability of quantum technologies. In this paper, we demonstrate the photon-number path entanglement in the frequency domain by implementing a frequency beam splitter that converts the single-photon frequency to another with 50% probability using Bragg scattering four-wave mixing. The two-photon NOON state in a single-mode fiber is generated in the frequency domain, manifesting the two-photon interference with two-fold enhanced resolution compared to that of single-photon interference, showing the outstanding stability of the interferometer. This successful translation of quantum states in the frequency domain will pave the way toward the discovery of fascinating quantum phenomena and scalable quantum information processing.
翻訳日:2023-11-02 14:33:26 公開日:2023-11-01
# MetisFL: スケーラブルで効率的なフェデレーション学習ワークフローのための恥ずかしいほど並列化されたコントローラ

MetisFL: An Embarrassingly Parallelized Controller for Scalable & Efficient Federated Learning Workflows ( http://arxiv.org/abs/2311.00334v1 )

ライセンス: Link先を確認
Dimitris Stripelis, Chrysovalantis Anastasiou, Patrick Toral, Armaghan Asghar, Jose Luis Ambite(参考訳) FL(Federated Learning)システムは通常、フェデレーションコントローラと学習者という2つのコア処理エンティティで構成される。 コントローラは、学習者と学習者間のflワークフローの実行を管理し、プライベートデータセット上の連合モデルのトレーニングと評価を行う。 flワークフローの実行中、flシステムは、参加する学習者の計算リソースやデータの制御を行なわない。 それでも、モデル集約、タスクのディスパッチ、スケジューリングなど、他のオペレーションにも責任がある。 これらの計算量の多い操作は一般にフェデレーションコントローラによって処理される必要がある。 flワークフローの開発を容易にするために、多くのflシステムが最近提案されているが、これらのシステムのほとんどはコントローラのスケーラビリティを見落としている。 このニーズに応えるために,フェデレーションコントローラが第一級市民であるMetisFLと呼ばれる新しいFLシステムを設計・開発した。 metisflは、フェデレーションコントローラが行うすべての操作を再設計し、大規模なflワークフローのトレーニングを加速する。 metisflを最先端のflシステムと定量的に比較することにより,モデルサイズやフェデレーションサイトの増加とともに,幅広いflワークフローにまたがって,metisflが10倍のウォールクロック時間実行促進につながることを実証した。

A Federated Learning (FL) system typically consists of two core processing entities: the federation controller and the learners. The controller is responsible for managing the execution of FL workflows across learners and the learners for training and evaluating federated models over their private datasets. While executing an FL workflow, the FL system has no control over the computational resources or data of the participating learners. Still, it is responsible for other operations, such as model aggregation, task dispatching, and scheduling. These computationally heavy operations generally need to be handled by the federation controller. Even though many FL systems have been recently proposed to facilitate the development of FL workflows, most of these systems overlook the scalability of the controller. To meet this need, we designed and developed a novel FL system called MetisFL, where the federation controller is the first-class citizen. MetisFL re-engineers all the operations conducted by the federation controller to accelerate the training of large-scale FL workflows. By quantitatively comparing MetisFL against other state-of-the-art FL systems, we empirically demonstrate that MetisFL leads to a 10-fold wall-clock time execution boost across a wide range of challenging FL workflows with increasing model sizes and federation sites.
翻訳日:2023-11-02 14:33:03 公開日:2023-11-01
# SDF4CHD : 先天性心不全を伴う心臓解剖の創成モデル

SDF4CHD: Generative Modeling of Cardiac Anatomies with Congenital Heart Defects ( http://arxiv.org/abs/2311.00332v1 )

ライセンス: Link先を確認
Fanwei Kong and Sascha Stocker and Perry S. Choi and Michael Ma and Daniel B. Ennis and Alison Marsden(参考訳) 先天性心疾患(CHD)は、心臓血管構造異常のスペクトルを含み、個々の患者に対してカスタマイズされた治療計画を必要とすることが多い。 これらのユニークな心臓解剖の計算モデリングと分析は、診断と治療計画を改善し、最終的には改善する可能性がある。 深層学習 (DL) 法は, 正常心疾患患者の心臓分割とメッシュ構築を自動化し, 効率的な治療計画を可能にする可能性を実証している。 しかし、CHDは稀であり、そのようなDLモデルの訓練に十分な量の患者コホートを取得することは困難である。 心臓解剖の生成的モデリングは、仮想コホートの生成によってこのギャップを埋める可能性があるが、従来のアプローチは主に正常な解剖学のために設計されており、CHD患者で見られる重要なトポロジ的変化を容易に捉えることはできない。 そこで本研究では, 異なるchd型で観察される広いスペクトルの心臓解剖を捉え, 特定のchd型に対して特異なトポロジーを保った異なる形状の心臓解剖を合成する。 DLアプローチは,CHD型診断に基づく署名付き距離場(SDF)を用いて暗黙的にCHD型特異的異常を呈し,異なるタイプの解剖学的変動を簡便に捉え,有意な中間的CHD状態を示す。 形状特異的な変形を捉えるために, 可逆的変形を学習し, 学習したchd型特異的解剖を変形し, 患者特異的な形状を再構築する。 本手法は, 心筋セグメンテーションのための希少なCHDタイプの画像分割ペアを増強し, 計算シミュレーションのためのCHD心筋メッシュのコホートを生成する可能性を秘めている。

Congenital heart disease (CHD) encompasses a spectrum of cardiovascular structural abnormalities, often requiring customized treatment plans for individual patients. Computational modeling and analysis of these unique cardiac anatomies can improve diagnosis and treatment planning and may ultimately lead to improved outcomes. Deep learning (DL) methods have demonstrated the potential to enable efficient treatment planning by automating cardiac segmentation and mesh construction for patients with normal cardiac anatomies. However, CHDs are often rare, making it challenging to acquire sufficiently large patient cohorts for training such DL models. Generative modeling of cardiac anatomies has the potential to fill this gap via the generation of virtual cohorts; however, prior approaches were largely designed for normal anatomies and cannot readily capture the significant topological variations seen in CHD patients. Therefore, we propose a type- and shape-disentangled generative approach suitable to capture the wide spectrum of cardiac anatomies observed in different CHD types and synthesize differently shaped cardiac anatomies that preserve the unique topology for specific CHD types. Our DL approach represents generic whole heart anatomies with CHD type-specific abnormalities implicitly using signed distance fields (SDF) based on CHD type diagnosis, which conveniently captures divergent anatomical variations across different types and represents meaningful intermediate CHD states. To capture the shape-specific variations, we then learn invertible deformations to morph the learned CHD type-specific anatomies and reconstruct patient-specific shapes. Our approach has the potential to augment the image-segmentation pairs for rarer CHD types for cardiac segmentation and generate cohorts of CHD cardiac meshes for computational simulation.
翻訳日:2023-11-02 14:32:30 公開日:2023-11-01
# 空間トランスクリプトークスのための潜時空間推論

Latent Space Inference For Spatial Transcriptomics ( http://arxiv.org/abs/2311.00330v1 )

ライセンス: Link先を確認
J. Ding, S.N. Zaman, P.Y. Chen, D. Wang(参考訳) 細胞生物学の複雑さを理解するために、研究者は、細胞の遺伝子情報と組織サンプル内の空間座標の2つの重要な指標に興味を持っている。 しかし、最先端の手法、すなわち単細胞rnaシークエンシングと画像ベースの空間転写学は、空間情報の損失を伴う完全な遺伝子の発現またはシークエンシングデータの解像度の低下を伴う空間情報のサブセットのみを回復することができる。 本稿では,組織サンプルの完全な遺伝子発現情報を得るための確率論的機械学習手法について検討し,空間座標も保存する。 これは、変動機械学習手法を用いて、両方のデータセットを共同潜在空間表現にマッピングすることで実現される。 ここから、完全な遺伝学的および空間的情報をデコードし、細胞プロセスや経路の理解についてより深い洞察を与えることができる。

In order to understand the complexities of cellular biology, researchers are interested in two important metrics: the genetic expression information of cells and their spatial coordinates within a tissue sample. However, state-of-the art methods, namely single-cell RNA sequencing and image based spatial transcriptomics can only recover a subset of this information, either full genetic expression with loss of spatial information, or spatial information with loss of resolution in sequencing data. In this project, we investigate a probabilistic machine learning method to obtain the full genetic expression information for tissues samples while also preserving their spatial coordinates. This is done through mapping both datasets to a joint latent space representation with the use of variational machine learning methods. From here, the full genetic and spatial information can be decoded and to give us greater insights on the understanding of cellular processes and pathways.
翻訳日:2023-11-02 14:31:51 公開日:2023-11-01
# バイリニアバンディットにおける純粋探索のためのマルチタスク表現学習

Multi-task Representation Learning for Pure Exploration in Bilinear Bandits ( http://arxiv.org/abs/2311.00327v1 )

ライセンス: Link先を確認
Subhojyoti Mukherjee, Qiaomin Xie, Josiah P. Hanna, Robert Nowak(参考訳) バイリニアバンドにおける純粋探索問題に対するマルチタスク表現学習について検討する。 双線型包帯において、アクションは2つの異なる実体タイプから一対の腕の形を取り、報酬は既知の腕の特徴ベクトルの双線型関数である。 textit{multi-task bilinear bandit problem} では、共通の低次元線型表現を共有する複数のタスクに対して最適なアクションを見つけることを目的としている。 目的は、この特徴を活用して、すべてのタスクに最適な武器を識別するプロセスを迅速化することである。 実験的な設計手法を用いて,グローバル表現学習のためのサンプルアロケーションを最適化し,各タスクにおける最適なアーム対を特定するのに必要なサンプル数を最小化するアルゴリズムGOBLINを提案する。 私たちの知る限りでは、共有表現を持つ双線型バンドイットにおける純粋な探索のためのサンプル複雑性分析を提供する最初の研究です。 その結果,タスク間の共有表現を学習することで,従来の課題解決手法と比較して,サンプルの複雑さを著しく向上させることができた。

We study multi-task representation learning for the problem of pure exploration in bilinear bandits. In bilinear bandits, an action takes the form of a pair of arms from two different entity types and the reward is a bilinear function of the known feature vectors of the arms. In the \textit{multi-task bilinear bandit problem}, we aim to find optimal actions for multiple tasks that share a common low-dimensional linear representation. The objective is to leverage this characteristic to expedite the process of identifying the best pair of arms for all tasks. We propose the algorithm GOBLIN that uses an experimental design approach to optimize sample allocations for learning the global representation as well as minimize the number of samples needed to identify the optimal pair of arms in individual tasks. To the best of our knowledge, this is the first study to give sample complexity analysis for pure exploration in bilinear bandits with shared representation. Our results demonstrate that by learning the shared representation across tasks, we achieve significantly improved sample complexity compared to the traditional approach of solving tasks independently.
翻訳日:2023-11-02 14:31:19 公開日:2023-11-01
# 雑音グラフのメタ重み付けによるロバストグラフクラスタリング

Robust Graph Clustering via Meta Weighting for Noisy Graphs ( http://arxiv.org/abs/2311.00322v1 )

ライセンス: Link先を確認
Hyeonsoo Jo, Fanchen Bu, Kijung Shin(参考訳) ノイズエッジに対して頑健にグラフに意味のあるクラスタを見つけるには? グラフクラスタリング(つまり、ノードを類似したグループに分割する)は、さまざまな分野のアプリケーションを用いたグラフ分析における根本的な問題である。 近年の研究では、グラフニューラルネットワーク(GNN)に基づくアプローチがグラフクラスタリングに有望な結果をもたらすことが示されている。 しかし, ノイズエッジを持つグラフ上では, その性能が著しく低下することが観測された。 本稿では,GNNに基づくグラフクラスタリングのためのMetaGCを提案する。 MetaGCは分解可能なクラスタリング損失関数を採用しており、ノードペアに対する損失の総和として表現することができる。 各ノードペアに学習可能な重みを加え,メタ重み付けを用いてノードペアの重みを適応的に調整することにより,有意義なノードペアの重みが増大し,平均しないノード(ノイズエッジなど)の重みが減少する。 我々は,MetaGCが意図した重みを学習し,その結果,ノイズのレベルが異なる5つの実世界のグラフ上に,個別のデノナイジングスキームを備えている場合でも,最先端のGNNベースの競合よりも優れていることを示す。 私たちのコードとデータセットはhttps://github.com/hyeonsoojo/metagcで利用可能です。

How can we find meaningful clusters in a graph robustly against noise edges? Graph clustering (i.e., dividing nodes into groups of similar ones) is a fundamental problem in graph analysis with applications in various fields. Recent studies have demonstrated that graph neural network (GNN) based approaches yield promising results for graph clustering. However, we observe that their performance degenerates significantly on graphs with noise edges, which are prevalent in practice. In this work, we propose MetaGC for robust GNN-based graph clustering. MetaGC employs a decomposable clustering loss function, which can be rephrased as a sum of losses over node pairs. We add a learnable weight to each node pair, and MetaGC adaptively adjusts the weights of node pairs using meta-weighting so that the weights of meaningful node pairs increase and the weights of less-meaningful ones (e.g., noise edges) decrease. We show empirically that MetaGC learns weights as intended and consequently outperforms the state-of-the-art GNN-based competitors, even when they are equipped with separate denoising schemes, on five real-world graphs under varying levels of noise. Our code and datasets are available at https://github.com/HyeonsooJo/MetaGC.
翻訳日:2023-11-02 14:31:02 公開日:2023-11-01
# HARE:ステップバイステップ推論による説明可能なヘイトスピーチ検出

HARE: Explainable Hate Speech Detection with Step-by-Step Reasoning ( http://arxiv.org/abs/2311.00321v1 )

ライセンス: Link先を確認
Yongjin Yang, Joonkee Kim, Yujin Kim, Namgyu Ho, James Thorne, Se-young Yun(参考訳) ソーシャルメディアの普及に伴い、ネット上でのヘイトスピーチの正確な検出が重要になっている。 ヘイトスピーチのニュアンスに対処するためには,ヘイトスピーチを識別し,徹底的に説明し,その有害な影響を理解するのに役立つことが重要である。 最近のベンチマークでは、ヘイトフルテキストにおける含意のフリーテキストアノテーションで生成モデルをトレーニングすることでこの問題に対処しようとしている。 しかし、既存のアノテーションスキームに重大な推論ギャップがあることは、検出モデルの監督を妨げる可能性がある。 本稿では,大規模言語モデル(LLM)の推論能力を活用して,ヘイトスピーチの説明におけるこれらのギャップを埋めるヘイトスピーチ検出フレームワークHAREを紹介する。 SBICとImplicit Hateベンチマークの実験では、モデル生成データを用いて、既存のフリーテキストのヒューマンアノテーションを用いて、ベースラインを一貫して上回ります。 分析により,本手法は学習モデルの説明品質を高め,未認識データセットへの一般化を改善できることが示される。 私たちのコードはhttps://github.com/joonkeekim/hare-hate-speech.gitで利用可能です。

With the proliferation of social media, accurate detection of hate speech has become critical to ensure safety online. To combat nuanced forms of hate speech, it is important to identify and thoroughly explain hate speech to help users understand its harmful effects. Recent benchmarks have attempted to tackle this issue by training generative models on free-text annotations of implications in hateful text. However, we find significant reasoning gaps in the existing annotations schemes, which may hinder the supervision of detection models. In this paper, we introduce a hate speech detection framework, HARE, which harnesses the reasoning capabilities of large language models (LLMs) to fill these gaps in explanations of hate speech, thus enabling effective supervision of detection models. Experiments on SBIC and Implicit Hate benchmarks show that our method, using model-generated data, consistently outperforms baselines, using existing free-text human annotations. Analysis demonstrates that our method enhances the explanation quality of trained models and improves generalization to unseen datasets. Our code is available at https://github.com/joonkeekim/hare-hate-speech.git.
翻訳日:2023-11-02 14:30:39 公開日:2023-11-01
# セマンティック聴力:バイノーラル聴力による音響シーンのプログラミング

Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables ( http://arxiv.org/abs/2311.00320v1 )

ライセンス: Link先を確認
Bandhav Veluri, Malek Itani, Justin Chan, Takuya Yoshioka, Shyamnath Gollakota(参考訳) 他のハイカーからおしゃべりを聞くことなく、公園で鳴く鳥の音を聞くことができたり、にぎやかな通りで交通騒音を遮断したりしながら、緊急のサイレンや車の音を聞くことができたりできる。 これは、リアルタイムに、現実世界の環境から特定の音に焦点を当てたり、無視したりできる新しい聴覚デバイス機能で、空間的な手がかりも保存できる。 これを達成するために、私たちは2つの技術的な貢献をします。 1)干渉音と背景雑音の存在下でバイノーラル目標音抽出を実現する最初のニューラルネットワークを提案する。 2)本システムは実世界の利用を一般化する訓練手法を設計する。 その結果,本システムは20の音響クラスで動作可能であり,コンバインドスマートフォン上では6.56msのトランスフォーマーネットワークが動作可能であることがわかった。 室内および屋外のシナリオにおける実地実験の結果から, 概念実証システムは対象音を抽出し, 空間的手がかりをバイノーラル出力に保存できることがわかった。 コード付きプロジェクトページ:https://semantichearing.cs.washington.edu

Imagine being able to listen to the birds chirping in a park without hearing the chatter from other hikers, or being able to block out traffic noise on a busy street while still being able to hear emergency sirens and car honks. We introduce semantic hearing, a novel capability for hearable devices that enables them to, in real-time, focus on, or ignore, specific sounds from real-world environments, while also preserving the spatial cues. To achieve this, we make two technical contributions: 1) we present the first neural network that can achieve binaural target sound extraction in the presence of interfering sounds and background noise, and 2) we design a training methodology that allows our system to generalize to real-world use. Results show that our system can operate with 20 sound classes and that our transformer-based network has a runtime of 6.56 ms on a connected smartphone. In-the-wild evaluation with participants in previously unseen indoor and outdoor scenarios shows that our proof-of-concept system can extract the target sounds and generalize to preserve the spatial cues in its binaural output. Project page with code: https://semantichearing.cs.washington.edu
翻訳日:2023-11-02 14:30:20 公開日:2023-11-01
# 生成逆ネットワークの安定トレーニングのための洪水正規化

Flooding Regularization for Stable Training of Generative Adversarial Networks ( http://arxiv.org/abs/2311.00318v1 )

ライセンス: Link先を確認
Iu Yahiro, Takashi Ishida, Naoto Yokoya(参考訳) GAN(Generative Adversarial Networks)は画像生成において顕著な性能を示した。 しかし、gan訓練は不安定な問題に苦しむ。 この問題に対処する主要なアプローチの1つは、損失関数を変更することであり、しばしば正規化項を使い、逆損失の種類を変える。 本稿では,逆損失関数を直接正則化することに焦点を当てる。 本稿では,教師付き学習における過度な抑制手法であるフラッディングをGANに適用し,差別者の損失が過度に低くなるのを防ぐ方法を提案する。 洪水は洪水レベルを調整する必要があるが, GANに適用した場合, 対向的損失関数によって適切な範囲の洪水レベル設定が決定され, バイナリクロスエントロピー損失を用いたGANの理論的解析が支持される。 我々は,洪水がGAN訓練を安定させ,他の安定化技術と組み合わせることができることを実験的に検証した。 また, 判別器の損失を洪水レベルに制限することにより, 洪水レベルがやや高い場合でも, 訓練は安定的に進行することを明らかにした。

Generative Adversarial Networks (GANs) have shown remarkable performance in image generation. However, GAN training suffers from the problem of instability. One of the main approaches to address this problem is to modify the loss function, often using regularization terms in addition to changing the type of adversarial losses. This paper focuses on directly regularizing the adversarial loss function. We propose a method that applies flooding, an overfitting suppression method in supervised learning, to GANs to directly prevent the discriminator's loss from becoming excessively low. Flooding requires tuning the flood level, but when applied to GANs, we propose that the appropriate range of flood level settings is determined by the adversarial loss function, supported by theoretical analysis of GANs using the binary cross entropy loss. We experimentally verify that flooding stabilizes GAN training and can be combined with other stabilization techniques. We also reveal that by restricting the discriminator's loss to be no greater than flood level, the training proceeds stably even when the flood level is somewhat high.
翻訳日:2023-11-02 14:29:54 公開日:2023-11-01
# 比較コーパスと複数参照を用いたコード翻訳のためのデータ拡張

Data Augmentation for Code Translation with Comparable Corpora and Multiple References ( http://arxiv.org/abs/2311.00317v1 )

ライセンス: Link先を確認
Yiqing Xie and Atharva Naik and Daniel Fried and Carolyn Rose(参考訳) プログラミング言語間のコード変換における大きな課題のひとつは、並列トレーニングデータが制限されることが多いことだ。 この課題を克服するために,2つのデータ拡張手法を提案する。1つは類似するコーパス(コードペアと類似機能)を構築し,もう1つは既存の並列データを複数の参照変換で拡張する。 具体的には、コード生成モデルを用いて自然言語文書から生成されたプログラムを含む、複数の種類の比較コーパスを構築し、分析する。 さらに,単一参照翻訳への過度な適合を減らすために,利用可能な並列データに対する追加の翻訳参照を自動生成し,対象翻訳のばらつきを増加させるユニットテストによって翻訳をフィルタリングする。 実験の結果,Java,Python,C++間の翻訳では,平均7.5%の計算精度(CA@1)でコードT5が大幅に向上し,実行による翻訳の正確性を検証することがわかった。 コードはhttps://github.com/veronicium/cmtransで入手できる。

One major challenge of translating code between programming languages is that parallel training data is often limited. To overcome this challenge, we present two data augmentation techniques, one that builds comparable corpora (i.e., code pairs with similar functionality), and another that augments existing parallel data with multiple reference translations. Specifically, we build and analyze multiple types of comparable corpora, including programs generated from natural language documentation using a code generation model. Furthermore, to reduce overfitting to a single reference translation, we automatically generate additional translation references for available parallel data and filter the translations by unit tests, which increases variation in target translations. Experiments show that our data augmentation techniques significantly improve CodeT5 for translation between Java, Python, and C++ by an average of 7.5% Computational Accuracy (CA@1), which verifies the correctness of translations by execution. The code is available at https://github.com/Veronicium/CMTrans.
翻訳日:2023-11-02 14:29:36 公開日:2023-11-01
# シンボリック知識によるディープニューラルネットワークの強化--信頼性と解釈可能な教育aiに向けて

Augmenting deep neural networks with symbolic knowledge: Towards trustworthy and interpretable AI for education ( http://arxiv.org/abs/2311.00393v1 )

ライセンス: Link先を確認
Danial Hooshyar, Roger Azevedo, Yeongwook Yang(参考訳) 人工知能ネットワーク(ANN)は、教育応用において最も重要な人工知能(AI)技術であり、適応的な教育サービスを提供している。 しかし、その教育能力は3つの大きな課題により制限されている。 一 その発展に象徴的な教育知識(例えば、因果関係及び実践者の知識)を取り入れることの難しさ 二 偏見の学習及び反映、及び 三 解釈可能性の欠如 教育のリスクの高い性質を考えると、ANNへの教育知識の統合は、必須の教育的制約に準拠し、予測に対する解釈可能性を提供するAIアプリケーションの開発に不可欠である。 この研究は、AIのニューラルシンボリックなファミリーは、名前のついた課題に対処する可能性があると主張している。 この目的のために、ニューラルシンボリックaiフレームワークを採用し、学習者の計算思考をモデル化するために、深層ニューラルネットワークに教育知識を注入し、抽出するnsaiと呼ばれるアプローチを開発した。 以上の結果から,NSAIアプローチはトレーニングデータのみに基づいてトレーニングされたディープニューラルネットワークや,SMOTE法やオートエンコーダ法で強化されたトレーニングデータと比較して,より汎用性が高いことがわかった。 さらに重要なことは、他のモデルとは異なり、NSAIアプローチは、入力特徴と出力ラベルの間の因果関係をキャプチャする堅牢な表現を優先し、学習の安全性を確保して、トレーニングデータにおける素早い相関を避け、バイアスを制御する。 さらに、NSAIアプローチにより、学習ネットワークからルールを抽出し、予測への経路の解釈と推論を容易にし、初期の教育知識を洗練することができる。 これらの知見は、ニューラルシンボリックAIが教育におけるANNの限界を克服し、信頼できる、解釈可能な応用を可能にすることを示唆している。

Artificial neural networks (ANNs) have shown to be amongst the most important artificial intelligence (AI) techniques in educational applications, providing adaptive educational services. However, their educational potential is limited in practice due to three major challenges: i) difficulty in incorporating symbolic educational knowledge (e.g., causal relationships, and practitioners' knowledge) in their development, ii) learning and reflecting biases, and iii) lack of interpretability. Given the high-risk nature of education, the integration of educational knowledge into ANNs becomes crucial for developing AI applications that adhere to essential educational restrictions, and provide interpretability over the predictions. This research argues that the neural-symbolic family of AI has the potential to address the named challenges. To this end, it adapts a neural-symbolic AI framework and accordingly develops an approach called NSAI, that injects and extracts educational knowledge into and from deep neural networks, for modelling learners computational thinking. Our findings reveal that the NSAI approach has better generalizability compared to deep neural networks trained merely on training data, as well as training data augmented by SMOTE and autoencoder methods. More importantly, unlike the other models, the NSAI approach prioritises robust representations that capture causal relationships between input features and output labels, ensuring safety in learning to avoid spurious correlations and control biases in training data. Furthermore, the NSAI approach enables the extraction of rules from the learned network, facilitating interpretation and reasoning about the path to predictions, as well as refining the initial educational knowledge. These findings imply that neural-symbolic AI can overcome the limitations of ANNs in education, enabling trustworthy and interpretable applications.
翻訳日:2023-11-02 14:22:40 公開日:2023-11-01
# VRヘッドセットにおけるアイトラッキングのための固定型自己校正

Fixation-based Self-calibration for Eye Tracking in VR Headsets ( http://arxiv.org/abs/2311.00391v1 )

ライセンス: Link先を確認
Ryusei Uramune, Sei Ikeda, Hiroki Ishizuka, and Osamu Oshiro(参考訳) 本研究では,VRヘッドセットにおける視線追跡のための新しい自己校正手法を提案する。 提案手法は,ユーザの視点が自由に移動可能であり,視点の異なる点(PoR)が視覚的固定中に物体表面上の小さな領域に分散されるという仮定に基づいている。 この方法では、まず、i-vdt(velocity and dispersion threshold identification)アルゴリズムを3次元(3d)シーンに拡張して、未調整の視線方向の時系列データから固定を検出する。 次に、PoRの分散メトリクスの和を最小化することにより、キャリブレーションパラメータを最適化する。 提案手法は,光学軸から視覚軸へのオフセットを表す最適なキャリブレーションパラメータを,明示的なユーザキャリブレーション,画像処理,マーカー置換オブジェクトなしで識別することができる。 咬合数の多い2つのvr環境を歩行する18名の被験者の視線データに対して,提案手法は2.1$^\circ$の精度を達成し,平均オフセットよりも有意に低かった。 本手法は3次元環境における平均誤差が3$^\circ$より低い最初の自己校正法である。 さらに,修正検出アルゴリズムや最適化アルゴリズムを改良することにより,提案手法の精度を1.2$^\circ$まで向上させることができる。

This study proposes a novel self-calibration method for eye tracking in a virtual reality (VR) headset. The proposed method is based on the assumptions that the user's viewpoint can freely move and that the points of regard (PoRs) from different viewpoints are distributed within a small area on an object surface during visual fixation. In the method, fixations are first detected from the time-series data of uncalibrated gaze directions using an extension of the I-VDT (velocity and dispersion threshold identification) algorithm to a three-dimensional (3D) scene. Then, the calibration parameters are optimized by minimizing the sum of a dispersion metrics of the PoRs. The proposed method can potentially identify the optimal calibration parameters representing the user-dependent offset from the optical axis to the visual axis without explicit user calibration, image processing, or marker-substitute objects. For the gaze data of 18 participants walking in two VR environments with many occlusions, the proposed method achieved an accuracy of 2.1$^\circ$, which was significantly lower than the average offset. Our method is the first self-calibration method with an average error lower than 3$^\circ$ in 3D environments. Further, the accuracy of the proposed method can be improved by up to 1.2$^\circ$ by refining the fixation detection or optimization algorithm.
翻訳日:2023-11-02 14:22:08 公開日:2023-11-01
# NeuralGF:ニューラルグラディエント関数の学習による教師なし点正規化推定

NeuralGF: Unsupervised Point Normal Estimation by Learning Neural Gradient Function ( http://arxiv.org/abs/2311.00389v1 )

ライセンス: Link先を確認
Qing Li, Huifang Feng, Kanle Shi, Yue Gao, Yi Fang, Yu-Shen Liu, Zhizhong Han(参考訳) 3次元点雲の正規推定は3次元幾何処理の基本的なタスクである。 最先端の手法は、通常の監督から学んだ局所曲面への適合の優先順位に依存する。 しかしながら、ベンチマークにおける通常の監視は合成形状によるもので、通常実際のスキャンでは利用できないため、これらの手法の学習済みの優先順位が制限される。 さらに、形状間の通常の配向一貫性は、別の後処理手順なしでは達成し難いままである。 これらの問題を解決するために,本研究では,地平常則を監督として使用せずに,点雲から直接指向性正規分布を推定する手法を提案する。 我々は,ニューラルネットワークが入力点雲に適合し,その点に単位ノルム勾配を生じさせることを促す,ニューラルグラデーション関数を学習するための新しいパラダイムを導入することで,これを実現する。 具体的には,問合せポイントが移動対象に反復的に到達し,近似した面に集約され,データの大域的表面表現が学習されるような損失関数を導入する。 一方,曲面近似に勾配を組み込んで,最小符号付きクエリの偏差を測定することにより,表面の勾配場が一貫した状態になる。 これらの手法は,ノイズや異常値,密度変動に対して頑健な,教師なし指向型正規推定器を導出する。 提案手法は, 従来の手法よりも, 非指向性, 指向性の両方の正規化タスクをより正確に学習できることを示す。 ソースコードと事前トレーニングされたモデルはhttps://github.com/LeoQLi/NeuralGFで公開されている。

Normal estimation for 3D point clouds is a fundamental task in 3D geometry processing. The state-of-the-art methods rely on priors of fitting local surfaces learned from normal supervision. However, normal supervision in benchmarks comes from synthetic shapes and is usually not available from real scans, thereby limiting the learned priors of these methods. In addition, normal orientation consistency across shapes remains difficult to achieve without a separate post-processing procedure. To resolve these issues, we propose a novel method for estimating oriented normals directly from point clouds without using ground truth normals as supervision. We achieve this by introducing a new paradigm for learning neural gradient functions, which encourages the neural network to fit the input point clouds and yield unit-norm gradients at the points. Specifically, we introduce loss functions to facilitate query points to iteratively reach the moving targets and aggregate onto the approximated surface, thereby learning a global surface representation of the data. Meanwhile, we incorporate gradients into the surface approximation to measure the minimum signed deviation of queries, resulting in a consistent gradient field associated with the surface. These techniques lead to our deep unsupervised oriented normal estimator that is robust to noise, outliers and density variations. Our excellent results on widely used benchmarks demonstrate that our method can learn more accurate normals for both unoriented and oriented normal estimation tasks than the latest methods. The source code and pre-trained model are publicly available at https://github.com/LeoQLi/NeuralGF.
翻訳日:2023-11-02 14:21:46 公開日:2023-11-01
# 生成AIモデルを用いたエンドユーザープログラミングのための関連ユーザインタフェースは残されるか?

Will Code Remain a Relevant User Interface for End-User Programming with Generative AI Models? ( http://arxiv.org/abs/2311.00382v1 )

ライセンス: Link先を確認
Advait Sarkar(参考訳) エンドユーザープログラミングの研究分野は、非専門家がタスクを達成するのに十分なコーディングを学ぶのを助けることに主に関心がある。 生成AIは、自然言語のプロンプトからコードを生成することによって、これを完全に回避する。 このエッセイでは、生成AIを持つ世界で「伝統的な」プログラミング言語が、非専門家のエンドユーザープログラマにどのような意味を持つのかを考察する。 我々は「生成的シフト仮説」を仮定する:生成的aiは、エンドユーザープログラミングの伝統的なスコープにおいて質的かつ定量的な拡張を生み出す。 従来のプログラミング言語がエンドユーザープログラマにとっていまだに意味があり有用である理由を概説する。 これらの理由のそれぞれが基本的かつ永続的であるか、あるいは、生成AIのさらなる改善と革新によって消滅するかどうかを推測する。 最後に、我々は、Koの学習障壁やBlackwellの注目投資モデルなど、多くの確立された中核概念を再考する必要性を含む、エンドユーザープログラミング研究への一連の意味を明確に述べる。

The research field of end-user programming has largely been concerned with helping non-experts learn to code sufficiently well in order to achieve their tasks. Generative AI stands to obviate this entirely by allowing users to generate code from naturalistic language prompts. In this essay, we explore the extent to which "traditional" programming languages remain relevant for non-expert end-user programmers in a world with generative AI. We posit the "generative shift hypothesis": that generative AI will create qualitative and quantitative expansions in the traditional scope of end-user programming. We outline some reasons that traditional programming languages may still be relevant and useful for end-user programmers. We speculate whether each of these reasons might be fundamental and enduring, or whether they may disappear with further improvements and innovations in generative AI. Finally, we articulate a set of implications for end-user programming research, including the possibility of needing to revisit many well-established core concepts, such as Ko's learning barriers and Blackwell's attention investment model.
翻訳日:2023-11-02 14:21:20 公開日:2023-11-01
# 全射正規化流を用いた不確かさ定量化と分布外検出

Uncertainty quantification and out-of-distribution detection using surjective normalizing flows ( http://arxiv.org/abs/2311.00377v1 )

ライセンス: Link先を確認
Simon Dirmeier and Ye Hong and Yanan Xin and Fernando Perez-Cruz(参考訳) エピステミックとアレタリック不確実性の信頼性の高い定量化は、1つの環境でモデルが訓練されるが、現実の応用、例えば気候科学や移動分析においてよく見られる複数の異なる環境に適用されるアプリケーションにおいて重要である。 本稿では,1回のフォワードパスで計算可能な深層ニューラルネットワークモデルにおける分布外データセットを同定するために,全射正規化フローを用いた簡易な手法を提案する。 この手法は、流れを正規化する深い不確かさの定量化と生成モデリングの最近の発展に基づいている。 本手法は,移動文学から力学モデルを用いてシミュレーションされた合成データセットと,そのモデル上のソフトおよび原子間干渉による干渉分布からシミュレーションされた複数のデータセットに適用し,分布内データから分布外データを確実に識別できることを実証する。 本研究では,全射流モデルをディリクレ過程混合モデルと単射流と比較し,その全射が分布と分布外データを確実に区別する重要な要素であることを示す。

Reliable quantification of epistemic and aleatoric uncertainty is of crucial importance in applications where models are trained in one environment but applied to multiple different environments, often seen in real-world applications for example, in climate science or mobility analysis. We propose a simple approach using surjective normalizing flows to identify out-of-distribution data sets in deep neural network models that can be computed in a single forward pass. The method builds on recent developments in deep uncertainty quantification and generative modeling with normalizing flows. We apply our method to a synthetic data set that has been simulated using a mechanistic model from the mobility literature and several data sets simulated from interventional distributions induced by soft and atomic interventions on that model, and demonstrate that our method can reliably discern out-of-distribution data from in-distribution data. We compare the surjective flow model to a Dirichlet process mixture model and a bijective flow and find that the surjections are a crucial component to reliably distinguish in-distribution from out-of-distribution data.
翻訳日:2023-11-02 14:21:02 公開日:2023-11-01
# 早期アルツハイマー病予知のためのデータ異常検出強化分散型エキスパートシステムの構築

Architecture of Data Anomaly Detection-Enhanced Decentralized Expert System for Early-Stage Alzheimer's Disease Prediction ( http://arxiv.org/abs/2311.00373v1 )

ライセンス: Link先を確認
Stefan Kambiz Behfar, Qumars Behfar, Marzie Hosseinpour(参考訳) アルツハイマー病は、患者の予後を改善するために早期かつ正確な検出を必要とする世界的な健康問題である。 磁気共鳴イメージング(MRI)は診断に有意な可能性を秘めているが、その効果的な分析は依然として困難な課題である。 本研究では、ブロックチェーン技術と人工知能(AI)を巧みに組み合わせ、患者が提出したデータに対する堅牢な異常検出を統合する、画期的な分散型エキスパートシステムを提案する。 従来の診断法は、特に疾患の初期段階において、遅延と不正確な予測につながることが多い。 集中型データリポジトリは大量のMRIデータを管理するのに苦労している。 我々の革新的なソリューションは、ブロックチェーン技術によって促進されるデータ完全性と患者のプライバシーを保護するために分散化を活用しています。 AI駆動のMRI分析を強調するだけでなく、高度なデータ異常検出アーキテクチャも組み込んでいる。 これらのメカニズムは、MRI画像内のデータ品質問題や非典型的発見など、様々な問題に対して患者が作成したデータを精査する。 計算複雑性とコスト制約のため、ブロックチェーン上でMRI画像の正確性と品質を徹底的にチェックすることは現実的ではない。 通常、このようなチェックはオフチェーンで行われ、ブロックチェーンは結果を安全に記録する。 この包括的なアプローチは、より正確な早期アルツハイマー病予測を提供するために、分散アプリを強化する。 ブロックチェーン、AI、異常検出の強みを融合させることで、私たちのシステムは病気の診断に革命をもたらす先駆的なステップである。

Alzheimer's Disease is a global health challenge that requires early and accurate detection to improve patient outcomes. Magnetic Resonance Imaging (MRI) holds significant diagnostic potential, but its effective analysis remains a formidable task. This study introduces a groundbreaking decentralized expert system that cleverly combines blockchain technology with Artificial Intelligence (AI) to integrate robust anomaly detection for patient-submitted data. Traditional diagnostic methods often lead to delayed and imprecise predictions, especially in the early stages of the disease. Centralized data repositories struggle to manage the immense volumes of MRI data, and persistent privacy concerns hinder collaborative efforts. Our innovative solution harnesses decentralization to protect data integrity and patient privacy, facilitated by blockchain technology. It not only emphasizes AI-driven MRI analysis but also incorporates a sophisticated data anomaly detection architecture. These mechanisms scrutinize patient-contributed data for various issues, including data quality problems and atypical findings within MRI images. Conducting an exhaustive check of MRI image correctness and quality directly on the blockchain is impractical due to computational complexity and cost constraints. Typically, such checks are performed off-chain, and the blockchain securely records the results. This comprehensive approach empowers our decentralized app to provide more precise early-stage Alzheimer's Disease predictions. By merging the strengths of blockchain, AI, and anomaly detection, our system represents a pioneering step towards revolutionizing disease diagnostics.
翻訳日:2023-11-02 14:20:43 公開日:2023-11-01
# 運動予測のための協調軌道表現の学習

Learning Cooperative Trajectory Representations for Motion Forecasting ( http://arxiv.org/abs/2311.00371v1 )

ライセンス: Link先を確認
Hongzhi Ruan, Haibao Yu, Wenxian Yang, Siqi Fan, Yingjuan Tang, Zaiqing Nie(参考訳) 動き予測は自動運転にとって必須のタスクであり、インフラや他の車両からの効果的な情報利用は、動き予測能力を高めることができる。 既存の研究は主に、単一フレームの協調情報を活用してエゴ車両の限られた知覚能力を高めるとともに、協調装置から観測された交通参加者の移動情報と相互作用情報の活用に重点を置いている。 本稿では,まず,協調軌道表現学習パラダイムを提案する。 具体的には、協調動作予測のための最初の解釈可能なエンドツーエンド学習フレームワークであるV2X-Graphを提案する。 V2X-Graphは、協調動作と相互作用コンテキストを完全に活用するために解釈可能なグラフを使用する。 車対インフラ(v2i)運動予測データセットv2x-seqの実験結果は,v2x-graphの有効性を示している。 V2Xシナリオを更に評価するために,V2X-Traj の移動予測データセットを構築し,本手法の利点を示す。 V2X-GraphとV2X-Trajの両方が協調動作予測のさらなる発展を促進することを願っている。 https://github.com/AIR-THU/V2X-Graphでプロジェクトを見つけ、https://github.com/AIR-THU/DAIR-V2X-Seqでデータを見つける。

Motion forecasting is an essential task for autonomous driving, and the effective information utilization from infrastructure and other vehicles can enhance motion forecasting capabilities. Existing research have primarily focused on leveraging single-frame cooperative information to enhance the limited perception capability of the ego vehicle, while underutilizing the motion and interaction information of traffic participants observed from cooperative devices. In this paper, we first propose the cooperative trajectory representations learning paradigm. Specifically, we present V2X-Graph, the first interpretable and end-to-end learning framework for cooperative motion forecasting. V2X-Graph employs an interpretable graph to fully leverage the cooperative motion and interaction contexts. Experimental results on the vehicle-to-infrastructure (V2I) motion forecasting dataset, V2X-Seq, demonstrate the effectiveness of V2X-Graph. To further evaluate on V2X scenario, we construct the first real-world vehicle-to-everything (V2X) motion forecasting dataset V2X-Traj, and the performance shows the advantage of our method. We hope both V2X-Graph and V2X-Traj can facilitate the further development of cooperative motion forecasting. Find project at https://github.com/AIR-THU/V2X-Graph, find data at https://github.com/AIR-THU/DAIR-V2X-Seq.
翻訳日:2023-11-02 14:20:21 公開日:2023-11-01
# Intel MaxシリーズGPUを用いたディープラーニングスパース行列カーネルの性能最適化

Performance Optimization of Deep Learning Sparse Matrix Kernels on Intel Max Series GPU ( http://arxiv.org/abs/2311.00368v1 )

ライセンス: Link先を確認
Mohammad Zubair and Christoph Bauinger(参考訳) 本稿では,3つのスパース行列演算,すなわちスパース密度行列乗算(SPMM),サンプル密度行列乗算(SDDMM),SPMMを用いたSDDMMの構成について述べる。 我々は,Intel oneAPI の Explicit SIMD (ESIMD) SYCL 拡張 API を利用したSPMM, SDDMM, FusedMM 操作の最適化実装を開発した。 CUDAやSYCLとは対照的に、ESIMD APIは明示的にベクトル化されたカーネルコードの記述を可能にする。 ESIMD APIで実装されたスパース行列アルゴリズムは、ターゲットとするIntel Data Center GPUのピークに近いパフォーマンスを達成した。 我々は、Intel GPU上のIntelのoneMKLライブラリとNVIDIAのV100 GPU上のスパースマトリクス操作のための最近のCUDA実装を比較し、スパースマトリクス操作の実装がより優れていることを示す。

In this paper, we focus on three sparse matrix operations that are relevant for machine learning applications, namely, the sparse-dense matrix multiplication (SPMM), the sampled dense-dense matrix multiplication (SDDMM), and the composition of the SDDMM with SPMM, also termed as FusedMM. We develop optimized implementations for SPMM, SDDMM, and FusedMM operations utilizing Intel oneAPI's Explicit SIMD (ESIMD) SYCL extension API. In contrast to CUDA or SYCL, the ESIMD API enables the writing of explicitly vectorized kernel code. Sparse matrix algorithms implemented with the ESIMD API achieved performance close to the peak of the targeted Intel Data Center GPU. We compare our performance results to Intel's oneMKL library on Intel GPUs and to a recent CUDA implementation for the sparse matrix operations on NVIDIA's V100 GPU and demonstrate that our implementations for sparse matrix operations outperform either.
翻訳日:2023-11-02 14:20:00 公開日:2023-11-01
# 突発的談話関係認識のためのプロンプトに基づく論理セマンティックス強化

Prompt-based Logical Semantics Enhancement for Implicit Discourse Relation Recognition ( http://arxiv.org/abs/2311.00367v1 )

ライセンス: Link先を確認
Chenxu Wang, Ping Jian, Mu Huang(参考訳) 明示的な接続の助けなしに言論関係を推論するインプシット談話関係認識(IDRR)は、言論解析において依然として重要かつ困難な課題である。 近年の研究では、アノテーション付き感覚から階層構造情報を利用する傾向があり、センス階層の統合により、拡張された談話関係表現が得られる。 それにもかかわらず、IDRRの性能と堅牢性は、注釈付きデータの可用性によって著しく制限されている。 幸いなことに、有意な接続性を持つ無意味な発話が豊富にあり、リッチな談話関係の特徴を取得するために利用することができる。 このようなモチベーションを考慮して,IDRR のための Prompt-based Logical Semantics Enhancement (PLSE) 法を提案する。 本手法は,対話関係に関する知識を学習前の言語モデルにシームレスに注入する。 さらに,グローバルセマンティクスを捉える際に,マスキング言語モデル(mlm)の欠如による局所的依存を示すプロンプトベース結合予測を考慮し,相互情報最大化に基づく新しい自己教師あり学習目標を設計し,idrrのための論理セマンティクスの拡張表現を導出する。 PDTB 2.0 と CoNLL16 データセットによる実験結果から,本手法は現状の最先端モデルに対して優れた一貫した性能を発揮することが示された。

Implicit Discourse Relation Recognition (IDRR), which infers discourse relations without the help of explicit connectives, is still a crucial and challenging task for discourse parsing. Recent works tend to exploit the hierarchical structure information from the annotated senses, which demonstrate enhanced discourse relation representations can be obtained by integrating sense hierarchy. Nevertheless, the performance and robustness for IDRR are significantly constrained by the availability of annotated data. Fortunately, there is a wealth of unannotated utterances with explicit connectives, that can be utilized to acquire enriched discourse relation features. In light of such motivation, we propose a Prompt-based Logical Semantics Enhancement (PLSE) method for IDRR. Essentially, our method seamlessly injects knowledge relevant to discourse relation into pre-trained language models through prompt-based connective prediction. Furthermore, considering the prompt-based connective prediction exhibits local dependencies due to the deficiency of masked language model (MLM) in capturing global semantics, we design a novel self-supervised learning objective based on mutual information maximization to derive enhanced representations of logical semantics for IDRR. Experimental results on PDTB 2.0 and CoNLL16 datasets demonstrate that our method achieves outstanding and consistent performance against the current state-of-the-art models.
翻訳日:2023-11-02 14:19:45 公開日:2023-11-01
# 2つのグラフェンシート間のカシミール力:2次元フレネル反射係数、異なる偏光の寄与、エバネッセント波の役割

The Casimir Force between Two Graphene Sheets: 2D Fresnel Reflection Coefficients, Contributions of Different Polarizations, and the Role of Evanescent Waves ( http://arxiv.org/abs/2311.00363v1 )

ライセンス: Link先を確認
Galina L. Klimchitskaya and Vladimir M. Mostepanenko(参考訳) 2つのグラフェンシート間のカシミール圧力とそれに対する寄与は、偏光の異なるエバネッセント波と伝播波によって決定される。 この目的のために、グラフェンシート上の2次元(2次元)フレネル反射係数の導出を、空間分散によるグラフェンの横方向及び縦方向誘電率の観点から示す。 2次元波動ベクトル, 周波数, 温度の関数としての誘電率の両方の明示的な表現は, 伝搬・エバネッセント波領域における実周波数軸に沿って記述し, グラフェンの偏極テンソルを用いた純虚像松原周波数において記述する。 また,diracモデルの適用領域では,2枚のグラフェンシート間のカシミール圧力のほぼ全値が,横磁気(tm)偏光を持つ電磁場によって決定されることを示した。 実周波数軸に沿って記述されたリフシッツ公式を用いて, TM偏波伝搬および全圧力へのエバネッセント波の寄与を決定した。 これらの結果と、実金属製プレートの類似結果とを対比することにより、金属試験体間のカシミール力の測定と合わせて、現実的な応答関数を用いたリフシッツ理論を導入する方法が指摘される。

We consider the Casimir pressure between two graphene sheets and contributions to it determined by evanescent and propagating waves with different polarizations. For this purpose, the derivation of the 2-dimensional (2D) Fresnel reflection coefficients on a graphene sheet is presented in terms of the transverse and longitudinal dielectric permittivities of graphene with due account of the spatial dispersion. The explicit expressions for both dielectric permittivities as the functions of the 2D wave vector, frequency, and temperature are written along the real frequency axis in the regions of propagating and evanescent waves and at the pure imaginary Matsubara frequencies using the polarization tensor of graphene. It is shown that in the application region of the Dirac model nearly the total value of the Casimir pressure between two graphene sheets is determined by the electromagnetic field with transverse magnetic (TM) polarization. By using the Lifshitz formula written along the real frequency axis, the contributions of the TM-polarized propagating and evanescent waves into the total pressure are determined. By confronting these results with the analogous results found for plates made of real metals, the way for bringing the Lifshitz theory using the realistic response functions in agreement with measurements of the Casimir force between metallic test bodies is pointed out.
翻訳日:2023-11-02 14:19:20 公開日:2023-11-01
# コントラスト学習のためのサンプル選択の再考:潜在的サンプルのマイニング

Rethinking Samples Selection for Contrastive Learning: Mining of Potential Samples ( http://arxiv.org/abs/2311.00358v1 )

ライセンス: Link先を確認
Hengkui Dong, Xianzhong Long, Yun Li(参考訳) 対照的な学習は、2つのイメージが同じカテゴリに属するかどうかをモデルに訓練することで予測し、それらの特徴表現を可能な限り近く、あるいは遠くまで近づける。 本稿では,比較学習でサンプルをマイニングする方法を再考する。他の手法とは異なり,ポジティブなサンプルとネガティブなサンプルの両方を考慮してより包括的であり,潜在的なサンプルを2つの側面からマイニングする。 そして、柔らかい重み付け戦略と硬い重み付け戦略を併用し、重み付けします。 第二に, 負の試料中の非形成的負の試料と偽の負の試料の存在を考慮し, 勾配の観点から負の試料を分析し, 負の試料が負の試料に近いような, 難しすぎる, 容易すぎる, 負の試料を発掘する。 従来の自己管理手法と比較して,本手法の利点は明らかである。 CIFAR10, CIFAR100, TinyImagenetでそれぞれ88.57%, 61.10%, および36.69%のTop-1精度を達成した。

Contrastive learning predicts whether two images belong to the same category by training a model to make their feature representations as close or as far away as possible. In this paper, we rethink how to mine samples in contrastive learning, unlike other methods, our approach is more comprehensive, taking into account both positive and negative samples, and mining potential samples from two aspects: First, for positive samples, we consider both the augmented sample views obtained by data augmentation and the mined sample views through data mining. Then, we weight and combine them using both soft and hard weighting strategies. Second, considering the existence of uninformative negative samples and false negative samples in the negative samples, we analyze the negative samples from the gradient perspective and finally mine negative samples that are neither too hard nor too easy as potential negative samples, i.e., those negative samples that are close to positive samples. The experiments show the obvious advantages of our method compared with some traditional self-supervised methods. Our method achieves 88.57%, 61.10%, and 36.69% top-1 accuracy on CIFAR10, CIFAR100, and TinyImagenet, respectively.
翻訳日:2023-11-02 14:18:55 公開日:2023-11-01
# QFree:マルチエージェント強化学習のための普遍的値関数係数化

QFree: A Universal Value Function Factorization for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2311.00356v1 )

ライセンス: Link先を確認
Rizhong Wang, Huiping Li, Di Cui, Demin Xu(参考訳) 集中型トレーニングはマルチエージェント強化学習(marl)の分野で広く活用され、トレーニングプロセスの安定性を保証する。 共同政策が得られたら、各エージェントに対して最適な分散化政策を抽出する値関数分解法を設計することが重要であり、これは個々のグローバルマックス(IGM)の原則を満たす必要がある。 IGM関数クラスに追加の制限を加えることは、要件を満たすのに役立つが、より複雑なマルチエージェント環境にアプリケーションを制限するコストがかかる。 本稿では,MARLの普遍値関数分解法であるQFreeを提案する。 まず、優位関数に基づくIGM原理の数学的等価条件の開発から始め、従来の手法の保守性を取り除き、原理が妥協なく保たれることを保証する。 そして、同等の因子化を満たせるより表現力豊かな混合ネットワークアーキテクチャを確立します。 特に、marlアルゴリズムにおける政策評価中に等価条件を正規化項として考慮し、新たな損失関数を開発する。 最後に,提案手法の有効性を非単調な行列ゲームシナリオで検証する。 さらに,汎用複雑なMARLベンチマーク環境であるStarcraft Multi-Agent Challenge (SMAC) において,QFreeが最先端の性能を達成することを示す。

Centralized training is widely utilized in the field of multi-agent reinforcement learning (MARL) to assure the stability of training process. Once a joint policy is obtained, it is critical to design a value function factorization method to extract optimal decentralized policies for the agents, which needs to satisfy the individual-global-max (IGM) principle. While imposing additional limitations on the IGM function class can help to meet the requirement, it comes at the cost of restricting its application to more complex multi-agent environments. In this paper, we propose QFree, a universal value function factorization method for MARL. We start by developing mathematical equivalent conditions of the IGM principle based on the advantage function, which ensures that the principle holds without any compromise, removing the conservatism of conventional methods. We then establish a more expressive mixing network architecture that can fulfill the equivalent factorization. In particular, the novel loss function is developed by considering the equivalent conditions as regularization term during policy evaluation in the MARL algorithm. Finally, the effectiveness of the proposed method is verified in a nonmonotonic matrix game scenario. Moreover, we show that QFree achieves the state-of-the-art performance in a general-purpose complex MARL benchmark environment, Starcraft Multi-Agent Challenge (SMAC).
翻訳日:2023-11-02 14:18:33 公開日:2023-11-01
# LatentWarp: ゼロショットビデオ・ビデオ翻訳のための連続拡散潜水器

LatentWarp: Consistent Diffusion Latents for Zero-Shot Video-to-Video Translation ( http://arxiv.org/abs/2311.00353v1 )

ライセンス: Link先を確認
Yuxiang Bao, Di Qiu, Guoliang Kang, Baochang Zhang, Bo Jin, Kaiye Wang, Pengfei Yan(参考訳) 画像拡散モデルの生成能力を活用することは、ゼロショットビデオからビデオへの翻訳に大きな可能性をもたらす。 重要なのは、画像拡散モデルによって生成されたビデオフレーム間の時間的一貫性を維持する方法にある。 従来手法では、時間的一貫性を促進するために、異なるフレームの注意にまたがる \textit{key} と \textit{value} トークンを共有する。 しかし、これらの作品では、時間的不整合問題が完全に解決されず、生成されたビデオの忠実度が制限される。 %) 美術用クロスフレームアテンション手法の現況は, フレーム間のきめ細かな視覚的詳細を維持することを目的としているが, 時間的コヒーレンス問題に悩まされている。 本稿では,制約のないクエリトークンにボトルネックがあることを見出し,新しいゼロショットビデオからビデオへの変換フレームワークである \textit{latentwarp} を提案する。 我々のアプローチは単純で、クエリトークンを時間的に一貫性のあるものに制限するため、クエリトークンを制約するために潜時空間にワープ操作を組み込む。 具体的には、原映像から得られた光フローに基づいて、発生したラストフレームの潜在特性をノイズ処理中に現在のフレームと整合させるように警告する。 その結果、隣接するフレームにまたがる対応する領域は、関連するクエリトークンとアテンションアウトプットを共有でき、さらに潜在レベルの一貫性を改善し、生成されたビデオの視覚的な時間的コヒーレンスを高めることができる。 時間的コヒーレンスによるビデオ間翻訳の実現において, <textit{LatentWarp} の優位性を示した。

Leveraging the generative ability of image diffusion models offers great potential for zero-shot video-to-video translation. The key lies in how to maintain temporal consistency across generated video frames by image diffusion models. Previous methods typically adopt cross-frame attention, \emph{i.e.,} sharing the \textit{key} and \textit{value} tokens across attentions of different frames, to encourage the temporal consistency. However, in those works, temporal inconsistency issue may not be thoroughly solved, rendering the fidelity of generated videos limited.%The current state of the art cross-frame attention method aims at maintaining fine-grained visual details across frames, but it is still challenged by the temporal coherence problem. In this paper, we find the bottleneck lies in the unconstrained query tokens and propose a new zero-shot video-to-video translation framework, named \textit{LatentWarp}. Our approach is simple: to constrain the query tokens to be temporally consistent, we further incorporate a warping operation in the latent space to constrain the query tokens. Specifically, based on the optical flow obtained from the original video, we warp the generated latent features of last frame to align with the current frame during the denoising process. As a result, the corresponding regions across the adjacent frames can share closely-related query tokens and attention outputs, which can further improve latent-level consistency to enhance visual temporal coherence of generated videos. Extensive experiment results demonstrate the superiority of \textit{LatentWarp} in achieving video-to-video translation with temporal coherence.
翻訳日:2023-11-02 14:18:12 公開日:2023-11-01
# ゴールコンディショニングエージェントのためのオープンエンド学習問題の定義

A Definition of Open-Ended Learning Problems for Goal-Conditioned Agents ( http://arxiv.org/abs/2311.00344v1 )

ライセンス: Link先を確認
Olivier Sigaud, Gianluca Baldassarre, Cedric Colas, Stephane Doncieux, Richard Duro, Nicolas Perrin-Gilbert, Vieri-Giuliano Santucci(参考訳) 最近の機械学習の研究論文の多くは、タイトルに"open-ended learning"がある。 しかし、その用語を使うことの意味を定義する試みはごくわずかである。 さらに悪いことに、より綿密に見ると、オープンエンド学習と継続的学習、生涯学習、オートテリック学習といった関連する概念の違いについてのコンセンサスはないようだ。 本稿では,この状況の解決に寄与する。 概念の系図と、それが本当に何を意味するのかのより最近の視点を図解した後、オープン・エンド・ラーニングは一般に多様な特性の集合を包含する複合概念として考えられていることを概説する。 これらのアプローチとは対照的に,我々は,無限の地平線上で常に新しい要素を創り出すオープンエンドプロセスの重要な基本特性を分離することを提案する。 そこで我々は,オープンディビジョン学習問題の概念を構築し,特にオープンディビジョン目標条件強化学習問題のサブセットに焦点をあてる。 最後に、私たちの基本的な定義と、発達型AI研究者が念頭に置いているであろうオープンエンドラーニングの概念とのギャップを埋めるために、まだ実行すべき作業を強調します。

A lot of recent machine learning research papers have "Open-ended learning" in their title. But very few of them attempt to define what they mean when using the term. Even worse, when looking more closely there seems to be no consensus on what distinguishes open-ended learning from related concepts such as continual learning, lifelong learning or autotelic learning. In this paper, we contribute to fixing this situation. After illustrating the genealogy of the concept and more recent perspectives about what it truly means, we outline that open-ended learning is generally conceived as a composite notion encompassing a set of diverse properties. In contrast with these previous approaches, we propose to isolate a key elementary property of open-ended processes, which is to always produce novel elements from time to time over an infinite horizon. From there, we build the notion of open-ended learning problems and focus in particular on the subset of open-ended goal-conditioned reinforcement learning problems, as this framework facilitates the definition of learning a growing repertoire of skills. Finally, we highlight the work that remains to be performed to fill the gap between our elementary definition and the more involved notions of open-ended learning that developmental AI researchers may have in mind.
翻訳日:2023-11-02 14:17:37 公開日:2023-11-01
# Distil-Whisper:大規模擬似ラベリングによるロバストな知識蒸留

Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling ( http://arxiv.org/abs/2311.00430v1 )

ライセンス: Link先を確認
Sanchit Gandhi, Patrick von Platen, Alexander M. Rush(参考訳) 事前学習された音声認識モデルのサイズが大きくなると、これらの大きなモデルを低レイテンシやリソース制約のある環境で実行することは困難になる。 本研究では,pseudo-labellingを利用して,whisperモデルを用いた大規模オープンソースデータセットを,ditil-whisperと呼ばれるより小さな変種に拡張する。 単純な単語誤り率 (WER) ヒューリスティックを用いて, トレーニングのための高品質な擬似ラベルのみを選択する。 蒸留モデルは51%のパラメータで5.8倍高速であり、一方ゼロショット転送環境では分布外試験データで1%以内の速度で蒸留する。 Distil-Whisper は、Whisper モデルの頑丈さを難聴な音響条件に維持する一方で、長めのオーディオの幻覚誤差も少なくする。 Distil-Whisperは投機的復号化のためにWhisperと組み合わせて設計されており、元のモデルと同じ出力を数学的に保証しながら2倍のスピードアップを実現している。 この領域のさらなる研究を促進するために、トレーニングコード、推論コード、モデルを公開アクセス可能にします。

As the size of pre-trained speech recognition models increases, running these large models in low-latency or resource-constrained environments becomes challenging. In this work, we leverage pseudo-labelling to assemble a large-scale open-source dataset which we use to distill the Whisper model into a smaller variant, called Distil-Whisper. Using a simple word error rate (WER) heuristic, we select only the highest quality pseudo-labels for training. The distilled model is 5.8 times faster with 51% fewer parameters, while performing to within 1% WER on out-of-distribution test data in a zero-shot transfer setting. Distil-Whisper maintains the robustness of the Whisper model to difficult acoustic conditions, while being less prone to hallucination errors on long-form audio. Distil-Whisper is designed to be paired with Whisper for speculative decoding, yielding a 2 times speed-up while mathematically ensuring the same outputs as the original model. To facilitate further research in this domain, we make our training code, inference code and models publicly accessible.
翻訳日:2023-11-02 14:12:13 公開日:2023-11-01
# Green Chromatic Coordinate (GCC) を用いた支援ベクトルマシンによる作物病の分類とIoTによるスマート農業用機能抽出

Crop Disease Classification using Support Vector Machines with Green Chromatic Coordinate (GCC) and Attention based feature extraction for IoT based Smart Agricultural Applications ( http://arxiv.org/abs/2311.00429v1 )

ライセンス: Link先を確認
Shashwat Jha, Vishvaditya Luhach, Gauri Shanker Gupta, Beependra Singh(参考訳) 作物は、エネルギー、栄養、薬効の主な供給源として、人間の人口にとって重要な存在である。 しかし、植物病は農業栽培中の葉に悪影響を及ぼし、作物の生産量と経済的価値に大きな損失をもたらす。 そのため、農家にとって作物病の特定が不可欠である。 しかし、この方法は、しばしば厳しい作業、多くの計画、植物病原体への深い親密さを必要とする。 このような多くの障害を考えると、農夫が最高の作物開発を保証できるように、モバイルやIoTデバイスと簡単に接続できるソリューションを提供することが不可欠です。 各種機械学習(ML)および深層学習(DL)アルゴリズムは、植物病の検出を識別するために作成・研究され、実質的で有望な結果をもたらす。 本稿では,注意に基づく特徴抽出,rgbチャネルに基づく色分析,パフォーマンス向上のためのサポートベクタマシン(svm),情報の量子化後のモバイルアプリケーションやiotデバイスとの統合など,先行研究に基づく新たな分類手法を提案する。 いくつかの疾患分類アルゴリズムが提案モデルと比較され, svm分類による視覚トランスフォーマーに基づく特徴抽出と, svm分類によるグリーンクロマティック座標機能の追加により, 精度 (gccvit-svm) - 99.69%, iotデバイス統合の量子化後の精度は97.41%, ほぼ4倍であった。 この発見は、農家が農作物の病気を正確かつ迅速な情報で識別し、農業生産を保ち、食料の安全を確保する方法を変える可能性を秘めている。

Crops hold paramount significance as they serve as the primary provider of energy, nutrition, and medicinal benefits for the human population. Plant diseases, however, can negatively affect leaves during agricultural cultivation, resulting in significant losses in crop output and economic value. Therefore, it is crucial for farmers to identify crop diseases. However, this method frequently necessitates hard work, a lot of planning, and in-depth familiarity with plant pathogens. Given these numerous obstacles, it is essential to provide solutions that can easily interface with mobile and IoT devices so that our farmers can guarantee the best possible crop development. Various machine learning (ML) as well as deep learning (DL) algorithms have been created & studied for the identification of plant disease detection, yielding substantial and promising results. This article presents a novel classification method that builds on prior work by utilising attention-based feature extraction, RGB channel-based chromatic analysis, Support Vector Machines (SVM) for improved performance, and the ability to integrate with mobile applications and IoT devices after quantization of information. Several disease classification algorithms were compared with the suggested model, and it was discovered that, in terms of accuracy, Vision Transformer-based feature extraction and additional Green Chromatic Coordinate feature with SVM classification achieved an accuracy of (GCCViT-SVM) - 99.69%, whereas after quantization for IoT device integration achieved an accuracy of - 97.41% while almost reducing 4x in size. Our findings have profound implications because they have the potential to transform how farmers identify crop illnesses with precise and fast information, thereby preserving agricultural output and ensuring food security.
翻訳日:2023-11-02 14:11:50 公開日:2023-11-01
# NEO-KD:ロバストなマルチエクイットニューラルネットワークのための知識蒸留に基づく逆学習

NEO-KD: Knowledge-Distillation-Based Adversarial Training for Robust Multi-Exit Neural Networks ( http://arxiv.org/abs/2311.00428v1 )

ライセンス: Link先を確認
Seokil Ham, Jungwuk Park, Dong-Jun Han, Jaekyun Moon(参考訳) マルチエグジットニューラルネットワークは、早期出口による効率的な推論のための有望なソリューションとされているが、敵の攻撃と戦うことは依然として難しい問題である。 マルチエクイットネットワークでは、異なるサブモデル間の依存性が高いため、特定のエグジットをターゲットとする敵対的な例は、ターゲットエグジットのパフォーマンスを低下させるだけでなく、他のすべてのエグジットのパフォーマンスを同時に低下させる。 これにより、マルチエクイットネットワークは単純な敵の攻撃に対して非常に脆弱になる。 本稿では,2つの重要な貢献に基づいて,この基本的な課題に対処する知識蒸留に基づく対人訓練戦略であるNEO-KDを提案する。 NEO-KDは、まず近隣の知識蒸留を利用して、敵のサンプルの出力を、クリーンデータの隣の出口のアンサンブル出力に誘導する。 neo-kdはまた、異なるサブモデル間の逆転移可能性を減らすために、出口側直交知識蒸留を用いる。 その結果、敵攻撃に対する堅牢性が大幅に向上した。 様々なデータセット/モデルを用いた実験の結果,マルチエクイットネットワークにおける既存の敵意訓練や知識蒸留技術に依存するベースラインと比較して,計算予算の削減により最適な敵意精度が得られることがわかった。

While multi-exit neural networks are regarded as a promising solution for making efficient inference via early exits, combating adversarial attacks remains a challenging problem. In multi-exit networks, due to the high dependency among different submodels, an adversarial example targeting a specific exit not only degrades the performance of the target exit but also reduces the performance of all other exits concurrently. This makes multi-exit networks highly vulnerable to simple adversarial attacks. In this paper, we propose NEO-KD, a knowledge-distillation-based adversarial training strategy that tackles this fundamental challenge based on two key contributions. NEO-KD first resorts to neighbor knowledge distillation to guide the output of the adversarial examples to tend to the ensemble outputs of neighbor exits of clean data. NEO-KD also employs exit-wise orthogonal knowledge distillation for reducing adversarial transferability across different submodels. The result is a significantly improved robustness against adversarial attacks. Experimental results on various datasets/models show that our method achieves the best adversarial accuracy with reduced computation budgets, compared to the baselines relying on existing adversarial training or knowledge distillation techniques for multi-exit networks.
翻訳日:2023-11-02 14:11:17 公開日:2023-11-01
# 疎開型手続き環境における自己刺激強化学習における優先化と多様性による一般化の促進

Enhanced Generalization through Prioritization and Diversity in Self-Imitation Reinforcement Learning over Procedural Environments with Sparse Rewards ( http://arxiv.org/abs/2311.00426v1 )

ライセンス: Link先を確認
Alain Andres, Daochen Zha and Javier Del Ser(参考訳) 探索は、情報的フィードバック信号の欠如により、エージェントが最適な意思決定を学習する能力を制限し、わずかな報酬で強化学習(RL)において根本的な課題となる。 セルフイミテーション学習(self-IL)は,リプレイバッファを利用して動作の保存と再現を行う,探索のための有望なアプローチとして登場した。 しかし、ハイリターン遷移に頼りシングルトン環境を仮定する従来のセルフIL手法は、特に手続き的に生成されたPCG環境において、一般化の課題に直面している。 そのため、持続する経験をランク付けする新たな自己IL法が提案されているが、それらの意義に関わらず遷移を均一に再生し、保存されたデモの多様性に対処しない。 本研究では,遷移を異なる方法で優先順位付けし,優先順位付け手法をpcg環境に拡張することで,自己加重サンプリング戦略を提案する。 また,一般化要求と優先順位付け手法によるバイアスの影響に対処するため,修正による多様性の損失にも対処した。 筆者らは,MiniGrid や ProcGen を含む3つのPCGスパース報酬環境上で行った実験により,提案手法の利点を強調し,MiniGrid-MultiRoom-N12-S10環境における新たな最先端性能を実現する。

Exploration poses a fundamental challenge in Reinforcement Learning (RL) with sparse rewards, limiting an agent's ability to learn optimal decision-making due to a lack of informative feedback signals. Self-Imitation Learning (self-IL) has emerged as a promising approach for exploration, leveraging a replay buffer to store and reproduce successful behaviors. However, traditional self-IL methods, which rely on high-return transitions and assume singleton environments, face challenges in generalization, especially in procedurally-generated (PCG) environments. Therefore, new self-IL methods have been proposed to rank which experiences to persist, but they replay transitions uniformly regardless of their significance, and do not address the diversity of the stored demonstrations. In this work, we propose tailored self-IL sampling strategies by prioritizing transitions in different ways and extending prioritization techniques to PCG environments. We also address diversity loss through modifications to counteract the impact of generalization requirements and bias introduced by prioritization techniques. Our experimental analysis, conducted over three PCG sparse reward environments, including MiniGrid and ProcGen, highlights the benefits of our proposed modifications, achieving a new state-of-the-art performance in the MiniGrid-MultiRoom-N12-S10 environment.
翻訳日:2023-11-02 14:10:54 公開日:2023-11-01
# 物体-環境相互作用を考慮したニューラルインプリシトフィールド編集

Neural Implicit Field Editing Considering Object-environment Interaction ( http://arxiv.org/abs/2311.00425v1 )

ライセンス: Link先を確認
Zhihong Zeng, Zongji Wang, Yuanben Zhang, Weinan Cai, Zehao Cao, Lili Zhang, Yan Guo, Yanhong Zhang and Junyi Liu(参考訳) ニューラル暗黙フィールドに基づく3次元シーン編集手法が注目されている。 3D編集作業で優れた結果を得た。 しかし、既存のメソッドは、しばしばオブジェクトとシーン環境の相互作用をブレンドする。 影のようなシーンの外観の変化は、レンダリングビューに表示されない。 本稿では,オブジェクトとシーン環境の相互作用を考慮した新しい2ストリームニューラルレンダリングシステムであるobject and scene environment interaction aware (osi-aware)システムを提案する。 混合スープから照明条件を得るため、本システムは内在分解法によるオブジェクトとシーン環境の相互作用を良好に分離する。 被写体レベルの編集タスクからシーンの出現に対応する変化を調べるため,ポイントマッチング戦略を用いて深度マップ案内シーンインペインティング法とシャドーレンダリング法を提案する。 広範囲にわたる実験により,新しいパイプラインがシーン編集作業において合理的な外観変化をもたらすことを実証した。 新規ビュー合成タスクにおけるレンダリング品質の競争性能も達成する。

The 3D scene editing method based on neural implicit field has gained wide attention. It has achieved excellent results in 3D editing tasks. However, existing methods often blend the interaction between objects and scene environment. The change of scene appearance like shadows is failed to be displayed in the rendering view. In this paper, we propose an Object and Scene environment Interaction aware (OSI-aware) system, which is a novel two-stream neural rendering system considering object and scene environment interaction. To obtain illuminating conditions from the mixture soup, the system successfully separates the interaction between objects and scene environment by intrinsic decomposition method. To study the corresponding changes to the scene appearance from object-level editing tasks, we introduce a depth map guided scene inpainting method and shadow rendering method by point matching strategy. Extensive experiments demonstrate that our novel pipeline produce reasonable appearance changes in scene editing tasks. It also achieve competitive performance for the rendering quality in novel-view synthesis tasks.
翻訳日:2023-11-02 14:10:28 公開日:2023-11-01
# 環境データと個人モデルの統合によるカペリン発生移行の追跡

Tracking capelin spawning migration -- Integrating environmental data and Individual-based modeling ( http://arxiv.org/abs/2311.00424v1 )

ライセンス: Link先を確認
Salah Alrabeei and Sam Subbey and Talal Rahman(参考訳) 本稿では,バレンツ海の魚種であるカペリンの産卵移動を追跡するためのモデルフレームワークを提案する。 このフレームワークは、個別ベースモデル(IBM)と人工知能ニューラルネットワーク(ANN)を組み合わせる。 ANNは局所的な環境情報に基づいて魚の動きの方向を決定する一方、遺伝的アルゴリズムとフィットネス機能は提案した方向の適合性を評価する。 この枠組みの有効性は、モデルと経験的ポテンシャル発生者の空間分布を比較して示される。 提案モデルは、北ノルウェー東岸の歴史的な産卵地における産卵魚の分布を正確に把握し、カペリンの南東への移動を再現することに成功した。 さらに,本研究は,提案手法と並行して,アクシブスイマー,温度勾配に基づくタクシー移動,限定領域探索の3つの移行モデルを比較した。 その結果,我々のアプローチは移行パターンを模倣する他のモデルよりも優れていることがわかった。 水流が沿岸から魚を遠ざけるのに重要な役割を果たした他のモデルとは異なり、ほとんどの産卵株は産卵場にたどり着くことができた。 温度勾配検出モデルと制限領域探索モデルは,複雑な海洋条件によるバレンツ海におけるカペリン発生の正確なシミュレーションには不十分であることがわかった。

This paper presents a modeling framework for tracking the spawning migration of the capelin, which is a fish species in the Barents Sea. The framework combines an individual-based model (IBM) with artificial neural networks (ANNs). The ANNs determine the direction of the fish's movement based on local environmental information, while a genetic algorithm and fitness function assess the suitability of the proposed directions. The framework's efficacy is demonstrated by comparing the spatial distributions of modeled and empirical potential spawners. The proposed model successfully replicates the southeastward movement of capelin during their spawning migration, accurately capturing the distribution of spawning fish over historical spawning sites along the eastern coast of northern Norway. Furthermore, the paper compares three migration models: passive swimmers, taxis movement based on temperature gradients, and restricted-area search, along with our proposed approach. The results reveal that our approach outperforms the other models in mimicking the migration pattern. Most spawning stocks managed to reach the spawning sites, unlike the other models where water currents played a significant role in pushing the fish away from the coast. The temperature gradient detection model and restricted-area search model are found to be inadequate for accurately simulating capelin spawning migration in the Barents Sea due to complex oceanographic conditions.
翻訳日:2023-11-02 14:10:14 公開日:2023-11-01
# 準備言語に基づく条約による効率的AIコーディネーション

Efficient Human-AI Coordination via Preparatory Language-based Convention ( http://arxiv.org/abs/2311.00416v1 )

ライセンス: Link先を確認
Cong Guan, Lichao Zhang, Chunpeng Fan, Yichen Li, Feng Chen, Lihe Li, Yunjia Tian, Lei Yuan, Yang Yu(参考訳) 人間とのシームレスな連携が可能なインテリジェントエージェントの開発は、人工知能の実現に向けた重要なステップである。 既存の人間とAIの調整方法は、エージェントに様々なポリシーや実際の人間のデータに適合した人間のモデルと調整するように訓練するのが一般的である。 しかし、人間の行動の非常に多様なスタイルは、制限された能力を持つaiシステムに障害をもたらし、高品質な人間データは現実世界のシナリオでは容易に利用できない可能性がある。 本研究では,コーディネーションに先立って人間がコミュニケーションを行い,個々の役割や行動を特定するコンベンションを確立することにより,コーディネーションを秩序ある方法で進行させることを観察する。 この観察に基づいて,人間とaiの両方を効果的に導く行動計画(あるいは慣例)を開発するために,大規模言語モデル(llm)を採用することを提案する。 タスク要件、人間の好み、エージェントの数、その他の関連する情報をLSMに入力することで、関連するすべての関係者のタスクや責任を明確に理解するための包括的な規約を作成できる。 さらに、コンベンションの定式化問題をサブプロブレムに分解し、複数の新しいセッションが順次採用され、人間のフィードバックによって、より効率的なコーディネーション・コンベンションが得られることを示す。 ヒューマンプロキシモデルを用いたオーバークッキングAI環境での実験評価では,既存の学習手法と比較して,提案手法の優れた性能を強調した。 実際の人間とコーディネートする場合,本手法は人間の好みとの整合性が向上し,平均性能が15%向上する。

Developing intelligent agents capable of seamless coordination with humans is a critical step towards achieving artificial general intelligence. Existing methods for human-AI coordination typically train an agent to coordinate with a diverse set of policies or with human models fitted from real human data. However, the massively diverse styles of human behavior present obstacles for AI systems with constrained capacity, while high quality human data may not be readily available in real-world scenarios. In this study, we observe that prior to coordination, humans engage in communication to establish conventions that specify individual roles and actions, making their coordination proceed in an orderly manner. Building upon this observation, we propose employing the large language model (LLM) to develop an action plan (or equivalently, a convention) that effectively guides both human and AI. By inputting task requirements, human preferences, the number of agents, and other pertinent information into the LLM, it can generate a comprehensive convention that facilitates a clear understanding of tasks and responsibilities for all parties involved. Furthermore, we demonstrate that decomposing the convention formulation problem into sub-problems with multiple new sessions being sequentially employed and human feedback, will yield a more efficient coordination convention. Experimental evaluations conducted in the Overcooked-AI environment, utilizing a human proxy model, highlight the superior performance of our proposed method compared to existing learning-based approaches. When coordinating with real humans, our method achieves better alignment with human preferences and an average performance improvement of 15% compared to the state-of-the-art.
翻訳日:2023-11-02 14:09:52 公開日:2023-11-01
# マルチタスクカスタマイズ型知覚損失を用いた肺コーンビームCT(CBCT)強調のための特徴指向ディープラーニングフレームワーク

Feature-oriented Deep Learning Framework for Pulmonary Cone-beam CT (CBCT) Enhancement with Multi-task Customized Perceptual Loss ( http://arxiv.org/abs/2311.00412v1 )

ライセンス: Link先を確認
Jiarui Zhu, Werxing Chen, Hongfei Sun, Shaohua Zhi, Jing Qin, Jing Cai, Ge Ren(参考訳) 画像誘導放射線治療(IGRT)中にCBCT(cone-beam Computed Tomography)を定期的に収集し,がん治療における最新の患者解剖情報を提供する。 しかし、CBCT画像は、しばしば低レートサンプリングプロジェクションと低線量露光によるストリーキングアーティファクトやノイズに悩まされ、明瞭度と情報損失が低くなる。 近年の深層学習に基づくCBCT強調法は, 人工物抑制に有望な結果を示しているが, 従来のピクセル・ピクセル・ロス関数では詳細な解剖を記述できないため, 解剖学的詳細の保存には限界がある。 そこで本研究では,低品質のcbct画像から高画質のctライクな画像に変換する機能指向深層学習フレームワークを提案する。 本フレームワークは、知覚損失関数をカスタマイズするマルチタスク学習機能選択ネットワーク(MTFS-Net)と、U-Net、GAN、CycleGANなどの先進的な生成モデルを用いた機能対知覚損失をガイドするCBCT-to-CT翻訳ネットワークとからなる。 提案手法は, 平均ssim指数 0.9869, 平均psnr指数 39.9621 で, ct画像と類似度の高い肺用合成ct(sct)画像を生成することができることを示した。 sCT画像は, 有効アーチファクト抑制, ノイズ低減, 特異な解剖学的詳細保存による視覚的快楽性も達成した。 以上の結果から,本フレームワークは肺CBCT増強の最先端モデルより優れていることが示唆された。 このフレームワークは、様々な臨床応用に適したcbctから高品質の解剖学的画像を生成することに大きな期待を持っている。

Cone-beam computed tomography (CBCT) is routinely collected during image-guided radiation therapy (IGRT) to provide updated patient anatomy information for cancer treatments. However, CBCT images often suffer from streaking artifacts and noise caused by under-rate sampling projections and low-dose exposure, resulting in low clarity and information loss. While recent deep learning-based CBCT enhancement methods have shown promising results in suppressing artifacts, they have limited performance on preserving anatomical details since conventional pixel-to-pixel loss functions are incapable of describing detailed anatomy. To address this issue, we propose a novel feature-oriented deep learning framework that translates low-quality CBCT images into high-quality CT-like imaging via a multi-task customized feature-to-feature perceptual loss function. The framework comprises two main components: a multi-task learning feature-selection network(MTFS-Net) for customizing the perceptual loss function; and a CBCT-to-CT translation network guided by feature-to-feature perceptual loss, which uses advanced generative models such as U-Net, GAN and CycleGAN. Our experiments showed that the proposed framework can generate synthesized CT (sCT) images for the lung that achieved a high similarity to CT images, with an average SSIM index of 0.9869 and an average PSNR index of 39.9621. The sCT images also achieved visually pleasing performance with effective artifacts suppression, noise reduction, and distinctive anatomical details preservation. Our experiment results indicate that the proposed framework outperforms the state-of-the-art models for pulmonary CBCT enhancement. This framework holds great promise for generating high-quality anatomical imaging from CBCT that is suitable for various clinical applications.
翻訳日:2023-11-02 14:09:26 公開日:2023-11-01
# 量子ウォークのポリアンダー可視化

Polyander visualization of quantum walks ( http://arxiv.org/abs/2311.00409v1 )

ライセンス: Link先を確認
Steven Duplij, Raimund Vogl(参考訳) 我々は,多くの現象のモデル化において重要な役割を果たす量子ウォークの研究を行う。 詳細かつ詳細な説明は、離散量子状態がウォーカーとコインの量子状態で構成される直線上の離散量子ウォークに与えられる。 標準的な歩行確率分布に加えて、より完全な量子ウォーク記述と、いわゆるポリアンデルス(DNAビジュアライゼーションにおけるトリアンデルのアナログ)による新しい可視化を提供するコイン確率分布を導入する。 最終状態計算の方法とフーリエ変換は、アダマール量子ウォークに対して提示される。

We investigate quantum walks which play an important role in the modelling of many phenomena. The detailed and thorough description is given to the discrete quantum walks on a line, where the total quantum state consists of quantum states of the walker and the coin. In addition to the standard walker probability distribution, we introduce the coin probability distribution which gives more complete quantum walk description and novel visualization in terms of the so called polyanders (analogs of trianders in DNA visualization). The methods of final states computation and the Fourier transform are presented for the Hadamard quantum walk.
翻訳日:2023-11-02 14:08:48 公開日:2023-11-01
# AdaSent: Few-Shot分類のための効率的なドメイン適応文埋め込み

AdaSent: Efficient Domain-Adapted Sentence Embeddings for Few-Shot Classification ( http://arxiv.org/abs/2311.00408v1 )

ライセンス: Link先を確認
Yongxin Huang, Kexin Wang, Sourav Dutta, Raj Nath Patel, Goran Glava\v{s}, Iryna Gurevych(参考訳) 近年の研究では、事前訓練された文エンコーダ(SEs)に基づく小文字の文分類が効率的で堅牢で効果的であることが判明している。 本稿では,sesを用いた小節文分類の文脈におけるドメイン特化戦略について検討する。 まず,基礎となる事前訓練言語モデル (PLM) の教師なしドメイン適応事前学習 (DAPT) が,最大8.4ポイントの誤り文分類の精度を大幅に向上させることを確認した。 しかし、DAPTをSEに適用すると、その(一般ドメイン) Sentence Embedding Pre-Training (SEPT) の効果を阻害する。 一方、一般ドメインSEPTをドメイン適応型ベースPLM(すなわちDAPT後)の上に適用することは効率的であるが、各ドメインのDAPT付きPLM上で計算コストの高いSEPTを実行する必要があるため、非効率である。 そこで本研究では,septアダプタをベースplm上でトレーニングすることでseptをdasentから分離するadasentを提案する。 アダプタは任意のドメインからDAPT-ed PLMに挿入できる。 AdaSentの有効性を、17種類の連発文分類データセットの広範な実験で実証する。 AdaSent は DAPT による PLM 上での完全 SEPT の性能にマッチするか、上回るが、トレーニングコストは大幅に削減される。 AdaSentのコードは利用可能だ。

Recent work has found that few-shot sentence classification based on pre-trained Sentence Encoders (SEs) is efficient, robust, and effective. In this work, we investigate strategies for domain-specialization in the context of few-shot sentence classification with SEs. We first establish that unsupervised Domain-Adaptive Pre-Training (DAPT) of a base Pre-trained Language Model (PLM) (i.e., not an SE) substantially improves the accuracy of few-shot sentence classification by up to 8.4 points. However, applying DAPT on SEs, on the one hand, disrupts the effects of their (general-domain) Sentence Embedding Pre-Training (SEPT). On the other hand, applying general-domain SEPT on top of a domain-adapted base PLM (i.e., after DAPT) is effective but inefficient, since the computationally expensive SEPT needs to be executed on top of a DAPT-ed PLM of each domain. As a solution, we propose AdaSent, which decouples SEPT from DAPT by training a SEPT adapter on the base PLM. The adapter can be inserted into DAPT-ed PLMs from any domain. We demonstrate AdaSent's effectiveness in extensive experiments on 17 different few-shot sentence classification datasets. AdaSent matches or surpasses the performance of full SEPT on DAPT-ed PLM, while substantially reducing the training costs. The code for AdaSent is available.
翻訳日:2023-11-02 14:08:40 公開日:2023-11-01
# カップルは扱いやすい: カップルの病院・住民問題に対する新しいアルゴリズムとハードネス結果

Couples can be tractable: New algorithms and hardness results for the Hospitals / Residents problem with Couples ( http://arxiv.org/abs/2311.00405v1 )

ライセンス: Link先を確認
Gergely Cs\'aji, David Manlove, Iain McBride and James Trimble(参考訳) 本稿では, 解が安定マッチングであるか, 存在しないという報告である, カップル問題 ({\sc hrc}) を考察する。 We present a novel polynomial-time algorithm that can find a near-feasible stable matching (adjusting the hospitals' capacities by at most 1) in an {\sc hrc} instance where the couples' preferences are sub-responsive (i.e., if one member switches to a better hospital, than the couple also improves) and sub-complete (i.e., each pair of hospitals that are individually acceptable to both members are jointly acceptable for the couple) by reducing it to an instance of the {\sc Stable Fixtures} problem. また,双対市場であるサブレスポンシブ・サブコンプリート・インスタンスや,すべてのカップルが複数の可能なタイプの1つである場合の多項式時間アルゴリズムを提案する。 また,本アルゴリズムは,グラフがループを持つ多重グラフである安定なbマッチング問題の多項式時間可解性についても示唆する。 我々はアルゴリズムをいくつかの難しい結果で補完する。 サブレスポンシブかつサブ完全結合を持つ {\sc hrc} は、他の強い制限でもnp-hardである。 また、デュアルマーケットを持つ {\sc hrc} は、複数の同時制限の下でNPハードであることを示す。 最後に、任意の$\varepsilon>0$ に対して、 {\sc hrc} における最小のブロックペア数とのマッチングを見つける問題は、m$ が病院の選好リストの総長である場合、p=np の場合を除き、各カップルが1対の病院にのみ適用される場合であっても、約$m^{1-\varepsilon}$ 以内にはならないことを示した。 我々の多項式時間可解性は、既知のcsc hrcの抽出可能なインスタンスのクラスを大きく拡大し、なぜ国家居住者マッチングプログラムのようなカップルが今日まで成功し続けるのかを、長期にわたるエントリーレベルの労働市場が示している。

In this paper we study the {\sc Hospitals / Residents problem with Couples} ({\sc hrc}), where a solution is a stable matching or a report that none exists. We present a novel polynomial-time algorithm that can find a near-feasible stable matching (adjusting the hospitals' capacities by at most 1) in an {\sc hrc} instance where the couples' preferences are sub-responsive (i.e., if one member switches to a better hospital, than the couple also improves) and sub-complete (i.e., each pair of hospitals that are individually acceptable to both members are jointly acceptable for the couple) by reducing it to an instance of the {\sc Stable Fixtures} problem. We also present a polynomial-time algorithm for {\sc hrc} in a sub-responsive, sub-complete instance that is a Dual Market, or where all couples are one of several possible types. We show that our algorithm also implies the polynomial-time solvability of a stable b-matching problem, where the underlying graph is a multigraph with loops. We complement our algorithms with several hardness results. We show that {\sc hrc} with sub-responsive and sub-complete couples is NP-hard, even with other strong restrictions. We also show that {\sc hrc} with a Dual Market is NP-hard under several simultaneous restrictions. Finally, we show that the problem of finding a matching with the minimum number of blocking pairs in {\sc hrc} is not approximable within $m^{1-\varepsilon}$, for any $\varepsilon>0$, where $m$ is the total length of the hospitals' preference lists, unless P=NP, even if each couple applies to only one pair of hospitals. Our polynomial-time solvability results greatly expand the class of known tractable instances of {\sc hrc} and provide additional evidence as to why long-standing entry-level labour markets that allow couples such as the National Resident Matching Program remain successful to this day.
翻訳日:2023-11-02 14:08:14 公開日:2023-11-01
# 教育シナリオにおける人文評価・訂正のための時空間変換器に基づく枠組み

A Spatial-Temporal Transformer based Framework For Human Pose Assessment And Correction in Education Scenarios ( http://arxiv.org/abs/2311.00401v1 )

ライセンス: Link先を確認
Wenyang Hu, Kai Liu, Libin Liu, Huiliang Shang(参考訳) 人間のポーズ評価と修正は、コンピュータビジョン、ロボティクス、スポーツ分析、医療、エンタテインメントなど、さまざまな分野のアプリケーションにおいて重要な役割を果たす。 本稿では,身体運動や理科実験などの教育シナリオにおける人間のポーズアセスメントと修正のための時空間トランスフォーマーベースフレームワーク(STTF)を提案する。 骨格追跡、ポーズ推定、姿勢評価、姿勢修正モジュールから構成されるフレームワークは、専門的かつ迅速なフィードバックを持つ学生を教育する。 また、視覚支援の形で補正フィードバックを提供するために、ポーズ補正手法も作成する。 フレームワークを独自のデータセットでテストします。 それは (a)5回の練習の新記録 (b)同じ演習のインターネット上に存在する既存の録音 (c)プロのアスリートや教師による録音に対する補正的フィードバック。 その結果,本モデルは学生の行動の質を効果的に測定し,コメントできることがわかった。 sttfは、変圧器モデルの力を利用して、人間のポーズにおける時間的および時間的依存性を捉え、正確な評価と学生の動きの効果的な補正を可能にする。

Human pose assessment and correction play a crucial role in applications across various fields, including computer vision, robotics, sports analysis, healthcare, and entertainment. In this paper, we propose a Spatial-Temporal Transformer based Framework (STTF) for human pose assessment and correction in education scenarios such as physical exercises and science experiment. The framework comprising skeletal tracking, pose estimation, posture assessment, and posture correction modules to educate students with professional, quick-to-fix feedback. We also create a pose correction method to provide corrective feedback in the form of visual aids. We test the framework with our own dataset. It comprises (a) new recordings of five exercises, (b) existing recordings found on the internet of the same exercises, and (c) corrective feedback on the recordings by professional athletes and teachers. Results show that our model can effectively measure and comment on the quality of students' actions. The STTF leverages the power of transformer models to capture spatial and temporal dependencies in human poses, enabling accurate assessment and effective correction of students' movements.
翻訳日:2023-11-02 14:07:11 公開日:2023-11-01
# 最大エントロピーと物体圏損失を考慮したオープンセット顔認識

Open-Set Face Recognition with Maximal Entropy and Objectosphere Loss ( http://arxiv.org/abs/2311.00400v1 )

ライセンス: Link先を確認
Rafael Henrique Vareto, Yu Linghu, Terrance E. Boult, William Robson Schwartz, Manuel G\"unther(参考訳) オープンセット顔認識は、訓練や入学の段階で見えない未知の個人が手術時間に現れるシナリオを特徴付ける。 この作業は、低い偽陽性識別率で動作することが期待されるオープンセットタスクである、ウォッチリストに集中しており、一般的には、アイデンティティ当たりの登録サンプルはわずかである。 我々は,Objectosphere Loss (OS) や提案するMaximal Entropy Loss (MEL) などのコスト関数と組み合わせることで,付加的な負の顔画像の恩恵を受けるコンパクトなアダプタネットワークを提案する。 melは従来のクロスエントロピー損失を修正し、負のサンプルのエントロピーを増やし、ギャラリーの専門化に従って既知のターゲットクラスにペナルティを課す。 提案手法では,顔認識を特徴抽出器として,事前学習したディープニューラルネットワーク(DNN)を採用する。 そして、アダプタネットワークは、深い特徴表現を取り、アジャイルドメイン適応と引き換えに、事前訓練されたDNNの出力層の代わりに機能する。 LFW, IJB-C, UCCSの3つの異なるデータセットに対するオープンセットプロトコルと, アダプタネットワークを微調整するために, 補足的負のデータが適切に選択された場合の最先端性能の結果が得られた。

Open-set face recognition characterizes a scenario where unknown individuals, unseen during the training and enrollment stages, appear on operation time. This work concentrates on watchlists, an open-set task that is expected to operate at a low False Positive Identification Rate and generally includes only a few enrollment samples per identity. We introduce a compact adapter network that benefits from additional negative face images when combined with distinct cost functions, such as Objectosphere Loss (OS) and the proposed Maximal Entropy Loss (MEL). MEL modifies the traditional Cross-Entropy loss in favor of increasing the entropy for negative samples and attaches a penalty to known target classes in pursuance of gallery specialization. The proposed approach adopts pre-trained deep neural networks (DNNs) for face recognition as feature extractors. Then, the adapter network takes deep feature representations and acts as a substitute for the output layer of the pre-trained DNN in exchange for an agile domain adaptation. Promising results have been achieved following open-set protocols for three different datasets: LFW, IJB-C, and UCCS as well as state-of-the-art performance when supplementary negative data is properly selected to fine-tune the adapter network.
翻訳日:2023-11-02 14:06:44 公開日:2023-11-01
# 放射線レポート作成のための知識注入の強化

Enhanced Knowledge Injection for Radiology Report Generation ( http://arxiv.org/abs/2311.00399v1 )

ライセンス: Link先を確認
Qingqiu Li, Jilan Xu, Runtian Yuan, Mohan Chen, Yuejie Zhang, Rui Feng, Xiaobo Zhang, Shang Gao(参考訳) 放射線科医のかなりの作業負荷を軽減し、経験の少ない患者に潜在的な異常を思い出させるので、放射線学レポートの自動生成は重要な臨床的価値を持っている。 自然画像領域における様々な画像キャプション手法の顕著な性能にもかかわらず、医用画像の正確なレポートを生成することは依然として課題に直面している。 そこで本研究では,2つの分枝を用いて異なる知識を抽出できる知識注入フレームワークを提案する。 重み付き概念知識(wck)部門はtf-idfスコアに重みづけられた臨床医学的概念を導入する責任がある。 マルチモーダル検索知識(mrk)は類似した報告から三重項を抽出し、実体の位置や存在に関する重要な臨床情報を強調している。 この精細で構造化された知識を現在のイメージに統合することで、マルチソースの知識を活用し、最終的により正確なレポート生成を可能にします。 2つの公開ベンチマークで広範な実験が行われ、この手法が他の最先端手法よりも優れた性能を達成することを実証した。 アブレーション研究は、2つの抽出された知識源の有効性をさらに検証する。

Automatic generation of radiology reports holds crucial clinical value, as it can alleviate substantial workload on radiologists and remind less experienced ones of potential anomalies. Despite the remarkable performance of various image captioning methods in the natural image field, generating accurate reports for medical images still faces challenges, i.e., disparities in visual and textual data, and lack of accurate domain knowledge. To address these issues, we propose an enhanced knowledge injection framework, which utilizes two branches to extract different types of knowledge. The Weighted Concept Knowledge (WCK) branch is responsible for introducing clinical medical concepts weighted by TF-IDF scores. The Multimodal Retrieval Knowledge (MRK) branch extracts triplets from similar reports, emphasizing crucial clinical information related to entity positions and existence. By integrating this finer-grained and well-structured knowledge with the current image, we are able to leverage the multi-source knowledge gain to ultimately facilitate more accurate report generation. Extensive experiments have been conducted on two public benchmarks, demonstrating that our method achieves superior performance over other state-of-the-art methods. Ablation studies further validate the effectiveness of two extracted knowledge sources.
翻訳日:2023-11-02 14:05:44 公開日:2023-11-01
# 全教師付き参照表現セグメンテーションを目指して

Towards Omni-supervised Referring Expression Segmentation ( http://arxiv.org/abs/2311.00397v1 )

ライセンス: Link先を確認
Minglang Huang, Yiyi Zhou, Gen Luo, Guannan Jiang, Weilin Zhuang, Xiaoshuai Sun(参考訳) Referring Expression Segmentation (RES)はコンピュータビジョンにおける新たなタスクであり、テキスト記述に基づいてターゲットインスタンスを画像にセグメントする。 しかし、その開発は高価なセグメンテーションラベルに苦しめられている。 そこで本研究では,無ラベル,完全ラベル付き,弱いラベル付きデータ(参照点や接地ボックスなど)を最大限に活用し,効率的なresトレーニングを実現することを目的とした,omni-res(omni-res)と呼ばれるresのための新しい学習タスクを提案する。 この課題を達成するために,教師学生の学習において,弱ラベルを直接監督信号に変換するのではなく,高品質な擬似マスクを選択・洗練するためのヤードスティックとして使用する,近年普及しているOmni-RESの強力なベースライン手法を提案する。 提案したOmni-RES法の有効性を検証するために,この手法を最先端のRESモデルに適用し,多数のRESデータセットに対して広範な実験を行う。 実験の結果、Omni-RESの利点は、完全に教師付きおよび半教師付きトレーニングスキームよりも明らかである。 例えば、10%の完全なラベル付きデータしか持たないOmni-RESは、ベースモデルが100%完全な教師付きパフォーマンスを達成するのに役立ち、また、RefCOCOでは+14.93%、RefCOCO+では+14.95%といった大きなマージンで、半教師付き代替よりも優れている。 さらに重要なこととして、Omni-RESは、Visual Genomeのような大規模な視覚言語を使用して、低コストのRESトレーニングを促進し、RefCOCOの80.66のようなRESの新しいSOTAパフォーマンスを実現する。

Referring Expression Segmentation (RES) is an emerging task in computer vision, which segments the target instances in images based on text descriptions. However, its development is plagued by the expensive segmentation labels. To address this issue, we propose a new learning task for RES called Omni-supervised Referring Expression Segmentation (Omni-RES), which aims to make full use of unlabeled, fully labeled and weakly labeled data, e.g., referring points or grounding boxes, for efficient RES training. To accomplish this task, we also propose a novel yet strong baseline method for Omni-RES based on the recently popular teacher-student learning, where where the weak labels are not directly transformed into supervision signals but used as a yardstick to select and refine high-quality pseudo-masks for teacher-student learning. To validate the proposed Omni-RES method, we apply it to a set of state-of-the-art RES models and conduct extensive experiments on a bunch of RES datasets. The experimental results yield the obvious merits of Omni-RES than the fully-supervised and semi-supervised training schemes. For instance, with only 10% fully labeled data, Omni-RES can help the base model achieve 100% fully supervised performance, and it also outperform the semi-supervised alternative by a large margin, e.g., +14.93% on RefCOCO and +14.95% on RefCOCO+, respectively. More importantly, Omni-RES also enable the use of large-scale vision-langauges like Visual Genome to facilitate low-cost RES training, and achieve new SOTA performance of RES, e.g., 80.66 on RefCOCO.
翻訳日:2023-11-02 14:05:15 公開日:2023-11-01
# ロバストおよび共役ガウス過程回帰

Robust and Conjugate Gaussian Process Regression ( http://arxiv.org/abs/2311.00463v1 )

ライセンス: Link先を確認
Matias Altamirano, Fran\c{c}ois-Xavier Briol, Jeremias Knoblauch(参考訳) 閉形式条件付けを可能にするため、ガウス過程(GP)回帰の共通仮定は独立であり、同一分布ガウス観測ノイズである。 この強固で単純化された仮定は、多くの場合、信頼できない推論と不確実性定量化につながる。 残念ながら、既存のGPの堅牢化手法はクローズドフォーム条件付けを破り、実践者にとってより魅力的になり、計算コストも大幅に高くなる。 本稿では,一般化ベイズ推定法を用いて,事実上追加コストを伴わないロバストかつ共役ガウス過程 (rcgp) の回帰を行う方法を示す。 RCGPは、標準GPがそれを認めるすべての設定で正確な共役クローズドフォーム更新を可能にするため、特に汎用性がある。 その強力な経験的性能を示すために,ベイズ最適化からスパース変分ガウス過程まで,RCGPをデプロイする。

To enable closed form conditioning, a common assumption in Gaussian process (GP) regression is independent and identically distributed Gaussian observation noise. This strong and simplistic assumption is often violated in practice, which leads to unreliable inferences and uncertainty quantification. Unfortunately, existing methods for robustifying GPs break closed-form conditioning, which makes them less attractive to practitioners and significantly more computationally expensive. In this paper, we demonstrate how to perform provably robust and conjugate Gaussian process (RCGP) regression at virtually no additional cost using generalised Bayesian inference. RCGP is particularly versatile as it enables exact conjugate closed form updates in all settings where standard GPs admit them. To demonstrate its strong empirical performance, we deploy RCGP for problems ranging from Bayesian optimisation to sparse variational Gaussian processes.
翻訳日:2023-11-02 13:58:08 公開日:2023-11-01
# ロボット設計における双曲埋め込みの活用

Leveraging Hyperbolic Embeddings for Coarse-to-Fine Robot Design ( http://arxiv.org/abs/2311.00462v1 )

ライセンス: Link先を確認
Heng Dong, Junyu Zhang, Chongjie Zhang(参考訳) 多細胞ロボットの設計の目的は、多様なタスクを効率的に制御できる多数の細胞からなるロボットを作ることである。 これまでの研究では、さまざまなタスクのためのロボットを生成する能力が実証されてきたが、これらのアプローチは、しばしば広大なデザイン空間でロボットを直接最適化する。 そこで本研究では,多細胞ロボットを設計する手法を提案する。 まず、この戦略は最適な粗粒ロボットを探し、段階的に精製する。 本稿では,ロボット設計のための双曲組込み(herd)フレームワークを提案する。 HERDは共有双曲空間内で様々な粒度のロボットを統一し、最適化のために洗練されたクロスエントロピー法を利用する。 本手法は,双曲空間における探索領域を自律的に同定し,将来性を示す領域に集中することを可能にする。 最後に、EvoGymから得られた様々な課題に関する広範な実証研究は、我々のアプローチの優れた効率性と一般化能力を示している。

Multi-cellular robot design aims to create robots comprised of numerous cells that can be efficiently controlled to perform diverse tasks. Previous research has demonstrated the ability to generate robots for various tasks, but these approaches often optimize robots directly in the vast design space, resulting in robots with complicated morphologies that are hard to control. In response, this paper presents a novel coarse-to-fine method for designing multi-cellular robots. Initially, this strategy seeks optimal coarse-grained robots and progressively refines them. To mitigate the challenge of determining the precise refinement juncture during the coarse-to-fine transition, we introduce the Hyperbolic Embeddings for Robot Design (HERD) framework. HERD unifies robots of various granularity within a shared hyperbolic space and leverages a refined Cross-Entropy Method for optimization. This framework enables our method to autonomously identify areas of exploration in hyperbolic space and concentrate on regions demonstrating promise. Finally, the extensive empirical studies on various challenging tasks sourced from EvoGym show our approach's superior efficiency and generalization capability.
翻訳日:2023-11-02 13:57:51 公開日:2023-11-01
# 2つの円偏光ビーム場におけるコヒーレント・ポピュレーション・トラッピング原子時計の光シフト抑制

Light Shift Suppression in Coherent-Population-Trapping Atomic Clocks in the Field of Two Circularly Polarized Light Beams ( http://arxiv.org/abs/2311.00461v1 )

ライセンス: Link先を確認
D.V. Brazhnikov, S.M. Ignatovich and M.N. Skvortsov(参考訳) 最先端のミニチュア原子時計(MAC)は、アルカリ金属原子蒸気(RbまたはCs)中のコヒーレント集団トラップ(CPT)現象に基づいている。 クロックの周波数安定性の増大は、多くの応用分野において著しい進歩をもたらす緊急問題である。 そこで本研究では,2つの双色光線からなる光電場構成について検討した。 ビームはcs d$_1$ラインの光遷移と共鳴している(\lambda$$$$895$ nm)。 この構成は、標準のシングルビーム方式に比べてコントラストの増大したCPT共鳴を観測することが知られている。 しかし、従来の研究とは対照的に、プローブビームの伝送を別々に監視する2つの独立したポンプとプローブビームのスキームを用いる。 実験はバッファガスを充填した5$\times$5$\times$5$$\times$5$ mm$^3$気相セルを用いて行われる。 共鳴の線形状は、ビーム間のマイクロ波(ラマン)位相によって効率的に制御できる非対称性を得ることが示されている。 概念実証として、この非対称性が、CPTクロックの長期周波数安定性に対するアクスタークシフトの影響を大幅に緩和する方法について研究する。 実験は分散ブラッグ反射器(DBR)レーザーと垂直キャビティ表面発光レーザ(VCSEL)で行う。 後者はMACの開発において特に重要である。 実験結果は、原子エネルギー準位の二重の$\lambda$スキームに基づく分析理論と定性的に一致している。

The state-of-the-art miniature atomic clocks (MACs) are based on the phenomenon of coherent population trapping (CPT) in alkali-metal atomic vapors (Rb or Cs). Increasing frequency stability of the clocks is an urgent issue that will lead to significant progress in many fields of application. Here, we examine a light field configuration composed of two bichromatic light beams with opposite handedness of their circular polarization. The beams are in resonance with optical transitions in the Cs D$_1$ line ($\lambda$$\approx$$895$ nm). This configuration has already been known for observing CPT resonances of an increased contrast compared to a standard single-beam scheme. However, in contrast to previous studies, we use a scheme with two independent pump and probe beams, where the probe beam transmission is separately monitored. The experiments are carried out with a buffer-gas-filled $5$$\times$$5$$\times$$5$ mm$^3$ vapor cell. It is shown that the resonance's line shape acquires asymmetry which can be efficiently controlled by a microwave (Raman) phase between the beams. As a proof of concept, we study the way how this asymmetry can help to significantly mitigate the influence of ac Stark (light) shift on a long-term frequency stability of CPT clocks. The experimental verification is performed both with a distributed-Bragg-reflector (DBR) laser and a vertical-cavity surface-emitting laser (VCSEL). The latter has a particular importance for developing MACs. The results of experiments are in qualitative agreement with analytical theory based on a double $\Lambda$ scheme of atomic energy levels.
翻訳日:2023-11-02 13:57:35 公開日:2023-11-01
# 生成モデルに対する最適予算削減サンプリング

Optimal Budgeted Rejection Sampling for Generative Models ( http://arxiv.org/abs/2311.00460v1 )

ライセンス: Link先を確認
Alexandre Verine and Muni Sreenivas Pydi and Benjamin Negrevergne and Yann Chevaleyre(参考訳) 弁別器に基づく生成モデルの性能を向上させるために,最近,拒絶サンプリング法が提案されている。 しかし、これらの方法は無制限のサンプリング予算でのみ最適であり、通常、拒絶手続きとは独立に訓練された生成器に適用される。 提案手法は,まず,所定のサンプリング予算に対して,真の分布とポストリジェクション分布の間の$f$-divergenceに対して,有効に最適である最適バッジリジェクションサンプリング(OBRS)方式を提案する。 第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。 実験と支持理論により,提案手法は試料の品質と多様性を著しく向上させるのに有効であることを示した。

Rejection sampling methods have recently been proposed to improve the performance of discriminator-based generative models. However, these methods are only optimal under an unlimited sampling budget, and are usually applied to a generator trained independently of the rejection procedure. We first propose an Optimal Budgeted Rejection Sampling (OBRS) scheme that is provably optimal with respect to \textit{any} $f$-divergence between the true distribution and the post-rejection distribution, for a given sampling budget. Second, we propose an end-to-end method that incorporates the sampling scheme into the training procedure to further enhance the model's overall performance. Through experiments and supporting theory, we show that the proposed methods are effective in significantly improving the quality and diversity of the samples.
翻訳日:2023-11-02 13:57:12 公開日:2023-11-01
# 高忠実な形状とテクスチャを有する単視点3次元シーン再構成

Single-view 3D Scene Reconstruction with High-fidelity Shape and Texture ( http://arxiv.org/abs/2311.00457v1 )

ライセンス: Link先を確認
Yixin Chen, Junfeng Ni, Nan Jiang, Yaowei Zhang, Yixin Zhu, Siyuan Huang(参考訳) 単一視点画像から詳細な3Dシーンを再構成することは、主に幾何学的形状の復元、物体の外観、細かな形状の細部など、既存のアプローチの限界のために依然として難しい課題である。 これらの課題に対処するために,単視点画像から物体形状とテクスチャを同時に再現する新しい枠組みを提案する。 提案手法は,SSR(Single-view Neural implicit Shape and Radiance Field)表現を用いて,色,深度,表面の正常画像の3次元形状管理とボリュームレンダリングの両方を活用する。 部分観察下での形状・外観のあいまいさを克服するために,3Dと2Dの両方を取り入れた2段階の学習カリキュラムを導入する。 我々のフレームワークの特徴は、単一のビュー3D再構成モデルにレンダリング機能をシームレスに統合しながら、きめ細かいテクスチャメッシュを生成する能力である。 この統合により、3D-FRONTデータセットとPix3Dデータセットで、テクスチャ化された3Dオブジェクトの再構成を27.7%と11.6%改善できるだけでなく、新しい視点からの画像のレンダリングもサポートする。 提案手法は,オブジェクトレベルの表現をフレキシブルなシーン表現に構成することで,全体像理解や3Dシーン編集などの応用を可能にする。 本手法の有効性を示すために広範な実験を行った。

Reconstructing detailed 3D scenes from single-view images remains a challenging task due to limitations in existing approaches, which primarily focus on geometric shape recovery, overlooking object appearances and fine shape details. To address these challenges, we propose a novel framework for simultaneous high-fidelity recovery of object shapes and textures from single-view images. Our approach utilizes the proposed Single-view neural implicit Shape and Radiance field (SSR) representations to leverage both explicit 3D shape supervision and volume rendering of color, depth, and surface normal images. To overcome shape-appearance ambiguity under partial observations, we introduce a two-stage learning curriculum incorporating both 3D and 2D supervisions. A distinctive feature of our framework is its ability to generate fine-grained textured meshes while seamlessly integrating rendering capabilities into the single-view 3D reconstruction model. This integration enables not only improved textured 3D object reconstruction by 27.7% and 11.6% on the 3D-FRONT and Pix3D datasets, respectively, but also supports the rendering of images from novel viewpoints. Beyond individual objects, our approach facilitates composing object-level representations into flexible scene representations, thereby enabling applications such as holistic scene understanding and 3D scene editing. We conduct extensive experiments to demonstrate the effectiveness of our method.
翻訳日:2023-11-02 13:56:58 公開日:2023-11-01
# シャドウ除去のためのプログレッシブリカレントネットワーク

Progressive Recurrent Network for Shadow Removal ( http://arxiv.org/abs/2311.00455v1 )

ライセンス: Link先を確認
Yonghui Wang, Wengang Zhou, Hao Feng, Li Li, Houqiang Li(参考訳) シングルイメージシャドーの削除は、まだ解決されていない重要なタスクである。 既存のディープラーニングベースのアプローチのほとんどは、シャドウを直接削除しようとするが、シャドウをうまく扱えない。 この問題に対処するため,我々は影を細かな方法で取り除き,単純かつ効果的なプログレッシブ・リカレント・ネットワーク(prnet)を提案する。 ネットワークはシャドウを徐々に取り除き、パフォーマンスと時間のバランスを取るためにイテレーションの数を柔軟に調整することを目的としています。 我々のネットワークはシャドウ特徴抽出とプログレッシブシャドウ除去の2つの部分からなる。 具体的には、第1部は、入力シャドウ画像の表現を元のサイズで構成し、ダウンサンプリング動作による高周波ディテールの損失を防止する浅層再ネットである。 第2部では,再統合モジュールと更新モジュールという,2つの重要なコンポーネントがある。 提案された再統合モジュールは、以前のイテレーションの出力を完全に使用でき、アップデートモジュールの入力により、さらなるシャドウ削除が可能になる。 このようにして、提案するprnetはプロセス全体をより簡潔にし、最良の公開メソッドよりも29%のネットワークパラメータのみを使用する。 ISTD, ISTD+, SRDの3つのベンチマーク実験により, 本手法が効果的に影を除去し, 優れた性能が得られることを示した。

Single-image shadow removal is a significant task that is still unresolved. Most existing deep learning-based approaches attempt to remove the shadow directly, which can not deal with the shadow well. To handle this issue, we consider removing the shadow in a coarse-to-fine fashion and propose a simple but effective Progressive Recurrent Network (PRNet). The network aims to remove the shadow progressively, enabing us to flexibly adjust the number of iterations to strike a balance between performance and time. Our network comprises two parts: shadow feature extraction and progressive shadow removal. Specifically, the first part is a shallow ResNet which constructs the representations of the input shadow image on its original size, preventing the loss of high-frequency details caused by the downsampling operation. The second part has two critical components: the re-integration module and the update module. The proposed re-integration module can fully use the outputs of the previous iteration, providing input for the update module for further shadow removal. In this way, the proposed PRNet makes the whole process more concise and only uses 29% network parameters than the best published method. Extensive experiments on the three benchmarks, ISTD, ISTD+, and SRD, demonstrate that our method can effectively remove shadows and achieve superior performance.
翻訳日:2023-11-02 13:56:31 公開日:2023-11-01
# CLIP-AD:ゼロショット異常検出のための言語ガイド付き段数パスモデル

CLIP-AD: A Language-Guided Staged Dual-Path Model for Zero-shot Anomaly Detection ( http://arxiv.org/abs/2311.00453v1 )

ライセンス: Link先を確認
Xuhai Chen, Jiangning Zhang, Guanzhong Tian, Haoyang He, Wuhao Zhang, Yabiao Wang, Chengjie Wang, Yunsheng Wu, Yong Liu(参考訳) 本稿では,テスト対象の参照画像を用いずにadを実行する,価値ある未検証タスクであるゼロショット異常検出(ad)について考察する。 具体的には、言語誘導型戦略を採用し、大規模視覚言語モデルCLIPの優れたゼロショット分類機能を活用する、シンプルなyet- EffectiveアーキテクチャCLIP-ADを提案する。 anomaly segmentationの自然なアイデアは、テキストと画像の類似度を直接計算することだが、結果の反対の予測と無関係なハイライトを観察する。 この現象にインスパイアされたSDP(Staged Dual-Path Model)は,様々なレベルの特徴を効果的に活用し,これらの問題に対処するためのアーキテクチャと機能手術を適用する。 さらに, 表面現象を超えて, 埋め込み空間におけるテキスト・画像特徴の誤認から生じる問題を明らかにする。 そこで我々は,線形層を追加し,拡張モデル SDP+ を構築することによって微調整戦略を導入し,さらなる性能向上を図る。 例えば、VisAではSDPがSOTAを+1.0/+1.2で上回り、SDP+は+1.9/+11.7で改善した。

This paper considers zero-shot Anomaly Detection (AD), a valuable yet under-studied task, which performs AD without any reference images of the test objects. Specifically, we employ a language-guided strategy and propose a simple-yet-effective architecture CLIP-AD, leveraging the superior zero-shot classification capabilities of the large vision-language model CLIP. A natural idea for anomaly segmentation is to directly calculate the similarity between text/image features, but we observe opposite predictions and irrelevant highlights in the results. Inspired by the phenomena, we introduce a Staged Dual-Path model (SDP) that effectively uses features from various levels and applies architecture and feature surgery to address these issues. Furthermore, delving beyond surface phenomena, we identify the problem arising from misalignment of text/image features in the joint embedding space. Thus, we introduce a fine-tuning strategy by adding linear layers and construct an extended model SDP+, further enhancing the performance. Abundant experiments demonstrate the effectiveness of our approach, e.g., on VisA, SDP outperforms SOTA by +1.0/+1.2 in classification/segmentation F1 scores, while SDP+ achieves +1.9/+11.7 improvements.
翻訳日:2023-11-02 13:56:09 公開日:2023-11-01
# ヘッセン固有ベクトルとニューラルネットワーク重み行列の主成分分析

Hessian Eigenvectors and Principal Component Analysis of Neural Network Weight Matrices ( http://arxiv.org/abs/2311.00452v1 )

ライセンス: Link先を確認
David Haink(参考訳) 本研究では,訓練された深層ニューラルネットワークの複雑なダイナミクスとネットワークパラメータとの関係について考察する。 訓練ネットワークは主にドリフトモードと呼ばれる単一の方向のトレーニングを継続する。 このドリフトモードは損失関数の二次ポテンシャルモデルによって説明され、ポテンシャルミニマへの緩やかな指数的減衰が示唆される。 ヘシアン固有ベクトルとネットワーク重みの関係を明らかにする。 この関係は固有値の大きさに依存しており、ネットワーク内のパラメータの方向を識別できる。 特に、これらの方向の重要性は、ポテンシャル井戸の曲率(ヘッセン固有値の大きさによって示される)と重みベクトルとのアライメントの2つの定義属性に依存する。 我々の研究は、特異値分解による重み行列の分解にまで及んでいる。 このアプローチは、その大きさと曲率の両方を考慮して、ヘッセン圏内の臨界方向を特定する実践的な方法である。 さらに,本研究はヘッセン語を近似する主成分分析の適用性を示し,更新パラメータは重みよりも優れた選択であることを示した。 興味深いことに、我々の発見は個々の階層の最大のヘッセン固有値とネットワーク全体の類似性を明らかにした。 特に、より高い固有値はより深い層に集中する。 これらの洞察を活用することで、私たちは破滅的な忘れ、ニューラルネットワークによる新しいタスクの学習における課題に対処し、以前のタスクからの知識を維持します。 我々の発見を適用して、破滅的な忘れを緩和する効果的な戦略を定式化し、より大きなアーキテクチャを含む様々なスケールのネットワークに適用可能な解決策を提供する。

This study delves into the intricate dynamics of trained deep neural networks and their relationships with network parameters. Trained networks predominantly continue training in a single direction, known as the drift mode. This drift mode can be explained by the quadratic potential model of the loss function, suggesting a slow exponential decay towards the potential minima. We unveil a correlation between Hessian eigenvectors and network weights. This relationship, hinging on the magnitude of eigenvalues, allows us to discern parameter directions within the network. Notably, the significance of these directions relies on two defining attributes: the curvature of their potential wells (indicated by the magnitude of Hessian eigenvalues) and their alignment with the weight vectors. Our exploration extends to the decomposition of weight matrices through singular value decomposition. This approach proves practical in identifying critical directions within the Hessian, considering both their magnitude and curvature. Furthermore, our examination showcases the applicability of principal component analysis in approximating the Hessian, with update parameters emerging as a superior choice over weights for this purpose. Remarkably, our findings unveil a similarity between the largest Hessian eigenvalues of individual layers and the entire network. Notably, higher eigenvalues are concentrated more in deeper layers. Leveraging these insights, we venture into addressing catastrophic forgetting, a challenge of neural networks when learning new tasks while retaining knowledge from previous ones. By applying our discoveries, we formulate an effective strategy to mitigate catastrophic forgetting, offering a possible solution that can be applied to networks of varying scales, including larger architectures.
翻訳日:2023-11-02 13:55:44 公開日:2023-11-01
# 認知的次元のレンズによる談話関係分類とクロスフレーム談話関係分類:実証的研究

Discourse Relations Classification and Cross-Framework Discourse Relation Classification Through the Lens of Cognitive Dimensions: An Empirical Investigation ( http://arxiv.org/abs/2311.00451v1 )

ライセンス: Link先を確認
Yingxue Fu(参考訳) 既存の談話形式論では、専門家の知識が理解し、注釈や自動分類の課題となる談話関係の異なる分類を用いる。 我々は,サンダースらによって提案された単純な認知的な次元によって,会話関係を効果的に捉えることができることを示す。 (2018). クロスフレームな談話関係分類 (PDTB & RST) に関する実験により,2つの枠組みの談話セグメンテーションの違いにもかかわらず,ある枠組みの談話関係の知識を他の枠組みに伝達できることが実証された。 これは、フレームワーク間の会話関係を特徴づける上で、これらの次元の有効性を示す。 アブレーション研究により、異なる次元が異なる種類の言論関係に影響を与えることが明らかとなった。 これらのパターンは、異なる関係を特徴づけ、区別する上での次元の役割によって説明できる。 また,これらの次元の自動予測に関する実験結果を報告する。

Existing discourse formalisms use different taxonomies of discourse relations, which require expert knowledge to understand, posing a challenge for annotation and automatic classification. We show that discourse relations can be effectively captured by some simple cognitively inspired dimensions proposed by Sanders et al.(2018). Our experiments on cross-framework discourse relation classification (PDTB & RST) demonstrate that it is possible to transfer knowledge of discourse relations for one framework to another framework by means of these dimensions, in spite of differences in discourse segmentation of the two frameworks. This manifests the effectiveness of these dimensions in characterizing discourse relations across frameworks. Ablation studies reveal that different dimensions influence different types of discourse relations. The patterns can be explained by the role of dimensions in characterizing and distinguishing different relations. We also report our experimental results on automatic prediction of these dimensions.
翻訳日:2023-11-02 13:55:16 公開日:2023-11-01
# グリーンコンピューティングの機会について:調査

On the Opportunities of Green Computing: A Survey ( http://arxiv.org/abs/2311.00447v1 )

ライセンス: Link先を確認
You Zhou, Xiujing Lin, Xiang Zhang, Maolin Wang, Gangwei Jiang, Huakang Lu, Yupeng Wu, Kai Zhang, Zhe Yang, Kehang Wang, Yongduo Sui, Fengwei Jia, Zuoli Tang, Yao Zhao, Hongxuan Zhang, Tiannuo Yang, Weibo Chen, Yunong Mao, Yi Li, De Bao, Yu Li, Hongrui Liao, Ting Liu, Jingwen Liu, Jinchi Guo, Jin Zhao, Xiangyu Zhao, Ying WEI, Hong Qian, Qi Liu, Xiang Wang, Wai Kin (Victor) Chan, Chenliang Li, Yusen Li, Shiyu Yang, Jining Yan, Chao Mou, Shuai Han, Wuxia Jin, Guannan Zhang and Xiaodong Zeng(参考訳) 人工知能(AI)は、数十年にわたって技術と研究において大きな進歩を遂げており、コンピュータビジョン、自然言語処理、時系列分析、音声合成など、多くの分野で広く利用されている。 ディープラーニングの時代、特に大規模言語モデルの出現とともに、研究者の関心の多くは、新たな最先端(sota)結果の追求に費やされ、モデルサイズと計算複雑性が永遠に増大する結果となった。 高コンピューティングパワーの必要性は、研究に参加する資金が限られている中小規模の研究機関や企業を防ぎ、高い二酸化炭素排出量をもたらし、研究の公平性を損なう。 コンピューティングリソースの課題とAIの環境への影響に取り組むため、グリーンコンピューティングはホットな研究トピックとなっている。 本調査では,グリーンコンピューティングで使用される技術について,系統的に概説する。 グリーンコンピューティングの枠組みを提案し,(1)グリーンネスの尺度,(2)エネルギー効率のよいai,(3)エネルギー効率のよいコンピューティングシステム,(4)持続可能性のためのaiユースケース,の4つの要素に展開する。 各コンポーネントについて、AI効率を最適化する研究の進歩と、一般的に使われている技術について論じる。 この新たな研究の方向性は、リソース制約とai開発の間の衝突に対処する可能性を秘めていると結論づける。 私たちは、より多くの研究者がこの方向に注目し、aiをより環境にやさしいものにすることを奨励します。

Artificial Intelligence (AI) has achieved significant advancements in technology and research with the development over several decades, and is widely used in many areas including computing vision, natural language processing, time-series analysis, speech synthesis, etc. During the age of deep learning, especially with the arise of Large Language Models, a large majority of researchers' attention is paid on pursuing new state-of-the-art (SOTA) results, resulting in ever increasing of model size and computational complexity. The needs for high computing power brings higher carbon emission and undermines research fairness by preventing small or medium-sized research institutions and companies with limited funding in participating in research. To tackle the challenges of computing resources and environmental impact of AI, Green Computing has become a hot research topic. In this survey, we give a systematic overview of the technologies used in Green Computing. We propose the framework of Green Computing and devide it into four key components: (1) Measures of Greenness, (2) Energy-Efficient AI, (3) Energy-Efficient Computing Systems and (4) AI Use Cases for Sustainability. For each components, we discuss the research progress made and the commonly used techniques to optimize the AI efficiency. We conclude that this new research direction has the potential to address the conflicts between resource constraints and AI development. We encourage more researchers to put attention on this direction and make AI more environmental friendly.
翻訳日:2023-11-02 13:55:00 公開日:2023-11-01
# 人間と言語モデルにおけるソロジカル推論の体系的比較

A Systematic Comparison of Syllogistic Reasoning in Humans and Language Models ( http://arxiv.org/abs/2311.00445v1 )

ライセンス: Link先を確認
Tiwalayo Eisape, MH Tessler, Ishita Dasgupta, Fei Sha, Sjoerd van Steenkiste, Tal Linzen(参考訳) 合理的行動の中心的な構成要素は論理的推論であり、前提からどの結論が従うかを決定する過程である。 心理学者は、人間の推論が論理の規則から逸脱するいくつかの方法を文書化してきた。 人間によって生成されたテキストで訓練された言語モデルは、これらのバイアスを再現するか、克服できるのか? サイロジズム(Syllogisms)の場合(心理学で広く研究されている2つの単純な前提からの推論)に着目して、より大きなモデルはより小さなものよりも論理的で、人間よりも論理的であることを示す。 同時に、最大のモデルでさえ体系的な誤りを犯し、そのうちのいくつかは、順序付け効果や論理的誤りといった人間の推論バイアスを反映している。 全体として、言語モデルはトレーニングデータに含まれる人間のバイアスを模倣するが、場合によってはそれを克服できる。

A central component of rational behavior is logical inference: the process of determining which conclusions follow from a set of premises. Psychologists have documented several ways in which humans' inferences deviate from the rules of logic. Do language models, which are trained on text generated by humans, replicate these biases, or are they able to overcome them? Focusing on the case of syllogisms -- inferences from two simple premises, which have been studied extensively in psychology -- we show that larger models are more logical than smaller ones, and also more logical than humans. At the same time, even the largest models make systematic errors, some of which mirror human reasoning biases such as ordering effects and logical fallacies. Overall, we find that language models mimic the human biases included in their training data, but are able to overcome them in some cases.
翻訳日:2023-11-02 13:54:38 公開日:2023-11-01
# 形式は機能に従う:機能要件に基づくテキスト間条件付きグラフ生成

Form follows Function: Text-to-Text Conditional Graph Generation based on Functional Requirements ( http://arxiv.org/abs/2311.00444v1 )

ライセンス: Link先を確認
Peter A. Zachares, Vahan Hovhannisyan, Alan Mosca, Yarin Gal(参考訳) 本研究は,ダウンストリームタスクにおけるグラフの機能要求の記述に基づくグラフ生成の新しい問題設定に焦点を当てる。 我々は,この問題をテキストからテキストへの生成問題として捉え,事前学習された大規模言語モデル(llm)を微調整してグラフを生成するアプローチに注目する。 本稿では,LLM のアーキテクチャにメッセージパッシング層を組み込むことで,グラフの構造に関する情報を LLM の生成プロセスに組み込む帰納バイアスを提案する。 提案手法を評価するために,公開かつ広く研究されている分子および知識グラフデータセットを用いた新しい実験セットを設計する。 提案手法は,要求される機能要件をより密に満たしたグラフを生成し,同様のタスクで開発されたベースラインを統計的に有意なマージンで上回った。

This work focuses on the novel problem setting of generating graphs conditioned on a description of the graph's functional requirements in a downstream task. We pose the problem as a text-to-text generation problem and focus on the approach of fine-tuning a pretrained large language model (LLM) to generate graphs. We propose an inductive bias which incorporates information about the structure of the graph into the LLM's generation process by incorporating message passing layers into an LLM's architecture. To evaluate our proposed method, we design a novel set of experiments using publicly available and widely studied molecule and knowledge graph data sets. Results suggest our proposed approach generates graphs which more closely meet the requested functional requirements, outperforming baselines developed on similar tasks by a statistically significant margin.
翻訳日:2023-11-02 13:54:23 公開日:2023-11-01
# ダイナミックスキャン強化による視覚変換器のロバスト性向上

Improving Robustness for Vision Transformer with a Simple Dynamic Scanning Augmentation ( http://arxiv.org/abs/2311.00441v1 )

ライセンス: Link先を確認
Shashank Kotyan and Danilo Vasconcellos Vargas(参考訳) vision transformer (vit) は最先端のニューラルネットワークに匹敵するコンピュータビジョンタスクで有望な性能を示している。 しかし、この新しいタイプのディープニューラルネットワークアーキテクチャは、堅牢性の観点からその能力を制限する敵攻撃に対して脆弱である。 本稿では,ViTの精度とロバスト性,特に敵攻撃に直面することを目的とした,新たなコントリビューションを提案する。 動的入力シーケンスを利用して異なるパッチに適応的にフォーカスし、性能とロバスト性を維持する「ダイナミックスキャン拡張」と呼ばれる拡張手法を提案する。 この入力シーケンスへの適応性は、同じ画像であっても、ViTの注意機構に大きな変化をもたらすことが明らかとなった。 動的スキャン強化の4つのバリエーションを導入し, 対角攻撃に対する堅牢性と自然な画像に対する精度の両面において, ViT よりも優れた性能を示した。 拡張技術を統合することで、ViTのロバスト性を大幅に向上し、異なる種類の敵攻撃に対して17.5%から9.2.%に改善した。 これらの結果は,他の包括的なテストとともに,より適応的な注意を促すことで,動的走査強調が正確性と頑健性を高めることを示唆する。 本研究は,vitの精度とロバスト性を向上させる技術として,ダイナミックスキャニング拡張を導入することで,視覚トランスフォーマーの現在進行中の研究に寄与する。 この結果は、コンピュータビジョンタスクの進歩におけるこのアプローチの可能性と、今後の研究におけるさらなる研究の成果を浮き彫りにしている。

Vision Transformer (ViT) has demonstrated promising performance in computer vision tasks, comparable to state-of-the-art neural networks. Yet, this new type of deep neural network architecture is vulnerable to adversarial attacks limiting its capabilities in terms of robustness. This article presents a novel contribution aimed at further improving the accuracy and robustness of ViT, particularly in the face of adversarial attacks. We propose an augmentation technique called `Dynamic Scanning Augmentation' that leverages dynamic input sequences to adaptively focus on different patches, thereby maintaining performance and robustness. Our detailed investigations reveal that this adaptability to the input sequence induces significant changes in the attention mechanism of ViT, even for the same image. We introduce four variations of Dynamic Scanning Augmentation, outperforming ViT in terms of both robustness to adversarial attacks and accuracy against natural images, with one variant showing comparable results. By integrating our augmentation technique, we observe a substantial increase in ViT's robustness, improving it from $17\%$ to $92\%$ measured across different types of adversarial attacks. These findings, together with other comprehensive tests, indicate that Dynamic Scanning Augmentation enhances accuracy and robustness by promoting a more adaptive type of attention. In conclusion, this work contributes to the ongoing research on Vision Transformers by introducing Dynamic Scanning Augmentation as a technique for improving the accuracy and robustness of ViT. The observed results highlight the potential of this approach in advancing computer vision tasks and merit further exploration in future studies.
翻訳日:2023-11-02 13:54:08 公開日:2023-11-01
# RGBイベント融合による可変照明における交通物体検出の促進

Enhancing Traffic Object Detection in Variable Illumination with RGB-Event Fusion ( http://arxiv.org/abs/2311.00436v1 )

ライセンス: Link先を確認
Zhanwen Liu, Nan Yang, Yang Wang, Yuke Li, Xiangmo Zhao, Fei-Yue Wang(参考訳) 可変照明下での交通物体検出は,従来のフレームベースカメラのダイナミックレンジの制限による情報損失により困難である。 この問題に対処するために,バイオインスパイアされたイベントカメラを導入し,イベントストリームからシャープで完全なオブジェクト構造を抽出し,モダリティ融合により画像中の失われた情報を補償する新しいSFNetを提案する。 具体的には、固定区間イベントサンプリング法において、交通物体の多様な動作状態から生じる空間的・曖昧性の問題を軽減するために、高速不変フレーム(SIF)を生成するための信頼性構造生成ネットワーク(RSGNet)を提案する。 次に,2つのモダリティ特徴の適応融合を導く新しい適応的特徴補完モジュール(afcm)を設計し,画像のグローバル光度分布を知覚することにより,画像における情報損失を補償し,照明・ロバスト表現を生成する。 最後に、既存のイベントベースオブジェクト検出データセットに大規模で高品質なアノテーションが欠如していることを踏まえ、63,931イメージの53のシーケンスと8クラスの208,000以上のラベルからなるDSEC-Detデータセットを構築します。 広範な実験結果から,提案するsfnetは従来のカメラの知覚境界を克服し,map50ではフレームベース方式を8.0%,map50:95では5.9%上回った。 私たちのコードとデータセットはhttps://github.com/yn-yang/sfnetで利用可能です。

Traffic object detection under variable illumination is challenging due to the information loss caused by the limited dynamic range of conventional frame-based cameras. To address this issue, we introduce bio-inspired event cameras and propose a novel Structure-aware Fusion Network (SFNet) that extracts sharp and complete object structures from the event stream to compensate for the lost information in images through cross-modality fusion, enabling the network to obtain illumination-robust representations for traffic object detection. Specifically, to mitigate the sparsity or blurriness issues arising from diverse motion states of traffic objects in fixed-interval event sampling methods, we propose the Reliable Structure Generation Network (RSGNet) to generate Speed Invariant Frames (SIF), ensuring the integrity and sharpness of object structures. Next, we design a novel Adaptive Feature Complement Module (AFCM) which guides the adaptive fusion of two modality features to compensate for the information loss in the images by perceiving the global lightness distribution of the images, thereby generating illumination-robust representations. Finally, considering the lack of large-scale and high-quality annotations in the existing event-based object detection datasets, we build a DSEC-Det dataset, which consists of 53 sequences with 63,931 images and more than 208,000 labels for 8 classes. Extensive experimental results demonstrate that our proposed SFNet can overcome the perceptual boundaries of conventional cameras and outperform the frame-based method by 8.0% in mAP50 and 5.9% in mAP50:95. Our code and dataset will be available at https://github.com/YN-Yang/SFNet.
翻訳日:2023-11-02 13:53:40 公開日:2023-11-01
# イベントベースバックグラウンド指向シュリーレン

Event-based Background-Oriented Schlieren ( http://arxiv.org/abs/2311.00434v1 )

ライセンス: Link先を確認
Shintaro Shiba, Friedhelm Hamann, Yoshimitsu Aoki, Guillermo Gallego(参考訳) シュリーレンイメージング(schlieren imaging)は、粒子の種まきをすることなく、空気や水などの透明な媒体の流れを観察する光学技術である。 しかし、従来のフレームベースの手法では高空間分解能カメラと時間分解能カメラの両方が必要であり、明るい照明と高価な計算制限が課される。 イベントカメラは、バイオインスパイアされたセンシング原理により、そのような制限を克服する潜在的な利点(高ダイナミックレンジ、高時間分解能、データ効率)を提供する。 本稿では,イベントデータとシュリエレンを結合する最初の理論的解析を行い,イベントとフレームを用いた空気対流の知覚手法を提案する。 線形イベント生成モデルと空気密度の時間的微分を推定する物理的動機付けパラメータ化を組み合わせた変動最適化として問題を定式化する。 フレームとイベントカメラのデータを高精度に整列させた実験により,提案手法により,既存のフレームベースの光フロー技術と同等の結果をイベントカメラで得ることができることを明らかにした。 さらに,提案手法は,フレームベースのシュリーレンが故障する暗条件下で動作し,イベントカメラの利点を生かしてスローモーション解析を可能にする。 当社の作業は、高品質なフレームとイベントデータを備えた最初のschlierenデータセットだけでなく、ソースコードを公開することで、イベントカメラアプリケーションの新たなスタックを開拓し、公開しています。 https://github.com/tub-rip/event_based_bos

Schlieren imaging is an optical technique to observe the flow of transparent media, such as air or water, without any particle seeding. However, conventional frame-based techniques require both high spatial and temporal resolution cameras, which impose bright illumination and expensive computation limitations. Event cameras offer potential advantages (high dynamic range, high temporal resolution, and data efficiency) to overcome such limitations due to their bio-inspired sensing principle. This paper presents a novel technique for perceiving air convection using events and frames by providing the first theoretical analysis that connects event data and schlieren. We formulate the problem as a variational optimization one combining the linearized event generation model with a physically-motivated parameterization that estimates the temporal derivative of the air density. The experiments with accurately aligned frame- and event camera data reveal that the proposed method enables event cameras to obtain on par results with existing frame-based optical flow techniques. Moreover, the proposed method works under dark conditions where frame-based schlieren fails, and also enables slow-motion analysis by leveraging the event camera's advantages. Our work pioneers and opens a new stack of event camera applications, as we publish the source code as well as the first schlieren dataset with high-quality frame and event data. https://github.com/tub-rip/event_based_bos
翻訳日:2023-11-02 13:53:08 公開日:2023-11-01
# 回転変調法を用いた線量計算ゴーストイメージング

Ray computational ghost imaging based on rotational modulation method ( http://arxiv.org/abs/2311.00503v1 )

ライセンス: Link先を確認
Zhi Zhou, Sangang Li, Shan Liao, Sirun Gong, Rongrong Su, Chuxiang Zhao, Li Yang, Qi Liu, Yucheng Yan, Mingzhe Liu and Yi Cheng(参考訳) CGI(CGI)は、低コスト、低線量、高分解能の可能性を秘めており、放射線イメージング場の開発に非常に魅力的なものである。 しかし、多くのサブコードプレートは、CGI技術の発展に大きな影響を及ぼす変調プロセスで使用される必要がある。 符号化プレートを減らすため,CT(Computerd tomography)の回転法を参考に,単カラムストライプ符号化プレートの回転変調法に基づく新しいCGI法を提案する。 この方法は、単一のサブコーディングプレート(回転)の空間的変動を利用して、レイフィールドの多重変調を実現し、シングルサブコーディングプレートの利用率を向上させる。 しかし、このCGIの回転スキームでは、従来の二進変調行列はもはや適用されない。 回転したストライプコーディングプレートのシステムマトリックスを得るには、ビーム境界に基づく領域モデルが確立される。 その後,数値シミュレーションとモンテカルロシミュレーションを行った。 提案手法は,Nサブコードプレートのみを用いて,フルサンプリングとアンダーサンプリングの両方のシナリオで高品質なN*N分解能物体の撮像を可能にする。 さらに,本手法は,フルサンプリングやアンダーサンプリングのシナリオにおいても,画像品質と必要なサブコーディングプレート数の両方において,アダマールスキームよりも優れていることを示す。 最後に, 回転変調法の実現可能性を示すために, アルファ線イメージングプラットフォームを構築した。 提案手法を用いて, 放射源強度分布のCGIを実現するために, 8個のサブコードプレートを用いて, 8*8の解像度を実現した。 そのため、回転変調法に基づく新しい光CGIは、サブコードプレートが少なくて高品質な撮像効果を達成でき、単一のピクセル放射線イメージング技術の推進に重要な実用的価値と研究上の意義を有する。

The CGI (CGI) has the potential of low cost, low dose, and high resolution, which is very attractive for the development of radiation imaging field. However, many sub-coding plates must be used in the modulation process, which greatly affects the development of CGI technology. In order to reduce the coding plates, we refer to the rotation method of computed tomography (CT), then propose a novel CGI method based on rotational modulation method of a single-column striped coding plate. This method utilizes the spatial variation of a single sub-coding plate (rotation) to realize multiple modulation of the ray field and improves the utilization rate of a single sub-coding plate. However, for this rotation scheme of CGI, the traditional binary modulation matrix is no longer applicable. To obtain the system matrix of the rotated striped coding plate, an area model based on beam boundaries is established. Subsequently, numerical and Monte Carlo simulations were conducted. The results reveal that our scheme enables high-quality imaging of N*N resolution objects using only N sub-coding plates, under both full-sampling and under-sampling scenarios. Moreover, our scheme demonstrates superiority over the Hadamard scheme in both imaging quality and the number of required sub-coding plates, whether in scenarios of full-sampling or under-sampling. Finally, an {\alpha} ray imaging platform was established to further demonstrate the feasibility of the rotational modulation method. By employing our scheme, a mere 8 sub-coding plates were employed to achieve CGI of the radiation source intensity distribution, achieving a resolution of 8*8. Therefore, the novel ray CGI based on rotational modulation method can achieve high-quality imaging effect with fewer sub-coding plates, which has important practical value and research significance for promoting single-pixel radiation imaging technology.
翻訳日:2023-11-02 13:45:48 公開日:2023-11-01
# CPU上での効率的なLLM推論

Efficient LLM Inference on CPUs ( http://arxiv.org/abs/2311.00502v1 )

ライセンス: Link先を確認
Haihao Shen, Hanwen Chang, Bo Dong, Yu Luo, and Hengyu Meng(参考訳) 大規模言語モデル(LLM)は、幅広いタスクにおいて、顕著なパフォーマンスと大きなポテンシャルを示してきた。 しかし、これらのモデルの展開は、大きなメモリ容量と高いメモリ帯域の要求を必要とする、天文学的なモデルパラメータの量のために困難である。 本稿では,LLMのデプロイをより効率的にするための効果的なアプローチを提案する。 int4の自動重み付き量子化フローをサポートし、cpu上のllm推論を高速化するために、高最適化カーネルを備えた特殊なllmランタイムを設計する。 Llama2, Llama, GPT-NeoX など, 一般的な LLM へのアプローチの適用性を示すとともに, CPU 上での極端な推論効率を示す。 コードはhttps://github.com/intel/intel-extension-for-transformers.com/で公開されている。

Large language models (LLMs) have demonstrated remarkable performance and tremendous potential across a wide range of tasks. However, deploying these models has been challenging due to the astronomical amount of model parameters, which requires a demand for large memory capacity and high memory bandwidth. In this paper, we propose an effective approach that can make the deployment of LLMs more efficiently. We support an automatic INT4 weight-only quantization flow and design a special LLM runtime with highly-optimized kernels to accelerate the LLM inference on CPUs. We demonstrate the general applicability of our approach on popular LLMs including Llama2, Llama, GPT-NeoX, and showcase the extreme inference efficiency on CPUs. The code is publicly available at: https://github.com/intel/intel-extension-for-transformers.
翻訳日:2023-11-02 13:45:17 公開日:2023-11-01
# 拡散モデルにおけるデータ属性の導出特性

Intriguing Properties of Data Attribution on Diffusion Models ( http://arxiv.org/abs/2311.00500v1 )

ライセンス: Link先を確認
Xiaosen Zheng, Tianyu Pang, Chao Du, Jing Jiang, Min Lin(参考訳) データ属性はモデルの出力をトレーニングデータに戻そうとする。 近年の拡散モデルの発展により、データの帰属は、高い品質または著作権のトレーニングサンプルに対する評価を適切に割り当て、データの貢献者が相当に補償されるか信用されるよう、望ましいモジュールとなっている。 計算スケーラビリティと有効性の間のトレードオフを改善するために、データ属性を実装するための理論的動機付け手法がいくつか提案されている。 本研究は,CIFAR-10およびCelebAで訓練されたDDPMとArtBenchで作製された安定拡散モデルLoRAに焦点を当て,帰属拡散モデルに関する広範囲な実験およびアブレーション研究を行う。 興味深いことに、理論的に不当な設計選択が、線形データモデリングスコアと反事実評価の両方において、経験的に過去のベースラインよりも大きなマージンで上回っているという、直観に反する観察を報告します。 本研究は拡散モデルの帰属にはるかに効率的なアプローチを示し, 予期せぬ知見は, 少なくとも非凸環境においては, 理論的仮定により導かれる構成が帰属性能を低下させる可能性を示唆する。 コードはhttps://github.com/sail-sg/D-TRAKで公開されている。

Data attribution seeks to trace model outputs back to training data. With the recent development of diffusion models, data attribution has become a desired module to properly assign valuations for high-quality or copyrighted training samples, ensuring that data contributors are fairly compensated or credited. Several theoretically motivated methods have been proposed to implement data attribution, in an effort to improve the trade-off between computational scalability and effectiveness. In this work, we conduct extensive experiments and ablation studies on attributing diffusion models, specifically focusing on DDPMs trained on CIFAR-10 and CelebA, as well as a Stable Diffusion model LoRA-finetuned on ArtBench. Intriguingly, we report counter-intuitive observations that theoretically unjustified design choices for attribution empirically outperform previous baselines by a large margin, in terms of both linear datamodeling score and counterfactual evaluation. Our work presents a significantly more efficient approach for attributing diffusion models, while the unexpected findings suggest that at least in non-convex settings, constructions guided by theoretical assumptions may lead to inferior attribution performance. The code is available at https://github.com/sail-sg/D-TRAK.
翻訳日:2023-11-02 13:45:04 公開日:2023-11-01
# ロバストPOI勧告のためのベイズ強化多視点アテンションネットワーク

Bayes-enhanced Multi-view Attention Networks for Robust POI Recommendation ( http://arxiv.org/abs/2311.00491v1 )

ライセンス: Link先を確認
Jiangnan Xia, Yu Yang, Senzhang Wang, Hongzhi Yin, Jiannong Cao, Philip S. Yu(参考訳) POIレコメンデーションは、様々な位置情報ベースのソーシャルネットワークサービスを促進するために事実上重要であり、近年研究の注目を集めている。 既存の作業は一般的に、ユーザによって報告された利用可能なPOIチェックインが、ユーザ行動の真真正な描写であると仮定している。 しかし、実際のアプリケーションシナリオでは、位置決めエラーやユーザプライバシの懸念を含む主観的および客観的な原因から、チェックインデータがかなり信頼できないため、POIレコメンデーションのパフォーマンスに重大な悪影響を及ぼす可能性がある。 そこで本研究では,ユーザチェックインの不確実性を考慮した堅牢なPOIレコメンデーションの問題について検討し,ベイズ強化型マルチビューアテンションネットワークを提案する。 具体的には、意味に基づくPOIグラフと距離に基づくPOIグラフを構築し、POI間の依存関係を包括的にモデル化する。 パーソナライズされたPOI遷移グラフは通常、ノイズに敏感であり、局所的な視点からデータ拡張のためのベイズ強化空間依存性学習モジュールを設計する。 ベイズ的後導グラフ拡張手法を用いて、協調的な信号を持つ新しいグラフを生成し、データの多様性を向上させる。 そして、元のグラフと拡張グラフの両方を用いてPOI表現学習を行い、データ不確実性問題に対処する。 次に、3つのビューグラフのPOI表現を、提案したマルチビューアテンションベースのユーザ嗜好学習モジュールに入力する。 POIのセマンティックおよび距離相関を組み込むことで、ユーザの好みを効果的に洗練し、最終的には堅牢なレコメンデーション結果が得られる。 広範な実験の結果、BayMANは、利用可能なチェックインが不完全でノイズの多い場合、POI勧告において最先端の手法を著しく上回ります。

POI recommendation is practically important to facilitate various Location-Based Social Network services, and has attracted rising research attention recently. Existing works generally assume the available POI check-ins reported by users are the ground-truth depiction of user behaviors. However, in real application scenarios, the check-in data can be rather unreliable due to both subjective and objective causes including positioning error and user privacy concerns, leading to significant negative impacts on the performance of the POI recommendation. To this end, we investigate a novel problem of robust POI recommendation by considering the uncertainty factors of the user check-ins, and proposes a Bayes-enhanced Multi-view Attention Network. Specifically, we construct personal POI transition graph, the semantic-based POI graph and distance-based POI graph to comprehensively model the dependencies among the POIs. As the personal POI transition graph is usually sparse and sensitive to noise, we design a Bayes-enhanced spatial dependency learning module for data augmentation from the local view. A Bayesian posterior guided graph augmentation approach is adopted to generate a new graph with collaborative signals to increase the data diversity. Then both the original and the augmented graphs are used for POI representation learning to counteract the data uncertainty issue. Next, the POI representations of the three view graphs are input into the proposed multi-view attention-based user preference learning module. By incorporating the semantic and distance correlations of POIs, the user preference can be effectively refined and finally robust recommendation results are achieved. The results of extensive experiments show that BayMAN significantly outperforms the state-of-the-art methods in POI recommendation when the available check-ins are incomplete and noisy.
翻訳日:2023-11-02 13:44:42 公開日:2023-11-01
# 超音節時間特徴を学習しない話者認識のためのディープニューラルネットワーク

Deep Neural Networks for Automatic Speaker Recognition Do Not Learn Supra-Segmental Temporal Features ( http://arxiv.org/abs/2311.00489v1 )

ライセンス: Link先を確認
Daniel Neururer, Volker Dellow, Thilo Stadelmann(参考訳) ディープニューラルネットワークは、自動話者認識と関連するタスクで印象的な結果を示しているが、これらの結果に対する正確な責任について、どの程度理解されていないかは不満である。 その成功の一部は、スペクトル的特徴に加えて、音声のリズミカル・プロソディックな特徴を学習するsst(supra-segmental temporal information)をモデル化する能力によるものである。 本稿では, i) 話者認識のための最先端ニューラルネットワークの性能が、SSTをモデル化することによってどの程度の程度で説明できるかを定量化するための新しい試験および適用方法。 (ii)各ネットにsstをより重視させ、そのメリットを評価する手段をいくつか提示する。 話者認識のための様々なCNNおよびRNNベースのニューラルネットワークアーキテクチャは、強制してもSSTを十分な程度にモデル化していない。 本研究は,完全音声信号の活用性の向上と,そのネットワークの内部動作に関する洞察を与え,音声技術における深層学習の理解可能性を高めることを目的としている。

While deep neural networks have shown impressive results in automatic speaker recognition and related tasks, it is dissatisfactory how little is understood about what exactly is responsible for these results. Part of the success has been attributed in prior work to their capability to model supra-segmental temporal information (SST), i.e., learn rhythmic-prosodic characteristics of speech in addition to spectral features. In this paper, we (i) present and apply a novel test to quantify to what extent the performance of state-of-the-art neural networks for speaker recognition can be explained by modeling SST; and (ii) present several means to force respective nets to focus more on SST and evaluate their merits. We find that a variety of CNN- and RNN-based neural network architectures for speaker recognition do not model SST to any sufficient degree, even when forced. The results provide a highly relevant basis for impactful future research into better exploitation of the full speech signal and give insights into the inner workings of such networks, enhancing explainability of deep learning for speech technologies.
翻訳日:2023-11-02 13:44:09 公開日:2023-11-01
# コントラスト整合探索のための最適化目標の比較

Comparing Optimization Targets for Contrast-Consistent Search ( http://arxiv.org/abs/2311.00488v1 )

ライセンス: Link先を確認
Hugo Fry, Seamus Fallows, Ian Fan, Jamie Wright, Nandi Schoots(参考訳) 本研究では,大言語モデルの内部表現を復元するコントラスト・一貫性探索(CCS)の最適化対象について検討する。 そこで我々はMidpoint-Displacement(MD)損失関数と呼ぶ新しい損失関数を提案する。 我々は,このMD損失関数がある種の超パラメータ値に対して,CCSと非常によく似た重みを持つプローブとなることを示した。 さらに, この超パラメータは最適ではなく, MD損失関数がCCSよりも高い精度で達成可能であることを示す。

We investigate the optimization target of Contrast-Consistent Search (CCS), which aims to recover the internal representations of truth of a large language model. We present a new loss function that we call the Midpoint-Displacement (MD) loss function. We demonstrate that for a certain hyper-parameter value this MD loss function leads to a prober with very similar weights to CCS. We further show that this hyper-parameter is not optimal and that with a better hyper-parameter the MD loss function attains a higher test accuracy than CCS.
翻訳日:2023-11-02 13:43:49 公開日:2023-11-01
# ニューラルネットワークによる量子誤差緩和のためのエコー進化データ生成

Echo-evolution data generation for quantum error mitigation via neural networks ( http://arxiv.org/abs/2311.00487v1 )

ライセンス: Link先を確認
D.V. Babukhin(参考訳) ニューラルネットワークは、物理システムの量子シミュレーションにおけるエラー緩和のための予測ツールを提供する。 しかし、量子コンピューティング結果の誤りを軽減するためにニューラルネットワークを訓練するにはノイズとノイズのないデータの両方が必要です。 本稿では,古典的シミュレーションやターゲット回路の単純化を必要とせず,ニューラルネットワークによる量子誤差緩和のためのトレーニングデータを生成する物理モチベーション手法を提案する。 特に,量子システムのエコー進化を用いて,ノイズやノイズのないデータを収集し,ニューラルネットワークを訓練することを提案する。 この方法では、初期状態は前後に進化し、進化の終わりに初期状態に戻る。 ノイズの多い量子プロセッサ上で実行すると、生成した状態は進化中に蓄積された量子ノイズによって影響を受ける。 初期(ノイズフリー)状態と結果(ノイズ)状態の観測可能な値のベクトルを持つことで、ニューラルネットワークのトレーニングデータを構成することが可能になる。 我々は,エコー進化生成データに基づくフィードフォワード完全接続ニューラルネットワークが,フォワード・イン・タイム進化の結果を補正できることを実証する。 本研究は,量子コンピューティングにおける誤り軽減へのニューラルネットワークの適用性を高めることができる。

Neural networks provide a prospective tool for error mitigation in quantum simulation of physical systems. However, we need both noisy and noise-free data to train neural networks to mitigate errors in quantum computing results. Here, we propose a physics-motivated method to generate training data for quantum error mitigation via neural networks, which does not require classical simulation and target circuit simplification. In particular, we propose to use the echo evolution of a quantum system to collect noisy and noise-free data for training a neural network. Under this method, the initial state evolves forward and backward in time, returning to the initial state at the end of evolution. When run on the noisy quantum processor, the resulting state will be influenced by with quantum noise accumulated during evolution. Having a vector of observable values of the initial (noise-free) state and the resulting (noisy) state allows us to compose training data for a neural network. We demonstrate that a feed-forward fully connected neural network trained on echo-evolution-generated data can correct results of forward-in-time evolution. Our findings can enhance the application of neural networks to error mitigation in quantum computing.
翻訳日:2023-11-02 13:43:40 公開日:2023-11-01
# defn:dual-encoder fourier group harmonics network for three-dimensional macular hole reconstruction with stochastic retinal defect augmentation and dynamic weight composition (特集:meとバイオサイバネティックス)

DEFN: Dual-Encoder Fourier Group Harmonics Network for Three-Dimensional Macular Hole Reconstruction with Stochastic Retinal Defect Augmentation and Dynamic Weight Composition ( http://arxiv.org/abs/2311.00483v1 )

ライセンス: Link先を確認
Xingru Huang, Yihao Guo, Jian Huang, Zhi Li, Tianyun Zhang, Kunyan Cai, Gaopeng Huang, Wenhao Chen, Zhaoyang Xu, Liangqiong Qu, Ji Hu, Tinyu Wang, Shaowei Jiang, Chenggang Yan, Yaoqi Sun, Xin Ye, Yaqi Wang(参考訳) 黄斑孔の空間的および定量的パラメータは、診断、外科的選択、および術後モニタリングに不可欠である。 黄斑孔の診断と治療は空間的および定量的なデータに大きく依存しているが、そのようなデータの不足は、効果的なセグメンテーションとリアルタイム3d再構成のためのディープラーニング技術の進歩を妨げている。 この課題に対処するために、私たちは世界最大規模の黄斑穴データセット(rome-3914)と、専門的に注釈された網膜セグメンテーションの包括的なアーカイブ(cars-30k)を組み立てました。 さらに,Fourier Group Harmonics (FuGH), Simplified 3D Spatial Attention (S3DSA), Harmonic Squeeze-and-Excitation Module (HSE)の3つの革新的なモジュールを統合した3DセグメンテーションネットワークDEFNを開発した。 これら3つのモジュールは相乗的にノイズをフィルタリングし、計算複雑性を減らし、詳細な特徴を強調し、ネットワークの表現能力を高める。 また,defnの性能をさらに向上させるために,新しいデータ拡張法であるstochastic retinal defect injection (srdi) とネットワーク最適化戦略 dynamicweightcompose (dwc) を提案した。 13のベースラインと比較して、私たちのDefNは最高のパフォーマンスを示しています。 また,眼科医に革命的診断・治療的意思決定ツールを提供するとともに,難治性黄斑変性の診断・治療パターンを完全に再構築することが期待されている。 ソースコードはhttps://github.com/IIPL-HangzhouDianUniversity/DEFN-Pytorchで公開されている。

The spatial and quantitative parameters of macular holes are vital for diagnosis, surgical choices, and post-op monitoring. Macular hole diagnosis and treatment rely heavily on spatial and quantitative data, yet the scarcity of such data has impeded the progress of deep learning techniques for effective segmentation and real-time 3D reconstruction. To address this challenge, we assembled the world's largest macular hole dataset, Retinal OCTfor Macular Hole Enhancement (ROME-3914), and a Comprehensive Archive for Retinal Segmentation (CARS-30k), both expertly annotated. In addition, we developed an innovative 3D segmentation network, the Dual-Encoder FuGH Network (DEFN), which integrates three innovative modules: Fourier Group Harmonics (FuGH), Simplified 3D Spatial Attention (S3DSA) and Harmonic Squeeze-and-Excitation Module (HSE). These three modules synergistically filter noise, reduce computational complexity, emphasize detailed features, and enhance the network's representation ability. We also proposed a novel data augmentation method, Stochastic Retinal Defect Injection (SRDI), and a network optimization strategy DynamicWeightCompose (DWC), to further improve the performance of DEFN. Compared with 13 baselines, our DEFN shows the best performance. We also offer precise 3D retinal reconstruction and quantitative metrics, bringing revolutionary diagnostic and therapeutic decision-making tools for ophthalmologists, and is expected to completely reshape the diagnosis and treatment patterns of difficult-to-treat macular degeneration. The source code is publicly available at: https://github.com/IIPL-HangzhouDianUniversity/DEFN-Pytorch.
翻訳日:2023-11-02 13:43:25 公開日:2023-11-01
# Sparse Linear Banditsにおける固定予算ベストアーム同定

Fixed-Budget Best-Arm Identification in Sparse Linear Bandits ( http://arxiv.org/abs/2311.00481v1 )

ライセンス: Link先を確認
Recep Can Yavas, Vincent Y. F. Tan(参考訳) 本研究では,固定予算設定下でのスライス線形バンディットにおける最良アーム識別問題について検討する。 スパース線形バンドイットでは、未知の特徴ベクトル $\theta^*$ は大きな次元 $d$ であるかもしれないが、これらの特徴のうち、$s \ll d$ が 0 でないと言うのはごくわずかである。 我々は,二相アルゴリズム,lassoおよびoptimize-design-(lasso-od)に基づく線形最良アーム識別法を設計する。 ラッソ-odの第1フェーズは、周(2009)が導入した閾値付きラッソを適用して特徴ベクトルのスパーシティを活用し、選択されたアームからの報酬とデザインマトリックスの公平な選択を用いて、高い確率で$\theta^*$の支持を推定する。 Lasso-ODの第2フェーズでは、Yang and Tan (2022)によるOD-LinBAIアルゴリズムが適用されている。 過パラメータ(例えば、ラッソの正規化パラメータ)を慎重に選択し、両位相の誤差確率のバランスをとることで、ラッソODの誤差確率の漸近上界を導出する。 固定間隔$s$と予算$T$の場合、ラッソODの誤差確率の指数は$s$に依存するが、次元$d$には依存しない。 さらに,ラッソODは指数においてほぼ極小であることを示す。 最後に, od-linbai, bayesgap, peace, linearexploration, gseなどの非スパース線形バンドイットに対して, 既存のアルゴリズムと比較して有意な性能改善を示す数値例を示す。

We study the best-arm identification problem in sparse linear bandits under the fixed-budget setting. In sparse linear bandits, the unknown feature vector $\theta^*$ may be of large dimension $d$, but only a few, say $s \ll d$ of these features have non-zero values. We design a two-phase algorithm, Lasso and Optimal-Design- (Lasso-OD) based linear best-arm identification. The first phase of Lasso-OD leverages the sparsity of the feature vector by applying the thresholded Lasso introduced by Zhou (2009), which estimates the support of $\theta^*$ correctly with high probability using rewards from the selected arms and a judicious choice of the design matrix. The second phase of Lasso-OD applies the OD-LinBAI algorithm by Yang and Tan (2022) on that estimated support. We derive a non-asymptotic upper bound on the error probability of Lasso-OD by carefully choosing hyperparameters (such as Lasso's regularization parameter) and balancing the error probabilities of both phases. For fixed sparsity $s$ and budget $T$, the exponent in the error probability of Lasso-OD depends on $s$ but not on the dimension $d$, yielding a significant performance improvement for sparse and high-dimensional linear bandits. Furthermore, we show that Lasso-OD is almost minimax optimal in the exponent. Finally, we provide numerical examples to demonstrate the significant performance improvement over the existing algorithms for non-sparse linear bandits such as OD-LinBAI, BayesGap, Peace, LinearExploration, and GSE.
翻訳日:2023-11-02 13:42:48 公開日:2023-11-01
# 高周波スペクトルのピークと幅:超低温フェルミガスの位相図の解析

Peaks and widths of radio-frequency spectra: An analysis of the phase diagram of ultra-cold Fermi gases ( http://arxiv.org/abs/2311.00479v1 )

ライセンス: Link先を確認
L. Pisani, M. Pini, P. Pieri, G. Calvanese Strinati(参考訳) 温度-vs結合相図の正常領域における平衡密度を持つ2成分フェルミガスの放射周波数(rf)スペクトルに関する包括的理論的研究を行う。 特に、rfスペクトルは2つの特徴ピークで解析され、それは区別されるか重複することがある。 クロスオーバーのbec側では、これら2つの寄与はフェルミオン準粒子ピークとペアリングによるボソニック様の寄与と関連している。 クロスオーバーのBCS側では、2つのピークは、それぞれ高いあるいは低い相対モータで発生する粒子間の相互作用と関連している。 この2つのピーク解析により,超流動相で以前に同定されたrfスペクトルの幅と対の大きさの相関を正規相に拡張できるか,また,bcs-becクロスオーバーの温度vs結合位相図を様々な物理的セクタに分割できるかを示す。 rfスペクトルの形状と幅に関するいくつかの分析結果も適切な温度と結合限界で導出される。

We provide a comprehensive theoretical study of the radio-frequency (rf) spectra of a two-component Fermi gas with balanced populations in the normal region of the temperature-vs-coupling phase diagram. In particular, rf spectra are analyzed in terms of two characteristic peaks, which can be either distinct or overlapping. On the BEC side of the crossover, these two contributions are associated with a fermionic quasi-particle peak and a bosonic-like contribution due to pairing. On the BCS side of the crossover, the two peaks are instead associated with interactions between particles occurring, respectively, at high or low relative momenta. Through this two-peak analysis, we show how and to what extent the correlation between the widths of the rf spectra and the pair size, previously identified in the superfluid phase at low temperature, can be extended to the normal phase, as well as how the temperature-vs-coupling phase diagram of the BCS-BEC crossover can be partitioned in a number of distinct physical sectors. Several analytic results for the shape and widths of the rf spectra are also derived in appropriate temperature and coupling limits.
翻訳日:2023-11-02 13:42:18 公開日:2023-11-01
# 群分布ロバストな知識蒸留

Group Distributionally Robust Knowledge Distillation ( http://arxiv.org/abs/2311.00476v1 )

ライセンス: Link先を確認
Konstantinos Vilouras, Xiao Liu, Pedro Sanchez, Alison Q. O'Neil, Sotirios A. Tsaftaris(参考訳) 知識蒸留は、より大きなモデルからより小さなモデルに学習した特徴を高速かつ効果的に伝達することを可能にする。 しかし, 蒸留の目的はサブ人口移動の影響を受けやすいため, 医療画像解析では, トレーニングセットに不足するデータのグループやドメインを参照することが多い。 例えば、複数のスキャナーや病院から取得した健康データに関するトレーニングモデルでは、少数派のグループでサブパーパフォーマンスが得られる。 本稿では,分散ロバストな最適化(DRO)手法に着想を得て,グループ対応蒸留損失を提案する。 最適化中、与えられたイテレーションにおけるグループごとの損失に基づいて、一連の重みが更新される。 この方法では,トレーニング中にパフォーマンスの低いグループに動的に焦点を合わせることができる。 我々は,2つのベンチマークデータセット(自然画像と心臓MRI)上でのGroupDistil法を実証的に検証し,最悪のグループ精度で一貫した改善を示す。

Knowledge distillation enables fast and effective transfer of features learned from a bigger model to a smaller one. However, distillation objectives are susceptible to sub-population shifts, a common scenario in medical imaging analysis which refers to groups/domains of data that are underrepresented in the training set. For instance, training models on health data acquired from multiple scanners or hospitals can yield subpar performance for minority groups. In this paper, inspired by distributionally robust optimization (DRO) techniques, we address this shortcoming by proposing a group-aware distillation loss. During optimization, a set of weights is updated based on the per-group losses at a given iteration. This way, our method can dynamically focus on groups that have low performance during training. We empirically validate our method, GroupDistil on two benchmark datasets (natural images and cardiac MRIs) and show consistent improvement in terms of worst-group accuracy.
翻訳日:2023-11-02 13:41:57 公開日:2023-11-01
# kNN言語モデルを用いた制御可能生成のためのスタイル局所性

Style Locality for Controllable Generation with kNN Language Models ( http://arxiv.org/abs/2311.00475v1 )

ライセンス: Link先を確認
Gilles Nawezi, Lucie Flek, Charles Welch(参考訳) 最近の言語モデルは外部メモリの追加によって改善されている。 隣接言語モデルは、単語予測を支援するために類似した文脈を検索する。 局所性レベルの追加により、モデルは、ソースドキュメント内の現在のテキストと相対的な位置に基づいて隣人を重み付けする方法を学習することができ、モデルパフォーマンスをさらに改善することが示されている。 直近のモデルでは制御可能な生成が検討されているが、局所性レベルの使用については検討されていない。 本研究の目的は, 丁寧さ, 形式性, 支持性, 毒性のテクストデータを自動的に評価し, 評価することにある。 我々のモデルは、スタイルをうまく制御することができ、以前の作業よりも流布スタイルのトレードオフを提供する。

Recent language models have been improved by the addition of external memory. Nearest neighbor language models retrieve similar contexts to assist in word prediction. The addition of locality levels allows a model to learn how to weight neighbors based on their relative location to the current text in source documents, and have been shown to further improve model performance. Nearest neighbor models have been explored for controllable generation but have not examined the use of locality levels. We present a novel approach for this purpose and evaluate it using automatic and human evaluation on politeness, formality, supportiveness, and toxicity textual data. We find that our model is successfully able to control style and provides a better fluency-style trade-off than previous work.
翻訳日:2023-11-02 13:41:42 公開日:2023-11-01
# 確率的プログラミングのための拡散モデル

Diffusion models for probabilistic programming ( http://arxiv.org/abs/2311.00474v1 )

ライセンス: Link先を確認
Simon Dirmeier and Fernando Perez-Cruz(参考訳) 本稿では,確率型プログラミング言語 (PPL) における自動近似推論手法である拡散モデル変分推論 (DMVI) を提案する。 dmviは拡散モデルを真の後続分布の変分近似として利用し、ベイズモデルで使われる限界公約目標に束縛された新しい帰結を導出する。 DMVIは実装が容易で、例えば正規化フローを用いた変分推論の欠点を伴わずに、PPLでヘイズルフリー推論が可能であり、基礎となるニューラルネットワークモデルに制約を課さない。 DMVIを一般的なベイズモデルの集合上で評価し、その後部推論がPPLで使われている手法よりも一般的に正確であり、計算コストも同等であり、手動のチューニングも少ないことを示す。

We propose Diffusion Model Variational Inference (DMVI), a novel method for automated approximate inference in probabilistic programming languages (PPLs). DMVI utilizes diffusion models as variational approximations to the true posterior distribution by deriving a novel bound to the marginal likelihood objective used in Bayesian modelling. DMVI is easy to implement, allows hassle-free inference in PPLs without the drawbacks of, e.g., variational inference using normalizing flows, and does not make any constraints on the underlying neural network model. We evaluate DMVI on a set of common Bayesian models and show that its posterior inferences are in general more accurate than those of contemporary methods used in PPLs while having a similar computational cost and requiring less manual tuning.
翻訳日:2023-11-02 13:41:26 公開日:2023-11-01
# アウトオブディストリビューション検出のためのデュアルコンディショルド拡散モデル:胎児超音波ビデオへの応用

Dual Conditioned Diffusion Models for Out-Of-Distribution Detection: Application to Fetal Ultrasound Videos ( http://arxiv.org/abs/2311.00469v1 )

ライセンス: Link先を確認
Divyanshu Mishra, He Zhao, Pramit Saha, Aris T. Papageorghiou, J.Alison Noble(参考訳) トレーニング分布に属さないサンプルを検出することにより、機械学習モデルの信頼性を向上させるには、分散(ood)検出が不可欠である。 特定のタスクにおいてOODサンプルを効果的に検出することは、分布内不均一性(ID)と、IDクラスとOODクラスの構造的類似性が高いため、課題となる。 例えば、胎児超音波ビデオで心臓の視界を検出する場合、腹部などの他の解剖と心臓の間には高い構造的類似性があり、心臓としての大きな内分布のばらつきは、それぞれのビュー内で5つの異なるビューと構造的変化を持つ。 この文脈でOODサンプルを検出するためには、同様のOODサンプルを拒絶しながら、結果のモデルが解剖学内変異に一般化されるべきである。 本稿では,2次元拡散モデル (DCDM) を導入し,OOD検出のための入力画像の分布内クラス情報と潜時特徴をモデル化する。 これは、モデルの生成多様体を制約し、構造的および意味論的に、分布内にあるものに似た画像を生成する。 提案モデルでは,精度が12%向上し,精度が22%向上し,F1スコアが8%向上した。

Out-of-distribution (OOD) detection is essential to improve the reliability of machine learning models by detecting samples that do not belong to the training distribution. Detecting OOD samples effectively in certain tasks can pose a challenge because of the substantial heterogeneity within the in-distribution (ID), and the high structural similarity between ID and OOD classes. For instance, when detecting heart views in fetal ultrasound videos there is a high structural similarity between the heart and other anatomies such as the abdomen, and large in-distribution variance as a heart has 5 distinct views and structural variations within each view. To detect OOD samples in this context, the resulting model should generalise to the intra-anatomy variations while rejecting similar OOD samples. In this paper, we introduce dual-conditioned diffusion models (DCDM) where we condition the model on in-distribution class information and latent features of the input image for reconstruction-based OOD detection. This constrains the generative manifold of the model to generate images structurally and semantically similar to those within the in-distribution. The proposed model outperforms reference methods with a 12% improvement in accuracy, 22% higher precision, and an 8% better F1 score.
翻訳日:2023-11-02 13:41:04 公開日:2023-11-01
# グラフ上の非同期SGD:非同期分散とフェデレーション最適化のための統一フレームワーク

Asynchronous SGD on Graphs: a Unified Framework for Asynchronous Decentralized and Federated Optimization ( http://arxiv.org/abs/2311.00465v1 )

ライセンス: Link先を確認
Mathieu Even, Anastasia Koloskova, Laurent Massouli\'e(参考訳) 分散型および非同期通信は、中央オーケストレータへの依存性と同期の必要性をそれぞれ取り除き、分散機械学習の通信複雑性を高速化する2つの一般的なテクニックである。 しかし、これらの2つのテクニックを組み合わせることは依然として課題である。 本稿では、SGD、分散SGD、ローカルSGD、FedBuffといった多くの一般的なアルゴリズムの非同期バージョンをカバーする一般的なアルゴリズムフレームワークであるAGRAF SGD(Asynchronous SGD on Graphs)を紹介する。 我々は、以前の分散非同期処理よりもはるかに軽度な仮定の下で収束率を提供しながら、カバーされた全てのアルゴリズムの最良の知識を回復または改善しています。

Decentralized and asynchronous communications are two popular techniques to speedup communication complexity of distributed machine learning, by respectively removing the dependency over a central orchestrator and the need for synchronization. Yet, combining these two techniques together still remains a challenge. In this paper, we take a step in this direction and introduce Asynchronous SGD on Graphs (AGRAF SGD) -- a general algorithmic framework that covers asynchronous versions of many popular algorithms including SGD, Decentralized SGD, Local SGD, FedBuff, thanks to its relaxed communication and computation assumptions. We provide rates of convergence under much milder assumptions than previous decentralized asynchronous works, while still recovering or even improving over the best know results for all the algorithms covered.
翻訳日:2023-11-02 13:40:24 公開日:2023-11-01
# 量子スイッチにおける確率的および最大不定因数順序

Possibilistic and maximal indefinite causal order in the quantum switch ( http://arxiv.org/abs/2311.00557v1 )

ライセンス: Link先を確認
Tein van der Lugt and Nick Ormrod(参考訳) 量子スイッチにおける不確定因果順序は、超光の影響の不可避性を仮定すると、デバイス独立に証明できることがわかった。 ここでは、この結果を2つの方法で強化する。 まず,確率的ではなく確率的であるこの事実,すなわち隠れた変数レベルでの確率論の妥当性に依存しない証明を与える。 そして、確率的な設定に戻ると、量子スイッチにおける不定因果順序も最大であり、観測された相関は実験の実行のごく一部でしか因果順序の存在と相容れない。 元々の結果はクレーター=ホルン=シモニー=ホルト不等式に対する量子理論の違反を利用していたが、ここで示された証明はグリーンベルガー、ホーン、ゼイリンガーの非局所性の証明に基づいている。

It was recently found that the indefinite causal order in the quantum switch can be certified device-independently when assuming the impossibility of superluminal influences. Here we strengthen this result in two ways. First, we give a proof of this fact which is possibilistic, rather than probabilistic, i.e. which does not rely on the validity of probability theory at the hidden variable level. Then, returning to the probabilistic setting, we show that the indefinite causal order in the quantum switch is also maximal, in the sense that the observed correlations are incompatible even with the existence of a causal order on only a small fraction of the runs of the experiment. While the original result makes use of quantum theory's violation of a Clauser-Horne-Shimony-Holt inequality, the proofs presented here are based on Greenberger, Horne, and Zeilinger's and Mermin's proofs of nonlocality, respectively.
翻訳日:2023-11-02 13:32:27 公開日:2023-11-01
# ProBio: 分子生物学ラボのためのプロトコル誘導マルチモーダルデータセット

ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab ( http://arxiv.org/abs/2311.00556v1 )

ライセンス: Link先を確認
Jieming Cui, Ziren Gong, Baoxiong Jia, Siyuan Huang, Zilong Zheng, Jianzhu Ma, Yixin Zhu(参考訳) 研究結果を複製するという課題は、分子生物学の分野に大きな障害をもたらした。 現代のインテリジェントシステムの出現は、様々な領域で顕著な進歩をもたらした。 そこで我々は,再現性危機の課題に取り組む手段として,インテリジェントモニタリングシステムの検討に着手した。 具体的には、まず最初にProBioという名前の包括的なマルチモーダルデータセットを、この目的に向けた最初のステップとしてキュレートする。 このデータセットは、biolabのアクティビティ理解を研究する目的で、きめ細かい階層アノテーションを含んでいる。 次に、透明なソリューショントラッキングとマルチモーダルアクション認識という2つの困難なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。 最後に,現代の映像理解モデルの徹底的な評価を行い,今後の研究への道筋を見極めるため,この専門分野における限界を強調する。 ProBioと関連するベンチマークが、分子生物学の領域における現代のAI技術への注目を増すことを願っている。

The challenge of replicating research results has posed a significant impediment to the field of molecular biology. The advent of modern intelligent systems has led to notable progress in various domains. Consequently, we embarked on an investigation of intelligent monitoring systems as a means of tackling the issue of the reproducibility crisis. Specifically, we first curate a comprehensive multimodal dataset, named ProBio, as an initial step towards this objective. This dataset comprises fine-grained hierarchical annotations intended for the purpose of studying activity understanding in BioLab. Next, we devise two challenging benchmarks, transparent solution tracking and multimodal action recognition, to emphasize the unique characteristics and difficulties associated with activity understanding in BioLab settings. Finally, we provide a thorough experimental evaluation of contemporary video understanding models and highlight their limitations in this specialized domain to identify potential avenues for future research. We hope ProBio with associated benchmarks may garner increased focus on modern AI techniques in the realm of molecular biology.
翻訳日:2023-11-02 13:32:11 公開日:2023-11-01
# パラメトリック不確実性を有するランダムフィールドの多項カオスサロゲート構築

Polynomial Chaos Surrogate Construction for Random Fields with Parametric Uncertainty ( http://arxiv.org/abs/2311.00553v1 )

ライセンス: Link先を確認
Joy N. Mueller, Khachik Sargsyan, Craig J. Daniels, and Habib N. Najm(参考訳) 工学と応用科学は物理系を厳格に研究するために計算実験に頼っている。 これらの系を探索する数学的モデルは非常に複雑であり、サンプリング集約的な研究は、許容できる精度のために、不可能に多くのシミュレーションを必要とすることが多い。 サーロゲートモデルは、そのような複雑なモデルをサンプリングする高い計算コストを回避する手段を提供する。 特に、多項式カオス展開(PCEs)は、不確実性の主源がパラメトリックである決定論的モデルの不確実性定量化研究に成功している。 パラメトリック不確かさに加えて固有ノイズを持つ確率計算モデルのサロゲート構成を可能にするため,従来のpceサロゲートモデルの拡張について述べる。 我々は,内在的かつパラメトリックな不確実性の結合空間上にPCEサロゲートを開発し,その構成をKarhunen-Loeve展開によるランダムフィールドデータに拡張する。 次に,pce sobol指数の計算にクローズドフォーム法を応用し,モデル全体の出力ばらつきに対する内在的ノイズ寄与を定量化するための大域的感度解析を行う。 さらに、結果として得られるジョイントpceは、基礎となる確率モデルによる実現と統計的にほぼ同値な任意の入力パラメータ設定でランダムな実現を生成できるという意味で生成的である。 この方法は、化学触媒の例モデルで示される。

Engineering and applied science rely on computational experiments to rigorously study physical systems. The mathematical models used to probe these systems are highly complex, and sampling-intensive studies often require prohibitively many simulations for acceptable accuracy. Surrogate models provide a means of circumventing the high computational expense of sampling such complex models. In particular, polynomial chaos expansions (PCEs) have been successfully used for uncertainty quantification studies of deterministic models where the dominant source of uncertainty is parametric. We discuss an extension to conventional PCE surrogate modeling to enable surrogate construction for stochastic computational models that have intrinsic noise in addition to parametric uncertainty. We develop a PCE surrogate on a joint space of intrinsic and parametric uncertainty, enabled by Rosenblatt transformations, and then extend the construction to random field data via the Karhunen-Loeve expansion. We then take advantage of closed-form solutions for computing PCE Sobol indices to perform a global sensitivity analysis of the model which quantifies the intrinsic noise contribution to the overall model output variance. Additionally, the resulting joint PCE is generative in the sense that it allows generating random realizations at any input parameter setting that are statistically approximately equivalent to realizations from the underlying stochastic model. The method is demonstrated on a chemical catalysis example model.
翻訳日:2023-11-02 13:31:58 公開日:2023-11-01
# 前立腺MRIの連続的アトラスによるセグメンテーション

Continual atlas-based segmentation of prostate MRI ( http://arxiv.org/abs/2311.00548v1 )

ライセンス: Link先を確認
Amin Ranem, Camila Gon\'azlez, Daniel Pinto dos Santos, Andreas Michael Bucher, Ahmed Ezzat Othman, Anirban Mukhopadhyay(参考訳) 自然画像分類のための連続学習(cl)手法は、医用画像分割の基本品質基準に達しないことが多い。 アトラスに基づくセグメンテーション(Atlas-based segmentation)は、医用画像において確立されたアプローチであり、関心領域に関するドメイン知識を取り入れ、意味的に一貫性のある予測をもたらす。 これはCLにとって特に有望であり、構造情報を活用し、時間とともにモデル剛性と塑性の最適なバランスをとることができる。 プライバシ保存プロトタイプと組み合わせることで、このプロセスは患者のプライバシを損なうことなく、リハーサルベースのclの利点を提供する。 我々は,アトラスを用いたセグメンテーション手法であるAtlas Replayを提案し,トレーニング分布が変化しても整合性を維持する画像登録により,プロトタイプを用いて高品質セグメンテーションマスクを生成する。 提案手法は,7つのプレステートセグメンテーションデータセット間の知識伝達可能性の観点から,最先端のCL手法と比較してどのように機能するかを考察する。 前立腺セグメンテーションは前立腺がんの診断において重要な役割を担っているが、解剖学的変異、高齢者群の構造的相違、獲得パラメータの変動などにより課題が生じる。 その結果,atlas replayは,エンド・ツー・エンドのセグメンテーション手法とは異なり,知識を維持しつつ,未熟な領域に十分に一般化できることがわかった。 私たちのコードベースはhttps://github.com/MECLabTUDA/Atlas-Replayで利用可能です。

Continual learning (CL) methods designed for natural image classification often fail to reach basic quality standards for medical image segmentation. Atlas-based segmentation, a well-established approach in medical imaging, incorporates domain knowledge on the region of interest, leading to semantically coherent predictions. This is especially promising for CL, as it allows us to leverage structural information and strike an optimal balance between model rigidity and plasticity over time. When combined with privacy-preserving prototypes, this process offers the advantages of rehearsal-based CL without compromising patient privacy. We propose Atlas Replay, an atlas-based segmentation approach that uses prototypes to generate high-quality segmentation masks through image registration that maintain consistency even as the training distribution changes. We explore how our proposed method performs compared to state-of-the-art CL methods in terms of knowledge transferability across seven publicly available prostate segmentation datasets. Prostate segmentation plays a vital role in diagnosing prostate cancer, however, it poses challenges due to substantial anatomical variations, benign structural differences in older age groups, and fluctuating acquisition parameters. Our results show that Atlas Replay is both robust and generalizes well to yet-unseen domains while being able to maintain knowledge, unlike end-to-end segmentation methods. Our code base is available under https://github.com/MECLabTUDA/Atlas-Replay.
翻訳日:2023-11-02 13:31:34 公開日:2023-11-01
# オブジェクト中心モデルを用いた抽象推論コーパス(arc)とmdl原理

Tackling the Abstraction and Reasoning Corpus (ARC) with Object-centric Models and the MDL Principle ( http://arxiv.org/abs/2311.00545v1 )

ライセンス: Link先を確認
S\'ebastien Ferr\'e(参考訳) ARC(Abstraction and Reasoning Corpus)は、人間レベルのインテリジェンスに向けたAI研究を促進するために導入された、挑戦的なベンチマークである。 カラーグリッドの生成に関するユニークなタスクのコレクションで、いくつかの例でのみ指定されている。 既存の作業の変換に基づくプログラムとは対照的に,人間が生み出す自然なプログラムに則ったオブジェクト中心モデルを導入する。 我々のモデルは予測を行うだけでなく、入力/出力ペアに対する共同記述を提供する。 最小記述長(mdl)原理は、大きなモデル空間を効率的に探索するために用いられる。 様々なタスクが解決され、学習されたモデルは自然プログラムと類似している。 異なるドメインに適用することで、我々のアプローチの汎用性を示します。

The Abstraction and Reasoning Corpus (ARC) is a challenging benchmark, introduced to foster AI research towards human-level intelligence. It is a collection of unique tasks about generating colored grids, specified by a few examples only. In contrast to the transformation-based programs of existing work, we introduce object-centric models that are in line with the natural programs produced by humans. Our models can not only perform predictions, but also provide joint descriptions for input/output pairs. The Minimum Description Length (MDL) principle is used to efficiently search the large model space. A diverse range of tasks are solved, and the learned models are similar to the natural programs. We demonstrate the generality of our approach by applying it to a different domain.
翻訳日:2023-11-02 13:31:10 公開日:2023-11-01
# 組込みダイアクロニック感覚変化モデル : 古代ギリシア語を事例として

An Embedded Diachronic Sense Change Model with a Case Study from Ancient Greek ( http://arxiv.org/abs/2311.00541v1 )

ライセンス: Link先を確認
Schyan Zafar, Geoff K. Nicholls(参考訳) 単語の意味は時間とともに変化し、単語の感覚は進化、出現または消滅する。 コーパスが小さく、ばらばらで騒がしい古代言語では、そのような変化を正確にモデル化することは困難を証明し、感覚変化推定における不確実性を定量化することが重要となる。 GASCとDiSCは、事前学習の助けなしに教師なし学習を用いて、古代ギリシア語のテキストコーパスからターゲット語に対する感覚変化を分析するために使われている既存の生成モデルである。 これらのモデルは、文脈語上の分布として「コスモス(kosmos)」などの特定の対象語の感覚を表現し、感覚上の分布として有能さを知覚する。 モデルはMCMC法を用いてこれらの表現の時間的変化を測定する。 本稿では,単語埋め込みとDiSCを組み合わせることで,優れたモデル性能を実現するDiSCの組込み版であるEDiSCを紹介する。 EDiSCは,MCMC法によるサンプリング効率と拡張性の向上とともに,予測精度の向上,地道回復,不確実性定量化を実現している。 また,これらのモデルの適合に関する課題についても考察する。

Word meanings change over time, and word senses evolve, emerge or die out in the process. For ancient languages, where the corpora are often small, sparse and noisy, modelling such changes accurately proves challenging, and quantifying uncertainty in sense-change estimates consequently becomes important. GASC and DiSC are existing generative models that have been used to analyse sense change for target words from an ancient Greek text corpus, using unsupervised learning without the help of any pre-training. These models represent the senses of a given target word such as "kosmos" (meaning decoration, order or world) as distributions over context words, and sense prevalence as a distribution over senses. The models are fitted using MCMC methods to measure temporal changes in these representations. In this paper, we introduce EDiSC, an embedded version of DiSC, which combines word embeddings with DiSC to provide superior model performance. We show empirically that EDiSC offers improved predictive accuracy, ground-truth recovery and uncertainty quantification, as well as better sampling efficiency and scalability properties with MCMC methods. We also discuss the challenges of fitting these models.
翻訳日:2023-11-02 13:30:58 公開日:2023-11-01
# プロセッサのない機械学習:非線形電子メタマテリアルにおける創発学習

Machine Learning Without a Processor: Emergent Learning in a Nonlinear Electronic Metamaterial ( http://arxiv.org/abs/2311.00537v1 )

ライセンス: Link先を確認
Sam Dillavou, Benjamin D Beyer, Menachem Stern, Marc Z Miskin, Andrea J Liu, Douglas J Durian(参考訳) 標準的なディープラーニングアルゴリズムは、遅くて電力不足のプロセスである大きな非線形ネットワークを区別する必要がある。 電子学習メタマテリアルは、アナログ機械学習のための高速で効率的でフォールトトレラントなハードウェアを提供するが、既存の実装は線形であり、その能力を著しく制限している。 これらのシステムは、人工ニューラルネットワークと脳とは大きく異なるため、非線形要素を組み込む可能性や実用性は研究されていない。 ここでは、トランジスタに基づく非線形抵抗素子を自己調整したアナログ電子ネットワークである非線形学習メタマテリアルを紹介する。 我々は,XORや非線形回帰を含む線形システムでは不可能なタスクをコンピュータなしで学習できることを実証した。 非線形学習メタマテリアルは、ニューラルネットワークのスペクトルバイアスと同様、順序(平均、傾斜、曲率)におけるトレーニングエラーのモードを減少させる。 回路は損傷に頑健であり、数秒で再訓練可能であり、各トランジスタにまたがるピコジュールのみを散逸しながら、マイクロ秒で学習タスクを実行する。 これは、センサー、ロボットコントローラー、医療機器などのエッジシステムにおける高速で低消費電力なコンピューティングと、創発的学習の実行と研究のための大規模生産能力の巨大な可能性を示唆している。

Standard deep learning algorithms require differentiating large nonlinear networks, a process that is slow and power-hungry. Electronic learning metamaterials offer potentially fast, efficient, and fault-tolerant hardware for analog machine learning, but existing implementations are linear, severely limiting their capabilities. These systems differ significantly from artificial neural networks as well as the brain, so the feasibility and utility of incorporating nonlinear elements have not been explored. Here we introduce a nonlinear learning metamaterial -- an analog electronic network made of self-adjusting nonlinear resistive elements based on transistors. We demonstrate that the system learns tasks unachievable in linear systems, including XOR and nonlinear regression, without a computer. We find our nonlinear learning metamaterial reduces modes of training error in order (mean, slope, curvature), similar to spectral bias in artificial neural networks. The circuitry is robust to damage, retrainable in seconds, and performs learned tasks in microseconds while dissipating only picojoules of energy across each transistor. This suggests enormous potential for fast, low-power computing in edge systems like sensors, robotic controllers, and medical devices, as well as manufacturability at scale for performing and studying emergent learning.
翻訳日:2023-11-02 13:30:37 公開日:2023-11-01
# アクティブノイズ制御携帯機器の設計

Active Noise Control Portable Device Design ( http://arxiv.org/abs/2311.00535v1 )

ライセンス: Link先を確認
kai Wu and Yuanyuan Chen(参考訳) 私たちの世界は、楽しむのに抵抗できない独自の自然の音で満たされていますが、刺激的な他の音もたくさん聞こえますが、これはノイズです。 騒音は作業効率だけでなく、人間の健康にも影響を及ぼす。 ノイズを低減させることの問題は、非常に重要かつ大きな困難の1つです。 その問題は長年にわたり多くの方法で解決されてきた。 現在のノイズ低減法は主に材料と伝送媒体に依存しており、これは高周波ノイズに対してある程度有効である。 しかし、特に低周波雑音に対する有効低減ノイズ法は非常に限られている。 そこで本稿では,環境騒音を検知するセンサを用いた騒音低減システムを提案する。 その後、ノイズを電子制御システムに送信してノイズを処理し、逆位相周波数信号を生成して外乱を反動させる。 最後に、処理された小さなノイズをスピーカーによってブロードキャストする。 このスマートノイズ低減システムにより、低周波ノイズであっても除去することができる。 このシステムは睡眠トラッキングや音楽プレーヤーアプリケーションとも統合されている。 また、同じ環境の設定を記憶したり、温度を感知したり、ホーム家具や火災報知器をスマートに制御したりすることもできる。 このスマートシステムは、Wi-FiやBluetoothで簡単にデータを転送でき、APPで制御できる。 本研究は, 様々な環境において, 騒音汚染を防止し, 安らかで静かな睡眠や作業, 研究の環境を見つけるのに苦労している人々にソリューションを提供するための, 上記の技術のモデルを提案する。

While our world is filled with its own natural sounds that we can't resist enjoying, it is also chock-full of other sounds that can be irritating, this is noise. Noise not only influences the working efficiency but also the human's health. The problem of reducing noise is one of great importance and great difficulty. The problem has been addressed in many ways over the years. The current methods for noise reducing mostly rely on the materials and transmission medium, which are only effective to some extent for the high frequency noise. However, the effective reduction noise method especially for low frequency noise is very limited. Here we come up with a noise reduction system consist of a sensor to detect the noise in the environment. Then the noise will be sent to an electronic control system to process the noise, which will generate a reverse phase frequency signal to counteract the disturbance. Finally, the processed smaller noise will be broadcasted by the speaker. Through this smart noise reduction system, even the noise with low-frequency can be eliminated. The system is also integrated with sleep tracking and music player applications. It can also remember and store settings for the same environment, sense temperature, and smart control of home furniture, fire alarm, etc. This smart system can transfer data easily by Wi-Fi or Bluetooth and controlled by its APP. In this project, we will present a model of the above technology which can be used in various environments to prevent noise pollution and provide a solution to the people who have difficulties finding a peaceful and quiet environment for sleep, work or study.
翻訳日:2023-11-02 13:30:16 公開日:2023-11-01
# 身体ナビゲーション用LCMの開発

The Development of LLMs for Embodied Navigation ( http://arxiv.org/abs/2311.00530v1 )

ライセンス: Link先を確認
Jinzhou Lin, Han Gao, Rongtao Xu, Changwei Wang, Li Guo, Shibiao Xu(参考訳) 近年、ジェネラティブ・プレトレーニングトランス(gpt)のような大型言語モデル(llm)の急速な進歩が、様々な実用的応用の可能性から注目を集めている。 エンボディード・インテリジェンス(Embodied Intelligence)によるLLMの応用は、重要な分野として現れている。 LLMの無数の応用の中で、ナビゲーションタスクは環境の深い理解と迅速かつ正確な意思決定を必要とするため特に注目すべきである。 LLMは、洗練された環境認識と意思決定支援を備えたインテリジェンスシステムを強化し、堅牢な言語と画像処理機能を活用する。 本稿では, LLMとインボディードインテリジェンスとの共生について, ナビゲーションを中心に概説する。 最先端のモデル、研究方法論をレビューし、既存の埋め込みナビゲーションモデルとデータセットの利点とデメリットを評価する。 最後に, 本論文は, インテリジェンスにおけるLLMの役割を解明し, 今後の方向性を予測している。 この調査の包括的な研究リストはhttps://github.com/Rongtao-Xu/Awesome-LLM-ENで公開されている。

In recent years, the rapid advancement of Large Language Models (LLMs) such as the Generative Pre-trained Transformer (GPT) has attracted increasing attention due to their potential in a variety of practical applications. The application of LLMs with Embodied Intelligence has emerged as a significant area of focus. Among the myriad applications of LLMs, navigation tasks are particularly noteworthy because they demand a deep understanding of the environment and quick, accurate decision-making. LLMs can augment embodied intelligence systems with sophisticated environmental perception and decision-making support, leveraging their robust language and image-processing capabilities. This article offers an exhaustive summary of the symbiosis between LLMs and embodied intelligence with a focus on navigation. It reviews state-of-the-art models, research methodologies, and assesses the advantages and disadvantages of existing embodied navigation models and datasets. Finally, the article elucidates the role of LLMs in embodied intelligence, based on current research, and forecasts future directions in the field. A comprehensive list of studies in this survey is available at https://github.com/Rongtao-Xu/Awesome-LLM-EN
翻訳日:2023-11-02 13:29:53 公開日:2023-11-01
# 深層強化学習を用いた逐次的反事実説明のための不偏性ポリシーの学習

Learning impartial policies for sequential counterfactual explanations using Deep Reinforcement Learning ( http://arxiv.org/abs/2311.00523v1 )

ライセンス: Link先を確認
E. Panagiotou, E. Ntoutsi(参考訳) 説明可能な人工知能(XAI)の分野では、シーケンシャル・カウンティファクト(SCF)の例は、入力インスタンスへの一連の修正を実装することで、訓練された分類器の決定を変更するためにしばしば使用される。 特定のテストタイムアルゴリズムは、新しいインスタンスごとに個別に最適化することを目的としているが、最近、SCFを発見するためのポリシーを学習し、スケーラビリティを向上するReinforcement Learning (RL)メソッドが提案されている。 RLの典型的なように、状態空間、アクション、報酬の仕様を含むRL問題の定式化は、しばしば曖昧である。 本研究では,特定の行動に対する偏見など,望ましくない特性を持つポリシーを生じるような既存手法の欠点を同定する。 この効果を緩和するために,分類器の出力確率を用いてより情報的な報酬を生成することを提案する。

In the field of explainable Artificial Intelligence (XAI), sequential counterfactual (SCF) examples are often used to alter the decision of a trained classifier by implementing a sequence of modifications to the input instance. Although certain test-time algorithms aim to optimize for each new instance individually, recently Reinforcement Learning (RL) methods have been proposed that seek to learn policies for discovering SCFs, thereby enhancing scalability. As is typical in RL, the formulation of the RL problem, including the specification of state space, actions, and rewards, can often be ambiguous. In this work, we identify shortcomings in existing methods that can result in policies with undesired properties, such as a bias towards specific actions. We propose to use the output probabilities of the classifier to create a more informative reward, to mitigate this effect.
翻訳日:2023-11-02 13:29:36 公開日:2023-11-01
# ピクセル言語モデルのためのテキストレンダリング戦略

Text Rendering Strategies for Pixel Language Models ( http://arxiv.org/abs/2311.00522v1 )

ライセンス: Link先を確認
Jonas F. Lotz, Elizabeth Salesky, Phillip Rust, and Desmond Elliott(参考訳) ピクセルベースの言語モデルは、画像としてレンダリングされたテキストを処理するので、任意のスクリプトを処理できる。 しかし、近年のアプローチでは、入力表現に冗長性があることから、下流タスクのサブ最適性を証明できるような、ほぼ等価な入力パッチを大量に生成するテキストレンダラーを使用している。 本稿では,画素モデル(rust et al., 2023)でテキストをレンダリングする4つの手法について検討し,トークンレベルや多言語タスクのパフォーマンスを損なうことなく,単純な文字bigramレンダリングにより文レベルのタスクのパフォーマンスが向上することを示す。 この新たなレンダリング戦略により、元の86Mパラメータモデルと同等の2200Mパラメータで、よりコンパクトなモデルのトレーニングが可能になる。 解析の結果,文字のBigramレンダリングが一貫したモデルに繋がるが,パッチ周波数バイアスによる異方性パッチ埋め込み空間は,画像パッチとトークン化に基づく言語モデルとの接続を強調している。

Pixel-based language models process text rendered as images, which allows them to handle any script, making them a promising approach to open vocabulary language modelling. However, recent approaches use text renderers that produce a large set of almost-equivalent input patches, which may prove sub-optimal for downstream tasks, due to redundancy in the input representations. In this paper, we investigate four approaches to rendering text in the PIXEL model (Rust et al., 2023), and find that simple character bigram rendering brings improved performance on sentence-level tasks without compromising performance on token-level or multilingual tasks. This new rendering strategy also makes it possible to train a more compact model with only 22M parameters that performs on par with the original 86M parameter model. Our analyses show that character bigram rendering leads to a consistently better model but with an anisotropic patch embedding space, driven by a patch frequency bias, highlighting the connections between image patch- and tokenization-based language models.
翻訳日:2023-11-02 13:29:21 公開日:2023-11-01
# 時系列コントラスト学習のための検索ベース再構築

Retrieval-Based Reconstruction For Time-series Contrastive Learning ( http://arxiv.org/abs/2311.00519v1 )

ライセンス: Link先を確認
Maxwell A. Xu, Alexander Moreno, Hui Wei, Benjamin M. Marlin, James M. Rehg(参考訳) 自己教師型コントラスト学習の成功は、後続の下流タスクに有用な情報をエンコードする、ポジティブなデータペアの特定に寄与する。 しかし、時系列では、拡張による正のペアの生成が本来の意味を損なう可能性があるため、これは難しい。 あるサブシーケンスから情報を取得して別のサブシーケンスをうまく再構築できれば、それらは正のペアを形成するべきだと仮定する。 この直感を生かして,新しいアプローチであるRetrieval-Based Reconstruction (REBAR) のコントラスト学習を紹介した。 まず、畳み込み型クロスアテンションアーキテクチャを用いて、2つの異なる時系列間のREBAR誤差を計算する。 そして、検証実験により、REBARエラーが相互クラスメンバシップの予測子であることを示し、正負ラベルとしての使用を正当化する。 最後に、一度コントラスト学習フレームワークに統合されたREBAR法は、様々なモードで下流タスクにおける最先端のパフォーマンスを実現する埋め込みを学習できる。

The success of self-supervised contrastive learning hinges on identifying positive data pairs that, when pushed together in embedding space, encode useful information for subsequent downstream tasks. However, in time-series, this is challenging because creating positive pairs via augmentations may break the original semantic meaning. We hypothesize that if we can retrieve information from one subsequence to successfully reconstruct another subsequence, then they should form a positive pair. Harnessing this intuition, we introduce our novel approach: REtrieval-BAsed Reconstruction (REBAR) contrastive learning. First, we utilize a convolutional cross-attention architecture to calculate the REBAR error between two different time-series. Then, through validation experiments, we show that the REBAR error is a predictor of mutual class membership, justifying its usage as a positive/negative labeler. Finally, once integrated into a contrastive learning framework, our REBAR method can learn an embedding that achieves state-of-the-art performance on downstream tasks across various modalities.
翻訳日:2023-11-02 13:29:01 公開日:2023-11-01
# 機械学習モデルの比較分析による心血管疾患予測の改善--心筋梗塞を事例として

Improving Cardiovascular Disease Prediction Through Comparative Analysis of Machine Learning Models: A Case Study on Myocardial Infarction ( http://arxiv.org/abs/2311.00517v1 )

ライセンス: Link先を確認
Jonayet Miah, Duc M Ca, Md Abu Sayed, Ehsanur Rashid Lipu, Fuad Mahmud, S M Yasir Arafat(参考訳) 心臓血管疾患は現代世界でも主要な死因となっている。 喫煙、血圧上昇、コレステロール値との関連は、これらの危険因子の意義を強調する。 本研究は, 医学研究の課題である心筋疾患の予測に対処するものである。 正確な予測は、医療戦略の精査に欠かせない。 本研究は,ロジスティック回帰,サポートベクターマシン,決定木,バグング,xgboost,lightgbmの6つの異なる機械学習モデルの比較分析を行う。 達成された結果は、ロジスティック回帰(81.00%)、サポートベクトルマシン(75.01%)、XGBoost(92.72%)、ライトGBM(90.60%)、決定木(82.30%)、バギング(83.01%)の順である。 特に、XGBoostは最高のパフォーマンスモデルとして登場します。 これらの所見は冠動脈梗塞の予測精度を高める可能性を示している。 心血管リスク因子の流行が続くにつれて、高度な機械学習技術の導入は、積極的な医療介入を洗練する可能性を秘めている。

Cardiovascular disease remains a leading cause of mortality in the contemporary world. Its association with smoking, elevated blood pressure, and cholesterol levels underscores the significance of these risk factors. This study addresses the challenge of predicting myocardial illness, a formidable task in medical research. Accurate predictions are pivotal for refining healthcare strategies. This investigation conducts a comparative analysis of six distinct machine learning models: Logistic Regression, Support Vector Machine, Decision Tree, Bagging, XGBoost, and LightGBM. The attained outcomes exhibit promise, with accuracy rates as follows: Logistic Regression (81.00%), Support Vector Machine (75.01%), XGBoost (92.72%), LightGBM (90.60%), Decision Tree (82.30%), and Bagging (83.01%). Notably, XGBoost emerges as the top-performing model. These findings underscore its potential to enhance predictive precision for coronary infarction. As the prevalence of cardiovascular risk factors persists, incorporating advanced machine learning techniques holds the potential to refine proactive medical interventions.
翻訳日:2023-11-02 13:28:44 公開日:2023-11-01
# 規則に基づく誤り分類による頻繁誤りの差異解析

Rule-Based Error Classification for Analyzing Differences in Frequent Errors ( http://arxiv.org/abs/2311.00513v1 )

ライセンス: Link先を確認
Atsushi Shirafuji, Taku Matsumoto, Md Faizul Ibne Amin, Yutaka Watanobe(参考訳) エラーの発見と修正は初心者プログラマだけでなく、エキスパートプログラマにとっても時間を要する作業です。 以前の作業では、さまざまなレベルのプログラマの間で頻繁にエラーパターンが特定されていた。 しかし、初心者と専門家の傾向の違いは明らかになっていない。 プログラマの各レベルにおける頻繁なエラーの知識から、インストラクターは各レベルの学習者に有益なアドバイスを提供することができる。 本稿では,誤りを誤ったプログラムと正しいプログラムからなるコードペアに分類するルールベースエラー分類ツールを提案する。 我々は、95,631の符号対の誤りを分類し、オンライン判定システムにおいて、様々なレベルのプログラマが提出した平均3.47の誤りを識別する。 分類されたエラーは、初心者とエキスパートプログラマの頻繁なエラーの違いを分析するために使用される。 分析の結果、初心者が犯した誤りはプログラミングの知識の欠如によるものであり、その誤りは学習プロセスにおいて不可欠な部分と考えられている。 一方、専門家による誤りは、問題を読むことの不注意や、通常とは異なる問題解決の課題に起因する誤解によるものである。 提案ツールは、エラーラベル付きデータセットの作成や、さらなるコード関連教育研究に使用できる。

Finding and fixing errors is a time-consuming task not only for novice programmers but also for expert programmers. Prior work has identified frequent error patterns among various levels of programmers. However, the differences in the tendencies between novices and experts have yet to be revealed. From the knowledge of the frequent errors in each level of programmers, instructors will be able to provide helpful advice for each level of learners. In this paper, we propose a rule-based error classification tool to classify errors in code pairs consisting of wrong and correct programs. We classify errors for 95,631 code pairs and identify 3.47 errors on average, which are submitted by various levels of programmers on an online judge system. The classified errors are used to analyze the differences in frequent errors between novice and expert programmers. The analyzed results show that, as for the same introductory problems, errors made by novices are due to the lack of knowledge in programming, and the mistakes are considered an essential part of the learning process. On the other hand, errors made by experts are due to misunderstandings caused by the carelessness of reading problems or the challenges of solving problems differently than usual. The proposed tool can be used to create error-labeled datasets and for further code-related educational research.
翻訳日:2023-11-02 13:28:25 公開日:2023-11-01
# 対向攻撃を伴う自動機械翻訳メトリクスのロバスト性試験

Robustness Tests for Automatic Machine Translation Metrics with Adversarial Attacks ( http://arxiv.org/abs/2311.00508v1 )

ライセンス: Link先を確認
Yichen Huang, Timothy Baldwin(参考訳) 逆合成テキスト上でのMT評価指標の性能について検討し, 計量ロバスト性に光を当てた。 我々は、BERTScore、BLEURT、COMETという3つの一般的な機械翻訳メトリクスに対する単語レベルおよび文字レベルの攻撃実験を行った。 我々の人間実験は、自動的なメトリクスが逆向きに劣化した翻訳を過小評価する傾向があることを実証した。 また,原文を判断するbertscore ratingsにおける不整合を識別し,逆行文と逆行文の類似性を判断する一方で,劣化した翻訳文は原文よりも参照に関して著しく悪いと判断する。 我々は、より堅牢なメトリクス開発を動機付ける脆さのパターンを特定します。

We investigate MT evaluation metric performance on adversarially-synthesized texts, to shed light on metric robustness. We experiment with word- and character-level attacks on three popular machine translation metrics: BERTScore, BLEURT, and COMET. Our human experiments validate that automatic metrics tend to overpenalize adversarially-degraded translations. We also identify inconsistencies in BERTScore ratings, where it judges the original sentence and the adversarially-degraded one as similar, while judging the degraded translation as notably worse than the original with respect to the reference. We identify patterns of brittleness that motivate more robust metric development.
翻訳日:2023-11-02 13:28:04 公開日:2023-11-01
# 適応ランダム近傍情報MCMCによる構造学習

Structure Learning with Adaptive Random Neighborhood Informed MCMC ( http://arxiv.org/abs/2311.00599v1 )

ライセンス: Link先を確認
Alberto Caron, Xitong Liang, Samuel Livingstone and Jim Griffin(参考訳) 本稿では,観測データに基づく構造学習問題に対する完全ベイズ的アプローチとして,新しいMCMCサンプルであるPARNI-DAGを提案する。 因果補充性の仮定の下で、アルゴリズムは方向非巡回グラフ(DAG)の後方分布から直接近似的なサンプリングを行うことができる。 PARNI-DAGは、局所的に情報を得た適応ランダムな近傍提案を通じてDAGの効率的なサンプリングを行う。 さらに,ノード数でのスケーラビリティ向上を図るため,いくつかの制約に基づくアルゴリズムやスコアリングに基づくスケルトングラフを利用するサンプルパラメータの事前調整手順とPARNI-DAGを結合する。 これらの新機能のおかげで、parni-dagは高速に高確率領域に収束し、高次元の設定でノード間の高い相関がある場合、ローカルモードに定着しにくくなる。 PARNI-DAGで技術革新を導入した後、様々な実験でDAG構造を学習する際の混合効率と精度を実証的に実証した。

In this paper, we introduce a novel MCMC sampler, PARNI-DAG, for a fully-Bayesian approach to the problem of structure learning under observational data. Under the assumption of causal sufficiency, the algorithm allows for approximate sampling directly from the posterior distribution on Directed Acyclic Graphs (DAGs). PARNI-DAG performs efficient sampling of DAGs via locally informed, adaptive random neighborhood proposal that results in better mixing properties. In addition, to ensure better scalability with the number of nodes, we couple PARNI-DAG with a pre-tuning procedure of the sampler's parameters that exploits a skeleton graph derived through some constraint-based or scoring-based algorithms. Thanks to these novel features, PARNI-DAG quickly converges to high-probability regions and is less likely to get stuck in local modes in the presence of high correlation between nodes in high-dimensional settings. After introducing the technical novelties in PARNI-DAG, we empirically demonstrate its mixing efficiency and accuracy in learning DAG structures on a variety of experiments.
翻訳日:2023-11-02 13:20:08 公開日:2023-11-01
# フロー正規化のためのフレキシブルテールと金融リターンデータのモデリングへの応用

Flexible Tails for Normalising Flows, with Application to the Modelling of Financial Return Data ( http://arxiv.org/abs/2311.00580v1 )

ライセンス: Link先を確認
Tennessee Hickling and Dennis Prangle(参考訳) 極値理論によって動機づけられた分布の尾部特性を変化させることが可能な変換法を提案し,多変量重尾部分布を近似するために正規化フローの層として利用することができる。 このアプローチを金融リターンのモデル化に適用し、そのようなデータに発生する潜在的に極端なショックを捉えます。 訓練されたモデルは、潜在的に極端なリターンの新しい合成集合を生成するために直接使用できる

We propose a transformation capable of altering the tail properties of a distribution, motivated by extreme value theory, which can be used as a layer in a normalizing flow to approximate multivariate heavy tailed distributions. We apply this approach to model financial returns, capturing potentially extreme shocks that arise in such data. The trained models can be used directly to generate new synthetic sets of potentially extreme returns
翻訳日:2023-11-02 13:19:54 公開日:2023-11-01
# データフローベースの推論アクセラレータにおけるサイドチャネル解析によるCNNアーキテクチャの展開

Revealing CNN Architectures via Side-Channel Analysis in Dataflow-based Inference Accelerators ( http://arxiv.org/abs/2311.00579v1 )

ライセンス: Link先を確認
Hansika Weerasena and Prabhat Mishra(参考訳) 畳み込みニューラルネットワーク(CNN)は様々な領域で広く使われている。 データフローベースのCNNアクセラレータの最近の進歩により、リソース制約エッジデバイスでのCNN推論が可能になった。 これらのデータフローアクセラレータは畳み込み層の固有のデータ再利用を利用してcnnモデルを効率的に処理する。 CNNモデルのアーキテクチャは、プライバシとセキュリティにとって重要だ。 本稿では、メモリベースのサイドチャネル情報を評価し、データフローベースのCNN推論アクセラレーターからCNNアーキテクチャを復元する。 提案攻撃は、CNNアクセラレーターにおけるデータフローマッピングの空間的および時間的データ再利用とアーキテクチャ上のヒントを利用して、CNNモデルの構造を復元する。 実験の結果,提案するサイドチャネル攻撃により,人気のあるcnnモデルであるlenet,alexnet,vggnet16の構造を回復できることがわかった。

Convolution Neural Networks (CNNs) are widely used in various domains. Recent advances in dataflow-based CNN accelerators have enabled CNN inference in resource-constrained edge devices. These dataflow accelerators utilize inherent data reuse of convolution layers to process CNN models efficiently. Concealing the architecture of CNN models is critical for privacy and security. This paper evaluates memory-based side-channel information to recover CNN architectures from dataflow-based CNN inference accelerators. The proposed attack exploits spatial and temporal data reuse of the dataflow mapping on CNN accelerators and architectural hints to recover the structure of CNN models. Experimental results demonstrate that our proposed side-channel attack can recover the structures of popular CNN models, namely Lenet, Alexnet, and VGGnet16.
翻訳日:2023-11-02 13:19:46 公開日:2023-11-01
# ビームシミュレーションのための因果物理学不定形ニューラルネットワークの一般化性向上のための転送学習

Transfer learning for improved generalizability in causal physics-informed neural networks for beam simulations ( http://arxiv.org/abs/2311.00578v1 )

ライセンス: Link先を確認
Taniya Kapoor, Hongrui Wang, Alfredo Nunez, Rolf Dollevoet(参考訳) 本稿では,弾性基礎上のビームのダイナミクスをシミュレートする新しい手法を提案する。 具体的には、Winkler 財団の Euler-Bernoulli と Timoshenko ビームモデルは、因性参照物理インフォームドニューラルネットワーク (PINN) フレームワーク内の伝達学習アプローチを用いてシミュレートされる。 従来のPINNは、クローズドフォーム解析ソリューションの問題であっても、大きな時空領域を扱う際の課題に直面している。 この制限を克服するために因果関係を無視するPINN損失関数を用い、基礎となる物理を効果的に捉える。 しかし,因果関係を反映するPINNは一般化性に欠けることがわかった。 本稿では,様々なシナリオにまたがって収束を加速し,正確な結果を保証するために因果関係に固執しながら,移動学習を生かし,ゼロから学習する代わりに類似した問題に対する解決策を提案する。 Euler-Bernoulliビームの数値実験は、初期データにおけるノイズを含む様々な初期条件に対する提案手法の有効性を強調している。 さらに, 拡張空間領域および時間領域におけるtimoshenkoビームに対して, 提案手法の可能性を示した。 いくつかの比較では、提案手法は、標準の$L^2$-normメートル法において、最先端の物理インフォームド法よりも優れ、収束を加速する。

This paper introduces a novel methodology for simulating the dynamics of beams on elastic foundations. Specifically, Euler-Bernoulli and Timoshenko beam models on the Winkler foundation are simulated using a transfer learning approach within a causality-respecting physics-informed neural network (PINN) framework. Conventional PINNs encounter challenges in handling large space-time domains, even for problems with closed-form analytical solutions. A causality-respecting PINN loss function is employed to overcome this limitation, effectively capturing the underlying physics. However, it is observed that the causality-respecting PINN lacks generalizability. We propose using solutions to similar problems instead of training from scratch by employing transfer learning while adhering to causality to accelerate convergence and ensure accurate results across diverse scenarios. Numerical experiments on the Euler-Bernoulli beam highlight the efficacy of the proposed approach for various initial conditions, including those with noise in the initial data. Furthermore, the potential of the proposed method is demonstrated for the Timoshenko beam in an extended spatial and temporal domain. Several comparisons suggest that the proposed method accurately captures the inherent dynamics, outperforming the state-of-the-art physics-informed methods under standard $L^2$-norm metric and accelerating convergence.
翻訳日:2023-11-02 13:19:33 公開日:2023-11-01
# 正規化・群集分割林による多数の治療腕の1つへのパーソナライズド・アサイン

Personalized Assignment to One of Many Treatment Arms via Regularized and Clustered Joint Assignment Forests ( http://arxiv.org/abs/2311.00577v1 )

ライセンス: Link先を確認
Rahul Ladhania, Jann Spiess, Lyle Ungar, Wenbo Wu(参考訳) ランダム化試験から多数の治療用アームの1つにパーソナライズされた課題を学習することを検討する。 この場合、各腕の異種処理効果を別々に推定する標準的な方法は、過剰なばらつきのために性能が低下する可能性がある。 代わりに、治療用アームにまたがって情報をプールする方法を提案する: まず、グリーディーな再帰的パーティショニングに基づく正規化森林ベースの割当てアルゴリズムを考える。 第2に,治療アームと一貫した類似結果を組み合わせたクラスタリング手法によってアルゴリズムを補強する。 シミュレーション研究では,これらの手法の腕回りの結果を別々に予測するための性能と,正規化とクラスタリングによる処理割り当てを直接最適化する文書ゲインを比較した。 理論的モデルでは、多くの治療用アームが最適な腕を見つけるのを難しくする一方で、正規化された最適化によってパーソナライズから大きなユーティリティーゲインを達成することができる。

We consider learning personalized assignments to one of many treatment arms from a randomized controlled trial. Standard methods that estimate heterogeneous treatment effects separately for each arm may perform poorly in this case due to excess variance. We instead propose methods that pool information across treatment arms: First, we consider a regularized forest-based assignment algorithm based on greedy recursive partitioning that shrinks effect estimates across arms. Second, we augment our algorithm by a clustering scheme that combines treatment arms with consistently similar outcomes. In a simulation study, we compare the performance of these approaches to predicting arm-wise outcomes separately, and document gains of directly optimizing the treatment assignment with regularization and clustering. In a theoretical model, we illustrate how a high number of treatment arms makes finding the best arm hard, while we can achieve sizable utility gains from personalization by regularized optimization.
翻訳日:2023-11-02 13:19:08 公開日:2023-11-01
# LLaVA-Interactive:画像チャット、セグメンテーション、生成、編集のためのオールインワンデモ

LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing ( http://arxiv.org/abs/2311.00571v1 )

ライセンス: Link先を確認
Wei-Ge Chen, Irina Spiridonova, Jianwei Yang, Jianfeng Gao, Chunyuan Li(参考訳) LLaVA-Interactiveはマルチモーダルな人間-AIインタラクションのプロトタイプである。 本システムは,マルチモーダルユーザ入力を受信し,マルチモーダル応答を生成することで,ユーザとのマルチターン対話を実現する。 重要なのは、LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトが相互作用における人間の意図を一致させる。 LLaVA-Interactiveの開発は、LLaVAのビジュアルチャット、SEEMの画像セグメンテーション、GLIGENの画像生成と編集の3つのプレビルドAIモデルのマルチモーダルスキルを組み合わせることで、非常にコスト効率が良い。 多様なアプリケーションシナリオが紹介され、LLaVA-Interactiveの可能性を実証し、マルチモーダルインタラクティブシステムにおける将来の研究を刺激する。

LLaVA-Interactive is a research prototype for multimodal human-AI interaction. The system can have multi-turn dialogues with human users by taking multimodal user inputs and generating multimodal responses. Importantly, LLaVA-Interactive goes beyond language prompt, where visual prompt is enabled to align human intents in the interaction. The development of LLaVA-Interactive is extremely cost-efficient as the system combines three multimodal skills of pre-built AI models without additional model training: visual chat of LLaVA, image segmentation from SEEM, as well as image generation and editing from GLIGEN. A diverse set of application scenarios is presented to demonstrate the promises of LLaVA-Interactive and to inspire future research in multimodal interactive systems.
翻訳日:2023-11-02 13:18:53 公開日:2023-11-01
# 病院の利益状況と心臓発作のアウトカムに関する全国観測研究におけるスケーラブルなカーネルバランスの重み付け

Scalable kernel balancing weights in a nationwide observational study of hospital profit status and heart attack outcomes ( http://arxiv.org/abs/2311.00568v1 )

ライセンス: Link先を確認
Kwangho Kim, Bijan A. Niknam, Jos\'e R. Zubizarreta(参考訳) 重み付け(英: Weighting)は、統計調整の一般的な手法である。 重み付けには2つの目的がある:第一に共変量分布のバランスをとること、第二に重み付けが最小分散であることを保証することである。 最近の、ますます一般的なアプローチは、これらの2つの目的に対する重みを直接最適化する。 しかし、このアプローチは、研究者が拡張された機能空間における一般的な基底関数を柔軟にバランスしたい場合、大規模なデータセットでは実現できない。 例えば、多くのバランスをとるアプローチは、全国レベルの医療サービス研究にスケールできない。 この現実的な問題に対処するために、再現されたカーネルヒルベルト空間の基底展開と最先端凸最適化技術を統合する重み付けへのスケーラブルで柔軟なアプローチについて述べる。 具体的には、ランク制限nystr\"{o}m法を用いて、線形時間と空間のバランスをとるためのカーネル基底を効率的に計算し、次いで乗算器の特別な一階交代方向法を用いて最適重みを求める。 本研究では、大規模データセットにおける重み付け推定器の性能に関する新たな知見を提供し、提案手法が精度と速度において他者より大幅に優れていることを示す。 最後に、この重み付け手法を用いて、127万人の患者の総合的データセットにおいて、病院の利益状況と心臓発作結果との関係を全国的に調査する。 他病院と同様の速さで心臓発作を治療するために介入心臓学が用いられているが,死亡率や寛解率は高い。

Weighting is a general and often-used method for statistical adjustment. Weighting has two objectives: first, to balance covariate distributions, and second, to ensure that the weights have minimal dispersion and thus produce a more stable estimator. A recent, increasingly common approach directly optimizes the weights toward these two objectives. However, this approach has not yet been feasible in large-scale datasets when investigators wish to flexibly balance general basis functions in an extended feature space. For example, many balancing approaches cannot scale to national-level health services research studies. To address this practical problem, we describe a scalable and flexible approach to weighting that integrates a basis expansion in a reproducing kernel Hilbert space with state-of-the-art convex optimization techniques. Specifically, we use the rank-restricted Nystr\"{o}m method to efficiently compute a kernel basis for balancing in {nearly} linear time and space, and then use the specialized first-order alternating direction method of multipliers to rapidly find the optimal weights. In an extensive simulation study, we provide new insights into the performance of weighting estimators in large datasets, showing that the proposed approach substantially outperforms others in terms of accuracy and speed. Finally, we use this weighting approach to conduct a national study of the relationship between hospital profit status and heart attack outcomes in a comprehensive dataset of 1.27 million patients. We find that for-profit hospitals use interventional cardiology to treat heart attacks at similar rates as other hospitals, but have higher mortality and readmission rates.
翻訳日:2023-11-02 13:18:37 公開日:2023-11-01
# CT画像による腎細胞癌の病理分類における不確かさ推定を用いたロバスト深層学習法

A Robust Deep Learning Method with Uncertainty Estimation for the Pathological Classification of Renal Cell Carcinoma based on CT Images ( http://arxiv.org/abs/2311.00567v1 )

ライセンス: Link先を確認
Ni Yao, Hang Hu, Kaicong Chen, Chen Zhao, Yuan Guo, Boya Li, Jiaofen Nan, Yanting Li, Chuang Han, Fubao Zhu, Weihua Zhou, Li Tian(参考訳) 目的:CT画像に基づく腎細胞癌(RCC)の病態サブタイプの術前分化を促進するため、不確実性推定を取り入れた深層学習に基づく診断モデルの開発と検証を行う。 病理学的に証明されたrcc668例の手法データをセンター1から回顧的に収集した。 5倍のクロスバリデーションを用いてRCCサブタイプをクリアセルRCC (ccRCC) , 乳頭RCC (pRCC) , クロモフォベRCC (chRCC) に分類する深層学習モデルを開発した。 センター2の78名の外的検証セットは、モデルの性能をさらに評価した。 その結果, RCC, pRCC, chRCCの分類は, それぞれ0.868 (95% CI: 0.826-0.923), 0.846 (95% CI: 0.812-0.886), 0.839 (95% CI: 0.802-0.88) であった。 外部検証セットでは, ccRCC, pRCC, chRCCはそれぞれ0.856 (95% CI: 0.838-0.882), 0.787 (95% CI: 0.757-0.818), 0.793 (95% CI: 0.758-0.831)であった。 結語 発達した深層学習モデルはRCCの病的サブタイプを予測する上で頑健な性能を示し, 包括的不確実性は, 腎腫瘍患者の臨床的意思決定を支援する上で重要な理解モデル信頼性の重要性を強調した。 臨床関連性ステートメント 深層学習アプローチは、不確実性評価と統合され、臨床医に二重の利点をもたらす: 診断信頼性基準を補完する正確なRCCサブタイプ予測、RCC患者の情報意思決定を促進する。

Objectives To develop and validate a deep learning-based diagnostic model incorporating uncertainty estimation so as to facilitate radiologists in the preoperative differentiation of the pathological subtypes of renal cell carcinoma (RCC) based on CT images. Methods Data from 668 consecutive patients, pathologically proven RCC, were retrospectively collected from Center 1. By using five-fold cross-validation, a deep learning model incorporating uncertainty estimation was developed to classify RCC subtypes into clear cell RCC (ccRCC), papillary RCC (pRCC), and chromophobe RCC (chRCC). An external validation set of 78 patients from Center 2 further evaluated the model's performance. Results In the five-fold cross-validation, the model's area under the receiver operating characteristic curve (AUC) for the classification of ccRCC, pRCC, and chRCC was 0.868 (95% CI: 0.826-0.923), 0.846 (95% CI: 0.812-0.886), and 0.839 (95% CI: 0.802-0.88), respectively. In the external validation set, the AUCs were 0.856 (95% CI: 0.838-0.882), 0.787 (95% CI: 0.757-0.818), and 0.793 (95% CI: 0.758-0.831) for ccRCC, pRCC, and chRCC, respectively. Conclusions The developed deep learning model demonstrated robust performance in predicting the pathological subtypes of RCC, while the incorporated uncertainty emphasized the importance of understanding model confidence, which is crucial for assisting clinical decision-making for patients with renal tumors. Clinical relevance statement Our deep learning approach, integrated with uncertainty estimation, offers clinicians a dual advantage: accurate RCC subtype predictions complemented by diagnostic confidence references, promoting informed decision-making for patients with RCC.
翻訳日:2023-11-02 13:18:09 公開日:2023-11-01
# CROMA:コントラストレーダ光マスクオートエンコーダを用いたリモートセンシング

CROMA: Remote Sensing Representations with Contrastive Radar-Optical Masked Autoencoders ( http://arxiv.org/abs/2311.00566v1 )

ライセンス: Link先を確認
Anthony Fuller, Koreen Millard, James R. Green(参考訳) 重要かつ急速に成長するアプリケーションであるリモートセンシングは、広範にラベル付けされた、空間的に整合したマルチモーダルデータを提供する。 croma: リッチなユニモーダル表現とマルチモーダル表現を学ぶために、コントラストとレコンストラクションの自己教師付き目標を組み合わせたフレームワークです。 本手法は、マスク付きマルチスペクトル光と合成開口レーダのサンプルを、空間と時間で並べて別々に符号化し、クロスモーダルコントラスト学習を行う。 別のエンコーダはこれらのセンサーを融合させ、軽量デコーダを介してマスクされたパッチを予測するために使用されるジョイントマルチモーダル符号化を生成する。 これらの目的は、空間的に整列したマルチモーダルデータに利用した場合に相補的であることを示す。 また,クロス・アンド・セルフ・アテンション行列を空間的にバイアスするx-および2d-アリビを導入する。 これらの戦略は表現を改善し、テスト時に最大17.6倍の画像を効果的に外挿できるようにする。 cromaは4つの分類ベンチマーク -- 微調整(avg.1.8%)、線形(avg.2.4%)、非線形(avg.1.4%)、探索、kn分類(avg.3.5%)、k-meansクラスタリング(avg.8.4%)、3つのセグメンテーションベンチマーク(avg.6.4%)で評価されている。 CROMAのリッチでオプションでマルチモーダルな表現はリモートセンシングアプリケーションで広く活用できる。

A vital and rapidly growing application, remote sensing offers vast yet sparsely labeled, spatially aligned multimodal data; this makes self-supervised learning algorithms invaluable. We present CROMA: a framework that combines contrastive and reconstruction self-supervised objectives to learn rich unimodal and multimodal representations. Our method separately encodes masked-out multispectral optical and synthetic aperture radar samples -- aligned in space and time -- and performs cross-modal contrastive learning. Another encoder fuses these sensors, producing joint multimodal encodings that are used to predict the masked patches via a lightweight decoder. We show that these objectives are complementary when leveraged on spatially aligned multimodal data. We also introduce X- and 2D-ALiBi, which spatially biases our cross- and self-attention matrices. These strategies improve representations and allow our models to effectively extrapolate to images up to 17.6x larger at test-time. CROMA outperforms the current SoTA multispectral model, evaluated on: four classification benchmarks -- finetuning (avg. 1.8%), linear (avg. 2.4%) and nonlinear (avg. 1.4%) probing, kNN classification (avg. 3.5%), and K-means clustering (avg. 8.4%); and three segmentation benchmarks (avg. 6.4%). CROMA's rich, optionally multimodal representations can be widely leveraged across remote sensing applications.
翻訳日:2023-11-02 13:17:32 公開日:2023-11-01
# 集中治療室における視覚手がかりの検出と臨床状況との関連

Detecting Visual Cues in the Intensive Care Unit and Association with Patient Clinical Status ( http://arxiv.org/abs/2311.00565v1 )

ライセンス: Link先を確認
Subhash Nerella, Ziyuan Guan, Andrea Davidson, Yuanfang Ren, Tezcan Baslanti, Brooke Armfield, Patrick Tighe, Azra Bihorac, Parisa Rashidi(参考訳) 集中治療ユニット(icu)は、生命を脅かす患者に対して、綿密な監督と継続的なケアを提供する。 しかしながら、ICUの継続的な患者評価は、時間的制約と医療提供者の作業負荷により、依然として制限されている。 痛みやモビリティアセスメントなどの既存のicuの患者評価は、ほとんどが散発的で手作業で行われており、ヒューマンエラーの可能性を秘めている。 ICUで人間のアセスメントを強化する人工知能(AI)ツールの開発は、より客観的できめ細かい監視機能を提供する上で有用である。 例えば、痛みや興奮に関連する患者の顔の手がかりの変化を捉えることは、痛みに関連する薬の調整や、デリリウムなどの興奮誘発状態の検出に役立つ。 さらに, 臨床症状の軽微な変化は, 高解像度の生理学的信号や電子健康記録(EHR)データと組み合わせることで, 継続的な患者のモニタリングに役立つ可能性がある。 本稿では,視力低下,急性脳機能障害,痛みなど,視力と患者の状態との関連について検討した。 ICUで収集した107,064フレームのAU-ICUデータセットに、訓練されたアノテータによる顔アクションユニット(AU)ラベルを付与した。 我々はデータ資源利用の最大化によりデータ不均衡問題に対処する新しい「マスケッド損失計算」手法を開発した。 AU-ICUデータセットと3つの外部データセットを用いて18個のAUを検出するモデルを訓練した。 スウィントランスモデルはテストセットで0.57 平均 f1-score と 0.89 平均精度を達成した。 さらに,634,054フレームのAU推論を行い,顔面AUと重症度,急性脳機能障害,痛みなどの臨床症状との関連性について検討した。

Intensive Care Units (ICU) provide close supervision and continuous care to patients with life-threatening conditions. However, continuous patient assessment in the ICU is still limited due to time constraints and the workload on healthcare providers. Existing patient assessments in the ICU such as pain or mobility assessment are mostly sporadic and administered manually, thus introducing the potential for human errors. Developing Artificial intelligence (AI) tools that can augment human assessments in the ICU can be beneficial for providing more objective and granular monitoring capabilities. For example, capturing the variations in a patient's facial cues related to pain or agitation can help in adjusting pain-related medications or detecting agitation-inducing conditions such as delirium. Additionally, subtle changes in visual cues during or prior to adverse clinical events could potentially aid in continuous patient monitoring when combined with high-resolution physiological signals and Electronic Health Record (EHR) data. In this paper, we examined the association between visual cues and patient condition including acuity status, acute brain dysfunction, and pain. We leveraged our AU-ICU dataset with 107,064 frames collected in the ICU annotated with facial action units (AUs) labels by trained annotators. We developed a new "masked loss computation" technique that addresses the data imbalance problem by maximizing data resource utilization. We trained the model using our AU-ICU dataset in conjunction with three external datasets to detect 18 AUs. The SWIN Transformer model achieved 0.57 mean F1-score and 0.89 mean accuracy on the test set. Additionally, we performed AU inference on 634,054 frames to evaluate the association between facial AUs and clinically important patient conditions such as acuity status, acute brain dysfunction, and pain.
翻訳日:2023-11-02 13:17:00 公開日:2023-11-01
# 非定常データモデリングのための総合的局所スケール構造をもつオンライン学生$t$プロセス

Online Student-$t$ Processes with an Overall-local Scale Structure for Modelling Non-stationary Data ( http://arxiv.org/abs/2311.00564v1 )

ライセンス: Link先を確認
Taole Sha, Michael Minyi Zhang(参考訳) 時間依存データはしばしば非定常性や重み付き誤差のような特性を示し、一般的なモデルで使用される典型的な仮定でモデル化するのは不適切である。 したがって、このような問題に対応するためには、より柔軟なアプローチが必要となる。 この目的のために,共分散のための局所的スケール構造を持つ学生$t$プロセスのベイズ混合を提案する。 さらに,データのリアルタイム到着時にオンライン推論を行うために,シーケンシャルなモンテカルロサンプリング(SMC)を用いる。 実世界のデータセット上でのガウス的プロセスベースモデルと比較して,提案手法の優位性を実証し,学生=t$プロセスの混合利用の必要性を証明する。

Time-dependent data often exhibit characteristics, such as non-stationarity and heavy-tailed errors, that would be inappropriate to model with the typical assumptions used in popular models. Thus, more flexible approaches are required to be able to accommodate such issues. To this end, we propose a Bayesian mixture of student-$t$ processes with an overall-local scale structure for the covariance. Moreover, we use a sequential Monte Carlo (SMC) sampler in order to perform online inference as data arrive in real-time. We demonstrate the superiority of our proposed approach compared to typical Gaussian process-based models on real-world data sets in order to prove the necessity of using mixtures of student-$t$ processes.
翻訳日:2023-11-02 13:16:35 公開日:2023-11-01
# 条件測定によるオプティメカルシステムにおける重力の量子シグネチャ

Quantum signature of gravity in optomechanical systems with conditional measurement ( http://arxiv.org/abs/2311.00563v1 )

ライセンス: Link先を確認
Daisuke Miki, Akira Matsumura, Kazuhiro Yamamoto(参考訳) 量子制御下での光力学系における重力の量子シグネチャについて検討する。 機械鏡における重力による絡み合いとスクイーズを定常状態で解析した。 メカニカルミラーのフーリエモードでは,重力によって引き起こされる絡み合いとスクイーズの発生の挙動と条件が同定される。 本論文で見いだされたミラー間の絡み合いの発生条件は、出力光間の重みによる絡み合いよりも深刻である。 光力学系における重力誘起の絡み合いは、将来の重力の量子的性質を検証するための重要なマイルストーンである。

We investigate the quantum signature of gravity in optomechanical systems under quantum control. We analyze the gravity-induced entanglement and squeezing in mechanical mirrors in a steady state. The behaviors and the conditions for generating the gravity-induced entanglement and squeezing are identified in the Fourier modes of the mechanical mirrors. The condition of generating the entanglement between the mirrors found in the present paper is more severe than that of the gravity-induced entanglement between output lights. The gravity-induced entanglement in optomechanical systems is an important milestone towards verifying the quantum nature of gravity, which should be verified in the future.
翻訳日:2023-11-02 13:16:24 公開日:2023-11-01
# MNN: 自己指導型学習のための近親者の混在

MNN: Mixed Nearest-Neighbors for Self-Supervised Learning ( http://arxiv.org/abs/2311.00562v1 )

ライセンス: Link先を確認
Chen Peng, Xianzhong Long, Yun Li(参考訳) 対照的に自己教師付き学習では、正のサンプルは、通常同じ画像から引き出されるが、異なる拡張ビューで引き出されるため、比較的限られた正のサンプル源となる。 この問題を軽減する効果的な方法は、サンプル間の関係を組み込むことである。 しかし、偽の隣人の問題(すなわち、陽性サンプルと同じカテゴリに属しない隣人の問題)は客観的であるが、人間の監督なしに隣人のサンプルを問い合わせることによってしばしば見過ごされる課題である。 本稿では,MNN(Mixed Nearest-Neighbors for Self-Supervised Learning)と呼ばれる,シンプルな自己教師型学習フレームワークを提案する。 MNNは、直感的な重み付け手法と画像混合操作により、サンプルのセマンティクスに対する近隣サンプルの影響を最適化する。 本研究の結果から,MNNは4つのベンチマークデータセットに対して異常な一般化性能とトレーニング効率を示した。

In contrastive self-supervised learning, positive samples are typically drawn from the same image but in different augmented views, resulting in a relatively limited source of positive samples. An effective way to alleviate this problem is to incorporate the relationship between samples, which involves including the top-k nearest neighbors of positive samples in the framework. However, the problem of false neighbors (i.e., neighbors that do not belong to the same category as the positive sample) is an objective but often overlooked challenge due to the query of neighbor samples without human supervision. In this paper, we present a simple Self-supervised learning framework called Mixed Nearest-Neighbors for Self-Supervised Learning (MNN). MNN optimizes the influence of neighbor samples on the semantics of positive samples through an intuitive weighting approach and image mixture operations. The results of our study demonstrate that MNN exhibits exceptional generalization performance and training efficiency on four benchmark datasets.
翻訳日:2023-11-02 13:16:15 公開日:2023-11-01
# 連続実験と人的要因の探索的研究

Continuous Experimentation and Human Factors An Exploratory Study ( http://arxiv.org/abs/2311.00560v1 )

ライセンス: Link先を確認
Amna Pir Muhammad, Eric Knauss, Jonas B\"argman, and Alessia Knauss(参考訳) 今日の急速に発展する技術的状況において、ツールやシステムの成功は、ユーザのニーズや期待に応える能力に大きく依存している。 ユーザ中心のデザインアプローチは、人的要因に注目して、開発プロセスにおいて人的要素を優先するものとして注目を集めています。 ソフトウェアベースのシステムの複雑さが増す中、企業はアジャイル開発方法論を採用し、継続的なソフトウェア実験を強調している。 しかしながら、この文脈における人間的要因に関して、継続的な実験を効果的に実行する方法についての知識は限られている。 本研究では,連続実験における人的要因の統合に関する探索的定性的研究を行い,人的要因と連続ソフトウェア実験の特徴を明らかにすること,連続ソフトウェア実験における人的要因の統合に関する実践的課題,連続人的因子実験の管理に関するベストプラクティスについて述べる。

In todays rapidly evolving technological landscape, the success of tools and systems relies heavily on their ability to meet the needs and expectations of users. User-centered design approaches, with a focus on human factors, have gained increasing attention as they prioritize the human element in the development process. With the increasing complexity of software-based systems, companies are adopting agile development methodologies and emphasizing continuous software experimentation. However, there is limited knowledge on how to effectively execute continuous experimentation with respect to human factors within this context. This research paper presents an exploratory qualitative study for integrating human factors in continuous experimentation, aiming to uncover distinctive characteristics of human factors and continuous software experiments, practical challenges for integrating human factors in continuous software experiments, and best practices associated with the management of continuous human factors experimentation.
翻訳日:2023-11-02 13:15:57 公開日:2023-11-01
# 多目的最適化のための多段階最適化の学習

Learning to optimize by multi-gradient for multi-objective optimization ( http://arxiv.org/abs/2311.00559v1 )

ライセンス: Link先を確認
Linxi Yang, Xinmin Yang, Liping Tang(参考訳) 科学のための人工知能(AI)の開発は、学習に基づく研究パラダイムの出現につながり、多目的最適化(MOO)手法の設計の再評価を必要とする。 新しい世代のMOOメソッドは、手動設計よりも自動学習に根ざすべきである。 本稿では,MOO問題を最適化するための新しい自動学習パラダイムを提案し,複数の勾配から生成元(あるいはマッピング)を自動的に学習して方向を更新するML2O法を提案する。 学習に基づく手法として,ML2Oは現在のステップからの情報を活用し,過去の反復軌跡データから抽出したグローバルな経験を取り入れたローカルランドスケープの知識を取得する。 新しいガード機構を導入することで,gml2o法を最適化するガード付き多段階学習を提案し,gml2o法によって生成された反復シーケンスがパレート臨界点に収束することを示す。 実験の結果,学習したオプティマイザは,マルチタスク学習(MTL)ニューラルネットワークのトレーニングにおいて,手作りの競合他社よりも優れていた。

The development of artificial intelligence (AI) for science has led to the emergence of learning-based research paradigms, necessitating a compelling reevaluation of the design of multi-objective optimization (MOO) methods. The new generation MOO methods should be rooted in automated learning rather than manual design. In this paper, we introduce a new automatic learning paradigm for optimizing MOO problems, and propose a multi-gradient learning to optimize (ML2O) method, which automatically learns a generator (or mappings) from multiple gradients to update directions. As a learning-based method, ML2O acquires knowledge of local landscapes by leveraging information from the current step and incorporates global experience extracted from historical iteration trajectory data. By introducing a new guarding mechanism, we propose a guarded multi-gradient learning to optimize (GML2O) method, and prove that the iterative sequence generated by GML2O converges to a Pareto critical point. The experimental results demonstrate that our learned optimizer outperforms hand-designed competitors on training multi-task learning (MTL) neural network.
翻訳日:2023-11-02 13:15:39 公開日:2023-11-01
# 光電気化学水素製造のためのCu2O光カソードの非平衡グリーン関数シミュレーション

Nonequilibrium Green's Function simulation of Cu2O photocathodes for photoelectrochemical hydrogen production ( http://arxiv.org/abs/2311.00630v1 )

ライセンス: Link先を確認
Lassi H\"allstr\"om, Ilkka Tittonen(参考訳) 本研究では,光電気化学(PEC)水分裂セルの半導体電極の非平衡グリーン関数(NEGF)の定式化に基づくシミュレーションを行う。 単純なPECセルの性能は半古典的ドリフト拡散理論で十分に説明できるが、薄膜セルやナノ構造への関心の高まりは、これらのデバイスにおける電荷キャリアのダイナミクスに影響を与える量子現象を捉える理論的な処理を必要とする。 具体的には, p型Cu2O電極について検討し, 生成光電流に対するバイアス電圧, 反応速度およびCu2O層の厚さの影響について検討した。 NEGF方程式は、ポアソン方程式からの静電ポテンシャル、日光誘起光子散乱、水分解反応の駆動に必要な化学的過大ポテンシャルと、自己整合的に解かれる。 NEGFシミュレーションは, 電荷キャリア密度および半導体電極内部の対応する電流のエネルギー分解溶液をナノスケールで提供しながら, ボルタンメトリーおよびインピーダンス分光測定による実験結果を正確に再現することを示した。

In this work we present a simulation of the semiconductor electrodes of photoelectrochemical (PEC) water splitting cells based on the nonequilibrium Green's function (NEGF) formalism. While the performance of simple PEC cells can be adequately explained with semi-classical drift-diffusion theory, the increasing interest towards thin film cells and nanostructures in general requires theoretical treatment that can capture the quantum phenomena influencing the charge carrier dynamics in these devices. Specifically, we study a p-type Cu2O electrode and examine the influence of the bias voltage, reaction kinetics and the thickness of the Cu2O layer on the generated photocurrent. The NEGF equations are solved in a self-consistent manner with the electrostatic potential from Poisson's equation, sunlight induced photon scattering and the chemical overpotential required to drive the water splitting reaction. We show that the NEGF simulation accurately reproduces experimental results from both voltammetry and impedance spectroscopy measurements, while providing an energy resolved solution of the charge carrier densities and corresponding currents inside the semiconductor electrode at nanoscale.
翻訳日:2023-11-02 13:07:06 公開日:2023-11-01
# 逆ペトリネットからカラーペトリネットへの形式的翻訳

Formal Translation from Reversing Petri Nets to Coloured Petri Nets ( http://arxiv.org/abs/2311.00629v1 )

ライセンス: Link先を確認
Kamila Barylska, Anna Gogolinska, Lukasz Mikulski, Anna Philippou, Marcin Piatkowski, Kyriaki Psara(参考訳) 可逆計算は、計算中の任意の時点において、任意の操作列を逆順に実行可能にする、新たなコンピューティングパラダイムである。 その魅力は、低消費電力計算の可能性と、化学反応、量子計算、ロボット工学、分散システムなど、幅広いアプリケーションとの関連にある。 ペトリネットの逆転は、最近提案されたペトリネットの拡張であり、バックトラック、因果逆転、因果逆転の3つの主要な可逆性を実装している。 彼らの特徴は、結合を形成するために組み合わせられる名前付きトークンの使用である。 名前付きトークンと履歴関数は過去の振る舞いを記憶する手段を構成し、逆転を可能にする。 近年の研究では,トークンがデータ値を運ぶ従来のペトリネットの拡張であるColoured Petri Nets (CPNs) モデルに,RPNのサブクラスから構造的変換を提案する。 本稿では,同一型の複数のトークンをシステム内に存在することを許容するモデルである個別分岐解釈の下で,トークン多重性を持つrpnを扱うよう拡張する。 3種類の可逆性をサポートするために、トークンはその因果履歴に関連付けられ、同じタイプのトークンは前進するときに同様に遷移を起動するが、後方に進むと、以前に発射した遷移だけを逆転することができる。 新しい翻訳はトークンの特異性を制限することに加えて、RPNをCPNに変換するための洗練されたアプローチを示し、これら3種類の可逆性をインスタンス化することができる。 また、この翻訳を実装したツールについて報告し、CPNツールを用いた自動翻訳と可逆システムの解析を行う。

Reversible computation is an emerging computing paradigm that allows any sequence of operations to be executed in reverse order at any point during computation. Its appeal lies in its potential for lowpower computation and its relevance to a wide array of applications such as chemical reactions, quantum computation, robotics, and distributed systems. Reversing Petri nets are a recently-proposed extension of Petri nets that implements the three main forms of reversibility, namely, backtracking, causal reversing, and out-of-causal-order reversing. Their distinguishing feature is the use of named tokens that can be combined together to form bonds. Named tokens along with a history function, constitute the means of remembering past behaviour, thus, enabling reversal. In recent work, we have proposed a structural translation from a subclass of RPNs to the model of Coloured Petri Nets (CPNs), an extension of traditional Petri nets where tokens carry data values. In this paper, we extend the translation to handle RPNs with token multiplicity under the individual-token interpretation, a model which allows multiple tokens of the same type to exist in a system. To support the three types of reversibility, tokens are associated with their causal history and, while tokens of the same type are equally eligible to fire a transition when going forward, when going backwards they are able to reverse only the transitions they have previously fired. The new translation, in addition to lifting the restriction on token uniqueness, presents a refined approach for transforming RPNs to CPNs through a unifying approach that allows instantiating each of the three types of reversibility. The paper also reports on a tool that implements this translation, paving the way for automated translations and analysis of reversible systems using CPN Tools.
翻訳日:2023-11-02 13:06:48 公開日:2023-11-01
# マルチアノテータデータセットの損失モデリング

Loss Modeling for Multi-Annotator Datasets ( http://arxiv.org/abs/2311.00619v1 )

ライセンス: Link先を確認
Uthman Jinadu, Jesse Annan, Shanshan Wen, Yi Ding(参考訳) データセットのすべてのアノテータの意見に対する説明は公平性に不可欠である。 しかし、大規模なデータセットをアノテートする場合、個々のアノテータは、疲労につながる可能性のある数千のレーティングを頻繁に提供します。 さらに、これらのアノテーションプロセスは数日にわたって起こり、時間とともにアノテーションの意見の不正確な表現につながる可能性がある。 そこで本研究では,マルチタスク学習と損失に基づくラベル修正を併用することで,多様な意見のより正確な表現を実現することを提案する。 新規な定式化を用いることで、アノテーションの同意と反対をきれいに分離できることを示す。 さらに,この修正により,単一または複数アノテーション設定での予測性能が向上することを示す。 最後に,本手法は主観的データに適用されるラベルノイズに対して頑健であることを示す。

Accounting for the opinions of all annotators of a dataset is critical for fairness. However, when annotating large datasets, individual annotators will frequently provide thousands of ratings which can lead to fatigue. Additionally, these annotation processes can occur over multiple days which can lead to an inaccurate representation of an annotator's opinion over time. To combat this, we propose to learn a more accurate representation of diverse opinions by utilizing multitask learning in conjunction with loss-based label correction. We show that using our novel formulation, we can cleanly separate agreeing and disagreeing annotations. Furthermore, we demonstrate that this modification can improve prediction performance in a single or multi-annotator setting. Lastly, we show that this method remains robust to additional label noise that is applied to subjective data.
翻訳日:2023-11-02 13:06:16 公開日:2023-11-01
# De-Diffusionはテキストを強力なクロスモーダルインターフェースにする

De-Diffusion Makes Text a Strong Cross-Modal Interface ( http://arxiv.org/abs/2311.00618v1 )

ライセンス: Link先を確認
Chen Wei, Chenxi Liu, Siyuan Qiao, Zhishuai Zhang, Alan Yuille, Jiahui Yu(参考訳) テキストを強力なクロスモーダルインターフェースとして示す。 インターフェース表現として画像と言語を接続するディープ埋め込みに頼るのではなく、私たちのアプローチは画像をテキストとして表現し、そこから自然言語に固有の解釈性と柔軟性を楽しむ。 プリトレーニングされたテキストから画像への拡散モデルを用いてデコードを行うオートエンコーダを用いる。 エンコーダは入力画像をテキストに変換するようにトレーニングされ、それから固定されたテキストから画像への拡散デコーダに送られて元の入力を再構築します。 実験は、画像を表す非拡散テキストの精度と包括性の両方を検証し、様々なマルチモーダルタスクのために、既製のテキストから画像へのツールやllmで容易に取り込むことができる。 例えば、1つのデディフフュージョンモデルでは、異なるテキストから画像へのプロンプトを転送可能なように一般化することができ、また、少数の例で大きな言語モデルを単に促すことで、オープンエンドの視覚言語タスクにおける新たな最先端を達成することができる。

We demonstrate text as a strong cross-modal interface. Rather than relying on deep embeddings to connect image and language as the interface representation, our approach represents an image as text, from which we enjoy the interpretability and flexibility inherent to natural language. We employ an autoencoder that uses a pre-trained text-to-image diffusion model for decoding. The encoder is trained to transform an input image into text, which is then fed into the fixed text-to-image diffusion decoder to reconstruct the original input -- a process we term De-Diffusion. Experiments validate both the precision and comprehensiveness of De-Diffusion text representing images, such that it can be readily ingested by off-the-shelf text-to-image tools and LLMs for diverse multi-modal tasks. For example, a single De-Diffusion model can generalize to provide transferable prompts for different text-to-image tools, and also achieves a new state of the art on open-ended vision-language tasks by simply prompting large language models with few-shot examples.
翻訳日:2023-11-02 13:06:04 公開日:2023-11-01
# 拡散モデルと誘導勾配を用いた制御可能な音楽制作

Controllable Music Production with Diffusion Models and Guidance Gradients ( http://arxiv.org/abs/2311.00613v1 )

ライセンス: Link先を確認
Mark Levy, Bruno Di Giorgi, Floris Weers, Angelos Katharopoulos, Tom Nickson(参考訳) 本研究では,44.1kHzのステレオオーディオにおいて,拡散モデルから条件付き生成を行うことで,様々な現実的な課題に対処できることを示す。 私たちが考えるシナリオは、音楽オーディオの継続、インペインティング、再生、2つの異なる音楽トラック間のスムーズな遷移の作成、望ましいスタイル特性の既存のオーディオクリップへの転送です。 本研究は,再編成と分類損失の両立を支援する単純なフレームワークを用いて,サンプリング時にガイダンスを適用することで実現した。 このアプローチは、生成されたオーディオが周囲のコンテキストにマッチすること、あるいは適切な事前学習された分類器や埋め込みモデルに対して指定されたクラス分布や潜在表現に適合することを保証する。

We demonstrate how conditional generation from diffusion models can be used to tackle a variety of realistic tasks in the production of music in 44.1kHz stereo audio with sampling-time guidance. The scenarios we consider include continuation, inpainting and regeneration of musical audio, the creation of smooth transitions between two different music tracks, and the transfer of desired stylistic characteristics to existing audio clips. We achieve this by applying guidance at sampling time in a simple framework that supports both reconstruction and classification losses, or any combination of the two. This approach ensures that generated audio can match its surrounding context, or conform to a class distribution or latent representation specified relative to any suitable pre-trained classifier or embedding model.
翻訳日:2023-11-02 13:05:45 公開日:2023-11-01
# コース推薦のための協調フィルタリングに基づく項目依存型2段階モデル

A Collaborative Filtering-Based Two Stage Model with Item Dependency for Course Recommendation ( http://arxiv.org/abs/2311.00612v1 )

ライセンス: Link先を確認
Eric L. Lee, Tsung-Ting Kuo, Shou-De Lin(参考訳) 推薦システムは何十年にもわたって研究され、多くの有望なモデルが提案されている。 中でも、コラボレーティブ・フィルタリング(CF)モデルは、トレーニングからプライバシーに配慮した個人メタデータの推奨と排除の精度が高いため、おそらく最も成功したモデルである。 本稿では,cfベースモデルの使用法を推奨課題に拡張する。 既存のCFモデルを適用してコースレコメンデーションエンジンを構築する際の課題として,評価とメタデータの欠如,コース登録分布の不均衡,コース依存モデリングの要求などを挙げる。 そして、これらの課題に対処するいくつかのアイデアを提案します。 最終的に、コース依存によって正規化された2段階のCFモデルとコース遷移ネットワークに基づくグラフベースのレコメンデータを組み合わせることで、AUCを現実世界のデータセットで最大0.97まで達成する。

Recommender systems have been studied for decades with numerous promising models been proposed. Among them, Collaborative Filtering (CF) models are arguably the most successful one due to its high accuracy in recommendation and elimination of privacy-concerned personal meta-data from training. This paper extends the usage of CF-based model to the task of course recommendation. We point out several challenges in applying the existing CF-models to build a course recommendation engine, including the lack of rating and meta-data, the imbalance of course registration distribution, and the demand of course dependency modeling. We then propose several ideas to address these challenges. Eventually, we combine a two-stage CF model regularized by course dependency with a graph-based recommender based on course-transition network, to achieve AUC as high as 0.97 with a real-world dataset.
翻訳日:2023-11-02 13:05:33 公開日:2023-11-01
# 無油低入力ヘリウム圧縮機で駆動される小型4Kパルス管冷凍機の冷却電力解析

Cooling power analysis of a small scale 4 K pulse tube cryocooler driven by an oil-free low input power Helium compressor ( http://arxiv.org/abs/2311.00605v1 )

ライセンス: Link先を確認
Jack-Andre Schmidt, Bernd Schmidt, Jens Falter, Jens Hoehne, Claudio Dal Savio, Sebatsian Schaile, Andre Schirmeisen(参考訳) 本稿では, 小型4kパルス管冷凍機の性能を, 最低温度2.2kまでの低入力電力で動作し, 4.2kで240mw以上の冷却能力を有する小型4kパルス管冷凍機の性能について報告する。 入力電力は約1.3kwで、パフォーマンス係数は最大185mw/kwの値に達する。 オイルフリーヘリウム圧縮機と低保守パルス管冷凍機の組み合わせは、4K以下の用途に小型でエネルギー効率が高く、移動式冷却ツールを提供する。

Here we report the performance of a small scale 4 K pulse tube cryocooler operating with a low input power reaching a minimum temperature of 2.2 K, as well as a cooling capacity of over 240 mW at 4.2 K. The compressor is air cooled and can be supplied by single phase power sockets. With an input power of about 1.3 kW the coefficient of performance reaches values of up to 185 mW/kW, which is among the highest currently reported values for small to medium power pulse tubes. The combination of an oil-free Helium compressor and low maintenance pulse tube cryocooler provides a unique miniaturized, energy efficient and mobile cooling tool for applications at 4 K and below.
翻訳日:2023-11-02 13:05:20 公開日:2023-11-01
# 深層学習による人物再同定 : 調査と展望

Occluded Person Re-Identification with Deep Learning: A Survey and Perspectives ( http://arxiv.org/abs/2311.00603v1 )

ライセンス: Link先を確認
Enhao Ning, Changshuo Wang, Huang Zhangc, Xin Ning, and Prayag Tiwari(参考訳) 個人再識別(Re-ID)技術は、インテリジェント監視システムにおいてますます重要な役割を担っている。 広帯域オクルージョンは、人物のRe-IDのパフォーマンスに大きな影響を及ぼす。 Re-ID(Re-ID)とは、歩行者情報損失、ノイズ干渉、視線不一致などの課題を扱う歩行者マッチング手法である。 研究者から広く注目を集めている。 過去数年間, 咬合解決者再識別法がいくつか提案されており, 咬合から生じる様々なサブプロブレムに取り組んでいる。 しかし, 隠蔽者のRe-ID手法の可能性を詳細に比較, 要約, 評価する総合的な研究は乏しい。 本稿では,隠蔽者のRe-IDに使用するデータセットと評価スキームについて,より詳細な概説を行うことから始める。 次に,既存のDeep Learning-based occluded person Re-ID法を様々な観点から科学的に分類・解析し,簡潔に要約する。 さらに,これらの手法を体系的に比較し,最先端のアプローチを同定し,隠蔽者Re-IDの今後の展開を展望する。

Person re-identification (Re-ID) technology plays an increasingly crucial role in intelligent surveillance systems. Widespread occlusion significantly impacts the performance of person Re-ID. Occluded person Re-ID refers to a pedestrian matching method that deals with challenges such as pedestrian information loss, noise interference, and perspective misalignment. It has garnered extensive attention from researchers. Over the past few years, several occlusion-solving person Re-ID methods have been proposed, tackling various sub-problems arising from occlusion. However, there is a lack of comprehensive studies that compare, summarize, and evaluate the potential of occluded person Re-ID methods in detail. In this review, we start by providing a detailed overview of the datasets and evaluation scheme used for occluded person Re-ID. Next, we scientifically classify and analyze existing deep learning-based occluded person Re-ID methods from various perspectives, summarizing them concisely. Furthermore, we conduct a systematic comparison among these methods, identify the state-of-the-art approaches, and present an outlook on the future development of occluded person Re-ID.
翻訳日:2023-11-02 13:05:07 公開日:2023-11-01
# 確率的支援をもつ確率的プログラムに対する変分推論の再考

Rethinking Variational Inference for Probabilistic Programs with Stochastic Support ( http://arxiv.org/abs/2311.00594v1 )

ライセンス: Link先を確認
Tim Reichelt, Luke Ong, Tom Rainforth(参考訳) 確率的支援を伴う確率的プログラムに対する新しい変分推論(VI)アプローチであるSDVI(Support Decomposition Variational Inference)を導入する。 この問題に対する既存のアプローチは、元のプログラムの確率的制御フローを維持しながら、変数ごとに単一のグローバルな変動ガイドを設計することに依存している。 SDVIはプログラムを静的サポート付きサブプログラムに分割し、各サブガイドを自動的に作成する。 この分解は適切な変分族の構築に大きく寄与し、推論性能が大幅に向上する。

We introduce Support Decomposition Variational Inference (SDVI), a new variational inference (VI) approach for probabilistic programs with stochastic support. Existing approaches to this problem rely on designing a single global variational guide on a variable-by-variable basis, while maintaining the stochastic control flow of the original program. SDVI instead breaks the program down into sub-programs with static support, before automatically building separate sub-guides for each. This decomposition significantly aids in the construction of suitable variational families, enabling, in turn, substantial improvements in inference performance.
翻訳日:2023-11-02 13:04:48 公開日:2023-11-01
# Coop: メモリはコモディティではない

Coop: Memory is not a Commodity ( http://arxiv.org/abs/2311.00591v1 )

ライセンス: Link先を確認
Jianhao Zhang, Shihan Ma, Peihong Liu, Jinhui Yuan(参考訳) テンソル再物質化により、モデルをチェックポイントし、必要に応じて削除されたテンソルを再計算することで、限られたメモリ予算の下でディープニューラルネットワーク(DNN)のトレーニングが可能になる。 しかし、既存のテンソル再構成技術は、ディープラーニングフレームワークのメモリシステムを見落とし、異なるアドレスにおける自由メモリブロックが同一であると暗黙的に仮定する。 この欠陥のある仮定の下では、不連続なテンソルは取り除かれ、その中には新しいテンソルを割り当てるのに使われないものもある。 これにより、メモリの断片化が深刻になり、潜在的再物質化のコストが増大する。 この問題に対処するために,スライディングウィンドウ内のテンソルをエビクトし,すべてのエビテーションが連続し,即座に使用されるようにする。 さらに, テンソル配置を最適化することにより, より安価なテンソル分割と再計算可能なインプレースを提案する。 本手法をテンソル割当とテンソル再構成の共最適化としてcoopと命名した。 我々は8つの代表的DNNでクープを評価した。 実験の結果、Coopは最大2ドル以上のメモリ節約を実現し、最先端のベースラインと比較して計算オーバーヘッド、検索レイテンシ、メモリフラグメンテーションを大幅に削減した。

Tensor rematerialization allows the training of deep neural networks (DNNs) under limited memory budgets by checkpointing the models and recomputing the evicted tensors as needed. However, the existing tensor rematerialization techniques overlook the memory system in deep learning frameworks and implicitly assume that free memory blocks at different addresses are identical. Under this flawed assumption, discontiguous tensors are evicted, among which some are not used to allocate the new tensor. This leads to severe memory fragmentation and increases the cost of potential rematerializations. To address this issue, we propose to evict tensors within a sliding window to ensure all evictions are contiguous and are immediately used. Furthermore, we proposed cheap tensor partitioning and recomputable in-place to further reduce the rematerialization cost by optimizing the tensor allocation. We named our method Coop as it is a co-optimization of tensor allocation and tensor rematerialization. We evaluated Coop on eight representative DNNs. The experimental results demonstrate that Coop achieves up to $2\times$ memory saving and hugely reduces compute overhead, search latency, and memory fragmentation compared to the state-of-the-art baselines.
翻訳日:2023-11-02 13:04:38 公開日:2023-11-01
# 正規化流とアグレッシブトレーニングによるブースティング要約

Boosting Summarization with Normalizing Flows and Aggressive Training ( http://arxiv.org/abs/2311.00588v1 )

ライセンス: Link先を確認
Yu Yang, Xiaotong Shen(参考訳) 本稿では,トランスフォーマライズのための流れベースの変分エンコーダ・デコーダフレームワークflowsumを提案する。 本手法は,潜伏表現における意味情報の不足と,訓練中の後部崩壊の2つの主要な課題に対処する。 これらの課題に対処するため,我々は,フレキシブルな潜時後モデリングを実現するために流れの正規化を行い,ゲート機構を改良したcaat戦略を提案する。 実験結果から,FlowSUMは生成したサマリーの品質を著しく向上させ,推論時間に最小限の影響を伴って知識蒸留の可能性を明らかにする。 さらに, 正規化フローにおける後部崩壊の問題について検討し, トレーニング戦略, ゲート初期化, 使用する正規化フローの種類と数による要約品質への影響を分析し, 今後の研究に有用な知見を提供する。

This paper presents FlowSUM, a normalizing flows-based variational encoder-decoder framework for Transformer-based summarization. Our approach tackles two primary challenges in variational summarization: insufficient semantic information in latent representations and posterior collapse during training. To address these challenges, we employ normalizing flows to enable flexible latent posterior modeling, and we propose a controlled alternate aggressive training (CAAT) strategy with an improved gate mechanism. Experimental results show that FlowSUM significantly enhances the quality of generated summaries and unleashes the potential for knowledge distillation with minimal impact on inference time. Furthermore, we investigate the issue of posterior collapse in normalizing flows and analyze how the summary quality is affected by the training strategy, gate initialization, and the type and number of normalizing flows used, offering valuable insights for future research.
翻訳日:2023-11-02 13:04:17 公開日:2023-11-01
# 言語横断検索によるバングラ語文脈学習

Crosslingual Retrieval Augmented In-context Learning for Bangla ( http://arxiv.org/abs/2311.00587v1 )

ライセンス: Link先を確認
Xiaoqian Li, Ercong Nie, Sheng Liang(参考訳) 自然言語処理におけるLLM(Large Language Models)の約束は、Banglaのような低リソース言語での限られたパフォーマンスによって、しばしば隠蔽されている。 そこで本稿では,言語間検索による文脈内学習を利用した先駆的手法を提案する。 本研究では,多言語事前学習型言語モデル(MPLM),特に生成モデルBLOOMZを戦略的に高リソース言語から意味論的に類似したプロンプトを抽出することにより,Banglaタスクの性能向上を実現している。 広範に評価した結果,言語間検索はゼロショット性能よりもMPLMを安定的に向上させることがわかった。

The promise of Large Language Models (LLMs) in Natural Language Processing has often been overshadowed by their limited performance in low-resource languages such as Bangla. To address this, our paper presents a pioneering approach that utilizes cross-lingual retrieval augmented in-context learning. By strategically sourcing semantically similar prompts from high-resource language, we enable multilingual pretrained language models (MPLMs), especially the generative model BLOOMZ, to successfully boost performance on Bangla tasks. Our extensive evaluation highlights that the cross-lingual retrieval augmented prompts bring steady improvements to MPLMs over the zero-shot performance.
翻訳日:2023-11-02 13:04:01 公開日:2023-11-01
# PAUMER:セマンティックセグメンテーションのためのパッチパジング変換器

PAUMER: Patch Pausing Transformer for Semantic Segmentation ( http://arxiv.org/abs/2311.00586v1 )

ライセンス: Link先を確認
Evann Courdier, Prabhu Teja Sivaprasad, Fran\c{c}ois Fleuret(参考訳) 画像の異なる部分の異なる計算量を用いて分割変換器の効率を改善する問題について検討する。 提案手法であるpaumerは,ファイナルデコーダの前に計算が不要であると考えられるパッチの計算をポーリングすることで,これを実現する。 中間アクティベーションから計算した予測のエントロピーを舗装基準として使用し,画像のセマンティクスとよく一致していることを示す。 提案手法は,提案手法を用いてトレーニングした1つのネットワークを,パウジングパラメータを変調することにより,様々な実行時要求に適応させることが可能である。 cityscapes と ade20k の2つの標準セグメンテーションデータセットについて,miou は約$0.65\%$ と $4.6\%$ の低下で,スループットが約 50 % 高い値で動作していることを示した。

We study the problem of improving the efficiency of segmentation transformers by using disparate amounts of computation for different parts of the image. Our method, PAUMER, accomplishes this by pausing computation for patches that are deemed to not need any more computation before the final decoder. We use the entropy of predictions computed from intermediate activations as the pausing criterion, and find this aligns well with semantics of the image. Our method has a unique advantage that a single network trained with the proposed strategy can be effortlessly adapted at inference to various run-time requirements by modulating its pausing parameters. On two standard segmentation datasets, Cityscapes and ADE20K, we show that our method operates with about a $50\%$ higher throughput with an mIoU drop of about $0.65\%$ and $4.6\%$ respectively.
翻訳日:2023-11-02 13:03:49 公開日:2023-11-01
# ナッシュ平衡と値を達成するためにマルコフゲームを最小限に修正する

Minimally Modifying a Markov Game to Achieve Any Nash Equilibrium and Value ( http://arxiv.org/abs/2311.00582v1 )

ライセンス: Link先を確認
Young Wu, Jeremy McMahan, Yiding Chen, Yudong Chen, Xiaojin Zhu, Qiaomin Xie(参考訳) 本研究は,ゼロサムマルコフゲームの報奨機能を好意的ゲームデザイナーまたは好意的敵が修正することにより,目標決定論的又は確率的ポリシープロファイルがユニークなマルコフ完全ナッシュ均衡となり,目標範囲内での値を有するように修正コストを最小化するゲーム修正問題について検討する。 我々は,あるゲームのユニークな均衡としてインストール可能な一連のポリシープロファイルを特徴付け,インストール成功に必要な十分かつ必要な条件を確立する。 線形制約で凸最適化問題を解き、次にランダムな摂動を行い、ほぼ最適コストで修正計画を得る効率的なアルゴリズムを提案する。

We study the game modification problem, where a benevolent game designer or a malevolent adversary modifies the reward function of a zero-sum Markov game so that a target deterministic or stochastic policy profile becomes the unique Markov perfect Nash equilibrium and has a value within a target range, in a way that minimizes the modification cost. We characterize the set of policy profiles that can be installed as the unique equilibrium of some game, and establish sufficient and necessary conditions for successful installation. We propose an efficient algorithm, which solves a convex optimization problem with linear constraints and then performs random perturbation, to obtain a modification plan with a near-optimal cost.
翻訳日:2023-11-02 13:03:34 公開日:2023-11-01
# ゲームにおける後悔マッチングアルゴリズムのラストイテレート収束特性

Last-Iterate Convergence Properties of Regret-Matching Algorithms in Games ( http://arxiv.org/abs/2311.00676v1 )

ライセンス: Link先を確認
Yang Cai, Gabriele Farina, Julien Grand-Cl\'ement, Christian Kroer, Chung-Wei Lee, Haipeng Luo, Weiqiang Zheng(参考訳) 後悔のマッチングに基づくアルゴリズム、特に後悔のマッチする$^+$(rm$^+$)とその変種は、実際に大規模2人プレイのゼロサムゲームを解くための最も一般的なアプローチである。 ゼロサムゲームで強いラストイテレートとエルゴード収束特性を持つ楽観的勾配降下上昇のようなアルゴリズムとは異なり、後悔マッチングアルゴリズムのラストイテレート特性についてはほとんど知られていない。 本稿では,ゲームにおける実単語学習のモデル化における最終項目収束の重要性を考慮し,RM$^+$の様々な人気変種の最終項目収束特性について検討する。 まず, RM$^+$, RM$^+$の交互化, RM$^+$の同時予測, RM$^+$の同時予測など, 単純な$3\times 3$ゲームにおいても, 終点収束保証が欠如していることを示す。 次に、スムージング技術に基づく最近のアルゴリズムの変種は、ラストイテレート収束(ラストイテレート収束)を享受していることを証明する:超勾配rm$^{+}$と滑らかな予測rm$^+$は、漸近的なラストイテレート収束(レートなし)と1/\sqrt{t}$ のベストイテレート収束を享受する。 最後に,これらアルゴリズムのリスタート変種を導入し,リニアレートラストイテレート収束を楽しんだことを示す。

Algorithms based on regret matching, specifically regret matching$^+$ (RM$^+$), and its variants are the most popular approaches for solving large-scale two-player zero-sum games in practice. Unlike algorithms such as optimistic gradient descent ascent, which have strong last-iterate and ergodic convergence properties for zero-sum games, virtually nothing is known about the last-iterate properties of regret-matching algorithms. Given the importance of last-iterate convergence for numerical optimization reasons and relevance as modeling real-word learning in games, in this paper, we study the last-iterate convergence properties of various popular variants of RM$^+$. First, we show numerically that several practical variants such as simultaneous RM$^+$, alternating RM$^+$, and simultaneous predictive RM$^+$, all lack last-iterate convergence guarantees even on a simple $3\times 3$ game. We then prove that recent variants of these algorithms based on a smoothing technique do enjoy last-iterate convergence: we prove that extragradient RM$^{+}$ and smooth Predictive RM$^+$ enjoy asymptotic last-iterate convergence (without a rate) and $1/\sqrt{t}$ best-iterate convergence. Finally, we introduce restarted variants of these algorithms, and show that they enjoy linear-rate last-iterate convergence.
翻訳日:2023-11-02 12:55:43 公開日:2023-11-01
# 共分散行列のコレスキー因子化による潜在変数線形因数モデルの復元

Recovering Linear Causal Models with Latent Variables via Cholesky Factorization of Covariance Matrix ( http://arxiv.org/abs/2311.00674v1 )

ライセンス: Link先を確認
Yunfeng Cai, Xu Li, Minging Sun, Ping Li(参考訳) 観測データから有向非巡回グラフ(DAG)構造を復元することで因果関係を明らかにすることは、よく知られた難解な組合せ問題である。 潜伏変数が存在する場合、問題はさらに困難になる。 本稿では,観測データの共分散行列のコレスキー分解に基づくDAG構造復元アルゴリズムを提案する。 このアルゴリズムは高速で実装が容易であり、正確な回復のための理論的助成金がある。 合成および実世界のデータセットでは、アルゴリズムは従来の手法よりも大幅に高速で、最先端のパフォーマンスを実現する。 さらに,同値な誤差分散仮定の下では,Colesky分解に基づくアルゴリズムに最適化手順を組み込んで,潜伏変数のDAG回復問題に対処する。 数値シミュレーションにより、修正された "Cholesky + Optimization" アルゴリズムは、ほとんどの場合において基底真理グラフを復元し、既存のアルゴリズムより優れていることを示す。

Discovering the causal relationship via recovering the directed acyclic graph (DAG) structure from the observed data is a well-known challenging combinatorial problem. When there are latent variables, the problem becomes even more difficult. In this paper, we first propose a DAG structure recovering algorithm, which is based on the Cholesky factorization of the covariance matrix of the observed data. The algorithm is fast and easy to implement and has theoretical grantees for exact recovery. On synthetic and real-world datasets, the algorithm is significantly faster than previous methods and achieves the state-of-the-art performance. Furthermore, under the equal error variances assumption, we incorporate an optimization procedure into the Cholesky factorization based algorithm to handle the DAG recovering problem with latent variables. Numerical simulations show that the modified "Cholesky + optimization" algorithm is able to recover the ground truth graph in most cases and outperforms existing algorithms.
翻訳日:2023-11-02 12:55:11 公開日:2023-11-01
# 誤情報に対する感情検出:レビュー

Emotion Detection for Misinformation: A Review ( http://arxiv.org/abs/2311.00671v1 )

ライセンス: Link先を確認
Zhiwei Liu, Tianlin Zhang, Kailai Yang, Paul Thompson, Zeping Yu, Sophia Ananiadou(参考訳) ソーシャルメディアの出現に伴い、ネット市民の数が増加し、投稿やニュースをオンラインで共有し、読んでいる。 しかし、インターネットを浸水させた大量の誤報(偽ニュースや噂など)が人々の生活に悪影響を及ぼし、熱い研究トピックとして噂や偽ニュース検出が出現した。 ネット市民の感情や感情は、ソーシャルメディアの投稿やニュースで表現されるように、偽ニュースと本物のニュースを区別し、噂の拡散を理解する上で重要な要素となっている。 本稿では、誤情報検出のための感情に基づく手法を包括的にレビューする。 まず、感情と誤情報の強い関連を説明することから始める。 その後,様々な感情,感情,姿勢に基づく特徴を用いた誤情報検出手法の詳細な分析を行い,その強みと弱みについて述べる。 最後に,大規模言語モデルに基づく感情に基づく誤情報検出の課題について論じ,データ収集(マルチプラットフォーム,マルチ言語),アノテーション,ベンチマーク,マルチモーダル,解釈可能性など,今後の研究方向性を提案する。

With the advent of social media, an increasing number of netizens are sharing and reading posts and news online. However, the huge volumes of misinformation (e.g., fake news and rumors) that flood the internet can adversely affect people's lives, and have resulted in the emergence of rumor and fake news detection as a hot research topic. The emotions and sentiments of netizens, as expressed in social media posts and news, constitute important factors that can help to distinguish fake news from genuine news and to understand the spread of rumors. This article comprehensively reviews emotion-based methods for misinformation detection. We begin by explaining the strong links between emotions and misinformation. We subsequently provide a detailed analysis of a range of misinformation detection methods that employ a variety of emotion, sentiment and stance-based features, and describe their strengths and weaknesses. Finally, we discuss a number of ongoing challenges in emotion-based misinformation detection based on large language models and suggest future research directions, including data collection (multi-platform, multilingual), annotation, benchmark, multimodality, and interpretability.
翻訳日:2023-11-02 12:54:54 公開日:2023-11-01
# ProcSim:ロバスト類似学習のためのプロキシベースの信頼

ProcSim: Proxy-based Confidence for Robust Similarity Learning ( http://arxiv.org/abs/2311.00668v1 )

ライセンス: Link先を確認
Oriol Barbany, Xiaofan Lin, Muhammet Bastan, Arnab Dhua(参考訳) ディープメトリック学習(dml)の手法は、入力の固有の意味的類似性と距離が密接な関係にある埋め込み空間を学習することを目的としている。 以前の研究では、人気のあるベンチマークデータセットには多くの間違ったラベルが含まれていることが示されており、DMLメソッドはそれらに影響を受けやすい。 現実的なノイズの影響を研究するため、データセット内のクラスのオントロジーを作成し、意味的に一貫性のあるラベルミスをシミュレートします。 頑健なDMLモデルをトレーニングするために,クラス代表に対する正規化距離を用いて各サンプルに信頼スコアを割り当てるシンプルなフレームワークであるProcSimを提案する。 実験結果から,提案手法は,一様および意味的整合性雑音を注入したDMLベンチマークデータセットの最先端性能を実現する。

Deep Metric Learning (DML) methods aim at learning an embedding space in which distances are closely related to the inherent semantic similarity of the inputs. Previous studies have shown that popular benchmark datasets often contain numerous wrong labels, and DML methods are susceptible to them. Intending to study the effect of realistic noise, we create an ontology of the classes in a dataset and use it to simulate semantically coherent labeling mistakes. To train robust DML models, we propose ProcSim, a simple framework that assigns a confidence score to each sample using the normalized distance to its class representative. The experimental results show that the proposed method achieves state-of-the-art performance on the DML benchmark datasets injected with uniform and the proposed semantically coherent noise.
翻訳日:2023-11-02 12:54:36 公開日:2023-11-01
# 意味的アライメントによる潜時空間翻訳

Latent Space Translation via Semantic Alignment ( http://arxiv.org/abs/2311.00664v1 )

ライセンス: Link先を確認
Valentino Maiorca, Luca Moschella, Antonio Norelli, Marco Fumero, Francesco Locatello, Emanuele Rodol\`a(参考訳) 異なるニューラルモデルはしばしば、意味的に関連したデータに露出すると類似する潜在空間を示すが、この本質的な類似性は必ずしもすぐには識別できない。 この現象をよりよく理解するために,本研究は,従来考えられていたよりも単純な変換によって,これらの神経モジュールから学習された表現が,異なる事前学習されたネットワーク間でどのように変換されるかを示す。 このアプローチの利点は、閉形式解を持つ標準的なよく理解された代数的手続きを用いてこれらの変換を推定できることである。 提案手法では,与えられた2つの潜在空間間の変換を直接推定し,追加のトレーニングをすることなく,エンコーダとデコーダを効果的に縫い合わせることができる。 様々なトレーニング、ドメイン、アーキテクチャ(ResNet、CNN、ViTなど)、複数の下流タスク(分類、再構築)において、この翻訳手順の適応性を検証する。 特に,ゼロショットステッチテキストエンコーダや視覚デコーダ,あるいはその逆も可能であり,このマルチモーダル設定において驚くほど優れた分類性能が得られることを示す。

While different neural models often exhibit latent spaces that are alike when exposed to semantically related data, this intrinsic similarity is not always immediately discernible. Towards a better understanding of this phenomenon, our work shows how representations learned from these neural modules can be translated between different pre-trained networks via simpler transformations than previously thought. An advantage of this approach is the ability to estimate these transformations using standard, well-understood algebraic procedures that have closed-form solutions. Our method directly estimates a transformation between two given latent spaces, thereby enabling effective stitching of encoders and decoders without additional training. We extensively validate the adaptability of this translation procedure in different experimental settings: across various trainings, domains, architectures (e.g., ResNet, CNN, ViT), and in multiple downstream tasks (classification, reconstruction). Notably, we show how it is possible to zero-shot stitch text encoders and vision decoders, or vice-versa, yielding surprisingly good classification performance in this multimodal setting.
翻訳日:2023-11-02 12:54:22 公開日:2023-11-01
# 線形逆問題に対する変分ガウス過程

Variational Gaussian Processes For Linear Inverse Problems ( http://arxiv.org/abs/2311.00663v1 )

ライセンス: Link先を確認
Thibault Randrianarisoa and Botond Szabo(参考訳) ベイズ法は現在、逆問題を解くために日常的に使われている。 逆問題では、パラメータや信号は、与えられた地図のイメージとして間接的にのみ観察され、観測は通常、ノイズによってさらに悪化する。 ベイズは、これらの問題を事前分布を介して正規化する自然な方法を提供し、問題の残りの不確かさを定量化する確率論的解を提供する。 しかし、標準的なサンプリングベースのベイズ的アプローチの計算コストは、そのような複雑なモデルでは過度に大きい。 そのため、実際には変分ベイズの人気が高まっている。 それでも、これらの方法の理論的理解は、特に逆問題に関して、比較的限定的である。 本解析では,ガウス過程の変分ベイズ法を用いて線形逆問題を解く。 軽度および重度の逆問題について検討し,2009年にtitsiasが提唱した変数変動ベイズアプローチを応用した。 一般設定における後部収縮率を導出し, その最小推定値は, 正確に調整された手順で達成可能であることを示す。 具体的な例として、熱方程式、ボルテラ作用素、ラドン変換を含む逆問題の集合を考察し、集団および経験スペクトルの特徴に基づく変数法を誘導する。

By now Bayesian methods are routinely used in practice for solving inverse problems. In inverse problems the parameter or signal of interest is observed only indirectly, as an image of a given map, and the observations are typically further corrupted with noise. Bayes offers a natural way to regularize these problems via the prior distribution and provides a probabilistic solution, quantifying the remaining uncertainty in the problem. However, the computational costs of standard, sampling based Bayesian approaches can be overly large in such complex models. Therefore, in practice variational Bayes is becoming increasingly popular. Nevertheless, the theoretical understanding of these methods is still relatively limited, especially in context of inverse problems. In our analysis we investigate variational Bayesian methods for Gaussian process priors to solve linear inverse problems. We consider both mildly and severely ill-posed inverse problems and work with the popular inducing variables variational Bayes approach proposed by Titsias in 2009. We derive posterior contraction rates for the variational posterior in general settings and show that the minimax estimation rate can be attained by correctly tunned procedures. As specific examples we consider a collection of inverse problems including the heat equation, Volterra operator and Radon transform and inducing variable methods based on population and empirical spectral features.
翻訳日:2023-11-02 12:54:04 公開日:2023-11-01
# TPSeNCE: 雨中の脱落・物検出のための人工無実雨発生を目指して

TPSeNCE: Towards Artifact-Free Realistic Rain Generation for Deraining and Object Detection in Rain ( http://arxiv.org/abs/2311.00660v1 )

ライセンス: Link先を確認
Shen Zheng, Changjie Lu, Srinivasa G. Narasimhan(参考訳) 降雨生成アルゴリズムは,降雨条件下でのデレーニング手法の一般化とシーン理解を改善する可能性がある。 しかし実際には、アーチファクトや歪みを生み出し、適切な制約の欠如によって発生する雨量をコントロールするのに苦労する。 本稿では,現実的な降雨画像を生成するための画像間翻訳フレームワークを提案する。 まずTPS(Triangular Probability similarity)制約を導入し, 識別器多様体内の鮮明で雨の多い画像へ誘導し, 降雨時のアーチファクトや歪みを最小限に抑える。 従来, 負のサンプルをアンカーから無差別に押下する対照的な学習手法とは違って, セマンティックノイズコントラスト推定(SeNCE)戦略を提案し, クリア画像とレイン画像のセマンティック類似性とアンカーと負のサンプルの特徴類似性に基づいて, 負のサンプルのプッシュ力を再評価する。 実験は、雨のイメージレーディングと物体検出の恩恵を受ける、最小限のアーティファクトと歪みによる現実的な雨の発生を実証する。 さらに、この手法は現実的な雪と夜の画像を生成できるため、より広い適用可能性の可能性を強調できる。 コードはhttps://github.com/ShenZheng2000/TPSeNCEで入手できる。

Rain generation algorithms have the potential to improve the generalization of deraining methods and scene understanding in rainy conditions. However, in practice, they produce artifacts and distortions and struggle to control the amount of rain generated due to a lack of proper constraints. In this paper, we propose an unpaired image-to-image translation framework for generating realistic rainy images. We first introduce a Triangular Probability Similarity (TPS) constraint to guide the generated images toward clear and rainy images in the discriminator manifold, thereby minimizing artifacts and distortions during rain generation. Unlike conventional contrastive learning approaches, which indiscriminately push negative samples away from the anchors, we propose a Semantic Noise Contrastive Estimation (SeNCE) strategy and reassess the pushing force of negative samples based on the semantic similarity between the clear and the rainy images and the feature similarity between the anchor and the negative samples. Experiments demonstrate realistic rain generation with minimal artifacts and distortions, which benefits image deraining and object detection in rain. Furthermore, the method can be used to generate realistic snowy and night images, underscoring its potential for broader applicability. Code is available at https://github.com/ShenZheng2000/TPSeNCE.
翻訳日:2023-11-02 12:53:44 公開日:2023-11-01
# 明示的な形態的知識はヘブライ語モデルの事前学習を改善する

Explicit Morphological Knowledge Improves Pre-training of Language Models for Hebrew ( http://arxiv.org/abs/2311.00658v1 )

ライセンス: Link先を確認
Eylon Gueta, Omer Goldman, Reut Tsarfaty(参考訳) 事前学習型言語モデル (PLM) は、テキストストリームの自己教師型トレーニングのみに頼って、幅広い言語知識の獲得に顕著な成功を収めている。 それでも、この言語非依存アプローチの有効性は、形態学的にリッチな言語 (mrls) に適用した場合、その準最適性能についてしばしば疑問視されてきた。 本研究では,事前学習フェーズに明示的な形態的知識を取り入れることで,MRLのPLMの性能を向上させることができるという仮説を考察する。 本稿では,本モデルが原文以外の形態素手がかりを活用できる様々な形態素駆動トークン化手法を提案する。 異なる手法を用いて,複数の言語モデルを事前学習し,複雑であいまいな形態を持つヘブライ語で評価する。 本実験は, 意味的タスクと形態的タスクのベンチマークにおいて, 標準的な言語に依存しないトークン化と比較して, 改良された結果を示すことを示した。 これらの結果から,形態学的知識を取り入れることで,形態学的に豊かな言語に対するPLMのさらなる改善の可能性が示唆された。

Pre-trained language models (PLMs) have shown remarkable successes in acquiring a wide range of linguistic knowledge, relying solely on self-supervised training on text streams. Nevertheless, the effectiveness of this language-agnostic approach has been frequently questioned for its sub-optimal performance when applied to morphologically-rich languages (MRLs). We investigate the hypothesis that incorporating explicit morphological knowledge in the pre-training phase can improve the performance of PLMs for MRLs. We propose various morphologically driven tokenization methods enabling the model to leverage morphological cues beyond raw text. We pre-train multiple language models utilizing the different methods and evaluate them on Hebrew, a language with complex and highly ambiguous morphology. Our experiments show that morphologically driven tokenization demonstrates improved results compared to a standard language-agnostic tokenization, on a benchmark of both semantic and morphologic tasks. These findings suggest that incorporating morphological knowledge holds the potential for further improving PLMs for morphologically rich languages.
翻訳日:2023-11-02 12:53:19 公開日:2023-11-01
# 線グラフ変換によるグラフエッジ上のオンライン信号推定

Online Signal Estimation on the Graph Edges via Line Graph Transformation ( http://arxiv.org/abs/2311.00656v1 )

ライセンス: Link先を確認
Yi Yan, Ercan Engin Kuruoglu(参考訳) オンライン時間変化グラフエッジ信号予測のためのLine Graph Normalized Least Mean Square (LGNLMS)アルゴリズムを提案する。 LGNLMSはLine Graphを使用してグラフエッジ信号をエッジ-頂点双対のノードに変換する。 これにより、エッジ信号をグラフエッジに再定義することなく、確立されたGSP概念を用いて処理することができる。

We propose the Line Graph Normalized Least Mean Square (LGNLMS) algorithm for online time-varying graph edge signals prediction. LGNLMS utilizes the Line Graph to transform graph edge signals into the node of its edge-to-vertex dual. This enables edge signals to be processed using established GSP concepts without redefining them on graph edges.
翻訳日:2023-11-02 12:52:58 公開日:2023-11-01
# 分散メタ強化学習による集合的オープンエンド探索の創発

Emergence of Collective Open-Ended Exploration from Decentralized Meta-Reinforcement Learning ( http://arxiv.org/abs/2311.00651v1 )

ライセンス: Link先を確認
Richard Bornemann, Gautier Hamon, Eleni Nisioti, Cl\'ement Moulin-Frier(参考訳) 近年の研究では、メタ強化学習を用いて訓練されたエージェントに複雑な協調行動が現れることが証明されている。 結果は印象的なものだが、自己組織化やその他の集中型トレーニング技術は、自然界における集団的探索戦略の全体像を正確に反映していない。 そこで本研究では,複数のエージェントがタスクのオープンエンド配布に関する独立した再帰政策をメタリードする集団的探索戦略の出現について検討する。 そこで本研究では,5種類のタスクタイプから抽出した複数のサブタスクを動的に組み合わせ,タスクツリーを広範囲に分布させるオープンエンドプロシージャ生成タスク空間を提案する。 我々の環境で訓練された分散エージェントは、テスト時に新しいオブジェクトに直面すると強い一般化能力を示す。 さらに、訓練中に決して協力せざるを得なかったにもかかわらず、エージェントは訓練中に遭遇したことのない新しい課題を解決するための集団探索戦略を学ぶ。 さらに,エージェントが集団的探索戦略をオープンエンドタスク設定まで拡張し,トレーニング中に見たタスクツリーに比べて2倍の深さのタスクツリーを解くことができたことも分かった。 当社のオープンソースコードとエージェントのビデオは、当社のコンパニオンwebサイトにある。

Recent works have proven that intricate cooperative behaviors can emerge in agents trained using meta reinforcement learning on open ended task distributions using self-play. While the results are impressive, we argue that self-play and other centralized training techniques do not accurately reflect how general collective exploration strategies emerge in the natural world: through decentralized training and over an open-ended distribution of tasks. In this work we therefore investigate the emergence of collective exploration strategies, where several agents meta-learn independent recurrent policies on an open ended distribution of tasks. To this end we introduce a novel environment with an open ended procedurally generated task space which dynamically combines multiple subtasks sampled from five diverse task types to form a vast distribution of task trees. We show that decentralized agents trained in our environment exhibit strong generalization abilities when confronted with novel objects at test time. Additionally, despite never being forced to cooperate during training the agents learn collective exploration strategies which allow them to solve novel tasks never encountered during training. We further find that the agents learned collective exploration strategies extend to an open ended task setting, allowing them to solve task trees of twice the depth compared to the ones seen during training. Our open source code as well as videos of the agents can be found on our companion website.
翻訳日:2023-11-02 12:52:53 公開日:2023-11-01
# WebAssemblyアプリケーション開発の問題と原因を理解する:マイニングに基づく研究

Understanding the Issues and Causes in WebAssembly Application Development: A Mining-based Study ( http://arxiv.org/abs/2311.00646v1 )

ライセンス: Link先を確認
Muhammad Waseem, Teerath Das, Aakash Ahmad, Peng Liang, Tommi Mikkonen(参考訳) WebAssembly(Wasm)は、サンドボックス環境(主にWebアプリとブラウザ)内でセキュアで効率的な実行のために設計されたバイナリ命令フォーマットで、Webプログラミング言語のパフォーマンス、セキュリティ、柔軟性を促進する。 近年、wasmはハイパフォーマンスwebアプリケーションを開発するための学術研究コミュニティや産業開発プロジェクトから大きな注目を集めている。 提供されたメリットにもかかわらず、開発者はwasmに根ざした多くの問題(例えば、障害、エラー、障害)に遭遇し、しばしばwebアプリケーションの開発に影響を与える根本原因を知らない。 Wasm開発者は、経験的に根ざしたガイドラインやパターン、ドキュメントなどとして文書化された知識を必要とし、既存の研究や実践に欠けている問題を理解し、分析し、解決するのに役立つ。 この目的のために、githubにデプロイされた12のオープンソースwasmプロジェクトと、stack overflow経由の354の質問応答ポストから、385のイシューとして表現されたマイニングとドキュメントの実践者の知識を実証研究した。 我々の研究は、開発者が直面している問題とそのWasmベースのアプリケーションにおけるその根本原因の、先駆的な分類に繋がった。 開発者が直面している問題は、"インフラストラクチャ、統合、互換性の面"(28.16%)、"言語の特徴とドキュメントエラー"(18.00%)、"コード実装とビルドの失敗"(13.83%)である。 この結果から,「syntactic and Semantic Errors」(25.77%),「Configuration and Compatibility Constraints」(20.1%),「Operational Limitations」(12.98%)が主な原因であることが示唆された。 この研究は問題とその原因の分類を提供し、経験則に基づくガイドラインを提供し、研究者や開発者がwasmベースのアプリケーションを体系的に設計、開発、リファクタリングすることを知らせる。

WebAssembly (Wasm) is a binary instruction format designed for secure and efficient execution within sandboxed environments - predominantly web apps and browsers - to facilitate performance, security, and flexibility of web programming languages. In recent years, Wasm has gained significant attention from academic research community and industrial development projects to engineer high-performance web applications. Despite the offered benefits, developers encounter a multitude of issues rooted in Wasm (e.g., faults, errors, failures) and are often unaware of their root-causes that impact the development of web applications. Wasm developers require knowledge, documented as empirically rooted guidelines, patterns, documents etc., that help them to understand, analyse, and resolve the issues that currently lacks in existing research and practice. To this end, we conducted an empirical study that mines and documents practitioners' knowledge expressed as 385 issues from 12 open-source Wasm projects deployed on GitHub and 354 question-answer posts via Stack Overflow. Our study led to the first-of-its-kind taxonomies of issues faced by developers and their underlying causes in Wasm-based applications. Issues faced by developers arise from 'Infrastructure, Integration and Compatibility Aspects' (28.16%), 'Language Features and Documentation Errors' (18.00%), along with 'Code Implementation and Build failures' (13.83%). The results indicate that 'Syntactic and Semantic Errors' (25.77%), 'Configuration and Compatibility Constraints' (20.1%), and 'Operational Limitations' (12.98%) are the principal causes of these issues. The study provides a taxonomical classification of issues and their causes, offering empirically derived guidelines, that can inform researchers and developers to systematically design, develop, and refactor Wasm-based applications.
翻訳日:2023-11-02 12:52:30 公開日:2023-11-01
# sachdev-ye-kitaevモデルにおけるsparsity independent lyapunov exponent

Sparsity independent Lyapunov exponent in the Sachdev-Ye-Kitaev model ( http://arxiv.org/abs/2311.00639v1 )

ライセンス: Link先を確認
Antonio M. Garc\'ia-Garc\'ia, Chang Liu, Jacobus J. M. Verbaarschot(参考訳) リャプノフ指数に対する最近提案された普遍境界の飽和は、重力双対の存在を示すものとして予想されている。 この飽和は、密度の強いSachdev-Ye-Kitaev (SYK) モデルの低温限界、$N$Majorana fermions with $q$-body ($q>2$) infinite-range interactionで起こる。 我々は、高度にスパースなSYKモデルに対する$N\le 64$フェルミオンに対して特定の時間秩序相関器(OTOC)を計算し、ハミルトニアンがブロックに分解するパーコレーション限界付近の空間性に対するリャプノフ指数の有意な依存は見つからない。 これはスパースの場合、リャプノフ指数もまた低温境界を飽和させることを示唆している。 n = 64$ に達する鍵となる要素は、グラフィカル処理ユニット(gpu)上に行列フリーなkrylov部分空間法を実装する、新しい量子スピンモデルシミュレーションライブラリの開発である。 これにより、シミュレーション時間が大幅に短縮され、従来の手法よりもメモリ使用量が大幅に削減され、控えめな計算資源が使用される。 強いスパーシリティ駆動の統計ゆらぎは、密度制限に関する非常に多くの障害の実現と、注意深い有限サイズスケーリング分析の両方を必要とする。 我々の結果は、重力類似性を持つかもしれない理論の風景を広げる可能性がある。

The saturation of a recently proposed universal bound on the Lyapunov exponent has been conjectured to signal the existence of a gravity dual. This saturation occurs in the low temperature limit of the dense Sachdev-Ye-Kitaev (SYK) model, $N$ Majorana fermions with $q$-body ($q>2$) infinite-range interactions. We calculate certain Out of Time Order Correlators (OTOC) for $N\le 64$ fermions for a highly sparse SYK model and find no significant dependence of the Lyapunov exponent on sparsity up to near the percolation limit where the Hamiltonian breaks up into blocks. This suggests that in the sparse case, the Lyapunov exponent also saturates the low-temperature bound. A key ingredient to reaching $N = 64$ is the development of a novel quantum spin model simulation library that implements highly-optimized matrix-free Krylov subspace methods on Graphical Processing Units (GPUs). This leads to a significantly lower simulation time as well as vastly reduced memory usage over previous approaches, while using modest computational resources. Strong sparsity-driven statistical fluctuations require both the use of a vastly larger number of disorder realizations with respect to the dense limit and a careful finite size scaling analysis. Our results potentially broadens the landscape of theories that may have a gravity analogue.
翻訳日:2023-11-02 12:51:53 公開日:2023-11-01
# FAIRLABEL:ラベルでバイアスを修正する

FAIRLABEL: Correcting Bias in Labels ( http://arxiv.org/abs/2311.00638v1 )

ライセンス: Link先を確認
Srinivasan H Sengamedu, Hien Pham(参考訳) MLモデルの公平性を測定するアルゴリズムはいくつかある。 これらのアプローチにおける基本的な仮定は、根拠の真理は公平か偏りかである。 しかし、現実世界のデータセットでは、歴史的・社会的偏見と差別の結果となるデータを含むことが多い。 これらのデータセットでトレーニングされたモデルは、モデル出力に対するバイアスを継承し、伝播する。 ラベルのバイアスを検出し修正するアルゴリズムであるFAIRLABELを提案する。 FAIRLABELisの目標は、予測の精度を維持しながら、グループ間で異なるインパクト(DI)を減らすことである。 本研究では, バイアス補正の精度を測定し, FAIRLABEL を合成データセット上で評価する指標を提案し, ラベル補正の精度は86.7%, ベースラインモデルでは71.9%であった。 また、UCIアダルト、ドイツの信用リスク、コンパスといったベンチマークデータセットにもFAIRLABELを適用し、異なるインパクト比が最大54.2%増加することを示す。

There are several algorithms for measuring fairness of ML models. A fundamental assumption in these approaches is that the ground truth is fair or unbiased. In real-world datasets, however, the ground truth often contains data that is a result of historical and societal biases and discrimination. Models trained on these datasets will inherit and propagate the biases to the model outputs. We propose FAIRLABEL, an algorithm which detects and corrects biases in labels. The goal of FAIRLABELis to reduce the Disparate Impact (DI) across groups while maintaining high accuracy in predictions. We propose metrics to measure the quality of bias correction and validate FAIRLABEL on synthetic datasets and show that the label correction is correct 86.7% of the time vs. 71.9% for a baseline model. We also apply FAIRLABEL on benchmark datasets such as UCI Adult, German Credit Risk, and Compas datasets and show that the Disparate Impact Ratio increases by as much as 54.2%.
翻訳日:2023-11-02 12:51:27 公開日:2023-11-01
# 現代ニューラルネットワークアーキテクチャのためのクロネッカー係数近似曲率

Kronecker-Factored Approximate Curvature for Modern Neural Network Architectures ( http://arxiv.org/abs/2311.00636v1 )

ライセンス: Link先を確認
Runa Eschenhagen, Alexander Immer, Richard E. Turner, Frank Schneider, Philipp Hennig(参考訳) トランスフォーマー、畳み込み、グラフニューラルネットワークなど、現代の多くのニューラルネットワークアーキテクチャのコアコンポーネントは、$\textit{weight-sharing}$で線形レイヤとして表現することができる。 2階最適化手法であるKronecker-Factored Approximate Curvature (K-FAC)は、ニューラルネットワークトレーニングの高速化と計算コストの削減を約束している。 しかし、現在、一般的なアーキテクチャ、特に線形重み共有層を持つアーキテクチャに適用するフレームワークは存在しない。 本研究では, k-fac -- $\textit{expand}$ と $\textit{reduce}$ の2つのフレーバーを動機付ける線形重み共有層の2つの異なる設定を同定する。 重みを共有できるディープリニアネットワークについて,その構成が正確であることを示す。 特に、K-FAC-reduceは一般的にK-FAC-expandよりも高速であり、Wide ResNetの限界確率を最適化することで自動ハイパーパラメータ選択を高速化する。 最後に,グラフニューラルネットワークと視覚トランスフォーマーの両方を訓練する場合,これら2つのk-fac変動の差異をほとんど観察しない。 しかし、どちらのバリエーションも1次参照実行のステップ数に対して50ドルから75ドル%の価格で固定されたバリデーションメトリックターゲットに到達することができ、これはウォールクロック時間に匹敵する改善となる。 これは、現代のニューラルネットワークアーキテクチャにK-FACを適用する可能性を強調している。

The core components of many modern neural network architectures, such as transformers, convolutional, or graph neural networks, can be expressed as linear layers with $\textit{weight-sharing}$. Kronecker-Factored Approximate Curvature (K-FAC), a second-order optimisation method, has shown promise to speed up neural network training and thereby reduce computational costs. However, there is currently no framework to apply it to generic architectures, specifically ones with linear weight-sharing layers. In this work, we identify two different settings of linear weight-sharing layers which motivate two flavours of K-FAC -- $\textit{expand}$ and $\textit{reduce}$. We show that they are exact for deep linear networks with weight-sharing in their respective setting. Notably, K-FAC-reduce is generally faster than K-FAC-expand, which we leverage to speed up automatic hyperparameter selection via optimising the marginal likelihood for a Wide ResNet. Finally, we observe little difference between these two K-FAC variations when using them to train both a graph neural network and a vision transformer. However, both variations are able to reach a fixed validation metric target in $50$-$75\%$ of the number of steps of a first-order reference run, which translates into a comparable improvement in wall-clock time. This highlights the potential of applying K-FAC to modern neural network architectures.
翻訳日:2023-11-02 12:51:12 公開日:2023-11-01
# 交通事故時予測のための二段階フレームワーク:実用的最適パイプライン内における気象・道路条件データの活用

A Bi-level Framework for Traffic Accident Duration Prediction: Leveraging Weather and Road Condition Data within a Practical Optimum Pipeline ( http://arxiv.org/abs/2311.00634v1 )

ライセンス: Link先を確認
Rafat Tabassum Sukonna, Soham Irtiza Swapnil(参考訳) イベントの確率的な性質のため、交通事故の期間を予測することは恐ろしい挑戦となる。 正確な持続時間推定は、通勤者にとって最適なルートを選択する際の実質的な利点と、不定期の混雑問題に対処するための交通管理人員をもたらす可能性がある。 本研究では,事故の重大度やテキスト記述などの事故状況情報を用いずに,事故継続時間パイプラインの実現可能性を確認するため,交通事故データベースから事故継続時間,道路状況,気象データを集めた。 事故が道路交通に与える影響が短期的・長期的かを予測するために複数の機械学習モデルを採用し、インシデントの影響の正確な持続時間を決定するバイモーダルアプローチを用いた。 平均平均誤差(mae)値26.15と13.3、rmse値32.91と28.91の他の機械学習回帰モデルよりも、lightgbm回帰モデルの方が、短期的および長期的事故継続予測において、短期的効果と長期的効果を区別した。 前節で特定した最適な分類と回帰モデルを用いて、プロセス全体を組み込むためにエンドツーエンドのパイプラインを構築します。 分離されたアプローチと組み合わせたアプローチの結果は,交通事故時間の予測に静的な特徴のみを用いることの適用性を示す,以前の研究と同等であった。 SHAP値解析により, 気象条件, 風速, 風速が, 事故の期間を決定する上で最も重要な要因となった。

Due to the stochastic nature of events, predicting the duration of a traffic incident presents a formidable challenge. Accurate duration estimation can result in substantial advantages for commuters in selecting optimal routes and for traffic management personnel in addressing non-recurring congestion issues. In this study, we gathered accident duration, road conditions, and meteorological data from a database of traffic accidents to check the feasibility of a traffic accident duration pipeline without accident contextual information data like accident severity and textual description. Multiple machine learning models were employed to predict whether an accident's impact on road traffic would be of a short-term or long-term nature, and then utilizing a bimodal approach the precise duration of the incident's effect was determined. Our binary classification random forest model distinguished between short-term and long-term effects with an 83% accuracy rate, while the LightGBM regression model outperformed other machine learning regression models with Mean Average Error (MAE) values of 26.15 and 13.3 and RMSE values of 32.91 and 28.91 for short and long-term accident duration prediction, respectively. Using the optimal classification and regression model identified in the preceding section, we then construct an end-to-end pipeline to incorporate the entire process. The results of both separate and combined approaches were comparable with previous works, which shows the applicability of only using static features for predicting traffic accident duration. The SHAP value analysis identified weather conditions, wind chill and wind speed as the most influential factors in determining the duration of an accident.
翻訳日:2023-11-02 12:50:47 公開日:2023-11-01
# 終端から終端までの単一チャンネル話者-Turn Aware Conversational Speech Translation

End-to-End Single-Channel Speaker-Turn Aware Conversational Speech Translation ( http://arxiv.org/abs/2311.00697v1 )

ライセンス: Link先を確認
Juan Zuluaga-Gomez, Zhaocheng Huang, Xing Niu, Rohit Paturi, Sundararajan Srinivasan, Prashant Mathur, Brian Thompson, Marcello Federico(参考訳) 従来の音声対テキスト翻訳(st)システムは単一話者発話で訓練されており、音声が複数の話者による会話を含む現実のシナリオに一般化することはない。 本稿では,音声の自動音声認識,音声認識,音声翻訳,話者回転検出を連続ラベリング形式における特殊トークンを用いて組み合わせた,エンドツーエンド・マルチタスク学習モデルである「話者-ターン対応会話音声翻訳」を提案する。 2つの単一スピーカチャネルを1つのマルチスピーカチャネルにマージすることで、マルチスピーカのターンとクロストークによるより現実的で困難なシナリオを表現したFisher-CallHOMEコーパスの実験を行った。 単一話者および複数話者条件および従来のstシステムに対する実験結果から,本モデルは単一話者条件において同等の性能を得られつつ,複数話者条件における参照システムよりも優れた性能を示す。 データ処理とモデルトレーニングのためのスクリプトをリリースします。

Conventional speech-to-text translation (ST) systems are trained on single-speaker utterances, and they may not generalize to real-life scenarios where the audio contains conversations by multiple speakers. In this paper, we tackle single-channel multi-speaker conversational ST with an end-to-end and multi-task training model, named Speaker-Turn Aware Conversational Speech Translation, that combines automatic speech recognition, speech translation and speaker turn detection using special tokens in a serialized labeling format. We run experiments on the Fisher-CALLHOME corpus, which we adapted by merging the two single-speaker channels into one multi-speaker channel, thus representing the more realistic and challenging scenario with multi-speaker turns and cross-talk. Experimental results across single- and multi-speaker conditions and against conventional ST systems, show that our model outperforms the reference systems on the multi-speaker condition, while attaining comparable performance on the single-speaker condition. We release scripts for data processing and model training.
翻訳日:2023-11-02 12:43:16 公開日:2023-11-01
# 在宅医療介護者配置のための意思決定支援フレームワーク:テネシー州のHHCエージェンシーを事例として

Decision Support Framework for Home Health Caregiver Allocation: A Case Study of HHC Agency in Tennessee, USA ( http://arxiv.org/abs/2311.00696v1 )

ライセンス: Link先を確認
Seyed Mohammad Ebrahim Sharifnia, Faezeh Bagheri, Rupy Sawhney, John E. Kobza, Enrique Macias De Anda, Mostafa Hajiaghaei-Keshteli, Michael Mirrielees(参考訳) 人口高齢化は世界的な課題であり、高齢者の医療や社会サービスへの需要が高まっている。 ホームヘルスケア(HHC)は、特にこの人口セグメントに対応するために設計された重要なソリューションである。 HHCの需要が急増していることを考えると、介護者の配分を効率的に調整し、調整することが不可欠である。 これは予算最適化計画と高品質なケアの提供の両立に不可欠である。 本研究は、在宅医療機関(hhas)が直面する重要な課題である「介護者配置の最適化方法、特に介護者が訪問順序の柔軟性を好む場合の最適化方法」に対処する。 従来,厳格な訪問シーケンスを提唱してきたが,訪問シーケンスの柔軟性を考慮し,旅行距離の削減,計画期間あたりの訪問数の増加,ケアの継続性の維持を目標とするハイブリッド手法により,介護者を割り当てる決定支援フレームワークを導入する。 米国テネシー州のhhaのデータを利用することで、介護者に対して制限を加えることなく、平均走行距離(規律により最大42%)を大幅に削減することができた。 さらに,介護者のサプライ分析に利用して,介護者資源管理に関する貴重な知見を提供する。

Population aging is a global challenge, leading to increased demand for healthcare and social services for the elderly. Home Health Care (HHC) emerges as a vital solution, specifically designed to serve this population segment. Given the surging demand for HHC, it's essential to coordinate and regulate caregiver allocation efficiently. This is crucial for both budget-optimized planning and ensuring the delivery of high-quality care. This research addresses a key question faced by home health agencies (HHAs): "How can caregiver allocation be optimized, especially when caregivers prefer flexibility in their visiting sequences?". While earlier studies proposed rigid visiting sequences, our study introduces a decision support framework that allocates caregivers through a hybrid method that considers the flexibility in visiting sequences and aims to reduce travel mileage, increase the number of visits per planning period, and maintain the continuity of care - a critical metric for patient satisfaction. Utilizing data from an HHA in Tennessee, United States, our approach led to an impressive reduction in average travel mileage (up to 42% depending on discipline) without imposing restrictions on caregivers. Furthermore, the proposed framework is used for caregivers' supply analysis to provide valuable insights into caregiver resource management.
翻訳日:2023-11-02 12:42:51 公開日:2023-11-01
# 単一ハミルトニアンクエンチダイナミクスによる任意の状態特性の予測

Predicting Arbitrary State Properties from Single Hamiltonian Quench Dynamics ( http://arxiv.org/abs/2311.00695v1 )

ライセンス: Link先を確認
Zhenhuan Liu, Zihan Hao, Hong-Ye Hu(参考訳) アナログ量子シミュレーションから任意の状態特性を抽出することは、多様な基底測定の必要性から重要な課題となる。 ランダム化測定手法の最近の進歩は, 試料の複雑さの低減に成功しているが, それぞれのキュービットを正確に制御する必要がある。 本研究では,単一ハミルトニアンによるクエンチダイナミクスにのみ依存し,共役系を含まない \emph{hamiltonian shadow} プロトコルを提案する。 我々は物理的および幾何学的な直観と理論的な保証を提供し、我々のプロトコルは偏りなく任意の状態特性を抽出することができる。 また、このプロトコルのサンプル複雑さを導出し、従来のシャドウプロトコルと互換性のある性能を示す。 ハミルトン影プロトコルは洗練された制御を必要とせず、リアルなパラメータ設定下でのライドバーグ原子配列を用いた数値実験によって示されるように、様々なアナログ量子システムに適用できる。 新しいプロトコルは、正確な制御と補助システムなしでアナログ量子シミュレーターに対するランダム化測定の適用を著しく拡大する。

Extracting arbitrary state properties from analog quantum simulations presents a significant challenge due to the necessity of diverse basis measurements. Recent advancements in randomized measurement schemes have successfully reduced measurement sample complexity, yet they demand precise control over each qubit. In this work, we propose the \emph{Hamiltonian shadow} protocol, which solely depends on quench dynamics with a single Hamiltonian, without any ancillary systems. We provide physical and geometrical intuitions and theoretical guarantees that our protocol can unbiasedly extract arbitrary state properties. We also derive the sample complexity of this protocol and show that it performs comparably to the classical shadow protocol. The Hamiltonian shadow protocol does not require sophisticated control and is universally applicable to various analog quantum systems, as illustrated through numerical demonstrations with Rydberg atom arrays under realistic parameter settings. The new protocol significantly broadens the application of randomized measurements for analog quantum simulators without precise control and ancillary systems.
翻訳日:2023-11-02 12:42:29 公開日:2023-11-01
# 創造的心を解き放つ:課題解決の探求を改善するための階層的政策としての言語モデル

Unleashing the Creative Mind: Language Model As Hierarchical Policy For Improved Exploration on Challenging Problem Solving ( http://arxiv.org/abs/2311.00694v1 )

ライセンス: Link先を確認
Zhan Ling, Yunhao Fang, Xuanlin Li, Tongzhou Mu, Mingu Lee, Reza Pourreza, Roland Memisevic, Hao Su(参考訳) 大規模言語モデル(llm)は大きな進歩を遂げてきたが、それでもしばしば難しい推論問題に苦しむ。 現在のアプローチでは、詳細および低レベルの推論チェーンをサンプリングまたは検索することで、この問題に対処している。 しかし、これらの手法はまだ探索能力に限られており、大規模なソリューション分野において正しいソリューションが際立つことは困難である。 本研究では,LLMをコンテキスト内学習による階層的政策として捉えることで,多種多様な問題解決戦略を探求するLLMの創造的可能性を解き放つ。 この方針は、複数の多様なハイレベルな問題解決戦術をヒントとして提案するヴィジュアリーリーダーと、ハイレベルな指示のそれぞれに従って詳細な問題解決プロセスを実行する従者からなる。 フォロワは各リーダの指示をガイドとして使用し、問題に取り組むために複数の推論チェーンをサンプリングし、各リーダの提案に対するソリューショングループを生成する。 さらに,最終的な回答を得るために,検討対象のソリューショングループの中から選択するための,効率的かつ効率的なトーナメントベースアプローチを提案する。 提案手法は,有意義かつ刺激的なヒントを導き,問題解決戦略探索を強化し,MATHデータセットの課題に対する最終回答精度を向上させる。 コードはhttps://github.com/lz1oceani/LLM-As-Hierarchical-Policyでリリースされる。

Large Language Models (LLMs) have achieved tremendous progress, yet they still often struggle with challenging reasoning problems. Current approaches address this challenge by sampling or searching detailed and low-level reasoning chains. However, these methods are still limited in their exploration capabilities, making it challenging for correct solutions to stand out in the huge solution space. In this work, we unleash LLMs' creative potential for exploring multiple diverse problem solving strategies by framing an LLM as a hierarchical policy via in-context learning. This policy comprises of a visionary leader that proposes multiple diverse high-level problem-solving tactics as hints, accompanied by a follower that executes detailed problem-solving processes following each of the high-level instruction. The follower uses each of the leader's directives as a guide and samples multiple reasoning chains to tackle the problem, generating a solution group for each leader proposal. Additionally, we propose an effective and efficient tournament-based approach to select among these explored solution groups to reach the final answer. Our approach produces meaningful and inspiring hints, enhances problem-solving strategy exploration, and improves the final answer accuracy on challenging problems in the MATH dataset. Code will be released at https://github.com/lz1oceani/LLM-As-Hierarchical-Policy.
翻訳日:2023-11-02 12:42:12 公開日:2023-11-01
# 視覚豊かな文書エンティティ検索のためのタスクパーソナライズされたマルチモーダルFew-shot学習について

On Task-personalized Multimodal Few-shot Learning for Visually-rich Document Entity Retrieval ( http://arxiv.org/abs/2311.00693v1 )

ライセンス: Link先を確認
Jiayi Chen, Hanjun Dai, Bo Dai, Aidong Zhang, Wei Wei(参考訳) 請求書やレシートなどの文書画像からキー情報(例えば日付、住所)を抽出する視覚リッチ文書エンティティ検索(vder)は、産業nlpアプリケーションにおいて重要なトピックとなっている。 ユニークなエンティティタイプを持つ新しいドキュメントタイプが一定のペースで出現することは、ユニークな課題を示している。 この課題に対処するには、モデルが数秒でエンティティを学習する能力を持つ必要がある。 しかし、Few-shot VDERの以前の研究は、主に文書レベルでの問題を、定義済みのグローバルエンティティ空間で解決しており、これはエンティティレベルの少数ショットシナリオを考慮していない:ターゲットエンティティタイプは、各タスクによって局所的にパーソナライズされ、エンティティの発生は文書間で大きく異なる。 本稿では、この未探索シナリオに対処するために、エンティティレベルの新規なVDERタスクについて検討する。 課題は、各タスクのラベル空間のユニークさと、配布外コンテンツ(OOD)の複雑さの増加にある。 本稿では,タスク内分布とタスク外分布を区別する効果的なタスクパーソナライズを実現することを中心に,タスク対応型メタ学習フレームワークを提案する。 具体的には、階層型デコーダ(HC)を採用し、コントラスト学習(ContrastProtoNet)を用いてこの目標を達成する。 さらに,新たなデータセットであるFewVEXを導入し,エンティティレベルの小ショットVDERの分野における今後の研究を促進する。 実験の結果,一般的なメタラーニングベースラインのロバスト性が大幅に向上した。

Visually-rich document entity retrieval (VDER), which extracts key information (e.g. date, address) from document images like invoices and receipts, has become an important topic in industrial NLP applications. The emergence of new document types at a constant pace, each with its unique entity types, presents a unique challenge: many documents contain unseen entity types that occur only a couple of times. Addressing this challenge requires models to have the ability of learning entities in a few-shot manner. However, prior works for Few-shot VDER mainly address the problem at the document level with a predefined global entity space, which doesn't account for the entity-level few-shot scenario: target entity types are locally personalized by each task and entity occurrences vary significantly among documents. To address this unexplored scenario, this paper studies a novel entity-level few-shot VDER task. The challenges lie in the uniqueness of the label space for each task and the increased complexity of out-of-distribution (OOD) contents. To tackle this novel task, we present a task-aware meta-learning based framework, with a central focus on achieving effective task personalization that distinguishes between in-task and out-of-task distribution. Specifically, we adopt a hierarchical decoder (HC) and employ contrastive learning (ContrastProtoNet) to achieve this goal. Furthermore, we introduce a new dataset, FewVEX, to boost future research in the field of entity-level few-shot VDER. Experimental results demonstrate our approaches significantly improve the robustness of popular meta-learning baselines.
翻訳日:2023-11-02 12:41:50 公開日:2023-11-01
# サイバーセキュリティにおけるソフトウェアリポジトリと機械学習研究

Software Repositories and Machine Learning Research in Cyber Security ( http://arxiv.org/abs/2311.00691v1 )

ライセンス: Link先を確認
Mounika Vanamala and Keith Bryant, Alex Caravella(参考訳) 今日の急速な技術発展と先進的なソフトウェア開発において、サイバーセキュリティ攻撃の高まりは差し迫った懸念となっている。 堅牢なサイバーセキュリティ防御の統合は、ソフトウェア開発のあらゆる段階において不可欠になっている。 ソフトウェア開発ライフサイクルの初期段階、特に要件フェーズにおいて、重要なサイバーセキュリティ脆弱性を特定することは特に重要である。 MITREのCommon Attack Pattern Enumeration and Classification (CAPEC)やCommon Vulnerabilities and Exposures (CVE)データベースといったサイバーセキュリティリポジトリの利用を通じて、ソフトウェア要件プロセスにおけるこれらの初期段階の脆弱性の検出にトピックモデリングと機械学習を活用する試みが行われている。 過去の研究テーマでは、ldaやトピックモデリングといった教師なしの機械学習方法論を併用して、ソフトウェア開発者の脆弱性識別の自動化に成功している。 今後、自動化を改善し、ソフトウェア要件と脆弱性の間の接続を確立するために、当社の戦略には、さまざまな教師付き機械学習技術の採用が伴います。 この配列には、Support Vector Machines (SVM)、Na\"ive Bayes、ランダムフォレスト、ニューラルネットワーク、そして最終的には調査のためにディープラーニングに移行する。 サイバーセキュリティの複雑さが激化する中で、さまざまなソフトウェア開発シナリオにおける脆弱性の識別を機械学習が強化できるかどうかという疑問が最重要視されている。

In today's rapidly evolving technological landscape and advanced software development, the rise in cyber security attacks has become a pressing concern. The integration of robust cyber security defenses has become essential across all phases of software development. It holds particular significance in identifying critical cyber security vulnerabilities at the initial stages of the software development life cycle, notably during the requirement phase. Through the utilization of cyber security repositories like The Common Attack Pattern Enumeration and Classification (CAPEC) from MITRE and the Common Vulnerabilities and Exposures (CVE) databases, attempts have been made to leverage topic modeling and machine learning for the detection of these early-stage vulnerabilities in the software requirements process. Past research themes have returned successful outcomes in attempting to automate vulnerability identification for software developers, employing a mixture of unsupervised machine learning methodologies such as LDA and topic modeling. Looking ahead, in our pursuit to improve automation and establish connections between software requirements and vulnerabilities, our strategy entails adopting a variety of supervised machine learning techniques. This array encompasses Support Vector Machines (SVM), Na\"ive Bayes, random forest, neural networking and eventually transitioning into deep learning for our investigation. In the face of the escalating complexity of cyber security, the question of whether machine learning can enhance the identification of vulnerabilities in diverse software development scenarios is a paramount consideration, offering crucial assistance to software developers in developing secure software.
翻訳日:2023-11-02 12:41:23 公開日:2023-11-01
# ビジュアル分析の過程におけるユーザ行動の違いは何か?

What User Behaviors Make the Differences During the Process of Visual Analytics? ( http://arxiv.org/abs/2311.00690v1 )

ライセンス: Link先を確認
Shahin Doroudian, Zekun Wu, Aidong Lu(参考訳) ビジュアル分析プロセスの理解は、ビジュアルデザインの改善や高度なインタラクション機能の開発など、さまざまな側面から可視化研究者に利益をもたらす。 しかし、ユーザ行動のログファイルは、センスメイキングの複雑さと、関連するユーザ行動に関する知識の欠如のため、依然として分析が難しい。 本研究では,ユーザ行動の包括的データ収集と時系列分類手法を用いた分析手法を提案する。 従来の可視化アプリケーションであるcovid-19 data analysisを選択し,地理空間,時系列,複数属性を対象とした共通分析タスクを行った。 ユーザ調査は,デスクトップと没入型ビジュアライゼーションの2つのシステムを用いて,多様なビジュアライゼーションタスクでユーザ動作を収集する。 3つの時系列機械学習アルゴリズムを2つのスケールで分類し,行動特徴の影響について検討する。 この結果から,視覚分析の過程でユーザ行動の区別が可能であり,ユーザの身体行動と視覚的タスクの関連性が強い可能性が示唆された。 また,ビジュアルアナリティクスのオープンセッションを解釈することにより,手作業の面倒なアノテーションを使わずにセンスメイキングを自動学習する手法を提案する。

The understanding of visual analytics process can benefit visualization researchers from multiple aspects, including improving visual designs and developing advanced interaction functions. However, the log files of user behaviors are still hard to analyze due to the complexity of sensemaking and our lack of knowledge on the related user behaviors. This work presents a study on a comprehensive data collection of user behaviors, and our analysis approach with time-series classification methods. We have chosen a classical visualization application, Covid-19 data analysis, with common analysis tasks covering geo-spatial, time-series and multi-attributes. Our user study collects user behaviors on a diverse set of visualization tasks with two comparable systems, desktop and immersive visualizations. We summarize the classification results with three time-series machine learning algorithms at two scales, and explore the influences of behavior features. Our results reveal that user behaviors can be distinguished during the process of visual analytics and there is a potentially strong association between the physical behaviors of users and the visualization tasks they perform. We also demonstrate the usage of our models by interpreting open sessions of visual analytics, which provides an automatic way to study sensemaking without tedious manual annotations.
翻訳日:2023-11-02 12:40:57 公開日:2023-11-01
# 没入環境におけるコラボレーション:課題と解決策

Collaboration in Immersive Environments: Challenges and Solutions ( http://arxiv.org/abs/2311.00689v1 )

ライセンス: Link先を確認
Shahin Doroudian, Zachary Wartell(参考訳) 仮想現実(vr)と拡張現実(ar)ツールは、物理的プロトタイプの使用を回避し、ハイリスクな状況下でトレーニングし、現実やシミュレーションの結果を解釈するために、あらゆるエンジニアリング分野に適用されている。 このような没入的な環境で共有タスクを完了したり、エージェントにタスクを割り当てるには、コラボレーションや共有協調活動が必要である。 没入型環境におけるコラボレーションは、人々がバーチャルおよび拡張現実の環境で対話し、一緒に働く方法を研究することを目的とした、新たな研究分野である。 没入型環境におけるコラボレーションは、コミュニケーション、コーディネーション、社会的存在など様々な要因を含む複雑なプロセスである。 本稿では,没入環境におけるコラボレーション研究の現状について概説する。 vrやarなど、没入環境のさまざまなタイプや、これらの環境で発生するさまざまなタイプのコラボレーションについて論じている。 この論文は、物理的な手がかりの欠如、コストとユーザビリティ、この分野におけるさらなる研究の必要性など、没入環境におけるコラボレーションの課題と限界についても強調する。 全体として、没入型環境におけるコラボレーションは、教育から産業まで幅広い潜在的な応用分野を持つ有望な分野であり、効果的に協力する能力を高めることで、個人とグループの両方に利益をもたらすことができる。

Virtual Reality (VR) and Augmented Reality (AR) tools have been applied in all engineering fields in order to avoid the use of physical prototypes, to train in high-risk situations, and to interpret real or simulated results. In order to complete a shared task or assign tasks to the agents in such immersive environments, collaboration or Shared Cooperative Activities are a necessity. Collaboration in immersive environments is an emerging field of research that aims to study and enhance the ways in which people interact and work together in Virtual and Augmented Reality settings. Collaboration in immersive environments is a complex process that involves different factors such as communication, coordination, and social presence. This paper provides an overview of the current state of research on collaboration in immersive environments. It discusses the different types of immersive environments, including VR and AR, and the different forms of collaboration that can occur in these environments. The paper also highlights the challenges and limitations of collaboration in immersive environments, such as the lack of physical cues, cost and usability and the need for further research in this area. Overall, collaboration in immersive environments is a promising field with a wide range of potential applications, from education to industry, and it can benefit both individuals and groups by enhancing their ability to work together effectively.
翻訳日:2023-11-02 12:40:37 公開日:2023-11-01
# オーディエンスを言語モデルでシミュレートした対人コミュニケーションの改善

Improving Interpersonal Communication by Simulating Audiences with Language Models ( http://arxiv.org/abs/2311.00687v1 )

ライセンス: Link先を確認
Ryan Liu and Howard Yen and Raja Marjieh and Thomas L. Griffiths and Ranjay Krishna(参考訳) 目標を達成するために、他人とどのようにコミュニケーションするか? 事前の経験や他の人からのアドバイスを使い、どのように受けられるかを予測することで候補発話を構築します。 しかしながら、私たちの経験は限定的で偏りがあり、潜在的な結果に対する推論は困難かつ認知的に困難です。 本稿では,大規模言語モデル(llm)シミュレーションを活用してコミュニケーションを改善する方法について検討する。 我々は,個人が目標達成を目標としてオーディエンスとコミュニケーションしているシナリオの入力として,explore-generate-simulate(egs)フレームワークを提案する。 egs (1) シナリオに関連する多様なアドバイスセットを作成し、(2)アドバイスのサブセットに基づいて条件付けされたコミュニケーション候補を生成し、(3)最適な候補とアドバイスの両方を決定するために様々なオーディエンスからの反応をシミュレートする。 対人コミュニケーションの10の基本的なプロセスにまたがる8つのシナリオについて評価した。 それぞれのシナリオにおいて、候補とベースラインにまたがる人間の評価のデータセットを収集し、フレームワークの選択した候補が、Chain-of-Thoughtなどの一般的な生成メカニズムよりも好ましいことを示す。 また,8つのシナリオのうち5つのシナリオにおいて,オーディエンスシミュレーションが人間と合理的に高い合意を得ることがわかった。 最後に,Webフォーラム上でユーザが記述した実世界のシナリオに適用することで,フレームワークの汎用性を実証する。 評価と実演を通じて、ESGは様々な状況における目標指向コミュニケーションの有効性と成果を高め、コミュニケーションや意思決定プロセスの革新化における大規模言語モデルの適用に新たな可能性を開く。

How do we communicate with others to achieve our goals? We use our prior experience or advice from others, or construct a candidate utterance by predicting how it will be received. However, our experiences are limited and biased, and reasoning about potential outcomes can be difficult and cognitively challenging. In this paper, we explore how we can leverage Large Language Model (LLM) simulations to help us communicate better. We propose the Explore-Generate-Simulate (EGS) framework, which takes as input any scenario where an individual is communicating to an audience with a goal they want to achieve. EGS (1) explores the solution space by producing a diverse set of advice relevant to the scenario, (2) generates communication candidates conditioned on subsets of the advice, and (3) simulates the reactions from various audiences to determine both the best candidate and advice to use. We evaluate the framework on eight scenarios spanning the ten fundamental processes of interpersonal communication. For each scenario, we collect a dataset of human evaluations across candidates and baselines, and showcase that our framework's chosen candidate is preferred over popular generation mechanisms including Chain-of-Thought. We also find that audience simulations achieve reasonably high agreement with human raters across 5 of the 8 scenarios. Finally, we demonstrate the generality of our framework by applying it to real-world scenarios described by users on web forums. Through evaluations and demonstrations, we show that EGS enhances the effectiveness and outcomes of goal-oriented communication across a variety of situations, thus opening up new possibilities for the application of large language models in revolutionizing communication and decision-making processes.
翻訳日:2023-11-02 12:40:15 公開日:2023-11-01
# 小型ジャイアンツ:Eval4NLP 2023共有タスクの要約における評価指標としての小型LDMの可能性を探る

Little Giants: Exploring the Potential of Small LLMs as Evaluation Metrics in Summarization in the Eval4NLP 2023 Shared Task ( http://arxiv.org/abs/2311.00686v1 )

ライセンス: Link先を確認
Neema Kotonya and Saran Krishnasamy and Joel Tetreault and Alejandro Jaimes(参考訳) 本稿では,2023 Eval4NLP共有タスクへの私たちの参加について,特に機械翻訳や要約の文脈において,大規模言語モデルに品質推定のタスクを扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当て,分析を行った。 標準プロンプト,注釈指示によるプロンプト,革新的な連鎖的プロンプトなど,様々なプロンプト手法を用いて体系的な実験を行った。 さらに,これらの手法をゼロショット・ワンショット学習法と統合し,評価手法の有効性を最大化する。 これらのアプローチを“小さな”オープンソースモデル(orca_mini_v3_7b)で組み合わせることで、競争的な結果が得られます。

This paper describes and analyzes our participation in the 2023 Eval4NLP shared task, which focuses on assessing the effectiveness of prompt-based techniques to empower Large Language Models to handle the task of quality estimation, particularly in the context of evaluating machine translations and summaries. We conducted systematic experiments with various prompting techniques, including standard prompting, prompts informed by annotator instructions, and innovative chain-of-thought prompting. In addition, we integrated these approaches with zero-shot and one-shot learning methods to maximize the efficacy of our evaluation procedures. Our work reveals that combining these approaches using a "small", open source model (orca_mini_v3_7B) yields competitive results.
翻訳日:2023-11-02 12:39:45 公開日:2023-11-01
# 変圧器長補間を改善するアライメントとフレキシブル位置埋め込み

Attention Alignment and Flexible Positional Embeddings Improve Transformer Length Extrapolation ( http://arxiv.org/abs/2311.00684v1 )

ライセンス: Link先を確認
Ta-Chung Chi and Ting-Han Fan and Alexander I. Rudnicky(参考訳) 理想的な長拡張トランスフォーマー言語モデルは、長いシーケンスを微調整することなく、トレーニング長よりも長いシーケンスを処理できる。 このような長期利用能力は、柔軟な位置埋め込み設計に依存している。 既存の大規模トレーニング済みのTransformer言語モデルの柔軟性を調べると、T5ファミリは、その位置埋め込みがリッチでフレキシブルな注意パターンを捉えているため、より深く見るべきであることがわかった。 しかし、T5は分散された注意の問題に悩まされ、入力シーケンスが長ければ長いほど、注意分布が平坦になる。 この問題を軽減するために,温度スケーリングによる注意アライメント戦略を2つ提案する。 言語モデリング,検索,多文書質問応答におけるT5の長文活用能力は,微調整なしで向上し,フレキシブルな位置埋め込み設計とアライメントアライメントがトランスフォーマー長外挿へ長い道のりをたどることが示唆された。 \footnote{\url{https://github.com/chijames/Attention-Alignment-Transformer-Length-Extrapolation}}

An ideal length-extrapolatable Transformer language model can handle sequences longer than the training length without any long sequence fine-tuning. Such long-context utilization capability highly relies on a flexible positional embedding design. Upon investigating the flexibility of existing large pre-trained Transformer language models, we find that the T5 family deserves a closer look, as its positional embeddings capture rich and flexible attention patterns. However, T5 suffers from the dispersed attention issue: the longer the input sequence, the flatter the attention distribution. To alleviate the issue, we propose two attention alignment strategies via temperature scaling. Our findings improve the long-context utilization capability of T5 on language modeling, retrieval, and multi-document question answering without any fine-tuning, suggesting that a flexible positional embedding design and attention alignment go a long way toward Transformer length extrapolation.\footnote{\url{https://github.com/chijames/Attention-Alignment-Transformer-Length-Extrapolation}}
翻訳日:2023-11-02 12:39:27 公開日:2023-11-01
# 深層学習に基づく室温半導体放射検出器におけるガンマ光子相互作用の分類

Deep Learning-Based Classification of Gamma Photon Interactions in Room-Temperature Semiconductor Radiation Detectors ( http://arxiv.org/abs/2311.00682v1 )

ライセンス: Link先を確認
Sandeep K. Chaudhuri, Qinyang Li, Krishna C. Mandal, Jianjun Hu(参考訳) 光子計数放射検出器は、ポジトロン・エミッション・トモグラフィーやComputed Tomographyなどの医用画像モダリティの不可欠な部分となっている。 最も有望な検出器の1つは広帯域の室温半導体検出器であり、これはガンマ/x線光子と検出器材料との相互作用に依存する。 CdZnTeSe (CZTS) のような半導体検出器では、コンプトンと光電イベントの間に検出されたエネルギーの重なりが大きいため、コンプトン散乱イベントと光電イベントを従来の読み出しエレクトロニクスや信号処理アルゴリズムを用いて区別することはほとんど不可能である。 本稿では,ガンマ線光子とCdZnTeSe(CZTS)半導体検出器のコンプトン散乱と光電相互作用を識別するディープラーニング分類器CoPhNetについて報告する。 我々のCoPhNetモデルは、実際のCZTS検出器パルスに類似するシミュレーションデータを用いて訓練され、シミュレーションデータと実験データの両方を用いて検証された。 これらの結果は,cophnetモデルがシミュレーションテストセットよりも高い分類精度を達成できることを示した。 また、snr(signal-noise-ratio)やインシデントエネルギーといった動作パラメータシフト下でのパフォーマンスロバスト性も保持する。 その結果,次世代高エネルギーガンマ線検出器の開発の基礎が確立され,バイオメディカルイメージングが向上した。

Photon counting radiation detectors have become an integral part of medical imaging modalities such as Positron Emission Tomography or Computed Tomography. One of the most promising detectors is the wide bandgap room temperature semiconductor detectors, which depends on the interaction gamma/x-ray photons with the detector material involves Compton scattering which leads to multiple interaction photon events (MIPEs) of a single photon. For semiconductor detectors like CdZnTeSe (CZTS), which have a high overlap of detected energies between Compton and photoelectric events, it is nearly impossible to distinguish between Compton scattered events from photoelectric events using conventional readout electronics or signal processing algorithms. Herein, we report a deep learning classifier CoPhNet that distinguishes between Compton scattering and photoelectric interactions of gamma/x-ray photons with CdZnTeSe (CZTS) semiconductor detectors. Our CoPhNet model was trained using simulated data to resemble actual CZTS detector pulses and validated using both simulated and experimental data. These results demonstrated that our CoPhNet model can achieve high classification accuracy over the simulated test set. It also holds its performance robustness under operating parameter shifts such as Signal-Noise-Ratio (SNR) and incident energy. Our work thus laid solid foundation for developing next-generation high energy gamma-rays detectors for better biomedical imaging.
翻訳日:2023-11-02 12:39:07 公開日:2023-11-01
# 大規模言語モデルは信頼できる判断者か? llmsの事実性評価能力に関する研究

Are Large Language Models Reliable Judges? A Study on the Factuality Evaluation Capabilities of LLMs ( http://arxiv.org/abs/2311.00681v1 )

ライセンス: Link先を確認
Xue-Yong Fu, Md Tahmid Rahman Laskar, Cheng Chen, Shashi Bhushan TN(参考訳) 近年,大規模な言語モデル (llm) が注目されている。 LLMの特に興味深い応用は、様々な生成モデルによって生成されるテキストの評価器としての役割である。 本研究では,テキスト生成モデルにより生成された要約の事実整合性の信頼性評価器としてLLMの可能性を探究する。 まず,LLMを用いた現実性評価のための革新的な手法を提案する。 これは、質問回答に基づく事実性スコアリングプロセス全体に対して、特異なLLMを使用する必要がある。 次に, 直接事実度評価における各種LCMの有効性について検討し, 従来の尺度と人的アノテーションとを比較検討した。 初期予測とは対照的に,事実度指標と人間評価,特にgpt-4とpalm-2との間に有意な相関が認められなかった。 GPT-3.5では2つのファクトアリティサブカテゴリでのみ有意な相関が認められた。 これらの様々な事実的誤りカテゴリーにわたる一貫した発見は、現在のllmsの事実性を正確に測定する能力の基本的な限界を示唆している。 このバージョンでは、元のテキストの主要なポイントと発見を維持しながら、より簡潔に情報を提示する。

In recent years, Large Language Models (LLMs) have gained immense attention due to their notable emergent capabilities, surpassing those seen in earlier language models. A particularly intriguing application of LLMs is their role as evaluators for texts produced by various generative models. In this study, we delve into the potential of LLMs as reliable assessors of factual consistency in summaries generated by text-generation models. Initially, we introduce an innovative approach for factuality assessment using LLMs. This entails employing a singular LLM for the entirety of the question-answering-based factuality scoring process. Following this, we examine the efficacy of various LLMs in direct factuality scoring, benchmarking them against traditional measures and human annotations. Contrary to initial expectations, our results indicate a lack of significant correlations between factuality metrics and human evaluations, specifically for GPT-4 and PaLM-2. Notable correlations were only observed with GPT-3.5 across two factuality subcategories. These consistent findings across various factual error categories suggest a fundamental limitation in the current LLMs' capability to accurately gauge factuality. This version presents the information more concisely while maintaining the main points and findings of the original text.
翻訳日:2023-11-02 12:38:43 公開日:2023-11-01
# 確率的目的と制約を伴う非線形プログラミングのための単一ループアルゴリズムの複雑性

Complexity of Single Loop Algorithms for Nonlinear Programming with Stochastic Objective and Constraints ( http://arxiv.org/abs/2311.00678v1 )

ライセンス: Link先を確認
Ahmet Alacaoglu and Stephen J. Wright(参考訳) 関数等式制約付き非凸最適化問題を解くために,単ループ二次ペナルティと拡張ラグランジアンアルゴリズムの複雑さを分析する。 対象が確率的かつ滑らかである3つの事例,すなわちサンプリングによってアクセスされる未知の分布に対する期待について考察する。 等式制約の性質は、第一のケースでは決定論的、線形、第二のケースでは決定論的、滑らかで非線形、第三のケースでは確率的、滑らかで非線形である。 ばらつき低減技術は複雑さを改善するために使われる。 1次条件である$\varepsilon$-approximate 1次条件を満たす点を見つけるには、最初の場合では$\widetilde{o}(\varepsilon^{-3})$、第2の場合$\widetilde{o}(\varepsilon^{-4})$、第3の場合$\widetilde{o}(\varepsilon^{-5})$が必要である。 第1および第3のケースでは、"シングルループ"型(各イテレーションで$O(1)$サンプルを使用する)の最初のアルゴリズムであり、最もよく知られた複雑性を保証する。

We analyze the complexity of single-loop quadratic penalty and augmented Lagrangian algorithms for solving nonconvex optimization problems with functional equality constraints. We consider three cases, in all of which the objective is stochastic and smooth, that is, an expectation over an unknown distribution that is accessed by sampling. The nature of the equality constraints differs among the three cases: deterministic and linear in the first case, deterministic, smooth and nonlinear in the second case, and stochastic, smooth and nonlinear in the third case. Variance reduction techniques are used to improve the complexity. To find a point that satisfies $\varepsilon$-approximate first-order conditions, we require $\widetilde{O}(\varepsilon^{-3})$ complexity in the first case, $\widetilde{O}(\varepsilon^{-4})$ in the second case, and $\widetilde{O}(\varepsilon^{-5})$ in the third case. For the first and third cases, they are the first algorithms of "single loop" type (that also use $O(1)$ samples at each iteration) that still achieve the best-known complexity guarantees.
翻訳日:2023-11-02 12:38:25 公開日:2023-11-01
# 時間制約のある局所量子状態の識別

Time-Constrained Local Quantum State Discrimination ( http://arxiv.org/abs/2311.00677v1 )

ライセンス: Link先を確認
Ian George, Rene Allerstorfer, Philip Verduyn Lunel, Eric Chitambar(参考訳) 相対論的量子暗号におけるプロトコルに着想を得て,局所演算とLOSCC/LOSQCによる量子状態の識別について検討した。 1つのシステムがキュービットである場合、losccによって完全に判別できる製品アンサンブルの構造を識別する。 これらの条件はLOSQCではフェールし、LOSCCとLOSQCのギャップが存在する最小の例を示す。 最後に,LOSQC状態の判別における誤差境界と,量子位置検証のための雑音閾値の関係を証明した。

Inspired by protocols in relativistic quantum cryptography, we investigate quantum state discrimination using local operations and simultaneous classical or quantum communication (LOSCC/LOSQC). When one system is a qubit, we identify the structure of product ensembles that can be perfectly discriminated by LOSCC. We show these conditions fail for LOSQC and provide the smallest-sized example in which a gap between LOSCC and LOSQC exists. Finally, we prove an uncertainty relation that yields error bounds in LOSQC state discrimination and noise thresholds for quantum position verification.
翻訳日:2023-11-02 12:37:59 公開日:2023-11-01
# 特殊化ドメインのための言語モデルの組み合わせ:カラーフルアプローチ

Combining Language Models For Specialized Domains: A Colorful Approach ( http://arxiv.org/abs/2310.19708v3 )

ライセンス: Link先を確認
Daniel Eitan, Menachem Pirchi, Neta Glazer, Shai Meital, Gil Ayach, Gidon Krendel, Aviv Shamsian, Aviv Navon, Gil Hetz, Joseph Keshet(参考訳) 汎用言語モデル(LM)は、医学や工業などの専門分野でよく使われるドメイン固有の用語や用語を処理する際に困難に直面する。 さらに、一般的な言語と専門用語を混ぜ合わせた混合音声の解釈が困難であることが多い。 これは、これらの特定のドメイン内で動作する自動音声認識システムにとって課題となる。 本稿では,汎用 lm にドメイン固有あるいは二次 lm を統合する新しい手法を提案する。 この戦略は、各単語が一般またはドメイン固有のLMと関連していることを示すラベル付け、または「色付け」を含む。 色付き単語を含む推論を効果的に処理するビーム探索アルゴリズムを最適化したアルゴリズムを開発した。 評価の結果,本手法は言語タスクへのjargonの統合に極めて有効であることが示唆された。 特に,本手法は,一般ドメインの性能を損なうことなく,ドメイン固有の単語の誤り率を大幅に下げる。

General purpose language models (LMs) encounter difficulties when processing domain-specific jargon and terminology, which are frequently utilized in specialized fields such as medicine or industrial settings. Moreover, they often find it challenging to interpret mixed speech that blends general language with specialized jargon. This poses a challenge for automatic speech recognition systems operating within these specific domains. In this work, we introduce a novel approach that integrates domain-specific or secondary LM into general-purpose LM. This strategy involves labeling, or "coloring", each word to indicate its association with either the general or the domain-specific LM. We develop an optimized algorithm that enhances the beam search algorithm to effectively handle inferences involving colored words. Our evaluations indicate that this approach is highly effective in integrating jargon into language tasks. Notably, our method substantially lowers the error rate for domain-specific words without compromising performance in the general domain.
翻訳日:2023-11-02 10:50:41 公開日:2023-11-01
# 生成言語モデルにおける学習困難度軽減のための情報エントロピー損失

InfoEntropy Loss to Mitigate Bias of Learning Difficulties for Generative Language Models ( http://arxiv.org/abs/2310.19531v2 )

ライセンス: Link先を確認
Zhenpeng Su, Xing Wu, Xue Bai, Zijia Lin, Hui Chen, Guiguang Ding, Wei Zhou, Songlin Hu(参考訳) 生成言語モデルは、通常、前のものから次のトークン(サブワード/ワード/フレーズ)を予測することによって、大きなテキストコーパスで事前訓練される。 最近の研究は、下流タスクにおける大規模な生成言語モデルの印象的な性能を実証している。 しかし、既存の生成言語モデルは、訓練中にテキストコーパスに固有の課題、すなわち頻繁なトークンと頻繁なトークンの不均衡を無視している。 これは、言語モデルが一般的で簡単に学習できるトークンに支配され、希少で難解なトークンを見渡すことができる。 そこで我々は,情報エントロピー損失(InfoEntropy Loss)関数を提案する。 学習中,語彙上の予測確率分布の情報エントロピーに応じて,to-be-learnedトークンの学習難易度を動的に評価することができる。 その後、トレーニング損失を適応的にスケーリングし、モデルをより理解の難しいトークンに集中させようとする。 Pileデータセットでは、生成言語モデルを436M、1.1B、6.7Bパラメータで訓練する。 提案されたInfoEntropy Lossを組み込んだモデルでは、ダウンストリームベンチマークで一貫したパフォーマンス向上が期待できる。

Generative language models are usually pretrained on large text corpus via predicting the next token (i.e., sub-word/word/phrase) given the previous ones. Recent works have demonstrated the impressive performance of large generative language models on downstream tasks. However, existing generative language models generally neglect an inherent challenge in text corpus during training, i.e., the imbalance between frequent tokens and infrequent ones. It can lead a language model to be dominated by common and easy-to-learn tokens, thereby overlooking the infrequent and difficult-to-learn ones. To alleviate that, we propose an Information Entropy Loss (InfoEntropy Loss) function. During training, it can dynamically assess the learning difficulty of a to-be-learned token, according to the information entropy of the corresponding predicted probability distribution over the vocabulary. Then it scales the training loss adaptively, trying to lead the model to focus more on the difficult-to-learn tokens. On the Pile dataset, we train generative language models at different scales of 436M, 1.1B, and 6.7B parameters. Experiments reveal that models incorporating the proposed InfoEntropy Loss can gain consistent performance improvement on downstream benchmarks.
翻訳日:2023-11-02 10:50:08 公開日:2023-11-01
# LLMの理解と実装能力の相違によるテキスト要約の現実的整合性の改善

Improving Factual Consistency of Text Summarization by Adversarially Decoupling Comprehension and Embellishment Abilities of LLMs ( http://arxiv.org/abs/2310.19347v2 )

ライセンス: Link先を確認
Huawen Feng, Yan Fan, Xiong Liu, Ting-En Lin, Zekun Yao, Yuchuan Wu, Fei Huang, Yongbin Li, Qianli Ma(参考訳) 大規模言語モデル(llm)によるテキスト要約の最近の進歩にもかかわらず、それらはテキスト生成において「幻覚」として知られる元の記事と事実上矛盾する要約を生成することが多い。 従来の小さなモデル(例えばBART、T5)とは異なり、現在のLLMは愚かなミスを少なくするが、原因や効果を示唆する、誤った詳細を追加する、過度に一般化するなど、より洗練されたものを作る。 これらの幻覚は従来の手法による検出が困難であり、テキスト要約の事実整合性を改善する上で大きな課題となる。 本稿では,LLM(DECENT)の包括的・包括的NT能力を阻害する逆デカップリング手法を提案する。 さらに, LLMの学習過程において, 真偽に対する感度の不足を補うために, 探索に基づくパラメータ効率の手法を採用した。 このように、LLMはエンプレッシングや理解に混同されることが少なく、より正確に命令を実行でき、幻覚を識別する能力が向上する。 実験の結果, llmsに基づくテキスト要約の信頼性が有意に向上した。

Despite the recent progress in text summarization made by large language models (LLMs), they often generate summaries that are factually inconsistent with original articles, known as "hallucinations" in text generation. Unlike previous small models (e.g., BART, T5), current LLMs make fewer silly mistakes but more sophisticated ones, such as imposing cause and effect, adding false details, and overgeneralizing, etc. These hallucinations are challenging to detect through traditional methods, which poses great challenges for improving the factual consistency of text summarization. In this paper, we propose an adversarially DEcoupling method to disentangle the Comprehension and EmbellishmeNT abilities of LLMs (DECENT). Furthermore, we adopt a probing-based parameter-efficient technique to cover the shortage of sensitivity for true and false in the training process of LLMs. In this way, LLMs are less confused about embellishing and understanding, thus can execute the instructions more accurately and have enhanced abilities to distinguish hallucinations. Experimental results show that DECENT significantly improves the reliability of text summarization based on LLMs.
翻訳日:2023-11-02 10:49:49 公開日:2023-11-01
# rTsfNet: マルチヘッド3次元回転と時系列特徴抽出による人間活動認識のためのDNNモデル

rTsfNet: a DNN model with Multi-head 3D Rotation and Time Series Feature Extraction for IMU-based Human Activity Recognition ( http://arxiv.org/abs/2310.19283v2 )

ライセンス: Link先を確認
Yu Enokibori(参考訳) 本稿では,Multi-head 3D Rotation and Time Series Feature extractを用いたDNNモデルであるrTsfNetを,IMUに基づく人間活動認識(HAR)のための新しいDNNモデルとして提案する。 rTsfNetはDNN内で3D回転パラメータを導出することで特徴を導出する3Dベースを自動的に選択する。 そして、多くの研究者の知恵である時系列特徴(TSF)を導出し、MLPを用いてHARを実現する。 CNNを使用しないモデルは、よく管理されたベンチマーク条件と複数のデータセット(UCI HAR、PAMAP2、Daphnet、OPPORTUNITY)の下で既存のモデルよりも高い精度を達成した。

This paper proposes rTsfNet, a DNN model with Multi-head 3D Rotation and Time Series Feature Extraction, as a new DNN model for IMU-based human activity recognition (HAR). rTsfNet automatically selects 3D bases from which features should be derived by deriving 3D rotation parameters within the DNN. Then, time series features (TSFs), the wisdom of many researchers, are derived and realize HAR using MLP. Although a model that does not use CNN, it achieved the highest accuracy than existing models under well-managed benchmark conditions and multiple datasets: UCI HAR, PAMAP2, Daphnet, and OPPORTUNITY, which target different activities.
翻訳日:2023-11-02 10:49:28 公開日:2023-11-01
# Myriad:産業異常検出のためのビジョンエキスパートの適用による大規模マルチモーダルモデル

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection ( http://arxiv.org/abs/2310.19070v2 )

ライセンス: Link先を確認
Yuanze Li, Haolin Wang, Shihao Yuan, Ming Liu, Debin Zhao, Yiwen Guo, Chen Xu, Guangming Shi, Wangmeng Zuo(参考訳) 既存の産業異常検出(IAD)手法は異常検出と局所化の両方の異常スコアを予測する。 しかし、彼らは多ターンダイアログの実行に苦労し、例えば、色、形状、産業異常のカテゴリなど、異常領域の詳細な記述を行う。 近年,画像キャプションや視覚理解,視覚推論など,複数の視覚課題において,大きなマルチモーダルモデル(すなわち視覚言語モデル(lmms))が有意な知覚能力を示し,より理解可能な異常検出のための競争的選択肢となっている。 しかし、既存の一般LMMでは異常検出に関する知識が欠如しているが、異常検出のために特定のLMMを訓練するには大量の注釈付きデータと膨大な計算資源が必要である。 本稿では,産業的異常検出のための視覚専門家(dubbed myriad)を応用した,新しい大規模マルチモーダルモデルを提案する。 具体的には,MiniGPT-4をベースLMMとして採用し,Large Language Models (LLMs) に理解可能なトークンとして,視覚専門家の事前知識を埋め込むために,Expert Perceptionモジュールを設計する。 視覚専門家の誤りや混乱を補うために,一般画像と産業画像の視覚的表現ギャップを埋めるために,ドメインアダプタを導入する。 さらに,視覚エキスパートに先立って,q-formerがiadドメイン視覚言語トークンを生成できる視覚エキスパートインストラクターを提案する。 MVTec-AD と VisA ベンチマークの大規模な実験により,提案手法は1クラスおよび少数ショット設定下での最先端の手法に対して良好に機能するだけでなく,IAD ドメインの詳細な記述とともに,一定の異常予測を提供することを示した。

Existing industrial anomaly detection (IAD) methods predict anomaly scores for both anomaly detection and localization. However, they struggle to perform a multi-turn dialog and detailed descriptions for anomaly regions, e.g., color, shape, and categories of industrial anomalies. Recently, large multimodal (i.e., vision and language) models (LMMs) have shown eminent perception abilities on multiple vision tasks such as image captioning, visual understanding, visual reasoning, etc., making it a competitive potential choice for more comprehensible anomaly detection. However, the knowledge about anomaly detection is absent in existing general LMMs, while training a specific LMM for anomaly detection requires a tremendous amount of annotated data and massive computation resources. In this paper, we propose a novel large multi-modal model by applying vision experts for industrial anomaly detection (dubbed Myriad), which leads to definite anomaly detection and high-quality anomaly description. Specifically, we adopt MiniGPT-4 as the base LMM and design an Expert Perception module to embed the prior knowledge from vision experts as tokens which are intelligible to Large Language Models (LLMs). To compensate for the errors and confusions of vision experts, we introduce a domain adapter to bridge the visual representation gaps between generic and industrial images. Furthermore, we propose a Vision Expert Instructor, which enables the Q-Former to generate IAD domain vision-language tokens according to vision expert prior. Extensive experiments on MVTec-AD and VisA benchmarks demonstrate that our proposed method not only performs favorably against state-of-the-art methods under the 1-class and few-shot settings, but also provide definite anomaly prediction along with detailed descriptions in IAD domain.
翻訳日:2023-11-02 10:49:12 公開日:2023-11-01
# 進化的最適化としての大規模言語モデル

Large Language Models as Evolutionary Optimizers ( http://arxiv.org/abs/2310.19046v2 )

ライセンス: Link先を確認
Shengcai Liu, Caishun Chen, Xinghua Qu, Ke Tang, Yew-Soon Ong(参考訳) 進化的アルゴリズム(EA)は複雑な組合せ最適化問題に対処することに成功した。 しかし、EAはドメインの専門知識の助けを借りて、よく設計されたオペレーターに満足なパフォーマンスを要求します。 本研究では,大規模言語モデル(LLM)を進化的組合せ最適化器として初めて研究する。 主な利点は、最小限のドメイン知識と人間の努力が必要であり、モデルに追加のトレーニングは必要ありません。 このアプローチはLLM駆動EA(LMEA)と呼ばれる。 具体的には、進化探索の各世代において、LMEAはLLMに現在の個体群から親溶液を選択し、交叉と突然変異を行い、子孫溶液を生成するように指示する。 そして、LMEAはこれらの新しいソリューションを評価し、それらを次世代の人口に含める。 LMEAはLLMの温度を制御する自己適応機構を備えている。 これにより、探索とエクスプロイトのバランスを保ち、探索が局所的な最適化で行き詰まるのを防ぐことができる。 組合せ最適化研究に広く用いられている古典的旅行セールスマン問題(TSP)に対するLMEAの力について検討する。 特に、LMEAは、最大20ノードのTSPインスタンス上で高品質なソリューションを見つける際に、従来のヒューリスティックと競合して動作することを示す。 さらに,LLMによるクロスオーバー・ミューテーションの有効性と,進化探索における自己適応機構についても検討した。 結論として, 組合せ問題を解くための進化的最適化手法として, LLMの大きな可能性を明らかにした。 我々の研究は、複雑な最適化課題に対するLLM駆動型EAの今後の探索を刺激することを期待します。

Evolutionary algorithms (EAs) have achieved remarkable success in tackling complex combinatorial optimization problems. However, EAs often demand carefully-designed operators with the aid of domain expertise to achieve satisfactory performance. In this work, we present the first study on large language models (LLMs) as evolutionary combinatorial optimizers. The main advantage is that it requires minimal domain knowledge and human efforts, as well as no additional training of the model. This approach is referred to as LLM-driven EA (LMEA). Specifically, in each generation of the evolutionary search, LMEA instructs the LLM to select parent solutions from current population, and perform crossover and mutation to generate offspring solutions. Then, LMEA evaluates these new solutions and include them into the population for the next generation. LMEA is equipped with a self-adaptation mechanism that controls the temperature of the LLM. This enables it to balance between exploration and exploitation and prevents the search from getting stuck in local optima. We investigate the power of LMEA on the classical traveling salesman problems (TSPs) widely used in combinatorial optimization research. Notably, the results show that LMEA performs competitively to traditional heuristics in finding high-quality solutions on TSP instances with up to 20 nodes. Additionally, we also study the effectiveness of LLM-driven crossover/mutation and the self-adaptation mechanism in evolutionary search. In summary, our results reveal the great potentials of LLMs as evolutionary optimizers for solving combinatorial problems. We hope our research shall inspire future explorations on LLM-driven EAs for complex optimization challenges.
翻訳日:2023-11-02 10:48:33 公開日:2023-11-01
# CodeFusion: コード生成のための事前トレーニング付き拡散モデル

CodeFusion: A Pre-trained Diffusion Model for Code Generation ( http://arxiv.org/abs/2310.17680v3 )

ライセンス: Link先を確認
Mukul Singh, Jos\'e Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu, Gust Verbruggen(参考訳) 最後のコード行しか変更できない開発者が、それが正しくなる前に、スクラッチから関数を書き始める頻度を想像してください。 自然言語からコードを生成するための自動回帰モデルにも同じような制限がある。 符号化自然言語で条件付けられた完全なプログラムを反復的にデノベートすることにより,この制限に対処する,事前学習された拡散コード生成モデルであるcodefusionを導入する。 我々は,Bash,Python,Microsoft Excel条件書式(CF)ルールに対して,自然言語のタスクからコード生成までのCodeFusionを評価する。 実験の結果、CodeFusion(75Mパラメータ)は最先端の自己回帰システム(350M-175Bパラメータ)と同等に動作し、多様性と品質のバランスが良く、トップ3とトップ5の精度で性能が向上していることがわかった。

Imagine a developer who can only change their last line of code, how often would they have to start writing a function from scratch before it is correct? Auto-regressive models for code generation from natural language have a similar limitation: they do not easily allow reconsidering earlier tokens generated. We introduce CodeFusion, a pre-trained diffusion code generation model that addresses this limitation by iteratively denoising a complete program conditioned on the encoded natural language. We evaluate CodeFusion on the task of natural language to code generation for Bash, Python, and Microsoft Excel conditional formatting (CF) rules. Experiments show that CodeFusion (75M parameters) performs on par with state-of-the-art auto-regressive systems (350M-175B parameters) in top-1 accuracy and outperforms them in top-3 and top-5 accuracy due to its better balance in diversity versus quality.
翻訳日:2023-11-02 10:48:13 公開日:2023-11-01
# format5: 自然言語を用いた条件付きテーブルフォーマッティングの省略と例

FormaT5: Abstention and Examples for Conditional Table Formatting with Natural Language ( http://arxiv.org/abs/2310.17306v3 )

ライセンス: Link先を確認
Mukul Singh, Jos\'e Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu, Elnaz Nouri, Mohammad Raza, Gust Verbruggen(参考訳) フォーマッティングは、視覚化、プレゼンテーション、分析のためのテーブルの重要な特性である。 スプレッドシートソフトウェアは、データに依存した条件付きフォーマット(cf)ルールを書くことで自動的にテーブルをフォーマットできる。 このようなルールを書くことは、基礎となるロジックを理解し実装する必要があるため、ユーザにとってしばしば困難である。 FormaT5は、対象のテーブルに与えられたCFルールと、所望のフォーマットロジックの自然言語記述を生成できるトランスフォーマーベースのモデルである。 これらのタスクのユーザ記述は、しばしば不特定または曖昧であり、コード生成システムは、望ましいルールを1ステップで正確に学習することが困難である。 この問題に対処し、引数エラーを最小限に抑えるため、form5は放棄目的にもかかわらずプレースホルダーを予測することを学ぶ。 これらのプレースホルダーは、第2のモデルで満たされるか、あるいはフォーマットすべき行の例を、プログラム・バイ・サンプル・システムで利用できる。 FormaT5を多種多様な実シナリオで評価するために、我々は4つの異なるソースから収集された実世界の記述を含む1053のCFタスクの広範なベンチマークを作成する。 私たちはこの分野の研究を促進するためにベンチマークをリリースします。 回避と充填により、form5は8つの異なるニューラルアプローチをベンチマークで比較できます。 本研究は、ドメイン固有の学習システムを構築することの価値を示す。

Formatting is an important property in tables for visualization, presentation, and analysis. Spreadsheet software allows users to automatically format their tables by writing data-dependent conditional formatting (CF) rules. Writing such rules is often challenging for users as it requires them to understand and implement the underlying logic. We present FormaT5, a transformer-based model that can generate a CF rule given the target table and a natural language description of the desired formatting logic. We find that user descriptions for these tasks are often under-specified or ambiguous, making it harder for code generation systems to accurately learn the desired rule in a single step. To tackle this problem of under-specification and minimise argument errors, FormaT5 learns to predict placeholders though an abstention objective. These placeholders can then be filled by a second model or, when examples of rows that should be formatted are available, by a programming-by-example system. To evaluate FormaT5 on diverse and real scenarios, we create an extensive benchmark of 1053 CF tasks, containing real-world descriptions collected from four different sources. We release our benchmarks to encourage research in this area. Abstention and filling allow FormaT5 to outperform 8 different neural approaches on our benchmarks, both with and without examples. Our results illustrate the value of building domain-specific learning systems.
翻訳日:2023-11-02 10:47:53 公開日:2023-11-01
# FLSL: 機能レベルの自己教師型学習

FLSL: Feature-level Self-supervised Learning ( http://arxiv.org/abs/2306.06203v3 )

ライセンス: Link先を確認
Qing Su, Anton Netchaev, Hai Li, and Shihao Ji(参考訳) 現在の自己教師型学習(SSL)手法(例えば、SimCLR, DINO, VICReg, MOCOv3)は、主にインスタンスレベルでの表現を目標としており、オブジェクト検出やセグメンテーションなどの高密度な予測タスクには適さない。 共同埋め込みとクラスタリングにトランスフォーマーを用いることにより,FLSL(Feature-Level Self-supervised Learning)と呼ばれる2レベル特徴クラスタリングSSL法を提案する。 FLSL問題の形式的定義を示し、平均シフトおよびk平均視点から目的を構築する。 FLSLは目覚しいセマンティッククラスタ表現を促進し,ビュー内およびビュー間特徴クラスタリングに適した埋め込みスキームを学習する。 実験の結果、FLSLは高密度予測タスクにおいて大幅に改善し、対象検出では44.9 (+2.8)% APと46.5% AP、MS-COCOでは40.8 (+2.3)% APと42.1% APを達成した。 FLSL は UAVDT 上の UAV17 オブジェクト検出や DAVIS 2017 上のビデオインスタンスセグメンテーションなど,既存の SSL メソッドよりも一貫して優れている。 ソースコードはhttps://github.com/isl-cv/flslで入手できる。

Current self-supervised learning (SSL) methods (e.g., SimCLR, DINO, VICReg,MOCOv3) target primarily on representations at instance level and do not generalize well to dense prediction tasks, such as object detection and segmentation.Towards aligning SSL with dense predictions, this paper demonstrates for the first time the underlying mean-shift clustering process of Vision Transformers (ViT), which aligns well with natural image semantics (e.g., a world of objects and stuffs). By employing transformer for joint embedding and clustering, we propose a two-level feature clustering SSL method, coined Feature-Level Self-supervised Learning (FLSL). We present the formal definition of the FLSL problem and construct the objectives from the mean-shift and k-means perspectives. We show that FLSL promotes remarkable semantic cluster representations and learns an embedding scheme amenable to intra-view and inter-view feature clustering. Experiments show that FLSL yields significant improvements in dense prediction tasks, achieving 44.9 (+2.8)% AP and 46.5% AP in object detection, as well as 40.8 (+2.3)% AP and 42.1% AP in instance segmentation on MS-COCO, using Mask R-CNN with ViT-S/16 and ViT-S/8 as backbone, respectively. FLSL consistently outperforms existing SSL methods across additional benchmarks, including UAV17 object detection on UAVDT, and video instance segmentation on DAVIS 2017.We conclude by presenting visualization and various ablation studies to better understand the success of FLSL. The source code is available at https://github.com/ISL-CV/FLSL.
翻訳日:2023-11-02 10:46:43 公開日:2023-11-01
# DPOK:微調整テキスト・画像拡散モデルの強化学習

DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.16381v3 )

ライセンス: Link先を確認
Ying Fan, Olivia Watkins, Yuqing Du, Hao Liu, Moonkyung Ryu, Craig Boutilier, Pieter Abbeel, Mohammad Ghavamzadeh, Kangwook Lee, Kimin Lee(参考訳) 人間のフィードバックから学ぶことで、テキストから画像へのモデルを改善することが示されている。 これらのテクニックはまず、人間がタスクで関心を持っているものをキャプチャして、学習した報酬関数に基づいてモデルを改善する報酬関数を学習する。 比較的単純なアプローチ(例えば報酬スコアに基づく拒絶サンプリング)が研究されているが、報酬関数を持つ微調整のテキスト・ツー・イメージモデルはまだ難しい。 本研究では,オンライン強化学習(RL)を用いてテキスト・画像の微調整を行う。 本稿では, 拡散モデルに着目し, 微調整タスクをRL問題として定義し, フィードバック学習報酬を最大化するためにポリシー勾配を用いた事前学習されたテキスト・画像拡散モデルを更新する。 我々のアプローチはdpokと呼ばれ、ポリシー最適化とkl正規化を統合する。 我々は、RLファインチューニングと教師付きファインチューニングの両方に対するKL正規化の分析を行う。 実験の結果,DPOKは画像テキストアライメントと画質の両方に関して,教師付き微調整よりも優れていることがわかった。 私たちのコードはhttps://github.com/google-research/google-research/tree/master/dpokで利用可能です。

Learning from human feedback has been shown to improve text-to-image models. These techniques first learn a reward function that captures what humans care about in the task and then improve the models based on the learned reward function. Even though relatively simple approaches (e.g., rejection sampling based on reward scores) have been investigated, fine-tuning text-to-image models with the reward function remains challenging. In this work, we propose using online reinforcement learning (RL) to fine-tune text-to-image models. We focus on diffusion models, defining the fine-tuning task as an RL problem, and updating the pre-trained text-to-image diffusion models using policy gradient to maximize the feedback-trained reward. Our approach, coined DPOK, integrates policy optimization with KL regularization. We conduct an analysis of KL regularization for both RL fine-tuning and supervised fine-tuning. In our experiments, we show that DPOK is generally superior to supervised fine-tuning with respect to both image-text alignment and image quality. Our code is available at https://github.com/google-research/google-research/tree/master/dpok.
翻訳日:2023-11-02 10:46:08 公開日:2023-11-01
# コンピュータグラフィックス画像の主観的・客観的品質評価

Subjective and Objective Quality Assessment for in-the-Wild Computer Graphics Images ( http://arxiv.org/abs/2303.08050v4 )

ライセンス: Link先を確認
Zicheng Zhang, Wei Sun, Yingjie Zhou, Jun Jia, Zhichao Zhang, Jing Liu, Xiongkuo Min, and Guangtao Zhai(参考訳) コンピュータグラフィックス画像(CGI)は、コンピュータプログラムによって人工的に生成され、ゲームやストリーミングメディアなどの様々なシナリオにおいて広く認識されている。 実際には、CGIの品質は、生産期間中のレンダリングの低下、マルチメディアアプリケーションの送信時に必然的な圧縮アーティファクト、構成と設計の低下による美的品質の低下に常に悩まされている。 しかし、コンピュータグラフィックス画像品質評価(CGIQA)の課題に対処する研究はほとんど行われていない。 ほとんどの画像品質評価(IQA)メトリクスは、自然シーン画像(NSI)のために開発され、合成歪みを持つNSIからなるデータベース上で検証される。 NSIとCGIの品質評価のギャップを埋めるため,6,000のCGI(CGIQA-6k)からなる大規模CGIQAデータベースを構築し,CGIの正確な知覚評価を得るために,よく制御された実験環境において主観的な実験を行う。 そこで本研究では,歪みと審美的品質の表現を両立し,効果的な深層学習に基づくno-reference (nr) iqaモデルを提案する。 実験の結果,提案手法は構築されたCGIQA-6kデータベースや他のCGIQA関連データベース上で,最先端のNR IQA手法よりも優れていた。 データベースはhttps://github.com/zzc-1998/cgiqa6kでリリースされる。

Computer graphics images (CGIs) are artificially generated by means of computer programs and are widely perceived under various scenarios, such as games, streaming media, etc. In practice, the quality of CGIs consistently suffers from poor rendering during production, inevitable compression artifacts during the transmission of multimedia applications, and low aesthetic quality resulting from poor composition and design. However, few works have been dedicated to dealing with the challenge of computer graphics image quality assessment (CGIQA). Most image quality assessment (IQA) metrics are developed for natural scene images (NSIs) and validated on databases consisting of NSIs with synthetic distortions, which are not suitable for in-the-wild CGIs. To bridge the gap between evaluating the quality of NSIs and CGIs, we construct a large-scale in-the-wild CGIQA database consisting of 6,000 CGIs (CGIQA-6k) and carry out the subjective experiment in a well-controlled laboratory environment to obtain the accurate perceptual ratings of the CGIs. Then, we propose an effective deep learning-based no-reference (NR) IQA model by utilizing both distortion and aesthetic quality representation. Experimental results show that the proposed method outperforms all other state-of-the-art NR IQA methods on the constructed CGIQA-6k database and other CGIQA-related databases. The database is released at https://github.com/zzc-1998/CGIQA6K.
翻訳日:2023-11-02 10:45:52 公開日:2023-11-01
# ベイズ型多状態ベネット受入比法

Bayesian Multistate Bennett Acceptance Ratio Methods ( http://arxiv.org/abs/2310.20699v2 )

ライセンス: Link先を確認
Xinqiang Ding(参考訳) 多状態ベネット受容比(MBAR)法は熱力学状態のエネルギーを計算するための一般的な手法である。 本稿では,MBAR法のベイズ一般化であるBayesMBARを紹介する。 熱力学状態からサンプリングされた構成と事前分布を統合することにより、ベイズMBARは自由エネルギーの後方分布を計算する。 後方分布を用いて自由エネルギー推定を導出し,それらの不確実性を計算する。 特に、均一な事前分布を使用する場合、BayesMBARはMBARの結果を回復するが、より正確な不確実性推定を提供する。 さらに、自由エネルギーに関する事前知識が利用可能であれば、非一様事前分布を用いてこの情報を推定手順に組み込むことができる。 例えば、自由エネルギー表面の滑らかさに関する事前の知識を取り入れることで、BayesMBARはMBAR法よりも正確な推定値を提供することを示す。 MBARが自由エネルギー計算に広く使われていることを考えると、ベイズMBARは自由エネルギー計算の様々な応用に欠かせないツールであると予想する。

The multistate Bennett acceptance ratio (MBAR) method is a prevalent approach for computing free energies of thermodynamic states. In this work, we introduce BayesMBAR, a Bayesian generalization of the MBAR method. By integrating configurations sampled from thermodynamic states with a prior distribution, BayesMBAR computes a posterior distribution of free energies. Using the posterior distribution, we derive free energy estimations and compute their associated uncertainties. Notably, when a uniform prior distribution is used, BayesMBAR recovers the MBAR's result but provides more accurate uncertainty estimates. Additionally, when prior knowledge about free energies is available, BayesMBAR can incorporate this information into the estimation procedure by using non-uniform prior distributions. As an example, we show that, by incorporating the prior knowledge about the smoothness of free energy surfaces, BayesMBAR provides more accurate estimates than the MBAR method. Given MBAR's widespread use in free energy calculations, we anticipate BayesMBAR to be an essential tool in various applications of free energy calculations.
翻訳日:2023-11-02 10:37:15 公開日:2023-11-01
# Rydberg原子実験のための制御された散逸

Controlled dissipation for Rydberg atom experiments ( http://arxiv.org/abs/2310.20687v2 )

ライセンス: Link先を確認
Bleuenn B\'egoc, Giovanni Cichelli, Sukhjit P. Singh, Francesco Perciavalle, Davide Rossini, Luigi Amico, Oliver Morsch(参考訳) Rydberg原子実験に制御散逸を加えるための簡単な手法を実証する。 実験では、低温ルビジウム原子を磁気光学トラップで70ドル-s rydberg状態に励起し、同時にリドバーグ状態と短寿命の6ドル-p状態の超微粒子に共鳴結合することで強制散逸を誘発した。 その結果、有効散逸は強度によって変化し、単一の実験サイクルでオン/オフする。

We demonstrate a simple technique for adding controlled dissipation to Rydberg atom experiments. In our experiments we excite cold rubidium atoms in a magneto-optical trap to $70$-S Rydberg states whilst simultaneously inducing forced dissipation by resonantly coupling the Rydberg state to a hyperfine level of the short-lived $6$-P state. The resulting effective dissipation can be varied in strength and switched on and off during a single experimental cycle.
翻訳日:2023-11-02 10:36:59 公開日:2023-11-01
# 多目的最適化としての長期学習

Long-Tailed Learning as Multi-Objective Optimization ( http://arxiv.org/abs/2310.20490v2 )

ライセンス: Link先を確認
Weiqi Li, Fan Lyu, Fanhua Shang, Liang Wan, Wei Feng(参考訳) 実世界のデータは極めて不均衡であり、ロングテールの分布を示し、十分なサンプルを持つクラスに偏り、まれなクラスでパフォーマンスの悪いモデルとなる。 近年の手法では,クラスの再バランスが提案されているが,シーソージレンマ(尾クラスの性能向上は,ヘッドクラスの性能を低下させる可能性がある。 本稿では,シーソージレンマが異なるクラスの勾配不均衡から導出され,不適切なクラスの勾配が更新に重要となるように設定されるため,末尾クラスに対する過剰補償や過補償になりがちであると主張する。 理想的補償を実現するために,多目的最適化問題としてロングテール認識を定式化し,ヘッドクラスとテールクラスの貢献を十分に尊重する。 効率向上のために,同じ勾配方向のクラスを収集するグラディエント・バランシング・グループ(GBG)戦略を提案する。 同様の勾配方向のクラスをgbg法で駆動し、より代表的な勾配を形成し、テールクラスに理想的な補償を与える。 さらに,長期学習においてよく用いられるベンチマークについて広範な実験を行い,既存のSOTA法よりも優れた方法を示す。

Real-world data is extremely imbalanced and presents a long-tailed distribution, resulting in models that are biased towards classes with sufficient samples and perform poorly on rare classes. Recent methods propose to rebalance classes but they undertake the seesaw dilemma (what is increasing performance on tail classes may decrease that of head classes, and vice versa). In this paper, we argue that the seesaw dilemma is derived from gradient imbalance of different classes, in which gradients of inappropriate classes are set to important for updating, thus are prone to overcompensation or undercompensation on tail classes. To achieve ideal compensation, we formulate the long-tailed recognition as an multi-objective optimization problem, which fairly respects the contributions of head and tail classes simultaneously. For efficiency, we propose a Gradient-Balancing Grouping (GBG) strategy to gather the classes with similar gradient directions, thus approximately make every update under a Pareto descent direction. Our GBG method drives classes with similar gradient directions to form more representative gradient and provide ideal compensation to the tail classes. Moreover, We conduct extensive experiments on commonly used benchmarks in long-tailed learning and demonstrate the superiority of our method over existing SOTA methods.
翻訳日:2023-11-02 10:36:52 公開日:2023-11-01
# 物理強化機械学習のスペクトルを語る : 構造力学応用のサーベイを通して

Discussing the Spectra of Physics-Enhanced Machine Learning via a Survey on Structural Mechanics Applications ( http://arxiv.org/abs/2310.20425v2 )

ライセンス: Link先を確認
Marcus Haywood-Alexander, Wei Liu, Kiran Bacsa, Zhilu Lai, Eleni Chatzi(参考訳) 物理と機械学習の交わりは、我々がここで物理強化機械学習(PEML)と呼ぶパラダイムを生み出し、その能力を改善し、データや物理のみの手法の個々の欠点を減らすことを目的としている。 本稿では,物理とデータの定義軸にまたがって表現される物理エンハンスド機械学習のスペクトルについて,その特性,使用法,動機を包括的に探究し,考察する。 そこで本研究では,PEML技術の最近の応用と開発について調査を行い,複雑な課題に対処するためのPEMLの有用性を明らかにする。 さらに, 単自由度ダッフィング発振器の簡単な動作例にそのようなスキームを適用すれば, PEMLアプローチの異なる「ジャンル」の個々の特性と動機を明らかにすることができる。 共同作業と透明性の促進,および読者に実践例を提供するため,本論文とともにこれらの実例のコードを提供する。 基礎的な貢献として,科学・工学研究の境界を推し進めることにおけるPEMLの重要性を,物理的な洞察と機械学習能力の相乗効果に支えられている。

The intersection of physics and machine learning has given rise to a paradigm that we refer to here as physics-enhanced machine learning (PEML), aiming to improve the capabilities and reduce the individual shortcomings of data- or physics-only methods. In this paper, the spectrum of physics-enhanced machine learning methods, expressed across the defining axes of physics and data, is discussed by engaging in a comprehensive exploration of its characteristics, usage, and motivations. In doing so, this paper offers a survey of recent applications and developments of PEML techniques, revealing the potency of PEML in addressing complex challenges. We further demonstrate application of select such schemes on the simple working example of a single-degree-of-freedom Duffing oscillator, which allows to highlight the individual characteristics and motivations of different `genres' of PEML approaches. To promote collaboration and transparency, and to provide practical examples for the reader, the code of these working examples is provided alongside this paper. As a foundational contribution, this paper underscores the significance of PEML in pushing the boundaries of scientific and engineering research, underpinned by the synergy of physical insights and machine learning capabilities.
翻訳日:2023-11-02 10:36:30 公開日:2023-11-01
# 強化学習におけるドロップアウト戦略:政策最適化手法におけるサロゲート目的変数の制限

Dropout Strategy in Reinforcement Learning: Limiting the Surrogate Objective Variance in Policy Optimization Methods ( http://arxiv.org/abs/2310.20380v2 )

ライセンス: Link先を確認
Zhengpeng Xie, Changdong Yu, Weizheng Qiao(参考訳) ポリシーに基づく強化学習アルゴリズムは様々な分野で広く使われている。 このうち,TRPOやPPOなどの主流ポリシ最適化アルゴリズムは,過去のデータの再利用を可能にするポリシ反復に重要サンプリングを導入している。 しかし、これはまた、代理対象の高分散をもたらし、アルゴリズムの安定性と収束に間接的に影響を及ぼす。 本稿では,まず,対象値の増加に伴って二次的に成長することができる,対象変数の上限を導出した。 次に,重要サンプリングによるサロゲート目的分散の過剰増加を回避するために,ドロップアウト手法を提案する。 そこで本研究では,主流政策最適化手法に適用可能な汎用強化学習フレームワークを導入し,PPOアルゴリズムにドロップアウト手法を適用してD-PPO変種を求める。 最後に,Atari 2600環境におけるD-PPOアルゴリズムとPPOアルゴリズムの比較実験を行い,D-PPOがPPOに比べて顕著な性能向上を達成し,トレーニング中のサロゲート目的分散の過剰増加を効果的に抑制することを示した。

Policy-based reinforcement learning algorithms are widely used in various fields. Among them, mainstream policy optimization algorithms such as TRPO and PPO introduce importance sampling into policy iteration, which allows the reuse of historical data. However, this can also lead to high variance of the surrogate objective and indirectly affects the stability and convergence of the algorithm. In this paper, we first derived an upper bound of the surrogate objective variance, which can grow quadratically with the increase of the surrogate objective. Next, we proposed a dropout technique to avoid the excessive increase of the surrogate objective variance caused by importance sampling. Then, we introduced a general reinforcement learning framework applicable to mainstream policy optimization methods, and applied the dropout technique to the PPO algorithm to obtain the D-PPO variant. Finally, we conduct comparative experiments between D-PPO and PPO algorithms in the Atari 2600 environment, results show that D-PPO achieved significant performance improvements compared to PPO, and effectively limited the excessive increase of the surrogate objective variance during training.
翻訳日:2023-11-02 10:36:08 公開日:2023-11-01
# マルチモーダル大言語モデルの空間認識能力の向上

Enhancing the Spatial Awareness Capability of Multi-Modal Large Language Model ( http://arxiv.org/abs/2310.20357v2 )

ライセンス: Link先を確認
Yongqiang Zhao, Zhenyu Li, Zhi Jin, Feng Zhang, Haiyan Zhao, Chengfeng Dou, Zhengwei Tao, Xinhai Xu, Donghong Liu(参考訳) マルチモーダル大言語モデル(multi-modal large language model, mllm)は、マルチモーダルデータの受信と推論機能を備えた大規模言語モデル(llm)の拡張である。 空間認識はMLLMの重要な能力の1つであり、物体とシーン領域の間の空間的関係を理解するための多様なスキルを含んでいる。 自動運転、スマートヘルスケア、ロボティクス、バーチャル、拡張現実といった産業はMLLMの空間認識能力を強く要求している。 しかし、MLLMの現在の空間認識能力と、人間の要求によって設定された要件との間には、顕著なギャップがある。 そこで本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。 具体的には、特定のマルチモーダルタスクに対して、幾何学的空間情報とシーングラフを取得するアルゴリズムを用いて、関連する幾何学的空間情報とクエリに関連するオブジェクトのシーン詳細を取得する。 そして,この情報に基づいて,ユーザが提示する空間認識関連クエリに,MLLMに対処するよう指示する。 MME、MM-Vet、その他のマルチモーダルな大規模言語モデルなどのベンチマークで大規模な実験を行った。 実験結果は,MLLMの空間認識タスクと関連するタスクの強化における提案手法の有効性を徹底的に検証した。

The Multi-Modal Large Language Model (MLLM) refers to an extension of the Large Language Model (LLM) equipped with the capability to receive and infer multi-modal data. Spatial awareness stands as one of the crucial abilities of MLLM, encompassing diverse skills related to understanding spatial relationships among objects and between objects and the scene area. Industries such as autonomous driving, smart healthcare, robotics, virtual, and augmented reality heavily demand MLLM's spatial awareness capabilities. However, there exists a noticeable gap between the current spatial awareness capabilities of MLLM and the requirements set by human needs. To address this issue, this paper proposes using more precise spatial position information between objects to guide MLLM in providing more accurate responses to user-related inquiries. Specifically, for a particular multi-modal task, we utilize algorithms for acquiring geometric spatial information and scene graphs to obtain relevant geometric spatial information and scene details of objects involved in the query. Subsequently, based on this information, we direct MLLM to address spatial awareness-related queries posed by the user. Extensive experiments were conducted in benchmarks such as MME, MM-Vet, and other multi-modal large language models. The experimental results thoroughly confirm the efficacy of the proposed method in enhancing the spatial awareness tasks and associated tasks of MLLM.
翻訳日:2023-11-02 10:35:48 公開日:2023-11-01
# 多言語数学的推論における言語バリアの破壊:洞察と観察

Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations ( http://arxiv.org/abs/2310.20246v2 )

ライセンス: Link先を確認
Nuo Chen, Zinan Zheng, Ning Wu, Linjun Shou, Ming Gong, Yangqiu Song, Dongmei Zhang, Jia Li(参考訳) 既存の研究は主に、単言語言語における数学的推論のための強力な言語学習モデル(llm)の開発に焦点を当てている。 このギャップを埋めるために, マルチリンガル数学推論 (xMR) LLM の探索と訓練を行った。 まず,多言語数学推論指導データセットmgsm8kinstructを構築し,10個の異なる言語を包含することで,xmrタスクにおけるデータ不足の学習問題に対処する。 収集したデータセットに基づいて,MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。 特にMathOctopus-13Bの精度は47.6%に達し、MGSMテストセットのChatGPT 46.3%を超えている。 1) 拒否的サンプリング戦略を多言語文脈に拡張すると, モデルの性能に有効であることが証明されるが, 限定的である。 2) 複数の言語にまたがる並列コーパス (SFT) の利用は, モデル性能を多言語的に向上させるだけでなく, モノリンガル性能も向上させる。 これは,多言語コーパスの作成が,特に数学的推論タスクにおいて,特定の言語におけるモデル性能を高める上で重要な戦略であることを示す。 例えば、mathoctopus-7bは、gsm8kテストセットで42.2%から50.8%に向上した。

Existing research predominantly focuses on developing powerful language learning models (LLMs) for mathematical reasoning within monolingual languages, with few explorations in preserving efficacy in a multilingual context. To bridge this gap, this paper pioneers exploring and training powerful Multilingual Math Reasoning (xMR) LLMs. Firstly, by utilizing translation, we construct the first multilingual math reasoning instruction dataset, MGSM8KInstruct, encompassing ten distinct languages, thus addressing the issue of training data scarcity in xMR tasks. Based on the collected dataset, we propose different training strategies to build powerful xMR LLMs, named MathOctopus, notably outperform conventional open-source LLMs and exhibit superiority over ChatGPT in few-shot scenarios. Notably, MathOctopus-13B reaches 47.6% accuracy which exceeds ChatGPT 46.3% on MGSM testset. Beyond remarkable results, we unearth several pivotal observations and insights from extensive experiments: (1) When extending the rejection sampling strategy to the multilingual context, it proves effective for model performances, albeit limited. (2) Employing parallel corpora for math Supervised Fine-Tuning (SFT) across multiple languages not only significantly enhances model performance multilingually but also elevates their monolingual performance. This indicates that crafting multilingual corpora can be regarded as a vital strategy for enhancing model performance in a specific language, especially in mathematical reasoning tasks. For instance, MathOctopus-7B improves its counterparts that trained on English from 42.2% to 50.8% on GSM8K testset.
翻訳日:2023-11-02 10:35:25 公開日:2023-11-01
# 指導によるスキル発見の学習

Learning to Discover Skills through Guidance ( http://arxiv.org/abs/2310.20178v2 )

ライセンス: Link先を確認
Hyunseung Kim, Byungkun Lee, Hojoon Lee, Dongyoon Hwang, Sejik Park, Kyushik Min, Jaegul Choo(参考訳) 教師なしスキル発見(USD)の分野では、主に最初の軌道からスキルが逸脱した場合の相当な罰則のために、限られた探索が主な課題である。 探索を強化するため、最近の手法では補助的な報酬を用いて、状態の疫学的な不確実性やエントロピーを最大化する。 しかし,環境の複雑さが増大するにつれて,これらの報酬の有効性は低下することがわかった。 そこで本研究では,(1)未探索状態に到達する可能性が最も高いガイドスキルを選択し,(2)ガイドスキルに従うための他のスキルを誘導し,(3)未探索状態における識別性を最大化するために,誘導スキルを分散させる,新しいUSDアルゴリズムであるDISCO-DANCEを提案する。 DISCO-DANCEは、2つのナビゲーションベンチマークと連続制御ベンチマークを含む、困難な環境での他のUSDベースラインよりも優れていることを示す実証的な評価である。 DISCO-DANCEの質的な視覚化とコードはhttps://mynsng.github.io/discodance.comで公開されている。

In the field of unsupervised skill discovery (USD), a major challenge is limited exploration, primarily due to substantial penalties when skills deviate from their initial trajectories. To enhance exploration, recent methodologies employ auxiliary rewards to maximize the epistemic uncertainty or entropy of states. However, we have identified that the effectiveness of these rewards declines as the environmental complexity rises. Therefore, we present a novel USD algorithm, skill discovery with guidance (DISCO-DANCE), which (1) selects the guide skill that possesses the highest potential to reach unexplored states, (2) guides other skills to follow guide skill, then (3) the guided skills are dispersed to maximize their discriminability in unexplored states. Empirical evaluation demonstrates that DISCO-DANCE outperforms other USD baselines in challenging environments, including two navigation benchmarks and a continuous control benchmark. Qualitative visualizations and code of DISCO-DANCE are available at https://mynsng.github.io/discodance.
翻訳日:2023-11-02 10:34:57 公開日:2023-11-01
# lfaa: 低周波摂動を伴う移動可能な標的攻撃例の作成

LFAA: Crafting Transferable Targeted Adversarial Examples with Low-Frequency Perturbations ( http://arxiv.org/abs/2310.20175v2 )

ライセンス: Link先を確認
Kunyu Wang and Juluan Shi and Wenxuan Wang(参考訳) ディープニューラルネットワークは、現実のアプリケーションにおけるセキュリティと信頼性に重大な脅威をもたらす敵攻撃の影響を受けやすい。 もっとも注目すべき敵攻撃は転送ベースの攻撃であり、敵は敵の例を使ってあるモデルを騙し、他のモデルも騙すことができる。 従来の研究では、未目標の敵例の転送可能性の向上が進んでいるが、モデル間での転送が可能な対象の敵例の生成は依然として困難な課題である。 本研究では,画像の高周波成分の摂動にディープニューラルネットワークの脆弱性を生かして,トランスファー可能なターゲティング対象の対向例を生成する新しい手法を提案する。 画像の高周波成分を別の画像の高周波成分に置き換えることで、深いモデルを誤解させ、ターゲット攻撃を達成するために高周波情報を含む摂動を作らせてしまうことを観察する。 そこで,本稿では,画像の低周波成分に付加される条件付き生成器を訓練する手法であるlow-frequency adversarial attack (\name)を提案する。 imagenet の広範な実験により,提案手法が最先端手法を著しく上回り,目標攻撃成功率を 3.2 % から 15.5 % に改善することを示した。

Deep neural networks are susceptible to adversarial attacks, which pose a significant threat to their security and reliability in real-world applications. The most notable adversarial attacks are transfer-based attacks, where an adversary crafts an adversarial example to fool one model, which can also fool other models. While previous research has made progress in improving the transferability of untargeted adversarial examples, the generation of targeted adversarial examples that can transfer between models remains a challenging task. In this work, we present a novel approach to generate transferable targeted adversarial examples by exploiting the vulnerability of deep neural networks to perturbations on high-frequency components of images. We observe that replacing the high-frequency component of an image with that of another image can mislead deep models, motivating us to craft perturbations containing high-frequency information to achieve targeted attacks. To this end, we propose a method called Low-Frequency Adversarial Attack (\name), which trains a conditional generator to generate targeted adversarial perturbations that are then added to the low-frequency component of the image. Extensive experiments on ImageNet demonstrate that our proposed approach significantly outperforms state-of-the-art methods, improving targeted attack success rates by a margin from 3.2\% to 15.5\%.
翻訳日:2023-11-02 10:34:37 公開日:2023-11-01
# 相互作用を考慮した行動予測とソーシャルアテンションニューラルネットワークを用いた自動運転車の意思決定

Decision-Making for Autonomous Vehicles with Interaction-Aware Behavioral Prediction and Social-Attention Neural Network ( http://arxiv.org/abs/2310.20148v2 )

ライセンス: Link先を確認
Xiao Li, Kaiwen Liu, H. Eric Tseng, Anouck Girard, Ilya Kolmanovsky(参考訳) 自動運転車は、交通の中で人間のドライバーと対話しながらタスクを遂行する必要がある。 したがって、自動運転車に人為的な推論を施し、周囲の交通の意図をよりよく理解し、タスクの達成を促進することが不可欠である。 本研究では,ドライバの対話的意図を潜在社会心理学的パラメータにエンコードする行動モデルを提案する。 ベイズフィルタを応用し,運転者の意図の不確かさを考慮に入れた自律走行車意思決定のための水平方向最適化に基づく制御器を開発した。 オンライン展開のために,オンライン推定パラメータプリエントで動作モデルを模倣したアテンション機構に基づくニューラルネットワークアーキテクチャを設計する。 また,オンライン上での意思決定問題を解決する決定木探索アルゴリズムを提案する。 提案した行動モデルは実世界の軌道予測能力の観点から評価される。 さらに,提案する意思決定モジュールについて,シミュレーション環境と実世界のトラヒックデータセットの両方を用いて,強制的統合シナリオにおいて広範な評価を行う。 その結果,運転安全を確保しつつ,様々な交通条件下で強制マージタスクを完了させることができることがわかった。

Autonomous vehicles need to accomplish their tasks while interacting with human drivers in traffic. It is thus crucial to equip autonomous vehicles with artificial reasoning to better comprehend the intentions of the surrounding traffic, thereby facilitating the accomplishments of the tasks. In this work, we propose a behavioral model that encodes drivers' interacting intentions into latent social-psychological parameters. Leveraging a Bayesian filter, we develop a receding-horizon optimization-based controller for autonomous vehicle decision-making which accounts for the uncertainties in the interacting drivers' intentions. For online deployment, we design a neural network architecture based on the attention mechanism which imitates the behavioral model with online estimated parameter priors. We also propose a decision tree search algorithm to solve the decision-making problem online. The proposed behavioral model is then evaluated in terms of its capabilities for real-world trajectory prediction. We further conduct extensive evaluations of the proposed decision-making module, in forced highway merging scenarios, using both simulated environments and real-world traffic datasets. The results demonstrate that our algorithms can complete the forced merging tasks in various traffic conditions while ensuring driving safety.
翻訳日:2023-11-02 10:34:11 公開日:2023-11-01
# オーカーレンス観測時刻:他の対称性への拡張

Time of ocurrence observables: expanding to other symmetries ( http://arxiv.org/abs/2310.20074v2 )

ライセンス: Link先を確認
V. Cavalheri Pereira, J. C. A. Barata(参考訳) 近年の研究では、量子力学における時間測定を記述するために、正の演算子値測度の定式化が提案されている。 この研究は、これらの変換に関して共変な測度を構築するために、因果ポアンカー変換を含むような測度の構築方法を一般化することにより、他の著者による作業の拡張を目的としている。

Recent works have proposed the use of the formalism of Positive Operator Valued Measures to describe time measurements in quantum mechanics. This work aims to expand on the work done by other authors, by generalizing the previously proposed construction method of such measures to include causal Poincar\'e transformations, in order to construct measures which are covariant with respect to such transformations.
翻訳日:2023-11-02 10:33:52 公開日:2023-11-01
# SURF:流体力学を予測するGNNの一般化ベンチマーク

SURF: A Generalization Benchmark for GNNs Predicting Fluid Dynamics ( http://arxiv.org/abs/2310.20049v2 )

ライセンス: Link先を確認
Stefan K\"unzli, Florian Gr\"otschla, Jo\"el Mathys and Roger Wattenhofer(参考訳) 流体力学のシミュレーションは、単純なバルブから複雑なターボ機械まで、設計と開発プロセスに不可欠である。 基礎となる物理方程式の正確な解法は計算に高価である。 したがって、メッシュ上のインタラクションをモデル化する学習ベースのソルバは、そのスピードアップが期待できるため関心を集めている。 しかし、これらのモデルが根底にある物理原理を真に理解し、補間よりも一般化できるかどうかは不明である。 一般化は、異なるトポロジー、解像度、熱力学的範囲に適応する汎用流体シミュレータの重要な要件である。 学習したグラフに基づく流体シミュレータの「textit{ Generalization}」をテストするためのベンチマークであるSURFを提案する。 SURFは個々のデータセットで構成され、異なるモデルを評価し比較するための特定のパフォーマンスと一般化メトリクスを提供する。 我々は2つの最先端グラフベースモデルを徹底的に研究し、SURFの適用性を実証的に実証し、それらの一般化に新たな洞察を与える。

Simulating fluid dynamics is crucial for the design and development process, ranging from simple valves to complex turbomachinery. Accurately solving the underlying physical equations is computationally expensive. Therefore, learning-based solvers that model interactions on meshes have gained interest due to their promising speed-ups. However, it is unknown to what extent these models truly understand the underlying physical principles and can generalize rather than interpolate. Generalization is a key requirement for a general-purpose fluid simulator, which should adapt to different topologies, resolutions, or thermodynamic ranges. We propose SURF, a benchmark designed to test the \textit{generalization} of learned graph-based fluid simulators. SURF comprises individual datasets and provides specific performance and generalization metrics for evaluating and comparing different models. We empirically demonstrate the applicability of SURF by thoroughly investigating the two state-of-the-art graph-based models, yielding new insights into their generalization.
翻訳日:2023-11-02 10:33:45 公開日:2023-11-01
# ダブルウェルポテンシャルにおける双極子超固体の融合

Merging Dipolar Supersolids in a Double-Well Potential ( http://arxiv.org/abs/2310.20018v2 )

ライセンス: Link先を確認
Hui Li, Eli Halperin, Shai Ronen, and John L. Bohn(参考訳) 双極子ボース-アインシュタイン凝縮体による2つの同一超固体の融合挙動を理論的に検討した。 特定のトラップアスペクト比のために2つの井戸間の障壁高さと間隔を断熱的に調整することにより、2つの超固体が互いに移動し、超固体状態、マクロドロップレット状態、リング状態、迷路状態を含む様々な基底状態相が出現する。 我々は、マージ遷移中に見られる様々な状態を特徴付ける位相図を構築する。 さらにガスの2つの部分を引き離すのに必要な力を計算し、マージした超固体が変形可能なプラスチック材料のように作用することを発見した。 我々の研究は、双極子超固体の層構造とそれらの相互作用の将来の研究の道を開く。

We theoretically investigate the merging behaviour of two identical supersolids through dipolar Bose-Einstein condensates confined within a double-well potential. By adiabatically tuning the barrier height and the spacing between the two wells for specific trap aspect ratios, the two supersolids move toward each other and lead to the emergence of a variety of ground state phases, including a supersolid state, a macrodroplet state, a ring state, and a labyrinth state. We construct a phase diagram that characterizes various states seen during the merging transition. Further, we calculate the force required to pull the two portions of the gas apart, finding that the merged supersolids act like a deformable plastic material. Our work paves the way for future studies of layer structure in dipolar supersolids and the interaction between them in experiments.
翻訳日:2023-11-02 10:33:30 公開日:2023-11-01
# f$-differential privacy による混合機構におけるプライバシの統一的拡張

Unified Enhancement of Privacy Bounds for Mixture Mechanisms via $f$-Differential Privacy ( http://arxiv.org/abs/2310.19973v2 )

ライセンス: Link先を確認
Chendi Wang, Buxin Su, Jiayuan Ye, Reza Shokri, Weijie J. Su(参考訳) 差分プライベート(DP)機械学習アルゴリズムは、ランダム初期化、ランダムバッチサブサンプリング、シャッフルなど、ランダム性の多くのソースを生成する。 しかし、そのようなランダム性は、解析が難しいアルゴリズムの出力に対する混合分布を誘導するため、微分プライバシー境界を証明する際に考慮するのは難しい。 本稿では,シャッフルモデルとDP-GD (One-iteration differentially private gradient descent) のプライバシ境界の改善に焦点をあてる。 シャッフルモデルに対するトレードオフ関数のクローズドフォーム式を導出し、$(\epsilon,\delta)$-DP に基づいて最新の結果を上回る結果を得る。 また,DP-GDのプライバシーに対するランダム初期化の影響について検討した。 トレードオフ関数の数値計算は、ランダム初期化がDP-GDのプライバシーを高めることを示唆している。 これらの混合機構に対する$f$-DP保証の解析は,本論文で導入されたトレードオフ関数の不等式に依存する。 この不等式は、f$-divergences の合同凸性を意味する。 最後に, ホッケースティックの高精度な連接凸性に関する$f$-DP類似を$(\epsilon,\delta)$-DPで検討し, 混合機構のプライバシ解析に応用する。

Differentially private (DP) machine learning algorithms incur many sources of randomness, such as random initialization, random batch subsampling, and shuffling. However, such randomness is difficult to take into account when proving differential privacy bounds because it induces mixture distributions for the algorithm's output that are difficult to analyze. This paper focuses on improving privacy bounds for shuffling models and one-iteration differentially private gradient descent (DP-GD) with random initializations using $f$-DP. We derive a closed-form expression of the trade-off function for shuffling models that outperforms the most up-to-date results based on $(\epsilon,\delta)$-DP. Moreover, we investigate the effects of random initialization on the privacy of one-iteration DP-GD. Our numerical computations of the trade-off function indicate that random initialization can enhance the privacy of DP-GD. Our analysis of $f$-DP guarantees for these mixture mechanisms relies on an inequality for trade-off functions introduced in this paper. This inequality implies the joint convexity of $F$-divergences. Finally, we study an $f$-DP analog of the advanced joint convexity of the hockey-stick divergence related to $(\epsilon,\delta)$-DP and apply it to analyze the privacy of mixture mechanisms.
翻訳日:2023-11-02 10:33:15 公開日:2023-11-01
# AIアライメント: 総合的な調査

AI Alignment: A Comprehensive Survey ( http://arxiv.org/abs/2310.19852v2 )

ライセンス: Link先を確認
Jiaming Ji, Tianyi Qiu, Boyuan Chen, Borong Zhang, Hantao Lou, Kaile Wang, Yawen Duan, Zhonghao He, Jiayi Zhou, Zhaowei Zhang, Fanzhi Zeng, Kwan Yee Ng, Juntao Dai, Xuehai Pan, Aidan O'Gara, Yingshan Lei, Hua Xu, Brian Tse, Jie Fu, Stephen McAleer, Yaodong Yang, Yizhou Wang, Song-Chun Zhu, Yike Guo, Wen Gao(参考訳) AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うことを目的としている。 AIシステムは能力が向上するにつれて、不整合のAIシステムに関連する大規模リスクが深刻化する。 何百人ものAI専門家と一般大衆が、AIのリスクに対する懸念を表明し、「AIによる絶滅のリスクを軽減することは、パンデミックや核戦争のような他の社会規模のリスクと共に、世界的優先事項であるべきだ」と主張した。 アライメント分野の包括的かつ最新の概観を提供するため,本稿ではアライメントの中核的概念,方法論,実践について考察する。 我々は、RICEの原則を、ロバスト性、解釈可能性、制御可能性、倫理性という、AIアライメントの重要な目標とみなしています。 これら4つの原則に基づいて、現在のアライメント研究の展望を概説し、それらを2つの重要なコンポーネント、前方アライメントと後方アライメントに分解する。 前者はアライメントトレーニングを通じてAIシステムをアライメントさせることを目標とし、後者はシステムアライメントに関する証拠を取得し、不正調整リスクの悪化を避けるためにそれらを適切に管理することを目的としている。 前向きのアライメントと後向きのアライメントは、前向きのプロセスからAIシステムのアライメントが検証されるリカレントプロセスを形成し、一方で、次のラウンドで前向きのアライメントのための更新された目標を提供する。 前方アライメントでは、フィードバックからの学習と分散シフトによる学習について議論する。 後方調整では、AIシステムのライフサイクルのすべてのステージに適用する保証技術とガバナンスプラクティスについて議論する。 また、チュートリアル、論文のコレクション、ブログ投稿、その他のリソースを含むウェブサイト(www.alignmentsurvey.com)もリリースし、継続的に更新しています。

AI alignment aims to make AI systems behave in line with human intentions and values. As AI systems grow more capable, the potential large-scale risks associated with misaligned AI systems become salient. Hundreds of AI experts and public figures have expressed concerns about AI risks, arguing that "mitigating the risk of extinction from AI should be a global priority, alongside other societal-scale risks such as pandemics and nuclear war". To provide a comprehensive and up-to-date overview of the alignment field, in this survey paper, we delve into the core concepts, methodology, and practice of alignment. We identify the RICE principles as the key objectives of AI alignment: Robustness, Interpretability, Controllability, and Ethicality. Guided by these four principles, we outline the landscape of current alignment research and decompose them into two key components: forward alignment and backward alignment. The former aims to make AI systems aligned via alignment training, while the latter aims to gain evidence about the systems' alignment and govern them appropriately to avoid exacerbating misalignment risks. Forward alignment and backward alignment form a recurrent process where the alignment of AI systems from the forward process is verified in the backward process, meanwhile providing updated objectives for forward alignment in the next round. On forward alignment, we discuss learning from feedback and learning under distribution shift. On backward alignment, we discuss assurance techniques and governance practices that apply to every stage of AI systems' lifecycle. We also release and continually update the website (www.alignmentsurvey.com) which features tutorials, collections of papers, blog posts, and other resources.
翻訳日:2023-11-02 10:32:51 公開日:2023-11-01