このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230918となっている論文です。

PDF登録状況(公開日: 20230918)

TitleAuthorsAbstract論文公表日・翻訳日
# CryptoBap: 暗号化プロトコルのバイナリ分析プラットフォーム

CryptoBap: A Binary Analysis Platform for Cryptographic Protocols ( http://arxiv.org/abs/2308.14450v2 )

ライセンス: Link先を確認
Faezeh Nasrabadi, Robert Künnemann, Hamed Nemati, (参考訳) 暗号プロトコルの(ARMv8およびRISC-V)マシンコードに対する弱い秘密と認証を検証するためのプラットフォームであるCryptoBapを紹介する。 まずプロトコルのバイナリを中間表現にトランスパイルし、次に暗号対応のシンボル実行を実行して、すべての実行パスを表すプロトコルのモデルを自動的に抽出する。 我々のシンボリックな実行は間接ジャンプを解消し、完全に自動化されたループ要約技術を用いて有界ループをサポートする。 抽出されたモデルは、サードパーティのツールチェーンを使用して、ProVerifとCryptoVerifを介して自動検証が可能なモデルに変換される。 提案手法の健全さを実証し,CryptoBapを用いて,おもちゃの例から実世界のプロトコルまで,TinySSH,SSHの実装,最新のVPNプロトコルであるWireGuardの複数のケーススタディを検証する。

We introduce CryptoBap, a platform to verify weak secrecy and authentication for the (ARMv8 and RISC-V) machine code of cryptographic protocols. We achieve this by first transpiling the binary of protocols into an intermediate representation and then performing a crypto-aware symbolic execution to automatically extract a model of the protocol that represents all its execution paths. Our symbolic execution resolves indirect jumps and supports bounded loops using the loop-summarization technique, which we fully automate. The extracted model is then translated into models amenable to automated verification via ProVerif and CryptoVerif using a third-party toolchain. We prove the soundness of the proposed approach and used CryptoBap to verify multiple case studies ranging from toy examples to real-world protocols, TinySSH, an implementation of SSH, and WireGuard, a modern VPN protocol.
翻訳日:2024-03-19 07:22:30 公開日:2023-09-18
# 関数秘密共有に基づくオンライン安全なロジスティック回帰

Online Efficient Secure Logistic Regression based on Function Secret Sharing ( http://arxiv.org/abs/2309.09486v1 )

ライセンス: Link先を確認
Jing Liu, Jamie Cui, Cen Chen, (参考訳) ロジスティック回帰(英: Logistic regression)は、不正検出、医療診断、レコメンデーションシステムなど、様々な現実世界の応用において二項分類に広く用いられているアルゴリズムである。 しかし、異なるパーティのデータでロジスティック回帰モデルをトレーニングすると、プライバシの懸念が高まる。 Secure Multi-Party Computation (MPC)は、複数のパーティがプライバシーを損なうことなく、ロジスティック回帰モデルを共同でトレーニングできる暗号化ツールである。 大規模データを扱う際には,オンライントレーニングフェーズの効率性が重要となる。 本稿では,FSS(Function Secret Sharing)に基づくプライバシー保護ロジスティック回帰のためのオンラインプロトコルを提案する。 我々のプロトコルは、2つの非解凍サーバで設計され、計算相手に相関するランダム性のみを示すサードパーティのディーラーの存在を前提としています。 オンラインフェーズでは、2つのサーバが、事前に生成された相関ランダム性を利用して、プライベートデータのロジスティック回帰モデルを共同でトレーニングする。 さらに,Sigmoid関数の高精度かつMPCフレンドリな代替手法を提案し,ロジスティック回帰学習プロセスを関数秘密共有ゲートにカプセル化する。 オンラインコミュニケーションのオーバーヘッドは、秘密共有に基づく従来の安全なロジスティック回帰トレーニングと比較して著しく減少する。 提案手法の有効性と有効性を示すため,理論的および実験的解析を行った。

Logistic regression is an algorithm widely used for binary classification in various real-world applications such as fraud detection, medical diagnosis, and recommendation systems. However, training a logistic regression model with data from different parties raises privacy concerns. Secure Multi-Party Computation (MPC) is a cryptographic tool that allows multiple parties to train a logistic regression model jointly without compromising privacy. The efficiency of the online training phase becomes crucial when dealing with large-scale data in practice. In this paper, we propose an online efficient protocol for privacy-preserving logistic regression based on Function Secret Sharing (FSS). Our protocols are designed in the two non-colluding servers setting and assume the existence of a third-party dealer who only poses correlated randomness to the computing parties. During the online phase, two servers jointly train a logistic regression model on their private data by utilizing pre-generated correlated randomness. Furthermore, we propose accurate and MPC-friendly alternatives to the sigmoid function and encapsulate the logistic regression training process into a function secret sharing gate. The online communication overhead significantly decreases compared with the traditional secure logistic regression training based on secret sharing. We provide both theoretical and experimental analyses to demonstrate the efficiency and effectiveness of our method.
翻訳日:2024-03-19 04:30:16 公開日:2023-09-18
# 高度な脅威を議論する - 課題と解決策

Combating Advanced Persistent Threats: Challenges and Solutions ( http://arxiv.org/abs/2309.09498v1 )

ライセンス: Link先を確認
Yuntao Wang, Han Liu, Zhou Su, (参考訳) 高度な永続的脅威(APTs)の台頭は、高度なオーケストレーション、ステルス実行、永続性の拡張、さまざまな分野における価値ある資産の標的など、重要なサイバーセキュリティ上の課題を特徴としている。 複雑なネットワーク環境における可視性とトレーサビリティを高めるための有望なアプローチとして,前向きなグラフベースのカーネルレベルの監査が登場している。 しかし、複雑な横鎖の再構築、ダイナミックな回避行動の検出、スマートな敵のサブグラフの防衛といった課題に直面している。 研究ギャップを埋めるために,ネットワークレベルの分散監査モデルによる費用対効果攻撃再建,信頼指向のAPT回避行動検出戦略,マルコフモデルに基づく逆サブグラフ防御手法など,プロファイナンスグラフを活用した効率的かつ堅牢なAPT防御手法を提案する。 プロトタイプの実装と広範な実験を通じて,本システムの有効性を検証した。 最後に、この新興分野において重要なオープンリサーチの方向性を概説する。

The rise of advanced persistent threats (APTs) has marked a significant cybersecurity challenge, characterized by sophisticated orchestration, stealthy execution, extended persistence, and targeting valuable assets across diverse sectors. Provenance graph-based kernel-level auditing has emerged as a promising approach to enhance visibility and traceability within intricate network environments. However, it still faces challenges including reconstructing complex lateral attack chains, detecting dynamic evasion behaviors, and defending smart adversarial subgraphs. To bridge the research gap, this paper proposes an efficient and robust APT defense scheme leveraging provenance graphs, including a network-level distributed audit model for cost-effective lateral attack reconstruction, a trust-oriented APT evasion behavior detection strategy, and a hidden Markov model based adversarial subgraph defense approach. Through prototype implementation and extensive experiments, we validate the effectiveness of our system. Lastly, crucial open research directions are outlined in this emerging field.
翻訳日:2024-03-19 04:30:16 公開日:2023-09-18
# モーダル論理のレンズによるセキュリティ特性

Security Properties through the Lens of Modal Logic ( http://arxiv.org/abs/2309.09542v1 )

ライセンス: Link先を確認
Matvey Soloviev, Musard Balliu, Roberto Guanciale, (参考訳) モーダル論理を用いたコンピュータシステムのセキュリティに関する推論フレームワークを提案する。 このフレームワークは、様々な既知のセキュリティ特性を捉えるのに十分な表現力を持ち、直感的で、構文の詳細や執行機構とは独立している。 我々は, 機密性, 完全性, 堅牢な非分類化, 透過的な支持の様々な変種を表現するために, フォーマリズムをどう使うかを示し, 標準定義と等価性を証明した。 このアプローチのセマンティックリアリティーに対する直感的な性質と密接性により、これらの定義のいくつかの隠された仮定を明確化し、潜在的な問題や微妙な関係を特定できると同時に、よりクリーンなバージョンと、完全に新しい性質への将来の拡張を約束できる。

We introduce a framework for reasoning about the security of computer systems using modal logic. This framework is sufficiently expressive to capture a variety of known security properties, while also being intuitive and independent of syntactic details and enforcement mechanisms. We show how to use our formalism to represent various progress- and termination-(in)sensitive variants of confidentiality, integrity, robust declassification and transparent endorsement, and prove equivalence to standard definitions. The intuitive nature and closeness to semantic reality of our approach allows us to make explicit several hidden assumptions of these definitions, and identify potential issues and subtleties with them, while also holding the promise of formulating cleaner versions and future extension to entirely novel properties.
翻訳日:2024-03-19 04:30:16 公開日:2023-09-18
# 救難への変調:標的分析のためのトランジスタモラスにおけるサブ回路の同定

Modulation to the Rescue: Identifying Sub-Circuitry in the Transistor Morass for Targeted Analysis ( http://arxiv.org/abs/2309.09782v1 )

ライセンス: Link先を確認
Xhani Marvin Saß, Thilo Krachenfels, Frederik Dermot Pustelnik, Jean-Pierre Seifert, Christian Große, Frank Altmann, (参考訳) 物理的な攻撃は、セキュアなコンピューティングプラットフォームに対する最も深刻な脅威の1つだ。 セキュリティ関連の操作中に集積回路(IC)環境を受動的に測定することで、内部秘密が開示される。 さらに、ICの物理的実行環境を積極的に乱すことで、特定の悪用可能な不正行為を引き起こすことがある。 物理的な攻撃の集合は、グローバルまたはローカルに適用される技術から成り立っている。 グローバルテクニックと比較して、ローカルテクニックはより高精度で、高度な攻撃シナリオで使用される可能性がある。 しかし,空間依存性を付加した物理手法を用いることで,パラメータ探索空間を指数関数的に拡張する。 本研究では,光と熱の原理に基づいて,完全に未知のICのサブサーキットを発見するために,レーザー論理状態イメージング(LLSI)とロックインサーモグラフィ(LIT)という2つの手法を提示・比較する。 特定領域を特定するのに要する時間を大幅に削減でき、位置情報を必要とする物理的攻撃の複雑さを低減できることを示す。 Intel H610 Platform Controller Hubのケーススタディでは、ターゲットの電圧レールによって、サーチスペースが90~98%削減されることを示した。

Physical attacks form one of the most severe threats against secure computing platforms. Their criticality arises from their corresponding threat model: By, e.g., passively measuring an integrated circuit's (IC's) environment during a security-related operation, internal secrets may be disclosed. Furthermore, by actively disturbing the physical runtime environment of an IC, an adversary can cause a specific, exploitable misbehavior. The set of physical attacks consists of techniques that apply either globally or locally. When compared to global techniques, local techniques exhibit a much higher precision, hence having the potential to be used in advanced attack scenarios. However, using physical techniques with additional spatial dependency expands the parameter search space exponentially. In this work, we present and compare two techniques, namely laser logic state imaging (LLSI) and lock-in thermography (LIT), that can be used to discover sub-circuitry of an entirely unknown IC based on optical and thermal principles. We show that the time required to identify specific regions can be drastically reduced, thus lowering the complexity of physical attacks requiring positional information. Our case study on an Intel H610 Platform Controller Hub showcases that, depending on the targeted voltage rail, our technique reduces the search space by around 90 to 98 percent.
翻訳日:2024-03-19 04:30:16 公開日:2023-09-18
# サービスとしてのモビリティのためのデータプライバシ

Data privacy for Mobility as a Service ( http://arxiv.org/abs/2310.10663v1 )

ライセンス: Link先を確認
Zineb Garroussi, Antoine Legrain, Sébastien Gambs, Vincent Gautrais, Brunilde Sansò, (参考訳) モビリティ・アズ・ア・サービス(MaaS)は、便利で効率的で統合された交通ソリューションを提供することで、交通業界に革命をもたらしている。 しかし、ユーザデータの広範な使用と複数のサービスプロバイダの統合は、重大なプライバシー上の懸念を引き起こす。 本研究の目的は、MaaSにおけるデータプライバシの現状を包括的に分析することであり、特に、社会におけるMaaSシステムのメリットを維持しつつ、ユーザプライバシを確保するための課題、既存のソリューション、および将来的な方向性について議論することである。

Mobility as a Service (MaaS) is revolutionizing the transportation industry by offering convenient, efficient and integrated transportation solutions. However, the extensive use of user data as well as the integration of multiple service providers raises significant privacy concerns. The objective of this survey paper is to provide a comprehensive analysis of the current state of data privacy in MaaS, in particular by discussing the associated challenges, existing solutions as well as potential future directions to ensure user privacy while maintaining the benefits of MaaS systems for society.
翻訳日:2024-03-19 02:23:27 公開日:2023-09-18
# 解釈は説明できない:教育におけるレコメンダシステムに着目した新しい定量的xaiアプローチ

Interpretability is not Explainability: New Quantitative XAI Approach with a focus on Recommender Systems in Education ( http://arxiv.org/abs/2311.02078v1 )

ライセンス: Link先を確認
Riccardo Porcedda(参考訳) eXplainable Artificial Intelligenceの分野は、機械学習アルゴリズムにおける説明可能性の定量的評価を容易にする広く受け入れられている分類法がないため、課題に直面している。 本稿では,xaiにおける重要な概念と関係を明確かつあいまいに理解することにより,文献の現在のギャップに対処できる新しい分類法を提案する。 我々のアプローチは、透明性、解釈可能性、完全性、複雑さ、説明可能性の本質的な次元としての理解可能性に焦点を当てた、既存の定義とフレームワークの体系的な分析に根ざしています。 この包括的分類学は、将来の研究のための共有語彙を確立することを目的としている。 提案する分類学の有用性を実証するために,MERLOTから最も適したオンラインリソースをキュレートし,推奨するRecommender Systemのケーススタディを検討した。 SHAPパッケージを用いて,新たに開発した分類学の文脈において,RSの定量化と説明可能性の向上を図る。

The field of eXplainable Artificial Intelligence faces challenges due to the absence of a widely accepted taxonomy that facilitates the quantitative evaluation of explainability in Machine Learning algorithms. In this paper, we propose a novel taxonomy that addresses the current gap in the literature by providing a clear and unambiguous understanding of the key concepts and relationships in XAI. Our approach is rooted in a systematic analysis of existing definitions and frameworks, with a focus on transparency, interpretability, completeness, complexity and understandability as essential dimensions of explainability. This comprehensive taxonomy aims to establish a shared vocabulary for future research. To demonstrate the utility of our proposed taxonomy, we examine a case study of a Recommender System designed to curate and recommend the most suitable online resources from MERLOT. By employing the SHAP package, we quantify and enhance the explainability of the RS within the context of our newly developed taxonomy.
翻訳日:2024-01-15 16:45:44 公開日:2023-09-18
# 車間すべて(v2x)におけるセキュリティ証明書管理システムの性能解析

Performance Analysis of Security Certificate Management System in Vehicle-to-Everything (V2X) ( http://arxiv.org/abs/2311.03360v1 )

ライセンス: Link先を確認
Abel C. H. Chen, Cheng-Kang Liu, Chun-Feng Lin, Bon-Yeh Lin(参考訳) 車両間通信(v2x)では、正確な情報を提供し、エンドエンティティのプライバシーを保護することが重要な情報セキュリティ問題である。 そのため、近年、いくつかの国際標準化機関がV2X通信セキュリティ標準の開発を始めている。 例えば、ieee 1609.2.1標準は認証アプリケーションと発行プロセス、証明書の破棄プロセスを指定するセキュリティ資格管理システム (scms) を設計している。 さらに、IEEE 1609.2標準は、これらの標準に基づいてセキュアなデータ伝送のための証明書フォーマットとセキュアプロトコルデータユニット(SPDU)を定義している。 その結果、エンドエンティティメーカーとSCMSプロバイダは、これらの標準に従ってV2Xセキュリティシステムを構築し、相互運用性テストを実施している。 国際規格は、署名/検証と暗号化/復号化機能に主に楕円曲線暗号(ECC)を採用しているが、性能解析はこれらのシステムの実用的展開において重要な課題である。 そこで本研究では,IEEE 1609.2 および IEEE 1609.2.1 規格に準拠したエンドエンティティと SCMS を実装した。 エンドエンティティの観点から、システム内のセキュリティ通信アクションごとに計算と送信時間を計測し、潜在的なシステムのボトルネックを特定する。 本研究は, SCMS開発者が参照するシステム効率を向上させるために, 性能重視のアクションを分析し, 関連する提案を行う。

In Vehicle-to-Everything (V2X) communications, providing accurate information and safeguarding the privacy of end entities is one of the crucial information security issues. Therefore, several international standardization organizations have begun to develop V2X communication security standards in recent years. For instance, the IEEE 1609.2.1 standard designs a Security Credential Management System (SCMS) that specifies certificate application and issuance processes, as well as certificate revocation processes. Furthermore, the IEEE 1609.2 standard defines certificate formats and Secure Protocol Data Units (SPDUs) for secure data transmission based on these standards. As a result, end entity manufacturers and SCMS providers worldwide have started building V2X security systems in accordance with these standards and conducting interoperability testing. Although international standards mainly employ Elliptic-Curve Cryptography (ECC) for signature/verification and encryption/decryption functions, performance analysis remains a crucial issue for the practical deployment of these systems. Therefore, this study implements end entities and a SCMS conforming to IEEE 1609.2 and IEEE 1609.2.1 standards. It measures the computation and transmission times for each security communication action within the system from the perspective of end entities and identifies potential system bottlenecks. In the experimental results, this study analyzes the most performance-intensive actions and provides relevant suggestions for enhancing system efficiency for SCMS developers to reference.
翻訳日:2024-01-15 16:30:41 公開日:2023-09-18
# Swin UNETRと統計的形状モデリングの統合による半自動膝関節分割と関節軟骨の生体力学的モデリング

Integration of Swin UNETR and statistical shape modeling for a semi-automated segmentation of the knee and biomechanical modeling of articular cartilage ( http://arxiv.org/abs/2312.00169v1 )

ライセンス: Link先を確認
Reza Kakavand, Mehrdad Palizi, Peyman Tahghighi, Reza Ahmadi, Neha Gianchandani, Samer Adeeb, Roberto Souza, W. Brent Edwards, Amin Komeili(参考訳) 有限要素モデリング(FE)のようなシミュレーション研究は、患者実験なしで膝関節力学の洞察を与える。 ジェネリックFEモデルは、集団の幾何学、荷重、材料特性のバリエーションを見渡すことで、組織の生体力学的挙動を表す。 一方、対象特化モデルにはこれらの特異性が含まれており、結果として予測精度が向上する。 しかし、そのようなモデルの作成は手間がかかり、時間を要する。 本研究の目的は,半自動セグメンテーションアルゴリズムを応用して,被験者特異的膝関節FEモデリングを強化することである。 このセグメンテーションは3D Swin UNETRで大腿骨と骨盤の最初のセグメンテーションを行い、続いて表面粗さと連続性を改善する統計的形状モデル(SSM)を調整した。 関節リウマチイニシアチブ(OAI)データベースから得られた5,7個のMRI画像を用いて,セグメンテーションモデルの構築と評価を行った。 この半自動セグメンテーションを用いて半自動FEモデルを開発した。 一方、手動FEモデルは手動セグメンテーション(つまり金標準アプローチ)によって開発された。 両方のFEモデルは歩行負荷を受ける。 手動および半自動feモデルの機械的応答を予測した。 その結果, 半自動セグメンテーションにより, 大腿骨および大腿部ともに98%以上のdsc(dice similarity coefficient)が得られた。 機械的結果(最大主応力,最大主ひずみ,流体圧,フィブリルひずみ,接触面積)は,マニュアルモデルと半自動feモデルとの間に有意な差は認められなかった。 (https://data.mendeley.com/datasets/k5hdc9cz7w/1 )。

Simulation studies like finite element (FE) modeling provide insight into knee joint mechanics without patient experimentation. Generic FE models represent biomechanical behavior of the tissue by overlooking variations in geometry, loading, and material properties of a population. On the other hand, subject-specific models include these specifics, resulting in enhanced predictive precision. However, creating such models is laborious and time-intensive. The present study aimed to enhance subject-specific knee joint FE modeling by incorporating a semi-automated segmentation algorithm. This segmentation was a 3D Swin UNETR for an initial segmentation of the femur and tibia, followed by a statistical shape model (SSM) adjustment to improve surface roughness and continuity. Five hundred and seven magnetic resonance images (MRIs) from the Osteoarthritis Initiative (OAI) database were used to build and validate the segmentation model. A semi-automated FE model was developed using this semi-automated segmentation. On the other hand, a manual FE model was developed through manual segmentation (i.e., the gold standard approach). Both FE models were subjected to gait loading. The predicted mechanical response of manual and semi-automated FE models were compared. In the result, our semi-automated segmentation achieved Dice similarity coefficient (DSC) over 98% for both femur and tibia. The mechanical results (max principal stress, max principal strain, fluid pressure, fibril strain, and contact area) showed no significant differences between the manual and semi-automated FE models, indicating the effectiveness of the proposed semi-automated segmentation in creating accurate knee joint FE models. ( https://data.mendeley.com/datasets/k5hdc9cz7w/1 ).
翻訳日:2024-01-15 15:10:16 公開日:2023-09-18
# 6G以上のネットワークAIにおけるネットゼロカーボンエミッションを目指して

Towards Net-Zero Carbon Emissions in Network AI for 6G and Beyond ( http://arxiv.org/abs/2401.01007v1 )

ライセンス: Link先を確認
Peng Zhang, Yong Xiao, Yingyu Li, Xiaohu Ge, Guangming Shi, Yang Yang(参考訳) 世界の温室効果ガス(温室効果ガス)排出量(主に炭素排出量)を2030年までに半分減らし、2050年までにネットゼロに達するよう、世界的な取り組みが進められている。 6Gの開発もこの目標に従わなければならない。 残念なことに、モバイルサービス、特にスマートサービスやアプリケーションに対するユーザーの急速に増加する要求を満たすために、持続可能でネットゼロのエミッションシステムの開発は、予想以上に難しくなるかもしれない。 特に、ハードウェアとソフトウェアの設計におけるエネルギー効率の改善にもかかわらず、モバイルネットワーク全体のエネルギー消費と二酸化炭素排出量は、依然として非常に速い速度で増加している。 リソース要求のAIアルゴリズムとソリューションの普及により、この課題はさらに悪化する。 本稿では,主要な排出源を特定し,ネットワークAI実装のライフサイクルを分析するための評価フレームワークを導入する。 detaと呼ばれる新しい動的エネルギー取引およびタスク割り当て最適化フレームワークが、炭素排出量全体の削減のために導入された。 我々は,フェデレートされたエッジインテリジェンスに基づくネットワークAIシステムを,提案ソリューションの有効性を検証するケーススタディとして検討する。 実験結果から,提案手法はネットワークaiシステムの二酸化炭素排出量を最大74.9%削減できることが示唆された。 最後に,今後の課題と今後の方向性について述べる。

A global effort has been initiated to reduce the worldwide greenhouse gas (GHG) emissions, primarily carbon emissions, by half by 2030 and reach net-zero by 2050. The development of 6G must also be compliant with this goal. Unfortunately, developing a sustainable and net-zero emission systems to meet the users' fast growing demands on mobile services, especially smart services and applications, may be much more challenging than expected. Particularly, despite the energy efficiency improvement in both hardware and software designs, the overall energy consumption and carbon emission of mobile networks are still increasing at a tremendous speed. The growing penetration of resource-demanding AI algorithms and solutions further exacerbate this challenge. In this article, we identify the major emission sources and introduce an evaluation framework for analyzing the lifecycle of network AI implementations. A novel joint dynamic energy trading and task allocation optimization framework, called DETA, has been introduced to reduce the overall carbon emissions. We consider a federated edge intelligence-based network AI system as a case study to verify the effectiveness of our proposed solution. Experimental results based on a hardware prototype suggest that our proposed solution can reduce carbon emissions of network AI systems by up to 74.9%. Finally, open problems and future directions are discussed.
翻訳日:2024-01-15 10:05:51 公開日:2023-09-18
# サイバー物理システムにおけるストレステスト制御ループ

Stress Testing Control Loops in Cyber-Physical Systems ( http://arxiv.org/abs/2302.13913v4 )

ライセンス: Link先を確認
Claudio Mandrioli, Seung Yeob Shin, Martina Maggio, Domenico Bianculli, Lionel Briand(参考訳) サイバー物理システム(CPS)は、しばしば安全に重要であり、不確実な環境で展開される。 cpsが要求に合致しないシナリオを特定することは基本だが、cpsの多分野的な性質のため難しい。 制御とソフトウェア技術者が協調してソフトウェアを開発する制御ベースCPSの試験について検討する。 制御エンジニアは、システム開発中に設計仮定を行い、制御理論を活用し、cps行動の保証を得る。 しかし、実装システムでは、そのような仮定は必ずしも満たされておらず、そのファルシフィケーションは保証の喪失につながる可能性がある。 制御ベースのCPSのストレステストは、そのような設計仮定を偽装するテストを生成するものとして定義する。 線形化物理モデルの利用に着目し,様々な仮定を強調する。 このような仮定をfalsificationするストレステストを生成するために、制御理論を利用して制御ベースCPSの入力空間を定性的に特徴づける。 制御系CPSのための新しいテストパラメトリションを提案し、入力空間の特徴付けを併用してストレステスト手法を開発する。 本研究では, ドローン, 連続電流モータ(5つの構成), 航空機の3つのケーススタディシステムに対するアプローチを評価し, 提案手法の有効性を実証し, 想定違反の原因を明らかにする。

Cyber-Physical Systems (CPSs) are often safety-critical and deployed in uncertain environments. Identifying scenarios where CPSs do not comply with requirements is fundamental but difficult due to the multidisciplinary nature of CPSs. We investigate the testing of control-based CPSs, where control and software engineers develop the software collaboratively. Control engineers make design assumptions during system development to leverage control theory and obtain guarantees on CPS behaviour. In the implemented system, however, such assumptions are not always satisfied, and their falsification can lead to loss of guarantees. We define stress testing of control-based CPSs as generating tests to falsify such design assumptions. We highlight different types of assumptions, focusing on the use of linearised physics models. To generate stress tests falsifying such assumptions, we leverage control theory to qualitatively characterise the input space of a control-based CPS. We propose a novel test parametrisation for control-based CPSs and use it with the input space characterisation to develop a stress testing approach. We evaluate our approach on three case study systems, including a drone, a continuous-current motor (in five configurations), and an aircraft.Our results show the effectiveness of the proposed testing approach in falsifying the design assumptions and highlighting the causes of assumption violations.
翻訳日:2023-10-24 13:06:33 公開日:2023-09-18
# ソフトウェアサプライチェーンの信頼 - ブロックチェーンで実現可能なSBOMとAIBOMの将来

Trust in Software Supply Chains: Blockchain-Enabled SBOM and the AIBOM Future ( http://arxiv.org/abs/2307.02088v3 )

ライセンス: Link先を確認
Boming Xia, Dawen Zhang, Yue Liu, Qinghua Lu, Zhenchang Xing, Liming Zhu(参考訳) Software Bill of Materials (SBOM)は、ソフトウェア開発に不可欠なコンポーネントや依存関係の詳細な在庫を提供することによって、ソフトウェアサプライチェーンのセキュリティを確保するための重要な柱となる。 しかし、SBOMの共有における課題は、ソフトウェアベンダの間で、包括的な情報を開示するための潜在的なデータ改ざんやためらいなどである。 これらの障害は、SBOMの広く採用と利用を阻害し、SBOM共有のためのよりセキュアで柔軟なメカニズムの必要性を浮き彫りにした。 本研究は,sbom共有のためのブロックチェーン組込みアーキテクチャを導入し,検証可能な認証情報を活用して選択的に開示することによる,これらの課題に対する新たな解決法を提案する。 この戦略はセキュリティを高めるだけでなく、柔軟性も提供する。 さらに、本論文は、AIシステムを含むSBOMの限界を広げ、AI Bill of Materials(AIBOM)という用語を生み出した。 この拡張は、ai技術の急速な進歩と、aiソフトウェアとシステムの系統と構成を追跡する必要性の高まりによって動機付けられた。 本ソリューションの評価は,提案したSBOM共有機構の実現可能性と柔軟性を示し,AIソフトウェアサプライチェーンを確保するための新しいソリューションを提案する。

Software Bill of Materials (SBOM) serves as a critical pillar in ensuring software supply chain security by providing a detailed inventory of the components and dependencies integral to software development. However, challenges abound in the sharing of SBOMs, including potential data tampering and hesitation among software vendors to disclose comprehensive information. These obstacles have stifled widespread adoption and utilization of SBOMs, underscoring the need for a more secure and flexible mechanism for SBOM sharing. This study proposes a novel solution to these challenges by introducing a blockchain-empowered architecture for SBOM sharing, leveraging verifiable credentials to allow for selective disclosure. This strategy not only heightens security but also offers flexibility. Furthermore, this paper broadens the remit of SBOM to encompass AI systems, thereby coining the term AI Bill of Materials (AIBOM). This extension is motivated by the rapid progression in AI technology and the escalating necessity to track the lineage and composition of AI software and systems. The evaluation of our solution indicates the feasibility and flexibility of the proposed SBOM sharing mechanism, positing a new solution for securing (AI) software supply chains.
翻訳日:2023-10-23 18:13:02 公開日:2023-09-18
# Golangエコシステムにおけるセマンティックバージョニングに関する大規模実証的研究

A Large-Scale Empirical Study on Semantic Versioning in Golang Ecosystem ( http://arxiv.org/abs/2309.02894v2 )

ライセンス: Link先を確認
Wenke Li, Feng Wu, Cai Fu, Fan Zhou(参考訳) サードパーティ製ライブラリ(TPL)はソフトウェアの重要なコンポーネントとなり、開発を加速し、メンテナンスコストを削減している。 しかし、tplのアップグレード中に破壊的な変更が発生し、クライアントプログラムが前進するのを防ぐ。 セマンティックバージョニング(Semantic Versioning、セマンティックバージョニング)は互換性に従ってリリースのバージョンを標準化するために適用されているが、すべてのリリースがSemVerに準拠しているわけではない。 多くの作業は、JavaやJavaScriptといったGolang(略してGo)以外のエコシステムにおけるSemVerのコンプライアンスに重点を置いている。 破壊的な変更やGoのデータセットを検出するツールがないため、TPLの開発者は、破壊的な変更が発生してクライアントプログラムに影響を与えるかどうかを知らない。 このギャップを埋めるために、我々はgoエコシステムで最初の大規模実証研究を行い、破壊的変化とその影響の観点からsemverのコンプライアンスを研究する。 詳細は、GoSVI(Go Semantic Versioning Insight)を用いて、クライアントプログラム内の識別子を解決し、それらの型と破壊的な変更を比較することで、破壊的な変更を検出し、その影響を分析する。 さらに、GitHubから124K TPLと532Kクライアントプログラムを含む、依存性グラフを備えた最初の大規模Goデータセットも収集しています。 その結果,semverに準拠したライブラリアップグレードの86.3%,非メジャーアップグレードの28.6%が破壊的変更をもたらすことがわかった。 さらに、SemVerに準拠する傾向は、2018/09年の63.7%から2023/03年の92.2%に改善されている。 最後に、ダウンストリームクライアントプログラムの33.3%が、破壊的変更によって影響を受ける可能性がある。 これらの発見は、開発者とTPLのユーザに対して、SemVerに関する意思決定を支援する貴重な洞察を提供する。

Third-party libraries (TPLs) have become an essential component of software, accelerating development and reducing maintenance costs. However, breaking changes often occur during the upgrades of TPLs and prevent client programs from moving forward. Semantic versioning (SemVer) has been applied to standardize the versions of releases according to compatibility, but not all releases follow SemVer compliance. Lots of work focuses on SemVer compliance in ecosystems such as Java and JavaScript beyond Golang (Go for short). Due to the lack of tools to detect breaking changes and dataset for Go, developers of TPLs do not know if breaking changes occur and affect client programs, and developers of client programs may hesitate to upgrade dependencies in terms of breaking changes. To bridge this gap, we conduct the first large-scale empirical study in the Go ecosystem to study SemVer compliance in terms of breaking changes and their impact. In detail, we purpose GoSVI (Go Semantic Versioning Insight) to detect breaking changes and analyze their impact by resolving identifiers in client programs and comparing their types with breaking changes. Moreover, we collect the first large-scale Go dataset with a dependency graph from GitHub, including 124K TPLs and 532K client programs. Based on the dataset, our results show that 86.3% of library upgrades follow SemVer compliance and 28.6% of no-major upgrades introduce breaking changes. Furthermore, the tendency to comply with SemVer has improved over time from 63.7% in 2018/09 to 92.2% in 2023/03. Finally, we find 33.3% of downstream client programs may be affected by breaking changes. These findings provide developers and users of TPLs with valuable insights to help make decisions related to SemVer.
翻訳日:2023-10-23 08:53:39 公開日:2023-09-18
# LogShrink: ログデータの共通性と可変性を活用した効果的なログ圧縮

LogShrink: Effective Log Compression by Leveraging Commonality and Variability of Log Data ( http://arxiv.org/abs/2309.09479v1 )

ライセンス: Link先を確認
Xiaoyun Li, Hongyu Zhang, Van-Hoang Le, Pengfei Chen(参考訳) ログデータは、システム実行中のシステムイベントや状態を記録するための重要なリソースである。 しかし、システム規模が拡大するにつれて、ログデータ生成は爆発的に増加し、1日あたり数ペタバイトといったログストレージのコストが高騰している。 この問題に対処するため、ログ圧縮はディスクストレージの削減において重要なタスクとなり、さらにログ分析を可能にしている。 残念ながら、既存の汎用およびログ固有の圧縮方法は、ログデータ特性を利用する能力に制限がある。 これらの制約を克服するために,実証実験を行い,ログ圧縮作業を容易にするログデータの特徴について3つの主要な観察を行った。 本研究では,ログデータの共通性と可変性を活用したログ圧縮手法であるlogshrinkを提案する。 ログメッセージの潜在共通性と可変性を特定するために,最長の共通部分列とエントロピー技術に基づくアナライザを提案する。 この背景にある重要なアイデアは、共通性と可変性を利用して、より短い表現でログデータを縮小できることだ。 また、クラスタリングに基づくシーケンスサンプリングを導入し、共通性と可変性解析を高速化する。 広範な実験結果から,logshrinkは圧縮速度を維持しつつ,圧縮比のベースラインを平均で16%から356%上回ることがわかった。

Log data is a crucial resource for recording system events and states during system execution. However, as systems grow in scale, log data generation has become increasingly explosive, leading to an expensive overhead on log storage, such as several petabytes per day in production. To address this issue, log compression has become a crucial task in reducing disk storage while allowing for further log analysis. Unfortunately, existing general-purpose and log-specific compression methods have been limited in their ability to utilize log data characteristics. To overcome these limitations, we conduct an empirical study and obtain three major observations on the characteristics of log data that can facilitate the log compression task. Based on these observations, we propose LogShrink, a novel and effective log compression method by leveraging commonality and variability of log data. An analyzer based on longest common subsequence and entropy techniques is proposed to identify the latent commonality and variability in log messages. The key idea behind this is that the commonality and variability can be exploited to shrink log data with a shorter representation. Besides, a clustering-based sequence sampler is introduced to accelerate the commonality and variability analyzer. The extensive experimental results demonstrate that LogShrink can exceed baselines in compression ratio by 16% to 356% on average while preserving a reasonable compression speed.
翻訳日:2023-10-23 07:31:25 公開日:2023-09-18
# モデルによるアタックフォールトツリーの生成

Model-Based Generation of Attack-Fault Trees ( http://arxiv.org/abs/2309.09941v1 )

ライセンス: Link先を確認
Raffaela Groner, Thomas Witte, Alexander Raschke, Sophie Hirn, Irdin Pekaric, Markus Frick, Matthias Tichy and Michael Felderer(参考訳) サイバー物理システムの共同安全性とセキュリティ分析は、これらの特性間の依存関係を正しく把握するために必要なステップである。 アタックフォールトツリーは動的フォールトツリーとアタックツリーの組み合わせを表しており、安全性とセキュリティの両方に関する総合的なビューをモデル化およびモデルチェックするために使用することができる。 しかし、システム全体の完全な aft を手動で作成するのは大変な作業です。 抽象化されたアプリケーションアーキテクチャやデータフローなど,さまざまな脆弱性に影響を受けるシステムやライブラリの依存関係など,複数の抽象化レイヤにまたがる必要がある。 脆弱性データベースから手動で作成またはマイニングされる部分的障害木とアタックツリーを用いて,このタスクを容易にするAFT生成ツールチェーンを提案する。 グラフ変換ルールを用いて,これらの部分的障害木とアタックツリーを完全なAFTに自動的に組み合わせるために必要な情報を提供する2つのシステムモデルを半自動生成する。

Joint safety and security analysis of cyber-physical systems is a necessary step to correctly capture inter-dependencies between these properties. Attack-Fault Trees represent a combination of dynamic Fault Trees and Attack Trees and can be used to model and model-check a holistic view on both safety and security. Manually creating a complete AFT for the whole system is, however, a daunting task. It needs to span multiple abstraction layers, e.g., abstract application architecture and data flow as well as system and library dependencies that are affected by various vulnerabilities. We present an AFT generation tool-chain that facilitates this task using partial Fault and Attack Trees that are either manually created or mined from vulnerability databases. We semi-automatically create two system models that provide the necessary information to automatically combine these partial Fault and Attack Trees into complete AFTs using graph transformation rules.
翻訳日:2023-10-23 07:21:13 公開日:2023-09-18
# ACWRecommender: 弱いスーパービジョンで実行可能な警告を検証するツール

ACWRecommender: A Tool for Validating Actionable Warnings with Weak Supervision ( http://arxiv.org/abs/2309.09721v1 )

ライセンス: Link先を確認
Zhipeng Xue, Zhipeng Gao, Xing Hu, Shanping Li(参考訳) 静的解析ツールは、潜在的なバグの発見で開発者の間で人気を集めているが、広く採用されているのは、高い誤報率(最大90%)のccomnpanyによって妨げられている。 この課題に対処するために、以前の研究は行動可能な警告の概念を提案し、行動可能な警告と誤警報を区別する機械学習手法を適用した。 これらの取り組みにもかかわらず、我々の予備的な研究は、実行可能な警告を収集するための現在の手法は、かなり不安定で信頼性の低いものであり、その結果、無効な警告が多数発生することを示唆している。 この作業では、Top-500 Github Cリポジトリから68,274のリバージョンをマイニングして、静的に実行可能な警告データセットを作成し、各警告が本物のバグである可能性に弱いラベルを割り当てました。 実行可能な警告を自動的に識別し,バグ発生確率の高い警告を推奨するために,acwrecommenderと呼ばれる2段階のフレームワークを提案する。 最初の段階では、当社のツールは事前訓練されたモデル、すなわちUniXcoderを使用して、大量のSAツールの報告された警告から実行可能な警告を特定する。 第2段階では,弱い教師付き学習を用いて有効な警告をトップにランク付けする。 実験結果から,本ツールは,動作可能な警告検出のためのベースライン(F1スコア)に優れ,AWHB勧告(nDCG,MRR)に優れていた。 また,ランダムに選択した10プロジェクトの警告2,197件中24件の警告を手作業で検証し,そのうち22件を実際のバグとして確認し,本ツールの実用性を実証した。

Static analysis tools have gained popularity among developers for finding potential bugs, but their widespread adoption is hindered by the accomnpanying high false alarm rates (up to 90%). To address this challenge, previous studies proposed the concept of actionable warnings, and apply machine-learning methods to distinguish actionable warnings from false alarms. Despite these efforts, our preliminary study suggests that the current methods used to collect actionable warnings are rather shaky and unreliable, resulting in a large proportion of invalid actionable warnings. In this work, we mined 68,274 reversions from Top-500 Github C repositories to create a substantia actionable warning dataset and assigned weak labels to each warning's likelihood of being a real bug. To automatically identify actionable warnings and recommend those with a high probability of being real bugs (AWHB), we propose a two-stage framework called ACWRecommender. In the first stage, our tool use a pre-trained model, i.e., UniXcoder, to identify actionable warnings from a huge number of SA tool's reported warnings. In the second stage, we rerank valid actionable warnings to the top by using weakly supervised learning. Experimental results showed that our tool outperformed several baselines for actionable warning detection (in terms of F1-score) and performed better for AWHB recommendation (in terms of nDCG and MRR). Additionaly, we also performed an in-the-wild evaluation, we manually validated 24 warnings out of 2,197 reported warnings on 10 randomly selected projects, 22 of which were confirmed by developers as real bugs, demonstrating the practical usage of our tool.
翻訳日:2023-10-23 07:20:59 公開日:2023-09-18
# 安全・安全複合分析のための自己適応ステップ間の共進化モデルに向けて

Towards Model Co-evolution Across Self-Adaptation Steps for Combined Safety and Security Analysis ( http://arxiv.org/abs/2309.09653v1 )

ライセンス: Link先を確認
Thomas Witte, Raffaela Groner, Alexander Raschke, Matthias Tichy, Irdin Pekaric and Michael Felderer(参考訳) 自己適応システムは、異なるチャネルと環境を観察するために必要な異なるセンサーによって、いくつかの攻撃面を提供する。 多くの場合、攻撃は安全性を損なうことがあり、これら2つの側面を一緒に考える必要がある。 さらに, 安全・セキュリティ解析には現在用いられている手法は, 適応の中間段階を十分に考慮していない。 この領域における現在の作業は、自己適応システムもまた、適応中に(一時的にだけであっても)脆弱性を明らかにするという事実を無視している。 この問題に対処するため,我々は,システムのさまざまな側面,適応プロセス,および安全性の危険やセキュリティ攻撃を考慮したモデリング手法を提案する。 自己適応システムの異なる側面を記述したモデルをいくつか提示し,これらのモデルをアタック・フォールト木に結合する方法を概説する。 これにより、システムの異なる抽象化レベルにおけるモデリングの側面を可能にし、システムの適応に応じて変換を使用してモデルを共進化させる。 最後に、分析は結果のAttack-Fault Treeで通常通り実行される。

Self-adaptive systems offer several attack surfaces due to the communication via different channels and the different sensors required to observe the environment. Often, attacks cause safety to be compromised as well, making it necessary to consider these two aspects together. Furthermore, the approaches currently used for safety and security analysis do not sufficiently take into account the intermediate steps of an adaptation. Current work in this area ignores the fact that a self-adaptive system also reveals possible vulnerabilities (even if only temporarily) during the adaptation. To address this issue, we propose a modeling approach that takes into account the different relevant aspects of a system, its adaptation process, as well as safety hazards and security attacks. We present several models that describe different aspects of a self-adaptive system and we outline our idea of how these models can then be combined into an Attack-Fault Tree. This allows modeling aspects of the system on different levels of abstraction and co-evolve the models using transformations according to the adaptation of the system. Finally, analyses can then be performed as usual on the resulting Attack-Fault Tree.
翻訳日:2023-10-23 07:20:28 公開日:2023-09-18
# gazeboシミュレータを用いた無人航空機のセンサスプーフィング攻撃のシミュレーション

Simulation of Sensor Spoofing Attacks on Unmanned Aerial Vehicles Using the Gazebo Simulator ( http://arxiv.org/abs/2309.09648v1 )

ライセンス: Link先を確認
Irdin Pekaric, David Arnold and Michael Felderer(参考訳) gazebo simulatorのような様々なシミュレータで安全シミュレーションを行うことは、潜在的な安全リスク(すなわち衝突)に対して車両をテストする非常に一般的な方法となった。 しかし、セキュリティテストではそうではなかった。 異なる抽象化レベルでセキュリティ攻撃が実行されるため、シミュレータでセキュリティテストを実行するのは極めて難しい。 さらに、攻撃自体も高度化しており、シミュレータでそれらを実行することの難しさに直接寄与している。 本稿では,シミュレーション可能な攻撃の可能性を調査し,シミュレーションを行うことにより,上記のギャップに対処しようとする。 提案手法は,無人航空機のLiDARおよびGPSコンポーネントを標的とした攻撃をシミュレート可能であることを示す。 これはROSおよびMAVLinkプロトコルの脆弱性を利用して、悪意のあるプロセスをアプリケーションに注入することで実現される。 その結果、任意の値を持つメッセージは対応するトピックにスプープされ、攻撃者は関連するパラメータを更新し、車両の潜在的なクラッシュを引き起こすことができる。 これは複数のシナリオでテストされ、スプーフィングやジャミングといった特定の攻撃タイプをシミュレートすることが可能であることを証明した。

Conducting safety simulations in various simulators, such as the Gazebo simulator, became a very popular means of testing vehicles against potential safety risks (i.e. crashes). However, this was not the case with security testing. Performing security testing in a simulator is very difficult because security attacks are performed on a different abstraction level. In addition, the attacks themselves are becoming more sophisticated, which directly contributes to the difficulty of executing them in a simulator. In this paper, we attempt to tackle the aforementioned gap by investigating possible attacks that can be simulated, and then performing their simulations. The presented approach shows that attacks targeting the LiDAR and GPS components of unmanned aerial vehicles can be simulated. This is achieved by exploiting vulnerabilities of the ROS and MAVLink protocol and injecting malicious processes into an application. As a result, messages with arbitrary values can be spoofed to the corresponding topics, which allows attackers to update relevant parameters and cause a potential crash of a vehicle. This was tested in multiple scenarios, thereby proving that it is indeed possible to simulate certain attack types, such as spoofing and jamming.
翻訳日:2023-10-23 07:20:12 公開日:2023-09-18
# セキュリティテスト技術を自動車工学に適用する

Applying Security Testing Techniques to Automotive Engineering ( http://arxiv.org/abs/2309.09647v1 )

ライセンス: Link先を確認
Irdin Pekaric, Clemens Sauerwein and Michael Felderer(参考訳) 現代のITシステムのオープン性とその恒久的な変更は、これらのシステムを安全に保つことを困難にしている。 セキュリティ回帰テスト(security regression testing)と呼ばれる回帰テストとセキュリティテストの組み合わせは、システムに対する変更がそのセキュリティを損なうことのないことを保証するものだ。 本稿では,研究領域のどの部分がよく理解され,評価されているか,どれがさらなる研究を必要とするか,といった背景と関連する研究の確固たる研究に基づいて,利用可能なセキュリティ回帰テスト手法の体系的分類について述べる。 本研究では,厳密な検索選択戦略に基づいて,コンピュータサイエンスのデジタルライブラリから,セキュリティ回帰テストに関連するアプローチを抽出する。 次に,これらを,抽象化レベル,セキュリティ問題,回帰テスト技術,ツールサポート,評価基準,システム評価,システムの成熟度,評価尺度など,セキュリティ回帰アプローチ基準に従って分類する。 得られた分類から、抽象化レベル、回帰テスト技術、ツールサポートおよび評価に関する観察を導き、最終的に将来の研究の潜在的な方向性を特定する。

The openness of modern IT systems and their permanent change make it challenging to keep these systems secure. A combination of regression and security testing called security regression testing, which ensures that changes made to a system do not harm its security, are therefore of high significance and the interest in such approaches has steadily increased. In this article we present a systematic classification of available security regression testing approaches based on a solid study of background and related work to sketch which parts of the research area seem to be well understood and evaluated, and which ones require further research. For this purpose we extract approaches relevant to security regression testing from computer science digital libraries based on a rigorous search and selection strategy. Then, we provide a classification of these according to security regression approach criteria: abstraction level, security issue, regression testing techniques, and tool support, as well as evaluation criteria, for instance evaluated system, maturity of the system, and evaluation measures. From the resulting classification we derive observations with regard to the abstraction level, regression testing techniques, tool support as well as evaluation, and finally identify several potential directions of future research.
翻訳日:2023-10-23 07:19:53 公開日:2023-09-18
# TOPr: 高速かつ高精度なファズリングのための静的コードプルーニング

TOPr: Enhanced Static Code Pruning for Fast and Precise Directed Fuzzing ( http://arxiv.org/abs/2309.09522v1 )

ライセンス: Link先を確認
Chaitra Niddodi, Stefan Nagy, Darko Marinov, Sibin Mohan(参考訳) directed fuzzingは,特定の対象とするプログラムロケーションの探索に焦点を当てた,動的テストテクニックである。 他のタイプのファザーと同様に、有向ファザーはテスト速度と精度を最大化するときに最も効果的である。 この目的を達成するために、最近の指向されたファザーは、目的の場所に到達するのに無関係と考えられるプログラムパスの無駄なテストを防止するパスプルーニングの活用を始めた。 しかし、コードプルーニングのかなりのスピードアップにもかかわらず、現在のアプローチでは間接的な制御フローのキャプチャが不正確であり、ファジッターの速度を低下させる追加の動的解析を必要とする。 したがって、高速かつ正確なコードプルーニングがなければ、directed fuzzersの有効性は引き続き制限されることになる。 本稿では,プルーニングベース指向ファジィにおける速度と精度の両立を課題とする。 従来のプルーニング手法では, 動的解析の負担を伴わずに精度を最大化できる機能シグネチャマッチングという, 軽量なヒューリスティックでそれらを向上する機会を見出した。 我々は,プロトタイプとしてTOPr (Target Oriented Pruning) を実装し,先進的なプルーニングベースおよびプルーニング非依存型ファズナーSieveFuzz,AFLGoに対して評価を行った。 toprのプルーニングの強化は,(1)速度(テストケースのスループットが222%,73%向上),(2)到達性(それぞれ対象カバレッジが149%,9%向上),(3)バグ発見時間(それぞれ85%,8%向上)において,これらのファザーを上回っている。 さらに、TOPrのスピードと精度のバランスによって、5つのオープンソースアプリケーションに24の新たなバグを見つけることができ、開発者による18の確認、"Priority - 1. High"とラベル付けされた12のバグ、フレームワークの有効性を裏付ける12のバグが修正された。

Directed fuzzing is a dynamic testing technique that focuses exploration on specific, pre targeted program locations. Like other types of fuzzers, directed fuzzers are most effective when maximizing testing speed and precision. To this end, recent directed fuzzers have begun leveraging path pruning: preventing the wasteful testing of program paths deemed irrelevant to reaching a desired target location. Yet, despite code pruning's substantial speedup, current approaches are imprecise failing to capture indirect control flow requiring additional dynamic analyses that diminish directed fuzzers' speeds. Thus, without code pruning that is both fast and precise, directed fuzzers' effectiveness will continue to remain limited. This paper aims to tackle the challenge of upholding both speed and precision in pruning-based directed fuzzing. We show that existing pruning approaches fail to recover common case indirect control flow; and identify opportunities to enhance them with lightweight heuristics namely, function signature matching enabling them to maximize precision without the burden of dynamic analysis. We implement our enhanced pruning as a prototype, TOPr (Target Oriented Pruning), and evaluate it against the leading pruning based and pruning agnostic directed fuzzers SieveFuzz and AFLGo. We show that TOPr's enhanced pruning outperforms these fuzzers in (1) speed (achieving 222% and 73% higher test case throughput, respectively); (2) reachability (achieving 149% and 9% more target relevant coverage, respectively); and (3) bug discovery time (triggering bugs faster 85% and 8%, respectively). Furthermore, TOPr's balance of speed and precision enables it to find 24 new bugs in 5 open source applications, with 18 confirmed by developers, 12 bugs labelled as "Priority - 1. High", and 12 bugs fixed, underscoring the effectiveness of our framework.
翻訳日:2023-10-23 07:19:32 公開日:2023-09-18
# PwR: 会話型プログラミングにおける表現の役割を探る

PwR: Exploring the Role of Representations in Conversational Programming ( http://arxiv.org/abs/2309.09495v1 )

ライセンス: Link先を確認
Pradyumna YM, Vinod Ganesan, Dinesh Kumar Arumugam, Meghna Gupta, Nischith Shadagopan, Tanay Dixit, Sameer Segal, Pratyush Kumar, Mohit Jain, Sriram Rajamani(参考訳) 大規模言語モデル(LLM)は、プログラミングとソフトウェア工学に革命をもたらした。 GitHub Copilot XのようなAIプログラミングアシスタントは会話型プログラミングを可能にし、人間の意図とコード生成のギャップを狭める。 しかし、以前の文献では重要な課題が特定されており、自然言語による一連の発話の後にシステムの理解に関するユーザのメンタルモデルと、aiシステムの実際の理解との間にはギャップがある。 そこで,本研究では,自然言語でシステムの理解をユーザに伝えるために表現を用いた手法である programming with representations (pwr) を紹介する。 プログラムの習熟度が異なる14名のユーザを対象に,タスク中心のインラボ調査を行い,表現が理解可能性を大幅に向上させることを確認した。 エキスパートプログラマは検証にそれを使用し、中間プログラマは確認の恩恵を受ける。 LLMによる自然言語ベースの開発と表現が組み合わさって、ソフトウェア開発を変革し、よりアクセシビリティで効率的なものにすることを約束します。

Large Language Models (LLMs) have revolutionized programming and software engineering. AI programming assistants such as GitHub Copilot X enable conversational programming, narrowing the gap between human intent and code generation. However, prior literature has identified a key challenge--there is a gap between user's mental model of the system's understanding after a sequence of natural language utterances, and the AI system's actual understanding. To address this, we introduce Programming with Representations (PwR), an approach that uses representations to convey the system's understanding back to the user in natural language. We conducted an in-lab task-centered study with 14 users of varying programming proficiency and found that representations significantly improve understandability, and instilled a sense of agency among our participants. Expert programmers use them for verification, while intermediate programmers benefit from confirmation. Natural language-based development with LLMs, coupled with representations, promises to transform software development, making it more accessible and efficient.
翻訳日:2023-10-23 07:18:49 公開日:2023-09-18
# 継続的インテグレーションとソフトウェア品質: 因果的説明的研究

Continuous Integration and Software Quality: A Causal Explanatory Study ( http://arxiv.org/abs/2309.10205v1 )

ライセンス: Link先を確認
Eliezio Soares, Daniel Alencar da Costa and Uir\'a Kulesza(参考訳) 継続的インテグレーション(ci)は、チーム間のコード統合のコストとリスクを減らすことを目的としたソフトウェアエンジニアリングの実践である。 最近の実証研究により、CIとソフトウェア品質(SQ)の関連性が確認されている。 しかし、CIとSQの因果関係は、既存の研究では研究されていない。 本稿では,DAG(Cousal Direct Acyclic Graphs)技術を適用して検討する。 この技術をサポートするための他の2つの戦略、文献レビューとマイニングソフトウェアリポジトリ(MSR)研究を組み合わせています。 第1段階では、文献をレビューして、CIとSQの既存の関連を見極め、第2段階で「文学に基づく因果DAG」を作成するのに役立ちます。 このDAGはCIに関する文献の仮定とSQへの影響をカプセル化する。 第3段階では,ソフトウェアリポジトリ – 35のciプロジェクトと35のno-ciプロジェクト – をマイニングして,70のオープンソースプロジェクトの12のアクティビティ月を分析した。 このMSR研究は、第1段階の因果DAGで発見された関係を検証するため、典型的な「相関は因果関係ではない」研究ではない。 第4段階は、我々のデータセットの「文学に基づく因果DAG」からの統計的影響をテストすることである。 最後に、第5段階において、文献とデータセットから「文学データDAG」を観察し、DAGを構築する。 SQに対するCIの直接的な因果効果に加えて、CIの間接的効果の証拠も見出す。 例えば、CIはチームのコミュニケーションに影響を与え、SQに肯定的な影響を与えます。 プロジェクトエイジの確立した効果についても強調する。

Continuous Integration (CI) is a software engineering practice that aims to reduce the cost and risk of code integration among teams. Recent empirical studies have confirmed associations between CI and the software quality (SQ). However, no existing study investigates causal relationships between CI and SQ. This paper investigates it by applying the causal Direct Acyclic Graphs (DAGs) technique. We combine two other strategies to support this technique: a literature review and a Mining Software Repository (MSR) study. In the first stage, we review the literature to discover existing associations between CI and SQ, which help us create a "literature-based causal DAG" in the second stage. This DAG encapsulates the literature assumptions regarding CI and its influence on SQ. In the third stage, we analyze 12 activity months for 70 opensource projects by mining software repositories -- 35 CI and 35 no-CI projects. This MSR study is not a typical "correlation is not causation" study because it is used to verify the relationships uncovered in the causal DAG produced in the first stages. The fourth stage consists of testing the statistical implications from the "literature-based causal DAG" on our dataset. Finally, in the fifth stage, we build a DAG with observations from the literature and the dataset, the "literature-data DAG". In addition to the direct causal effect of CI on SQ, we find evidence of indirect effects of CI. For example, CI affects teams' communication, which positively impacts SQ. We also highlight the confounding effect of project age.
翻訳日:2023-10-23 07:07:43 公開日:2023-09-18
# スパイダーシルクタンパク質配列の創製、設計および解析による機械的特性の向上

Generative modeling, design and analysis of spider silk protein sequences for enhanced mechanical properties ( http://arxiv.org/abs/2309.10170v1 )

ライセンス: Link先を確認
Wei Lu, David L. Kaplan, Markus J. Buehler(参考訳) クモ糸は強度、伸縮性、軽量性といった優れた機械的特性を特徴とする優れた材料である。 しかし、これまでは、解析と設計のためのシーケンス-プロパティ関係を完全に探求する限定モデルが利用可能である。 本稿では,新規なスパイダーシルクタンパク質配列の設計を目標の機械的特性の複雑な組み合わせに適合させるカスタム生成型大言語モデルを提案する。 多数のタンパク質配列に基づいて事前訓練されたこのモデルは、繊維レベルの機械的特性が関連する1,000以上の主要両親媒性スピロリン(masp)配列に基づいて微調整され、エンドツーエンドの前方および逆生成戦略が得られる。 1) 発破探索による生成スピドロリン配列の新規解析とタンパク質型分類, (2) 特性評価と類似配列との比較, (3) 分子構造の比較, そして(4) 詳細な配列モチーフ解析を行った。 自然界に存在しない性質の組み合わせを持つ絹の配列を生成し,重要な機械的特性(弾性率,強度,靭性,破壊ひずみ)を克服する上でのシーケンスパターンの力学的役割を深く理解する。 このモデルは、シルコメデータセットを拡張するための効率的なアプローチを提供し、シルクのさらなるシーケンス構造分析を促進し、合成シルクの設計と最適化の基礎を確立する。

Spider silks are remarkable materials characterized by superb mechanical properties such as strength, extensibility and lightweightedness. Yet, to date, limited models are available to fully explore sequence-property relationships for analysis and design. Here we propose a custom generative large-language model to enable design of novel spider silk protein sequences to meet complex combinations of target mechanical properties. The model, pretrained on a large set of protein sequences, is fine-tuned on ~1,000 major ampullate spidroin (MaSp) sequences for which associated fiber-level mechanical properties exist, to yield an end-to-end forward and inverse generative strategy. Performance is assessed through: (1), a novelty analysis and protein type classification for generated spidroin sequences through BLAST searches, (2) property evaluation and comparison with similar sequences, (3) comparison of molecular structures, as well as, and (4) a detailed sequence motif analyses. We generate silk sequences with property combinations that do not exist in nature, and develop a deep understanding the mechanistic roles of sequence patterns in achieving overarching key mechanical properties (elastic modulus, strength, toughness, failure strain). The model provides an efficient approach to expand the silkome dataset, facilitating further sequence-structure analyses of silks, and establishes a foundation for synthetic silk design and optimization.
翻訳日:2023-10-23 07:07:20 公開日:2023-09-18
# ロバスト配向LDMによる配向遮断攻撃に対する防御

Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM ( http://arxiv.org/abs/2309.14348v1 )

ライセンス: Link先を確認
Bochuan Cao, Yuanpu Cao, Lu Lin, Jinghui Chen(参考訳) 近年、大規模言語モデル(llm)は大きな進歩を遂げ、現在様々なドメインで広く使われている。 残念ながら、LSMが有害または悪意のあるコンテンツを生成するために誤用されるのではないかという懸念が高まっている。 LLMを人間の価値観と整合させ、それらが不適切なコンテンツを生み出すのを防ぐことに焦点を当てた研究のラインもあるが、そのようなアライメントは通常脆弱であり、逆向きに最適化されたり、手作りのジェイルブレイクプロンプトによってアライメントを破ることによってバイパスすることができる。 本研究では,アライメントを破る可能性のある攻撃に対して,ロバストに適応したLLM(RA-LLM)を導入する。 RA-LLMは、従来のLLMの高価な再トレーニングや微調整を必要とすることなく、ロバストなアライメントチェック機能を備えた既存のLCM上に直接構築することができる。 さらに,RA-LLMのアライメント破壊攻撃に対する防御効果を検証するための理論的解析を行った。 オープンソースの大規模言語モデルに関する実世界実験を通じて,ra-llmは,最先端の敵意と一般的な手作りのジェイルブレイクプロンプトの両方に対して,攻撃成功率を100/%近くから10/%以下に抑えることで,効果的に防御できることを実証する。

Recently, Large Language Models (LLMs) have made significant advancements and are now widely used across various domains. Unfortunately, there has been a rising concern that LLMs can be misused to generate harmful or malicious content. Though a line of research has focused on aligning LLMs with human values and preventing them from producing inappropriate content, such alignments are usually vulnerable and can be bypassed by alignment-breaking attacks via adversarially optimized or handcrafted jailbreaking prompts. In this work, we introduce a Robustly Aligned LLM (RA-LLM) to defend against potential alignment-breaking attacks. RA-LLM can be directly constructed upon an existing aligned LLM with a robust alignment checking function, without requiring any expensive retraining or fine-tuning process of the original LLM. Furthermore, we also provide a theoretical analysis for RA-LLM to verify its effectiveness in defending against alignment-breaking attacks. Through real-world experiments on open-source large language models, we demonstrate that RA-LLM can successfully defend against both state-of-the-art adversarial prompts and popular handcrafted jailbreaking prompts by reducing their attack success rates from nearly 100\% to around 10\% or less.
翻訳日:2023-10-01 12:15:32 公開日:2023-09-18
# 木に基づく再構成分割:新しい低データレベルの生成手法

Tree-Based Reconstructive Partitioning: A Novel Low-Data Level Generation Approach ( http://arxiv.org/abs/2309.13071v1 )

ライセンス: Link先を確認
Emily Halina and Matthew Guzdial(参考訳) 手続き的コンテンツ生成 (procedural content generation, pcg) は、ゲームにしばしば適用されるコンテンツのアルゴリズム生成である。 pcg と pcg via machine learning (pcgml) が出版されたゲームに登場した。 しかし、これらのアプローチを開発中のゲームの初期に応用することは困難である。 PCGMLは、ルールや機能における品質のデザイナー概念を表現する専門知識を必要とし、PCGMLは通常、開発初期段階では利用できないような、かなりのトレーニングデータを必要とする。 本稿では,この問題に対する新しいpcgml手法であるtree-based reconstructionive partitioning (trp)を提案する。 2つの領域にまたがって、TRPはより遊びやすく一貫性のあるレベルを生成し、より少ないトレーニングデータでより一般化可能であることを示す。 我々は,PCGMLをゲーム開発の初期段階に導入する上で,人間の専門知識や重要なトレーニングデータを必要としない,有望な新しいアプローチであると考えている。

Procedural Content Generation (PCG) is the algorithmic generation of content, often applied to games. PCG and PCG via Machine Learning (PCGML) have appeared in published games. However, it can prove difficult to apply these approaches in the early stages of an in-development game. PCG requires expertise in representing designer notions of quality in rules or functions, and PCGML typically requires significant training data, which may not be available early in development. In this paper, we introduce Tree-based Reconstructive Partitioning (TRP), a novel PCGML approach aimed to address this problem. Our results, across two domains, demonstrate that TRP produces levels that are more playable and coherent, and that the approach is more generalizable with less training data. We consider TRP to be a promising new approach that can afford the introduction of PCGML into the early stages of game development without requiring human expertise or significant training data.
翻訳日:2023-10-01 12:13:27 公開日:2023-09-18
# 偽ニュース検出に基づく機械学習技術

Machine Learning Technique Based Fake News Detection ( http://arxiv.org/abs/2309.13069v1 )

ライセンス: Link先を確認
Biplob Kumar Sutradhar, Md. Zonaid, Nushrat Jahan Ria, and Sheak Rashed Haider Noori(参考訳) 偽ニュースは一般大衆と学術界の両方から注目を集めている。 このような誤った情報には大衆の認識に影響を与える能力があり、悪質なグループが選挙のような公開イベントの結果に影響を与える機会を与えている。 誰でも自分の利益のために偽のニュースや事実を共有したり、トラブルを引き起こすことができる。 また、情報は共有されている世界によって異なる。 そこで,本稿では,収集したデータセットから1876年のニュースデータを用いて,偽ニュースと真ニュースを分類するモデルを訓練した。 自然言語処理アプローチに従うことで、クリーンでフィルタリングされたテキストを得るためにデータを前処理しました。 我々の研究は3つの一般的な機械学習アルゴリズム(確率勾配勾配、Na\"ive Bayes, Logistic Regression,)と2つのディープラーニング(Long-Short Term Memory, ASGD Weight-Dropped LSTM, AWD-LSTM)を実行する。 56%の精度でF1-macroスコアが平均32%の最高のNaive Bayes分類器を発見しました。

False news has received attention from both the general public and the scholarly world. Such false information has the ability to affect public perception, giving nefarious groups the chance to influence the results of public events like elections. Anyone can share fake news or facts about anyone or anything for their personal gain or to cause someone trouble. Also, information varies depending on the part of the world it is shared on. Thus, in this paper, we have trained a model to classify fake and true news by utilizing the 1876 news data from our collected dataset. We have preprocessed the data to get clean and filtered texts by following the Natural Language Processing approaches. Our research conducts 3 popular Machine Learning (Stochastic gradient descent, Na\"ive Bayes, Logistic Regression,) and 2 Deep Learning (Long-Short Term Memory, ASGD Weight-Dropped LSTM, or AWD-LSTM) algorithms. After we have found our best Naive Bayes classifier with 56% accuracy and an F1-macro score of an average of 32%.
翻訳日:2023-10-01 12:13:12 公開日:2023-09-18
# UNICON:eコマースにおける行動に基づく消費者セグメンテーションのための統合フレームワーク

UNICON: A unified framework for behavior-based consumer segmentation in e-commerce ( http://arxiv.org/abs/2309.13068v1 )

ライセンス: Link先を確認
Manuel Dibak, Vladimir Vlasov, Nour Karessli, Darya Dedik, Egor Malykh, Jacek Wasilewski, Ton Torres, Ana Peleteiro Ramallo(参考訳) データ駆動型パーソナライゼーションは、ファッションeコマースにおいて重要なプラクティスであり、より関連性の高いコンテンツでビジネスが消費者のニーズを満たす方法を改善する。 ハイパーパーソナライゼーションは、個々のコンシューマに高度にターゲットされたエクスペリエンスを提供するが、個別化された旅を作るには、大量のプライベートデータが必要である。 これを軽減するために、グループベースのパーソナライゼーションは、消費者セグメントのより広い共通の嗜好に基づくパーソナライゼーションの適度なレベルを提供すると同時に、結果をパーソナライズすることができる。 UNICONは、リッチな消費者行動データを活用して長期の潜伏表現を学習し、それらを利用して、類似した行動の消費者と事前定義されたターゲットシードセグメントを拡張し、類似の親和性を持つ非有害な消費者セグメントを明らかにする、様々なパーソナライズユースケースをケータリングする2つの重要なタイプのセグメンテーションを抽出する。 フレームワークの有効性を広く実験し、ルックアライズされたデザイナのオーディエンスとデータ駆動型スタイルセグメントを識別する。 さらに,ハイパーとグループベースのパーソナライゼーションを組み合わせたハイブリッドレコメンデーションシステムにセグメント情報を組み込むことによって,両選択肢の利点を活かし,消費者エクスペリエンスの向上を図る実験を行った。

Data-driven personalization is a key practice in fashion e-commerce, improving the way businesses serve their consumers needs with more relevant content. While hyper-personalization offers highly targeted experiences to each consumer, it requires a significant amount of private data to create an individualized journey. To alleviate this, group-based personalization provides a moderate level of personalization built on broader common preferences of a consumer segment, while still being able to personalize the results. We introduce UNICON, a unified deep learning consumer segmentation framework that leverages rich consumer behavior data to learn long-term latent representations and utilizes them to extract two pivotal types of segmentation catering various personalization use-cases: lookalike, expanding a predefined target seed segment with consumers of similar behavior, and data-driven, revealing non-obvious consumer segments with similar affinities. We demonstrate through extensive experimentation our framework effectiveness in fashion to identify lookalike Designer audience and data-driven style segments. Furthermore, we present experiments that showcase how segment information can be incorporated in a hybrid recommender system combining hyper and group-based personalization to exploit the advantages of both alternatives and provide improvements on consumer experience.
翻訳日:2023-10-01 12:12:52 公開日:2023-09-18
# パーソナライズド・ラーニングのための因果発見と非現実的説明

Causal Discovery and Counterfactual Explanations for Personalized Student Learning ( http://arxiv.org/abs/2309.13066v1 )

ライセンス: Link先を確認
Bevan I. Smith(参考訳) 本論文は,パス率向上のためのパーソナライズドレコメンデーションを提供するために,学生のパフォーマンスの原因を特定することに焦点を当てている。 予測モデルを超えて、因果関係を識別する必要性を導入する。 これを実現するために因果発見手法を提案する。 この研究の主な貢献は、因果発見を用いて生徒のパフォーマンスの因果予測を識別し、個人化されたレコメンデーションを提供することである。 本稿では,実生活学生のパフォーマンスデータに対する因果発見法,特にpcアルゴリズムの適用について述べる。 サンプルサイズ制限のような課題に対処し、因果発見におけるドメイン知識の役割を強調する。 実験結果から, 先行試験成績や数学能力が最終成績に及ぼす影響など, 因果関係が明らかとなった。 本研究の限界は、正確な因果発見のためのドメインの専門知識への依存、信頼性の高い結果のためのより大きなサンプルサイズの必要性である。 誤った因果構造推定の可能性を認めている。 最大の課題は、反事実推奨のリアルタイム実装と検証である。 本論文は,学生のパフォーマンスを理解する上での因果的発見の重要性を示し,パーソナライズドレコメンデーションを提供する。 教育的文脈における因果推論の使用の課題、利点、限界を強調し、これらの手法をさらに探求し洗練するための将来の研究のステージを設定する。

The paper focuses on identifying the causes of student performance to provide personalized recommendations for improving pass rates. We introduce the need to move beyond predictive models and instead identify causal relationships. We propose using causal discovery techniques to achieve this. The study's main contributions include using causal discovery to identify causal predictors of student performance and applying counterfactual analysis to provide personalized recommendations. The paper describes the application of causal discovery methods, specifically the PC algorithm, to real-life student performance data. It addresses challenges such as sample size limitations and emphasizes the role of domain knowledge in causal discovery. The results reveal the identified causal relationships, such as the influence of earlier test grades and mathematical ability on final student performance. Limitations of this study include the reliance on domain expertise for accurate causal discovery, and the necessity of larger sample sizes for reliable results. The potential for incorrect causal structure estimations is acknowledged. A major challenge remains, which is the real-time implementation and validation of counterfactual recommendations. In conclusion, the paper demonstrates the value of causal discovery for understanding student performance and providing personalized recommendations. It highlights the challenges, benefits, and limitations of using causal inference in an educational context, setting the stage for future studies to further explore and refine these methods.
翻訳日:2023-10-01 12:12:24 公開日:2023-09-18
# PAC-Bayesian境界の実用的崩壊のための一般的な枠組み

A General Framework for the Practical Disintegration of PAC-Bayesian Bounds ( http://arxiv.org/abs/2102.08649v3 )

ライセンス: Link先を確認
Paul Viallard (SIERRA), Pascal Germain, Amaury Habrard (LHC), Emilie Morvant (LHC)(参考訳) PAC-ベイズ境界は、ランダム化分類器の一般化能力を研究する際に、厳密で情報的であることが知られている。 しかし、ニューラルネットワークのような決定論的モデルに適用される場合、それらはゆるくコストのかかる非ランダム化ステップを必要とする。 このステップの代替として、分解された境界を与えるオリジナル性を持つ新しいPAC-ベイジアン一般化境界を導入する。 我々の境界は容易に最適化でき、学習アルゴリズムの設計に使うことができる。 この動作をニューラルネットワークで説明し,最先端のフレームワークに対する実用的改善を示す。

PAC-Bayesian bounds are known to be tight and informative when studying the generalization ability of randomized classifiers. However, they require a loose and costly derandomization step when applied to some families of deterministic models such as neural networks. As an alternative to this step, we introduce new PAC-Bayesian generalization bounds that have the originality to provide disintegrated bounds, i.e., they give guarantees over one single hypothesis instead of the usual averaged analysis. Our bounds are easily optimizable and can be used to design learning algorithms. We illustrate this behavior on neural networks, and we show a significant practical improvement over the state-of-the-art framework.
翻訳日:2023-09-22 02:56:43 公開日:2023-09-18
# 強化学習の能動的学習:確率的最適制御アプローチ

Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach ( http://arxiv.org/abs/2309.10831v1 )

ライセンス: Link先を確認
Mohammad S. Ramadan, Mahmoud A. Hayajnh, Michael T. Tolley, Kyriakos G. Vamvoudakis(参考訳) 本稿では,2つの問題に対処する枠組みについて述べる。 (i)制御実験・シミュレーションと実環境条件のミスマッチによる不確かさのモデル化による強化学習の脆弱さ (II)確率的最適制御の禁止的な計算コスト。 我々は、強化学習を用いて両方の問題にアプローチし、確率的動的プログラミング方程式を解く。 得られた強化学習コントローラは,いくつかの制約条件に対して安全であり,モデリングの不確実性について積極的に学習することができる。 探索と搾取とは異なり、探索と安全はコントローラ自身によって自動的に採用され、結果としてリアルタイムで学習される。 シミュレーション例では,提案手法の有効性を示す。

In this paper we provide framework to cope with two problems: (i) the fragility of reinforcement learning due to modeling uncertainties because of the mismatch between controlled laboratory/simulation and real-world conditions and (ii) the prohibitive computational cost of stochastic optimal control. We approach both problems by using reinforcement learning to solve the stochastic dynamic programming equation. The resulting reinforcement learning controller is safe with respect to several types of constraints constraints and it can actively learn about the modeling uncertainties. Unlike exploration and exploitation, probing and safety are employed automatically by the controller itself, resulting real-time learning. A simulation example demonstrates the efficacy of the proposed approach.
翻訳日:2023-09-21 18:13:42 公開日:2023-09-18
# 非定常マルコフ政策による遅延環境における行動

Acting in Delayed Environments with Non-Stationary Markov Policies ( http://arxiv.org/abs/2101.11992v3 )

ライセンス: Link先を確認
Esther Derman and Gal Dalal, Shie Mannor(参考訳) 標準マルコフ決定プロセス(mdp)の定式化は、アクションが選択された直後に実行されるという仮定にかかっている。 しかし、それはしばしば非現実的であり、ロボット操作、クラウドコンピューティング、金融といったアプリケーションで壊滅的な失敗を引き起こす可能性があると仮定する。 我々は、mdpにおける学習と計画のためのフレームワークを紹介し、意思決定者は、$m$のステップで実行されるアクションをコミットする。 状態が最後の$m$のコミットアクションに連結されたブルートフォースステート拡張ベースラインは、ポリシーの繰り返しを示すように、指数関数的な複雑さに悩まされます。 そして、実行遅延により、元の状態空間における決定論的マルコフポリシーは最大報酬を得るのに十分であるが、非定常であることを証明する。 定常マルコフポリシーについては、一般に準最適であることを示す。 その結果、状態拡張に頼らずに遅延実行タスクを解く非定常Q学習型モデルベースアルゴリズムを考案した。 表、物理、アタリドメインの実験では、遅延を無視するか、状態拡張の苦労に頼ったり、分散のために失敗する標準的なアプローチに対して、かなりの遅延があっても高速に収束する。 コードはhttps://github.com/galdl/rl_delay_basic.gitで入手できる。

The standard Markov Decision Process (MDP) formulation hinges on the assumption that an action is executed immediately after it was chosen. However, assuming it is often unrealistic and can lead to catastrophic failures in applications such as robotic manipulation, cloud computing, and finance. We introduce a framework for learning and planning in MDPs where the decision-maker commits actions that are executed with a delay of $m$ steps. The brute-force state augmentation baseline where the state is concatenated to the last $m$ committed actions suffers from an exponential complexity in $m$, as we show for policy iteration. We then prove that with execution delay, deterministic Markov policies in the original state-space are sufficient for attaining maximal reward, but need to be non-stationary. As for stationary Markov policies, we show they are sub-optimal in general. Consequently, we devise a non-stationary Q-learning style model-based algorithm that solves delayed execution tasks without resorting to state-augmentation. Experiments on tabular, physical, and Atari domains reveal that it converges quickly to high performance even for substantial delays, while standard approaches that either ignore the delay or rely on state-augmentation struggle or fail due to divergence. The code is available at https://github.com/galdl/rl_delay_basic.git.
翻訳日:2023-09-20 21:14:02 公開日:2023-09-18
# 強化学習におけるオンラインアクタ-クリティックアルゴリズムのode限界のグローバル収束

Global Convergence of the ODE Limit for Online Actor-Critic Algorithms in Reinforcement Learning ( http://arxiv.org/abs/2108.08655v2 )

ライセンス: Link先を確認
Ziheng Wang and Justin Sirignano(参考訳) アクター批判アルゴリズムは強化学習に広く用いられているが、オンラインデータサンプルの到着により数学的解析が困難である。 データサンプルの分布はモデルが更新されると動的に変化し、データ分布と強化学習アルゴリズムの間の複雑なフィードバックループが導入された。 時間的再スケーリングにより,表層パラメトリゼーションを伴うオンラインアクター批判アルゴリズムは,更新数が大きくなるにつれて通常の微分方程式(ODE)に収束することが証明された。 この証明はまず、固定されたアクターポリシーの下でデータサンプルの幾何学的エルゴディク性を確立する。 次に,poisson方程式を用いて,進化するアクターモデルの関数である動的確率測度周辺のデータサンプルのゆらぎが,更新数が大きくなるにつれて消失することを示す。 ODE制限が導出されると、アクターODEから批評家ODEを漸近的に分離する2つの時間スケール解析を用いて収束特性を研究する。 ベルマン方程式の解に対する批評家の収束と最適な政策へのアクターの収束が証明される。 また、このグローバル最小値への収束率も設定されている。 我々の収束分析はアクター批判アルゴリズムの学習率と探索率に対して特定の選択を下し、実際にアクター批判アルゴリズムを実装するためのガイダンスを提供することができる。

Actor-critic algorithms are widely used in reinforcement learning, but are challenging to mathematically analyse due to the online arrival of non-i.i.d. data samples. The distribution of the data samples dynamically changes as the model is updated, introducing a complex feedback loop between the data distribution and the reinforcement learning algorithm. We prove that, under a time rescaling, the online actor-critic algorithm with tabular parametrization converges to an ordinary differential equation (ODE) as the number of updates becomes large. The proof first establishes the geometric ergodicity of the data samples under a fixed actor policy. Then, using a Poisson equation, we prove that the fluctuations of the data samples around a dynamic probability measure, which is a function of the evolving actor model, vanish as the number of updates become large. Once the ODE limit has been derived, we study its convergence properties using a two time-scale analysis which asymptotically de-couples the critic ODE from the actor ODE. The convergence of the critic to the solution of the Bellman equation and the actor to the optimal policy are proven. In addition, a convergence rate to this global minimum is also established. Our convergence analysis holds under specific choices for the learning rates and exploration rates in the actor-critic algorithm, which could provide guidance for the implementation of actor-critic algorithms in practice.
翻訳日:2023-09-20 21:01:11 公開日:2023-09-18
# 空間領域とスペクトル領域のギャップを埋める:グラフニューラルネットワークのための統一フレームワーク

Bridging the Gap between Spatial and Spectral Domains: A Unified Framework for Graph Neural Networks ( http://arxiv.org/abs/2107.10234v5 )

ライセンス: Link先を確認
Zhiqian Chen, Fanglan Chen, Lei Zhang, Taoran Ji, Kaiqun Fu, Liang Zhao, Feng Chen, Lingfei Wu, Charu Aggarwal and Chang-Tien Lu(参考訳) ディープラーニングのパフォーマンスは近年広く認識されている。 グラフニューラルネットワーク(GNN)は、古典的なディープラーニングが容易に管理できないグラフ構造データを扱うように設計されている。 ほとんどのGNNは異なる理論を用いて作成されたため、直接比較は不可能である。 それまでの研究は主に既存のモデルを分類することに集中しており、本質的な関係にはほとんど注意を払わなかった。 本研究の目的は,スペクトルグラフと近似理論に基づいてGNNを統合する統一フレームワークを確立することである。 このフレームワークは、各領域に存在するアプローチを密接に関連づけながら、空間的およびスペクトル的GNNの強い統合を取り入れている。

Deep learning's performance has been extensively recognized recently. Graph neural networks (GNNs) are designed to deal with graph-structural data that classical deep learning does not easily manage. Since most GNNs were created using distinct theories, direct comparisons are impossible. Prior research has primarily concentrated on categorizing existing models, with little attention paid to their intrinsic connections. The purpose of this study is to establish a unified framework that integrates GNNs based on spectral graph and approximation theory. The framework incorporates a strong integration between spatial- and spectral-based GNNs while tightly associating approaches that exist within each respective domain.
翻訳日:2023-09-20 21:00:51 公開日:2023-09-18
# 量子ディスクの古典光学アナローグ

Classical Optical Analogue of Quantum Discord ( http://arxiv.org/abs/2205.00088v3 )

ライセンス: Link先を確認
Jacob M. Leamer, Wenlei Zhang, Nicholas J. Savino, Ravi K. Saripalli, Sanjaya Lohani, Ryan T. Glasser, Denys I. Bondar(参考訳) 量子不協和は量子エンタングルメントに加え、量子優位のための資源であることが示されている。 多くの実験はエンタングルメントの古典的な類似性を示しているが、ディスコードではそうしていない。 本稿では、2つの量子ビットの状態とラゲール・ガウスビームの空間モードの類似性を利用した古典光を用いて量子ディスコの古典的アナログを作成するための概念実証を行う。 本手法は, 理論シミュレーションの強度プロファイルと, ディスコード値の異なる実験結果との比較により, 妥当性を示す。 このような古典的な量子不協和のアナログは、不協和を利用する量子情報技術の理解と発展に関するさらなる洞察を与えるかもしれない。

Quantum discord has been shown to be a resource for quantum advantage in addition to quantum entanglement. While many experiments have demonstrated classical analogies of entanglement, none have done so for discord. We present a proof-of-concept demonstration for creating a classical analogue of quantum discord using classical light that takes advantage of the analogy between the state of two qubits and the spatial modes of a Laguerre-Gauss beam. We demonstrate the validity of this approach by comparing the intensity profiles of theoretical simulations to experimental results for different values of discord. Such a classical analogue of quantum discord may provide further insight in understanding and development of quantum information technologies that make use of discord.
翻訳日:2023-09-20 20:53:28 公開日:2023-09-18
# 一般分布依存を伴う高次元マッケイン・ブラソフ前方確率微分方程式の学習

Learning High-Dimensional McKean-Vlasov Forward-Backward Stochastic Differential Equations with General Distribution Dependence ( http://arxiv.org/abs/2204.11924v3 )

ライセンス: Link先を確認
Jiequn Han, Ruimeng Hu, Jihao Long(参考訳) 平均場制御と平均場ゲームにおける主要な問題の1つは、対応するmckean-vlasov forward-backward stochastic differential equation (mv-fbsdes) を解くことである。 既存の手法の多くは、平均場相互作用が期待や他のモーメントにのみ依存する特別な場合に合わせたものであるため、平均場相互作用が完全な分布依存性を持つ場合の問題を解決するには不十分である。 本稿では,MV-FBSDEを平均場相互作用の一般形式で計算するための新しいディープラーニング手法を提案する。 具体的には、架空の遊びに基づいて、問題を明示的な係数関数を持つ標準 fbsd の繰り返し解に再キャストする。 これらの係数関数は、MV-FBSDEsモデル係数を全分布依存性に近似するために使用され、前回の反復のFBSDEソリューションからシミュレーションしたトレーニングデータを用いて、別の監視学習問題を解くことで更新される。 我々は,高次元mv-fbsdesを解くために,ディープニューラルネットワークを用いて標準bsdと近似係数関数を解く。 学習関数の適切な仮定の下で、提案手法の収束は、[Han, Hu and Long, arXiv:2104.12036] で以前に開発された積分確率指標のクラスを用いて、次元性の呪い(CoD)のないことを証明した。 証明された定理は、高次元での方法の利点を示している。 本稿では,前処理の完全分布に依存するCucker-Smaleモデルの平均フィールドゲーム例を含む,高次元MV-FBSDE問題における数値性能について述べる。

One of the core problems in mean-field control and mean-field games is to solve the corresponding McKean-Vlasov forward-backward stochastic differential equations (MV-FBSDEs). Most existing methods are tailored to special cases in which the mean-field interaction only depends on expectation or other moments and thus inadequate to solve problems when the mean-field interaction has full distribution dependence. In this paper, we propose a novel deep learning method for computing MV-FBSDEs with a general form of mean-field interactions. Specifically, built on fictitious play, we recast the problem into repeatedly solving standard FBSDEs with explicit coefficient functions. These coefficient functions are used to approximate the MV-FBSDEs' model coefficients with full distribution dependence, and are updated by solving another supervising learning problem using training data simulated from the last iteration's FBSDE solutions. We use deep neural networks to solve standard BSDEs and approximate coefficient functions in order to solve high-dimensional MV-FBSDEs. Under proper assumptions on the learned functions, we prove that the convergence of the proposed method is free of the curse of dimensionality (CoD) by using a class of integral probability metrics previously developed in [Han, Hu and Long, arXiv:2104.12036]. The proved theorem shows the advantage of the method in high dimensions. We present the numerical performance in high-dimensional MV-FBSDE problems, including a mean-field game example of the well-known Cucker-Smale model whose cost depends on the full distribution of the forward process.
翻訳日:2023-09-20 20:53:16 公開日:2023-09-18
# クリフォード変形表面符号

Clifford-deformed Surface Codes ( http://arxiv.org/abs/2201.07802v2 )

ライセンス: Link先を確認
Arpit Dua, Aleksander Kubica, Liang Jiang, Steven T. Flammia, Michael J. Gullans(参考訳) 北エフの表面符号の様々な実現は、偏りのあるパウリ雑音に対して驚くほどよく機能する。 これらの潜在ゲインから得られた表面符号(\mbox{CDSCs})の性能を,単一ビットクリフォード演算子を用いて解析した。 まず,3-\times 3$ square 格子上でcdscを解析し,ノイズバイアスによって論理誤差率が桁違いに変化することを確認した。 観測された振る舞いを説明するために,非バイアス雑音の標準距離を下げる実効距離$d'$を導入する。 熱力学限界におけるCDSC性能を調べるため、ランダムな \mbox{CDSCs} に着目した。 量子符号の統計力学的マッピングを用いて、無限バイアスで50\%の閾値を持つランダムCDSC族を記述した位相図を明らかにする。 高閾値領域では、典型的コード実現は、最もよく知られた翻訳不変符号のしきい値とサブスレッショルド論理誤差率を有限バイアスで上回ることを示す。 高速なランダムCDSCファミリーに属する翻訳不変CDSCを構築し、既知の翻訳不変CDSCよりも優れていることを示すことにより、これらのランダムCDSCファミリーの実用的関連性を実証する。

Various realizations of Kitaev's surface code perform surprisingly well for biased Pauli noise. Attracted by these potential gains, we study the performance of Clifford-deformed surface codes (\mbox{CDSCs}) obtained from the surface code by the application of single-qubit Clifford operators. We first analyze CDSCs on the $3\times 3$ square lattice and find that depending on the noise bias, their logical error rates can differ by orders of magnitude. To explain the observed behavior, we introduce the effective distance $d'$, which reduces to the standard distance for unbiased noise. To study CDSC performance in the thermodynamic limit, we focus on random \mbox{CDSCs}. Using the statistical mechanical mapping for quantum codes, we uncover a phase diagram that describes random CDSC families with $50\%$ threshold at infinite bias. In the high-threshold region, we further demonstrate that typical code realizations outperform the thresholds and subthreshold logical error rates, at finite bias, of the best-known translationally invariant codes. We demonstrate the practical relevance of these random CDSC families by constructing a translation-invariant CDSC belonging to a high-performance random CDSC family and showing that it outperforms known translation-invariant CDSCs.
翻訳日:2023-09-20 20:51:38 公開日:2023-09-18
# 理想的ハミルトニアンモンテカルロ・サンプラーの散逸について

On the Dissipation of Ideal Hamiltonian Monte Carlo Sampler ( http://arxiv.org/abs/2209.07438v3 )

ライセンス: Link先を確認
Qijia Jiang(参考訳) 本報告では,Ideal Hamiltonian Monte Carlo サンプルの変動積分時間と部分速度リフレッシュとの興味深い関係について報告する。 より具体的には、二次ポテンシャルでは、古典的定積分時間(HMC)と比較して、ワッサーシュタイン2距離の$$\sqrt{\kappa}$因子によって効率を改善できることが示される。 さらに、高次規則性条件下でハミルトン力学をシミュレートするランダム化積分器の利点についても検討する。

We report on what seems to be an intriguing connection between variable integration time and partial velocity refreshment of Ideal Hamiltonian Monte Carlo samplers, both of which can be used for reducing the dissipative behavior of the dynamics. More concretely, we show that on quadratic potentials, efficiency can be improved through these means by a $\sqrt{\kappa}$ factor in Wasserstein-2 distance, compared to classical constant integration time, fully refreshed HMC. We additionally explore the benefit of randomized integrators for simulating the Hamiltonian dynamics under higher order regularity conditions.
翻訳日:2023-09-20 20:44:09 公開日:2023-09-18
# ランダム化特異値分解への接続によるスケッチ・アンド・プロジェクト法のシャープ解析

Sharp Analysis of Sketch-and-Project Methods via a Connection to Randomized Singular Value Decomposition ( http://arxiv.org/abs/2208.09585v2 )

ライセンス: Link先を確認
Micha{\l} Derezi\'nski, Elizaveta Rebrova(参考訳) sketch-and-project(スケッチ・アンド・プロジェクト)は、線形システムとその変種を解決する多くの既知の反復的手法と、非線形最適化問題のさらなる拡張を統合するフレームワークである。 ランダム化kaczmarz、座標降下、凸最適化におけるニュートン法の変種など、一般的な方法を含んでいる。 本稿では,sketch-and-project法の収束率に関するシャープな保証を得るための理論的枠組みを提案する。 提案手法は,(1)コンバージェンスレートがスケッチサイズで少なくとも線形に改善され,かつ,あるスペクトル減衰を示すとさらに速くなることを示すこと,(2)密度の高いスケッチよりも効率的で,サブサンプリング法よりも頑健な疎スケッチ行列を可能にすること,の1つである。 特に,スケッチ行列のラジカルスパーシフィケーションは,スケッチ・アンド・プロジェクト毎のイテレーション収束率に影響を与えないという観測現象を説明する。 この結果を得るために, 予測された投影行列に対する非漸近的スペクトル境界を独立に開発し, 反復的スケッチ・アンド・プロジェクトソルバの収束率と, 低ランク近似のための一眼レフティングアルゴリズムであるランダム化特異値分解の近似誤差との関係を明らかにした。 我々の実験は理論を支持し、非常にスパースなスケッチでさえ我々のフレームワークによって予測される収束特性を示すことを示した。

Sketch-and-project is a framework which unifies many known iterative methods for solving linear systems and their variants, as well as further extensions to non-linear optimization problems. It includes popular methods such as randomized Kaczmarz, coordinate descent, variants of the Newton method in convex optimization, and others. In this paper, we develop a theoretical framework for obtaining sharp guarantees on the convergence rate of sketch-and-project methods. Our approach is the first to: (1) show that the convergence rate improves at least linearly with the sketch size, and even faster when the data matrix exhibits certain spectral decays; and (2) allow for sparse sketching matrices, which are more efficient than dense sketches and more robust than sub-sampling methods. In particular, our results explain an observed phenomenon that a radical sparsification of the sketching matrix does not affect the per iteration convergence rate of sketch-and-project. To obtain our results, we develop new non-asymptotic spectral bounds for the expected sketched projection matrix, which are of independent interest; and we establish a connection between the convergence rates of iterative sketch-and-project solvers and the approximation error of randomized singular value decomposition, which is a widely used one-shot sketching algorithm for low-rank approximation. Our experiments support the theory and demonstrate that even extremely sparse sketches exhibit the convergence properties predicted by our framework.
翻訳日:2023-09-20 20:43:21 公開日:2023-09-18
# RCD-SGD:サブモジュール分割による異種環境における資源制約分散SGD

RCD-SGD: Resource-Constrained Distributed SGD in Heterogeneous Environment via Submodular Partitioning ( http://arxiv.org/abs/2211.00839v2 )

ライセンス: Link先を確認
Haoze He and Parijat Dube(参考訳) SGDベースの分散トレーニングアルゴリズムの収束は、ワーカー間のデータ分散と結びついている。 標準的なパーティショニング手法は、全データセットに比例してクラス毎の人口分布で等サイズの分割を達成しようとする。 クラスごとに同じサイズ、あるいは同じ数のサンプルを持つパーティションは、機能空間に非iid分布を持つ可能性がある。 異種コンピューティング環境では、デバイスが異なる計算能力を持つ場合、デバイス間の均等なパーティションが分散SGDにおけるストラグラー問題を引き起こす可能性がある。 サブモジュール最適化を含む新しいデータ分割アルゴリズムに基づく異種環境における分散SGDのためのフレームワークを開発する。 我々のデータパーティショニングアルゴリズムは、労働者間のリソースの不均一性を明示的に説明し、類似したクラスレベルの特徴分布を実現し、クラスバランスを維持する。 このアルゴリズムに基づいて,既存のSOTA分散トレーニングアルゴリズムを最大32%高速化する分散SGDフレームワークを開発した。

The convergence of SGD based distributed training algorithms is tied to the data distribution across workers. Standard partitioning techniques try to achieve equal-sized partitions with per-class population distribution in proportion to the total dataset. Partitions having the same overall population size or even the same number of samples per class may still have Non-IID distribution in the feature space. In heterogeneous computing environments, when devices have different computing capabilities, even-sized partitions across devices can lead to the straggler problem in distributed SGD. We develop a framework for distributed SGD in heterogeneous environments based on a novel data partitioning algorithm involving submodular optimization. Our data partitioning algorithm explicitly accounts for resource heterogeneity across workers while achieving similar class-level feature distribution and maintaining class balance. Based on this algorithm, we develop a distributed SGD framework that can accelerate existing SOTA distributed training algorithms by up to 32%.
翻訳日:2023-09-20 20:32:01 公開日:2023-09-18
# グラフィカルハウスアロケーション

Graphical House Allocation ( http://arxiv.org/abs/2301.01323v2 )

ライセンス: Link先を確認
Hadi Hosseini, Justin Payan, Rik Sengupta, Rohit Vaish and Vignesh Viswanathan(参考訳) 古典的な住宅割当問題は、その好みに応じて、n$ house(またはアイテム)を$n$ agentに割り当てることである。 このような問題の鍵となる基準は、うらやましい自由さのような公正な制約を満たすことである。 エージェントがグラフの頂点に沿って配置され(ソーシャルネットワークに対応する)、各エージェントが隣人に対してうらやましいだけを体験できる、この問題の一般化を考察する。 我々のゴールは、エージェント間の集合的エンビーを自然な公正目標、すなわちソーシャルグラフ内のすべてのエッジ上のすべてのペア的エンビー値の和として最小化することである。 エージェントが同一かつ等間隔のバリュエーションを持つ場合、線形配置のよく研究された問題に還元される。 同じ評価と、おそらく不均一な間隔に対して、私たちは、この古典的な問題から出発する、多くの深くて驚くべき方法を示します。 より広範に、パス、サイクル、スター、またはクリッドの解離結合に対するNP硬度結果や、パス、サイクル、スター、クリッドおよびそれらの解離結合に対する固定パラメータトラクタブルアルゴリズム(場合によっては多項式時間)など、グラフの様々なクラスに対する構造的および計算的な結果に寄与する。 さらに、我々の研究のコンセプト的貢献は、最適割り当てを見つけるための効率的なパラメータ化アルゴリズムをもたらす分離性と呼ばれる非連結グラフの構造特性の定式化である。

The classical house allocation problem involves assigning $n$ houses (or items) to $n$ agents according to their preferences. A key criterion in such problems is satisfying some fairness constraints such as envy-freeness. We consider a generalization of this problem wherein the agents are placed along the vertices of a graph (corresponding to a social network), and each agent can only experience envy towards its neighbors. Our goal is to minimize the aggregate envy among the agents as a natural fairness objective, i.e., the sum of all pairwise envy values over all edges in a social graph. When agents have identical and evenly-spaced valuations, our problem reduces to the well-studied problem of linear arrangements. For identical valuations with possibly uneven spacing, we show a number of deep and surprising ways in which our setting is a departure from this classical problem. More broadly, we contribute several structural and computational results for various classes of graphs, including NP-hardness results for disjoint unions of paths, cycles, stars, or cliques, and fixed-parameter tractable (and, in some cases, polynomial-time) algorithms for paths, cycles, stars, cliques, and their disjoint unions. Additionally, a conceptual contribution of our work is the formulation of a structural property for disconnected graphs that we call separability which results in efficient parameterized algorithms for finding optimal allocations.
翻訳日:2023-09-20 20:20:26 公開日:2023-09-18
# MATIS:手術器具分割用マスケアテンショントランス

MATIS: Masked-Attention Transformers for Surgical Instrument Segmentation ( http://arxiv.org/abs/2303.09514v3 )

ライセンス: Link先を確認
Nicol\'as Ayobi, Alejandra P\'erez-Rond\'on, Santiago Rodr\'iguez, Pablo Arbel\'aez(参考訳) そこで本研究では,2段階の完全トランスフォーマティブ法であるmatis(手術用インスツルメンテーションセグメンテーション)のためのマスク付きアテンショントランスフォーマを提案する。 MATISは、タスクのインスタンスレベルの性質を利用して、一連の細かな機器領域の提案を生成・分類するマスク付きアテンションモジュールを使用する。 本手法は,映像変換器による長期映像レベル情報を取り入れ,時間的整合性の向上とマスク分類の強化を図る。 当社のアプローチは、Endovis 2017とEndovis 2018の2つの標準公開ベンチマークで検証しています。 実験により,matisのフレーム単位のベースラインが従来の最先端のメソッドよりも優れており,時間的一貫性モジュールを含めれば,モデルの性能がさらに向上することを示した。

We propose Masked-Attention Transformers for Surgical Instrument Segmentation (MATIS), a two-stage, fully transformer-based method that leverages modern pixel-wise attention mechanisms for instrument segmentation. MATIS exploits the instance-level nature of the task by employing a masked attention module that generates and classifies a set of fine instrument region proposals. Our method incorporates long-term video-level information through video transformers to improve temporal consistency and enhance mask classification. We validate our approach in the two standard public benchmarks, Endovis 2017 and Endovis 2018. Our experiments demonstrate that MATIS' per-frame baseline outperforms previous state-of-the-art methods and that including our temporal consistency module boosts our model's performance further.
翻訳日:2023-09-20 20:11:03 公開日:2023-09-18
# 物理形ニューラルネットワーク(pinns)の因果スイーピング戦略と時間分解のための統一スケーラブルな枠組み

A unified scalable framework for causal sweeping strategies for Physics-Informed Neural Networks (PINNs) and their temporal decompositions ( http://arxiv.org/abs/2302.14227v2 )

ライセンス: Link先を確認
Michael Penwarden, Ameya D. Jagtap, Shandian Zhe, George Em Karniadakis, Robert M. Kirby(参考訳) 偏微分方程式(PDE)を解く手段として物理情報ニューラルネットワーク(PINN)がCS&E(Computational Science and Engineering)の世界で注目を集めている。 しかし、近年の関心事は、様々なトレーニング(すなわち、最適化)の課題を探求することである。特に、最適化ランドスケープの貧弱なローカルミニマにたどり着くと、PINN近似は、データ無しで時間依存PDEを前方で解く際に、劣等で、時に自明な解を与える。 この問題はまた、XPINNを用いた時間分解のような領域分解戦略により、ある意味でより難しい。 我々は,異なる学習課題,その原因,情報伝達と時間分解との関連について,実例と説明を提供する。 次に,時間マーチング PINN と XPINN のギャップを埋める新たな積み重ね分解法を提案する。 また,転送学習の概念を用いて,ドメイン内のサブネットワークを初期化し,サブドメインに対する損失耐性に基づく伝播を行うことにより,重要な計算速度アップを導入する。 最後に,従来のピンズ因果関係文献に触発された,新たな時間分割型コロケーションポイントアルゴリズムを定式化し,低コストコロケーションポイントセグメンテーションによる大幅な計算速度向上を実現する。 提案手法は,複数形式の因果関係を尊重することで,PINNとXPINNの時間依存型PDEのトレーニング課題を克服し,最適化イテレーション毎に必要となる計算を制限することによりスケーラビリティを向上させる。 最後に,無修正ピンとxpinnが訓練に苦しむベースラインpde問題に対する数値計算結果を示す。

Physics-informed neural networks (PINNs) as a means of solving partial differential equations (PDE) have garnered much attention in the Computational Science and Engineering (CS&E) world. However, a recent topic of interest is exploring various training (i.e., optimization) challenges - in particular, arriving at poor local minima in the optimization landscape results in a PINN approximation giving an inferior, and sometimes trivial, solution when solving forward time-dependent PDEs with no data. This problem is also found in, and in some sense more difficult, with domain decomposition strategies such as temporal decomposition using XPINNs. We furnish examples and explanations for different training challenges, their cause, and how they relate to information propagation and temporal decomposition. We then propose a new stacked-decomposition method that bridges the gap between time-marching PINNs and XPINNs. We also introduce significant computational speed-ups by using transfer learning concepts to initialize subnetworks in the domain and loss tolerance-based propagation for the subdomains. Finally, we formulate a new time-sweeping collocation point algorithm inspired by the previous PINNs causality literature, which our framework can still describe, and provides a significant computational speed-up via reduced-cost collocation point segmentation. The proposed methods form our unified framework, which overcomes training challenges in PINNs and XPINNs for time-dependent PDEs by respecting the causality in multiple forms and improving scalability by limiting the computation required per optimization iteration. Finally, we provide numerical results for these methods on baseline PDE problems for which unmodified PINNs and XPINNs struggle to train.
翻訳日:2023-09-20 20:10:48 公開日:2023-09-18
# 近面風のアルゴリズムによる幻覚:対流パーミットスケールに対する生成逆ネットワークによる統計的ダウンスケーリング

Algorithmic Hallucinations of Near-Surface Winds: Statistical Downscaling with Generative Adversarial Networks to Convection-Permitting Scales ( http://arxiv.org/abs/2302.08720v3 )

ライセンス: Link先を確認
Nicolaas J. Annau, Alex J. Cannon, Adam H. Monahan(参考訳) 本稿では,画像超解像(SR)から統計的ダウンスケーリングへの新たな機械学習手法の適用について検討する。 特に,畳み込みニューラルネットワークに基づく生成型逆ネットワーク(gans)に注目する。 気象調査・予測(WRF)モデルシミュレーションを模擬した高分解能(HR)表面風を生成するために,我々は低分解能(LR)入力を条件とした。 従来のSRモデルとは異なり、LR入力はHR画像の粗大化バージョンとして理想化されているが、WRFエミュレーションでは非理想化LRとHRペアを使用し、内部変数による共有スケールのミスマッチが発生する。 本研究は,現在のsrに基づく統計ダウンスケールに基づいて,コンピュータビジョン分野からの新たな周波数分離(fs)アプローチを試みている。 SRモデルのスキルを評価するため,評価指標を慎重に選択し,空間パワースペクトルに基づく性能測定に着目する。 本稿では,GAN構成が生成領域の空間構造,特に空間変動スペクトルのバイアスに与える影響を明らかにする。 FS実験の評価にパワースペクトルを用いると、FSのコンピュータビジョンへの応用が気候場に変換されないことが明らかになった。 しかし、FS実験は、一般的なGANベースのSR目的関数に対するパワースペクトルの感度を示し、空間構造の決定におけるその役割を解釈し理解するのに役立つ。 この結果は、有望な構成オプションとして、新しい部分周波数分離スキームの開発を動機付ける。 また,内部変動による非理想化LRフィールドのGAN性能への影響を定量化する。 さらに,異なる物理的関連lr共変量に対する生成場の空間構造依存性を探索できるスペクトルに基づく特徴インポータンス実験を行った。

This paper explores the application of emerging machine learning methods from image super-resolution (SR) to the task of statistical downscaling. We specifically focus on convolutional neural network-based Generative Adversarial Networks (GANs). Our GANs are conditioned on low-resolution (LR) inputs to generate high-resolution (HR) surface winds emulating Weather Research and Forecasting (WRF) model simulations over North America. Unlike traditional SR models, where LR inputs are idealized coarsened versions of the HR images, WRF emulation involves using non-idealized LR and HR pairs resulting in shared-scale mismatches due to internal variability. Our study builds upon current SR-based statistical downscaling by experimenting with a novel frequency-separation (FS) approach from the computer vision field. To assess the skill of SR models, we carefully select evaluation metrics, and focus on performance measures based on spatial power spectra. Our analyses reveal how GAN configurations influence spatial structures in the generated fields, particularly biases in spatial variability spectra. Using power spectra to evaluate the FS experiments reveals that successful applications of FS in computer vision do not translate to climate fields. However, the FS experiments demonstrate the sensitivity of power spectra to a commonly used GAN-based SR objective function, which helps interpret and understand its role in determining spatial structures. This result motivates the development of a novel partial frequency-separation scheme as a promising configuration option. We also quantify the influence on GAN performance of non-idealized LR fields resulting from internal variability. Furthermore, we conduct a spectra-based feature-importance experiment allowing us to explore the dependence of the spatial structure of generated fields on different physically relevant LR covariates.
翻訳日:2023-09-20 20:09:40 公開日:2023-09-18
# AI信仰の倫理へ向けて

Toward an Ethics of AI Belief ( http://arxiv.org/abs/2304.14577v6 )

ライセンス: Link先を確認
Winnie Ma, Vincent Valton(参考訳) AIにおける哲学研究は、主にAIの倫理に焦点を当てている。 本稿では, 信念の倫理学者であり, 機械学習科学者である我々は, AIの認識論, 特にAIの信念の倫理において, 哲学研究の新たな領域を追求する必要があることを示唆する。 ここでは,様々な方法で定義されてきた信念の倫理を,認識論におけるサブフィールドと呼ぶ。 このサブフィールドは、道徳的、実践的、その他の非倫理的信念の研究に関係している。 本論では、特定の信念が真である、正当化される、保証される、知識を構成するなど、様々な評価基準を満たしているかどうかに関する記述的疑問よりも、人間と人工的に信じるべきエージェントについて、信念の倫理における規範的疑問を主に扱う。 我々は、AI信念の倫理に応用できる(人間)信念の倫理における現在研究における4つのトピックについて提案する:AI信念のドクサスティックな誤り、道徳的に義務づけられた信念、AI信念に対する実践的および道徳的エンクローメント、AI信念に対する道徳的責任。 我々はまた、AI信仰研究の倫理として一般に認識されていない比較的初期段階の2つの哲学研究分野を示すが、それは様々な信念の道徳的・実践的な側面、すなわちAIの疫学的・倫理的非植民地化、そしてAIにおける疫学的不正を調査することによって、この分野に該当する。

Philosophical research in AI has hitherto largely focused on the ethics of AI. In this paper we, an ethicist of belief and a machine learning scientist, suggest that we need to pursue a novel area of philosophical research in AI - the epistemology of AI, and in particular an ethics of belief for AI. Here we take the ethics of belief, a field that has been defined in various ways, to refer to a sub-field within epistemology. This subfield is concerned with the study of possible moral, practical, and other non-alethic dimensions of belief. And in this paper, we will primarily be concerned with the normative question within the ethics of belief regarding what agents - both human and artificial - ought to believe, rather than with descriptive questions concerning whether certain beliefs meet various evaluative standards such as being true, being justified or warranted, constituting knowledge, and so on. We suggest four topics in extant work in the ethics of (human) belief that can be applied to an ethics of AI belief: doxastic wronging by AI; morally owed beliefs; pragmatic and moral encroachment on AI beliefs; and moral responsibility for AI beliefs. We also indicate two relatively nascent areas of philosophical research that haven't yet been generally recognized as ethics of AI belief research, but that do fall within this field of research in virtue of investigating various moral and practical dimensions of belief: the epistemic and ethical decolonization of AI; and epistemic injustice in AI.
翻訳日:2023-09-20 20:01:36 公開日:2023-09-18
# 線形プログラミングを用いたマルコフ決定過程におけるオンライン強化学習

Online Reinforcement Learning in Markov Decision Process Using Linear Programming ( http://arxiv.org/abs/2304.00155v2 )

ライセンス: Link先を確認
Vincent Leon, S. Rasoul Etesami(参考訳) 我々は,不確定な遷移関数と確率的報酬を有するマルコフ決定過程(mdp)におけるオンライン強化学習について検討する。 学習者は,環境との相互作用を通じて,最適方針を学習し,その後悔を最小限に抑えることを目的としている。 高確率で$\widetilde{O}(LX\sqrt{TA})$ regretを達成できる単純で効率的なモデルベースアルゴリズムを考案し、$L$はエピソードの長さ、$T$はエピソード数、$X$と$A$は状態空間とアクション空間の濃度である。 提案手法は「不確実性に直面した最適主義」の概念に基づいており、遷移関数と報酬関数の信頼セットを維持し、オンラインmdpと線形プログラミングをつなぐために占有測度を用いる。 同様の信頼セットフレームワークを使用しており、異なるフレームワークを使用しているものの、少し厳しい後悔のバウンドを持つものに比べて計算労力が向上している既存の作品に比べて、より厳格な後悔のバウンドを実現している。

We consider online reinforcement learning in episodic Markov decision process (MDP) with unknown transition function and stochastic rewards drawn from some fixed but unknown distribution. The learner aims to learn the optimal policy and minimize their regret over a finite time horizon through interacting with the environment. We devise a simple and efficient model-based algorithm that achieves $\widetilde{O}(LX\sqrt{TA})$ regret with high probability, where $L$ is the episode length, $T$ is the number of episodes, and $X$ and $A$ are the cardinalities of the state space and the action space, respectively. The proposed algorithm, which is based on the concept of ``optimism in the face of uncertainty", maintains confidence sets of transition and reward functions and uses occupancy measures to connect the online MDP with linear programming. It achieves a tighter regret bound compared to the existing works that use a similar confidence set framework and improves computational effort compared to those that use a different framework but with a slightly tighter regret bound.
翻訳日:2023-09-20 19:58:33 公開日:2023-09-18
# 既存バイアス付きStyleGAN2を用いたゼロショット人種バランスデータセット生成

Zero-shot racially balanced dataset generation using an existing biased StyleGAN2 ( http://arxiv.org/abs/2305.07710v2 )

ライセンス: Link先を確認
Anubhav Jain, Nasir Memon, Julian Togelius(参考訳) 顔認識システムは、データの多いディープラーニングモデルのおかげで大きな進歩を遂げてきたが、これらのモデルは大きなプライバシーに敏感なデータセットに依存している。 さらに、これらのデータセットの多くは民族や人口統計の多様性に欠けており、社会や安全保障に深刻な影響を及ぼすような偏見のあるモデルに繋がる可能性がある。 これらの問題に対処するために, バイアス付き生成モデルstylegan2を用いて, 合成個体の人口分布に富む画像を作成する手法を提案する。 合成データセットは、特定の人口集団を対象とする新しい進化的探索アルゴリズムを用いて作成される。 1レースあたり5万のid(合計1350万の画像)を含むバランスのとれたデータセットで顔認識モデルをトレーニングすることで、実際のデータセットでトレーニングされたモデルに存在したバイアスを最小限に抑えることができる。

Facial recognition systems have made significant strides thanks to data-heavy deep learning models, but these models rely on large privacy-sensitive datasets. Further, many of these datasets lack diversity in terms of ethnicity and demographics, which can lead to biased models that can have serious societal and security implications. To address these issues, we propose a methodology that leverages the biased generative model StyleGAN2 to create demographically diverse images of synthetic individuals. The synthetic dataset is created using a novel evolutionary search algorithm that targets specific demographic groups. By training face recognition models with the resulting balanced dataset containing 50,000 identities per race (13.5 million images in total), we can improve their performance and minimize biases that might have been present in a model trained on a real dataset.
翻訳日:2023-09-20 19:51:01 公開日:2023-09-18
# オントロジー推論による微調整大規模エンタープライズ言語モデル

Fine-tuning Large Enterprise Language Models via Ontological Reasoning ( http://arxiv.org/abs/2306.10723v2 )

ライセンス: Link先を確認
Teodoro Baldazzi, Luigi Bellomarini, Stefano Ceri, Andrea Colombo, Andrea Gentili, Emanuel Sallinger(参考訳) 大きな言語モデル(LLM)はタスク固有のトレーニングデータのおかげで、さまざまな目標に適応するためのテクニックとして微調整を利用する。 タスクの特異性はドメインの向き、すなわち、ある関心領域のタスクに正確に対処するLLMの特殊化と密接に関連しなければなりません。 しかしながら、モデルは通常、公開可能なデータや、データベースからの地上データに対して微調整され、ビジネスレベルの定義やドメインエクスペリエンスを無視します。 一方、エンタープライズ知識グラフ(EKG)は、存在論的推論を通じてそのようなドメイン知識をキャプチャし、拡張することができる。 本研究では,LLM の柔軟性と EKG のドメイン指向性を組み合わせることを目的として,存在論的推論の力を生かした新しいニューロシンボリックアーキテクチャを提案し,LLM の微調整のためのタスクとドメイン固有コーパスを構築する。

Large Language Models (LLMs) exploit fine-tuning as a technique to adapt to diverse goals, thanks to task-specific training data. Task specificity should go hand in hand with domain orientation, that is, the specialization of an LLM to accurately address the tasks of a given realm of interest. However, models are usually fine-tuned over publicly available data or, at most, over ground data from databases, ignoring business-level definitions and domain experience. On the other hand, Enterprise Knowledge Graphs (EKGs) are able to capture and augment such domain knowledge via ontological reasoning. With the goal of combining LLM flexibility with the domain orientation of EKGs, we propose a novel neurosymbolic architecture that leverages the power of ontological reasoning to build task- and domain-specific corpora for LLM fine-tuning.
翻訳日:2023-09-20 19:40:41 公開日:2023-09-18
# 株価変動予測のためのChatGPTインフォームドグラフニューラルネットワーク

ChatGPT Informed Graph Neural Network for Stock Movement Prediction ( http://arxiv.org/abs/2306.03763v4 )

ライセンス: Link先を確認
Zihan Chen, Lei Nico Zheng, Cheng Lu, Jialu Yuan, Di Zhu(参考訳) ChatGPTは、様々な自然言語処理(NLP)タスクにまたがる顕著な機能を示している。 しかし、一時的なテキストデータ、特に金融ニュースから動的ネットワーク構造を推論する可能性はまだ未検討のフロンティアである。 本研究では,chatgptのグラフ推論機能を利用してグラフニューラルネットワーク(gnn)を強化する新しいフレームワークを提案する。 本フレームワークは,テキストデータから進化するネットワーク構造を十分に抽出し,これらのネットワークをグラフニューラルネットワークに組み込んで,その後の予測作業を行う。 ストックムーブメント予測による実験結果は、我々のモデルが最先端のディープラーニングベースのベンチマークを一貫して上回っていることを示している。 さらに, モデル出力に基づいて構築されたポートフォリオは, ボラティリティの低減と最大ドローダウンとともに, 年次累積リターンの向上を示す。 この優れたパフォーマンスは、テキストベースのネットワーク推論におけるChatGPTの可能性を強調し、金融セクターへの有望な影響を浮き彫りにしている。

ChatGPT has demonstrated remarkable capabilities across various natural language processing (NLP) tasks. However, its potential for inferring dynamic network structures from temporal textual data, specifically financial news, remains an unexplored frontier. In this research, we introduce a novel framework that leverages ChatGPT's graph inference capabilities to enhance Graph Neural Networks (GNN). Our framework adeptly extracts evolving network structures from textual data, and incorporates these networks into graph neural networks for subsequent predictive tasks. The experimental results from stock movement forecasting indicate our model has consistently outperformed the state-of-the-art Deep Learning-based benchmarks. Furthermore, the portfolios constructed based on our model's outputs demonstrate higher annualized cumulative returns, alongside reduced volatility and maximum drawdown. This superior performance highlights the potential of ChatGPT for text-based network inferences and underscores its promising implications for the financial sector.
翻訳日:2023-09-20 19:39:18 公開日:2023-09-18
# LLMを用いた高性能コンピューティングコード翻訳のためのデータセットの作成: OpenMP FortranとC++の橋渡し

Creating a Dataset for High-Performance Computing Code Translation using LLMs: A Bridge Between OpenMP Fortran and C++ ( http://arxiv.org/abs/2307.07686v4 )

ライセンス: Link先を確認
Bin Lei, Caiwen Ding, Le Chen, Pei-Hung Lin, Chunhua Liao(参考訳) 本研究では,OpenMP FortranとC++コードの間で翻訳される機械学習モデルを学習するための新しいデータセットを提案する。 信頼性と適用性を保証するため、データセットはさまざまなオープンソースOpenMPベンチマークから作成されている。 また、微妙なコード類似性テストを使用して洗練されている。 定量化(CodeBLEU)法と定性的評価(人的評価)法の両方を用いて,データセットの有効性を評価する。 本稿では,このデータセットが大規模言語モデル(LLM)の翻訳能力を大幅に向上させることを示す。 特に、事前のコーディング知識を持たないモデルでは、codebleuスコアで$\mathbf{\times~5.1}$が上昇し、コーディングに精通したモデルでは$\mathbf{\times~9.9}$-foldが増加した。 我々のデータセットを用いた最高の微調整モデルは、GPT-4より優れている。 また、人間レベルの精度にも達している。 この作業は、ハイパフォーマンスコンピューティングのためのコード翻訳の分野における進歩を促進する、私たちのデータセットの膨大な可能性の核となるものです。 データセットは \href{https://github.com/bin123apple/Fortran-CPP-HPC-code-translation-dataset}{OpenMP-Fortran-CPP-translation} でアクセスできる。

In this study, we present a novel dataset for training machine learning models translating between OpenMP Fortran and C++ code. To ensure reliability and applicability, the dataset is created from a range of representative open-source OpenMP benchmarks. It is also refined using a meticulous code similarity test. The effectiveness of our dataset is assessed using both quantitative (CodeBLEU) and qualitative (human evaluation) methods. We showcase how this dataset significantly elevates the translation competencies of large language models (LLMs). Specifically, models without prior coding knowledge experienced a boost of $\mathbf{\times~5.1}$ in their CodeBLEU scores, while models with some coding familiarity saw an impressive $\mathbf{\times~9.9}$-fold increase. The best fine-tuned model using our dataset outperforms GPT-4. It is also reaching human-level accuracy. This work underscores the immense potential of our dataset in propelling advancements in the domain of code translation for high-performance computing. The dataset is accessible at \href{https://github.com/bin123apple/Fortran-CPP-HPC-code-translation-dataset}{OpenMP-Fortran-CPP-Translation}.
翻訳日:2023-09-20 19:19:09 公開日:2023-09-18
# 汎用化工学設計知識の育成に向けて

Towards Populating Generalizable Engineering Design Knowledge ( http://arxiv.org/abs/2307.06985v2 )

ライセンス: Link先を確認
L Siddharth, Jianxi Luo(参考訳) 汎用的な工学的設計知識を蓄積することを目指して,特許文書中の文から<head entity, relationship, tail entity>という形の事実を抽出する手法を提案する。 これらの事実は特許文書の内外で組み合わせて知識グラフを形成し、設計知識を表現し保存するためのスキームとして機能する。 工学設計文学における既存の手法は、事実ではなく統計的近似である三重項をポップアップさせるために予め定義された関係を利用することが多い。 提案手法では,文からエンティティと関係を識別するためにタガーを訓練する。 エンティティのペアが与えられた場合、特定の関係トークンを特定するために別のタグをトレーニングします。 これらのタガーをトレーニングするために、44,227文のデータセットとそれに対応する事実を手作業で構築する。 提案手法を2つの推奨アプローチに対してベンチマークする。 本手法は,ファンシステムに関連する特許に含まれる文から事実を抽出することで適用する。 これらの事実を用いて知識ベースを構築し、ドメインオントロジーをどのように構築し、サブシステムのコンテキスト化された知識を視覚化できるかを示す。 次に,ファンシステムにおいて重要な問題に対する知識ベースを探索する。 回答を知識グラフに整理し,ChatGPTの問題点に対する意見の比較検討を行う。

Aiming to populate generalizable engineering design knowledge, we propose a method to extract facts of the form <head entity, relationship, tail entity> from sentences found in patent documents. These facts could be combined within and across patent documents to form knowledge graphs that serve as schemes for representing as well as storing design knowledge. Existing methods in engineering design literature often utilise a set of predefined relationships to populate triples that are statistical approximations rather than facts. In our method, we train a tagger to identify both entities and relationships from a sentence. Given a pair of entities, we train another tagger to identify the specific relationship tokens. For training these taggers, we manually construct a dataset of 44,227 sentences and corresponding facts. We benchmark our method against two typically recommended approaches. We apply our method by extracting facts from sentences found in patents related to fan systems. We build a knowledge base using these facts to demonstrate how domain ontologies could be constructed and contextualised knowledge of subsystems could be visualised. We then search the knowledge base for key issues prevailing in fan systems. We organize the responses into knowledge graphs and hold a comparative discussion against the opinions about the key issues from ChatGPT.
翻訳日:2023-09-20 19:18:46 公開日:2023-09-18
# 人工知能システムにおける蝶効果:AIバイアスとフェアネスの意義

The Butterfly Effect in Artificial Intelligence Systems: Implications for AI Bias and Fairness ( http://arxiv.org/abs/2307.05842v3 )

ライセンス: Link先を確認
Emilio Ferrara(参考訳) カオス理論を起源とするバタフライ効果は、小さな変化が複雑なシステムに対して、いかに重要かつ予測不能な影響をもたらすかを強調するものだ。 AIフェアネスとバイアスの文脈では、バタフライエフェクトは、アルゴリズム開発中の小さなバイアスや歪んだデータ入力、トレーニング中のサドルポイント、トレーニングとテストフェーズ間のデータの分散シフトなど、さまざまなソースに由来する可能性がある。 これらの一見小さな変化は、予期せぬ、実質的な不公平な結果をもたらす可能性がある。 さらに、バタフライエフェクトは、データやアルゴリズム内の固有のバイアスを増幅し、フィードバックループを悪化させ、敵攻撃の脆弱性を作成することができる。 AIシステムの複雑な性質とその社会的意味を考えると、意図しない結果をもたらす可能性のあるアルゴリズムや入力データの変更を徹底的に検討することが不可欠である。 本稿では,aiシステムにおけるバタフライ効果の検出,定量化,緩和のためのアルゴリズム的戦略と経験的戦略の両方を想定し,公平性を促進し,責任あるai開発を確実にするためにこれらの課題に取り組むことの重要性を強調する。

The Butterfly Effect, a concept originating from chaos theory, underscores how small changes can have significant and unpredictable impacts on complex systems. In the context of AI fairness and bias, the Butterfly Effect can stem from a variety of sources, such as small biases or skewed data inputs during algorithm development, saddle points in training, or distribution shifts in data between training and testing phases. These seemingly minor alterations can lead to unexpected and substantial unfair outcomes, disproportionately affecting underrepresented individuals or groups and perpetuating pre-existing inequalities. Moreover, the Butterfly Effect can amplify inherent biases within data or algorithms, exacerbate feedback loops, and create vulnerabilities for adversarial attacks. Given the intricate nature of AI systems and their societal implications, it is crucial to thoroughly examine any changes to algorithms or input data for potential unintended consequences. In this paper, we envision both algorithmic and empirical strategies to detect, quantify, and mitigate the Butterfly Effect in AI systems, emphasizing the importance of addressing these challenges to promote fairness and ensure responsible AI development.
翻訳日:2023-09-20 19:18:29 公開日:2023-09-18
# 連続長距離モニタリングにおける絡み合い遷移と量子分岐

Entanglement transitions and quantum bifurcations under continuous long-range monitoring ( http://arxiv.org/abs/2307.05685v2 )

ライセンス: Link先を確認
Angelo Russomanno and Giulia Piccitto and Davide Rossini(参考訳) 連続的な非局所モニタリングを行う場合, 自由フェルミオン系における量子軌道の漸近的二部交絡エントロピーについて検討する。 この測定はガウス保存二点作用素によって説明され、その強みは指数$\alpha$のパワーローとして崩壊する。 エンタングルメントエントロピーとシステムサイズとの異なる挙動が出現する:$\alpha$ 所定のしきい値以下ではボリュームローの振る舞いがセットされ、さらに$\alpha$ ではサブボリュームからエリアローへの遷移が観察され、正確な位置は測定率とハミルトン力学の存在に依存する。 また,測定演算子の期待確率分布を考察し,この分布が単様形から双様形への遷移を特徴付けることを見出した。 この分布の定性的変化と絡み合い遷移点との接続について論じる。

We study the asymptotic bipartite entanglement entropy of the quantum trajectories of a free-fermionic system, when subject to a continuous nonlocal monitoring. The measurements are described by Gaussian-preserving two-point operators, whose strength decays as a power-law with exponent $\alpha$. Different behaviors of the entanglement entropy with the system size emerge: for $\alpha$ below a given threshold value a volume-law behavior sets in, while for larger $\alpha$ we observe a transition from subvolume to area-law, whose exact location depends on the measurements rate and on the presence of a Hamiltonian dynamics. We also consider the expectation probability distribution of the measurement operators, and find that this distribution features a transition from a unimodal to a bimodal shape. We discuss the possible connections between this qualitative change of the distribution and the entanglement transition points.
翻訳日:2023-09-20 19:18:06 公開日:2023-09-18
# $\mathrm{SAM^{Med}}$:大きなビジョンモデルに基づく医用画像アノテーションフレームワーク

$\mathrm{SAM^{Med}}$: A medical image annotation framework based on large vision model ( http://arxiv.org/abs/2307.05617v2 )

ライセンス: Link先を確認
Chenglong Wang, Dexuan Li, Sucheng Wang, Chengxiu Zhang, Yida Wang, Yun Liu, Guang Yang(参考訳) 近年,大規模な視覚モデルであるSAM(Seegment Anything Model)がコンピュータビジョン分野,特に画像セグメンテーションに革命をもたらした。 SAMは、その顕著なゼロショット一般化能力を示す新しいプロンプト可能なセグメンテーションパラダイムを提示した。 様々な下流タスクにおけるSAMの可能性と限界について広範な研究がなされている。 本研究では、SAMの能力を生かした医療画像アノテーションのための拡張フレームワークである$\mathrm{SAM^{Med}}$を提示する。 $\mathrm{SAM^{Med}}$ frameworkは2つのサブモジュール、すなわち$\mathrm{SAM^{assist}}$と$\mathrm{SAM^{auto}}$から成る。 この$\mathrm{sam^{assist}}$ は、プロンプトラーニングアプローチを用いたダウンストリーム医療セグメンテーションタスクへのsamの一般化能力を示している。 その結果,約5点の入力点でセグメント化精度が有意に向上した。 $\mathrm{sam^{auto}}$モデルは、自動的に入力プロンプトを生成してアノテーションプロセスを加速することを目的としている。 提案したSAP-Netモデルでは,5つのアノテートスライスのみを用いて,腎臓と肝臓のセグメンテーションにおいて平均Dice係数0.80と0.82を達成し,優れたセグメンテーション性能を実現する。 全体として、$\mathrm{SAM^{Med}}$は医療画像アノテーションで有望な結果を示す。 これらの結果は,医用画像アノテーションタスクに大規模視覚モデルを活用する可能性を示している。

Recently, large vision model, Segment Anything Model (SAM), has revolutionized the computer vision field, especially for image segmentation. SAM presented a new promptable segmentation paradigm that exhibit its remarkable zero-shot generalization ability. An extensive researches have explore the potential and limits of SAM in various downstream tasks. In this study, we presents $\mathrm{SAM^{Med}}$, an enhanced framework for medical image annotation that leverages the capabilities of SAM. $\mathrm{SAM^{Med}}$ framework consisted of two submodules, namely $\mathrm{SAM^{assist}}$ and $\mathrm{SAM^{auto}}$. The $\mathrm{SAM^{assist}}$ demonstrates the generalization ability of SAM to the downstream medical segmentation task using the prompt-learning approach. Results show a significant improvement in segmentation accuracy with only approximately 5 input points. The $\mathrm{SAM^{auto}}$ model aims to accelerate the annotation process by automatically generating input prompts. The proposed SAP-Net model achieves superior segmentation performance with only five annotated slices, achieving an average Dice coefficient of 0.80 and 0.82 for kidney and liver segmentation, respectively. Overall, $\mathrm{SAM^{Med}}$ demonstrates promising results in medical image annotation. These findings highlight the potential of leveraging large-scale vision models in medical image annotation tasks.
翻訳日:2023-09-20 19:17:48 公開日:2023-09-18
# テンソル正規化群を持つ(1+1)次元o(3)非線形シグマモデルの絡み合いとr\'enyiエントロピー

Entanglement and R\'enyi entropies of (1+1)-dimensional O(3) nonlinear sigma model with tensor renormalization group ( http://arxiv.org/abs/2308.02798v3 )

ライセンス: Link先を確認
Xiao Luo, Yoshinobu Kuramashi(参考訳) 1+1)次元o(3)非線形シグマモデルのエンタングルメントとr\'enyiエントロピーをテンソル正規化群法を用いて検討した。 中心電荷は両エントロピーの漸近スケーリング特性から決定される。 また、エンタングルメントエントロピーと$n\rightarrow 1$の次 R'eny エントロピーとの整合性についても検討する。

We investigate the entanglement and R\'enyi entropies for the (1+1)-dimensional O(3) nonlinear sigma model using the tensor renormalization group method. The central charge is determined from the asymptotic scaling properties of both entropies. We also examine the consistency between the entanglement entropy and the $n$th-order R\'enyi entropy with $n\rightarrow 1$.
翻訳日:2023-09-20 19:08:31 公開日:2023-09-18
# 深層強化学習に基づくO-RANスライシング : ハイブリッドトランスファー学習アプローチ

Safe and Accelerated Deep Reinforcement Learning-based O-RAN Slicing: A Hybrid Transfer Learning Approach ( http://arxiv.org/abs/2309.07265v2 )

ライセンス: Link先を確認
Ahmad M. Nagib, Hatem Abou-Zeid, and Hossam S. Hassanein(参考訳) オープン無線アクセスネットワーク(O-RAN)アーキテクチャは、そのコア機能のひとつとしてインテリジェントネットワーク制御アルゴリズムをサポートしている。 データ駆動型アプリケーションは、RANインテリジェントコントローラ(RIC)を介して無線アクセスネットワーク(RAN)機能を最適化するためにそのようなアルゴリズムを組み込んでいる。 深部強化学習(DRL)アルゴリズムは、O-RAN文献で採用されている動的無線資源管理問題を解決する主要なアプローチの一つである。 しかし、O-RAN RICsが導入した利点にもかかわらず、実際のネットワーク展開におけるDRLアルゴリズムの実践的採用は遅れている。 これは主に、DRLエージェントが展開時に、およびこれまで見つからなかったネットワーク条件に遭遇したときに、緩やかな収束と不安定な性能によって生じる。 本稿では、DRLに基づくO-RAN機能のクローズループ制御のためのトレーニングおよびデプロイメントワークフローのコアコンポーネントとして転送学習(TL)を提案する。 そこで本研究では, DRLをベースとしたO-RANスライシングにおける安全かつ迅速な収束を実現するために, 政策再利用と蒸留TL法の両方の利点を生かしたハイブリッドTL支援手法を提案し, 設計する。 我々は、O-RANスライシングの現実的なシナリオを反映するために、実際のVRゲームトラフィックを含む複数のサービスに対応する徹底的な実験を行う。 また, 政策再利用と蒸留支援DRLと非TL支援DRLを3つの異なるベースラインとして提案する。 提案したハイブリッドアプローチは, 平均初期報酬値と収束シナリオの割合を7.7%, 20.7%改善し, 64.6%の報酬分散を減少させ, 高速収束を維持し, ベースラインと比較して一般化性を高めた。

The open radio access network (O-RAN) architecture supports intelligent network control algorithms as one of its core capabilities. Data-driven applications incorporate such algorithms to optimize radio access network (RAN) functions via RAN intelligent controllers (RICs). Deep reinforcement learning (DRL) algorithms are among the main approaches adopted in the O-RAN literature to solve dynamic radio resource management problems. However, despite the benefits introduced by the O-RAN RICs, the practical adoption of DRL algorithms in real network deployments falls behind. This is primarily due to the slow convergence and unstable performance exhibited by DRL agents upon deployment and when encountering previously unseen network conditions. In this paper, we address these challenges by proposing transfer learning (TL) as a core component of the training and deployment workflows for the DRL-based closed-loop control of O-RAN functionalities. To this end, we propose and design a hybrid TL-aided approach that leverages the advantages of both policy reuse and distillation TL methods to provide safe and accelerated convergence in DRL-based O-RAN slicing. We conduct a thorough experiment that accommodates multiple services, including real VR gaming traffic to reflect practical scenarios of O-RAN slicing. We also propose and implement policy reuse and distillation-aided DRL and non-TL-aided DRL as three separate baselines. The proposed hybrid approach shows at least: 7.7% and 20.7% improvements in the average initial reward value and the percentage of converged scenarios, and a 64.6% decrease in reward variance while maintaining fast convergence and enhancing the generalizability compared with the baselines.
翻訳日:2023-09-20 18:37:36 公開日:2023-09-18
# センサデータを用いた乳牛のデジタル皮膚炎の早期発症予測のための機械学習アプローチ

Machine Learning Approaches to Predict and Detect Early-Onset of Digital Dermatitis in Dairy Cows using Sensor Data ( http://arxiv.org/abs/2309.10010v1 )

ライセンス: Link先を確認
Jennifer Magana, Dinu Gavojdian, Yakir Menachem, Teddy Lazebnik, Anna Zamansky, Amber Adams-Progar(参考訳) 本研究の目的は,(1)デジタル皮膚炎(DD)の早期発症検出のためのセンサ行動データに基づく機械学習アルゴリズムと,(2)乳牛のDD予測である。 DD予測のための早期警戒ツールのセットアップを最終目標とすることで、商業的環境下でのDDの監視と管理が向上し、DDの頻度と重症度が低下し、動物福祉が改善される。 本研究は, 行動センサデータに基づいて, フリーステート状態の牛の皮膚炎を予測し, 検出できる機械学習モデルについて検討し, 実験を行った。 臨床徴候出現日の0日目のdd検出モデルは79%の精度に達し、第1臨床徴候出現の2日前のdd予測モデルは64%の精度に達している。 提案した機械学習モデルは、従来の乳牛環境下での行動センサデータに基づいて、乳牛のDDのモニタリングと診断を行うリアルタイム自動ツールの開発に役立つ。 その結果,個体レベルでの行動パターンの変化は,個体の健康状態の変動を検出するために,群集管理の早期警戒システムにおける入力として利用できることがわかった。

The aim of this study was to employ machine learning algorithms based on sensor behavior data for (1) early-onset detection of digital dermatitis (DD); and (2) DD prediction in dairy cows. With the ultimate goal to set-up early warning tools for DD prediction, which would than allow a better monitoring and management of DD under commercial settings, resulting in a decrease of DD prevalence and severity, while improving animal welfare. A machine learning model that is capable of predicting and detecting digital dermatitis in cows housed under free-stall conditions based on behavior sensor data has been purposed and tested in this exploratory study. The model for DD detection on day 0 of the appearance of the clinical signs has reached an accuracy of 79%, while the model for prediction of DD 2 days prior to the appearance of the first clinical signs has reached an accuracy of 64%. The proposed machine learning models could help to develop a real-time automated tool for monitoring and diagnostic of DD in lactating dairy cows, based on behavior sensor data under conventional dairy environments. Results showed that alterations in behavioral patterns at individual levels can be used as inputs in an early warning system for herd management in order to detect variances in health of individual cows.
翻訳日:2023-09-20 18:31:10 公開日:2023-09-18
# deephen:lncrnaの定量的予測とlncrnaの必須性の再検討

DeepHEN: quantitative prediction essential lncRNA genes and rethinking essentialities of lncRNA genes ( http://arxiv.org/abs/2309.10008v1 )

ライセンス: Link先を確認
Hanlin Zhang, Wenzheng Cheng(参考訳) 遺伝子本質性(英: gene essentiality)とは、生物の生存と生殖に必要となる遺伝子をいう。 非コード遺伝子の本質は記録されているが、私たちには未知の非コード遺伝子の本質の側面がまだ残っている。 例えば、シーケンスの特徴とネットワーク空間の特徴が本質に寄与していることは分かっていない。 その結果,本研究では,上記の疑問に答えられるDeepHENを提案する。 新しいlncRNAプロテオンタンパク質ネットワークを買収し、表現学習とグラフニューラルネットワークの両方を活用することで、lncRNA遺伝子の本質を予測できるDeepHENモデルの構築に成功した。 lncrna遺伝子の本質性を予測する他の方法と比較して、deephenモデルは、配列の特徴やネットワーク空間的特徴が本質性に大きな影響を与えるかを示すだけでなく、本質的lncrna遺伝子が少ないことに起因するそれらの方法の過剰な問題にも対処している。

Gene essentiality refers to the degree to which a gene is necessary for the survival and reproductive efficacy of a living organism. Although the essentiality of non-coding genes has been documented, there are still aspects of non-coding genes' essentiality that are unknown to us. For example, We do not know the contribution of sequence features and network spatial features to essentiality. As a consequence, in this work, we propose DeepHEN that could answer the above question. By buidling a new lncRNA-proteion-protein network and utilizing both representation learning and graph neural network, we successfully build our DeepHEN models that could predict the essentiality of lncRNA genes. Compared to other methods for predicting the essentiality of lncRNA genes, our DeepHEN model not only tells whether sequence features or network spatial features have a greater influence on essentiality but also addresses the overfitting issue of those methods caused by the low number of essential lncRNA genes, as evidenced by the results of enrichment analysis.
翻訳日:2023-09-20 18:30:48 公開日:2023-09-18
# オートドライブエコシステムを用いた協調・競争型自動運転車のマルチエージェント深部強化学習

Multi-Agent Deep Reinforcement Learning for Cooperative and Competitive Autonomous Vehicles using AutoDRIVE Ecosystem ( http://arxiv.org/abs/2309.10007v1 )

ライセンス: Link先を確認
Tanmay Vilas Samak, Chinmay Vilas Samak and Venkat Krovi(参考訳) 本研究は、自律走行車内における競争行動だけでなく、協調を模倣するモジュラーで並列化可能なマルチエージェント深層強化学習フレームワークを提案する。 我々は,ナイジェルとf1tenthの物理的に正確かつグラフィカルなデジタル双生児を開発するための実現要因として,autodriveエコシステムを導入する。 まず, 共通政策アプローチを用いたマルチエージェント学習設定だけでなく, 限定状態情報を共有する一組の協調車両(ナイジェル)を用いて, 交差点横断問題について検討する。 次に、異なる車両群(F1TENTH)を用いて、個別のポリシーアプローチを用いたマルチエージェント学習環境において、対向的なヘッドツーヘッド自律レース問題を調査する。 いずれの実験でも、エージェントが相互に独立し非同期動作を示すため、確率的環境におけるアプローチの堅牢なトレーニングとテストを可能にする分散学習アーキテクチャが採用された。 この問題はさらに悪化し、エージェントにスパースな観察空間を提供し、強制されたキノダイナミックと安全性の制約を暗黙的に満足するサンプル制御コマンドを要求された。 2つの問題文の実験結果は、トレーニングとデプロイメントフェーズの定量的指標と質的記述の観点で報告される。

This work presents a modular and parallelizable multi-agent deep reinforcement learning framework for imbibing cooperative as well as competitive behaviors within autonomous vehicles. We introduce AutoDRIVE Ecosystem as an enabler to develop physically accurate and graphically realistic digital twins of Nigel and F1TENTH, two scaled autonomous vehicle platforms with unique qualities and capabilities, and leverage this ecosystem to train and deploy multi-agent reinforcement learning policies. We first investigate an intersection traversal problem using a set of cooperative vehicles (Nigel) that share limited state information with each other in single as well as multi-agent learning settings using a common policy approach. We then investigate an adversarial head-to-head autonomous racing problem using a different set of vehicles (F1TENTH) in a multi-agent learning setting using an individual policy approach. In either set of experiments, a decentralized learning architecture was adopted, which allowed robust training and testing of the approaches in stochastic environments, since the agents were mutually independent and exhibited asynchronous motion behavior. The problems were further aggravated by providing the agents with sparse observation spaces and requiring them to sample control commands that implicitly satisfied the imposed kinodynamic as well as safety constraints. The experimental results for both problem statements are reported in terms of quantitative metrics and qualitative remarks for training as well as deployment phases.
翻訳日:2023-09-20 18:30:29 公開日:2023-09-18
# 韓国における仁川公共交通路の最適化

The Optimized path for the public transportation of Incheon in South Korea ( http://arxiv.org/abs/2309.10006v1 )

ライセンス: Link先を確認
Soroor Malekmohammadi faradunbeh, Hongle Li, Mangkyu Kang, Choongjae Iim(参考訳) パスフィンディングはコンピュータ科学の分野で最も人気のある分野の一つである。 パスフィニング戦略は、ある座標から別の座標への経路を決定する。 本論文は、乗客需要に基づくバス輸送システムのための最適な経路を見つけることに焦点を当てている。 本研究は韓国・仁川市のバス駅をベースとし,a*アルゴリズムが遺伝的アルゴリズムやdijkstraアルゴリズムなど,他の基本的なパス探索アルゴリズムよりも優れた性能を示す。 提案手法は,大量のデータ(ポイント)であっても,最短経路をリアルタイムに見つけることができる。

Path-finding is one of the most popular subjects in the field of computer science. Pathfinding strategies determine a path from a given coordinate to another. The focus of this paper is on finding the optimal path for the bus transportation system based on passenger demand. This study is based on bus stations in Incheon, South Korea, and we show that our modified A* algorithm performs better than other basic pathfinding algorithms such as the Genetic and Dijkstra. Our proposed approach can find the shortest path in real-time even for large amounts of data(points).
翻訳日:2023-09-20 18:30:02 公開日:2023-09-18
# 双極子や他の変調対称性によって保護されるトポロジカル量子鎖

Topological quantum chains protected by dipolar and other modulated symmetries ( http://arxiv.org/abs/2309.10036v1 )

ライセンス: Link先を確認
Jung Hoon Han, Ethan Lake, Ho Tat Lam, Ruben Verresen and Yizhi You(参考訳) 対称性生成器が空間変調を示す対称性によって保護される一次元対称性保護位相(SPT)相の物理について検討する。 特に、線形(すなわち双極子)、二次的および指数的変調を持つ対称性によって保護される位相に注目している。 本稿では,空間的に変調された対称性欠陥に対して装飾されたドメイン壁の概念を一般化し,変調されたspt位相を特徴付け,分類するためのいくつかのツールを開発した。 変調対称性の顕著な特徴は、それらは一般に開鎖に対してのみ存在し、周期境界条件の付与によって破られることである。 それでも、SPT位数は周期的境界条件でさえ存在しており、これは『バンドル対称性』をダブする対象の文脈内で理解される現象である。 さらに、変調されたSPT相は特定のノーゴー定理を回避でき、行列積の状態記述に異常な代数的構造をもたらすことを示す。

We investigate the physics of one-dimensional symmetry protected topological (SPT) phases protected by symmetries whose symmetry generators exhibit spatial modulation. We focus in particular on phases protected by symmetries with linear (i.e., dipolar), quadratic and exponential modulations. We present a simple recipe for constructing modulated SPT models by generalizing the concept of decorated domain walls to spatially modulated symmetry defects, and develop several tools for characterizing and classifying modulated SPT phases. A salient feature of modulated symmetries is that they are generically only present for open chains, and are broken upon the imposition of periodic boundary conditions. Nevertheless, we show that SPT order is present even with periodic boundary conditions, a phenomenon we understand within the context of an object we dub a ``bundle symmetry''. In addition, we show that modulated SPT phases can avoid a certain no-go theorem, leading to an unusual algebraic structure in their matrix product state descriptions.
翻訳日:2023-09-20 18:19:56 公開日:2023-09-18
# フォールトトレラント双曲フロッケ量子誤り訂正符号

Fault-tolerant hyperbolic Floquet quantum error correcting codes ( http://arxiv.org/abs/2309.10033v1 )

ライセンス: Link先を確認
Ali Fahimniya, Hossein Dehghani, Kishor Bharti, Sheryl Mathew, Alicia J. Koll\'ar, Alexey V. Gorshkov, Michael J. Gullans(参考訳) 量子誤差補正の中心的な目標は、ノイズしきい値を増やし、論理量子ビットを維持するのに必要な物理量子ビットの数を減らすことで、フォールトトレラント量子コンピューティングのオーバーヘッドを削減することである。 我々は、動的に生成された量子誤り訂正符号のファミリーに基づいて、この目標に向かっての潜在的な経路を導入する。 これらの符号は、負の曲率を持つ双曲多様体上の位相コードを安定させる周期的に配置された非可換な2体測定の特定の列によって定義される。 我々はn$ qubitsの格子群に焦点を当て、コードを定義する処方法によれば、有限符号化レート(1/8+2/n)$を達成し、深さ-3症候群抽出回路を持つ。 双曲曲面符号と同様に、各時間ステップにおけるコードの距離は、最も対数的に n$ でスケールする。 私たちが選択した格子の族は、このスケーリングが実際に実現可能であることを示している。 現象論的ノイズモデルにおいて,しきい値が0.1%に近いことを示す効率的なマッチングベースのデコーダを開発した。 重み2のチェック演算子と3つの量子ビット接続を利用することで、私たちの双曲的なフロッケ符号の1つは、400の物理量子ビットを使用して、コード距離8の52の論理量子ビットを符号化します。 小さなエラーレートでは、同じノイズモデルとデコーダを持つhoneycomb floquetコードを使用する場合、同様の論理エラー抑制は、物理キュービットの5倍 (1924) を必要とする。

A central goal in quantum error correction is to reduce the overhead of fault-tolerant quantum computing by increasing noise thresholds and reducing the number of physical qubits required to sustain a logical qubit. We introduce a potential path towards this goal based on a family of dynamically generated quantum error correcting codes that we call "hyperbolic Floquet codes." These codes are defined by a specific sequence of non-commuting two-body measurements arranged periodically in time that stabilize a topological code on a hyperbolic manifold with negative curvature. We focus on a family of lattices for $n$ qubits that, according to our prescription that defines the code, provably achieve a finite encoding rate $(1/8+2/n)$ and have a depth-3 syndrome extraction circuit. Similar to hyperbolic surface codes, the distance of the code at each time-step scales at most logarithmically in $n$. The family of lattices we choose indicates that this scaling is achievable in practice. We develop and benchmark an efficient matching-based decoder that provides evidence of a threshold near 0.1% in a phenomenological noise model. Utilizing weight-two check operators and a qubit connectivity of 3, one of our hyperbolic Floquet codes uses 400 physical qubits to encode 52 logical qubits with a code distance of 8, i.e., it is a $[[400,52,8]]$ code. At small error rates, comparable logical error suppression to this code requires 5x as many physical qubits (1924) when using the honeycomb Floquet code with the same noise model and decoder.
翻訳日:2023-09-20 18:19:39 公開日:2023-09-18
# マルチモーダル基礎モデル-専門家から汎用アシスタントへ

Multimodal Foundation Models: From Specialists to General-Purpose Assistants ( http://arxiv.org/abs/2309.10020v1 )

ライセンス: Link先を確認
Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao(参考訳) 本稿では,専門モデルから汎用アシスタントへの移行に焦点をあて,視覚と視覚言語能力を示すマルチモーダル基礎モデルの分類と進化に関する包括的調査を行う。 研究現場は5つの主要なトピックを包含しており、2つのクラスに分類されている。 2つのトピックを含む特定の目的のために事前学習されたマルチモーダル基礎モデル -- 視覚的理解とテキストから画像への生成のための視覚バックボーンの学習方法。 二 探索的かつオープンな研究分野における最近の進歩として、大言語モデル(LLM)にインスパイアされた統合視覚モデル、多モーダルLLMのエンドツーエンドトレーニング、多モーダルツールのLLMとの連鎖という三つのトピックを含む、汎用アシスタントの役割を果たすための多モーダル基礎モデルを提案する。 論文のターゲットは,コンピュータビジョンと視覚言語多モードコミュニティの研究者,大学院生,専門家であり,マルチモーダル基礎モデルの基礎と最近の進歩を学ぼうとしている。

This paper presents a comprehensive survey of the taxonomy and evolution of multimodal foundation models that demonstrate vision and vision-language capabilities, focusing on the transition from specialist models to general-purpose assistants. The research landscape encompasses five core topics, categorized into two classes. (i) We start with a survey of well-established research areas: multimodal foundation models pre-trained for specific purposes, including two topics -- methods of learning vision backbones for visual understanding and text-to-image generation. (ii) Then, we present recent advances in exploratory, open research areas: multimodal foundation models that aim to play the role of general-purpose assistants, including three topics -- unified vision models inspired by large language models (LLMs), end-to-end training of multimodal LLMs, and chaining multimodal tools with LLMs. The target audiences of the paper are researchers, graduate students, and professionals in computer vision and vision-language multimodal communities who are eager to learn the basics and recent advances in multimodal foundation models.
翻訳日:2023-09-20 18:19:10 公開日:2023-09-18
# パラメータ効率のよいロングテール認識

Parameter-Efficient Long-Tailed Recognition ( http://arxiv.org/abs/2309.10019v1 )

ライセンス: Link先を確認
Jiang-Xin Shi, Tong Wei, Zhi Zhou, Xin-Yan Han, Jie-Jing Shao, Yu-Feng Li(参考訳) 長い尾の認識タスクに対処する「事前学習と微調整」パラダイムは、対照的な言語イメージ事前訓練(CLIP)のような大きな視覚言語モデルが出現して以来、大きな関心を集めている。 以前の研究では、これらのタスクに事前訓練されたモデルを適用することは約束されているが、良いパフォーマンスを維持するためには、広範囲なトレーニングエポックや追加のトレーニングデータを必要とすることが多い。 本論文では,20時間以内の長鎖認識タスクに対して,余分なデータを必要とすることなく,事前学習したモデルを効果的に適応できる微調整手法であるPELを提案する。 まず, 完全微調整や分類器微調整などの一般的な微調整法は, 過度な適合に悩まされ, テールクラスの性能劣化を招いた。 この問題を軽減するため、PELは既存のパラメータ効率の良い微調整法の設計を採用することで、少数のタスク固有のパラメータを導入している。 さらに、収束を早めるために、PELは計算オーバーヘッドを加えることなくCLIPテキストエンコーダから派生した新しい意味認識型分類器初期化手法を提案する。 4つの長い尾を持つデータセットに対する実験結果は、PELが従来の最先端のアプローチを一貫して上回っていることを示している。 ソースコードはhttps://github.com/shijxcs/PELで入手できる。

The "pre-training and fine-tuning" paradigm in addressing long-tailed recognition tasks has sparked significant interest since the emergence of large vision-language models like the contrastive language-image pre-training (CLIP). While previous studies have shown promise in adapting pre-trained models for these tasks, they often undesirably require extensive training epochs or additional training data to maintain good performance. In this paper, we propose PEL, a fine-tuning method that can effectively adapt pre-trained models to long-tailed recognition tasks in fewer than 20 epochs without the need for extra data. We first empirically find that commonly used fine-tuning methods, such as full fine-tuning and classifier fine-tuning, suffer from overfitting, resulting in performance deterioration on tail classes. To mitigate this issue, PEL introduces a small number of task-specific parameters by adopting the design of any existing parameter-efficient fine-tuning method. Additionally, to expedite convergence, PEL presents a novel semantic-aware classifier initialization technique derived from the CLIP textual encoder without adding any computational overhead. Our experimental results on four long-tailed datasets demonstrate that PEL consistently outperforms previous state-of-the-art approaches. The source code is available at https://github.com/shijxcs/PEL.
翻訳日:2023-09-20 18:18:47 公開日:2023-09-18
# 抗癌剤感受性予測のためのGPT-3の評価

Evaluation of GPT-3 for Anti-Cancer Drug Sensitivity Prediction ( http://arxiv.org/abs/2309.10016v1 )

ライセンス: Link先を確認
Shaika Chowdhury, Sivaraman Rajaganapathy, Lichao Sun, James Cerhan, Nansu Zong(参考訳) 本研究では,5種類の組織にまたがる構造化医薬ゲノムデータを用いた抗がん剤感受性予測タスクにおけるGPT-3の有用性を検討した。 この薬剤の笑顔表現と細胞株のゲノム変異の特徴は、薬物応答の予測であった。 この研究の成果は、精密腫瘍学においてより効率的な治療プロトコルを設計する道を開く可能性を秘めている。

In this study, we investigated the potential of GPT-3 for the anti-cancer drug sensitivity prediction task using structured pharmacogenomics data across five tissue types and evaluated its performance with zero-shot prompting and fine-tuning paradigms. The drug's smile representation and cell line's genomic mutation features were predictive of the drug response. The results from this study have the potential to pave the way for designing more efficient treatment protocols in precision oncology.
翻訳日:2023-09-20 18:18:24 公開日:2023-09-18
# SynDICOM: エラー注入と自然言語フィードバックによる会話コモンセンスの改善

SYNDICOM: Improving Conversational Commonsense with Error-Injection and Natural Language Feedback ( http://arxiv.org/abs/2309.10015v1 )

ライセンス: Link先を確認
Christopher Richardson, Anirudh Sundar, Larry Heck(参考訳) 常識推論は人間のコミュニケーションの重要な側面である。 大規模な言語モデルによって駆動される会話型AIの最近の進歩にもかかわらず、常識推論は難しい課題である。 本研究では,対話応答生成におけるコモンセンス向上手法であるSynDICOMを紹介する。 SynDICOMは2つのコンポーネントから構成される。 最初のコンポーネントは知識グラフから生成され、自然言語に合成された常識対話からなるデータセットである。 このデータセットには、対話コンテキストに対する有効応答と無効応答の両方と、無効応答に対する自然言語フィードバック(NLF)が含まれている。 第2の貢献は、無効な応答に対する自然言語フィードバック(nlf)を予測するモデルをトレーニングし、予測されたnlf、無効な応答、対話に基づく応答生成モデルをトレーニングする2段階の手順である。 SynDICOMはスケーラブルで、強化学習を必要としない。 3つのタスクに関する実験結果は、幅広いメトリクスを用いて評価される。 SynDICOMはROUGE1上でChatGPTよりも53%向上し、人間の評価者はChatGPTの57%よりもSynDICOMを好む。 コードと完全なデータセットを公開します。

Commonsense reasoning is a critical aspect of human communication. Despite recent advances in conversational AI driven by large language models, commonsense reasoning remains a challenging task. In this work, we introduce SYNDICOM - a method for improving commonsense in dialogue response generation. SYNDICOM consists of two components. The first component is a dataset composed of commonsense dialogues created from a knowledge graph and synthesized into natural language. This dataset includes both valid and invalid responses to dialogue contexts, along with natural language feedback (NLF) for the invalid responses. The second contribution is a two-step procedure: training a model to predict natural language feedback (NLF) for invalid responses, and then training a response generation model conditioned on the predicted NLF, the invalid response, and the dialogue. SYNDICOM is scalable and does not require reinforcement learning. Empirical results on three tasks are evaluated using a broad range of metrics. SYNDICOM achieves a relative improvement of 53% over ChatGPT on ROUGE1, and human evaluators prefer SYNDICOM over ChatGPT 57% of the time. We will publicly release the code and the full dataset.
翻訳日:2023-09-20 18:18:16 公開日:2023-09-18
# 変圧器による多変量電池性能と健康状態の予後

Prognosis of Multivariate Battery State of Performance and Health via Transformers ( http://arxiv.org/abs/2309.10014v1 )

ライセンス: Link先を確認
Noah H. Paulson, Joseph J. Kubal, Susan J. Babinec(参考訳) 電池は、深く脱炭された未来の重要な構成要素である。 電池性能と「使い勝手」を設計と使用の機能として理解することは、採用の加速に最重要となる。 歴史的に、バッテリ状態の健康状態(SOH)は、初期状態に対するバッテリ容量のごく一部である単一のパラメータで要約された。 しかし、より有用なアプローチは、キャパシティ、エネルギー、イオンおよび電子インピーダンス、開回路電圧、微視的メトリクスを含む相互関連記述子セットを使用して、その状態と複雑さを包括的に特徴づけることである。 実際、バッテリ使用の機能として広範囲にわたる資産を予測することは、バッテリ科学の「ホット・ゲイル」であり、より優れたバッテリの設計に対する前例のない洞察を、実験的な努力を減らし、CO2削減目標を満たすために必要なエネルギー貯蔵投資を減らし得る。 本研究では, リチウムイオンカソード化学薬品6種(lfp, nmc111, nmc532, nmc622, he5050, 5vspinel), 複数の電解質/陽極組成, 異なる電荷放出シナリオを表す2つのサイクリングデータセットを用いて, 28の電池状態を予測するためのディープトランスフォーマネットワークによるその方向の第一歩を提案する。 これらの予測とバッテリ寿命の精度(LFP高速充電データセットの寿命予測に19サイクルという前例のない絶対誤差がある)は、バッテリ健康をより深く理解しコントロールするためのディープラーニングの約束を示している。

Batteries are an essential component in a deeply decarbonized future. Understanding battery performance and "useful life" as a function of design and use is of paramount importance to accelerating adoption. Historically, battery state of health (SOH) was summarized by a single parameter, the fraction of a battery's capacity relative to its initial state. A more useful approach, however, is a comprehensive characterization of its state and complexities, using an interrelated set of descriptors including capacity, energy, ionic and electronic impedances, open circuit voltages, and microstructure metrics. Indeed, predicting across an extensive suite of properties as a function of battery use is a "holy grail" of battery science; it can provide unprecedented insights toward the design of better batteries with reduced experimental effort, and de-risking energy storage investments that are necessary to meet CO2 reduction targets. In this work, we present a first step in that direction via deep transformer networks for the prediction of 28 battery state of health descriptors using two cycling datasets representing six lithium-ion cathode chemistries (LFP, NMC111, NMC532, NMC622, HE5050, and 5Vspinel), multiple electrolyte/anode compositions, and different charge-discharge scenarios. The accuracy of these predictions versus battery life (with an unprecedented mean absolute error of 19 cycles in predicting end of life for an LFP fast-charging dataset) illustrates the promise of deep learning towards providing deeper understanding and control of battery health.
翻訳日:2023-09-20 18:17:53 公開日:2023-09-18
# ファウショット学習における双曲的対ユークリッド的埋め込み:同じコインの2つの側面

Hyperbolic vs Euclidean Embeddings in Few-Shot Learning: Two Sides of the Same Coin ( http://arxiv.org/abs/2309.10013v1 )

ライセンス: Link先を確認
Gabriel Moreira, Manuel Marques, Jo\~ao Paulo Costeira, Alexander Hauptmann(参考訳) 表現学習における最近の研究により、階層的データは双曲空間における低次元かつ高情報的な表現に結びつくことが示されている。 しかし、画像認識において双曲的埋め込みが注目されているとしても、それらの最適化は数値的なハードルを伴う。 さらに、従来のユークリッドの特徴と比較して、双曲性によって課される暗黙の偏見から最も恩恵を受けるアプリケーションが存在するかは不明である。 本稿では,双曲型ニューラルネットワークの原型に焦点をあてる。 特に、双曲埋め込みの傾向は、高次元のポアンカル(poincar\'e)球の境界に収束し、これが少数ショットの分類に影響を及ぼす。 この結果から, 共通の双曲半径での双曲埋め込みが達成できることが示唆された。 従来のベンチマーク結果とは対照的に、埋め込み次元に関係なくユークリッド計量を備えた固定ラディウスエンコーダによってより良い性能が得られることを実証する。

Recent research in representation learning has shown that hierarchical data lends itself to low-dimensional and highly informative representations in hyperbolic space. However, even if hyperbolic embeddings have gathered attention in image recognition, their optimization is prone to numerical hurdles. Further, it remains unclear which applications stand to benefit the most from the implicit bias imposed by hyperbolicity, when compared to traditional Euclidean features. In this paper, we focus on prototypical hyperbolic neural networks. In particular, the tendency of hyperbolic embeddings to converge to the boundary of the Poincar\'e ball in high dimensions and the effect this has on few-shot classification. We show that the best few-shot results are attained for hyperbolic embeddings at a common hyperbolic radius. In contrast to prior benchmark results, we demonstrate that better performance can be achieved by a fixed-radius encoder equipped with the Euclidean metric, regardless of the embedding dimension.
翻訳日:2023-09-20 18:17:16 公開日:2023-09-18
# 過去を振り返る: 連続学習における生成的リプレイのためのより良い知識保持

Looking through the past: better knowledge retention for generative replay in continual learning ( http://arxiv.org/abs/2309.10012v1 )

ライセンス: Link先を確認
Valeriya Khan, Sebastian Cygert, Kamil Deja, Tomasz Trzci\'nski, Bart{\l}omiej Twardowski(参考訳) 本研究では,連続的な学習環境における生成的リプレイを改善し,課題に対処する。 現在の生成リハーサルメソッドは通常、より多くのクラスでより複雑なデータを生成するほど強力ではないため、小さくて単純なデータセットでベンチマークされる。 VAEベースの生成リプレイでは、生成した特徴が潜伏空間にマッピングされたときの本来の特徴からかけ離れているという事実に起因する可能性があることに気付きました。 そこで本研究では,モデルの学習と複雑なデータ生成を可能にする3つの修正を提案する。 具体的には, 現在のモデルと過去のモデルの間の潜時空間における蒸留を取り入れ, 特徴量の減少を図る。 さらに,再構成とオリジナルデータに対する潜在マッチングを提案し,特徴のアライメントを改善する。 さらに, 復元が知識の保存に適しているという見地から, 以前に訓練されたモデルを通じて, 世代ごとの循環を加えて, 元のデータに近づける。 本手法は,様々なシナリオにおいて他の生成リプレイ手法よりも優れる。 コードはhttps://github.com/valeriya-khan/look-through-the-past。

In this work, we improve the generative replay in a continual learning setting to perform well on challenging scenarios. Current generative rehearsal methods are usually benchmarked on small and simple datasets as they are not powerful enough to generate more complex data with a greater number of classes. We notice that in VAE-based generative replay, this could be attributed to the fact that the generated features are far from the original ones when mapped to the latent space. Therefore, we propose three modifications that allow the model to learn and generate complex data. More specifically, we incorporate the distillation in latent space between the current and previous models to reduce feature drift. Additionally, a latent matching for the reconstruction and original data is proposed to improve generated features alignment. Further, based on the observation that the reconstructions are better for preserving knowledge, we add the cycling of generations through the previously trained model to make them closer to the original data. Our method outperforms other generative replay methods in various scenarios. Code available at https://github.com/valeriya-khan/looking-through-the-past.
翻訳日:2023-09-20 18:16:58 公開日:2023-09-18
# インスタントフォトリアリスティックなスタイル転送:軽量で適応的なアプローチ

Instant Photorealistic Style Transfer: A Lightweight and Adaptive Approach ( http://arxiv.org/abs/2309.10011v1 )

ライセンス: Link先を確認
Rong Liu, Enyu Zhao, Zhiyuan Liu, Andrew Wei-Wen Feng, Scott John Easley(参考訳) 本稿では,ペアワイズデータセットの事前トレーニングや余分な制約を課すことなく,超解像入力によるインスタントフォトリアリスティックスタイル転送を実現するために設計された,インスタントフォトリアリスティックスタイル転送(ipst)手法を提案する。 本手法は,スタイルイメージからコンテンツイメージへのスタイル転送を実現するために,ライトウェイトなStyleNetを利用する。 スタイル転送のプロセスをさらに強化するため,出力のフォトリアリズムを優先し,スタイルネットワークの収束を加速するインスタンス適応最適化を導入し,数秒で高速なトレーニング完了を実現する。 さらに、IPSTは、ビデオやNeural Radiance Field (NeRF)のようなマルチフレーム入力の時間的および多視点一貫性を維持するため、マルチフレームスタイルの転送タスクに適している。 実験の結果、IPSTはGPUメモリ使用量が少なくなり、高速なマルチフレーム転送速度を提供し、フォトリアリスティックな出力を生成することが示され、様々なフォトリアリスティックな転送アプリケーションにとって有望なソリューションとなっている。

In this paper, we propose an Instant Photorealistic Style Transfer (IPST) approach, designed to achieve instant photorealistic style transfer on super-resolution inputs without the need for pre-training on pair-wise datasets or imposing extra constraints. Our method utilizes a lightweight StyleNet to enable style transfer from a style image to a content image while preserving non-color information. To further enhance the style transfer process, we introduce an instance-adaptive optimization to prioritize the photorealism of outputs and accelerate the convergence of the style network, leading to a rapid training completion within seconds. Moreover, IPST is well-suited for multi-frame style transfer tasks, as it retains temporal and multi-view consistency of the multi-frame inputs such as video and Neural Radiance Field (NeRF). Experimental results demonstrate that IPST requires less GPU memory usage, offers faster multi-frame transfer speed, and generates photorealistic outputs, making it a promising solution for various photorealistic transfer applications.
翻訳日:2023-09-20 18:16:40 公開日:2023-09-18
# より深いガウス過程のための非定常カーネルの統一的視点

A Unifying Perspective on Non-Stationary Kernels for Deeper Gaussian Processes ( http://arxiv.org/abs/2309.10068v1 )

ライセンス: Link先を確認
Marcus M. Noack, Hengrui Luo, Mark D. Risser(参考訳) ガウス過程(英: Gaussian process, GP)は、確率関数近似とデータの不確実性定量化のための一般的な統計手法である。 GPは、特にデータスパースシナリオにおいて優れた予測能力と、堅牢な不確実性推定を提供する固有の能力のために、過去20年間、機械学習の領域に採用されてきた。 それでも、彼らのパフォーマンスはコア方法論の複雑なカスタマイズに大きく依存しており、標準設定や既定のソフトウェアツールがデプロイされている場合、実践者の間で不満を招きます。 おそらくGPの最も重要な構成要素は、共分散作用素の役割を仮定するカーネル関数である。 mat\'ernクラスの定常核は、ほとんどの応用研究で使われており、予測性能の低下と非現実的な不確かさの定量化がしばしば結果である。 非定常カーネルは性能が向上するが、より複雑な機能形式とそれを定義するのに必要な関連する努力と専門知識のために使われることは滅多にない。 この観点から、私たちはML実践者がガウス過程の最も一般的な非定常性を理解する手助けをしたいと考えています。 代表データセットを用いて動作中のさまざまなカーネルを示し、その特性を慎重に研究し、性能を比較する。 そこで本研究では,既存のカーネルの利点を活かした新しいカーネルを提案する。

The Gaussian process (GP) is a popular statistical technique for stochastic function approximation and uncertainty quantification from data. GPs have been adopted into the realm of machine learning in the last two decades because of their superior prediction abilities, especially in data-sparse scenarios, and their inherent ability to provide robust uncertainty estimates. Even so, their performance highly depends on intricate customizations of the core methodology, which often leads to dissatisfaction among practitioners when standard setups and off-the-shelf software tools are being deployed. Arguably the most important building block of a GP is the kernel function which assumes the role of a covariance operator. Stationary kernels of the Mat\'ern class are used in the vast majority of applied studies; poor prediction performance and unrealistic uncertainty quantification are often the consequences. Non-stationary kernels show improved performance but are rarely used due to their more complicated functional form and the associated effort and expertise needed to define and tune them optimally. In this perspective, we want to help ML practitioners make sense of some of the most common forms of non-stationarity for Gaussian processes. We show a variety of kernels in action using representative datasets, carefully study their properties, and compare their performances. Based on our findings, we propose a new kernel that combines some of the identified advantages of existing kernels.
翻訳日:2023-09-20 18:10:10 公開日:2023-09-18
# 大規模言語モデルを用いたPETレポートの自動印象生成

Automatic Personalized Impression Generation for PET Reports Using Large Language Models ( http://arxiv.org/abs/2309.10066v1 )

ライセンス: Link先を確認
Xin Tie, Muheon Shin, Ali Pirasteh, Nevein Ibrahim, Zachary Huemann, Sharon M. Castellino, Kara M. Kelly, John Garrett, Junjie Hu, Steve Y. Cho, Tyler J. Bradshaw(参考訳) 目的: 大規模言語モデル(LLM)が全体PETレポートに対して正確でパーソナライズされた印象を生成できるかどうかを判断する。 対象と方法: 教師強制アルゴリズムを用いてPETレポートのコーパスを用いて12言語モデルを訓練し, 報告結果を入力とし, 臨床印象を基準とした。 追加の入力トークンは、医師のidをエンコードし、モデルが医師固有のレポートスタイルを学習できるようにする。 当院では2010年から2022年の間に37,370件のPETレポートを収集した。 最良のllmを特定するために、30の評価指標が2人の核医学(nm)医師の品質スコアに対してベンチマークされ、最も整合した指標が専門家評価のモデルを選択した。 データの一部では,NM医師3名によるモデル生成印象と原臨床印象を6つの品質次元と総合効用スコア(5点尺度)に基づいて評価した。 各医師は自身の報告書12点と他の医師12点をレビューした。 統計解析にはブートストラップ再サンプリングが用いられた。 結果: 評価指標では, ドメイン適応型BARTScoreとPEGASUSScoreが最も高い相関(0.568, 0.563)を示した。 これらの指標に基づき、細調整されたPEGASUSモデルをトップLLMとして選択した。 医師がPEGASUSの印象を自身のスタイルでレビューすると,89%が臨床的に許容され,平均効用率は4.08/5であった。 医師はこれらのパーソナライズされた印象を、他の医師によって規定された印象(4.03, P=0.41)に匹敵するものとみなした。 結論: PEGASUSによるパーソナライズドインプレッションは臨床的に有用であり,PET報告の迅速化の可能性を強調した。

Purpose: To determine if fine-tuned large language models (LLMs) can generate accurate, personalized impressions for whole-body PET reports. Materials and Methods: Twelve language models were trained on a corpus of PET reports using the teacher-forcing algorithm, with the report findings as input and the clinical impressions as reference. An extra input token encodes the reading physician's identity, allowing models to learn physician-specific reporting styles. Our corpus comprised 37,370 retrospective PET reports collected from our institution between 2010 and 2022. To identify the best LLM, 30 evaluation metrics were benchmarked against quality scores from two nuclear medicine (NM) physicians, with the most aligned metrics selecting the model for expert evaluation. In a subset of data, model-generated impressions and original clinical impressions were assessed by three NM physicians according to 6 quality dimensions and an overall utility score (5-point scale). Each physician reviewed 12 of their own reports and 12 reports from other physicians. Bootstrap resampling was used for statistical analysis. Results: Of all evaluation metrics, domain-adapted BARTScore and PEGASUSScore showed the highest Spearman's rho correlations (0.568 and 0.563) with physician preferences. Based on these metrics, the fine-tuned PEGASUS model was selected as the top LLM. When physicians reviewed PEGASUS-generated impressions in their own style, 89% were considered clinically acceptable, with a mean utility score of 4.08/5. Physicians rated these personalized impressions as comparable in overall utility to the impressions dictated by other physicians (4.03, P=0.41). Conclusion: Personalized impressions generated by PEGASUS were clinically useful, highlighting its potential to expedite PET reporting.
翻訳日:2023-09-20 18:09:48 公開日:2023-09-18
# 自律・操縦操縦無人航空機の無衝突軌道に向けて

Toward collision-free trajectory for autonomous and pilot-controlled unmanned aerial vehicles ( http://arxiv.org/abs/2309.10064v1 )

ライセンス: Link先を確認
Kaya Kuru, John Michael Pinder, Benjamin Jon Watkinson, Darren Ansell, Keith Vinning, Lee Moore, Chris Gilbert, Aadithya Sujit, and David Jones(参考訳) ドローンにとって、安全クリティカルなシステムとして、オンボード検出・回避(daa)技術の必要性が高まっている。 一 複数自由度の高い移動性、配置された非構造環境の複雑さにより、対立する交通渋滞又は急激な非協力的脅威を察知し、感知し、又は検出すること。 二 自律性のレベルに応じて衝突を避けるための適切な措置をとること。 航空交通管理(UTM)システムと航空交通管理(ATM)システムとの安全かつ効率的な統合は、複数の複雑なミッションの群集を柔軟かつ同時に完成させるために、密集した航空交通環境において、多様なUAVアプリケーションが大規模に増加するという、新たな要件である。 過去数年間、航空宇宙に存在しているuavの検出、識別、既存の飛行経路の決定において大きな進歩があった。 本研究は, 高度衝突管理手法-Drone Aware Collision Management (DACM) の開発において, PilotAware Ltd が利用可能な電子目視情報(EC)を多用し, 反応幾何学的衝突検出・解法(CDR)技術を用いて, 様々な時間最適回避衝突回避(CA)操作を決定・実行することができる。 DACM手法の利点は、UAVと有人飛行機の空中衝突(MAC)を避けるために、広範囲なシミュレーションと実世界のフィールドテストによって実証されてきた。 提案手法は, 高精度なセンサや事前訓練を必要とせず, 高度にダイナミックな空域における原軌道からの偏差を抑えながら, 衝突回避に有効であることを示す。

For drones, as safety-critical systems, there is an increasing need for onboard detect & avoid (DAA) technology i) to see, sense or detect conflicting traffic or imminent non-cooperative threats due to their high mobility with multiple degrees of freedom and the complexity of deployed unstructured environments, and subsequently ii) to take the appropriate actions to avoid collisions depending upon the level of autonomy. The safe and efficient integration of UAV traffic management (UTM) systems with air traffic management (ATM) systems, using intelligent autonomous approaches, is an emerging requirement where the number of diverse UAV applications is increasing on a large scale in dense air traffic environments for completing swarms of multiple complex missions flexibly and simultaneously. Significant progress over the past few years has been made in detecting UAVs present in aerospace, identifying them, and determining their existing flight path. This study makes greater use of electronic conspicuity (EC) information made available by PilotAware Ltd in developing an advanced collision management methodology -- Drone Aware Collision Management (DACM) -- capable of determining and executing a variety of time-optimal evasive collision avoidance (CA) manoeuvres using a reactive geometric conflict detection and resolution (CDR) technique. The merits of the DACM methodology have been demonstrated through extensive simulations and real-world field tests in avoiding mid-air collisions (MAC) between UAVs and manned aeroplanes. The results show that the proposed methodology can be employed successfully in avoiding collisions while limiting the deviation from the original trajectory in highly dynamic aerospace without requiring sophisticated sensors and prior training.
翻訳日:2023-09-20 18:09:20 公開日:2023-09-18
# 計算的観点からの意識理論の調査

Survey of Consciousness Theory from Computational Perspective ( http://arxiv.org/abs/2309.10063v1 )

ライセンス: Link先を確認
Zihan Ding, Xiaoxi Wei, Yidan Xu(参考訳) 人間の意識は長年の謎であり、機械の知性と意識は厳しい追及である。 研究者は、異なる視点とレベルから人間の脳の意識現象を解釈する様々な理論を開発した。 本稿では, 情報理論, 量子物理学, 認知心理学, 生理学, コンピュータ科学など, 様々な分野から派生した意識論の主な分野について, 計算的視点から考察する。 また、既存の意識評価指標と、現在の計算モデルが意識を持つ可能性についても論じる。 意識の謎を解くことは、コンピュータで汎用人工知能を構築するための重要なステップである。

Human consciousness has been a long-lasting mystery for centuries, while machine intelligence and consciousness is an arduous pursuit. Researchers have developed diverse theories for interpreting the consciousness phenomenon in human brains from different perspectives and levels. This paper surveys several main branches of consciousness theories originating from different subjects including information theory, quantum physics, cognitive psychology, physiology and computer science, with the aim of bridging these theories from a computational perspective. It also discusses the existing evaluation metrics of consciousness and possibility for current computational models to be conscious. Breaking the mystery of consciousness can be an essential step in building general artificial intelligence with computing machines.
翻訳日:2023-09-20 18:08:48 公開日:2023-09-18
# 媒介スピン系を用いた工学的非線形ボーソン・ボーソン相互作用

Engineering nonlinear boson-boson interactions using mediating spin systems ( http://arxiv.org/abs/2309.10060v1 )

ライセンス: Link先を確認
Hannah McAleese, Mauro Paternostro, Ricardo Puebla(参考訳) ボソニック系間の相互作用を(外部駆動)内部スピン状自由度で表現することにより、絡み合ったコヒーレント状態を生成するプロトコルを提案する。 わずかな修正により、このプロトコルは非線形ビームスプリッター相互作用を通じてN00N状態を生成することができる。 それぞれのボソニック系はスピンと局所的に相互作用し、モデルパラメータを適切に調整することで、結合スピンによって媒介される様々な有効ボソニック相互作用ハミルトニアンのクラスを設計できる。 本手法は,ボソニックレジスタ内の絡み合いを解析し,目標ハミルトニアンの期待値と比較することを目的とした数値シミュレーションによりベンチマークを行った。

We present a protocol to create entangled coherent states by engineering cross-Kerr interactions between bosonic systems endowed with (externally driven) internal spin-like degrees of freedom. With slight modifications, the protocol is also able to produce N00N states through nonlinear beam splitter interactions. Each bosonic system interacts locally with its spin and by suitably tuning the model parameters, various classes of effective bosonic interaction Hamiltonians, mediated by the coupled spins, can be engineered. Our approach is benchmarked by numerical simulations aimed at studying the entanglement within a bosonic register and comparing it with the expected one resulting from the target Hamiltonians.
翻訳日:2023-09-20 18:08:35 公開日:2023-09-18
# データフリーモデル盗用のためのデュアル学生ネットワーク

Dual Student Networks for Data-Free Model Stealing ( http://arxiv.org/abs/2309.10058v1 )

ライセンス: Link先を確認
James Beetham, Navid Kardan, Ajmal Mian, Mubarak Shah(参考訳) 既存のデータフリーモデル盗み手法では、生成器を使用してサンプルを生成し、対象モデルの出力にマッチする学生モデルのトレーニングを行う。 この目的のために、2つの主な課題は、パラメータにアクセスせずにターゲットモデルの勾配を推定し、入力空間を徹底的に探索する多様なトレーニングサンプルを生成することである。 そこで本研究では,2人の学生が左右対称に学習し,学生が反対するサンプルを生成するための基準を提案する。 一方、サンプル上の不一致は、少なくとも1人の学生が、対象モデルと比較して誤ってサンプルを分類したことを示している。 この不一致に対するインセンティブは、ジェネレータが入力空間のより多様な領域を探索することを暗黙的に促す。 一方,本手法では,対象モデルの勾配を間接的に推定するために,学生モデルの勾配を用いる。 生成ネットワークのこの新たなトレーニング目標が,対象モデル勾配にアクセスできる場合のジェネレータの損失に対する低境界を最適化することと等価であることを示す。 新しい最適化フレームワークは、ターゲットモデルのより正確な勾配推定と、ベンチマーク分類データセットの精度向上を提供する。 さらに,クエリ効率の向上と計算コストのトレーニングを両立させる。 最後に,本手法が既存のデータフリーモデルステーリング手法よりも,転送ベースの敵攻撃のプロキシモデルとして有効であることを示す。

Existing data-free model stealing methods use a generator to produce samples in order to train a student model to match the target model outputs. To this end, the two main challenges are estimating gradients of the target model without access to its parameters, and generating a diverse set of training samples that thoroughly explores the input space. We propose a Dual Student method where two students are symmetrically trained in order to provide the generator a criterion to generate samples that the two students disagree on. On one hand, disagreement on a sample implies at least one student has classified the sample incorrectly when compared to the target model. This incentive towards disagreement implicitly encourages the generator to explore more diverse regions of the input space. On the other hand, our method utilizes gradients of student models to indirectly estimate gradients of the target model. We show that this novel training objective for the generator network is equivalent to optimizing a lower bound on the generator's loss if we had access to the target model gradients. We show that our new optimization framework provides more accurate gradient estimation of the target model and better accuracies on benchmark classification datasets. Additionally, our approach balances improved query efficiency with training computation cost. Finally, we demonstrate that our method serves as a better proxy model for transfer-based adversarial attacks than existing data-free model stealing methods.
翻訳日:2023-09-20 18:08:23 公開日:2023-09-18
# Hierarchy Builder: テキストスパンを階層化してナビゲーションを実現する

Hierarchy Builder: Organizing Textual Spans into a Hierarchy to Facilitate Navigation ( http://arxiv.org/abs/2309.10057v1 )

ライセンス: Link先を確認
Itay Yair, Hillel Taub-Tabib, Yoav Goldberg(参考訳) 情報抽出システムは特定のトピックに対して数百から数千の文字列を生成することが多い。 本稿では,これらの文字列をよりよく消費する手法について述べる。ユーザが利用可能なものの概要を広く把握し,いくつかの側面を深く掘り下げる機会を得るための探索的な設定である。 このシステムは、類似のアイテムをまとめて、残りのアイテムを階層的なナビゲート可能なDAG構造に配置する。 本手法を医療情報抽出に適用する。

Information extraction systems often produce hundreds to thousands of strings on a specific topic. We present a method that facilitates better consumption of these strings, in an exploratory setting in which a user wants to both get a broad overview of what's available, and a chance to dive deeper on some aspects. The system works by grouping similar items together and arranging the remaining items into a hierarchical navigable DAG structure. We apply the method to medical information extraction.
翻訳日:2023-09-20 18:08:01 公開日:2023-09-18
# 雑音を考慮したモジュール型空間クラスタリングアルゴリズム

A Modular Spatial Clustering Algorithm with Noise Specification ( http://arxiv.org/abs/2309.10047v1 )

ライセンス: Link先を確認
Akhil K, Srikanth H R(参考訳) クラスタリング技術は、データマイニング、機械学習、パターン認識において何十年も重要な役割を果たしてきた。 最も一般的なクラスタリングアルゴリズムの1つは、高い精度と耐雑音性のためにDBSCANである。 DBSCANのような優れたアルゴリズムの多くは、推定が難しい入力パラメータを持っている。 したがって、これらのパラメータを見つけるのに時間がかかる。 本稿では,クラスタリングに最適なパラメータを見つけるための性能と容易さのバランスをとる,新しいクラスタリングアルゴリズムbacters-farmを提案する。 バクテリアファームアルゴリズムは、クローズドな実験ファームにおける細菌の成長 - 食物を消費し、成長する能力 - に触発され、クラスタリングアルゴリズムで望まれる理想的なクラスター成長を密接に表している。 さらに、アルゴリズムは、特定のタスク/データの配布のためのアルゴリズムのバージョンを作成することができるモジュラーデザインを備えている。 他のクラスタリングアルゴリズムとは対照的に、我々のアルゴリズムはクラスタリング中に除外されるノイズの量を規定する機能も備えている。

Clustering techniques have been the key drivers of data mining, machine learning and pattern recognition for decades. One of the most popular clustering algorithms is DBSCAN due to its high accuracy and noise tolerance. Many superior algorithms such as DBSCAN have input parameters that are hard to estimate. Therefore, finding those parameters is a time consuming process. In this paper, we propose a novel clustering algorithm Bacteria-Farm, which balances the performance and ease of finding the optimal parameters for clustering. Bacteria- Farm algorithm is inspired by the growth of bacteria in closed experimental farms - their ability to consume food and grow - which closely represents the ideal cluster growth desired in clustering algorithms. In addition, the algorithm features a modular design to allow the creation of versions of the algorithm for specific tasks / distributions of data. In contrast with other clustering algorithms, our algorithm also has a provision to specify the amount of noise to be excluded during clustering.
翻訳日:2023-09-20 18:07:52 公開日:2023-09-18
# 連続変数に対する共変作用素基底

Covariant operator bases for continuous variables ( http://arxiv.org/abs/2309.10042v1 )

ライセンス: Link先を確認
A. Z. Goldberg, A. B. Klimov, G. Leuchs and L. L. Sanchez-Soto(参考訳) コヒーレント状態表現は、位相空間における量子状態の効率的な可視化を可能にするため、連続可変系を扱うための標準的なツールである。 そこで本研究では,シンプレクティック変換下でのベハビングの重要特性を考慮し,基本オブザーバブル上のモノミアルからなる代替基礎を考案する。 この基底は、SU(2)対称性の文脈で広く用いられる既約テンソルの類似である。 状態の密度行列が与えられたとき、その基底における対応する膨張係数は、簡潔かつ明示的な正準同変形式の状態を記述する状態多極体を構成する。 これらの量を用いて量子性やガウス性などの性質を評価する。

Coherent-state representations are a standard tool to deal with continuous-variable systems, as they allow one to efficiently visualize quantum states in phase space. Here, we work out an alternative basis consisting of monomials on the basic observables, with the crucial property of behaving well under symplectic transformations. This basis is the analogue of the irreducible tensors widely used in the context of SU(2) symmetry. Given the density matrix of a state, the corresponding expansion coefficients in that basis constitute the state multipoles, which describe the state in a canonically covariant form that is both concise and explicit. We use these quantities to assess properties such as quantumness or Gaussianity.
翻訳日:2023-09-20 18:07:37 公開日:2023-09-18
# 非可逆対称性を持つ安定化器符号モデル:ストレンジフラクトン、閉じ込め、非可換および非アベリア核融合規則

A stabilizer code model with non-invertible symmetries: Strange fractons, confinement, and non-commutative and non-Abelian fusion rules ( http://arxiv.org/abs/2309.10037v1 )

ライセンス: Link先を確認
Tanay Kibe, Ayan Mukhopadhyay and Pramod Padmanabhan(参考訳) 二次元格子のすべての端にクトリットを配置し,非可逆プラーペット作用素を持つ安定化符号モデルを導入する。 基底状態の縮退性は、トーリック符号のように位相的であり(属によって決定される)、電気電荷と磁気電荷のペアからなる通常の非圧電励起も持っている。 しかし、隣接する顔(欠陥)の集合からなる閉じ込められたフラクトロニック励起には、新しいタイプのフラクトロニック励起が存在する。 それらは閉じこもりを示し、これらのフラクトンのより大きな構成は、創発的な内部自由度を取得するにもかかわらず、完全に不動である。 分解励起は、これらのフラクトロニック欠陥の存在下でその性質を変化させる。 例えば、磁気モノポールはフラクタル欠陥クラスターの格子外部のどこにでも存在でき、電荷は制限された移動性を獲得する。 これはフラクトンを特徴とする我々のモデルはI型でもII型でもないことを示唆している。 さらに、ローカルオペレータは基底状態を消滅させることができる。 これらの性質はすべて、積が結合的であるが可換でない新しいタイプの非可換および非アベル的融合圏を通じて取得することができ、零作用素の値を含む(operator)同値類の和として表すことができる。 このモデルの他の多くの変種を紹介し、量子場理論におけるそれらの関連性について議論する。

We introduce a stabilizer code model with a qutrit at every edge of a two-dimensional lattice and with non-invertible plaquette operators. The degeneracy of the ground state is topological (determined by the genus) as in the toric code, and it also has the usual deconfined excitations consisting of pairs of electric and magnetic charges. However, there are novel types of confined fractonic excitations composed of a cluster of adjacent faces (defects) with vanishing flux. They manifest confinement, and even larger configurations of these fractons are fully immobile although they acquire emergent internal degrees of freedom. Deconfined excitations change their nature in presence of these fractonic defects. As for instance, a magnetic monopole can exist anywhere on the lattice exterior to a fractonic defect cluster while electric charges acquire restricted mobility. These imply that our model featuring fractons is neither of type I, nor of type II. Furthermore, local operators can annihilate the ground state. All these properties can be captured via a novel type of non-commutative and non-Abelian fusion category in which the product is associative but does not commute, and can be expressed as a sum of (operator) equivalence classes which includes that of the zero operator. We introduce many other variants of this model and discuss their relevance in quantum field theory.
翻訳日:2023-09-20 18:07:26 公開日:2023-09-18
# HTEC:人間の転写誤り訂正

HTEC: Human Transcription Error Correction ( http://arxiv.org/abs/2309.10089v1 )

ライセンス: Link先を確認
Hanbo Sun, Jian Gao, Xiaomin Wu, Anjie Fang, Cheng Cao, Zheng Du(参考訳) 高品質な人間の転写は、自動音声認識(ASR)モデルの訓練と改善に不可欠である。 最近の研究 -\cite{libricrowd} では、1% の悪い転写語誤り率 (wer) がおよそ2%のasr werを増加させ、asrモデルを訓練することを発見した。 高度に訓練されたアノテータでも、転写エラーは避けられない。 しかし、ヒトの転写の修正を調査する研究はほとんどない。 ASRの誤り訂正や文法的誤り訂正のような他の問題に対する誤り訂正法は、この問題に対して十分な性能を発揮できない。 そこで我々は,HTECによる誤り訂正を提案する。 HTECは、誤った単語を予測しマスクするエラー検出モデルであるTrans-Checkerと、マスクされた位置を埋めるシーケンス対シーケンス生成モデルであるTrans-Fillerの2つのステージで構成されている。 本稿では,削除エラーを扱う4つの新しい操作を含む補正操作の包括的リストを提案する。 さらに,変圧器の入力に音素情報を組み込んだ組込み方式を提案する。 HTECは、他の手法を大きなマージンで上回り、WERの2.2%から4.5%を上回ります。 最後に,ヒトアノテータを補助するためにHTECを配備し,HTECは転写速度を犠牲にすることなく転写品質を15.1%向上させるコパイロットとして特に有効であることを示した。

High-quality human transcription is essential for training and improving Automatic Speech Recognition (ASR) models. Recent study~\cite{libricrowd} has found that every 1% worse transcription Word Error Rate (WER) increases approximately 2% ASR WER by using the transcriptions to train ASR models. Transcription errors are inevitable for even highly-trained annotators. However, few studies have explored human transcription correction. Error correction methods for other problems, such as ASR error correction and grammatical error correction, do not perform sufficiently for this problem. Therefore, we propose HTEC for Human Transcription Error Correction. HTEC consists of two stages: Trans-Checker, an error detection model that predicts and masks erroneous words, and Trans-Filler, a sequence-to-sequence generative model that fills masked positions. We propose a holistic list of correction operations, including four novel operations handling deletion errors. We further propose a variant of embeddings that incorporates phoneme information into the input of the transformer. HTEC outperforms other methods by a large margin and surpasses human annotators by 2.2% to 4.5% in WER. Finally, we deployed HTEC to assist human annotators and showed HTEC is particularly effective as a co-pilot, which improves transcription quality by 15.1% without sacrificing transcription velocity.
翻訳日:2023-09-20 17:58:48 公開日:2023-09-18
# 提案されたEU AI法に照らして、インド最高裁判所の訴訟の写しと翻訳への取り組みの分析

Analyzing the Endeavours of the Supreme Court of India to Transcribe and Translate Court Arguments in Light of the Proposed EU AI Act ( http://arxiv.org/abs/2309.10088v1 )

ライセンス: Link先を確認
Kshitiz Verma(参考訳) インド最高裁判所は、インドのe-Courtsプロジェクトを通じて、裁判所でICTを使用する先駆者となった。 さらに、最近のプロジェクトであるDesign, Development, and Implementation of Artificial Intelligence(AI)ソリューション、インドの最高裁判所における議論を翻訳するためのツール、および裁判所の手続は、この特定のプロジェクトだけでなく、インドにおけるAIアルゴリズムの設計方法に影響を与える可能性がある。 本稿では,AI技術の現状と,AI規制の試みを踏まえて,インド最高裁判所の取り組みを評価する。 このプロジェクトは、最高裁判所の立憲審議会の手続きを書写・翻訳することを目的としており、国内における法の支配に影響を与える可能性がある。 したがって、提案されたEU AI法の規定に従って、このアプリケーションをハイリスクAIに配置する。 われわれは、インド最高裁判所におけるAIの最大限の活用を、それが引き起こす危険にぶつかることなく、書き起こし、翻訳するためのアプローチに関するガイドラインを提示する。

The Supreme Court of India has been a pioneer in using ICT in courts through its e-Courts project in India. Yet another leap, its recent project, Design, Development, and Implementation of Artificial Intelligence (AI) solution, tools for transcribing arguments and Court proceedings at Supreme Court of India, has potential to impact the way AI algorithms are designed in India, and not just for this particular project. In this paper, we evaluate the endeavours of the Supreme Court of India in light of the state of AI technology as well as the attempts to regulate AI. We argue that since the project aims to transcribe and translate the proceedings of the constitutional benches of the Supreme Court, it has potential to impact rule of law in the country. Hence, we place this application in High Risk AI as per the provisions to the proposed EU AI Act. We provide some guidelines on the approach to transcribe and translate making the maximum use of AI in the Supreme Court of India without running into the dangers it may pose.
翻訳日:2023-09-20 17:58:25 公開日:2023-09-18
# 安定化符号に基づく状態生成とデータ分類のための量子アルゴリズム

Quantum Algorithms for State Preparation and Data Classification based on Stabilizer Codes ( http://arxiv.org/abs/2309.10087v1 )

ライセンス: Link先を確認
Pejman Jouzdani, H. Arslan Hashim, and Eduardo R. Mucciolo(参考訳) 量子誤り訂正(QEC)は、ノイズに対して量子情報を保護する方法である。 入力情報をコード空間として知られる絡み合った量子状態に符号化する。 さらに、符号化された情報が破損したか否かを分類するために、シンドローム検出と呼ばれるステップを実行する。 安定化器符号の場合、このステップは安定化器演算子の集合を測る。 本稿では,QECアプローチ,特に安定化符号に着想を得て,古典データの分類のための量子回路モデルの試作を提案する。 コア量子回路は、シンドローム検出に基づいて分類される 'emph{quantum perceptron} とみなすことができる。 この提案では、安定化器コードの一部として1つの安定化器によって量子パーセプトロンが実現され、多くの安定化器で構成される安定化器コードによって量子ニューラルネットワーク(QNN)層が実現される。 安定化符号の連結は複雑なQNNをもたらす。 QNNはパラメータ化安定化器のセットの測定と最適化によって訓練される。 我々はその概念を数値的に示す。 本稿では、量子コンピュータのメモリにデータをロードするデータ分類を含む、量子コンピュータのほとんどの応用における最初の課題についても考察する。 このロードは、データを量子状態、すなわち量子状態準備として表現するのと等しい。 正確な振幅符号化アルゴリズムは指数関数的深さの回路を必要とする。 基本ゲートの多項式数のみで振幅符号化を近似する別の再帰アルゴリズムを提案する。 再帰的近似スキームアルゴリズム (RASA) と呼ぶ。

Quantum error correction (QEC) is a way to protect quantum information against noise. It consists of encoding input information into entangled quantum states known as the code space. Furthermore, to classify if the encoded information is corrupted or intact, a step known as syndrome detection is performed. For stabilizer codes, this step consists of measuring a set of stabilizer operators. In this paper, inspired by the QEC approach, and specifically stabilizer codes, we propose a prototype quantum circuit model for classification of classical data. The core quantum circuit can be considered as a \emph{quantum perceptron} where the classification is based on syndrome detection. In this proposal, a quantum perceptron is realized by one stabilizer as part of a stabilizer code, while a quantum neural network (QNN) layer is realized by a stabilizer code which consists of many stabilizers. The concatenation of stabilizer codes results in complex QNNs. The QNN is trained by performing measurements and optimization of a set of parameterized stabilizers. We demonstrate the concept numerically. In this paper we also consider the first challenge to most applications of quantum computers, including data classification, which is to load data into the memory of the quantum computer. This loading amounts to representing the data as a quantum state, i.e., quantum state preparation. An exact amplitude encoding algorithm requires a circuit of exponential depth. We introduce an alternative recursive algorithm which approximates amplitude encoding with only a polynomial number of elementary gates. We name it recursive approximate-scheme algorithm (RASA).
翻訳日:2023-09-20 17:58:07 公開日:2023-09-18
# ソフトウェアセキュリティコースの演習におけるChatGPTの効果評価

Evaluating the Impact of ChatGPT on Exercises of a Software Security Course ( http://arxiv.org/abs/2309.10085v1 )

ライセンス: Link先を確認
Jingyue Li, Per H{\aa}kon Meland, Jakob Svennevik Notland, Andr\'e Storhaug, and Jostein Hjortland Tysse(参考訳) 大規模言語モデル(LLM)、例えばChatGPTの開発とともに、ソフトウェアセキュリティのための多くの既存のアプローチとツールが変化している。 したがって、これらのモデルがどのようにセキュリティに気付いていて、これらのモデルがソフトウェアのセキュリティプラクティスや教育に与える影響を理解することが不可欠である。 大学におけるソフトウェアセキュリティコースの演習では、最先端のツールを使用してWebアプリケーションに挿入する脆弱性を特定し、修正するよう学生に求めます。 ChatGPT、特にGPT-4モデルの後、学生がChatGPTを使って運動タスクを完了できるかを知りたい。 脆弱なコードをChatGPTに入力し、脆弱性の識別と修正の精度を測定する。 さらに,ChatGPTが,その出力をサポートするための適切な情報源を提供できるかどうかを検討した。 結果は、ChatGPTがWebアプリケーションに挿入した28の脆弱性のうち20をホワイトボックス設定で識別し、3つの偽陽性を報告し、挿入した脆弱性の他に4つの追加脆弱性を発見したことを示している。 ChatGPTは、学生が修正したい10の脆弱性に対して、9つの満足できる侵入テストと修正レコメンデーションを実施し、しばしば関連する情報ソースを指し示します。

Along with the development of large language models (LLMs), e.g., ChatGPT, many existing approaches and tools for software security are changing. It is, therefore, essential to understand how security-aware these models are and how these models impact software security practices and education. In exercises of a software security course at our university, we ask students to identify and fix vulnerabilities we insert in a web application using state-of-the-art tools. After ChatGPT, especially the GPT-4 version of the model, we want to know how the students can possibly use ChatGPT to complete the exercise tasks. We input the vulnerable code to ChatGPT and measure its accuracy in vulnerability identification and fixing. In addition, we investigated whether ChatGPT can provide a proper source of information to support its outputs. Results show that ChatGPT can identify 20 of the 28 vulnerabilities we inserted in the web application in a white-box setting, reported three false positives, and found four extra vulnerabilities beyond the ones we inserted. ChatGPT makes nine satisfactory penetration testing and fixing recommendations for the ten vulnerabilities we want students to fix and can often point to related sources of information.
翻訳日:2023-09-20 17:57:45 公開日:2023-09-18
# 不変確率予測

Invariant Probabilistic Prediction ( http://arxiv.org/abs/2309.10083v1 )

ライセンス: Link先を確認
Alexander Henzi and Xinwei Shen and Michael Law and Peter B\"uhlmann(参考訳) 近年,トレーニングデータとテストデータ間の分布変化において,ロバストな性能を示す統計手法への関心が高まっている。 関連研究の多くは2乗誤差損失を伴う点予測に焦点をあてているが、この記事では、共変量による結果変数の不確かさを包括的に定量化することを目的とした確率的予測に焦点をあてる。 因果性に触発された枠組みの中で,適切なスコアリングルールに対する確率的予測の不均一性とロバスト性について検討する。 任意の分布シフトは、一般に、点予測の設定とは対照的に、不変かつ頑健な確率的予測を認めないことを示す。 本稿では,評価指標の選択方法を説明し,分布シフトのクラスを制限し,原型ガウス型ヘテロシドスティック線形モデルにおける識別性と不変性を可能にする。 そこで本研究では,IPPと呼ばれる不変確率予測手法を提案し,その基礎となるパラメータの整合性について検討する。 最後に,提案手法のシミュレーションおよび単一セルデータ上での実証的な性能を示す。

In recent years, there has been a growing interest in statistical methods that exhibit robust performance under distribution changes between training and test data. While most of the related research focuses on point predictions with the squared error loss, this article turns the focus towards probabilistic predictions, which aim to comprehensively quantify the uncertainty of an outcome variable given covariates. Within a causality-inspired framework, we investigate the invariance and robustness of probabilistic predictions with respect to proper scoring rules. We show that arbitrary distribution shifts do not, in general, admit invariant and robust probabilistic predictions, in contrast to the setting of point prediction. We illustrate how to choose evaluation metrics and restrict the class of distribution shifts to allow for identifiability and invariance in the prototypical Gaussian heteroscedastic linear model. Motivated by these findings, we propose a method to yield invariant probabilistic predictions, called IPP, and study the consistency of the underlying parameters. Finally, we demonstrate the empirical performance of our proposed procedure on simulated as well as on single-cell data.
翻訳日:2023-09-20 17:57:23 公開日:2023-09-18
# 量子計算複雑性と対称性

Quantum Computational Complexity and Symmetry ( http://arxiv.org/abs/2309.10081v1 )

ライセンス: Link先を確認
Soorya Rethinasamy, Margarite L. LaBorde, Mark M. Wilde(参考訳) 量子状態とチャネルの対称性をテストすることは、異なる物理、計算、通信タスクにおけるそれらの有用性を評価する方法を提供する。 本稿では,群と状態あるいはテスト中のチャネルのユニタリ表現を含む対称性テストの問題の難しさを分類する,いくつかの複雑性理論的な結果を確立する。 特に、これらの対称性試験問題は、BQP、QMA、QSZK、QIP(2)、QIP_EB(2)、QIPに対して完全であることが証明され、量子インタラクティブな証明階層の顕著なクラスにまたがり、対称性と量子計算複雑性の間の非自明な関係を形成できる。 最後に、QMA と QAM に2つのハミルトン対称性試験問題を含むことを証明し、これらの問題がこれらのクラスに対して完備かどうかを判断するために、興味深い開問題として残す。

Testing the symmetries of quantum states and channels provides a way to assess their usefulness for different physical, computational, and communication tasks. Here, we establish several complexity-theoretic results that classify the difficulty of symmetry-testing problems involving a unitary representation of a group and a state or a channel that is being tested. In particular, we prove that various such symmetry-testing problems are complete for BQP, QMA, QSZK, QIP(2), QIP_EB(2), and QIP, thus spanning the prominent classes of the quantum interactive proof hierarchy and forging a non-trivial connection between symmetry and quantum computational complexity. Finally, we prove the inclusion of two Hamiltonian symmetry-testing problems in QMA and QAM, while leaving it as an intriguing open question to determine whether these problems are complete for these classes.
翻訳日:2023-09-20 17:57:05 公開日:2023-09-18
# ゲーム:思春期精神障害早期スクリーニングのためのマルチモーダルデータ統合に向けた汎用ディープラーニングモデル

GAME: Generalized deep learning model towards multimodal data integration for early screening of adolescent mental disorders ( http://arxiv.org/abs/2309.10077v1 )

ライセンス: Link先を確認
Zhicheng Du, Chenyao Jiang, Xi Yuan, Shiyao Zhai, Zhengyang Lei, Shuyue Ma, Yang Liu, Qihui Ye, Chufan Xiao, Qiming Huang, Ming Xu, Dongmei Yu, Peiwu Qin(参考訳) 青年期における精神障害のタイムリーな識別は、公衆衛生上の課題であり、その複雑で微妙な性質による異常を検出することは困難である。 さらに、青年期の精神障害に対する対話型ロボットを用いた汎用マルチモーダルコンピュータ支援スクリーニング(CAS)システムも利用できない。 そこで我々は,3,783人の中学生をスクリーニングし,顔画像,生理学的サイン,音声記録,テキスト書き起こしを含むマルチモーダルスクリーニングデータセットを構築するために,携帯型ロボットに展開するミニゲームとチャット記録を備えたアンドロイドアプリケーションを設計し,GAME(Generalized Model with Attention and Multimodal EmbraceNet)と呼ばれるモデルを開発した。 GAMEは青年期の精神状態を高い精度 (73.34%-92.77%) とF1スコア (71.32%-91.06%) で評価している。 それぞれのモダリティは様々な精神疾患のスクリーニングと共生に動的に寄与し,説明可能なモデルの実現可能性を示している。 本研究は, 青年期精神疾患の早期スクリーニングを目的とした, マルチモーダル情報を取得し, 汎用多モーダル統合アルゴリズムを構築するシステムを提案する。

The timely identification of mental disorders in adolescents is a global public health challenge.Single factor is difficult to detect the abnormality due to its complex and subtle nature. Additionally, the generalized multimodal Computer-Aided Screening (CAS) systems with interactive robots for adolescent mental disorders are not available. Here, we design an android application with mini-games and chat recording deployed in a portable robot to screen 3,783 middle school students and construct the multimodal screening dataset, including facial images, physiological signs, voice recordings, and textual transcripts.We develop a model called GAME (Generalized Model with Attention and Multimodal EmbraceNet) with novel attention mechanism that integrates cross-modal features into the model. GAME evaluates adolescent mental conditions with high accuracy (73.34%-92.77%) and F1-Score (71.32%-91.06%).We find each modality contributes dynamically to the mental disorders screening and comorbidities among various mental disorders, indicating the feasibility of explainable model. This study provides a system capable of acquiring multimodal information and constructs a generalized multimodal integration algorithm with novel attention mechanisms for the early screening of adolescent mental disorders.
翻訳日:2023-09-20 17:56:47 公開日:2023-09-18
# 6dBではない:熱背景におけるガウス量子照明

Not even 6 dB: Gaussian quantum illumination in thermal background ( http://arxiv.org/abs/2309.10071v1 )

ライセンス: Link先を確認
T. J. Volkoff(参考訳) 熱的背景におけるガウス状態送信器を用いたターゲット検出の解析において, 対象反射率に依存する熱的占有を, 対称量子仮説検定問題の解析を単純化する手法として採用する。 しかし、この仮定は、任意の送信機と真空状態送信機との目標検出性能の比較を妨げ、すなわち、光影や他の背景の摂動によって目標を検出できるため、明るい熱背景に関係している「照明のない検出」を妨げている。 高占有熱環境下でのコヒーレント状態送信機上での2モード圧縮真空送信機に対する量子チャーノフ指数の6dB低減が達成不可能な制限値であり、ターゲット検出問題が異常な極限でのみ発生する。 さらに、ターゲットに依存しない熱環境における量子照明の解析により、弱い単一モードの圧縮送信機は、反射低強度の圧縮光のノイズ増大特性により説明される「無照明」よりも良くなることを示した。

In analyses of target detection with Gaussian state transmitters in a thermal background, the thermal occupation is taken to depend on the target reflectivity in a way which simplifies the analysis of the symmetric quantum hypothesis testing problem. However, this assumption precludes comparison of target detection performance between an arbitrary transmitter and a vacuum state transmitter, i.e., "detection without illumination", which is relevant in a bright thermal background because a target can be detected by its optical shadow or some other perturbation of the background. Using a target-agnostic thermal environment leads to the result that the oft-claimed 6 dB possible reduction in the quantum Chernoff exponent for a two-mode squeezed vacuum transmitter over a coherent state transmitter in high-occupation thermal background is an unachievable limiting value, only occurring in a limit in which the target detection problem is ill-posed. Further analyzing quantum illumination in a target-agnostic thermal environment shows that a weak single-mode squeezed transmitter performs worse than "no illumination", which is explained by the noise-increasing property of reflected low-intensity squeezed light.
翻訳日:2023-09-20 17:56:25 公開日:2023-09-18
# 量子位置検証の実証実験に向けて:作業ノート

Towards a proof-of-principle experimental demonstration of quantum position verification: working notes ( http://arxiv.org/abs/2309.10070v1 )

ライセンス: Link先を確認
George Cowperthwaite, Adrian Kent and Damian Pitalua-Garcia(参考訳) 我々は,様々なセキュリティシナリオにおいて,タギングデバイスが古典的データを安全に保持できるという仮定に基づいて,量子位置検証方式を提案する。 本稿では,実証実験の実施方法について述べる。

We discuss versions quantum position verification schemes based on the assumption that a tagging device can keep classical data secure [Kent,2011] in various security scenarios. We describe how a proof-of-principle demonstration might be carried out.
翻訳日:2023-09-20 17:56:02 公開日:2023-09-18
# 脳老化における性差 : パーキンソン病を中心に

Sex-based Disparities in Brain Aging: A Focus on Parkinson's Disease ( http://arxiv.org/abs/2309.10069v1 )

ライセンス: Link先を確認
Iman Beheshti, Samuel Booth, and Ji Hyun Ko(参考訳) PDはより速い脳の老化に結びついている。 性はPDにおいて重要な要因として認識されており、男性は女性より2倍の確率で病気を患っており、より重篤な症状を持ち、進行速度が速い。 これまでの研究にもかかわらず、pd患者の脳老化過程における性機能の理解には大きなギャップがある。 健常者949名を対象に訓練したロバストな脳年齢推定フレームワークを用いて,ppmiデータベースから373名のpd患者を対象にt1強調mriによる脳予測年齢差を算出した。 脳-PADと性差によるPDの臨床的変数との関連について,線形回帰モデルを用いて検討した。 全女性PD患者を相関分析に用い, 年齢, 教育水準, 症状発症年齢, 臨床症状の重症度を考慮し, 同じ数の男性を正当性スコアマッチング法で選択した。 パーキンソン病の患者群は, 人口, 運動量, 運動量以外の症状と一致したが, パーキンソン病の男性群では, 女性群よりも有意に脳年齢差が高かった。 pd男性群では,脳パッドは一般認知の低下,睡眠行動障害の悪化, visuospatial acuityの低下,caudate atrophyと関連していることがわかった。 逆にPD女性群ではこれらの因子と脳-PADとの間に有意な関連は認められなかった。

PD is linked to faster brain aging. Sex is recognized as an important factor in PD, such that males are twice as likely as females to have the disease and have more severe symptoms and a faster progression rate. Despite previous research, there remains a significant gap in understanding the function of sex in the process of brain aging in PD patients. The T1-weighted MRI-driven brain-predicted age difference was computed in a group of 373 PD patients from the PPMI database using a robust brain-age estimation framework that was trained on 949 healthy subjects. Linear regression models were used to investigate the association between brain-PAD and clinical variables in PD, stratified by sex. All female PD patients were used in the correlational analysis while the same number of males were selected based on propensity score matching method considering age, education level, age of symptom onset, and clinical symptom severity. Despite both patient groups being matched for demographics, motor and non-motor symptoms, it was observed that males with Parkinson's disease exhibited a significantly higher mean brain age-delta than their female counterparts . In the propensity score-matched PD male group, brain-PAD was found to be associated with a decline in general cognition, a worse degree of sleep behavior disorder, reduced visuospatial acuity, and caudate atrophy. Conversely, no significant links were observed between these factors and brain-PAD in the PD female group.
翻訳日:2023-09-20 17:55:57 公開日:2023-09-18
# ランダム合金GaBi$_{x}$As$_{1-x}$バリアのInAs量子ドット分子への導入:合金ひずみとトンネル強化への軌道効果

Incorporation of random alloy GaBi$_{x}$As$_{1-x}$ barriers in InAs quantum dot molecules: alloy strain and orbital effects towards enhanced tunneling ( http://arxiv.org/abs/2309.10115v1 )

ライセンス: Link先を確認
Arthur Lin, Matthew F. Doty, Garnett W. Bryant(参考訳) 長いホールスピンコヒーレンス時間を持ち、光学制御スキームに適する自己組み立てinas量子ドット(qds)は、長い間、キュービットアーキテクチャのビルディングブロックとして研究されてきた。 そのような設計の一つは、2つのQDを垂直に積み重ねて量子ドット分子(QDM)を作成することである。 2つのドットは共振的に調整され、各ドットに非局在化されたホール状態のハイブリダイゼーションから「分子様」結合穴状態を形成する。 さらに、ドットの積層方向に沿ってオフセットされたハイブリッド状態のスピンミキシングにより、クビット回転を光学的に駆動することができ、全光量子制御方式が可能である。 このスピン混合の大きさの増大は、光量子制御プロトコルにおいて重要である。 ドット間のトンネル結合とスピン混合を強化するため、GaAs間障壁にBiを導入する。 従来,InAs/GaBiAsを原子性強結合形式でモデル化する方法,および合金によるドットエネルギーレベルの影響について検討した。 本稿では, 7%の合金が存在する場合, 孔孔結合強度を3倍に増やすトンネルバリアの低下について検討する。 さらに, 合金による2点間の非対称ひずみが共鳴をいかにシフトさせるかを示す。 最後に、biの導入が最も有利なデバイスジオメトリについて論じる。

Self-assembled InAs quantum dots (QDs), which have long hole-spin coherence times and are amenable to optical control schemes, have long been explored as building blocks for qubit architectures. One such design consists of vertically stacking two QDs to create a quantum dot molecule (QDM). The two dots can be resonantly tuned to form "molecule-like" coupled hole states from the hybridization of hole states otherwise localized in each respective dot. Furthermore, spin-mixing of the hybridized states in dots offset along their stacking direction enables qubit rotation to be driven optically, allowing for an all-optical qubit control scheme. Increasing the magnitude of this spin mixing is important for optical quantum control protocols. To enhance the tunnel coupling and spin-mixing across the dots, we introduce Bi in the GaAs inter-dot barrier. Previously, we showed how to model InAs/GaBiAs in an atomistic tight-binding formalism, and how the dot energy levels are affected by the alloy. In this paper, we discuss the lowering of the tunnel barrier, which results in a three fold increase of hole tunnel coupling strength in the presence of a 7% alloy. Additionally, we show how an asymmetric strain between the two dots caused by the alloy shifts the resonance. Finally, we discuss device geometries for which the introduction of Bi is most advantageous.
翻訳日:2023-09-20 17:51:03 公開日:2023-09-18
# 不均質PT対称連続媒体における位相モードとスペクトル流

Topological modes and spectral flows in inhomogeneous PT-symmetric continuous media ( http://arxiv.org/abs/2309.10110v1 )

ライセンス: Link先を確認
Yichen Fu, Hong Qin(参考訳) エルミート連続媒質では、トポロジカルエッジモードのスペクトルフロー指数はインデックス定理を通じてバルクトポロジにリンクされる。 しかし、古典流体やプラズマにおけるほとんどの不均一連続媒体は非エルミート的である。 系がPT対称で漸近的にエルミート的であれば、トポロジカルエッジモードとバルクトポロジの接続はこれらの非エルミート的連続媒質に依然として存在することを示す。 この理論の枠組みはホール磁力力学モデルに応用され、磁化プラズマ中の位相 Alfv\'{e}n-音波と呼ばれる位相的エッジモードを同定する。

In Hermitian continuous media, the spectral-flow index of topological edge modes is linked to the bulk topology via index theorem. However, most inhomogeneous continuous media in classical fluids and plasmas are non-Hermitian. We show that the connection between topological edge modes and bulk topology still exists in these non-Hermitian continuous media if the systems are PT-symmetric and asymptotically Hermitian. The theoretical framework developed is applied to the Hall magnetohydrodynamic model to identify a topological edge mode called topological Alfv\'{e}n-sound wave in magnetized plasmas.
翻訳日:2023-09-20 17:50:37 公開日:2023-09-18
# AR-TTA: 実世界連続テスト時間適応のための簡易手法

AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation ( http://arxiv.org/abs/2309.10109v1 )

ライセンス: Link先を確認
Damian S\'ojka, Sebastian Cygert, Bart{\l}omiej Twardowski and Tomasz Trzci\'nski(参考訳) テスト時適応は、ソースモデルが監督なしでデータ配布の変化に適応できる有望な研究方向である。 しかし、現在の手法は通常、実際のシナリオを単純化したベンチマークで評価される。 そこで本研究では,最近導入された自律運転用データセットであるCLAD-CとShiFTを用いて,テスト時間適応手法を検証する。 現在のテスト時間適応手法は、ドメインシフトの度合いを効果的に扱うのに苦労しており、多くの場合、ソースモデルよりも劣る劣化したパフォーマンスをもたらす。 この問題の根源は、ソースモデルの知識を保存できず、動的に変化する時間的相関データストリームに適応できないことであることに気づきました。 そこで我々は,小さなメモリバッファを組み込んでモデル安定性を向上し,ドメインシフトの強度に基づいて動的適応を行うことにより,確立された自己学習フレームワークを強化する。 提案手法はAR-TTAと呼ばれ、合成およびより現実的なベンチマークにおいて既存の手法よりも優れ、様々なTTAシナリオにおいて堅牢性を示す。

Test-time adaptation is a promising research direction that allows the source model to adapt itself to changes in data distribution without any supervision. Yet, current methods are usually evaluated on benchmarks that are only a simplification of real-world scenarios. Hence, we propose to validate test-time adaptation methods using the recently introduced datasets for autonomous driving, namely CLAD-C and SHIFT. We observe that current test-time adaptation methods struggle to effectively handle varying degrees of domain shift, often resulting in degraded performance that falls below that of the source model. We noticed that the root of the problem lies in the inability to preserve the knowledge of the source model and adapt to dynamically changing, temporally correlated data streams. Therefore, we enhance well-established self-training framework by incorporating a small memory buffer to increase model stability and at the same time perform dynamic adaptation based on the intensity of domain shift. The proposed method, named AR-TTA, outperforms existing approaches on both synthetic and more real-world benchmarks and shows robustness across a variety of TTA scenarios.
翻訳日:2023-09-20 17:50:25 公開日:2023-09-18
# インシシット推論による言語モデルにおける破滅的予測の理解

Understanding Catastrophic Forgetting in Language Models via Implicit Inference ( http://arxiv.org/abs/2309.10105v1 )

ライセンス: Link先を確認
Suhas Kotha, Jacob Mitchell Springer, Aditi Raghunathan(参考訳) 微調整(指示のチューニングや人間のフィードバックからの強化学習など)は、言語モデルのトレーニングにおいて重要なステップであり、関心のあるタスクを堅牢に実行する。 しかし,細調整の影響,特に細調整分布の狭いタスクに対する系統的な理解が欠如している。 単純化されたシナリオでは、微調整データ分散におけるタスクの性能向上は、他のタスクのモデル能力の抑制に費やされる。 この劣化は、微調整分布に「最も近い」タスクで特に発音される。 我々は、言語モデルが暗黙的にプロンプトのタスクを推測すると仮定し、微調整プロセスは、主にこのタスク推論を微調整分布のタスクへと歪めている。 この仮説をテストするために,事前訓練した能力を回復できるかどうかを確認するための共役式を提案する。 共役プロンプトは、同じ能力を必要としながら、タスクを微調整分布から遠ざからせる。 共役は, 合成装置上での事前学習能力を系統的に回復させる。 次に、直交分布が典型的には英語に強く歪んでいるという観察を用いて、実世界のLLMに共役プロンプトを適用する。 単にプロンプトを異なる言語に翻訳するだけで、微調整されたモデルが事前に訓練されたモデルのように応答する可能性がある。 これにより,ChatGPTのようなチャットボットの安全性向上によって抑制された有害なコンテンツ生成を,インストラクションチューニングによって失われるコンテキスト内学習能力を回復することができる。

Fine-tuning (via methods such as instruction-tuning or reinforcement learning from human feedback) is a crucial step in training language models to robustly carry out tasks of interest. However, we lack a systematic understanding of the effects of fine-tuning, particularly on tasks outside the narrow fine-tuning distribution. In a simplified scenario, we demonstrate that improving performance on tasks within the fine-tuning data distribution comes at the expense of suppressing model capabilities on other tasks. This degradation is especially pronounced for tasks "closest" to the fine-tuning distribution. We hypothesize that language models implicitly infer the task of the prompt corresponds, and the fine-tuning process predominantly skews this task inference towards tasks in the fine-tuning distribution. To test this hypothesis, we propose Conjugate Prompting to see if we can recover pretrained capabilities. Conjugate prompting artificially makes the task look farther from the fine-tuning distribution while requiring the same capability. We find that conjugate prompting systematically recovers some of the pretraining capabilities on our synthetic setup. We then apply conjugate prompting to real-world LLMs using the observation that fine-tuning distributions are typically heavily skewed towards English. We find that simply translating the prompts to different languages can cause the fine-tuned models to respond like their pretrained counterparts instead. This allows us to recover the in-context learning abilities lost via instruction tuning, and more concerningly, to recover harmful content generation suppressed by safety fine-tuning in chatbots like ChatGPT.
翻訳日:2023-09-20 17:50:03 公開日:2023-09-18
# 効果的な屋外物体ナビゲーションのための見当たらない理由

Reasoning about the Unseen for Efficient Outdoor Object Navigation ( http://arxiv.org/abs/2309.10103v1 )

ライセンス: Link先を確認
Quanting Xie, Tianyi Zhang, Kedi Xu, Matthew Johnson-Roberson, and Yonatan Bisk(参考訳) ロボットは、屋内、屋外、さらには未熟な環境など、どこにでも存在すべきである。 対照的に、最近のOGN(Object Goal Navigation)の進歩の焦点は、屋外を一般化しない空間的・意味的な手がかりを活用することで、屋内環境におけるナビゲーションを目標にしている。 これらの貢献は屋内のシナリオに対する貴重な洞察を提供するが、現実世界のロボットアプリケーションの幅広い範囲は屋外環境にも及んでいる。 屋外環境の広大な複雑な地形に移行するにつれて、新たな課題が生まれます。 屋内で見られる構造的なレイアウトとは異なり、屋外環境は明確な空間的境界を欠き、固有の意味的曖昧さに満ちている。 それにもかかわらず、人間は目に見えないものを推論できるので、簡単に移動できます。 本稿では,新しいタスクアウトドア,可能未来を正確に示すための大規模言語モデル(llms)のための新しいメカニズム,より複雑な領域で研究を進めるための計算的に認識された新しい成功指標を紹介する。 さらに、シミュレーションされたドローンと屋外環境における物理的四足歩行の両方に印象的な結果を示す。 私たちのエージェントはプリマッピングがなく、フォーマリズムはナイーブLSMベースのアプローチよりも優れています。

Robots should exist anywhere humans do: indoors, outdoors, and even unmapped environments. In contrast, the focus of recent advancements in Object Goal Navigation(OGN) has targeted navigating in indoor environments by leveraging spatial and semantic cues that do not generalize outdoors. While these contributions provide valuable insights into indoor scenarios, the broader spectrum of real-world robotic applications often extends to outdoor settings. As we transition to the vast and complex terrains of outdoor environments, new challenges emerge. Unlike the structured layouts found indoors, outdoor environments lack clear spatial delineations and are riddled with inherent semantic ambiguities. Despite this, humans navigate with ease because we can reason about the unseen. We introduce a new task OUTDOOR, a new mechanism for Large Language Models (LLMs) to accurately hallucinate possible futures, and a new computationally aware success metric for pushing research forward in this more complex domain. Additionally, we show impressive results on both a simulated drone and physical quadruped in outdoor environments. Our agent has no premapping and our formalism outperforms naive LLM-based approaches
翻訳日:2023-09-20 17:49:36 公開日:2023-09-18
# 矢印逆方向のCNOTゲートの実行予測

Predictions on the execution of a CNOT gate of the reverse of the arrow of time ( http://arxiv.org/abs/2309.10099v1 )

ライセンス: Link先を確認
G. Morales, M. \'Avila, F. Soberanes(参考訳) 最近、IBM量子コンピュータの優れた応用として、時間の矢印を反転させることが指摘されている[Lesovik et al. Sci. Rep. 9, 1 (2019)]。 量子デバイスによるCNOTゲートの実行における時間矢印の反転の結果の問題に対処する。 cnotゲートが将来に向けて実行される場合、これは以前にも実行されていたと予測されている。 上記のことは、現在ある事象が過去の出来事に影響を及ぼすというパラダイムを裏付けるかもしれない[2]。 このような物理現象を逆因性と呼ぶ。

Recently it has been pointed out that an outstanding application of an IBM quantum computer is to reverse the arrow of time [Lesovik et al. Sci. Rep. 9, 1 (2019)]. The issue of the consequences of the reversal of the arrow of time on the execution of a CNOT gate by a quantum device is addressed. It is predicted that if the CNOT gate is executed towards the future then this was previously executed in the past. The above might confirm the paradigm that an event in the present time influences another event in the past time [2]. Such a physical phenomena is called retrocausality.
翻訳日:2023-09-20 17:49:17 公開日:2023-09-18
# 電力系統イベント同定のための半監督的アプローチ

A Semi-Supervised Approach for Power System Event Identification ( http://arxiv.org/abs/2309.10095v1 )

ライセンス: Link先を確認
Nima Taghipourbazargani, Lalitha Sankar, Oliver Kosut(参考訳) 電力システムの信頼性、安全性、安定性を高める上で、イベント識別が重要視されている。 Phasor Measurement Units(PMU)の展開とデータサイエンスの進歩により、機械学習の分類技術を通じて、データ駆動のイベント識別を探求する有望な機会がある。 しかし、労働集約性やイベントタイプ(クラス)に関する不確実性から、正確なラベル付き事象PMUデータサンプルの取得は依然として困難である。 したがって、ラベル付きサンプルとラベルなしサンプルの両方を利用する半教師付き学習技術を使うことは自然である。 %) の半教師付きフレームワークを提案し, 既存のイベント識別手法を強化するためにラベルなしのイベントフルサンプルを組み込むことの有効性を評価した。 古典的半教師ありアプローチの3つのカテゴリを評価する。 (一)自習、 (ii)トランスダクティブサポートベクターマシン(TSVM)、及び (iii)グラフに基づくラベル拡散(ls)法。 本手法は,合成イベントフルpsmデータのモーダル解析から抽出した物理的解釈可能な特徴を用いてイベントを特徴付ける。 特に、グリッド操作に重要な識別を持つ4つのイベントクラスの識別に注目する。 半教師付き手法を用いて,データ生成,特徴抽出,限定ラベルによるイベント識別という3つの側面からなる包括的イベント識別パッケージを開発し,公開している。 本パッケージを用いて,サウスカロライナの合成ネットワークにおけるPMUデータの生成と評価を行う。 評価の結果、グラフベースlsは他の2つの半教師付き手法よりも優れており、少数のラベル付きサンプルでのみ、設定に対するイベント識別性能が顕著に向上することが示された。

Event identification is increasingly recognized as crucial for enhancing the reliability, security, and stability of the electric power system. With the growing deployment of Phasor Measurement Units (PMUs) and advancements in data science, there are promising opportunities to explore data-driven event identification via machine learning classification techniques. However, obtaining accurately-labeled eventful PMU data samples remains challenging due to its labor-intensive nature and uncertainty about the event type (class) in real-time. Thus, it is natural to use semi-supervised learning techniques, which make use of both labeled and unlabeled samples. %We propose a novel semi-supervised framework to assess the effectiveness of incorporating unlabeled eventful samples to enhance existing event identification methodologies. We evaluate three categories of classical semi-supervised approaches: (i) self-training, (ii) transductive support vector machines (TSVM), and (iii) graph-based label spreading (LS) method. Our approach characterizes events using physically interpretable features extracted from modal analysis of synthetic eventful PMU data. In particular, we focus on the identification of four event classes whose identification is crucial for grid operations. We have developed and publicly shared a comprehensive Event Identification package which consists of three aspects: data generation, feature extraction, and event identification with limited labels using semi-supervised methodologies. Using this package, we generate and evaluate eventful PMU data for the South Carolina synthetic network. Our evaluation consistently demonstrates that graph-based LS outperforms the other two semi-supervised methods that we consider, and can noticeably improve event identification performance relative to the setting with only a small number of labeled samples.
翻訳日:2023-09-20 17:49:05 公開日:2023-09-18
# データフォーミュラ - AIによる概念駆動可視化オーサリング

Data Formulator: AI-powered Concept-driven Visualization Authoring ( http://arxiv.org/abs/2309.10094v1 )

ライセンス: Link先を確認
Chenglong Wang, John Thompson, Bongshin Lee(参考訳) ほとんどの現代的な視覚化ツールでは、著者はデータをティディなフォーマットに変換して、望む視覚化を作成する必要があります。 これは、プログラミングまたは別々のデータ処理ツールの経験を必要とするため、データ変換はビジュアライゼーションのオーサリングにおける障壁である。 この課題に対処するために、我々はaiエージェントを利用して、高レベルの可視化インテントと低レベルのデータ変換ステップを分離する新しい可視化パラダイムであるコンセプトバインディングを提案する。 我々はこのパラダイムをインタラクティブな可視化オーサリングツールであるData Formulatorで実現した。 Data Formulatorでは、著者がまず自然言語や例を使って視覚化するデータ概念を定義し、それをビジュアルチャネルにバインドする。 データフォーミュラはAIエージェントを送信し、入力データを自動的に変換してこれらの概念をサーフェスし、望ましい視覚化を生成する。 aiエージェントから結果(変換されたテーブルと出力の視覚化)を提示する場合、data formulatorは著者の検査と理解を支援するフィードバックを提供する。 10人の参加者によるユーザスタディでは、参加者がデータフォーミュラを学習し、データ変換に挑戦する視覚化を作成し、今後の興味深い研究の方向性を示すことができる。

With most modern visualization tools, authors need to transform their data into tidy formats to create visualizations they want. Because this requires experience with programming or separate data processing tools, data transformation remains a barrier in visualization authoring. To address this challenge, we present a new visualization paradigm, concept binding, that separates high-level visualization intents and low-level data transformation steps, leveraging an AI agent. We realize this paradigm in Data Formulator, an interactive visualization authoring tool. With Data Formulator, authors first define data concepts they plan to visualize using natural languages or examples, and then bind them to visual channels. Data Formulator then dispatches its AI-agent to automatically transform the input data to surface these concepts and generate desired visualizations. When presenting the results (transformed table and output visualizations) from the AI agent, Data Formulator provides feedback to help authors inspect and understand them. A user study with 10 participants shows that participants could learn and use Data Formulator to create visualizations that involve challenging data transformations, and presents interesting future research directions.
翻訳日:2023-09-20 17:48:18 公開日:2023-09-18
# 大規模言語モデルを用いたコンフォーメーショナル時相論理計画:いつ、いつ、いつ助けを求めるかを知る

Conformal Temporal Logic Planning using Large Language Models: Knowing When to Do What and When to Ask for Help ( http://arxiv.org/abs/2309.10092v1 )

ライセンス: Link先を確認
Jun Wang, Jiaming Tong, Kaiyuan Tan, Yevgeniy Vorobeychik, Yiannis Kantaros(参考訳) 本稿では,自然言語(NL)を用いて時間的・論理的順序で表現された複数のハイレベルなサブタスクを遂行する移動ロボットの新しい動作計画問題に対処する。 このようなミッションを正式に定義するために、NLに基づく原子述語をモデル化したLTLを利用する。 これは、所望の低レベルシステム構成をキャプチャする原子述語よりもLTLタスクを定義する関連する計画手法とは対照的である。 我々の目標は、NLに基づく原子命題上で定義されたLTLタスクを満たすロボット計画を設計することである。 この設定で生じる新しい技術的課題は、そのようなltlエンコードされたタスクに関してロボット計画の正確性に関する推論である。 この問題に対処するため,我々は階層型共形自然言語プランナーであるheraclesを提案する。 (i)ロボットが次に達成すべきnl特定サブタスクを決定するためのオートマトン理論 (二)これらのサブタスクを満たすロボット計画を設計するための大型言語モデル 三 設計計画の正しさ及びミッション満足度を確率論的に推理し、外部援助が必要かどうかを判断すること。 モバイル操作タスクに関する広範な比較実験を行う。 プロジェクトウェブサイトはltl-llm.github.io。

This paper addresses a new motion planning problem for mobile robots tasked with accomplishing multiple high-level sub-tasks, expressed using natural language (NL), in a temporal and logical order. To formally define such missions, we leverage LTL defined over NL-based atomic predicates modeling the considered NL-based sub-tasks. This is contrast to related planning approaches that define LTL tasks over atomic predicates capturing desired low-level system configurations. Our goal is to design robot plans that satisfy LTL tasks defined over NL-based atomic propositions. A novel technical challenge arising in this setup lies in reasoning about correctness of a robot plan with respect to such LTL-encoded tasks. To address this problem, we propose HERACLEs, a hierarchical conformal natural language planner, that relies on a novel integration of existing tools that include (i) automata theory to determine the NL-specified sub-task the robot should accomplish next to make mission progress; (ii) Large Language Models to design robot plans satisfying these sub-tasks; and (iii) conformal prediction to reason probabilistically about correctness of the designed plans and mission satisfaction and to determine if external assistance is required. We provide extensive comparative experiments on mobile manipulation tasks. The project website is ltl-llm.github.io.
翻訳日:2023-09-20 17:47:19 公開日:2023-09-18
# ビデオテキスト検索のための一意な粗直列アライメント

Unified Coarse-to-Fine Alignment for Video-Text Retrieval ( http://arxiv.org/abs/2309.10091v1 )

ライセンス: Link先を確認
Ziyang Wang, Yi-Lin Sung, Feng Cheng, Gedas Bertasius, Mohit Bansal(参考訳) ビデオテキスト検索の標準的アプローチは、ビジュアル情報とテキスト情報の粗粒度または細粒度アライメントを利用する。 しかし、テキストクエリによる正しいビデオの検索は、高レベル(シーン)と低レベル(オブジェクト)の両方の視覚的手がかりと、それらがテキストクエリとどのように関連しているかを判断する能力を必要とするため、しばしば困難である。 この目的のために、UCoFiAと呼ばれる統一粗粒配向モデルを提案する。 具体的には,異なる粒度レベルでのクロスモーダル類似性情報を取り込む。 無関係な視覚的手がかりの効果を軽減するため,異なる視覚的特徴の重要性を考慮した対話的類似度集計モジュール (ISA) を適用し,各粒度に対する類似度スコアを得る。 最後に、Sinkhorn-Knoppアルゴリズムを用いて各レベルの類似性を正規化し、異なるレベルでのオーバー・アンド・アンダー・表現問題を緩和する。 異なる粒度のクロスモーダル類似性を考えることにより、UCoFiAは多重粒度アライメントを効果的に統一することができる。 UCoFiAは、MSR-VTT、Activity-Net、DiDeMoにおけるテキスト間検索R@1の2.4%、1.4%、および1.3%の改善を達成し、従来のCLIPベースの手法よりも優れている。 私たちのコードはhttps://github.com/Ziyang412/UCoFiA.comで公開されています。

The canonical approach to video-text retrieval leverages a coarse-grained or fine-grained alignment between visual and textual information. However, retrieving the correct video according to the text query is often challenging as it requires the ability to reason about both high-level (scene) and low-level (object) visual clues and how they relate to the text query. To this end, we propose a Unified Coarse-to-fine Alignment model, dubbed UCoFiA. Specifically, our model captures the cross-modal similarity information at different granularity levels. To alleviate the effect of irrelevant visual clues, we also apply an Interactive Similarity Aggregation module (ISA) to consider the importance of different visual features while aggregating the cross-modal similarity to obtain a similarity score for each granularity. Finally, we apply the Sinkhorn-Knopp algorithm to normalize the similarities of each level before summing them, alleviating over- and under-representation issues at different levels. By jointly considering the crossmodal similarity of different granularity, UCoFiA allows the effective unification of multi-grained alignments. Empirically, UCoFiA outperforms previous state-of-the-art CLIP-based methods on multiple video-text retrieval benchmarks, achieving 2.4%, 1.4% and 1.3% improvements in text-to-video retrieval R@1 on MSR-VTT, Activity-Net, and DiDeMo, respectively. Our code is publicly available at https://github.com/Ziyang412/UCoFiA.
翻訳日:2023-09-20 17:46:37 公開日:2023-09-18
# ネットワークトレースによるリアルなWebサイトフィンガープリント

Realistic Website Fingerprinting By Augmenting Network Trace ( http://arxiv.org/abs/2309.10147v1 )

ライセンス: Link先を確認
Alireza Bahramali, Ardavan Bozorgi, Amir Houmansadr(参考訳) Webサイトフィンガープリント(WF)は、Torユーザー(および他の匿名システム)の匿名性に対する大きな脅威と考えられている。 最先端のWF技術は、例えばディープニューラルネットワーク(DNN)を活用して高い攻撃精度を主張しているが、近年のいくつかの研究は、これらの攻撃の設計と評価の前提から、現実世界におけるそのようなWF攻撃の実用性に疑問を呈している。 本研究では,攻撃者が網羅的なネットワーク条件下でのトレーニングデータを収集できないこと,例えば,WF分類器は,特定の高帯域ネットワークリンク上で収集されたサンプルに対してのみ訓練されるが,異なるネットワーク条件との接続に展開される。 ネットワークトレースの増大は、未観測のネットワーク条件下でWF分類器の性能を向上させることができることを示す。 具体的には,Torトレースの仕様に合わせた拡張手法であるNetAugmentを紹介する。 我々は,NetAugmentを半教師付き,自己教師型学習技術によりインスタンス化する。 我々の大規模なオープンワールドとクローズワールドの実験では、我々のWF攻撃は、実際の評価設定の下で、最先端技術と比較して優れたパフォーマンスを提供することを示した。 例えば、クローズドワールドシナリオでの5ショットの学習では、WF敵が観測していない設定で評価用トレースを収集すると、自己教師型WF攻撃(NetCLR)が最大80%精度に達する。 これは最先端のトリプルトフィンガープリント[35]によって達成された64.4%の精度と比較される。 我々の研究の有望な成果は、他の種類のネットワークトラフィック分析におけるネットワークトレース拡張の利用を促進することができると信じている。

Website Fingerprinting (WF) is considered a major threat to the anonymity of Tor users (and other anonymity systems). While state-of-the-art WF techniques have claimed high attack accuracies, e.g., by leveraging Deep Neural Networks (DNN), several recent works have questioned the practicality of such WF attacks in the real world due to the assumptions made in the design and evaluation of these attacks. In this work, we argue that such impracticality issues are mainly due to the attacker's inability in collecting training data in comprehensive network conditions, e.g., a WF classifier may be trained only on samples collected on specific high-bandwidth network links but deployed on connections with different network conditions. We show that augmenting network traces can enhance the performance of WF classifiers in unobserved network conditions. Specifically, we introduce NetAugment, an augmentation technique tailored to the specifications of Tor traces. We instantiate NetAugment through semi-supervised and self-supervised learning techniques. Our extensive open-world and close-world experiments demonstrate that under practical evaluation settings, our WF attacks provide superior performances compared to the state-of-the-art; this is due to their use of augmented network traces for training, which allows them to learn the features of target traffic in unobserved settings. For instance, with a 5-shot learning in a closed-world scenario, our self-supervised WF attack (named NetCLR) reaches up to 80% accuracy when the traces for evaluation are collected in a setting unobserved by the WF adversary. This is compared to an accuracy of 64.4% achieved by the state-of-the-art Triplet Fingerprinting [35]. We believe that the promising results of our work can encourage the use of network trace augmentation in other types of network traffic analysis.
翻訳日:2023-09-20 17:38:29 公開日:2023-09-18
# 効率的なマルチモードウィグナー断層撮影

Efficient multimode Wigner tomography ( http://arxiv.org/abs/2309.10145v1 )

ライセンス: Link先を確認
Kevin He, Ming Yuan, Yat Wong, Srivatsan Chakram, Alireza Seif, Liang Jiang, David I. Schuster(参考訳) 量子系の寿命と制御の進歩により、複数のボソニックキャビティモードのような複雑な量子状態の生成が可能になった。 これらの状態を特徴付けると、従来のトモグラフィーは計算と実験の両方で指数関数的にスケールし、状態のサイズが大きくなると禁止される。 本稿では,そのような部分空間内で表現可能な状態に対して,サンプリング要求が多項式的に部分空間サイズとモード数にスケールする状態再構成法を実装した。 本研究では, 最大4モードの多モード交絡W状態のWignerトモグラフィーを用いて, 3次元回路量子電磁力学(cQED)システム上でのスケーリングを改良した。 このアプローチは、2つのモードに対する既存の行列反転法と同様に効率良く動作し、3つのモードと4つのモードで顕著に改善され、さらに高いモード数での理論的向上を示す。

Advancements in quantum system lifetimes and control have enabled the creation of increasingly complex quantum states, such as those on multiple bosonic cavity modes. When characterizing these states, traditional tomography scales exponentially in both computational and experimental measurement requirement, which becomes prohibitive as the state size increases. Here, we implement a state reconstruction method whose sampling requirement instead scales polynomially with subspace size, and thus mode number, for states that can be expressed within such a subspace. We demonstrate this improved scaling with Wigner tomography of multimode entangled W states of up to 4 modes on a 3D circuit quantum electrodynamics (cQED) system. This approach performs similarly in efficiency to existing matrix inversion methods for 2 modes, and demonstrates a noticeable improvement for 3 and 4 modes, with even greater theoretical gains at higher mode numbers.
翻訳日:2023-09-20 17:37:57 公開日:2023-09-18
# 深層学習を用いた人間の歩行認識 : 総合的考察

Human Gait Recognition using Deep Learning: A Comprehensive Review ( http://arxiv.org/abs/2309.10144v1 )

ライセンス: Link先を確認
Muhammad Imran Sharif, Mehwish Mehmood, Muhammad Irfan Sharif and Md Palash Uddin(参考訳) 歩行認識(GR: Gait Recognition)は、視覚カメラを通して距離から人物を識別するために用いられる生体計測のモダリティである。 GRは、偽信号と認証信号の区別が難しいため、指紋や顔認識に代わる安全で信頼性の高い代替手段を提供する。 さらに、スプーフィングに対する耐性はGRをあらゆる種類の環境に適合させる。 ディープラーニングの台頭に伴い、GR技術は着実に改善され、様々な状況において有望な結果が得られた。 映像監視が普及するにつれて、異なるプロトコル間の均一な性能評価の確保、照明条件の変化にもかかわらず信頼性の高い認識、歩行パターンの変動、プライバシー保護といった新たな障害が発生し、この調査はGRの概要を示し、他の生体認証システムと比較して環境要素や合併症を解析することを目的としている。 第一の目的は、新たな研究機会を生み出す可能性がある人間のGRに使われている既存のディープラーニング(DL)技術を検討することである。

Gait recognition (GR) is a growing biometric modality used for person identification from a distance through visual cameras. GR provides a secure and reliable alternative to fingerprint and face recognition, as it is harder to distinguish between false and authentic signals. Furthermore, its resistance to spoofing makes GR suitable for all types of environments. With the rise of deep learning, steadily improving strides have been made in GR technology with promising results in various contexts. As video surveillance becomes more prevalent, new obstacles arise, such as ensuring uniform performance evaluation across different protocols, reliable recognition despite shifting lighting conditions, fluctuations in gait patterns, and protecting privacy.This survey aims to give an overview of GR and analyze the environmental elements and complications that could affect it in comparison to other biometric recognition systems. The primary goal is to examine the existing deep learning (DL) techniques employed for human GR that may generate new research opportunities.
翻訳日:2023-09-20 17:37:44 公開日:2023-09-18
# ニューラル特徴学習のための幾何学的枠組み

A Geometric Framework for Neural Feature Learning ( http://arxiv.org/abs/2309.10140v1 )

ライセンス: Link先を確認
Xiangxiang Xu, Lizhong Zheng(参考訳) 本稿では,特徴空間の幾何学的構造を利用したニューラル特徴抽出器に基づくシステム設計学習フレームワークを提案する。 まず,同じ関数空間における統計的依存と特徴を幾何学的構造で統一する特徴幾何を導入する。 特徴幾何学を適用することにより,各学習問題を学習設定で指定された依存成分の最適特徴近似解として定式化する。 本稿では,データサンプルから最適な特徴を学習するための学習アルゴリズムを設計するためのネスト手法を提案する。 ネスト手法の適用を実証するため,条件付き推論やマルチモーダル学習など多変量学習の問題についても論じ,最適な特徴を示し,古典的アプローチとの関係を明らかにする。

We present a novel framework for learning system design based on neural feature extractors by exploiting geometric structures in feature spaces. First, we introduce the feature geometry, which unifies statistical dependence and features in the same functional space with geometric structures. By applying the feature geometry, we formulate each learning problem as solving the optimal feature approximation of the dependence component specified by the learning setting. We propose a nesting technique for designing learning algorithms to learn the optimal features from data samples, which can be applied to off-the-shelf network architectures and optimizers. To demonstrate the application of the nesting technique, we further discuss multivariate learning problems, including conditioned inference and multimodal learning, where we present the optimal features and reveal their connections to classical approaches.
翻訳日:2023-09-20 17:37:29 公開日:2023-09-18
# 構造攻撃に対する高効率低域GNN防御

Efficient Low-Rank GNN Defense Against Structural Attacks ( http://arxiv.org/abs/2309.10136v1 )

ライセンス: Link先を確認
Abdullah Alchihabi, Qing En, Yuhong Guo(参考訳) グラフニューラルネットワーク(gnns)は、グラフデータよりも強力な表現能力を有することが示されている。 しかし、GNNは敵攻撃に対して脆弱であり、グラフ構造に対する小さな摂動でさえ、その性能を著しく低下させる可能性がある。 既存の手法は高度な攻撃に対して効果がないか、あるいは局所的な最小限の時間を要する高密度隣接行列の最適化を必要とする。 この問題を解決するために,敵攻撃に対する防御のために,低ランクでスパースなグラフ構造を学習し,効率よく効果的に防御することを目的としたELR-GNN(Efficient Low-Rank Graph Neural Network)防衛法を提案する。 具体的には、ELR-GNNは粗い低ランク推定モジュールと細粒度推定モジュールの2つのモジュールから構成される。 第1のモジュールは、truncated Singular Value Decomposition (SVD) を採用し、低ランク行列を最適化する出発点となる低ランク隣接行列推定を初期化する。 第2モジュールでは、GNNモデルとともに低ランクスパースグラフ構造を共同学習することにより、初期推定を洗練する。 sparsityは、弱い接続を刈り取ることで学習された低ランクの隣接行列に組み込まれ、貴重な情報を維持しながら冗長なデータを削減できる。 その結果、密接な隣接行列を直接使用する代わりに、ELR-GNNは、単純で効率的で最適化が容易な方法で、低ランクでスパースな推定値を学ぶことができる。 実験の結果、ELR-GNNは、非常に効率的で訓練が容易であるだけでなく、文学における最先端のGNN防御手法よりも優れていることが示された。

Graph Neural Networks (GNNs) have been shown to possess strong representation abilities over graph data. However, GNNs are vulnerable to adversarial attacks, and even minor perturbations to the graph structure can significantly degrade their performance. Existing methods either are ineffective against sophisticated attacks or require the optimization of dense adjacency matrices, which is time-consuming and prone to local minima. To remedy this problem, we propose an Efficient Low-Rank Graph Neural Network (ELR-GNN) defense method, which aims to learn low-rank and sparse graph structures for defending against adversarial attacks, ensuring effective defense with greater efficiency. Specifically, ELR-GNN consists of two modules: a Coarse Low-Rank Estimation Module and a Fine-Grained Estimation Module. The first module adopts the truncated Singular Value Decomposition (SVD) to initialize the low-rank adjacency matrix estimation, which serves as a starting point for optimizing the low-rank matrix. In the second module, the initial estimate is refined by jointly learning a low-rank sparse graph structure with the GNN model. Sparsity is incorporated into the learned low-rank adjacency matrix by pruning weak connections, which can reduce redundant data while maintaining valuable information. As a result, instead of using the dense adjacency matrix directly, ELR-GNN can learn a low-rank and sparse estimate of it in a simple, efficient and easy to optimize manner. The experimental results demonstrate that ELR-GNN outperforms the state-of-the-art GNN defense methods in the literature, in addition to being very efficient and easy to train.
翻訳日:2023-09-20 17:37:16 公開日:2023-09-18
# GDM:リミテッドスーパービジョンを用いたグラフ分類用デュアルミックスアップ

GDM: Dual Mixup for Graph Classification with Limited Supervision ( http://arxiv.org/abs/2309.10134v1 )

ライセンス: Link先を確認
Abdullah Alchihabi and Yuhong Guo(参考訳) グラフニューラルネットワーク(gnns)は、グラフ分類タスクで優れたパフォーマンスを得るために、多数のラベル付きグラフサンプルを必要とする。 ラベル付きグラフサンプルの減少に伴い, GNNの性能は著しく低下する。 アノテーションのコストを下げるためには、新しいグラフインスタンスを生成し、利用可能なグラフサンプルの限られたセットのサイズと多様性を高めるグラフ拡張方法を開発することが重要である。 本稿では,グラフインスタンスの機能的および構造的情報を利用して新しいラベル付きグラフサンプルを生成する,新しいミックスアップに基づくグラフ拡張法であるgraph dual mixup (gdm)を提案する。 GDMはグラフ構造自己エンコーダを用いてグラフサンプルの構造埋め込みを学習し、学習された構造埋め込み空間内のグラフの構造情報にミキサアップを適用し、混合構造埋め込みから新しいグラフ構造を生成する。 機能情報については、GDMはグラフサンプルの入力ノード特徴に直接ミックスアップを適用し、新しいミックスアップグラフインスタンス用の機能ノード特徴情報を生成する。 共同で生成された入力ノードの特徴とグラフ構造は、元のラベル付きグラフのセットを補完する新しいグラフサンプルを生成する。 さらに, 生成したグラフサンプルのバランスド・難易度と多様性を高めるために, 2つの新しいバランスド・グラフサンプリング法を提案する。 ベンチマーク実験の結果,ラベル付きグラフが不足している場合,提案手法は最先端のグラフ拡張手法よりも大幅に優れていた。

Graph Neural Networks (GNNs) require a large number of labeled graph samples to obtain good performance on the graph classification task. The performance of GNNs degrades significantly as the number of labeled graph samples decreases. To reduce the annotation cost, it is therefore important to develop graph augmentation methods that can generate new graph instances to increase the size and diversity of the limited set of available labeled graph samples. In this work, we propose a novel mixup-based graph augmentation method, Graph Dual Mixup (GDM), that leverages both functional and structural information of the graph instances to generate new labeled graph samples. GDM employs a graph structural auto-encoder to learn structural embeddings of the graph samples, and then applies mixup to the structural information of the graphs in the learned structural embedding space and generates new graph structures from the mixup structural embeddings. As for the functional information, GDM applies mixup directly to the input node features of the graph samples to generate functional node feature information for new mixup graph instances. Jointly, the generated input node features and graph structures yield new graph samples which can supplement the set of original labeled graphs. Furthermore, we propose two novel Balanced Graph Sampling methods to enhance the balanced difficulty and diversity for the generated graph samples. Experimental results on the benchmark datasets demonstrate that our proposed method substantially outperforms the state-of-the-art graph augmentation methods when the labeled graphs are scarce.
翻訳日:2023-09-20 17:36:48 公開日:2023-09-18
# グラフトランスのためのディーププロンプトチューニング

Deep Prompt Tuning for Graph Transformers ( http://arxiv.org/abs/2309.10131v1 )

ライセンス: Link先を確認
Reza Shirkavand, Heng Huang(参考訳) グラフトランスフォーマーは、従来のグラフニューラルネットワークが直面する課題に対処することで、さまざまなグラフベースのタスクで人気を集めている。 しかしながら、グラフトランスフォーマーアーキテクチャの2次的複雑性とグラフベースの予測タスクに適用する際の課題が浮かび上がっている。 ファインチューニングはリソース集約型であり、大規模なモデルのコピーを複数保存する必要がある。 本稿では,下流グラフに基づく予測タスクにおいて,大規模グラフトランスフォーマーモデルを活用するための微調整の代替として,ディープグラフプロンプトチューニングと呼ばれる新しい手法を提案する。 提案手法では,学習可能な特徴ノードをグラフに導入し,タスク固有のトークンをグラフ変換器にプリペンドすることで,モデルの表現力を高める。 事前学習したパラメータを凍結し、追加したトークンのみを更新することにより、フリーパラメータの数を減らし、複数のモデルコピーの必要性をなくし、小さなデータセットに適合し、大きなグラフにスケーラブルになる。 様々なサイズのデータセットに関する広範な実験を通じて、タスク固有のパラメータを著しく少なくしたにもかかわらず、ディープグラフのプロンプトチューニングが微調整に匹敵する、あるいはさらに優れたパフォーマンスを達成することを示した。 私たちのコントリビューションには、グラフトランスフォーマーのプロンプトチューニングの導入、グラフトランスフォーマーとメッセージパッシンググラフニューラルネットワークへの応用、効率とリソース利用の改善、魅力的な実験結果などが含まれています。 この研究は、グラフベースの予測タスクで事前学習されたモデルを活用するための有望なアプローチに注意を向け、グラフ表現学習を探索し進歩させる新しい機会を提供する。

Graph transformers have gained popularity in various graph-based tasks by addressing challenges faced by traditional Graph Neural Networks. However, the quadratic complexity of self-attention operations and the extensive layering in graph transformer architectures present challenges when applying them to graph based prediction tasks. Fine-tuning, a common approach, is resource-intensive and requires storing multiple copies of large models. We propose a novel approach called deep graph prompt tuning as an alternative to fine-tuning for leveraging large graph transformer models in downstream graph based prediction tasks. Our method introduces trainable feature nodes to the graph and pre-pends task-specific tokens to the graph transformer, enhancing the model's expressive power. By freezing the pre-trained parameters and only updating the added tokens, our approach reduces the number of free parameters and eliminates the need for multiple model copies, making it suitable for small datasets and scalable to large graphs. Through extensive experiments on various-sized datasets, we demonstrate that deep graph prompt tuning achieves comparable or even superior performance to fine-tuning, despite utilizing significantly fewer task-specific parameters. Our contributions include the introduction of prompt tuning for graph transformers, its application to both graph transformers and message passing graph neural networks, improved efficiency and resource utilization, and compelling experimental results. This work brings attention to a promising approach to leverage pre-trained models in graph based prediction tasks and offers new opportunities for exploring and advancing graph representation learning.
翻訳日:2023-09-20 17:36:27 公開日:2023-09-18
# 深層強化学習によるuniswap v3の適応流動性提供

Adaptive Liquidity Provision in Uniswap V3 with Deep Reinforcement Learning ( http://arxiv.org/abs/2309.10129v1 )

ライセンス: Link先を確認
Haochen Zhang and Xi Chen and Lin F. Yang(参考訳) 分散取引所(DEX)は、分散型金融(DeFi)の基盤であり、ユーザーは第三者の認可なしに暗号通貨を取引できる。 投資家は、ユーザーが直接取引できる流動性プールに資産を預けるインセンティブを与え、流動性プロバイダ(lps)に手数料を支払う。 しかし、資本効率や市場リスクに関する未解決の問題はデフィのさらなる発展を妨げている。 先進的で画期的なDEXプロジェクトであるUnixwap V3は、LPが預金資産の特定の価格範囲内で流動性に集中できるようにすることで、資本効率に対処する。 それでもこのアプローチは、LPが所定のブラケット内に資産価格がある場合にのみ取引手数料を得るため、市場リスクを悪化させる。 本稿では、これらの価格範囲を適応的に調整し、利益を最大化し、市場リスクを軽減するための深層強化学習(DRL)ソリューションを提案する。 当社のアプローチは、中央集権先物取引所におけるリバランスポートフォリオを通じて流動性ポジションをヘッジすることで、価格変動リスクを中和する。 DRL政策は、LPが得られる取引手数料を、ガス料金やヘッジコストなどの関連するコストに対して最適化することを目的としている。 ETH/USDC および ETH/USDT プールにおいて,既存のベースラインと比較して優れた性能を示す。 我々は、この戦略が投資家に価値ある資産管理ツールを提供するだけでなく、DEXデザイナーに新たなインセンティブメカニズムを導入すると考えている。

Decentralized exchanges (DEXs) are a cornerstone of decentralized finance (DeFi), allowing users to trade cryptocurrencies without the need for third-party authorization. Investors are incentivized to deposit assets into liquidity pools, against which users can trade directly, while paying fees to liquidity providers (LPs). However, a number of unresolved issues related to capital efficiency and market risk hinder DeFi's further development. Uniswap V3, a leading and groundbreaking DEX project, addresses capital efficiency by enabling LPs to concentrate their liquidity within specific price ranges for deposited assets. Nevertheless, this approach exacerbates market risk, as LPs earn trading fees only when asset prices are within these predetermined brackets. To mitigate this issue, this paper introduces a deep reinforcement learning (DRL) solution designed to adaptively adjust these price ranges, maximizing profits and mitigating market risks. Our approach also neutralizes price-change risks by hedging the liquidity position through a rebalancing portfolio in a centralized futures exchange. The DRL policy aims to optimize trading fees earned by LPs against associated costs, such as gas fees and hedging expenses, which is referred to as loss-versus-rebalancing (LVR). Using simulations with a profit-and-loss (PnL) benchmark, our method demonstrates superior performance in ETH/USDC and ETH/USDT pools compared to existing baselines. We believe that this strategy not only offers investors a valuable asset management tool but also introduces a new incentive mechanism for DEX designers.
翻訳日:2023-09-20 17:36:01 公開日:2023-09-18
# 軌道予測のための合成運転データの事前学習

Pre-training on Synthetic Driving Data for Trajectory Prediction ( http://arxiv.org/abs/2309.10121v1 )

ライセンス: Link先を確認
Yiheng Li, Seth Z. Zhao, Chenfeng Xu, Chen Tang, Chenran Li, Mingyu Ding, Masayoshi Tomizuka, Wei Zhan(参考訳) 大量の実世界の運転データを蓄積することは、自動運転の軌道予測の領域において重要な意味を持つ。 データ駆動型手法による現在の軌道予測モデルに大きく依存していることを踏まえ、データ可用性の限界の下で一般的な軌道予測表現を学習することの課題に取り組むことを目的とする。 hdマップとトラジェクタの両方を強化し,その上に事前学習戦略を適用することを提案する。 具体的には,HD-mapのグラフ表現を利用してベクトル変換を適用して地図を再構成し,限られたシーン数を容易に拡張する。 さらに,ルールベースモデルを用いて,拡張シーンに基づくトラジェクトリを生成することにより,実際のトラジェクトリ以上のトラジェクトリを拡大する。 この拡張データセット内の一般的な表現の学習を促進するため、軌道予測のためのMasked AutoEncoder(MAE)の概念の拡張など、さまざまな事前学習戦略を網羅的に検討する。 データ拡張と事前学習戦略の有効性を実証し,MR_6$,$minADE_6$,$minFDE_6$といった条件で5.04\%,3.84\%,8.30\%の大きなマージンでベースライン予測モデルを上回った。

Accumulating substantial volumes of real-world driving data proves pivotal in the realm of trajectory forecasting for autonomous driving. Given the heavy reliance of current trajectory forecasting models on data-driven methodologies, we aim to tackle the challenge of learning general trajectory forecasting representations under limited data availability. We propose to augment both HD maps and trajectories and apply pre-training strategies on top of them. Specifically, we take advantage of graph representations of HD-map and apply vector transformations to reshape the maps, to easily enrich the limited number of scenes. Additionally, we employ a rule-based model to generate trajectories based on augmented scenes; thus enlarging the trajectories beyond the collected real ones. To foster the learning of general representations within this augmented dataset, we comprehensively explore the different pre-training strategies, including extending the concept of a Masked AutoEncoder (MAE) for trajectory forecasting. Extensive experiments demonstrate the effectiveness of our data expansion and pre-training strategies, which outperform the baseline prediction model by large margins, e.g. 5.04\%, 3.84\% and 8.30\% in terms of $MR_6$, $minADE_6$ and $minFDE_6$.
翻訳日:2023-09-20 17:35:32 公開日:2023-09-18
# 2次元双曲保存法則の深い滑らか性WENOスキーム:滑らか性指標学習のためのディープラーニングアプローチ

Deep smoothness WENO scheme for two-dimensional hyperbolic conservation laws: A deep learning approach for learning smoothness indicators ( http://arxiv.org/abs/2309.10117v1 )

ライセンス: Link先を確認
Tatiana Kossaczk\'a, Ameya D. Jagtap, Matthias Ehrhardt(参考訳) 本稿では,深層学習手法を取り入れた5階重み付き本質的に非振動性(WENO)ショックキャプチャー方式を提案する。 確立されたWENOアルゴリズムは、WENOスキーム内の滑らか度インジケータを調整するために、コンパクトなニューラルネットワークをトレーニングすることで改善される。 この修正により、特に急激な衝撃に近い数値結果の精度が向上する。 従来のディープラーニングベースの方法とは異なり、一貫性を維持するために追加の処理ステップは必要ない。 我々は,気体力学の2次元オイラー方程式の文献から得たいくつかの例を用いて,新しいアプローチの優越性を示す。 様々な衝撃波やレアフィケーション波を含むこれらのテスト問題の集中的な研究を通じて、新しい手法は従来の5次ウェノスキームよりも優れており、特に数値解が過度の拡散や衝撃のオーバーシュートを示す場合において顕著である。

In this paper, we introduce an improved version of the fifth-order weighted essentially non-oscillatory (WENO) shock-capturing scheme by incorporating deep learning techniques. The established WENO algorithm is improved by training a compact neural network to adjust the smoothness indicators within the WENO scheme. This modification enhances the accuracy of the numerical results, particularly near abrupt shocks. Unlike previous deep learning-based methods, no additional post-processing steps are necessary for maintaining consistency. We demonstrate the superiority of our new approach using several examples from the literature for the two-dimensional Euler equations of gas dynamics. Through intensive study of these test problems, which involve various shocks and rarefaction waves, the new technique is shown to outperform traditional fifth-order WENO schemes, especially in cases where the numerical solutions exhibit excessive diffusion or overshoot around shocks.
翻訳日:2023-09-20 17:35:08 公開日:2023-09-18
# LLMを用いた文脈発話解析のためのFew-Shot Adaptation

Few-Shot Adaptation for Parsing Contextual Utterances with LLMs ( http://arxiv.org/abs/2309.10168v1 )

ライセンス: Link先を確認
Kevin Lin, Patrick Xia, Hao Fang(参考訳) 本研究では,大言語モデル(LLM)に基づく意味的パーサの文脈的発話処理能力を評価する。 実世界の設定では、アノテーションのコストによる注釈付き文脈発話の限られた数しか存在せず、非文脈発話と比較して不均衡となる。 したがって、パーサーはいくつかのトレーニング例で文脈的発話に適応する必要がある。 本稿では,対話型セマンティック解析における4つの主要なパラダイム,すなわちParse-with-Utterance-History,Parse-with-Reference-Program,Parse-then-Resolve,Rewrite-then-Parseについて検討する。 このようなパラダイム間比較を容易にするため、SMCalFlowからコンテキストサンプルのサブセットであるSMCalFlow-EventQueriesを追加アノテーションで構築する。 文脈内学習と微調整による実験は、構文解析の正確性、アノテーションコスト、エラータイプを考える際に最も有望なパラダイムであることを示唆している。

We evaluate the ability of semantic parsers based on large language models (LLMs) to handle contextual utterances. In real-world settings, there typically exists only a limited number of annotated contextual utterances due to annotation cost, resulting in an imbalance compared to non-contextual utterances. Therefore, parsers must adapt to contextual utterances with a few training examples. We examine four major paradigms for doing so in conversational semantic parsing i.e., Parse-with-Utterance-History, Parse-with-Reference-Program, Parse-then-Resolve, and Rewrite-then-Parse. To facilitate such cross-paradigm comparisons, we construct SMCalFlow-EventQueries, a subset of contextual examples from SMCalFlow with additional annotations. Experiments with in-context learning and fine-tuning suggest that Rewrite-then-Parse is the most promising paradigm when holistically considering parsing accuracy, annotation cost, and error types.
翻訳日:2023-09-20 17:28:56 公開日:2023-09-18
# グラフニューラルネットワークを用いた非同期知覚・行動コミュニケーション

Asynchronous Perception-Action-Communication with Graph Neural Networks ( http://arxiv.org/abs/2309.10164v1 )

ライセンス: Link先を確認
Saurav Agarwal, Alejandro Ribeiro, Vijay Kumar(参考訳) グローバルな目標を達成するための大規模なロボット群でのコラボレーションは、センシングと通信能力の制限のため、大きな環境では難しい問題である。 ロボットはパーセプション・アクション・コミュニケーション(PAC)ループを実行し、ローカル環境を認識し、他のロボットと通信し、リアルタイムで行動を起こす必要がある。 分散PACシステムにおける基本的な課題は、近隣のロボットと通信する情報と、近隣のロボットが共有する情報を活用して行動を取る方法を決定することである。 近年では、フロッキングやカバレッジ制御などのアプリケーションでグラフニューラルネットワーク(GNN)を使用してこの問題に対処している。 概念的には、GNNポリシーは完全に分散化されているが、そのようなポリシーの評価と展開は、主に中央集権的あるいは限定的に分散化されている。 さらに、既存のフレームワークは知覚と行動推論のシーケンシャルな実行を前提としています。 本稿では,分散gnnを用いてナビゲーション動作の計算や通信メッセージの生成を行うロボット群における非同期pacのフレームワークを提案する。 特にgnnを集約することで,ロボット間の隠れた層情報の交換を計算効率や行動の分散推論に活用する。 さらに、フレームワーク内のモジュールは非同期であり、ロボットは検知、情報抽出、コミュニケーション、アクション推論、異なる周波数での制御実行を行うことができる。 本研究では,大規模環境を協調的にカバーするために,大規模ロボット群をナビゲートする際のGNNの有効性を示す。

Collaboration in large robot swarms to achieve a common global objective is a challenging problem in large environments due to limited sensing and communication capabilities. The robots must execute a Perception-Action-Communication (PAC) loop -- they perceive their local environment, communicate with other robots, and take actions in real time. A fundamental challenge in decentralized PAC systems is to decide what information to communicate with the neighboring robots and how to take actions while utilizing the information shared by the neighbors. Recently, this has been addressed using Graph Neural Networks (GNNs) for applications such as flocking and coverage control. Although conceptually, GNN policies are fully decentralized, the evaluation and deployment of such policies have primarily remained centralized or restrictively decentralized. Furthermore, existing frameworks assume sequential execution of perception and action inference, which is very restrictive in real-world applications. This paper proposes a framework for asynchronous PAC in robot swarms, where decentralized GNNs are used to compute navigation actions and generate messages for communication. In particular, we use aggregated GNNs, which enable the exchange of hidden layer information between robots for computational efficiency and decentralized inference of actions. Furthermore, the modules in the framework are asynchronous, allowing robots to perform sensing, extracting information, communication, action inference, and control execution at different frequencies. We demonstrate the effectiveness of GNNs executed in the proposed framework in navigating large robot swarms for collaborative coverage of large environments.
翻訳日:2023-09-20 17:28:37 公開日:2023-09-18
# RadOnc-GPT:放射線腫瘍学のための大規模言語モデル

RadOnc-GPT: A Large Language Model for Radiation Oncology ( http://arxiv.org/abs/2309.10160v1 )

ライセンス: Link先を確認
Zhengliang Liu, Peilong Wang, Yiwei Li, Jason Holmes, Peng Shu, Lian Zhang, Chenbin Liu, Ninghao Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Samir H. Patel, Terence T. Sio, Tianming Liu, Wei Liu(参考訳) 本稿では,放射線オンコロジーに特化した大規模言語モデルRadOnc-GPTを提案する。 RadOnc-GPTはマヨクリニックの放射線腫瘍学患者記録と臨床記録の大規模なデータセットに基づいて微調整された。 このモデルでは,放射線治療における3つの重要なタスク生成手法を指導し,最適な放射線モダリティを判定し,患者診断の詳細に基づいて診断記述・ICDコードを提供する。 また,RadOnc-GPT印象を一般言語モデル印象と比較した結果,RadOnc-GPTは明瞭度,特異性,臨床関連性が有意に向上した。 この研究は、RadOnc-GPTのようなドメイン固有の知識を用いて、放射線腫瘍学のような高度に専門化された医療分野における変換能力を達成するために、大規模言語モデルを使用することの可能性を示した。

This paper presents RadOnc-GPT, a large language model specialized for radiation oncology through advanced tuning methods. RadOnc-GPT was finetuned on a large dataset of radiation oncology patient records and clinical notes from the Mayo Clinic. The model employs instruction tuning on three key tasks - generating radiotherapy treatment regimens, determining optimal radiation modalities, and providing diagnostic descriptions/ICD codes based on patient diagnostic details. Evaluations conducted by having radiation oncologists compare RadOnc-GPT impressions to general large language model impressions showed that RadOnc-GPT generated outputs with significantly improved clarity, specificity, and clinical relevance. The study demonstrated the potential of using large language models fine-tuned using domain-specific knowledge like RadOnc-GPT to achieve transformational capabilities in highly specialized healthcare fields such as radiation oncology.
翻訳日:2023-09-20 17:28:13 公開日:2023-09-18
# 量子非破壊測定ツールとしての電気結合オプティメカルキャビティ

Electrically coupled optomechanical cavities as a tool for quantum nondemolition measurement ( http://arxiv.org/abs/2309.10159v1 )

ライセンス: Link先を確認
Jan W\'ojcik and Grzegorz Chimczak(参考訳) 2つの電気結合型光機械的キャビティの新しいモデルを提案する。 このモデルは最近発表された[Physical Review A \textbf{103} (2021) 043509]に基づいています。 クーロン力で2つの光力学的キャビティを結合すると,キャビティ間の相互相互作用が引き起こされることがわかった。 このようなシステムは、自己相変調効果の除去が容易であるため、量子非退化測定のプロトコルに理想的である。 さらに, 本モデルにおける非線形性は, 容易に調整可能なパラメータに基づいており, 最近の実験結果から, クーロン力結合によるクロスカー相互作用の実験的実現が実現可能であると考えられる。

We present a new model of two electrically coupled optomechanical cavities. This model is based on the recently presented [Physical Review A \textbf{103} (2021) 043509]. We found that coupling two optomechanical cavities via Coulomb force leads to cross-Kerr interactions between those cavities. We show that such systems may be ideal for a protocol of quantum non-demolition measurement because it is easy to eliminate the self-phase modulation effect. Moreover, nonlinearities in our model are based on easily adjustable parameters, and therefore, given recent experimental studies, we believe that experimental realization of a cross-Kerr interaction via Coulomb force coupling is feasible.
翻訳日:2023-09-20 17:27:57 公開日:2023-09-18
# テキストラベル付き認識モデル特徴の畳み込みによる手書き誤字のオフライン検出

Offline Detection of Misspelled Handwritten Words by Convolving Recognition Model Features with Text Labels ( http://arxiv.org/abs/2309.10158v1 )

ライセンス: Link先を確認
Andrey Totev and Tomas Ward(参考訳) 近年のディープラーニングアーキテクチャの出現に伴い,オフライン手書き認識(HWR)は大幅に改善されている。 それでも、これは難しい問題であり、実際的な応用は、予測された単語を辞書や言語モデルで制限するための後処理技術に依存することが多い。 性能が向上しているにもかかわらず、このようなシステムは、例えば学校評価における誤字の検出など、語彙外単語が期待される文脈では利用できない。 そこで本研究では,手書き画像とテキストを比較する作業を紹介する。 そこで本研究では,HWR特徴抽出器と特徴抽出器出力と入力テキストのベクトル表現とを結合したマルチモーダル分類ヘッドとからなる非制限バイナリ分類器を提案する。 我々のモデルの分類ヘッドは、最先端の生成的敵ネットワークを用いて作成された合成データに基づいて完全に訓練される。 我々は,高いリコールを維持しながら,最新のHWRモデルを直接使用することにより,タスクに対処するよりも平均精度19.5%向上を達成するために,分類器を校正できることを実証した。 このような大幅なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションにおける大幅な生産性向上につながる可能性がある。

Offline handwriting recognition (HWR) has improved significantly with the advent of deep learning architectures in recent years. Nevertheless, it remains a challenging problem and practical applications often rely on post-processing techniques for restricting the predicted words via lexicons or language models. Despite their enhanced performance, such systems are less usable in contexts where out-of-vocabulary words are anticipated, e.g. for detecting misspelled words in school assessments. To that end, we introduce the task of comparing a handwriting image to text. To solve the problem, we propose an unrestricted binary classifier, consisting of a HWR feature extractor and a multimodal classification head which convolves the feature extractor output with the vector representation of the input text. Our model's classification head is trained entirely on synthetic data created using a state-of-the-art generative adversarial network. We demonstrate that, while maintaining high recall, the classifier can be calibrated to achieve an average precision increase of 19.5% compared to addressing the task by directly using state-of-the-art HWR models. Such massive performance gains can lead to significant productivity increases in applications utilizing human-in-the-loop automation.
翻訳日:2023-09-20 17:27:46 公開日:2023-09-18
# CMS電磁計のオンラインデータ品質モニタリングのためのオートエンコーダによる異常検出システム

Autoencoder-based Anomaly Detection System for Online Data Quality Monitoring of the CMS Electromagnetic Calorimeter ( http://arxiv.org/abs/2309.10157v1 )

ライセンス: Link先を確認
The CMS ECAL Collaboration(参考訳) CMS検出器はLHCで発生する高エネルギー衝突を検出する汎用装置である。 CMS電磁カロリー計のオンラインデータ品質モニタリングは、検出器の専門家が物理学データの品質に影響を与える可能性のある幅広い検出器の問題を素早く特定し、局所化し、診断するための重要な操作ツールである。 cms電磁熱量計データにおける異常検出を可能にする半教師付き機械学習を用いたリアルタイムオートエンコーダに基づく異常検出システムを提案する。 異常の時間依存性の進化と検出応答の空間的変動を利用して、異常検出性能を最大化する新しい手法を提案する。 オートエンコーダベースのシステムは、非常に低い偽発見率を維持しながら、効率よく異常を検出することができる。 システムの性能は、2018年と2022年のLHC衝突データに見られる異常で検証される。 さらに、lhcの実行開始時にcmsオンラインデータ品質監視ワークフローにオートエンコーダベースのシステムをデプロイした結果、既存のシステムが見逃した問題を検出できることを示した。

The CMS detector is a general-purpose apparatus that detects high-energy collisions produced at the LHC. Online Data Quality Monitoring of the CMS electromagnetic calorimeter is a vital operational tool that allows detector experts to quickly identify, localize, and diagnose a broad range of detector issues that could affect the quality of physics data. A real-time autoencoder-based anomaly detection system using semi-supervised machine learning is presented enabling the detection of anomalies in the CMS electromagnetic calorimeter data. A novel method is introduced which maximizes the anomaly detection performance by exploiting the time-dependent evolution of anomalies as well as spatial variations in the detector response. The autoencoder-based system is able to efficiently detect anomalies, while maintaining a very low false discovery rate. The performance of the system is validated with anomalies found in 2018 and 2022 LHC collision data. Additionally, the first results from deploying the autoencoder-based system in the CMS online Data Quality Monitoring workflow during the beginning of Run 3 of the LHC are presented, showing its ability to detect issues missed by the existing system.
翻訳日:2023-09-20 17:27:24 公開日:2023-09-18
# 簡潔な基底状態を持つ局所ハミルトン問題はMA-Completeである

Local Hamiltonian Problem with succinct ground state is MA-Complete ( http://arxiv.org/abs/2309.10155v1 )

ライセンス: Link先を確認
Jiaqing Jiang(参考訳) 量子系の基底エネルギーを見つけることは、凝縮物質物理学と量子化学の基本的な問題である。 この問題に取り組む既存の古典的アルゴリズムは、基底状態が簡潔な古典的記述、すなわち振幅を計算するための多サイズ古典回路を持つと仮定することが多い。 簡潔な状態の顕著な例は、行列積状態、可縮射影対状態、古典的ニューラルネットワークで表現できる状態を含む。 局所ハミルトン問題と簡潔な基底状態の複雑性について検討する。 我々はこの問題がMA-Completeであることを証明する。 私たちが考えるハミルトン派は一般であり、確率的ではないかもしれない。 MA検証プロトコルは固定ノード量子モンテカルロ法、特にBravyiらによって導入された連続時間マルコフ連鎖の変種に基づいている。 [bcgl22] 本研究に基づいて, 強誘導状態の概念を導入し, 強誘導状態を持つ局所ハミルトン問題はma完全であり, 標準誘導状態を持つ局所ハミルトン問題[wfc23,glg22]のqcma完全結果とは対照的なものであると推測する。

Finding the ground energy of a quantum system is a fundamental problem in condensed matter physics and quantum chemistry. Existing classical algorithms for tackling this problem often assume that the ground state has a succinct classical description, i.e. a poly-size classical circuit for computing the amplitude. Notable examples of succinct states encompass matrix product states, contractible projected entangled pair states, and states that can be represented by classical neural networks. We study the complexity of the local Hamiltonian problem with succinct ground state. We prove this problem is MA-Complete. The Hamiltonian we consider is general and might not be stoquastic. The MA verification protocol is based on the fixed node quantum Monte Carlo method, particularly the variant of the continuous-time Markov chain introduced by Bravyi et.al. [BCGL22]. Based on our work, we also introduce a notion of strong guided states, and conjecture that the local Hamiltonian problem with strong guided state is MA-Complete, which will be in contrast with the QCMA-Complete result of the local Hamiltonian problem with standard guided states [WFC23,GLG22].
翻訳日:2023-09-20 17:27:04 公開日:2023-09-18
# 非教師なし医用画像登録のための腫瘍容積保存

Preserving Tumor Volumes for Unsupervised Medical Image Registration ( http://arxiv.org/abs/2309.10153v1 )

ライセンス: Link先を確認
Qihua Dong, Hao Du, Ying Song, Yan Xu, Jing Liao(参考訳) 医用画像登録は,画像対間の空間対応を推定する重要な課題である。 しかしながら、現在の伝統的・深層学習に基づく手法は、異種領域、特に腫瘍領域において不均質な体積変化をもたらす変形場を生成するための類似性尺度に依存している。 これらの変化は腫瘍の大きさや解剖を著しく変え、臨床診断における画像登録の実際的使用を制限する。 この課題に対処するため,他の正常領域における画像類似性を最大化しつつ,腫瘍の体積を抑える制約問題として,腫瘍による画像登録を定式化した。 提案する戦略は2段階のプロセスである。 第1段階では, 類似性に基づく登録を用いて, 体積変化による腫瘍部位の同定を行い, 軟部腫瘍マスクを生成する。 第2段階では、前段から算出したマスクに基づいて、サイズ変化を適応的にペナライズする新しい適応容積保存損失を伴う容積保存登録を提案する。 本手法は, 軟部腫瘍マスクを用いて, 画像の類似性と, 正常領域, 腫瘍領域における容積保存のバランスをとり, それぞれに容積保存損失の付与を調整する。 これにより、腫瘍の体積は登録プロセス中に保存される。 さまざまなデータセットやネットワークアーキテクチャ上での戦略を検証し,本手法が腫瘍容積の保存に成功し,最先端の手法で同等な登録結果が得られることを示した。 私たちのコードは、 \url{https://dddraxxx.github.io/volume-preserving-registration/} で利用可能です。

Medical image registration is a critical task that estimates the spatial correspondence between pairs of images. However, current traditional and deep-learning-based methods rely on similarity measures to generate a deforming field, which often results in disproportionate volume changes in dissimilar regions, especially in tumor regions. These changes can significantly alter the tumor size and underlying anatomy, which limits the practical use of image registration in clinical diagnosis. To address this issue, we have formulated image registration with tumors as a constraint problem that preserves tumor volumes while maximizing image similarity in other normal regions. Our proposed strategy involves a two-stage process. In the first stage, we use similarity-based registration to identify potential tumor regions by their volume change, generating a soft tumor mask accordingly. In the second stage, we propose a volume-preserving registration with a novel adaptive volume-preserving loss that penalizes the change in size adaptively based on the masks calculated from the previous stage. Our approach balances image similarity and volume preservation in different regions, i.e., normal and tumor regions, by using soft tumor masks to adjust the imposition of volume-preserving loss on each one. This ensures that the tumor volume is preserved during the registration process. We have evaluated our strategy on various datasets and network architectures, demonstrating that our method successfully preserves the tumor volume while achieving comparable registration results with state-of-the-art methods. Our codes is available at: \url{https://dddraxxx.github.io/Volume-Preserving-Registration/}.
翻訳日:2023-09-20 17:26:44 公開日:2023-09-18
# Q-Transformer: 自動回帰Q-Functionによるスケーラブルオフライン強化学習

Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions ( http://arxiv.org/abs/2309.10150v1 )

ライセンス: Link先を確認
Yevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine(参考訳) 本研究では、大規模なオフラインデータセットからマルチタスクポリシーをトレーニングするためのスケーラブルな強化学習手法を提案する。 本手法では,オフライン時間差分バックアップによりトレーニングしたQ関数のスケーラブルな表現にTransformerを用いる。 したがって、この手法をQ-Transformerと呼ぶ。 各動作次元を識別し、各アクション次元のq値を分離トークンとして表現することにより、q学習に効果的な高容量シーケンスモデリング手法を適用することができる。 我々は,オフラインrlトレーニングで優れた性能を実現する設計決定をいくつか提示し,q-transformerが従来のオフラインrlアルゴリズムや模倣学習技術を,多種多様な実世界のロボット操作タスクスイートで上回っていることを示す。 プロジェクトのWebサイトとビデオはhttps://q-transformer.github.ioで見ることができる。

In this work, we present a scalable reinforcement learning method for training multi-task policies from large offline datasets that can leverage both human demonstrations and autonomously collected data. Our method uses a Transformer to provide a scalable representation for Q-functions trained via offline temporal difference backups. We therefore refer to the method as Q-Transformer. By discretizing each action dimension and representing the Q-value of each action dimension as separate tokens, we can apply effective high-capacity sequence modeling techniques for Q-learning. We present several design decisions that enable good performance with offline RL training, and show that Q-Transformer outperforms prior offline RL algorithms and imitation learning techniques on a large diverse real-world robotic manipulation task suite. The project's website and videos can be found at https://q-transformer.github.io
翻訳日:2023-09-20 17:26:19 公開日:2023-09-18
# AIエージェントの記憶と一般化能力の分析:継続的な学習者はロバストか?

Analysis of the Memorization and Generalization Capabilities of AI Agents: Are Continual Learners Robust? ( http://arxiv.org/abs/2309.10149v1 )

ライセンス: Link先を確認
Minsu Kim and Walid Saad(参考訳) 連続学習(CL)では、AIエージェント(例えば、自動運転車やロボット)が動的環境下での非定常データストリームから学習する。 このようなアプリケーションの実用的なデプロイには、過去の経験を維持しながら、見えない環境への堅牢性を保証することが重要である。 本稿では,過去の知識を保ちながら動的環境への堅牢な一般化を実現するための新しいclフレームワークを提案する。 検討されたCLエージェントは、容量制限メモリを使用して、以前に観測された環境情報を保存し、忘れる問題を緩和する。 そして、メモリからデータポイントをサンプリングし、環境変化に対するリスクの分布を推定し、目に見えない変化で堅牢な予測器を得る。 提案フレームワークの一般化と記憶性能を理論的に解析した。 この分析ではメモリサイズの記憶と一般化のトレードオフを示す。 実験により,提案アルゴリズムが全環境のメモリベースラインを上回り,対象環境の一般化性能が大幅に向上することを示した。

In continual learning (CL), an AI agent (e.g., autonomous vehicles or robotics) learns from non-stationary data streams under dynamic environments. For the practical deployment of such applications, it is important to guarantee robustness to unseen environments while maintaining past experiences. In this paper, a novel CL framework is proposed to achieve robust generalization to dynamic environments while retaining past knowledge. The considered CL agent uses a capacity-limited memory to save previously observed environmental information to mitigate forgetting issues. Then, data points are sampled from the memory to estimate the distribution of risks over environmental change so as to obtain predictors that are robust with unseen changes. The generalization and memorization performance of the proposed framework are theoretically analyzed. This analysis showcases the tradeoff between memorization and generalization with the memory size. Experiments show that the proposed algorithm outperforms memory-based CL baselines across all environments while significantly improving the generalization performance on unseen target environments.
翻訳日:2023-09-20 17:26:03 公開日:2023-09-18
# 三脚スキームを用いた幾何学的ラムジー干渉法

Geometric Ramsey Interferometry with a Tripod Scheme ( http://arxiv.org/abs/2309.10192v1 )

ライセンス: Link先を確認
Chetan Sriram Madasu, Ketan Damji Rathod, Chang Chi Kwong and David Wilkowski(参考訳) ラムゼー干渉法は精密分光の鍵となる手法であり、量子系のコヒーレンスを探索する。 通常、干渉計は2つの量子状態を用いて構成され、2つの短共鳴電磁パルスとの時間依存的な相互作用を伴う。 ここでは、幾何学的手法で量子状態の操作を行い、相互作用の時間的依存性を排除したラムゼイ干渉計を探索する。 我々は,超低温ストロンチウム原子における共鳴三重奏法を用いて,干渉計の動作を2次元のダークステート部分空間に制限する。 観測されたインターフェロメトリ相の蓄積は、暗黒状態のサブ空間における効果的な幾何学的スカラー項によるものであり、光-物質相互作用がオフになる自由進化時間の間に著しく消失しない。 本研究は、複数の入出力ポートで動作するより堅牢な干渉計の扉を開く。

Ramsey interferometry is a key technique for precision spectroscopy and to probe the coherence of quantum systems. Typically, an interferometer is constructed using two quantum states and involves a time-dependent interaction with two short resonant electromagnetic pulses. Here, we explore a different type of Ramsey interferometer where we perform quantum state manipulations by geometrical means, eliminating the temporal dependence of the interaction. We use a resonant tripod scheme in ultracold strontium atoms where the interferometric operation is restricted to a two-dimensional dark-state subspace in the dressed-state picture. The observed interferometric phase accumulation is due to an effective geometric scalar term in the dark-state subspace, which remarkably does not vanish during the free evolution time when the light-matter interaction is turned off. This study opens the door for more robust interferometers operating on multiple input-output ports.
翻訳日:2023-09-20 17:18:15 公開日:2023-09-18
# アダプティブインテリジェンスを用いた時系列予測のためのグラフ対応強化学習

Graph-enabled Reinforcement Learning for Time Series Forecasting with Adaptive Intelligence ( http://arxiv.org/abs/2309.10186v1 )

ライセンス: Link先を確認
Thanveer Shaik, Xiaohui Tao, Haoran Xie, Lin Li, Jianming Yong, and Yuefeng Li(参考訳) 強化学習は、逐次タスクをモデル化し、潜在データパターンを適応的に学習する能力でよく知られている。 ディープラーニングモデルは、回帰と分類タスクで広く研究され、採用されている。 しかし、深層学習には、等間隔データや順序データの仮定、時系列予測の観点からグラフ構造を組み込む能力の欠如といった制限がある。 グラフィカルニューラルネットワーク(gnn)は、これらの課題を克服し、時系列データの時間依存性をキャプチャする能力を持つ。 本研究では,GNNを用いた時系列データの予測と強化学習(RL)によるモニタリング手法を提案する。 GNNは、データのグラフ構造をモデルに明示的に組み込むことができ、時間的依存関係をより自然な方法でキャプチャすることができる。 このアプローチは、医療、交通、天気予報など、複雑な時間構造におけるより正確な予測を可能にする。 また、ベイズ最適化技術を用いてGraphRLモデルを微調整し、さらなる性能向上を図る。 提案されたフレームワークは、時系列予測と監視においてベースラインモデルを上回る。 本研究の貢献は,時系列予測のための新しいgraphrlフレームワークの導入と,rnnやlstmといった従来のディープラーニングモデルとの比較によるgnnの有効性の実証である。 本研究は, 動的RL環境において, 高精度かつ効率的に予測できるグラフRLの可能性を示す。

Reinforcement learning is well known for its ability to model sequential tasks and learn latent data patterns adaptively. Deep learning models have been widely explored and adopted in regression and classification tasks. However, deep learning has its limitations such as the assumption of equally spaced and ordered data, and the lack of ability to incorporate graph structure in terms of time-series prediction. Graphical neural network (GNN) has the ability to overcome these challenges and capture the temporal dependencies in time-series data. In this study, we propose a novel approach for predicting time-series data using GNN and monitoring with Reinforcement Learning (RL). GNNs are able to explicitly incorporate the graph structure of the data into the model, allowing them to capture temporal dependencies in a more natural way. This approach allows for more accurate predictions in complex temporal structures, such as those found in healthcare, traffic and weather forecasting. We also fine-tune our GraphRL model using a Bayesian optimisation technique to further improve performance. The proposed framework outperforms the baseline models in time-series forecasting and monitoring. The contributions of this study include the introduction of a novel GraphRL framework for time-series prediction and the demonstration of the effectiveness of GNNs in comparison to traditional deep learning models such as RNNs and LSTMs. Overall, this study demonstrates the potential of GraphRL in providing accurate and efficient predictions in dynamic RL environments.
翻訳日:2023-09-20 17:18:02 公開日:2023-09-18
# 5Gを越えたクラウドネットワークにおけるQoS対応サービス予測とオーケストレーション

QoS-Aware Service Prediction and Orchestration in Cloud-Network Integrated Beyond 5G ( http://arxiv.org/abs/2309.10185v1 )

ライセンス: Link先を確認
Mohammad Farhoudi, Masoud Shokrnezhad, and Tarik Taleb(参考訳) metaverseのような新しいアプリケーションは、超低レイテンシ通信と巨大なブロードバンド接続を必要とする5gネットワークを超える可能性を強調している。 さらに,B5G におけるサービス継続性考慮の強化の必要性が増している。 これらのサービスを有効にするために、エッジクラウドパラダイムは、クラウドキャパシティを活用し、ネットワークを横切ると、効率的にユーザを管理するための潜在的なソリューションである。 しかし、エッジクラウドネットワークは、ネットワークやコンピューティングリソースを含む多くの制限に直面している。 本稿では,キャパシティ制約,動的ユーザ,エンドツーエンド遅延を考慮したネットワーククラウド統合環境におけるサービス配置とリソース割り当ての共通問題について述べる。 本稿では,遅延を増大させながら全体のコストを最小化することを目的として最適化問題を定式化した非線形プログラミングモデルを提案する。 次に,RNNを用いたDDQLベースの手法を導入し,サービス配置のための水充填型アルゴリズムを用いてユーザ動作を予測する。 提案するフレームワークは,ユーザの動的特性,B5Gの超低レイテンシを規定するサービスの配置,ユーザがある場所から別の場所へ移行する際のサービス継続性に十分対応している。 シミュレーション結果は,ネットワークのポテンシャルを最適化するタイムリーな応答を提供し,スケーラブルで効率的な配置を提供することを示す。

Novel applications such as the Metaverse have highlighted the potential of beyond 5G networks, which necessitate ultra-low latency communications and massive broadband connections. Moreover, the burgeoning demand for such services with ever-fluctuating users has engendered a need for heightened service continuity consideration in B5G. To enable these services, the edge-cloud paradigm is a potential solution to harness cloud capacity and effectively manage users in real time as they move across the network. However, edge-cloud networks confront a multitude of limitations, including networking and computing resources that must be collectively managed to unlock their full potential. This paper addresses the joint problem of service placement and resource allocation in a network-cloud integrated environment while considering capacity constraints, dynamic users, and end-to-end delays. We present a non-linear programming model that formulates the optimization problem with the aiming objective of minimizing overall cost while enhancing latency. Next, to address the problem, we introduce a DDQL-based technique using RNNs to predict user behavior, empowered by a water-filling-based algorithm for service placement. The proposed framework adeptly accommodates the dynamic nature of users, the placement of services that mandate ultra-low latency in B5G, and service continuity when users migrate from one location to another. Simulation results show that our solution provides timely responses that optimize the network's potential, offering a scalable and efficient placement.
翻訳日:2023-09-20 17:17:39 公開日:2023-09-18
# 音楽製品に対するポジティブ・リスクメッセージ評価

Positive and Risky Message Assessment for Music Products ( http://arxiv.org/abs/2309.10182v1 )

ライセンス: Link先を確認
Yigeng Zhang, Mahsa Shafaei, Fabio Gonzalez, Thamar Solorio(参考訳) 本研究では,音楽製品からのポジティブでリスクの高いメッセージの評価という,新たな研究課題を提案する。 まず,マルチアングル・マルチレベル音楽コンテンツアセスメントのためのベンチマークを構築し,その解法としてordinality-enforcementを用いた効果的なマルチタスク予測モデルを提案する。 提案手法は,タスク特化度が高いだけでなく,複数の側面を同時に評価できることを示す。

In this work, we propose a novel research problem: assessing positive and risky messages from music products. We first establish a benchmark for multi-angle multi-level music content assessment and then present an effective multi-task prediction model with ordinality-enforcement to solve this problem. Our result shows the proposed method not only significantly outperforms strong task-specific counterparts but can concurrently evaluate multiple aspects.
翻訳日:2023-09-20 17:17:16 公開日:2023-09-18
# 深層Q-Learningに基づく5Gアプリケーションを越えた遅延感度のための経路選択とサービス配置

Double Deep Q-Learning-based Path Selection and Service Placement for Latency-Sensitive Beyond 5G Applications ( http://arxiv.org/abs/2309.10180v1 )

ライセンス: Link先を確認
Masoud Shokrnezhad, Tarik Taleb, and Patrizio Dazzi(参考訳) 現在、キャパシティの必要性が高まり続けているため、全く新しいサービスが生まれつつある。 リアルタイムレスポンシブでスケーラブルな方法でこれらのサービスを提供するには、堅固なクラウドネットワーク統合インフラストラクチャが必要です。 多様な特性と限られた能力のため、コミュニケーションとコンピューティングのリソースは、その潜在能力を解き放つために協力的に管理されなければならない。 リソースのオーケストレーションにはいくつかの革新的な方法が提案されているが、最も無視されたネットワークリソースや単純なグラフとしてネットワークを緩和し、クラウドリソースのみに焦点を当てている。 本稿では,キャパシティ制約と品質要件を考慮したccra(機能配置と割り当て,トラフィック優先化,経路選択など)と呼ばれるコミュニケーションと計算資源割当の共通問題を検討し,総コストを最小化することでギャップを埋める。 我々は,非線形プログラミングモデルとして問題を定式化し,システムを完全に把握した時に解くための分岐法と水充填法に基づいて,b\&b-ccra と wf-ccra と呼ばれる2つの手法を提案する。 次に、部分的に知られているシステムに対して、Double Deep Q-Learning (DDQL)アーキテクチャが設計される。 数値シミュレーションにより,B\&B-CCRAが最適解であるのに対し,WF-CCRAは比較的短時間で準最適解を提供することがわかった。 さらに,DDQL-CCRAは要求固有情報がない場合に最適に近い解が得られることを示した。

Nowadays, as the need for capacity continues to grow, entirely novel services are emerging. A solid cloud-network integrated infrastructure is necessary to supply these services in a real-time responsive, and scalable way. Due to their diverse characteristics and limited capacity, communication and computing resources must be collaboratively managed to unleash their full potential. Although several innovative methods have been proposed to orchestrate the resources, most ignored network resources or relaxed the network as a simple graph, focusing only on cloud resources. This paper fills the gap by studying the joint problem of communication and computing resource allocation, dubbed CCRA, including function placement and assignment, traffic prioritization, and path selection considering capacity constraints and quality requirements, to minimize total cost. We formulate the problem as a non-linear programming model and propose two approaches, dubbed B\&B-CCRA and WF-CCRA, based on the Branch \& Bound and Water-Filling algorithms to solve it when the system is fully known. Then, for partially known systems, a Double Deep Q-Learning (DDQL) architecture is designed. Numerical simulations show that B\&B-CCRA optimally solves the problem, whereas WF-CCRA delivers near-optimal solutions in a substantially shorter time. Furthermore, it is demonstrated that DDQL-CCRA obtains near-optimal solutions in the absence of request-specific information.
翻訳日:2023-09-20 17:17:08 公開日:2023-09-18
# 強い結合多体問題に対する量子運動方程式の量子的利点

Quantum benefit of the quantum equation of motion for the strongly coupled many-body problem ( http://arxiv.org/abs/2309.10179v1 )

ライセンス: Link先を確認
Manqoba Q. Hlatshwayo, John Novak, and Elena Litvinova(参考訳) フェルミオン多体系の励起特性を計算するためのハイブリッド量子古典アルゴリズムである量子運動方程式(qeom)について検討し,特に強結合構造に着目した。 この手法は、量子アルゴリズムを用いて古典計算の現在の障壁を越え、中重原子核のような強結合フェルミオン系のより正確な解を構築するための足場として設計されている。 n=8$の粒子を持つリプキン・メシュコフ・グリック・ハミルトニアンの正確な解への精度向上の近似は、デジタルシミュレータとibm量子デバイスで研究されている。 量子固有解法(VQE)によって決定される相関基底状態の上に励起を生成するために、増大する複雑性の演算子を適用して精度を向上させる。 我々は,qEOMが構成複雑性から要求される量子測定数の独立性により量子的利益を示すことを示す。 後処理試験では、構成複雑性と結合強度の増大により量子デバイスエラーが増幅されることが示されている。 詳細な誤差解析を行い、ゼロノイズ補間に基づく誤差緩和を実現する。

We investigate the quantum equation of motion (qEOM), a hybrid quantum-classical algorithm for computing excitation properties of a fermionic many-body system, with a particular emphasis on the strong-coupling regime. The method is designed as a stepping stone towards building more accurate solutions for strongly coupled fermionic systems, such as medium-heavy nuclei, using quantum algorithms to surpass the current barrier in classical computation. Approximations of increasing accuracy to the exact solution of the Lipkin-Meshkov-Glick Hamiltonian with $N=8$ particles are studied on digital simulators and IBM quantum devices. Improved accuracy is achieved by applying operators of growing complexity to generate excitations above the correlated ground state, which is determined by the variational quantum eigensolver (VQE). We demonstrate explicitly that the qEOM exhibits a quantum benefit due to the independence of the number of required quantum measurements from the configuration complexity. Post-processing examination shows that quantum device errors are amplified by increasing configuration complexity and coupling strength. A detailed error analysis is presented, and error mitigation based on zero noise extrapolation is implemented.
翻訳日:2023-09-20 17:16:41 公開日:2023-09-18
# 動的メタバースアプリケーションのための連続的深層強化学習による自己維持多重アクセス

Self-Sustaining Multiple Access with Continual Deep Reinforcement Learning for Dynamic Metaverse Applications ( http://arxiv.org/abs/2309.10177v1 )

ライセンス: Link先を確認
Hamidreza Mazandarani, Masoud Shokrnezhad, Tarik Taleb, and Richard Li(参考訳) Metaverseは,さまざまな世界で構成される仮想環境の構築を目的とした,新たなパラダイムだ。 このような動的で複雑なシナリオに対処するため、第6世代の通信システム(6G)を対象としたサービス要件の厳密な品質を考慮すると、モデルが新しいデータと条件で継続的にトレーニングされるAdaptive Artificial Intelligence(Adaptive AI)を採用することで実現可能な、自己維持戦略を採用することが考えられる。 自己持続性の1つの側面は周波数スペクトルへの多重アクセスの管理である。 この課題に対処するためのいくつかの革新的な手法が提案されているが、主にDeep Reinforcement Learning (DRL) を用いているが、エージェントを非定常環境に適用することの問題は、まだ正確には解決されていない。 本稿では,アクティブユーザ機器(UE)の数が時間とともに変動する場合に,知的エージェントのスループットを最大化するために,マルチチャネル環境におけるマルチアクセスの問題を調査し,現在の文献のギャップを埋める。 この問題を解決するために,継続学習(CL)によるDouble Deep Q-Learning(DDQL)手法を提案する。 数値シミュレーションにより、cl-ddqlアルゴリズムは、他のよく知られた手法と比較して、非常に短い収束時間で非常に高いスループットを達成することが示されている。

The Metaverse is a new paradigm that aims to create a virtual environment consisting of numerous worlds, each of which will offer a different set of services. To deal with such a dynamic and complex scenario, considering the stringent quality of service requirements aimed at the 6th generation of communication systems (6G), one potential approach is to adopt self-sustaining strategies, which can be realized by employing Adaptive Artificial Intelligence (Adaptive AI) where models are continually re-trained with new data and conditions. One aspect of self-sustainability is the management of multiple access to the frequency spectrum. Although several innovative methods have been proposed to address this challenge, mostly using Deep Reinforcement Learning (DRL), the problem of adapting agents to a non-stationary environment has not yet been precisely addressed. This paper fills in the gap in the current literature by investigating the problem of multiple access in multi-channel environments to maximize the throughput of the intelligent agent when the number of active User Equipments (UEs) may fluctuate over time. To solve the problem, a Double Deep Q-Learning (DDQL) technique empowered by Continual Learning (CL) is proposed to overcome the non-stationary situation, while the environment is unknown. Numerical simulations demonstrate that, compared to other well-known methods, the CL-DDQL algorithm achieves significantly higher throughputs with a considerably shorter convergence time in highly dynamic scenarios.
翻訳日:2023-09-20 17:16:23 公開日:2023-09-18
# one act play: アクションチャンキングトランスフォーマーによる単一のデモンストレーション動作のクローニング

One ACT Play: Single Demonstration Behavior Cloning with Action Chunking Transformers ( http://arxiv.org/abs/2309.10175v1 )

ライセンス: Link先を確認
Abraham George and Amir Barati Farimani(参考訳) 人間のデモ(行動クローン)から学ぶことは、ロボット学習の基盤となる。 しかし、ほとんどの行動クローニングアルゴリズムは、特に様々な初期条件を持つ一般的なタスクにおいて、タスクを学ぶために多数のデモを必要とする。 しかし、人間は1つか2つのデモを見ただけで、複雑なタスクを完了させることを学ぶことができる。 我々の研究は、行動クローニングを使用して、人間の1つのデモンストレーションのみを与えられたタスクを学ぶことで、この能力をエミュレートすることを目指している。 この目的を達成するために、線形変換を用いて1つの実演を拡大し、幅広い初期条件に対する一連の軌道を生成する。 これらの実演により, 3つのブロック操作タスクを成功させるために, 行動クローニングエージェントを訓練することができる。 さらに,行動チャンキングエージェントが推論中に使用する時間的センシング法を新たに追加した。 動作予測の標準偏差を ensembling 法に組み込むことで, 環境の変化を予測できないほど頑健になり, 性能が大幅に向上した。

Learning from human demonstrations (behavior cloning) is a cornerstone of robot learning. However, most behavior cloning algorithms require a large number of demonstrations to learn a task, especially for general tasks that have a large variety of initial conditions. Humans, however, can learn to complete tasks, even complex ones, after only seeing one or two demonstrations. Our work seeks to emulate this ability, using behavior cloning to learn a task given only a single human demonstration. We achieve this goal by using linear transforms to augment the single demonstration, generating a set of trajectories for a wide range of initial conditions. With these demonstrations, we are able to train a behavior cloning agent to successfully complete three block manipulation tasks. Additionally, we developed a novel addition to the temporal ensembling method used by action chunking agents during inference. By incorporating the standard deviation of the action predictions into the ensembling method, our approach is more robust to unforeseen changes in the environment, resulting in significant performance improvements.
翻訳日:2023-09-20 17:15:54 公開日:2023-09-18
# 複雑な地形における風力分解能向上のための機械学習

Machine Learning for enhancing Wind Field Resolution in Complex Terrain ( http://arxiv.org/abs/2309.10172v1 )

ライセンス: Link先を確認
Jacob Wulff Wold and Florian Stadtmann and Adil Rasheed and Mandar Tabib and Omer San and Jan-Tore Horn(参考訳) 大気流は多種多様な時空間スケールで制御されており、複雑な地形における乱流のリアルタイムな数値モデリングを高精度に行うことができる。 本研究では,ノルウェーのベセーカー(Bessaker)にある実際の風力発電所において,高分解能風力発生のための高分解能風力場を実現するために,高分解能生成適応型ニューラルネットワークによるニューラルネットワークアプローチを実証した。 ニューラルネットワークに基づくモデルは,局所的な地形を尊重しながら,より粗いスケールから完全解決された3次元速度場を再現し,三角補間よりも容易に優れることを示した。 また、ドメイン知識に基づく適切なコスト関数を使用することで、敵のトレーニングの使用を軽減できることを示す。

Atmospheric flows are governed by a broad variety of spatio-temporal scales, thus making real-time numerical modeling of such turbulent flows in complex terrain at high resolution computationally intractable. In this study, we demonstrate a neural network approach motivated by Enhanced Super-Resolution Generative Adversarial Networks to upscale low-resolution wind fields to generate high-resolution wind fields in an actual wind farm in Bessaker, Norway. The neural network-based model is shown to successfully reconstruct fully resolved 3D velocity fields from a coarser scale while respecting the local terrain and that it easily outperforms trilinear interpolation. We also demonstrate that by using appropriate cost function based on domain knowledge, we can alleviate the use of adversarial training.
翻訳日:2023-09-20 17:15:39 公開日:2023-09-18
# 基礎モデルと形式的検証による仕様駆動ビデオ検索

Specification-Driven Video Search via Foundation Models and Formal Verification ( http://arxiv.org/abs/2309.10171v1 )

ライセンス: Link先を確認
Yunhao Yang, Jean-Rapha\"el Gaglione, Sandeep Chinchali, Ufuk Topcu(参考訳) ビデオデータの豊富化により、ユーザーは、例えば緊急時など、興味のあるイベントを検索できる。 一方、プライバシー保護の必要性など、新たな懸念が浮かび上がっている。 既存のビデオ検索アプローチでは、手動検査または大規模なトレーニングを伴うディープラーニングモデルが必要である。 近年の視覚・言語モデルの進歩とフォーマルな手法を用いて,映像クリップの興味のある事象を自動かつ効率的に検索する手法を開発した。 テキストベースのイベント記述を有限トレース(LTL$_f$)上の線形時間論理にマッピングするアルゴリズムと、映像情報を符号化するオートマトンを構築するアルゴリズムとから構成される。 そして、この方法は、ltl$_f$仕様に対してビデオを表すオートマトンを正式に検証し、オートマトンが仕様を満たす場合、検索結果に関連するビデオクリップを追加する。 提案手法の映像検索能力を実証するために,定性的かつ定量的に分析する。 プライバシーに敏感なビデオや最先端の自動運転データセットを検索する精度は90%を超えている。

The increasing abundance of video data enables users to search for events of interest, e.g., emergency incidents. Meanwhile, it raises new concerns, such as the need for preserving privacy. Existing approaches to video search require either manual inspection or a deep learning model with massive training. We develop a method that uses recent advances in vision and language models, as well as formal methods, to search for events of interest in video clips automatically and efficiently. The method consists of an algorithm to map text-based event descriptions into linear temporal logic over finite traces (LTL$_f$) and an algorithm to construct an automaton encoding the video information. Then, the method formally verifies the automaton representing the video against the LTL$_f$ specifications and adds the pertinent video clips to the search result if the automaton satisfies the specifications. We provide qualitative and quantitative analysis to demonstrate the video-searching capability of the proposed method. It achieves over 90 percent precision in searching over privacy-sensitive videos and a state-of-the-art autonomous driving dataset.
翻訳日:2023-09-20 17:15:24 公開日:2023-09-18
# 分断分類を改善する因果理論と構造データ表現

Causal Theories and Structural Data Representations for Improving Out-of-Distribution Classification ( http://arxiv.org/abs/2309.10211v1 )

ライセンス: Link先を確認
Donald Martin, Jr. and David Kinney(参考訳) 複雑な分類タスクのためにニューラルネットワークをトレーニングする際に、人間の中心にある因果理論や動的システムからのツールがどのようにしてデータの表現を導くかを考察する。 具体的には,シミュレーションデータを用いて,パンデミックシステムのデータ生成過程の不変構造的因果特性を明示するデータ表現を用いたニューラルネットワークのトレーニングにより,データ表現に対するより自然なアプローチと比較して,分類タスクにおけるout-of-distribution(ood)一般化性能が向上することを示す。 これらの結果から,人為的な因果的知識を用いて,ML開発者の先天的不確実性を低減し,より明確に定義されたMLパイプラインを実現できることを示す。 これは、mlシステム開発プラクティスの改善を通じて、機械学習システムの堅牢性と安全性を改善することを目的とした、より広範な取り組みへの動的システムアプローチの有用性を示している。

We consider how human-centered causal theories and tools from the dynamical systems literature can be deployed to guide the representation of data when training neural networks for complex classification tasks. Specifically, we use simulated data to show that training a neural network with a data representation that makes explicit the invariant structural causal features of the data generating process of an epidemic system improves out-of-distribution (OOD) generalization performance on a classification task as compared to a more naive approach to data representation. We take these results to demonstrate that using human-generated causal knowledge to reduce the epistemic uncertainty of ML developers can lead to more well-specified ML pipelines. This, in turn, points to the utility of a dynamical systems approach to the broader effort aimed at improving the robustness and safety of machine learning systems via improved ML system development practices.
翻訳日:2023-09-20 17:09:01 公開日:2023-09-18
# ProtoKD:パラサイトオバ認識のための超スカースデータからの学習

ProtoKD: Learning from Extremely Scarce Data for Parasite Ova Recognition ( http://arxiv.org/abs/2309.10210v1 )

ライセンス: Link先を確認
Shubham Trehan, Udhav Ramachandran, Ruth Scimeca, Sathyanarayanan N. Aakur(参考訳) 早期寄生虫検出のための信頼性の高い計算フレームワークの構築、特に卵子(卵子)の段階では、医療の進歩と潜在的公衆衛生危機の効果的管理に不可欠である。 深層学習は、様々なタスクにおける人間の労働者を大いに助けてきたが、その応用と診断は広範なデータセットの必要性によって制約されてきた。 非常に少ないトレーニングデータセットから学習する能力、すなわちクラス毎に5つ未満の例が存在する場合、大規模なデータ収集とアノテーションが高価または不可能(新規または未知の感染エージェントの場合)なバイオメディカルアプリケーションにおいて、ディープラーニングモデルをスケールするには必須である。 本研究では,非常に少ないデータを用いたマルチクラス寄生卵の認識問題に最初に取り組むアプローチの一つであるProtoKDを紹介する。 原型ネットワークの原理と自己蒸留を組み合わせることで、クラス毎に1つのサンプルのみから堅牢な表現を学ぶことができる。 さらに,この重要な方向の研究を進めるための新しいベンチマークを構築し,提案したProtoKDフレームワークが最先端の性能を実現することを検証する。 さらに,実際の臨床データから得られたメタジェノムに基づく大規模分類学的プロファイリングタスクの性能を評価することにより,他の下流タスクに対するフレームワークの一般化性を評価する。

Developing reliable computational frameworks for early parasite detection, particularly at the ova (or egg) stage is crucial for advancing healthcare and effectively managing potential public health crises. While deep learning has significantly assisted human workers in various tasks, its application and diagnostics has been constrained by the need for extensive datasets. The ability to learn from an extremely scarce training dataset, i.e., when fewer than 5 examples per class are present, is essential for scaling deep learning models in biomedical applications where large-scale data collection and annotation can be expensive or not possible (in case of novel or unknown infectious agents). In this study, we introduce ProtoKD, one of the first approaches to tackle the problem of multi-class parasitic ova recognition using extremely scarce data. Combining the principles of prototypical networks and self-distillation, we can learn robust representations from only one sample per class. Furthermore, we establish a new benchmark to drive research in this critical direction and validate that the proposed ProtoKD framework achieves state-of-the-art performance. Additionally, we evaluate the framework's generalizability to other downstream tasks by assessing its performance on a large-scale taxonomic profiling task based on metagenomes sequenced from real-world clinical data.
翻訳日:2023-09-20 17:08:44 公開日:2023-09-18
# 目に見えない領域における効果的なセマンティックOOD検出に向けて:ドメイン一般化の視点から

Towards Effective Semantic OOD Detection in Unseen Domains: A Domain Generalization Perspective ( http://arxiv.org/abs/2309.10209v1 )

ライセンス: Link先を確認
Haoliang Wang, Chen Zhao, Yunhui Guo, Kai Jiang, Feng Chen(参考訳) 機械学習における分散シフトの代表的な2つのタイプは、共変量シフト(異なるドメインで観察される)と意味シフト(異なるクラスで見る)である。 従来のOOD検出技術は、これらのシフトの1つにのみ対処する。 しかし、実世界のテスト環境は、しばしば共変量とセマンティックシフトの両方の組み合わせを示す。 本研究では,二つの分布シフトを同時に扱う領域間の意味的ood検出という新しい問題を提案する。 そこで本研究では,共変量シフトに対応するためにドメイン間の意味的不変性を保証する領域一般化正規化と,エネルギー境界による意味的シフトに対するOOD検出能力を向上するOOD検出正規化の2つの方法を提案する。 3つの標準領域一般化ベンチマークの厳密なテストを通じて,OOD検出性能において従来の領域一般化手法よりも優れていることを示す。 さらに、同等のind分類精度を維持することでその基盤を保っている。

Two prevalent types of distributional shifts in machine learning are the covariate shift (as observed across different domains) and the semantic shift (as seen across different classes). Traditional OOD detection techniques typically address only one of these shifts. However, real-world testing environments often present a combination of both covariate and semantic shifts. In this study, we introduce a novel problem, semantic OOD detection across domains, which simultaneously addresses both distributional shifts. To this end, we introduce two regularization strategies: domain generalization regularization, which ensures semantic invariance across domains to counteract the covariate shift, and OOD detection regularization, designed to enhance OOD detection capabilities against the semantic shift through energy bounding. Through rigorous testing on three standard domain generalization benchmarks, our proposed framework showcases its superiority over conventional domain generalization approaches in terms of OOD detection performance. Moreover, it holds its ground by maintaining comparable InD classification accuracy.
翻訳日:2023-09-20 17:08:21 公開日:2023-09-18
# ロゴ認識のための画像テキスト事前学習

Image-Text Pre-Training for Logo Recognition ( http://arxiv.org/abs/2309.10206v1 )

ライセンス: Link先を確認
Mark Hubenthal, Suren Kumar(参考訳) オープンセットのロゴ認識は、まず可能なロゴ領域を検出し、その後に検出された部分と、常に進化を続けるクロッピングされたロゴ画像のデータセットとマッチングすることで、一般的に解決される。 マッチングモデル(メートル法学習問題)は,文字と記号が混在しているため,特にロゴ認識において困難である。 マッチングモデルの性能を向上させるための2つの新しい貢献を提案する。 (a)画像テキストペアサンプルを用いた事前学習 (b)改良されたメトリック学習損失関数。 微調整済みのImageNet事前学習モデルの標準パラダイムは、マッチング問題を効果的に解決するために必要なテキスト感度を見つけるのに失敗する。 本研究は, 画像テキストペアの事前学習の重要性を実証し, ロゴ検索タスク, 特にテキスト優位なクラスにおいて, 視覚埋め込みの性能を大幅に向上させるものである。 我々は,LogoDet3K,OpenLogo,FlickrLogos-47をOpenLogoDet3K47とみなした複合公開ロゴデータセットを構築した。 openlogodet3k47で微調整された場合、同じビジョンバックボーンが98.6\%$ recall@1となり、imagenet1k(97.6\%$)での事前トレーニングよりも大幅にパフォーマンスが向上する。 クラス固有のハード負の画像を含むProxyNCAHN++を提案するために,ProxyNCA++損失関数を一般化する。 提案手法は、5つの公開ロゴデータセットに新たな最先端設定を施し、ロゴデット3kテストで3.5\%$ zero-shot recall@1、openlogoで$4\%$、flickrlogos-47で$6.5\%$、ワイルドで$6.2\%$、ベルガログで$0.6\%である。

Open-set logo recognition is commonly solved by first detecting possible logo regions and then matching the detected parts against an ever-evolving dataset of cropped logo images. The matching model, a metric learning problem, is especially challenging for logo recognition due to the mixture of text and symbols in logos. We propose two novel contributions to improve the matching model's performance: (a) using image-text paired samples for pre-training, and (b) an improved metric learning loss function. A standard paradigm of fine-tuning ImageNet pre-trained models fails to discover the text sensitivity necessary to solve the matching problem effectively. This work demonstrates the importance of pre-training on image-text pairs, which significantly improves the performance of a visual embedder trained for the logo retrieval task, especially for more text-dominant classes. We construct a composite public logo dataset combining LogoDet3K, OpenLogo, and FlickrLogos-47 deemed OpenLogoDet3K47. We show that the same vision backbone pre-trained on image-text data, when fine-tuned on OpenLogoDet3K47, achieves $98.6\%$ recall@1, significantly improving performance over pre-training on Imagenet1K ($97.6\%$). We generalize the ProxyNCA++ loss function to propose ProxyNCAHN++ which incorporates class-specific hard negative images. The proposed method sets new state-of-the-art on five public logo datasets considered, with a $3.5\%$ zero-shot recall@1 improvement on LogoDet3K test, $4\%$ on OpenLogo, $6.5\%$ on FlickrLogos-47, $6.2\%$ on Logos In The Wild, and $0.6\%$ on BelgaLogo.
翻訳日:2023-09-20 17:08:05 公開日:2023-09-18
# 指数加算器に基づく量子乗算器

Quantum Multiplier Based on Exponent Adder ( http://arxiv.org/abs/2309.10204v1 )

ライセンス: Link先を確認
Junpeng Zhan(参考訳) 量子乗算は量子コンピューティングの基本的な操作である。 既存の量子乗算器の多くは、2つの$n$-bit整数数を乗算するために$O(n)$ qubitsを必要とし、その適用性は短期量子コンピュータを用いて大きな整数数に乗算できる。 本稿では2つの$n$-bit整数を乗算するために$log_2(n)$ qubitsしか必要とせず、この問題に対処する新しいアプローチであるQuantum Multiplier Based on Exponent Adder (QMbead)を提案する。 qmbeadは2つの乗法をそれぞれ2つの重ね合わせ状態として表現するために指数符号化(exponent encoding)を使い、量子加算器を用いてこれら2つの重ね合わせ状態の和を取得し、量子加算器の出力を測定して積を計算する。 本稿では、QMbeadで使用する量子フーリエ変換(QFT)に基づく2種類の量子加算器を提案する。 QMbeadの回路深さは、選択された量子加算器によって決定され、2つのQFTベースの加算器を使用すると$O(log_2^2 n)$となる。 乗算は整数でも十進数でも構わない。 QMbeadは17キュービットしか使用せず、最大273ビットのビット長の製品を計算するために量子シミュレータに実装されている。 これにより、QMbeadは大きな整数や十進数を多くのビットで乗算する効率的な解として確立される。

Quantum multiplication is a fundamental operation in quantum computing. Most existing quantum multipliers require $O(n)$ qubits to multiply two $n$-bit integer numbers, limiting their applicability to multiply large integer numbers using near-term quantum computers. This paper proposes a new approach, the Quantum Multiplier Based on Exponent Adder (QMbead), which addresses this issue by requiring only $log_2(n)$ qubits to multiply two $n$-bit integer numbers. QMbead uses a so-called exponent encoding to represent the two multiplicands as two superposition states, respectively, and then employs a quantum adder to obtain the sum of these two superposition states, and subsequently measures the outputs of the quantum adder to calculate the product of the multiplicands. The paper presents two types of quantum adders based on the quantum Fourier transform (QFT) for use in QMbead. The circuit depth of QMbead is determined by the chosen quantum adder, being $O(log_2^2 n)$ when using the two QFT-based adders. The multiplicand can be either an integer or a decimal number. QMbead has been implemented on quantum simulators to compute products with a bit length of up to 273 bits using only 17 qubits. This establishes QMbead as an efficient solution for multiplying large integer or decimal numbers with many bits.
翻訳日:2023-09-20 17:07:31 公開日:2023-09-18
# アドバンテージモデルと選択リハーサルによるRLHFの安定化

Stabilizing RLHF through Advantage Model and Selective Rehearsal ( http://arxiv.org/abs/2309.10202v1 )

ライセンス: Link先を確認
Baolin Peng and Linfeng Song and Ye Tian and Lifeng Jin and Haitao Mi and Dong Yu(参考訳) 大きな言語モデル(LLM)は自然言語処理に革命をもたらしたが、RLHFを使用してこれらのモデルを人間の価値観や好みと整合させることは大きな課題である。 この課題は、報酬ハッキングや破滅的な忘れなど、様々な不安定さによって特徴づけられる。 本稿では,RLHFトレーニングを安定化させる2つのイノベーションを提案する。 1) 利益率を直接モデル化するアドバンテージモデル、すなわち、期待される報酬と比較して余分な報酬を課し、報酬のハッキングを防ぐためにタスク間のスコア分布を規制する。 2) PPOトレーニングと知識リハーサルのためのデータを戦略的に選択することで,大惨な忘れを緩和する選択的リハーサル。 公開データセットとプロプライエタリデータセットに関する実験分析により,提案手法がrlhfトレーニングの安定性を向上させるだけでなく,報酬スコアや勝利率も向上することが判明した。

Large Language Models (LLMs) have revolutionized natural language processing, yet aligning these models with human values and preferences using RLHF remains a significant challenge. This challenge is characterized by various instabilities, such as reward hacking and catastrophic forgetting. In this technical report, we propose two innovations to stabilize RLHF training: 1) Advantage Model, which directly models advantage score i.e., extra reward compared to the expected rewards and regulates score distributions across tasks to prevent reward hacking. 2) Selective Rehearsal, which mitigates catastrophic forgetting by strategically selecting data for PPO training and knowledge rehearsing. Our experimental analysis on public and proprietary datasets reveals that the proposed methods not only increase stability in RLHF training but also achieve higher reward scores and win rates.
翻訳日:2023-09-20 17:07:04 公開日:2023-09-18
# 幅広い形態的変動を扱うための進化的一般制御系

Evolving generalist controllers to handle a wide range of morphological variations ( http://arxiv.org/abs/2309.10201v1 )

ライセンス: Link先を確認
Corinna Triebold, Anil Yaman(参考訳) 神経進化的手法は、幅広いタスクに効果的であることが証明されている。 しかし、進化したニューラルネットワーク(anns)のロバスト性と汎用性の研究は、まだ限られている。 このようなコントローラーが制御タスクで使用されるロボティクスのような分野では、これは大きな意味を持つ。 予期せぬ形態変化や環境変化は、ANNコントローラがこれらの変化を処理できなければ失敗する可能性がある。 本稿では,コントローラのロバスト性と汎用性を向上させるアルゴリズムを提案する。 これは進化過程中に形態学的変化を導入することで達成される。 その結果,形態やパラメータの適応に関する情報を必要とせずに,多種多様な形態変化を十分に扱える一般制御器が発見された。 我々は,スペシャリストとジェネラリストコントローラのトレードオフを実証するシミュレーションに関する広範な実験分析を行う。 その結果, 一般学者は, 特定の形態に対して過小評価されるコストで, 様々な形態変化を制御できることが示唆された。 本研究は,神経進化的手法における強靭性と一般化可能性の限定的理解に対処し,これらの特性を改善する手法を提案する。

Neuro-evolutionary methods have proven effective in addressing a wide range of tasks. However, the study of the robustness and generalisability of evolved artificial neural networks (ANNs) has remained limited. This has immense implications in the fields like robotics where such controllers are used in control tasks. Unexpected morphological or environmental changes during operation can risk failure if the ANN controllers are unable to handle these changes. This paper proposes an algorithm that aims to enhance the robustness and generalisability of the controllers. This is achieved by introducing morphological variations during the evolutionary process. As a results, it is possible to discover generalist controllers that can handle a wide range of morphological variations sufficiently without the need of the information regarding their morphologies or adaptation of their parameters. We perform an extensive experimental analysis on simulation that demonstrates the trade-off between specialist and generalist controllers. The results show that generalists are able to control a range of morphological variations with a cost of underperforming on a specific morphology relative to a specialist. This research contributes to the field by addressing the limited understanding of robustness and generalisability in neuro-evolutionary methods and proposes a method by which to improve these properties.
翻訳日:2023-09-20 17:06:49 公開日:2023-09-18
# カーネル密度積分変換

The Kernel Density Integral Transformation ( http://arxiv.org/abs/2309.10194v1 )

ライセンス: Link先を確認
Calvin McCarter(参考訳) 機械学習や統計手法を表データに適用する場合、機能前処理は引き続き重要な役割を果たす。 本稿では,カーネル密度積分変換を特徴前処理のステップとして用いることを提案する。 提案手法は,線形min-maxスケーリングと量子化変換の2つの主要な特徴前処理手法を制約ケースとして仮定する。 ハイパーパラメータチューニングなしでは、カーネル密度積分変換はいずれの手法の簡単なドロップイン置換として使用することができ、それぞれの弱点に対して堅牢性を提供する。 あるいは、連続した1つのハイパーパラメータをチューニングすることで、これらの手法を頻繁に上回る。 最後に,カーネル密度変換が統計的データ解析,特に相関解析や一変量クラスタリングに利益をもたらすことを示す。

Feature preprocessing continues to play a critical role when applying machine learning and statistical methods to tabular data. In this paper, we propose the use of the kernel density integral transformation as a feature preprocessing step. Our approach subsumes the two leading feature preprocessing methods as limiting cases: linear min-max scaling and quantile transformation. We demonstrate that, without hyperparameter tuning, the kernel density integral transformation can be used as a simple drop-in replacement for either method, offering robustness to the weaknesses of each. Alternatively, with tuning of a single continuous hyperparameter, we frequently outperform both of these methods. Finally, we show that the kernel density transformation can be profitably applied to statistical data analysis, particularly in correlation analysis and univariate clustering.
翻訳日:2023-09-20 17:06:32 公開日:2023-09-18
# 多段階製造システムの品質伝搬解析のための確率的ディープクープマンモデル

Stochastic Deep Koopman Model for Quality Propagation Analysis in Multistage Manufacturing Systems ( http://arxiv.org/abs/2309.10193v1 )

ライセンス: Link先を確認
Zhiyi Chen, Harshal Maske, Huanyi Shui, Devesh Upadhyay, Michael Hopka, Joseph Cohen, Xingjian Lai, Xun Huan, Jun Ni(参考訳) 多段階製造システム(MMS)のモデリングは、学術と産業の両方から注目を集めている。 近年のディープラーニング手法の進歩は、コストと専門知識を減らしてこの課題を達成する機会を提供する。 本研究では,MMSの複雑な振る舞いをモデル化する確率的ディープ・クープマン(SDK)フレームワークを提案する。 具体的には,変分オートエンコーダによって抽出された臨界品質情報を伝播するクープマン演算子の新たな応用を提案する。 この枠組みにより, 伝達線形表現を用いて製品品質の一般的な非線形進化を効果的に捉えることができ, データ駆動モデルの解釈可能性を高めることができる。 SDKフレームワークの性能を評価するため,オープンソースデータセットの比較研究を行った。 本論文の主な発見は以下の通りである。 以上の結果から,SDKはMMS内の製品品質を段階的に予測する際に,他の一般的なデータ駆動モデルよりも精度が高いことが示唆された。 さらに,SDKの確率潜在空間における特異な線形伝搬特性により,プロセス全体の品質変化のトレーサビリティが向上し,根本原因解析スキームの設計が容易になる。 特に、提案するフレームワークは、生産ラインの基礎となる物理に関する最小限の知識を必要とする。 様々なmmssに適用可能な仮想メトロロジーツールとして機能し、欠陥製造をゼロという究極の目標に寄与する。

The modeling of multistage manufacturing systems (MMSs) has attracted increased attention from both academia and industry. Recent advancements in deep learning methods provide an opportunity to accomplish this task with reduced cost and expertise. This study introduces a stochastic deep Koopman (SDK) framework to model the complex behavior of MMSs. Specifically, we present a novel application of Koopman operators to propagate critical quality information extracted by variational autoencoders. Through this framework, we can effectively capture the general nonlinear evolution of product quality using a transferred linear representation, thus enhancing the interpretability of the data-driven model. To evaluate the performance of the SDK framework, we carried out a comparative study on an open-source dataset. The main findings of this paper are as follows. Our results indicate that SDK surpasses other popular data-driven models in accuracy when predicting stagewise product quality within the MMS. Furthermore, the unique linear propagation property in the stochastic latent space of SDK enables traceability for quality evolution throughout the process, thereby facilitating the design of root cause analysis schemes. Notably, the proposed framework requires minimal knowledge of the underlying physics of production lines. It serves as a virtual metrology tool that can be applied to various MMSs, contributing to the ultimate goal of Zero Defect Manufacturing.
翻訳日:2023-09-20 17:06:21 公開日:2023-09-18
# 大規模言語モデルを用いたゼロショットASRドメイン適応のためのコーパス合成

Corpus Synthesis for Zero-shot ASR domain Adaptation using Large Language Models ( http://arxiv.org/abs/2309.10707v1 )

ライセンス: Link先を確認
Hsuan Su, Ting-Yao Hu, Hema Swetha Koppula, Raviteja Vemulapalli, Jen-Hao Rick Chang, Karren Yang, Gautam Varma Mantena, Oncel Tuzel(参考訳) ASR(Automatic Speech Recognition)システムは、多くの現実世界のアプリケーションで広く使われているが、しばしば新しいドメインにうまく一般化せず、これらのドメインのデータに基づいて微調整する必要がある。 しかし、ターゲットドメインのデータは多くのシナリオでは利用できない。 本稿では,これらのドメインからのテキストや音声を使わずに,新たなターゲットドメインにASRモデルを適用するための新しい戦略を提案する。 そこで本研究では,Large Language Model (LLM) を用いて対象領域のテキストコーパスを生成する新しいデータ合成パイプラインと,それに対応する音声を生成する最先端制御可能な音声合成モデルを提案する。 テキストコーパス生成における LLM の有効性を高めるため, 簡易かつ効果的なテキスト内命令微調整手法を提案する。 SLURPデータセットを用いた実験の結果,提案手法は,ソースドメインの性能低下を伴わずに,未確認対象ドメインの平均単語誤り率を2,8\%向上させることができた。

While Automatic Speech Recognition (ASR) systems are widely used in many real-world applications, they often do not generalize well to new domains and need to be finetuned on data from these domains. However, target-domain data usually are not readily available in many scenarios. In this paper, we propose a new strategy for adapting ASR models to new target domains without any text or speech from those domains. To accomplish this, we propose a novel data synthesis pipeline that uses a Large Language Model (LLM) to generate a target domain text corpus, and a state-of-the-art controllable speech synthesis model to generate the corresponding speech. We propose a simple yet effective in-context instruction finetuning strategy to increase the effectiveness of LLM in generating text corpora for new domains. Experiments on the SLURP dataset show that the proposed method achieves an average relative word error rate improvement of $28\%$ on unseen target domains without any performance drop in source domains.
翻訳日:2023-09-20 13:42:48 公開日:2023-09-18
# 勾配アライメントによるプライバシ保存制約領域の一般化

Privacy-Preserving Constrained Domain Generalization via Gradient Alignment ( http://arxiv.org/abs/2105.08511v3 )

ライセンス: Link先を確認
Chris Xing Tian, Haoliang Li, Yufei Wang, Shiqi Wang(参考訳) 深層ニューラルネットワーク(dnn)は、医療画像応用において前例のない成功を収めている。 しかし、データセットの可用性の制限や患者のプライバシ保護の厳格な法的・倫理的要件により、大規模なトレーニングデータを用いたDNNによる医用画像分類の幅広い適用が妨げられている。 例えば、あるドメイン(例えば、ある病院からのデータのみ)からDNNを訓練する場合、他のドメイン(例えば、別の病院からのデータ)への一般化能力はほとんど欠落している。 本稿では,プライバシ保護制約付きドメイン一般化手法を開発し,プライバシ保護条件下での一般化能力の向上を目指す。 特に,集中型サーバ側における情報集約プロセスを改善することを提案し,トレーニングされたモデルが"見えない"が関連する医療画像に対してより一般化できることを期待する。 提案手法の理論的および有効性は,提案手法を分布距離測定として広く採用されている最大平均離散性(MMD)と結合することによって説明できる。 2つの難解な医用画像分類タスクの実験結果は,最先端のフェデレーション学習法と比較して,クロスドメイン一般化能力が向上することを示した。

Deep neural networks (DNN) have demonstrated unprecedented success for medical imaging applications. However, due to the issue of limited dataset availability and the strict legal and ethical requirements for patient privacy protection, the broad applications of medical imaging classification driven by DNN with large-scale training data have been largely hindered. For example, when training the DNN from one domain (e.g., with data only from one hospital), the generalization capability to another domain (e.g., data from another hospital) could be largely lacking. In this paper, we aim to tackle this problem by developing the privacy-preserving constrained domain generalization method, aiming to improve the generalization capability under the privacy-preserving condition. In particular, We propose to improve the information aggregation process on the centralized server-side with a novel gradient alignment loss, expecting that the trained model can be better generalized to the "unseen" but related medical images. The rationale and effectiveness of our proposed method can be explained by connecting our proposed method with the Maximum Mean Discrepancy (MMD) which has been widely adopted as the distribution distance measurement. Experimental results on two challenging medical imaging classification tasks indicate that our method can achieve better cross-domain generalization capability compared to the state-of-the-art federated learning methods.
翻訳日:2023-09-20 02:32:16 公開日:2023-09-18
# 量子シミュレータにおける格子ゲージ理論モデル内の量子最適化

Quantum optimization within lattice gauge theory model on a quantum simulator ( http://arxiv.org/abs/2105.07134v4 )

ライセンス: Link先を確認
Zheng Yan, Zheng Zhou, Yan-Hua Zhou, Yan-Cheng Wang, Xingze Qiu, Zi Yang Meng, Xue-Feng Zhang(参考訳) 近年,プログラム可能な量子デバイスによる格子ゲージ理論(LGT)ハミルトンとその非自明な状態のシミュレーションが注目されている。 ライドバーグ原子配列は、量子シミュレーションと量子コンピューティングにおいて最も急速に発展している分野の一つである。 実験では、$\mathbb{Z}_2$ LGTと位相順序が実現され、その間に$U(1)$ LGTが懸命に働く。 LGTの州は局所的な制約があり、トポロジカル・プロテクションを持ついくつかの曲がりくねったセクターに分断されている。 したがって、実験のターゲットセクタで基底状態に到達することは困難であり、量子トポロジカルメモリにとっても重要なタスクである。 本稿では,トポロジカルセクタ間の基底状態を探索するためのsqa(s sweeping quantum annealing)プロトコルを提案する。 量子モンテカルロ法により、このSQAは、U(1)$ゲージ場を創発した反強磁性逆場イジングモデルに適用した大きさの線形時間複雑性を持つことを示す。 このSQAプロトコルは、Rydberg配列やD波アニールのような量子シミュレーションプラットフォーム上で容易に実現できる。 このアプローチは、量子最適化におけるトポロジ的障害を解消し、量子トポロジ的状態を作成するための効率的なレシピを提供する。

Simulating lattice gauge theory (LGT) Hamiltonian and its nontrivial states by programmable quantum devices has attracted numerous attention in recent years. Rydberg atom arrays constitute one of the most rapidly developing arenas for quantum simulation and quantum computing. The $\mathbb{Z}_2$ LGT and topological order has been realized in experiments while the $U(1)$ LGT is being worked hard on the way. States of LGT have local constraint and are fragmented into several winding sectors with topological protection. It is therefore difficult to reach the ground state in target sector for experiments, and it is also an important task for quantum topological memory. Here, we propose a protocol of sweeping quantum annealing (SQA) for searching the ground state among topological sectors. With the quantum Monte Carlo method, we show that this SQA has linear time complexity of size with applications to the antiferromagnetic transverse field Ising model, which has emergent $U(1)$ gauge fields. This SQA protocol can be realized easily on quantum simulation platforms such as Rydberg array and D-wave annealer. We expect this approach would provide an efficient recipe for resolving the topological hindrances in quantum optimization and the preparation of quantum topological state.
翻訳日:2023-09-20 02:31:42 公開日:2023-09-18
# KnowPrompt:関係抽出のための構文最適化を用いた知識認識型プロンプトチューニング

KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extraction ( http://arxiv.org/abs/2104.07650v7 )

ライセンス: Link先を確認
Xiang Chen, Ningyu Zhang, Xin Xie, Shumin Deng, Yunzhi Yao, Chuanqi Tan, Fei Huang, Luo Si, Huajun Chen(参考訳) 最近、プロンプトチューニングは、特定の少数ショット分類タスクで有望な結果を達成している。 プロンプトチューニングの基本的な考え方は、テキスト断片(テンプレート)を入力に挿入し、分類タスクをマスク付き言語モデリング問題に変換することである。 しかし、関係抽出には適切なプロンプトテンプレートを決定するにはドメインの専門知識が必要であり、適切なラベル語を得るには手間がかかる。 さらに、無視できない関係ラベルの間には、豊富な意味と事前の知識が存在する。 そこで本稿では,関係ラベル間の知識を関係抽出のプロンプトに組み込むことに焦点をあて,相乗的最適化(KnowPrompt)を用いた知識認識型 Prompt-tuning 手法を提案する。 具体的には,関係ラベルに含まれる潜在知識をインジェクトして,学習可能な仮想型語と解答語で構築する。 次に,構造制約による表現を相乗的に最適化する。 標準および低リソース設定の5つのデータセットに関する広範な実験結果から,本手法の有効性が示された。 私たちのコードとデータセットは、再現性のためにhttps://github.com/zjunlp/knowpromptで利用可能です。

Recently, prompt-tuning has achieved promising results for specific few-shot classification tasks. The core idea of prompt-tuning is to insert text pieces (i.e., templates) into the input and transform a classification task into a masked language modeling problem. However, for relation extraction, determining an appropriate prompt template requires domain expertise, and it is cumbersome and time-consuming to obtain a suitable label word. Furthermore, there exists abundant semantic and prior knowledge among the relation labels that cannot be ignored. To this end, we focus on incorporating knowledge among relation labels into prompt-tuning for relation extraction and propose a Knowledge-aware Prompt-tuning approach with synergistic optimization (KnowPrompt). Specifically, we inject latent knowledge contained in relation labels into prompt construction with learnable virtual type words and answer words. Then, we synergistically optimize their representation with structured constraints. Extensive experimental results on five datasets with standard and low-resource settings demonstrate the effectiveness of our approach. Our code and datasets are available in https://github.com/zjunlp/KnowPrompt for reproducibility.
翻訳日:2023-09-20 02:30:25 公開日:2023-09-18
# SIDNet:画像調和のためのシェーディング対応イルミネーション記述子

SIDNet: Learning Shading-aware Illumination Descriptor for Image Harmonization ( http://arxiv.org/abs/2112.01314v3 )

ライセンス: Link先を確認
Zhongyun Hu, Ntumba Elie Nsampi, Xue Wang and Qing Wang(参考訳) 画像調和は、背景との互換性を高めるために前景の外観を調整することを目的としている。 背景照明と前景要素に対する効果を探索することなく、既存の作品では現実的な前景シェーディングを生成できない。 本稿では,画像調和タスクを2つのサブ問題に分解する。 1)背景画像の照度と照度の推定 2)背景照明下での前景オブジェクトの再レンダリング これら2つのサブ問題を解く前に、まず、キーが前景画像から複数のシェーディングベースを生成するシェーディングベースsモジュールであるよく設計されたニューラルネットワークレンダリングフレームワークを介してシェーディングアウェア照明記述子を学習する。 次に,背景から照明記述子を抽出するために背景照明推定モジュールを設計する。 最後に、シェーディング対応イルミネーション記述子をニューラルネットワークフレームワーク(SIDNet)と併用して、新しい調和シェーディングを含む調和した前景画像を生成する。 さらに,画像ベースの照明による多数のシェーディング変動を含むフォトリアリスティック合成画像調和データセットを構築した。 合成データと実データの両方に対する大規模な実験は, 提案手法の優位性を実証している。

Image harmonization aims at adjusting the appearance of the foreground to make it more compatible with the background. Without exploring background illumination and its effects on the foreground elements, existing works are incapable of generating a realistic foreground shading. In this paper, we decompose the image harmonization task into two sub-problems: 1) illumination estimation of the background image and 2) re-rendering of foreground objects under background illumination. Before solving these two sub-problems, we first learn a shading-aware illumination descriptor via a well-designed neural rendering framework, of which the key is a shading bases module that generates multiple shading bases from the foreground image. Then we design a background illumination estimation module to extract the illumination descriptor from the background. Finally, the Shading-aware Illumination Descriptor is used in conjunction with the neural rendering framework (SIDNet) to produce the harmonized foreground image containing a novel harmonized shading. Moreover, we construct a photo-realistic synthetic image harmonization dataset that contains numerous shading variations with image-based lighting. Extensive experiments on both synthetic and real data demonstrate the superiority of the proposed method, especially in dealing with foreground shadings.
翻訳日:2023-09-20 02:25:23 公開日:2023-09-18
# なぜ干渉現象が量子論の本質を捉えないのか

Why interference phenomena do not capture the essence of quantum theory ( http://arxiv.org/abs/2111.13727v7 )

ライセンス: Link先を確認
Lorenzo Catani, Matthew Leifer, David Schmid, Robert W. Spekkens(参考訳) 量子干渉現象は古典的世界観に挑戦していると見なされている。 ファインマンは、それらが量子力学の唯一の謎と基本的な特異性であるとまで宣言した。 基本的な干渉現象は、光子は粒子でも波でもない、むしろ2つの可能性の間を切り替えるジキル・アンド・ハイドのような実体であり、現実はオブザーバーに依存している、システムは測定に先立って特性を持っていないか、あるいは非局所的または時間的因果的影響を受ける性質を持っている、など、多くの急進的な解釈の結論を受け入れることを強いる。 本研究では,このような結論は基本的な干渉現象によって強制されるものではないことを示す。 我々は、量子干渉の関連する現象論を再現する古典的離散場('toy field theory')の統計理論である量子理論の代替を記述しながら、これらの過激な解釈的主張を拒絶する。 elitzur-vaidman bomb tester、wheeler's delay-choice experiment、quantum eraser experimentなど、これらの解釈的主張を支持すると思われる多くの関連する干渉実験も再現している。 玩具場理論の系はフィールドモードであり、それぞれが常に粒子のような性質(離散占有数)と波のような性質(離散位相)を持っている。 これら2つの性質は共同所有であるが、両者が共同で知ることはできないとする理論もある。 一般に非局所的あるいは後方的因果的影響を好んで引用される現象学は、遠方や過去のシステムについての推論の観点から説明され、観察者に依存した全ては、現実そのものではなく、観察者の現実の知識である。

Quantum interference phenomena are widely viewed as posing a challenge to the classical worldview. Feynman even went so far as to proclaim that they are the only mystery and the basic peculiarity of quantum mechanics. Many have also argued that basic interference phenomena force us to accept a number of radical interpretational conclusions, including: that a photon is neither a particle nor a wave but rather a Jekyll-and-Hyde sort of entity that toggles between the two possibilities, that reality is observer-dependent, and that systems either do not have properties prior to measurements or else have properties that are subject to nonlocal or backwards-in-time causal influences. In this work, we show that such conclusions are not, in fact, forced on us by basic interference phenomena. We do so by describing an alternative to quantum theory, a statistical theory of a classical discrete field (the `toy field theory') that reproduces the relevant phenomenology of quantum interference while rejecting these radical interpretational claims. It also reproduces a number of related interference experiments that are thought to support these interpretational claims, such as the Elitzur-Vaidman bomb tester, Wheeler's delayed-choice experiment, and the quantum eraser experiment. The systems in the toy field theory are field modes, each of which possesses, at all times, both a particle-like property (a discrete occupation number) and a wave-like property (a discrete phase). Although these two properties are jointly possessed, the theory stipulates that they cannot be jointly known. The phenomenology that is generally cited in favour of nonlocal or backwards-in-time causal influences ends up being explained in terms of inferences about distant or past systems, and all that is observer-dependent is the observer's knowledge of reality, not reality itself.
翻訳日:2023-09-20 02:25:00 公開日:2023-09-18
# 列生成による解釈可能かつ公正なブール規則セット

Interpretable and Fair Boolean Rule Sets via Column Generation ( http://arxiv.org/abs/2111.08466v2 )

ライセンス: Link先を確認
Connor Lawless, Sanjeeb Dash, Oktay Gunluk, Dennis Wei(参考訳) 本稿では,解離正規形 (DNF, OR-of-ANDs, equivalent to decision rule set) におけるブール規則の学習を,分類の解釈可能なモデルとして考察する。 整数プログラムは規則単純性のために最適に分類精度を交換する。 また,公平性の設定を検討し,その定式化を2つの異なる分類パリティ尺度(機会の平等と等化オッズ)に対する明示的な制約を含むように拡張する。 カラム生成(CG)は、ヒューリスティックなルールマイニングを必要とせずに、指数関数的な数のルールを効率的に探索するために用いられる。 大規模データセットを扱うために,ランダム化を用いた近似cgアルゴリズムを提案する。 最近提案された3つの選択肢と比較して、CGアルゴリズムは16データセットのうち8つの精度と単純さのトレードオフを支配している。 精度を最大化する場合、CGはこの目的のために設計されたルール学習者と競合する。 他の公正かつ解釈可能な分類器と比較して、我々の手法は、公正性のより厳密な概念に適合する規則セットを精度の低いトレードオフで見つけることができる。

This paper considers the learning of Boolean rules in disjunctive normal form (DNF, OR-of-ANDs, equivalent to decision rule sets) as an interpretable model for classification. An integer program is formulated to optimally trade classification accuracy for rule simplicity. We also consider the fairness setting and extend the formulation to include explicit constraints on two different measures of classification parity: equality of opportunity and equalized odds. Column generation (CG) is used to efficiently search over an exponential number of candidate rules without the need for heuristic rule mining. To handle large data sets, we propose an approximate CG algorithm using randomization. Compared to three recently proposed alternatives, the CG algorithm dominates the accuracy-simplicity trade-off in 8 out of 16 data sets. When maximized for accuracy, CG is competitive with rule learners designed for this purpose, sometimes finding significantly simpler solutions that are no less accurate. Compared to other fair and interpretable classifiers, our method is able to find rule sets that meet stricter notions of fairness with a modest trade-off in accuracy.
翻訳日:2023-09-20 02:24:25 公開日:2023-09-18
# 量子誤差緩和のための実践的枠組み

A Practical Framework for Quantum Error Mitigation ( http://arxiv.org/abs/2110.05389v3 )

ライセンス: Link先を確認
Zhenyu Cai(参考訳) 量子エラー軽減は、近い将来、量子機械の実用化において重要な役割を果たすことが期待されている。 したがって、多くの量子エラー緩和スキームをコヒーレントなフレームワークの下で提案し、その基礎となる接続を強調し、実用的性能のガイダンスを提供することが重要である。 本稿では,現在最先端の量子エラー緩和方式のほとんどを含む線形量子エラー緩和という一般的なフレームワークを構築する。 この枠組みでは、量子誤差緩和をノイズ状態から誤差緩和状態の抽出として効果的に見ることができ、与えられた緩和スキームのコスト効果を示すための抽出レートと呼ばれる新しい指標を導入することができる。 この枠組みを用いて, 実用上の仮定の下で, 抽出率, 忠実度の改善, サンプリングオーバーヘッドを様々な緩和スキームで求め, 比較した。 フレームワークによって提供される構造、洞察、直観は、新しいスキームのさらなる発展の基盤となりうる。

Quantum error mitigation is expected to play a crucial role in the practical applications of quantum machines for the foreseeable future. Thus it is important to put the numerous quantum error mitigation schemes proposed under a coherent framework that can highlight their underlying connections while providing guidance for their practical performance. In this article, we construct a general framework named linear quantum error mitigation that includes most of the state-of-the-art quantum error mitigation schemes. Within the framework, quantum error mitigation can be effectively viewed as extracting the error-mitigated state out of the noisy state, which introduces a new metric called extraction rate for indicating the cost-effectiveness of a given mitigation scheme. Using the framework, we have derived and compared the extraction rate, improvement in the fidelity and sampling overhead across various mitigation schemes under practical assumptions. The structure, insights and intuitions provided by the framework can serve as a basis for the further development of new schemes.
翻訳日:2023-09-20 02:23:41 公開日:2023-09-18
# 学習によるメタラーニングの文脈化

Contextualizing Meta-Learning via Learning to Decompose ( http://arxiv.org/abs/2106.08112v2 )

ライセンス: Link先を確認
Han-Jia Ye, Da-Wei Zhou, Lanqing Hong, Zhenguo Li, Xiu-Shen Wei, De-Chuan Zhan(参考訳) メタラーニングは、サポートセットに基づいたターゲットモデルを構築するための効率的なアプローチとして登場した。 例えば、メタ学習埋め込みは、特定のタスクに対して、インスタンスを同じクラスの隣人に近づけることで、ターゲットのneighbor分類器の構築を可能にする。 しかし、1つのインスタンスは様々な潜在属性から注釈を付けることができ、サポートセット内またはサポートセット全体で視覚的に類似したインスタンスは異なるラベルを持ち、他のインスタンスと多様な関係を持つ。 従って、サポートセットからターゲットモデルを推論する一様メタ学習戦略は、インスタンス毎のあいまいな類似性を捉えることができない。 この目的のために、我々はLearning to Decompose Network (LeadNet) を提案し、メタ学習した `` Support-to-target'' 戦略をコンテキスト化し、インスタンスのコンテキストを1つまたは混合の潜在属性で活用する。 特に、インスタンス間の比較関係は、w.r.t.多重埋め込み空間で分解される。 LeadNetは、コンテキスト間の比較の変更を多文埋め込みに組み込むことで、適切な属性に関連する戦略を自動的に選択することを学ぶ。 本研究では,様々なアプリケーションにおいてリードネットの優位性を実証し,混乱したデータの複数ビューの探索,分散認識,少数ショット画像の分類などを行う。

Meta-learning has emerged as an efficient approach for constructing target models based on support sets. For example, the meta-learned embeddings enable the construction of target nearest-neighbor classifiers for specific tasks by pulling instances closer to their same-class neighbors. However, a single instance can be annotated from various latent attributes, making visually similar instances inside or across support sets have different labels and diverse relationships with others. Consequently, a uniform meta-learned strategy for inferring the target model from the support set fails to capture the instance-wise ambiguous similarity. To this end, we propose Learning to Decompose Network (LeadNet) to contextualize the meta-learned ``support-to-target'' strategy, leveraging the context of instances with one or mixed latent attributes in a support set. In particular, the comparison relationship between instances is decomposed w.r.t. multiple embedding spaces. LeadNet learns to automatically select the strategy associated with the right attribute via incorporating the change of comparison across contexts} with polysemous embeddings. We demonstrate the superiority of LeadNet in various applications, including exploring multiple views of confusing data, out-of-distribution recognition, and few-shot image classification.
翻訳日:2023-09-20 02:22:04 公開日:2023-09-18
# クロスモダリティニューロイメージ合成:調査

Cross-Modality Neuroimage Synthesis: A Survey ( http://arxiv.org/abs/2202.06997v6 )

ライセンス: Link先を確認
Guoyang Xie, Jinbao Wang, Yawen Huang, Jiayi Lyu, Feng Zheng, Yefeng Zheng, Yaochu Jin(参考訳) 完全に整列した対のマルチモーダル神経画像データの存在は、脳疾患の診断に有効であることが証明されている。 しかし、高コスト、長期取得、画像の破損、プライバシー問題といった現実的な困難が伴うため、整列データとペアデータの完全な収集は高価または実用的ではない。 現実的な解決策は、教師なしの学習または半教師なしの学習を探索して、欠落した神経画像データを合成することである。 本稿では,様々な視点から多義性ニューロイメージ合成タスクに包括的にアプローチする最初の試みとして,監督レベル(特に教師の弱さと教師の弱さ),損失関数,評価指標,モダリティ合成の範囲,データセット(整列,プライベート,パブリック),合成に基づく下流タスクについて述べる。 まず,クロスモダリティニューロイメージシンテシスの開眼課題について概説する。 次に,様々な監督レベルでのクロスモダリティ合成のアーキテクチャを要約する。 さらに,神経画像合成が様々な下流タスクのパフォーマンスを改善する方法について,詳細な解析を行う。 最後に、オープンチャレンジを再評価し、残りの課題の今後の方向性を指摘する。 すべてのリソースはhttps://github.com/M-3LAB/awesome-multimodal-brain-image-systhesisで利用可能である。

The existence of completely aligned and paired multi-modal neuroimaging data has proved its effectiveness in diagnosis of brain diseases. However, collecting the full set of well-aligned and paired data is expensive or even impractical, since the practical difficulties may include high cost, long time acquisition, image corruption, and privacy issues. A realistic solution is to explore either an unsupervised learning or a semi-supervised learning to synthesize the absent neuroimaging data. In this paper, we are the first one to comprehensively approach cross-modality neuroimage synthesis task from different perspectives, which include the level of the supervision (especially for weakly-supervised and unsupervised), loss function, evaluation metrics, the range of modality synthesis, datasets (aligned, private and public) and the synthesis-based downstream tasks. To begin with, we highlight several opening challenges for cross-modality neuroimage sysnthesis. Then we summarize the architecture of cross-modality synthesis under various of supervision level. In addition, we provide in-depth analysis of how cross-modality neuroimage synthesis can improve the performance of different downstream tasks. Finally, we re-evaluate the open challenges and point out the future directions for the remaining challenges. All resources are available at https://github.com/M-3LAB/awesome-multimodal-brain-image-systhesis
翻訳日:2023-09-20 02:13:01 公開日:2023-09-18
# リフティングに基づく変異型マルチクラスセグメンテーションアルゴリズム:設計,収束解析および医療画像への応用

Lifting-based variational multiclass segmentation algorithm: design, convergence analysis, and implementation with applications in medical imaging ( http://arxiv.org/abs/2202.04680v3 )

ライセンス: Link先を確認
Nadja Gruber, Johannes Schwab, Sebastien Court, Elke Gizewski, Markus Haltmeier(参考訳) 与えられた画像を特定の特性を示す複数の領域に分割する変分多クラスセグメンテーションスキームを提案し,解析し,実現する。 異なるチャネルからのエネルギー汎関数結合情報を最小化することにより、セグメンテーション領域を符号化する複数の関数を決定する。 特定のマルチチャネルフィルタリングを用いて高次元の特徴空間に画像を持ち上げることで、またはRGB画像やマルチモーダル医療データなど、検討中の画像モダリティによって既に提供されることができる。 実験の結果,提案手法は様々なシナリオで有効であることがわかった。 特に,脳膿瘍の分類と腫瘍増殖の2つの医学的応用について有望な結果が得られた。 主な理論的貢献として、提案したエネルギー関数のグローバル最小化器の存在を証明し、ノイズ入力に対する安定性と収束性を示す。 特に、これらの結果はバイナリセグメンテーションの特殊な場合にも当てはまり、この特定の状況においてもこれらの結果は新規である。

We propose, analyze and realize a variational multiclass segmentation scheme that partitions a given image into multiple regions exhibiting specific properties. Our method determines multiple functions that encode the segmentation regions by minimizing an energy functional combining information from different channels. Multichannel image data can be obtained by lifting the image into a higher dimensional feature space using specific multichannel filtering or may already be provided by the imaging modality under consideration, such as an RGB image or multimodal medical data. Experimental results show that the proposed method performs well in various scenarios. In particular, promising results are presented for two medical applications involving classification of brain abscess and tumor growth, respectively. As main theoretical contributions, we prove the existence of global minimizers of the proposed energy functional and show its stability and convergence with respect to noisy inputs. In particular, these results also apply to the special case of binary segmentation, and these results are also novel in this particular situation.
翻訳日:2023-09-20 02:12:30 公開日:2023-09-18
# 無質量単一粒子状態空間のバンドル理論記述 : 運動量子粒子をどのように知覚するか

Bundle Theoretic Descriptions of Massless Single-Particle State Spaces; How do we perceive a moving quantum particle ( http://arxiv.org/abs/2201.11372v2 )

ライセンス: Link先を確認
Heon Lee(参考訳) 近年,一般のヒルベルト空間記述よりも相対論的量子情報理論に好適な単一粒子状態空間のバンドル理論的な記述が提案されている。 しかし、その研究で示された数学的枠組みは質量を持たない粒子には適用されない。 これは、質量粒子とは異なり、質量のない粒子は運動量ゼロの状態を仮定できないため、質量のない粒子に関連する質量殻は非自明なコホモロジーを持つからである。 この難しさを克服するために,無質量粒子に適用可能な新しい枠組みを提案する。 スピン-1と2、すなわち光子と重力子を持つ質量を持たない粒子の場合には、電磁気学と一般相対性理論の場方程式、ゲージ条件、ゲージ自由度が、それぞれ光子と重力子の量子状態に対する慣性観測者の認識の表象として自然に現れることが分かる。 最後に、スピン0 と 1/2 の粒子を除いて、ゲージ自由度は全ての質量を持たない粒子によって表されることを示す。

Recently, a bundle theoretic description of massive single-particle state spaces, which is better suited for Relativistic Quantum Information Theory than the ordinary Hilbert space description, has been suggested. However, the mathematical framework presented in that work does not apply to massless particles. It is because, unlike massive particles, massless particles cannot assume the zero momentum state and hence the mass shell associated with massless particles has non-trivial cohomology. To overcome this difficulty, this paper suggests a new framework that can be applied to massless particles. Applications to the cases of massless particles with spin-1 and 2, namely photon and graviton, will reveal that the field equations, the gauge conditions, and the gauge freedoms of Electromagnetism and General Relativity naturally arise as manifestations of an inertial observer's perception of the internal quantum states of a photon and a graviton, respectively. Finally, we show that gauge freedom is exhibited by all massless particles, except those with spin-0 and 1/2.
翻訳日:2023-09-20 02:11:34 公開日:2023-09-18
# 大規模単一粒子状態空間のバンドル理論記述 : 相対論的量子情報理論をめざして

Bundle Theoretic Descriptions of Massive Single-Particle State Spaces; With a view toward Relativistic Quantum Information Theory ( http://arxiv.org/abs/2201.04324v2 )

ライセンス: Link先を確認
Heon Lee(参考訳) 相対論的量子情報理論(Relativistic Quantum Information Theory, RQI)は物理学の研究分野として盛んであるが、この分野の体系的な数学的処理は行われていない。 本稿では,RQIの基本構成ブロックである大規模単一粒子状態空間のバンドル理論記述を提案する。 束理論の言語では、質量粒子のすべての可能な運動状態の集合の上にベクトル束を構成でき、その中に固定された慣性観測者によって知覚される移動粒子の内部量子状態が符号化される。 通常のヒルベルト空間記述間のリンクは、バンドルの $l^2$-section 空間上の一般化された誘導表現構成によって与えられる。 この論文の目的は2つある。 1つは、RQIの基本的な考え方を数学者に伝えることであり、もう1つは、RQIの文献で扱ったことのないものを含む全ての既知の巨大な粒子を含む一粒子状態空間に対する改善された形式主義を提案することである。 形式主義の理論的な意味のいくつかは、論文の最後に探求される。

Relativistic Quantum Information Theory (RQI) is a flourishing research area of physics, yet, there has been no systematic mathematical treatment of the field. In this paper, we suggest bundle theoretic descriptions of massive single-particle state spaces, which are basic building blocks of RQI. In the language of bundle theory, one can construct a vector bundle over the set of all possible motion states of a massive particle, in whose fibers the moving particle's internal quantum state as perceived by a fixed inertial observer is encoded. A link between the usual Hilbert space description is provided by a generalized induced representation construction on the $L^2$-section space of the bundle. The aim of this paper is two-fold. One is to communicate the basic ideas of RQI to mathematicians and the other is to suggest an improved formalism for single-particle state spaces that encompasses all known massive particles including those which have never been dealt with in the RQI literature. Some of the theoretical implications of the formalism will be explored at the end of the paper.
翻訳日:2023-09-20 02:11:13 公開日:2023-09-18
# DeepKE: 知識ベース人口のためのディープラーニングベースの知識抽出ツールキット

DeepKE: A Deep Learning Based Knowledge Extraction Toolkit for Knowledge Base Population ( http://arxiv.org/abs/2201.03335v6 )

ライセンス: Link先を確認
Ningyu Zhang, Xin Xu, Liankuan Tao, Haiyang Yu, Hongbin Ye, Shuofei Qiao, Xin Xie, Xiang Chen, Zhoubo Li, Lei Li, Xiaozhuan Liang, Yunzhi Yao, Shumin Deng, Peng Wang, Wen Zhang, Zhenru Zhang, Chuanqi Tan, Qiang Chen, Feiyu Xiong, Fei Huang, Guozhou Zheng, Huajun Chen(参考訳) 本稿では,オープンソースかつ拡張可能な知識抽出ツールキットであるdeepkeを提案する。知識ベース人口において,低リソース,ドキュメントレベル,マルチモーダルといった複雑なシナリオをサポートする。 deepkeは、名前付きエンティティ認識、関係抽出、属性抽出など、さまざまな情報抽出タスクを実装している。 統一されたフレームワークにより、開発者や研究者はデータセットやモデルをカスタマイズして、要求に応じて非構造化データから情報を抽出することができる。 具体的には、さまざまな機能モジュールとさまざまなタスクやシナリオのためのモデル実装を提供するだけでなく、モジュール性と拡張性を維持するための一貫性のあるフレームワークによって、すべてのコンポーネントを編成する。 ソースコードはgithubでhttps://github.com/zjunlp/deepkeで公開しています。 さらに,様々なタスクをリアルタイムに抽出するためのオンラインシステム http://deepke.openkg.cn/EN/re_doc_show.html とデモビデオを紹介する。

We present an open-source and extensible knowledge extraction toolkit DeepKE, supporting complicated low-resource, document-level and multimodal scenarios in the knowledge base population. DeepKE implements various information extraction tasks, including named entity recognition, relation extraction and attribute extraction. With a unified framework, DeepKE allows developers and researchers to customize datasets and models to extract information from unstructured data according to their requirements. Specifically, DeepKE not only provides various functional modules and model implementation for different tasks and scenarios but also organizes all components by consistent frameworks to maintain sufficient modularity and extensibility. We release the source code at GitHub in https://github.com/zjunlp/DeepKE with Google Colab tutorials and comprehensive documents for beginners. Besides, we present an online system in http://deepke.openkg.cn/EN/re_doc_show.html for real-time extraction of various tasks, and a demo video.
翻訳日:2023-09-20 02:10:54 公開日:2023-09-18
# 非支配的ソーティング遺伝的アルゴリズム(NSGA-II)の数学的実行解析

Mathematical Runtime Analysis for the Non-Dominated Sorting Genetic Algorithm II (NSGA-II) ( http://arxiv.org/abs/2112.08581v6 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr(参考訳) 非支配的ソート遺伝アルゴリズムII(NSGA-II)は、現実世界の応用において最も集中的に使用される多目的進化アルゴリズムである。 しかし、数学的な方法で解析されたいくつかの単純なMOEAとは対照的に、NSGA-IIにはそのような研究は存在しない。 本研究では,NSGA-IIにも数学的ランタイム解析が適用可能であることを示す。 特に,paretoフロントの大きさの4倍の大きさの個体群を持つnsga-iiは,従来の2つの変異演算子と4つの異なる方法で親を選択することで,基本oneminmaxおよびleadingonestrailingzerosベンチマークにおけるsemoおよびgsemoアルゴリズムと同じ漸近的実行保証を満足できることが証明された。 しかし、人口の大きさがパレート前線のサイズに等しい場合、nsga-iiは完全なパレート前線を効率的に計算することはできない。 我々の実験は上記の結果を確認した。

The non-dominated sorting genetic algorithm II (NSGA-II) is the most intensively used multi-objective evolutionary algorithm (MOEA) in real-world applications. However, in contrast to several simple MOEAs analyzed also via mathematical means, no such study exists for the NSGA-II so far. In this work, we show that mathematical runtime analyses are feasible also for the NSGA-II. As particular results, we prove that with a population size four times larger than the size of the Pareto front, the NSGA-II with two classic mutation operators and four different ways to select the parents satisfies the same asymptotic runtime guarantees as the SEMO and GSEMO algorithms on the basic OneMinMax and LeadingOnesTrailingZeros benchmarks. However, if the population size is only equal to the size of the Pareto front, then the NSGA-II cannot efficiently compute the full Pareto front: for an exponential number of iterations, the population will always miss a constant fraction of the Pareto front. Our experiments confirm the above findings.
翻訳日:2023-09-20 02:10:38 公開日:2023-09-18
# 大学サブRedditデータを用いたCOVID-19パンデミックの感度解析と効果

Sentiment Analysis and Effect of COVID-19 Pandemic using College SubReddit Data ( http://arxiv.org/abs/2112.04351v3 )

ライセンス: Link先を確認
Tian Yan, Fang Liu(参考訳) 背景:新型コロナウイルス(COVID-19)のパンデミックは、社会や人間の健康に様々な影響を与える。 本研究では,このパンデミックが人々の感情や心理的状態に与える影響を,ソーシャルメディアからの実世界データを用いて,パンデミック前と比較した。 方法:我々は,2019年(パンデミック前)と2020年(パンデミック前)のredditソーシャルメディアデータを,8つの大学に関連するサブredditコミュニティから収集した。 我々は、Redditメッセージからテキスト埋め込みを学ぶためにRoBERTa(Roustly Optimized BERT pre-training approach)を適用し、投稿メッセージ間の関係情報を利用して感情分類のためのグラフ注意ネットワーク(GAT)をトレーニングした。 最後に,roberta と gat の予測確率を組み合わせるためにモデル積み重ねを適用し,感情の最終的な分類を行った。 モデル予測された感情ラベルを収集したデータから,パンデミック時のパンデミックと対人指導の効果を推定するために,一般化線形混合効果モデルを用いた。 結果は、2020年のネガティブ感情の確率(パンデミック)は、2019年の確率(プレパンデミック)よりも25.7%高く、$p$-value $<0.001$であり、対人学習に関連するネガティブ感情の確率は、2020年のリモート学習の確率よりも48.3%高く、0.029ドルであることを示している。 結論:本研究の結果は,パンデミックが人々の感情や心理的状態に与える影響についての文献の知見と一致している。 本研究は,パンデミックが社会に与える様々なネガティブな影響に関する実世界の証拠の増大に寄与する。また,ML技術と統計モデリングと推論を併用して実世界のデータをよりよく活用する好例である。

Background: The COVID-19 pandemic has affected our society and human well-being in various ways. In this study, we investigate how the pandemic has influenced people's emotions and psychological states compared to a pre-pandemic period using real-world data from social media. Method: We collected Reddit social media data from 2019 (pre-pandemic) and 2020 (pandemic) from the subreddits communities associated with eight universities. We applied the pre-trained Robustly Optimized BERT pre-training approach (RoBERTa) to learn text embedding from the Reddit messages, and leveraged the relational information among posted messages to train a graph attention network (GAT) for sentiment classification. Finally, we applied model stacking to combine the prediction probabilities from RoBERTa and GAT to yield the final classification on sentiment. With the model-predicted sentiment labels on the collected data, we used a generalized linear mixed-effects model to estimate the effects of pandemic and in-person teaching during the pandemic on sentiment. Results: The results suggest that the odds of negative sentiments in 2020 (pandemic) were 25.7% higher than the odds in 2019 (pre-pandemic) with a $p$-value $<0.001$; and the odds of negative sentiments associated in-person learning were 48.3% higher than with remote learning in 2020 with a $p$-value of 0.029. Conclusions: Our study results are consistent with the findings in the literature on the negative impacts of the pandemic on people's emotions and psychological states. Our study contributes to the growing real-world evidence on the various negative impacts of the pandemic on our society; it also provides a good example of using both ML techniques and statistical modeling and inference to make better use of real-world data.
翻訳日:2023-09-20 02:10:17 公開日:2023-09-18
# マルチモード知識グラフ補完のためのマルチレベル融合型ハイブリッドトランス

Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion ( http://arxiv.org/abs/2205.02357v5 )

ライセンス: Link先を確認
Xiang Chen, Ningyu Zhang, Lei Li, Shumin Deng, Chuanqi Tan, Changliang Xu, Fei Huang, Luo Si, Huajun Chen(参考訳) 視覚テキストの事実知識を整理するマルチモーダル知識グラフ(MKG)は近年,情報検索や質問応答,レコメンデーションシステムといったタスクにうまく適用されている。 ほとんどのmkgは完成にはほど遠いため、マルチモーダルエンティティ、関係抽出、リンク予測に焦点をあてた広範な知識グラフ補完研究が提案されている。 しかし、異なるタスクやモダリティはモデルアーキテクチャの変更を必要とし、全ての画像やオブジェクトがテキスト入力に関連しているわけではないため、様々な現実世界のシナリオに適用できない。 本稿では,これらの問題に対処する多層融合型ハイブリッドトランスを提案する。 具体的には,多様なマルチモーダルナレッジグラフ補完タスクに対して,統一入力出力を用いたハイブリッドトランスフォーマティブアーキテクチャを活用する。 さらに、粗い接頭辞誘導相互作用と微粒な相関認識融合モジュールによる視覚とテキストの表現を統合する多層融合を提案する。 我々は,マルチモーダルリンク予測,マルチモーダルre,マルチモーダルnerの4つのデータセット上で,mkgformerがsota性能を得ることができることを検証するために,広範な実験を行った。 コードはhttps://github.com/zjunlp/MKGformerで入手できる。

Multimodal Knowledge Graphs (MKGs), which organize visual-text factual knowledge, have recently been successfully applied to tasks such as information retrieval, question answering, and recommendation system. Since most MKGs are far from complete, extensive knowledge graph completion studies have been proposed focusing on the multimodal entity, relation extraction and link prediction. However, different tasks and modalities require changes to the model architecture, and not all images/objects are relevant to text input, which hinders the applicability to diverse real-world scenarios. In this paper, we propose a hybrid transformer with multi-level fusion to address those issues. Specifically, we leverage a hybrid transformer architecture with unified input-output for diverse multimodal knowledge graph completion tasks. Moreover, we propose multi-level fusion, which integrates visual and text representation via coarse-grained prefix-guided interaction and fine-grained correlation-aware fusion modules. We conduct extensive experiments to validate that our MKGformer can obtain SOTA performance on four datasets of multimodal link prediction, multimodal RE, and multimodal NER. Code is available in https://github.com/zjunlp/MKGformer.
翻訳日:2023-09-20 02:02:56 公開日:2023-09-18
# 衛星画像による都市変化予測

Urban Change Forecasting from Satellite Images ( http://arxiv.org/abs/2204.12875v2 )

ライセンス: Link先を確認
Nando Metzger, Mehmet \"Ozg\"ur T\"urkoglu, Rodrigo Caye Daudt, Jan Dirk Wegner, Konrad Schindler(参考訳) しかし、都市計画、農業、資源管理、さらには自律飛行といった多くの分野において非常に有用である。 本稿では,ディープニューラルネットワークとカスタム事前学習手順を用いて,このタスクを実現する手法を提案する。 ステージ1では、U-Netのバックボーンが、(ビルド)変更検出タスクの解決を目的とした、シームズネットワークアーキテクチャ内で事前トレーニングされる。 ステージ2では、バックボーンは、建設前に取得した1つのイメージに基づいて、新しい建物の出現を予測するために再利用される。 さらに,変化が起こる時間範囲を予測するモデルも提示する。 2年間で24ポイントで960km^2の範囲をカバーするSpaceNet7データセットを用いて,我々のアプローチを検証する。 実験の結果,提案手法はImageNetデータセットを用いた従来の事前学習よりも一貫して優れていた。 また,ビルディングの変更が発生すると,事前に予測できることも示しています。

Forecasting where and when new buildings will emerge is a rather unexplored topic, but one that is very useful in many disciplines such as urban planning, agriculture, resource management, and even autonomous flying. In the present work, we present a method that accomplishes this task with a deep neural network and a custom pretraining procedure. In Stage 1, a U-Net backbone is pretrained within a Siamese network architecture that aims to solve a (building) change detection task. In Stage 2, the backbone is repurposed to forecast the emergence of new buildings based solely on one image acquired before its construction. Furthermore, we also present a model that forecasts the time range within which the change will occur. We validate our approach using the SpaceNet7 dataset, which covers an area of 960 km^2 at 24 points in time across two years. In our experiments, we found that our proposed pretraining method consistently outperforms the traditional pretraining using the ImageNet dataset. We also show that it is to some degree possible to predict in advance when building changes will occur.
翻訳日:2023-09-20 02:02:35 公開日:2023-09-18
# フェイクニュースの軽減を力づける - 共有者のソーシャルメディアポストヒストリーからの洞察

Empowering Fake-News Mitigation: Insights from Sharers' Social Media Post-Histories ( http://arxiv.org/abs/2203.10560v2 )

ライセンス: Link先を確認
Verena Schoenmueller, Simon J. Blanchard and Gita V. Johar(参考訳) 誤情報は世界的な懸念であり、その拡散を制限することは民主主義、公衆衛生、消費者を保護する上で重要である。 我々は,消費者自身のソーシャルメディアポストヒストリーが,偽ニュースへのリンク共有につながる要因を研究するために,未利用のデータソースであることを提案する。 研究1では,ポストヒストリーから抽出したテキストの手がかりが,偽ニュースの共有者とソーシャルメディアのランダムな利用者とを誤情報エコシステムの中で区別する方法について検討した。 その結果、偽のニュース共有者が怒り、宗教、権力に関連する言葉を使う2つのデータセットが見つかった。 研究2では,ポストヒストリーからテキストの手がかりを加えることで,モデルの精度が向上し,誰が偽ニュースを共有するかを予測する。 研究3では,宗教価値観の活性化と怒りの低減という,研究1から導き出された2つの緩和戦略を予備的に検証し,フェイクニュースの共有と共有をより一般的なものにする。 調査4では,調査回答とユーザの確認されたTwitterポストヒストリーを組み合わせることで,ファクトチェックブラウザ拡張広告におけるエンパワーメント言語の使用がダウンロード意図を増大させることを示す。 本研究は, マーケター, 誤情報学者, 実践者に対して, ポストヒストリーを用いて理論を展開し, 誤情報の拡散を減らすためのテスト介入を行うことを奨励する。

Misinformation is a global concern and limiting its spread is critical for protecting democracy, public health, and consumers. We propose that consumers' own social media post-histories are an underutilized data source to study what leads them to share links to fake-news. In Study 1, we explore how textual cues extracted from post-histories distinguish fake-news sharers from random social media users and others in the misinformation ecosystem. Among other results, we find across two datasets that fake-news sharers use more words related to anger, religion and power. In Study 2, we show that adding textual cues from post-histories improves the accuracy of models to predict who is likely to share fake-news. In Study 3, we provide a preliminary test of two mitigation strategies deduced from Study 1 - activating religious values and reducing anger - and find that they reduce fake-news sharing and sharing more generally. In Study 4, we combine survey responses with users' verified Twitter post-histories and show that using empowering language in a fact-checking browser extension ad increases download intentions. Our research encourages marketers, misinformation scholars, and practitioners to use post-histories to develop theories and test interventions to reduce the spread of misinformation.
翻訳日:2023-09-20 02:02:02 公開日:2023-09-18
# 非凸収束保証を用いた深層学習のための部分的AUCの最適化

When AUC meets DRO: Optimizing Partial AUC for Deep Learning with Non-Convex Convergence Guarantee ( http://arxiv.org/abs/2203.00176v5 )

ライセンス: Link先を確認
Dixian Zhu, Gang Li, Bokun Wang, Xiaodong Wu, Tianbao Yang(参考訳) 本稿では,深層学習に適用可能な一方向および二方向部分AUC(pAUC)の最適化のための,系統的かつ効率的な勾配法を提案する。 本稿では,各正値データの損失を定義するために分散ロバスト最適化(DRO)を用いて,pAUCサロゲート目的の新たな定式化を提案する。 我々はDROの2つの定式化について検討し、そのうちの1つは条件値-at-risk(CVaR)に基づいており、pAUCの非滑らかだが正確な推定器を出力し、もう1つは不正確なが滑らかなpAUCの推定器を生成するKL発散正規化DROに基づいている。 1方向と2方向のpauc最大化について,2つのアルゴリズムを提案し,それらの2つの定式化を最適化するための収束性を証明する。 各種データセットの深層学習におけるpAUC最大化のためのアルゴリズムの有効性を示す実験を行った。

In this paper, we propose systematic and efficient gradient-based methods for both one-way and two-way partial AUC (pAUC) maximization that are applicable to deep learning. We propose new formulations of pAUC surrogate objectives by using the distributionally robust optimization (DRO) to define the loss for each individual positive data. We consider two formulations of DRO, one of which is based on conditional-value-at-risk (CVaR) that yields a non-smooth but exact estimator for pAUC, and another one is based on a KL divergence regularized DRO that yields an inexact but smooth (soft) estimator for pAUC. For both one-way and two-way pAUC maximization, we propose two algorithms and prove their convergence for optimizing their two formulations, respectively. Experiments demonstrate the effectiveness of the proposed algorithms for pAUC maximization for deep learning on various datasets.
翻訳日:2023-09-20 02:00:59 公開日:2023-09-18
# 古典的レート理論におけるキャビティ誘起分岐

Cavity-induced bifurcation in classical rate theory ( http://arxiv.org/abs/2202.12182v4 )

ライセンス: Link先を確認
Kalle S. U. Kansanen and Tero T. Heikkil\"a(参考訳) 双安定系のアンサンブルと共振器場との結合が、このアンサンブルの集合確率的挙動にどのように影響するかを示す。 特に、空洞はシステム間の効果的な相互作用を提供し、準安定状態間の遷移率をパラメトリック的に調節する。 我々は空洞がシステム数に線形に依存する臨界温度で集合相転移を引き起こすことを予測した。 これは双安定系の定常状態が分岐する自発的対称性の破れとして現れる。 遷移速度は相転移とは無関係に低下するが, 共振器の乱れに対応して, 系の共振器結合の符号を交互に変化させる速度変化は消失する。 この結果は、キャビティの存在が化学反応に影響を与えることが示唆された分極化学において特に関係している。

We show how coupling an ensemble of bistable systems to a common cavity field affects the collective stochastic behavior of this ensemble. In particular, the cavity provides an effective interaction between the systems, and parametrically modifies the transition rates between the metastable states. We predict that the cavity induces a collective phase transition at a critical temperature which depends linearly on the number of systems. It shows up as a spontaneous symmetry breaking where the stationary states of the bistable system bifurcate. We observe that the transition rates slow down independently of the phase transition, but the rate modification vanishes for alternating signs of the system-cavity couplings, corresponding to a disordered ensemble of dipoles. Our results are of particular relevance in polaritonic chemistry where the presence of a cavity has been suggested to affect chemical reactions.
翻訳日:2023-09-20 02:00:39 公開日:2023-09-18
# セルフトレーニング:調査

Self-Training: A Survey ( http://arxiv.org/abs/2202.12040v4 )

ライセンス: Link先を確認
Massih-Reza Amini, Vasilii Feofanov, Loic Pauletto, Lies Hadjadj, Emilie Devijver, Yury Maximov(参考訳) 半教師付きアルゴリズムは、小さなラベル付き観測と大きなラベル付き観測から予測関数を学習することを目的としている。 このフレームワークは多くのアプリケーションに関係しているため、学術と産業の両方に多くの関心が寄せられている。 近年,自己学習手法が注目されていることは確かである。 これらのモデルは、データ分布について追加の仮定をすることなく、低密度領域における決定境界を見つけ、学習された分類器の符号なし出力スコアまたはそのマージンを信頼の指標として用いるように設計されている。 自己学習アルゴリズムの動作原理は、ある閾値より大きいラベル付きトレーニングサンプルの集合に擬似ラベルを割り当てることで、分類器を反復的に学習することである。 次に、擬似ラベル付きサンプルを使用してラベル付きトレーニングデータを強化し、ラベル付きトレーニングセットと組み合わせて新しい分類器をトレーニングする。 本稿では,二進分類と多クラス分類のための自己学習法と,それらの変種と関連する2つのアプローチ,すなわち一貫性に基づくアプローチとトランスダクティブ学習について述べる。 我々は,様々な手法における重要な自己学習機能の影響について,一般および画像分類ベンチマークを用いて検討し,今後の自己学習研究に向けての考え方について考察する。 私たちの知る限りでは、この問題に関する完全な調査はこれが初めてです。

Semi-supervised algorithms aim to learn prediction functions from a small set of labeled observations and a large set of unlabeled observations. Because this framework is relevant in many applications, they have received a lot of interest in both academia and industry. Among the existing techniques, self-training methods have undoubtedly attracted greater attention in recent years. These models are designed to find the decision boundary on low density regions without making additional assumptions about the data distribution, and use the unsigned output score of a learned classifier, or its margin, as an indicator of confidence. The working principle of self-training algorithms is to learn a classifier iteratively by assigning pseudo-labels to the set of unlabeled training samples with a margin greater than a certain threshold. The pseudo-labeled examples are then used to enrich the labeled training data and to train a new classifier in conjunction with the labeled training set. In this paper, we present self-training methods for binary and multi-class classification; as well as their variants and two related approaches, namely consistency-based approaches and transductive learning. We examine the impact of significant self-training features on various methods, using different general and image classification benchmarks, and we discuss our ideas for future research in self-training. To the best of our knowledge, this is the first thorough and complete survey on this subject.
翻訳日:2023-09-20 02:00:25 公開日:2023-09-18
# ビジュアルデータセットにおけるジェンダーアーティファクト

Gender Artifacts in Visual Datasets ( http://arxiv.org/abs/2206.09191v3 )

ライセンス: Link先を確認
Nicole Meister, Dora Zhao, Angelina Wang, Vikram V. Ramaswamy, Ruth Fong, Olga Russakovsky(参考訳) ジェンダーバイアスは大規模なビジュアルデータセットに存在することが知られており、下流モデルで反映または増幅することもできる。 多くの先行研究は、画像から性別表現情報を取り除こうとして、性別バイアスを緩和する方法を提案している。 これらのアプローチの実現可能性と実用性を理解するため、大規模なビジュアルデータセットに$\textit{gender artifacts}$が存在するかを調べる。 そこで本稿では,現代画像分類器で学習可能で,解釈可能なヒューマン・コロナリーを持つような,ジェンダーと相関する視覚的キューとして,$\textit{gender artifact}$を定義した。 分析の結果、性別のアーティファクトはCOCOデータセットやOpenImagesデータセットの中でユビキタスであり、低レベル情報(例えば、カラーチャネルの平均値)から高レベル画像(例えば、ポーズや人物の位置)まで至るところで発生することがわかった。 性別アーチファクトの普及を考えると、このようなデータセットから性別アーチファクトを取り除く試みは、ほとんど不可能であると主張する。 その代わり、研究者や実践者はデータセット内の画像の分布が高度に性的なものであることに気付き、グループ間の分散シフトに堅牢な方法を開発する責任を負う。

Gender biases are known to exist within large-scale visual datasets and can be reflected or even amplified in downstream models. Many prior works have proposed methods for mitigating gender biases, often by attempting to remove gender expression information from images. To understand the feasibility and practicality of these approaches, we investigate what $\textit{gender artifacts}$ exist within large-scale visual datasets. We define a $\textit{gender artifact}$ as a visual cue that is correlated with gender, focusing specifically on those cues that are learnable by a modern image classifier and have an interpretable human corollary. Through our analyses, we find that gender artifacts are ubiquitous in the COCO and OpenImages datasets, occurring everywhere from low-level information (e.g., the mean value of the color channels) to the higher-level composition of the image (e.g., pose and location of people). Given the prevalence of gender artifacts, we claim that attempts to remove gender artifacts from such datasets are largely infeasible. Instead, the responsibility lies with researchers and practitioners to be aware that the distribution of images within datasets is highly gendered and hence develop methods which are robust to these distributional shifts across groups.
翻訳日:2023-09-20 01:52:08 公開日:2023-09-18
# SERE: 自己教師型トランスのための機能自己関係を探る

SERE: Exploring Feature Self-relation for Self-supervised Transformer ( http://arxiv.org/abs/2206.05184v3 )

ライセンス: Link先を確認
Zhong-Yu Li, Shanghua Gao, Ming-Ming Cheng(参考訳) 畳み込みネットワーク(CNN)の自己超越による表現の学習が視覚タスクに有効であることが検証された。 CNNの代替として、視覚変換器(ViT)は空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を持つ。 最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。 しかし、ほとんどの研究は、例えばサンプルのインスタンスレベルの識別など、CNN用に設計された自己監督戦略に従っている。 空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。 この特性を強制するために、自己監督型ViTのトレーニングのためのSelf-Relation(SERE)機能について検討する。 具体的には,複数視点からの機能埋め込みのみに基づいて自己教師付き学習を行う代わりに,特徴的自己関係,すなわち空間的/チャネル的自己関係を用いて自己教師付き学習を行う。 自己関係に基づく学習により、ViTの関係モデリング能力が向上し、複数の下流タスクのパフォーマンスが安定的に向上する。 私たちのソースコードは、https://github.com/MCG-NKU/SEREで公開されています。

Learning representations with self-supervision for convolutional networks (CNN) has been validated to be effective for vision tasks. As an alternative to CNN, vision transformers (ViT) have strong representation ability with spatial self-attention and channel-level feedforward networks. Recent works reveal that self-supervised learning helps unleash the great potential of ViT. Still, most works follow self-supervised strategies designed for CNN, e.g., instance-level discrimination of samples, but they ignore the properties of ViT. We observe that relational modeling on spatial and channel dimensions distinguishes ViT from other networks. To enforce this property, we explore the feature SElf-RElation (SERE) for training self-supervised ViT. Specifically, instead of conducting self-supervised learning solely on feature embeddings from multiple views, we utilize the feature self-relations, i.e., spatial/channel self-relations, for self-supervised learning. Self-relation based learning further enhances the relation modeling ability of ViT, resulting in stronger representations that stably improve performance on multiple downstream tasks. Our source code is publicly available at: https://github.com/MCG-NKU/SERE.
翻訳日:2023-09-20 01:51:36 公開日:2023-09-18
# フェルミの黄金律を超えて:帯域制限量子ノイズによる量子メソスコピックデバイスの離散時間デコヒーレンス

Beyond The Fermi's Golden Rule: Discrete-Time Decoherence Of Quantum Mesoscopic Devices Due To Bandlimited Quantum Noise ( http://arxiv.org/abs/2206.02952v2 )

ライセンス: Link先を確認
Evgeny A. Polyakov(参考訳) 我々は第2次量子革命の最中にあり、メソスコピック量子デヴォイが技術目的に積極的に採用されている。 この事実にもかかわらず、フェルミの黄金律以外のリアルタイム力学の記述は、恐ろしい理論上の問題のままである。 これは周囲の環境の自由度内での絡み合いの急速な広がりによるものである。 これは、メソスコープデバイスに作用する量子ノイズ(QN)を伴う。 本研究では,このQNが一般に帯域制限されているという事実を活用する方法を提案する。 これは、スペクトル密度がしばしば局所的なモードや共鳴のピークに含まれ、バンドギャップによって制約されるためである。 古典的帯域制限信号の理論によるコテルニコフサンプリング定理に触発されて、qnスペクトル密度が有効な帯域幅 b$ を持つとき、量子ノイズは離散時間プロセスとなり、初歩的な時間ステップ $\tau\propto b^{-1}$ となるというアイデアを探求した。 各ステップが$\tau$になると、新しいQN自由度(DoF)が初めてデバイスに結合され、新しいQN自由度(DoF)が不可逆的に分離される。 QN DoFの有界数のみが、任意の時点において著しく結合される。 これらの dof を \textit{kotelnikov modes} と呼ぶ。 その結果、実時間散逸量子運動は、有界結合次元を持つ離散時間行列積状態の自然な構造を持つ。 これにより、顕微鏡的に導出した衝突モデルが得られる。 時間的絡み合いエントロピーは、コテルニコフモードのフレームで境界付けられた(領域ロースケーリング)ように見える。 不可逆的に分離されたモードは、リアルタイム進化中に起こるとすぐに追跡できる。 これにより、新しい\textit{bandlimited}入力出力形式と、オープン量子システムのリアルタイム動作のための量子ジャンプモンテカルロシミュレーション技術が導かれる。 このアイデアをスピンボソンモデルで説明する。

We are at the midst of second quantum revolution where the mesoscopic quantum devies are actively employed for technological purposes. Despite this fact, the description of their real-time dynamics beyond the Fermi's golden rule remains a formiddable theoretical problem. This is due to the rapid spread of entanglement within the degrees of freedom of the surrounding environment. This is accompanied with a quantum noise (QN) acting on the mesoscopic device. In this work we propose a possible way out: to exploit the fact that this QN is usually bandlimited. This is because its spectral density is often contained in peaks of localized modes and resonances, and may be constrained by bandgaps. Inspired by the Kotelnikov sampling theorem from the theory of classical bandlimited signals, we put forward and explore the idea that when the QN spectral density has effective bandwidth $B$, the quantum noise becomes a discrete-time process, with an elementary time step $\tau\propto B^{-1}$. After each time step $\tau$, one new QN degree of freedom (DoF) gets coupled to the device for the first time, and one new QN DoF get irreversibly decoupled. Only a bounded number of QN DoFs are significantly coupled at any time moment. We call these DoFs the \textit{Kotelnikov modes}. As a result, the real-time dissipative quantum motion has a natural structure of a discrete-time matrix product state, with a bounded bond dimension. This yields a microscopically derived collision model. The temporal entanglement entropy appears to be bounded (area-law scaling) in the frame of Kotelnikov modes. The irreversibly decoupled modes can be traced out as soon as they occur during the real-time evolution. This leads to a novel\textit{bandlimited} input-output formalism and to quantum jump Monte Carlo simulation techniques for real-time motion of open quantum systems. We illustrate this idea on a spin-boson model.
翻訳日:2023-09-20 01:51:18 公開日:2023-09-18
# 検索型グラフニューラルネットワークの実証的研究

An Empirical Study of Retrieval-enhanced Graph Neural Networks ( http://arxiv.org/abs/2206.00362v4 )

ライセンス: Link先を確認
Dingmin Wang, Shengchao Liu, Hanchen Wang, Bernardo Cuenca Grau, Linfeng Song, Jian Tang, Song Le, Qi Liu(参考訳) グラフニューラルネットワーク(GNN)は、グラフ表現学習に有効なツールである。 ほとんどのGNNは、メッセージパッシングと呼ばれる再帰的近傍アグリゲーションスキームに依存しているので、その理論的表現力は1階のWeisfeiler-Lehmanテスト(1-WL)に限られる。 この課題に対する効果的なアプローチは、GNNモデルの拡張に使われる注釈付きサンプルを明示的に検索することである。 検索強化モデルは、多くの言語や視覚領域で有効であることが証明されているが、グラフデータセットに適用した場合の検索強化GNNの有効性は、未解決のままである。 そこで我々は,グラフニューラルネットワークで学習した有用な情報を増やすために,検索アイデアがどのように役立つかを探求し,グラフニューラルネットワークモデルの選択に非依存な GraphRETRIEVAL と呼ばれる検索強化スキームを設計する。 GraphRETRIEVALでは、各入力グラフに対して、類似グラフとそれらの基底となるラベルを既存のデータベースから検索する。 したがって、様々なグラフプロパティ予測タスクを完了するための潜在的な拡張として機能することができる。 我々は13のデータセットに対して包括的な実験を行い、GRAPHRETRIEVALが既存のGNNよりも大幅に改善されていることを観察した。 また,本研究では,検索の強化が長期ラベル分布問題の軽減に有望な改善であることを示す。

Graph Neural Networks (GNNs) are effective tools for graph representation learning. Most GNNs rely on a recursive neighborhood aggregation scheme, named message passing, thereby their theoretical expressive power is limited to the first-order Weisfeiler-Lehman test (1-WL). An effective approach to this challenge is to explicitly retrieve some annotated examples used to enhance GNN models. While retrieval-enhanced models have been proved to be effective in many language and vision domains, it remains an open question how effective retrieval-enhanced GNNs are when applied to graph datasets. Motivated by this, we want to explore how the retrieval idea can help augment the useful information learned in the graph neural networks, and we design a retrieval-enhanced scheme called GRAPHRETRIEVAL, which is agnostic to the choice of graph neural network models. In GRAPHRETRIEVAL, for each input graph, similar graphs together with their ground-true labels are retrieved from an existing database. Thus they can act as a potential enhancement to complete various graph property predictive tasks. We conduct comprehensive experiments over 13 datasets, and we observe that GRAPHRETRIEVAL is able to reach substantial improvements over existing GNNs. Moreover, our empirical study also illustrates that retrieval enhancement is a promising remedy for alleviating the long-tailed label distribution problem.
翻訳日:2023-09-20 01:50:46 公開日:2023-09-18
# 深層学習における自己注意とソフトラベルによる2次元量子材料同定

Two-Dimensional Quantum Material Identification via Self-Attention and Soft-labeling in Deep Learning ( http://arxiv.org/abs/2205.15948v2 )

ライセンス: Link先を確認
Xuan Bac Nguyen, Apoorva Bisht, Ben Thompson, Hugh Churchill, Khoa Luu, Samee U. Khan(参考訳) 量子機械分野では、シリコンチップ内の2次元材料(2D)を検出することが最も重要な問題の一つである。 インスタンスセグメンテーションは、この問題を解決する潜在的アプローチとして考えられる。 しかし、他のディープラーニング手法と同様に、インスタンスセグメンテーションは、かなりのパフォーマンスを達成するために、大規模なトレーニングデータセットと高品質なアノテーションを必要とする。 実際には、アノテータは2K解像度や非常に高密度なオブジェクトといった大きなイメージを扱う必要があるため、トレーニングデータセットの作成は難しい。 本研究では,2次元量子材料識別におけるインスタンスセグメンテーションにおけるアノテーション不足の問題に対処する新しい手法を提案する。 本稿では, 偽陰性物体を自動的に検出する機構と, 全体損失関数に寄与する物体の負の影響を低減するための注意に基づく損失戦略を提案する。 本研究では,2次元材料検出データセットを実験し,従来の手法よりも優れた性能を示す。

In quantum machine field, detecting two-dimensional (2D) materials in Silicon chips is one of the most critical problems. Instance segmentation can be considered as a potential approach to solve this problem. However, similar to other deep learning methods, the instance segmentation requires a large scale training dataset and high quality annotation in order to achieve a considerable performance. In practice, preparing the training dataset is a challenge since annotators have to deal with a large image, e.g 2K resolution, and extremely dense objects in this problem. In this work, we present a novel method to tackle the problem of missing annotation in instance segmentation in 2D quantum material identification. We propose a new mechanism for automatically detecting false negative objects and an attention based loss strategy to reduce the negative impact of these objects contributing to the overall loss function. We experiment on the 2D material detection datasets, and the experiments show our method outperforms previous works.
翻訳日:2023-09-20 01:49:51 公開日:2023-09-18
# MuMUR : 多言語マルチモーダルユニバーサル検索

MuMUR : Multilingual Multimodal Universal Retrieval ( http://arxiv.org/abs/2208.11553v6 )

ライセンス: Link先を確認
Avinash Madasu, Estelle Aflalo, Gabriela Ben Melech Stan, Shachar Rosenman, Shao-Yen Tseng, Gedas Bertasius, Vasudev Lal(参考訳) マルチモーダル検索は視覚言語モデルの開発で大きな進歩を遂げている。 しかし、これらのモデルをさらに改善するには、追加のラベル付きデータが必要である。 本稿では,多言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。 まず、最先端の機械翻訳モデルを用いて、疑似接地真実の多言語視覚テキスト対を構築する。 次に、このデータを用いて、事前学習された多言語モデルに基づいて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。 提案手法は,MSRVTT,MSVD,DiDeMo,Charades,MSRVTTの5つのビデオ検索データセット,Flickr30kとMulti30kの2つの画像検索データセットである。 実験により,従来のモデルよりも優れた映像検索データセットについて,最新の結果が得られた。 さらに,我々のフレームワークであるMuMURは,他の多言語ビデオ検索データセットを大きく上回っている。 また, MuMUR が画像検索に強い性能を示すことも確認した。 このことは、MuMURがすべての視覚入力(画像とビデオ)とテキスト入力(単言語と多言語)で検索を行う普遍的な能力を示している。

Multi-modal retrieval has seen tremendous progress with the development of vision-language models. However, further improving these models require additional labelled data which is a huge manual effort. In this paper, we propose a framework MuMUR, that utilizes knowledge transfer from a multilingual model to boost the performance of multi-modal (image and video) retrieval. We first use state-of-the-art machine translation models to construct pseudo ground-truth multilingual visual-text pairs. We then use this data to learn a joint vision-text representation where English and non-English text queries are represented in a common embedding space based on pretrained multilingual models. We evaluate our proposed approach on a diverse set of retrieval datasets: five video retrieval datasets such as MSRVTT, MSVD, DiDeMo, Charades and MSRVTT multilingual, two image retrieval datasets such as Flickr30k and Multi30k . Experimental results demonstrate that our approach achieves state-of-the-art results on all video retrieval datasets outperforming previous models. Additionally, our framework MuMUR significantly beats other multilingual video retrieval dataset. We also observe that MuMUR exhibits strong performance on image retrieval. This demonstrates the universal ability of MuMUR to perform retrieval across all visual inputs (image and video) and text inputs (monolingual and multilingual).
翻訳日:2023-09-20 01:43:40 公開日:2023-09-18
# 曲面符号による非独立および非独立分布誤差の補正

Correcting non-independent and non-identically distributed errors with surface codes ( http://arxiv.org/abs/2208.02191v4 )

ライセンス: Link先を確認
Konstantin Tiurev, Peter-Jan H. S. Derks, Joschka Roffe, Jens Eisert, and Jan-Michael Reiner(参考訳) 量子誤り訂正符号の性能を研究する一般的なアプローチは、独立かつ同一に分散された単一ビット誤りを仮定することである。 しかし、利用可能な実験データによると、現代のマルチキュービットデバイスにおける現実的なエラーは、通常、キュービット間で独立でも同一でもない。 本研究では,既知の雑音構造に適応した位相曲面符号の特性をクリフォード共役によって開発・検討する。 局所的に一様でない単一ビット雑音に調整された曲面符号とスケーラブルな整合デコーダは、標準表面符号と比較して誤差閾値の増加とサブ閾値故障率の指数的抑制をもたらすことを示す。 さらに、局所的な2ビット雑音下での調整面符号の挙動について検討し、そのようなノイズの補正においてコード縮退が果たす役割を示す。 提案手法は, 量子ビット数やゲート数などのオーバーヘッドを伴わず, 標準整合デコーダを使用するため, 通常の表面符号誤り訂正に比べ, 余分なコストがかからない。

A common approach to studying the performance of quantum error correcting codes is to assume independent and identically distributed single-qubit errors. However, the available experimental data shows that realistic errors in modern multi-qubit devices are typically neither independent nor identical across qubits. In this work, we develop and investigate the properties of topological surface codes adapted to a known noise structure by Clifford conjugations. We show that the surface code locally tailored to non-uniform single-qubit noise in conjunction with a scalable matching decoder yields an increase in error thresholds and exponential suppression of sub-threshold failure rates when compared to the standard surface code. Furthermore, we study the behaviour of the tailored surface code under local two-qubit noise and show the role that code degeneracy plays in correcting such noise. The proposed methods do not require additional overhead in terms of the number of qubits or gates and use a standard matching decoder, hence come at no extra cost compared to the standard surface-code error correction.
翻訳日:2023-09-20 01:42:32 公開日:2023-09-18
# 木の平面線型化における辺長の期待和。 理論と応用

The expected sum of edge lengths in planar linearizations of trees. Theory and applications ( http://arxiv.org/abs/2207.05564v4 )

ライセンス: Link先を確認
Llu\'is Alemany-Puig and Ramon Ferrer-i-Cancho(参考訳) 依存木は人間の言語の文の構文構造を表現する非常に成功したモデルであることが証明されている。 これらの構造では、頂点は単語であり、辺は構文的に依存する単語を接続する。 これらの依存関係が短い傾向は、辺の長さまたはその変異の合計のランダムなベースラインを用いて実証されている。 ユビキタスベースライン(ユビキタスベースライン)は、射影順序付け(エッジが交差せず、文の根語が任意のエッジで覆われていない場合)において期待される和であり、時間$O(n)$で計算できる。 ここでは、より弱い形式的制約、すなわち計画性に焦点を当てます。 理論的領域では、文が与えられたとき、その単語の一様ランダムな平面の置換を生成するために、平面の置換数または効率的なアルゴリズムが生成される。 また,平面配置における期待和と射影配置における期待和との関係を示す。 アプリケーション領域では、エッジ長さの合計の期待値を計算するために$o(n)$-timeアルゴリズムを導出する。 また,本研究を並列コーパスに適用し,依存性構造に対する形式的制約の強さが増すにつれて,実際の依存関係距離とランダムベースラインとのギャップが減少し,依存関係距離最小化効果の一部を形式的制約が吸収することが示唆された。 本研究では,ランダム平面線形化をベースラインとする依存性距離最小化に関する過去の研究を再現する方法を提案する。

Dependency trees have proven to be a very successful model to represent the syntactic structure of sentences of human languages. In these structures, vertices are words and edges connect syntactically-dependent words. The tendency of these dependencies to be short has been demonstrated using random baselines for the sum of the lengths of the edges or its variants. A ubiquitous baseline is the expected sum in projective orderings (wherein edges do not cross and the root word of the sentence is not covered by any edge), that can be computed in time $O(n)$. Here we focus on a weaker formal constraint, namely planarity. In the theoretical domain, we present a characterization of planarity that, given a sentence, yields either the number of planar permutations or an efficient algorithm to generate uniformly random planar permutations of the words. We also show the relationship between the expected sum in planar arrangements and the expected sum in projective arrangements. In the domain of applications, we derive a $O(n)$-time algorithm to calculate the expected value of the sum of edge lengths. We also apply this research to a parallel corpus and find that the gap between actual dependency distance and the random baseline reduces as the strength of the formal constraint on dependency structures increases, suggesting that formal constraints absorb part of the dependency distance minimization effect. Our research paves the way for replicating past research on dependency distance minimization using random planar linearizations as random baseline.
翻訳日:2023-09-20 01:41:26 公開日:2023-09-18
# 情報理論と変分推論のための二乗近似

Sum-of-Squares Relaxations for Information Theory and Variational Inference ( http://arxiv.org/abs/2206.13285v3 )

ライセンス: Link先を確認
Francis Bach (SIERRA)(参考訳) シャノン相対エントロピーの拡張を考えると、これは$f$-divergencesと呼ばれる。 (a)瞬間からの推定、 (b)積分の正規化計算、及び (c)確率モデルにおける変分推論。 これらの問題は凸双対性を通じて相互に関連しており、これら全てに対して、データサイエンス全体に多くの応用があり、ポテンシャル凸性や単調性といった元の問題の性質を保存する計算可能な近似アルゴリズムを目標としている。 これを達成するために、与えられた特徴ベクトルに付随する非中心的共分散行列からこれらの発散を計算するための凸緩和列を導出する: 典型的には非トラクタブルな最適下界から、'sums-of-squares'' に基づく追加緩和を考える。 また,量子情報理論から分離したスペクトル情報に基づく計算効率のよい緩和も提供する。 上記のすべてのタスクに対して、新しい緩和を提案すること以外は、トラクタブル凸最適化アルゴリズムを導出し、多変量三角多項式とブールハイパーキューブ上の関数に関する図示を示す。

We consider extensions of the Shannon relative entropy, referred to as $f$-divergences.Three classical related computational problems are typically associated with these divergences: (a) estimation from moments, (b) computing normalizing integrals, and (c) variational inference in probabilistic models. These problems are related to one another through convex duality, and for all them, there are many applications throughout data science, and we aim for computationally tractable approximation algorithms that preserve properties of the original problem such as potential convexity or monotonicity. In order to achieve this, we derive a sequence of convex relaxations for computing these divergences from non-centered covariance matrices associated with a given feature vector: starting from the typically non-tractable optimal lower-bound, we consider an additional relaxation based on ``sums-of-squares'', which is is now computable in polynomial time as a semidefinite program. We also provide computationally more efficient relaxations based on spectral information divergences from quantum information theory. For all of the tasks above, beyond proposing new relaxations, we derive tractable convex optimization algorithms, and we present illustrations on multivariate trigonometric polynomials and functions on the Boolean hypercube.
翻訳日:2023-09-20 01:40:03 公開日:2023-09-18
# 状態密度からのバンド構造パラメータの深層抽出:三層グラフェンを例として

Deep learning extraction of band structure parameters from density of states: a case study on trilayer graphene ( http://arxiv.org/abs/2210.06310v2 )

ライセンス: Link先を確認
Paul Henderson, Areg Ghazaryan, Alexander A. Zibrov, Andrea F. Young, Maksym Serbyn(参考訳) 2次元材料の開発は、複雑さを増す新しい高品質な化合物の多様さをもたらした。 包括的定量理論の重要な要件は、これらの材料のバンド構造パラメータの正確な決定である。 しかし、この課題は、複雑なバンド構造と実験プローブの間接的性質のために困難である。 本研究では,深層ニューラルネットワークを用いた実験データからバンド構造パラメータを導出する汎用フレームワークを提案する。 本手法を三層グラフェンの透過電界容量測定に応用し, その状態密度の有効プローブとした。 まず,訓練された深層ネットワークが,強結合パラメータの関数として浸透場容量の正確な予測を行うことを示す。 次に、学習したネットワークからの高速かつ正確な予測を用いて、実験データから直接密結合パラメータを判定し、抽出されたパラメータを文献の値とよく一致させる。 提案手法の他の材料への応用の可能性, 浸透電界容量を超える実験技術について論じる。

The development of two-dimensional materials has resulted in a diverse range of novel, high-quality compounds with increasing complexity. A key requirement for a comprehensive quantitative theory is the accurate determination of these materials' band structure parameters. However, this task is challenging due to the intricate band structures and the indirect nature of experimental probes. In this work, we introduce a general framework to derive band structure parameters from experimental data using deep neural networks. We applied our method to the penetration field capacitance measurement of trilayer graphene, an effective probe of its density of states. First, we demonstrate that a trained deep network gives accurate predictions for the penetration field capacitance as a function of tight-binding parameters. Next, we use the fast and accurate predictions from the trained network to automatically determine tight-binding parameters directly from experimental data, with extracted parameters being in a good agreement with values in the literature. We conclude by discussing potential applications of our method to other materials and experimental techniques beyond penetration field capacitance.
翻訳日:2023-09-20 01:32:01 公開日:2023-09-18
# コンピュータビジョンにおける身体的敵攻撃に関する調査

A Survey on Physical Adversarial Attack in Computer Vision ( http://arxiv.org/abs/2209.14262v3 )

ライセンス: Link先を確認
Donghua Wang, Wen Yao, Tingsong Jiang, Guijian Tang, Xiaoqian Chen(参考訳) 過去10年間で、ディープラーニングは、強力な機能学習能力を備えた手工芸機能抽出に依存する従来のタスクに革命をもたらし、従来のタスクを大きく強化した。 しかし、ディープニューラルネットワーク(dnn)は、悪意のある小さなノイズによって作り出される敵の例に対して脆弱であることが証明されている。 既存の敵攻撃は、デジタルおよび物理的敵攻撃に分類される。 前者は実験室環境での強力な攻撃性能を追求するが、物理的世界に適用した場合は効果がほとんどない。 対照的に後者は物理的に展開可能な攻撃の開発に注力し、複雑な物理的環境条件においてより堅牢性を示す。 近年,dnnベースのシステムの導入が増加する中,これらのシステムの堅牢性強化が非常事態となり,物理的な敵対的攻撃を徹底的に検討することが前提条件となっている。 本稿では,dnnベースのコンピュータビジョンタスクに対する物理的敵意攻撃の進化を概観し,より強固な物理的敵意攻撃を展開するための有益な情報の提供を期待する。 具体的には,まず,現在の身体的敵対攻撃を分類し,グループ化する分類法を提案した。 次に,既存の物理攻撃について論じ,複雑な物理環境下での物理攻撃の頑健性を改善する技術に着目する。 最後に,現在解決すべき物理的攻撃の問題点について議論し,有望な方向性を示す。

Over the past decade, deep learning has revolutionized conventional tasks that rely on hand-craft feature extraction with its strong feature learning capability, leading to substantial enhancements in traditional tasks. However, deep neural networks (DNNs) have been demonstrated to be vulnerable to adversarial examples crafted by malicious tiny noise, which is imperceptible to human observers but can make DNNs output the wrong result. Existing adversarial attacks can be categorized into digital and physical adversarial attacks. The former is designed to pursue strong attack performance in lab environments while hardly remaining effective when applied to the physical world. In contrast, the latter focus on developing physical deployable attacks, thus exhibiting more robustness in complex physical environmental conditions. Recently, with the increasing deployment of the DNN-based system in the real world, strengthening the robustness of these systems is an emergency, while exploring physical adversarial attacks exhaustively is the precondition. To this end, this paper reviews the evolution of physical adversarial attacks against DNN-based computer vision tasks, expecting to provide beneficial information for developing stronger physical adversarial attacks. Specifically, we first proposed a taxonomy to categorize the current physical adversarial attacks and grouped them. Then, we discuss the existing physical attacks and focus on the technique for improving the robustness of physical attacks under complex physical environmental conditions. Finally, we discuss the issues of the current physical adversarial attacks to be solved and give promising directions.
翻訳日:2023-09-20 01:31:07 公開日:2023-09-18
# 量子プロセッサ上の非アベリア位相秩序への最短経路

Shortest Route to Non-Abelian Topological Order on a Quantum Processor ( http://arxiv.org/abs/2209.03964v2 )

ライセンス: Link先を確認
Nathanan Tantivasadakarn, Ruben Verresen, Ashvin Vishwanath(参考訳) 高度に議論された目標は、非アベリアゲージ理論とその非コヒーレンスな量子情報をエンコードする正準励起を実現することである。 量子デバイスにおける測定は、このような長距離の絡み合った状態を作るための新たな希望を与える一方で、有限深度回路と1ラウンドの計測で実験的に確立された成分を用いる既存のプロトコルは、アベリア状態のみを生成する。 驚くべきことに、非アベリア国家(すなわちラグランジュのサブグループを持つもの)の幅広いファミリーが存在しており、フィードフォワードのような新しいリソースの必要性を回避して、これらの最小限の材料を使って作成することができる。 これは現実的なプロトコルを提供することを示すために、例えば、深度11回路と単一の測定層を使ってgoogleの量子プロセッサ上で、$d_4$非アーベル位相秩序がいかに実現されるかを示す。 我々の研究は非可換位相的順序の実現と操作への道を開き、非可換位相の複雑さの直観的特徴を強調する。

A highly coveted goal is to realize emergent non-Abelian gauge theories and their anyonic excitations, which encode decoherence-free quantum information. While measurements in quantum devices provide new hope for scalably preparing such long-range entangled states, existing protocols using the experimentally established ingredients of a finite-depth circuit and a single round of measurement produce only Abelian states. Surprisingly, we show there exists a broad family of non-Abelian states -- namely those with a Lagrangian subgroup -- which can be created using these same minimal ingredients, bypassing the need for new resources such as feed-forward. To illustrate that this provides realistic protocols, we show how $D_4$ non-Abelian topological order can be realized, e.g., on Google's quantum processors using a depth-11 circuit and a single layer of measurements. Our work opens the way towards the realization and manipulation of non-Abelian topological orders, and highlights counter-intuitive features of the complexity of non-Abelian phases.
翻訳日:2023-09-20 01:29:05 公開日:2023-09-18
# 差別的プライバシーは、分類の公平性に影響を及ぼす

Differential Privacy has Bounded Impact on Fairness in Classification ( http://arxiv.org/abs/2210.16242v3 )

ライセンス: Link先を確認
Paul Mangold, Micha\"el Perrot, Aur\'elien Bellet, Marc Tommasi(参考訳) 分類における差分プライバシーの影響を理論的に検討する。 モデルの種類が与えられたとき、人気群フェアネス測度はモデルのパラメーターに対してポイントワイズリプシッツ連続であることが証明される。 この結果は、任意の事象(センシティブなグループへの加入など)に条件づけられた精度に関するより一般的なステートメントの結果である。 このリプシッツ特性を用いて非漸近的な境界を証明し、サンプル数が増加するにつれて、プライベートモデルの公平性レベルが非プライベートモデルのそれに近いことを証明します。 この境界はまた、差分プライバシーの異なる影響に対するモデルの信頼率の重要性を強調している。

We theoretically study the impact of differential privacy on fairness in classification. We prove that, given a class of models, popular group fairness measures are pointwise Lipschitz-continuous with respect to the parameters of the model. This result is a consequence of a more general statement on accuracy conditioned on an arbitrary event (such as membership to a sensitive group), which may be of independent interest. We use this Lipschitz property to prove a non-asymptotic bound showing that, as the number of samples increases, the fairness level of private models gets closer to the one of their non-private counterparts. This bound also highlights the importance of the confidence margin of a model on the disparate impact of differential privacy.
翻訳日:2023-09-20 01:22:02 公開日:2023-09-18
# 平均場ニューラルネットワーク:wasserstein空間上の学習マッピング

Mean-field neural networks: learning mappings on Wasserstein space ( http://arxiv.org/abs/2210.15179v3 )

ライセンス: Link先を確認
Huy\^en Pham and Xavier Warin(参考訳) 確率測度のワッサーシュタイン空間と,平均場ゲームや制御問題などの関数空間を対応づけたモデルに対する機械学習タスクについて検討する。 これらの平均場関数を学習するために,ビン密度と円筒近似に基づく2種類のニューラルネットワークが提案され,理論上は普遍近似定理によって支持されている。 これら2つの平均場ニューラルネットワークを訓練するための数値実験を行い、様々なテスト分布を持つ一般化誤差の精度と効率を示す。 最後に,時間依存平均場問題を解決するために平均場ニューラルネットワークに依存する異なるアルゴリズムを示し,確率測度のワッサースタイン空間における半線形偏微分方程式の例として数値実験を行った。

We study the machine learning task for models with operators mapping between the Wasserstein space of probability measures and a space of functions, like e.g. in mean-field games/control problems. Two classes of neural networks, based on bin density and on cylindrical approximation, are proposed to learn these so-called mean-field functions, and are theoretically supported by universal approximation theorems. We perform several numerical experiments for training these two mean-field neural networks, and show their accuracy and efficiency in the generalization error with various test distributions. Finally, we present different algorithms relying on mean-field neural networks for solving time-dependent mean-field problems, and illustrate our results with numerical tests for the example of a semi-linear partial differential equation in the Wasserstein space of probability measures.
翻訳日:2023-09-20 01:21:51 公開日:2023-09-18
# 生成的知識グラフ構築:レビュー

Generative Knowledge Graph Construction: A Review ( http://arxiv.org/abs/2210.12714v3 )

ライセンス: Link先を確認
Hongbin Ye, Ningyu Zhang, Hui Chen, Huajun Chen(参考訳) 生成的知識グラフ構築(英: Generative Knowledge Graph Construction, KGC)とは、知識グラフを構築するためのシーケンス・ツー・シーケンス・フレームワークを利用する手法である。 本研究では,最近の生成知識グラフ構築の進歩を要約する。 我々は,各パラダイムの利点と弱点を,異なる世代目標の観点から提示し,理論的洞察と実証分析を提供する。 このレビューに基づいて,将来に向けて有望な研究の方向性を提案する。 我々は,(1)生成型kgc法に関する詳細な,完全な分類法,(2)生成型kgc法の理論的,経験的分析,(3)将来開発可能ないくつかの研究方向を提案する。

Generative Knowledge Graph Construction (KGC) refers to those methods that leverage the sequence-to-sequence framework for building knowledge graphs, which is flexible and can be adapted to widespread tasks. In this study, we summarize the recent compelling progress in generative knowledge graph construction. We present the advantages and weaknesses of each paradigm in terms of different generation targets and provide theoretical insight and empirical analysis. Based on the review, we suggest promising research directions for the future. Our contributions are threefold: (1) We present a detailed, complete taxonomy for the generative KGC methods; (2) We provide a theoretical and empirical analysis of the generative KGC methods; (3) We propose several research directions that can be developed in the future.
翻訳日:2023-09-20 01:20:31 公開日:2023-09-18
# データ効率のよいナレッジグラフ構築を改善するschema-aware reference as prompt

Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph Construction ( http://arxiv.org/abs/2210.10709v5 )

ライセンス: Link先を確認
Yunzhi Yao, Shengyu Mao, Ningyu Zhang, Xiang Chen, Shumin Deng, Xi Chen, Huajun Chen(参考訳) 事前学習言語モデルの開発により、データ効率のよい知識グラフ構築への多くのプロンプトベースのアプローチが提案され、優れた性能を達成した。 しかし、既存の知識グラフ構築のためのプロンプトベースの学習方法は、まだいくつかの潜在的な制限を受けやすい。 (i)事前定義されたスキーマによる自然言語と出力構造化知識のセマンティックギャップ。つまり、モデルは制約されたテンプレートでセマンティック知識を完全に活用できない。 (ii) 局所的なインスタンスでの表現学習は、事前学習された言語モデルの潜在的な類似性を解き放つことができない、不十分な特徴から得られる性能を制限する。 そこで本研究では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。 モデルに依存しず、広範囲にわたる既存のアプローチにプラグインできる、各サンプルのプロンプトとして、人間の注釈と弱い教師付きデータから継承されたスキーマと知識を動的に活用することができる。 実験の結果,rapと統合した従来手法は,ナレッジグラフ構築のためのリレーショナルトリプル抽出とイベント抽出の5つのデータセットにおいて,低リソース設定で印象的な性能向上を達成できた。 コードはhttps://github.com/zjunlp/RAPで入手できる。

With the development of pre-trained language models, many prompt-based approaches to data-efficient knowledge graph construction have been proposed and achieved impressive performance. However, existing prompt-based learning methods for knowledge graph construction are still susceptible to several potential limitations: (i) semantic gap between natural language and output structured knowledge with pre-defined schema, which means model cannot fully exploit semantic knowledge with the constrained templates; (ii) representation learning with locally individual instances limits the performance given the insufficient features, which are unable to unleash the potential analogical capability of pre-trained language models. Motivated by these observations, we propose a retrieval-augmented approach, which retrieves schema-aware Reference As Prompt (RAP), for data-efficient knowledge graph construction. It can dynamically leverage schema and knowledge inherited from human-annotated and weak-supervised data as a prompt for each sample, which is model-agnostic and can be plugged into widespread existing approaches. Experimental results demonstrate that previous methods integrated with RAP can achieve impressive performance gains in low-resource settings on five datasets of relational triple extraction and event extraction for knowledge graph construction. Code is available in https://github.com/zjunlp/RAP.
翻訳日:2023-09-20 01:20:18 公開日:2023-09-18
# 実効性低リソース関係抽出に向けて:経験的ベースライン研究によるベンチマーク

Towards Realistic Low-resource Relation Extraction: A Benchmark with Empirical Baseline Study ( http://arxiv.org/abs/2210.10678v3 )

ライセンス: Link先を確認
Xin Xu, Xiang Chen, Ningyu Zhang, Xin Xie, Xi Chen, Huajun Chen(参考訳) 本稿では,低リソース環境における関係抽出システムを構築するための経験的研究を行う。 近年の事前学習言語モデルに基づいて,低リソース環境での性能を評価するための3つのスキームを包括的に検討する。 (i)少ないラベル付きデータを有する異なる種類のプロンプトベース手法 (ii)長期流通問題に対処するための多様なバランス方法 (iii)より多くのラベル付きドメイン内データを生成するためのデータ拡張技術と自己学習。 我々は、異なる言語、ドメイン、コンテキストをカバーする8つの関係抽出(RE)データセットでベンチマークを作成し、提案したスキームと組み合わせて広範な比較を行う。 私たちの実験が示すのは (i)低リソースREにおいて、プロンプトベースのチューニングは有益であるが、特に複数のリレーショナルトリプルを持つクロスセレンスコンテキストから関係を抽出する場合、改善の可能性がまだ高い。 二 長期分布のREにおいて、バランシング手法が必ずしも役に立たないこと。 (iii)データ拡張は、既存のベースラインを補完し、多くのパフォーマンス向上をもたらすが、自己学習は、低リソースreへの一貫して進歩を達成するものではない。 コードとデータセットはhttps://github.com/zjunlp/lrebenchにある。

This paper presents an empirical study to build relation extraction systems in low-resource settings. Based upon recent pre-trained language models, we comprehensively investigate three schemes to evaluate the performance in low-resource settings: (i) different types of prompt-based methods with few-shot labeled data; (ii) diverse balancing methods to address the long-tailed distribution issue; (iii) data augmentation technologies and self-training to generate more labeled in-domain data. We create a benchmark with 8 relation extraction (RE) datasets covering different languages, domains and contexts and perform extensive comparisons over the proposed schemes with combinations. Our experiments illustrate: (i) Though prompt-based tuning is beneficial in low-resource RE, there is still much potential for improvement, especially in extracting relations from cross-sentence contexts with multiple relational triples; (ii) Balancing methods are not always helpful for RE with long-tailed distribution; (iii) Data augmentation complements existing baselines and can bring much performance gain, while self-training may not consistently achieve advancement to low-resource RE. Code and datasets are in https://github.com/zjunlp/LREBench.
翻訳日:2023-09-20 01:19:56 公開日:2023-09-18
# スケーラブルなセルフリー大規模mimoによるオーバーザ・エアフェデレート学習

Over-The-Air Federated Learning Over Scalable Cell-free Massive MIMO ( http://arxiv.org/abs/2212.06482v3 )

ライセンス: Link先を確認
Houssem Sifaou and Geoffrey Ye Li(参考訳) セルフリーの大規模MIMOは、従来の携帯電話システムと比較して均一なカバレッジとスペクトル効率が期待できる将来の無線通信システムにとって有望な技術として浮上している。 本研究では,セルフリー大規模MIMOがフェデレートエッジ学習を支援する方法について検討する。 無線マルチアクセスチャネルの付加的な性質を活用することで、クライアントは同じ通信リソース上でローカル更新を同時に送信するオーバー・ザ・エア計算が利用される。 このアプローチは、over-the-air federated learning(ota-fl)と呼ばれ、無線ネットワークを介した連合学習の通信オーバーヘッドを軽減することが証明されている。 チャネル相関と中央サーバで利用可能なチャンネル状態情報のみを考慮し,セルフリーなMIMO上でのOTA-FLの実装を提案する。 提案手法の収束性を解析的,実験的に検討し,OTA-FLに対する無細胞大量MIMOの利点を確認した。

Cell-free massive MIMO is emerging as a promising technology for future wireless communication systems, which is expected to offer uniform coverage and high spectral efficiency compared to classical cellular systems. We study in this paper how cell-free massive MIMO can support federated edge learning. Taking advantage of the additive nature of the wireless multiple access channel, over-the-air computation is exploited, where the clients send their local updates simultaneously over the same communication resource. This approach, known as over-the-air federated learning (OTA-FL), is proven to alleviate the communication overhead of federated learning over wireless networks. Considering channel correlation and only imperfect channel state information available at the central server, we propose a practical implementation of OTA-FL over cell-free massive MIMO. The convergence of the proposed implementation is studied analytically and experimentally, confirming the benefits of cell-free massive MIMO for OTA-FL.
翻訳日:2023-09-20 01:11:22 公開日:2023-09-18
# 時空双対による非平衡全数統計と対称性解の絡み合い

Nonequilibrium Full Counting Statistics and Symmetry-Resolved Entanglement from Space-Time Duality ( http://arxiv.org/abs/2212.06188v3 )

ライセンス: Link先を確認
Bruno Bertini, Pasquale Calabrese, Mario Collura, Katja Klobas, Colin Rylands(参考訳) その確率的性質から、量子力学における測定過程は可能な結果の分布を生成する。 この分布、またはフルカウント統計(FCS)として知られるフーリエ変換は、測定された可観測値の平均値よりもはるかに多くの情報を含み、それにアクセスすることがシステムに関する関連情報を得る唯一の方法である。 実際、FCSは、大域対称性の存在下で量子エンタングルメントが異なる対称性セクターにどのように分割されるかを特徴付ける、より一般的な観測可能な族(荷電モーメント)の極限である。 ここでは、FCSとU(1)電荷の電荷モーメントの進化を、大域的量子クエンチの後に有限領域に切り替わったものとみなす。 大規模な場合、これらの量は2つの異なる状態が時間の関数として示される単純な大偏差形式をとる: 領域のサイズよりもはるかに大きい場合、局所平衡状態によって設定された定常値に近づくが、領域サイズよりも短い場合、時間に対する自明な依存を示す。 初期状態が U(1) 対称であるとき、FCS の時間における先頭の順序と非平衡状態における荷電モーメントは時空双対性によって決定できることを示す。 すなわち、時間と空間の役割が交換されるシステムの定常値と一致する。 この観察を用いてfcsと荷電モーメントの一般性を見いだし、相互作用する可積分モデルにおいてそれらの量の正確な表現を導出する。 我々は、この式を規則54量子セルオートマトンとxxzスピン1/2鎖の正確な数値の正確な結果に対してテストする。

Due to its probabilistic nature, a measurement process in quantum mechanics produces a distribution of possible outcomes. This distribution - or its Fourier transform known as full counting statistics (FCS) - contains much more information than say the mean value of the measured observable and accessing it is sometimes the only way to obtain relevant information about the system. In fact, the FCS is the limit of an even more general family of observables - the charged moments - that characterise how quantum entanglement is split in different symmetry sectors in the presence of a global symmetry. Here we consider the evolution of the FCS and of the charged moments of a U(1) charge truncated to a finite region after a global quantum quench. For large scales these quantities take a simple large-deviation form, showing two different regimes as functions of time: while for times much larger than the size of the region they approach a stationary value set by the local equilibrium state, for times shorter than region size they show a non-trivial dependence on time. We show that, whenever the initial state is also U(1) symmetric, the leading order in time of FCS and charged moments in the out-of-equilibrium regime can be determined by means of a space-time duality. Namely, it coincides with the stationary value in the system where the roles of time and space are exchanged. We use this observation to find some general properties of FCS and charged moments out-of-equilibrium, and to derive an exact expression for these quantities in interacting integrable models. We test this expression against exact results in the Rule 54 quantum cellular automaton and exact numerics in the XXZ spin-1/2 chain.
翻訳日:2023-09-20 01:11:05 公開日:2023-09-18
# FedDCT:DivideとCollaborative Trainingを用いた資源制約デバイス上での大規模畳み込みニューラルネットワークのフェデレーション学習

FedDCT: Federated Learning of Large Convolutional Neural Networks on Resource Constrained Devices using Divide and Collaborative Training ( http://arxiv.org/abs/2211.10948v2 )

ライセンス: Link先を確認
Quan Nguyen, Hieu H. Pham, Kok-Seng Wong, Phi Le Nguyen, Truong Thao Nguyen, Minh N. Do(参考訳) 我々は,リソース制限エッジデバイス上で大規模かつ高性能なCNNを使用できる分散学習パラダイムであるFedDCTを紹介する。 トレーニングラウンド毎に、各クライアントがフルサイズのニューラルネットワークを独立にトレーニングする必要がある従来のflアプローチとは対照的に、提案されているfedctでは、複数のクライアントのクラスタが、プライバシを維持しながら、複数の小さなサブモデルのアンサンブルに分割して、複数のデバイス上で並列にトレーニングすることで、大規模なディープラーニングモデルを共同的にトレーニングすることができる。 このコラボレーティブなトレーニングプロセスでは、同じクラスタからのクライアント同士の学習も可能で、アンサンブルのパフォーマンスをさらに向上します。 集約段階では、サーバはすべてのクラスタでトレーニングされたアンサンブルモデルの重み付け平均値を取る。 FedDCTはメモリ要件を減らし、ローエンドデバイスがFLに参加することを可能にする。 我々は、CIFAR-10、CIFAR-100、および2つの現実世界の医療データセットHAM10000、VAIPEを含む標準化データセットに関する広範な実験を経験的に実施する。 実験結果から,FedDCTは興味深い収束挙動を持つ現在のSOTA FL法よりも優れていた。 さらに、他の既存のアプローチと比較して、FedDCTは高い精度を実現し、サーバ側で追加のトレーニングコストを発生させることなく、テストデータセット上で所望の精度を達成するための通信ラウンドの数(メモリ要求の4~8倍)を大幅に削減する。

We introduce FedDCT, a novel distributed learning paradigm that enables the usage of large, high-performance CNNs on resource-limited edge devices. As opposed to traditional FL approaches, which require each client to train the full-size neural network independently during each training round, the proposed FedDCT allows a cluster of several clients to collaboratively train a large deep learning model by dividing it into an ensemble of several small sub-models and train them on multiple devices in parallel while maintaining privacy. In this collaborative training process, clients from the same cluster can also learn from each other, further improving their ensemble performance. In the aggregation stage, the server takes a weighted average of all the ensemble models trained by all the clusters. FedDCT reduces the memory requirements and allows low-end devices to participate in FL. We empirically conduct extensive experiments on standardized datasets, including CIFAR-10, CIFAR-100, and two real-world medical datasets HAM10000 and VAIPE. Experimental results show that FedDCT outperforms a set of current SOTA FL methods with interesting convergence behaviors. Furthermore, compared to other existing approaches, FedDCT achieves higher accuracy and substantially reduces the number of communication rounds (with $4-8$ times fewer memory requirements) to achieve the desired accuracy on the testing dataset without incurring any extra training cost on the server side.
翻訳日:2023-09-20 01:08:56 公開日:2023-09-18
# すべてのドメインに対する1つのモデル:クロスドメインnerのためのコラボレーティブなドメインプリフィックスチューニング

One Model for All Domains: Collaborative Domain-Prefix Tuning for Cross-Domain NER ( http://arxiv.org/abs/2301.10410v5 )

ライセンス: Link先を確認
Xiang Chen, Lei Li, Shuofei Qiao, Ningyu Zhang, Chuanqi Tan, Yong Jiang, Fei Huang, Huajun Chen(参考訳) クロスドメインNERは、実践シナリオにおける低リソースの問題に対処する上で難しいタスクである。 従来の典型的なソリューションは主に、リッチリソースドメインのデータを持つ事前学習言語モデル(PLM)を用いてNERモデルを取得し、ターゲットドメインに適応する。 異なるドメインのエンティティタイプ間のミスマッチの問題のため、従来のアプローチは通常、PLMのすべてのパラメータをチューニングし、最終的に各ドメインに対して全く新しいNERモデルになる。 さらに、現在のモデルは、複数のソースからターゲットへの知識の転送に失敗しながら、単一のソースドメインにおける知識の活用にのみ焦点を当てている。 この問題に対処するために,テキスト対テキスト生成plmに基づくクロスドメインner(cp-ner)のための協調型ドメインプリフィックスチューニングを導入する。 具体的には、ドメイン関連インストラクターを対象に、構造変更なしに知識を新しいドメインNERタスクに転送するテキスト・ツー・テキスト生成を提案する。 凍結したPLMを利用して協調的なドメイン-プレフィックスチューニングを行い、PLMのポテンシャルを刺激し、NERタスクを様々なドメインで処理する。 Cross-NERベンチマークによる実験結果から,提案手法はフレキシブルトランスファー能力を有し,単一ソースと複数ソースのクロスドメインNERタスクにおいて優れた性能を発揮することが示された。 コードはhttps://github.com/zjunlp/deepke/tree/main/example/ner/crossで入手できる。

Cross-domain NER is a challenging task to address the low-resource problem in practical scenarios. Previous typical solutions mainly obtain a NER model by pre-trained language models (PLMs) with data from a rich-resource domain and adapt it to the target domain. Owing to the mismatch issue among entity types in different domains, previous approaches normally tune all parameters of PLMs, ending up with an entirely new NER model for each domain. Moreover, current models only focus on leveraging knowledge in one general source domain while failing to successfully transfer knowledge from multiple sources to the target. To address these issues, we introduce Collaborative Domain-Prefix Tuning for cross-domain NER (CP-NER) based on text-to-text generative PLMs. Specifically, we present text-to-text generation grounding domain-related instructors to transfer knowledge to new domain NER tasks without structural modifications. We utilize frozen PLMs and conduct collaborative domain-prefix tuning to stimulate the potential of PLMs to handle NER tasks across various domains. Experimental results on the Cross-NER benchmark show that the proposed approach has flexible transfer ability and performs better on both one-source and multiple-source cross-domain NER tasks. Codes are available in https://github.com/zjunlp/DeepKE/tree/main/example/ner/cross.
翻訳日:2023-09-20 01:01:41 公開日:2023-09-18
# RecolorNeRF: 3次元シーンの効率的な色編集のための層分解放射場

RecolorNeRF: Layer Decomposed Radiance Fields for Efficient Color Editing of 3D Scenes ( http://arxiv.org/abs/2301.07958v3 )

ライセンス: Link先を確認
Bingchen Gong and Yuehao Wang and Xiaoguang Han and Qi Dou(参考訳) 放射場は徐々にメディアの主表現になりつつある。 外観編集は研究されているが、ビュー一貫性を効果的に再現する方法はまだ検討中である。 本稿では,ニューラルラジアンス分野のユーザフレンドリーなカラー編集手法であるRecolorNeRFを提案する。 私たちのキーとなるアイデアは、シーンを純粋な色の層に分解し、パレットを形成することです。 これにより、パレットの色成分を直接変更して色操作を行うことができる。 効率的なパレットベースの編集をサポートするには、各レイヤの色を可能な限り表現する必要がある。 最終的に、この問題は最適化問題として定式化され、層とその混合重みは、nerf自体と共同で最適化される。 広汎な実験により, 共同最適化された層分解は複数のバックボーンに対して利用でき, フォトリアリスティックなノベルビューレンダリングを作成できることがわかった。 recolornerfは,複雑な実世界のシーンにおいても,色編集において定量的かつ定性的にベースラインメソッドを上回ることを実証する。

Radiance fields have gradually become a main representation of media. Although its appearance editing has been studied, how to achieve view-consistent recoloring in an efficient manner is still under explored. We present RecolorNeRF, a novel user-friendly color editing approach for the neural radiance fields. Our key idea is to decompose the scene into a set of pure-colored layers, forming a palette. By this means, color manipulation can be conducted by altering the color components of the palette directly. To support efficient palette-based editing, the color of each layer needs to be as representative as possible. In the end, the problem is formulated as an optimization problem, where the layers and their blending weights are jointly optimized with the NeRF itself. Extensive experiments show that our jointly-optimized layer decomposition can be used against multiple backbones and produce photo-realistic recolored novel-view renderings. We demonstrate that RecolorNeRF outperforms baseline methods both quantitatively and qualitatively for color editing even in complex real-world scenes.
翻訳日:2023-09-20 01:00:52 公開日:2023-09-18
# クロスモーダルトランスフォーマー:高速かつロバストな3次元物体検出に向けて

Cross Modal Transformer: Towards Fast and Robust 3D Object Detection ( http://arxiv.org/abs/2301.01283v3 )

ライセンス: Link先を確認
Junjie Yan, Yingfei Liu, Jianjian Sun, Fan Jia, Shuailin Li, Tiancai Wang, Xiangyu Zhang(参考訳) 本稿では,CMT (Cross Modal Transformer) と呼ばれる高機能な3次元検出器を提案する。 明示的なビュー変換がなければ、cmtはイメージとポイントクラウドトークンを入力として、正確な3dバウンディングボックスを直接出力します。 マルチモーダルトークンの空間アライメントは、3Dポイントをマルチモーダル特徴に符号化することで行う。 CMTのコアデザインは非常にシンプルですが、性能は素晴らしいです。 高速な推論速度を維持しつつ、nuScenesテストセット上で74.1\% NDSを達成する。 さらに、CMTはLiDARが欠落していても強い堅牢性を持っている。 コードはhttps://github.com/junjie18/cmtでリリースされる。

In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. It achieves 74.1\% NDS (state-of-the-art with single model) on nuScenes test set while maintaining fast inference speed. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code is released at https://github.com/junjie18/CMT.
翻訳日:2023-09-20 00:59:06 公開日:2023-09-18
# 複素力学における量子速度限界

Quantum speed limit for complex dynamics ( http://arxiv.org/abs/2301.00566v3 )

ライセンス: Link先を確認
Mao Zhang and Huai-Ming Yu and Jing Liu(参考訳) 量子速度制限は固定されたミッションの最小時間スケールに焦点を合わせ、したがって高速ダイナミクスが通常有用である量子情報において重要である。 量子速度制限を描写するための既存のツールのほとんどは、特に多体系や複雑な力学において、真の最小時間を明らかにするのが困難である低バウンド型ツールである。 したがって、これらのシナリオにおける真の最小時間の評価はまだ未解決の問題である。 本稿では,複雑なダイナミクスにおける真の最小時間を評価するために,機械学習に基づく3段階の手法を提案する。 さらに、時間非依存の固有状態を持つ時間依存ハミルトニアンに対しては、真の最小時間の解析的表現も提供される。

Quantum speed limit focuses on the minimum time scale for a fixed mission and hence is important in quantum information where fast dynamics is usually beneficial. Most existing tools for the depiction of quantum speed limit are the lower-bound-type tools, which are in fact difficult to reveal the true minimum time, especially for many-body systems or complex dynamics. Therefore, the evaluation of this true minimum time in these scenarios is still an unsolved problem. Hereby we propose a three-step (classification-regression-calibration) methodology based on machine learning to evaluate the true minimum time in complex dynamics. Moreover, the analytical expression of the true minimum time is also provided for the time-dependent Hamiltonians with time-independent eigenstates.
翻訳日:2023-09-20 00:58:53 公開日:2023-09-18
# 非相互ディックモデル

The non-reciprocal Dicke model ( http://arxiv.org/abs/2302.06386v2 )

ライセンス: Link先を確認
Ezequiel I. Rodr\'iguez Chiacchio, Andreas Nunnenkamp, Matteo Brunelli(参考訳) 光場が2つのスピン種間の非相互相互作用を媒介する開放二成分ディックモデルの物理について検討する。 非相互ディックモデルをダブしたモデルが離散パリティ時間($\mathcal{PT}$)対称性を示し、非定常位相の出現を特徴付け、これまでは$\mathcal{PT}$対称性の自発的破壊として散逸誘起不安定性の観点から説明してきた。 さらに、そのような$\mathcal{PT}$対称性の破れは、Fruchart $et$$alによって最近導入された概念である非相互相転移のインスタンスを具現化することを示す。 $ [Nature ${\bf 592}$, 363 (2021)] 驚くべきことに、このモデルにおける相転移は、スペクトルの破れた対称性や例外的な点の存在を必要とせず、どちらも非相転移の必須要件であると信じられている。 本研究では,非相対的位相遷移を探索するための新しい方法として,非相対的集合現象の理論に寄与する,駆動散逸型光マターシステムを確立した。

We investigate the physics of an open two-component Dicke model, where the light field mediates non-reciprocal interactions between two spin species. We show that the model, which we dub non-reciprocal Dicke model, exhibits a discrete parity-time ($\mathcal{PT}$) symmetry and we characterize the emergence of a non-stationary phase, so far explained in terms of dissipation-induced instability, as spontaneous breaking of $\mathcal{PT}$ symmetry. We further show that such $\mathcal{PT}$ symmetry breaking embodies an instance of a non-reciprocal phase transition, a concept recently introduced by Fruchart $et$ $al.$ [Nature ${\bf 592}$, 363 (2021)]. Remarkably, the phase transition in our model does not necessitate the presence of any underlying broken symmetry or exceptional points in the spectrum, both believed to be essential requirements for non-reciprocal phase transitions. Our results establish driven-dissipative light-matter systems as a new avenue for exploring non-reciprocal phase transitions and contribute to the theory of non-reciprocal collective phenomena.
翻訳日:2023-09-20 00:50:23 公開日:2023-09-18
# ブラックボックスモデルで単純なタスクをオーバーキルしなくなり、代わりに透明モデルを使用する

Stop overkilling simple tasks with black-box models and use transparent models instead ( http://arxiv.org/abs/2302.02804v3 )

ライセンス: Link先を確認
Matteo Rizzo, Matteo Marcuzzo, Alessandro Zangari, Andrea Gasparetto, Andrea Albarelli(参考訳) 近年、ディープラーニングの手法が採用され、人工知能にいくつかの大きなブレークスルーをもたらした。 従来の機械学習モデルとは異なり、ディープラーニングベースのアプローチは、生データから自律的に特徴を抽出することができる。 これにより、一般的にエラーを起こしやすく、面倒であると考えられる機能エンジニアリングプロセスをバイパスすることができる。 さらに、ディープラーニング戦略は、精度で従来のモデルより優れていることが多い。

In recent years, the employment of deep learning methods has led to several significant breakthroughs in artificial intelligence. Different from traditional machine learning models, deep learning-based approaches are able to extract features autonomously from raw data. This allows for bypassing the feature engineering process, which is generally considered to be both error-prone and tedious. Moreover, deep learning strategies often outperform traditional models in terms of accuracy.
翻訳日:2023-09-20 00:49:59 公開日:2023-09-18
# Neural Operator: データはすべて、世界をモデル化するために必要なものなのでしょうか? 物理学インフォームド機械学習が与える影響についての一考察

Neural Operator: Is data all you need to model the world? An insight into the impact of Physics Informed Machine Learning ( http://arxiv.org/abs/2301.13331v2 )

ライセンス: Link先を確認
Hrishikesh Viswanath, Md Ashiqur Rahman, Abhijeet Vyas, Andrey Shor, Beatriz Medeiros, Stephanie Hernandez, Suhas Eswarappa Prameela, Aniket Bera(参考訳) 偏微分方程式(PDE)の数値近似は、熱や音の伝播、流体の流れ、弾性、静電気、電気力学など、様々な変数の関数を含む物理学、工学、数学の問題を定式化するために日常的に用いられる。 このことが多くの複雑な現象の解決につながったが、いくつかの制限がある。 有限要素法(FEM)や有限微分法(FDM)といった従来の手法は、かなりの時間を要するため、計算コストがかかる。 対照的に、ニューラルネットワークのようなデータ駆動機械学習ベースの手法は、より速く、かなり正確な代替手段を提供し、離散化不変性や分解能不変性といったいくつかの利点がある。 この記事では、データ駆動アプローチがエンジニアリングや物理学の問題を解決する従来の手法をどのように補完するか、そして機械学習ベースのアプローチの大きな落とし穴を指摘したいと思います。 さらに、PDE演算子学習の解演算子を学習するための、新しくて高速な機械学習ベースのアプローチ(約1000倍)を強調した。 これらの新しい計算手法は、基礎物理学や応用物理学における多くの問題に取り組む上で、いかに大きな利点をもたらすかに注目したい。

Numerical approximations of partial differential equations (PDEs) are routinely employed to formulate the solution of physics, engineering and mathematical problems involving functions of several variables, such as the propagation of heat or sound, fluid flow, elasticity, electrostatics, electrodynamics, and more. While this has led to solving many complex phenomena, there are some limitations. Conventional approaches such as Finite Element Methods (FEMs) and Finite Differential Methods (FDMs) require considerable time and are computationally expensive. In contrast, data driven machine learning-based methods such as neural networks provide a faster, fairly accurate alternative, and have certain advantages such as discretization invariance and resolution invariance. This article aims to provide a comprehensive insight into how data-driven approaches can complement conventional techniques to solve engineering and physics problems, while also noting some of the major pitfalls of machine learning-based approaches. Furthermore, we highlight, a novel and fast machine learning-based approach (~1000x) to learning the solution operator of a PDE operator learning. We will note how these new computational approaches can bring immense advantages in tackling many problems in fundamental and applied physics.
翻訳日:2023-09-20 00:48:46 公開日:2023-09-18
# 非IID領域特徴に対する信頼フェデレーション分散ネットワーク

Reliable Federated Disentangling Network for Non-IID Domain Feature ( http://arxiv.org/abs/2301.12798v2 )

ライセンス: Link先を確認
Meng Wang, Kai Yu, Chun-Mei Feng, Yiming Qian, Ke Zou, Lianyu Wang, Rick Siow Mong Goh, Yong Liu, Huazhu Fu(参考訳) 効果的な分散学習アプローチとしてのフェデレートラーニング(FL)は、複数の機関がローカルデータを共有せずにモデルを共同で訓練することを可能にする。 しかし、異なる取得装置/クライアントによるドメインの特徴シフトはFLモデルの性能を著しく低下させる。 さらに、既存のflアプローチの多くは、信頼性(信頼性や不確実性など)を考慮せずに精度を向上させることを目的としている。 したがって、安全クリティカルなアプリケーションにデプロイすると、予測は信頼できない。 したがって、モデルをより信頼性の高いものにしながら、非ドメイン機能問題におけるflの性能向上を目指す。 本稿では,グローバルなドメイン不変のクロスクライアント表現をキャプチャし,ローカルクライアント固有の特徴学習を保存可能にするために,機能拡張を利用するRFedDisと呼ばれる,信頼性の高いフェデレーションデタングルネットワークを提案する。 また,分離された特徴を効果的に統合するために,不確実性を考慮した決定融合を導入することで,不確実性を推定した信頼性の高い予測を行うとともに,分離された特徴をエビデンスレベルで動的に統合する手法を提案する。 我々の知る限り、提案するRFedDisは明らかに不確実性に基づくFLアプローチと特徴分離を組み合わせた最初の取り組みであり、非IID領域の特徴におけるFLの性能と信頼性を向上させる。 提案するRFedDisは,他の最先端FL手法と比較して,信頼性の高い優れた性能を実現している。

Federated learning (FL), as an effective decentralized distributed learning approach, enables multiple institutions to jointly train a model without sharing their local data. However, the domain feature shift caused by different acquisition devices/clients substantially degrades the performance of the FL model. Furthermore, most existing FL approaches aim to improve accuracy without considering reliability (e.g., confidence or uncertainty). The predictions are thus unreliable when deployed in safety-critical applications. Therefore, aiming at improving the performance of FL in non-Domain feature issues while enabling the model more reliable. In this paper, we propose a novel reliable federated disentangling network, termed RFedDis, which utilizes feature disentangling to enable the ability to capture the global domain-invariant cross-client representation and preserve local client-specific feature learning. Meanwhile, to effectively integrate the decoupled features, an uncertainty-aware decision fusion is also introduced to guide the network for dynamically integrating the decoupled features at the evidence level, while producing a reliable prediction with an estimated uncertainty. To the best of our knowledge, our proposed RFedDis is the first work to develop an FL approach based on evidential uncertainty combined with feature disentangling, which enhances the performance and reliability of FL in non-IID domain features. Extensive experimental results show that our proposed RFedDis provides outstanding performance with a high degree of reliability as compared to other state-of-the-art FL approaches.
翻訳日:2023-09-20 00:48:25 公開日:2023-09-18
# FractalAD: フラクタル異常発生とバックボーン知識蒸留を用いた簡易産業異常検出法

FractalAD: A simple industrial anomaly detection method using fractal anomaly generation and backbone knowledge distillation ( http://arxiv.org/abs/2301.12739v3 )

ライセンス: Link先を確認
Xuan Xia, Weijie Lv, Xing He, Nan Li, Chuanqi Liu, Ning Ding(参考訳) 近年、産業異常検出(AD)技術は大きな進歩を遂げているが、現実的な異常や学習の先行きは依然として困難な課題である。 本研究では,FractalADと呼ばれるエンドツーエンドの産業異常検出手法を提案する。 通常の試料からフラクタル画像とパッチを合成してトレーニングサンプルを得る。 このフラクタル異常生成法は、異常の完全な形態をサンプリングするために設計された。 さらに, 標準試料に含まれる事前知識を抽出するために, バックボーン知識蒸留構造も設計した。 教師と生徒モデルの違いは、コサイン類似性注意モジュールを用いて異常注意に変換される。 提案手法では,トレーニング可能なパラメータをバックボーンやセグメンテーションヘッドに追加することなく,エンドツーエンドのセグメンテーションネットワークを異常検出に使用することができる。 . アブレーション研究の結果,フラクタル異常発生とバックボーン知識蒸留の有効性が確認された。 評価実験の結果、FractalADはMVTec ADデータセットとMVTec 3D-ADデータセットと、他の最先端の異常検出方法と比較して、競合する結果を得た。

Although industrial anomaly detection (AD) technology has made significant progress in recent years, generating realistic anomalies and learning priors of normal remain challenging tasks. In this study, we propose an end-to-end industrial anomaly detection method called FractalAD. Training samples are obtained by synthesizing fractal images and patches from normal samples. This fractal anomaly generation method is designed to sample the full morphology of anomalies. Moreover, we designed a backbone knowledge distillation structure to extract prior knowledge contained in normal samples. The differences between a teacher and a student model are converted into anomaly attention using a cosine similarity attention module. The proposed method enables an end-to-end semantic segmentation network to be used for anomaly detection without adding any trainable parameters to the backbone and segmentation head, and has obvious advantages over other methods in training and inference speed.. The results of ablation studies confirmed the effectiveness of fractal anomaly generation and backbone knowledge distillation. The results of performance experiments showed that FractalAD achieved competitive results on the MVTec AD dataset and MVTec 3D-AD dataset compared with other state-of-the-art anomaly detection methods.
翻訳日:2023-09-20 00:48:02 公開日:2023-09-18
# PL-UNeXt:電力線検出のためのエッジ詳細とライン特徴分割

PL-UNeXt: Per-stage Edge Detail and Line Feature Guided Segmentation for Power Line Detection ( http://arxiv.org/abs/2303.04413v2 )

ライセンス: Link先を確認
Yang Cheng, Zhen Chen and Daming Liu(参考訳) 電力線検出は電力会社にとって重要な検査課題であり、ドローンの障害物回避にも有用である。 複雑な背景と低い画素比のため、空中画像内の周辺領域から正確に電力線を分離することは依然として困難である。 空間エッジディテールのガイダンスを事前およびラインの特徴を適切に把握するために,ブースタトレーニング戦略を備えた電力線セグメンテーションモデルであるpl-unextを提案する。 我々は,エッジ空間の損失を計算するエッジディテールヘッドを設計し,下位ディテール学習と補助セグメンテーションマスクを生成するライン特徴ヘッドを導出し,高レベルなライン特徴学習を監督する。 この設計に適合して、我々のモデルはTTPLAで70.6 F1スコア(+1.9%)、VITLで68.41 mIoU(+5.2%)に達し、推論パラメータが少ないためにリアルタイムのパフォーマンスを維持することができる。

Power line detection is a critical inspection task for electricity companies and is also useful in avoiding drone obstacles. Accurately separating power lines from the surrounding area in the aerial image is still challenging due to the intricate background and low pixel ratio. In order to properly capture the guidance of the spatial edge detail prior and line features, we offer PL-UNeXt, a power line segmentation model with a booster training strategy. We design edge detail heads computing the loss in edge space to guide the lower-level detail learning and line feature heads generating auxiliary segmentation masks to supervise higher-level line feature learning. Benefited from this design, our model can reach 70.6 F1 score (+1.9%) on TTPLA and 68.41 mIoU (+5.2%) on VITL (without utilizing IR images), while preserving a real-time performance due to few inference parameters.
翻訳日:2023-09-20 00:41:23 公開日:2023-09-18
# 強化ラベル:ポイント特徴ラベル配置のためのマルチエージェント深層強化学習

Reinforced Labels: Multi-Agent Deep Reinforcement Learning for Point-Feature Label Placement ( http://arxiv.org/abs/2303.01388v3 )

ライセンス: Link先を確認
Petr Bob\'ak, Ladislav \v{C}mol\'ik, Martin \v{C}ad\'ik(参考訳) 近年、強化学習とディープラーニング技術が組み合わさって、ロボット工学、自動運転車、金融など、さまざまな分野の複雑な問題を解決することに成功した。 本稿では,ラベルの重なりを回避し,信頼性を確保するために,ラベルの最適な位置決めを求めるデータ可視化における複雑なタスクであるラベル配置に強化学習(rl)を導入する。 提案手法は,多エージェント深層強化学習を用いて,人間専門家が設計した既存の手作りアルゴリズムとは対照的に,最初の機械学習によるラベル付け手法であるラベル配置戦略を学習する。 RL学習を容易にするために,エージェントがラベルのプロキシとして機能する環境を開発した。 提案手法により訓練された戦略は,訓練されていないエージェントのランダムな戦略と,完全性(配置ラベル数)の観点から,人間の専門家が設計した比較手法とを著しく上回ることを示す。 このトレードオフは計算時間を増加させるため,提案手法は比較手法よりも遅くなる。 しかし,本手法は事前にラベル付けを計算できるシナリオに最適であり,地図地図,技術図面,医療アトラスなどの完全性は不可欠である。 また,性能評価のためのユーザ調査を行った。 その結果,提案手法は他の検査方法よりも有意に優れていると考えられた。 この結果から,完全性の向上は定量的指標だけでなく,主観的評価にも反映されることが示唆された。

Over the recent years, Reinforcement Learning combined with Deep Learning techniques has successfully proven to solve complex problems in various domains, including robotics, self-driving cars, and finance. In this paper, we are introducing Reinforcement Learning (RL) to label placement, a complex task in data visualization that seeks optimal positioning for labels to avoid overlap and ensure legibility. Our novel point-feature label placement method utilizes Multi-Agent Deep Reinforcement Learning to learn the label placement strategy, the first machine-learning-driven labeling method, in contrast to the existing hand-crafted algorithms designed by human experts. To facilitate RL learning, we developed an environment where an agent acts as a proxy for a label, a short textual annotation that augments visualization. Our results show that the strategy trained by our method significantly outperforms the random strategy of an untrained agent and the compared methods designed by human experts in terms of completeness (i.e., the number of placed labels). The trade-off is increased computation time, making the proposed method slower than the compared methods. Nevertheless, our method is ideal for scenarios where the labeling can be computed in advance, and completeness is essential, such as cartographic maps, technical drawings, and medical atlases. Additionally, we conducted a user study to assess the perceived performance. The outcomes revealed that the participants considered the proposed method to be significantly better than the other examined methods. This indicates that the improved completeness is not just reflected in the quantitative metrics but also in the subjective evaluation by the participants.
翻訳日:2023-09-20 00:40:13 公開日:2023-09-18
# SATは排他的検索を必要とする

SAT Requires Exhaustive Search ( http://arxiv.org/abs/2302.09512v7 )

ライセンス: Link先を確認
Ke Xu, Guangyan Zhou(参考訳) 本稿では, CSP (大域領域) と SAT (長節) の非常に難しい例を構築することにより, P $\neq$ NP よりも強い徹底的な探索がなければ,そのような例は解決できないことを証明した。 計算複雑性理論で現在使われているものとは全く異なる(そして欠落している)が、クルト・G・"{o}del が彼の有名な論理的不合理結果を証明する際に用いたものと似ている。 g\"{o}delの数学における形式的証明不可能性を証明するという結果が示すように、この論文の結果は計算の困難さを証明することは数学では難しくないことを示している。 具体的には, 3SAT のような多くの問題に対する下位境界の証明は, 徹底的な探索を避けるために, 様々な効果的な方法が考えられるため困難である。 しかし、非常に難しい例の場合、徹底的な検索が唯一の選択肢となり、その必要性を証明するのがより簡単になる。 これにより、SAT(長い節を持つ)と3-SATの分離は、3-SATと2-SATの分離よりもずっと簡単になる。 最後に,本論文の主な結果は,g\"{o}delの結果が示す構文と意味論の根本的な違いがcspとsatにも存在していることを示す。

In this paper, by constructing extremely hard examples of CSP (with large domains) and SAT (with long clauses), we prove that such examples cannot be solved without exhaustive search, which is stronger than P $\neq$ NP. This constructive approach for proving impossibility results is very different (and missing) from those currently used in computational complexity theory, but is similar to that used by Kurt G\"{o}del in proving his famous logical impossibility results. Just as shown by G\"{o}del's results that proving formal unprovability is feasible in mathematics, the results of this paper show that proving computational hardness is not hard in mathematics. Specifically, proving lower bounds for many problems, such as 3-SAT, can be challenging because these problems have various effective strategies available for avoiding exhaustive search. However, in cases of extremely hard examples, exhaustive search may be the only viable option, and proving its necessity becomes more straightforward. Consequently, it makes the separation between SAT (with long clauses) and 3-SAT much easier than that between 3-SAT and 2-SAT. Finally, the main results of this paper demonstrate that the fundamental difference between the syntax and the semantics revealed by G\"{o}del's results also exists in CSP and SAT.
翻訳日:2023-09-20 00:38:55 公開日:2023-09-18
# 量子ステアリングを超える絡み合いのシミュレーション

Simulating Entanglement beyond Quantum Steering ( http://arxiv.org/abs/2302.09060v2 )

ライセンス: Link先を確認
Yujie Zhang, Jiaxuan Zhang, Eric Chitambar(参考訳) 量子エンタングルメントは非常に非古典的特徴であるが、特定のエンタングル状態は量子ステアリングの非局所的効果は実現できない。 本研究では,そのような状態の資源を,その動的挙動をシミュレートするためにどの程度の共有ランダム性が必要かという観点から定量化する。 2ビットの非定常状態であっても、共有ランダム性コストが非有界であることを示す。 さらに、絡み合った状態のシミュレーションコストは、どの分離可能な状態よりも常に大きい。 本研究は, ステアリングと計測の不整合の等価性を利用し, バナッハ空間理論のゾノトペ近似問題とを両立させる。

While quantum entanglement is a highly non-classical feature, certain entangled states cannot realize the nonlocal effect of quantum steering. In this work, we quantify the resource content of such states in terms of how much shared randomness is needed to simulate their dynamical behavior. We rigorously show that the shared randomness cost is unbounded even for some two-qubit unsteerable states. Moreover, the simulation cost for entangled states is always strictly greater than that of any separable state. Our work utilizes the equivalence between steering and measurement incompatibility, and it connects both to the zonotope approximation problem of Banach space theory.
翻訳日:2023-09-20 00:38:31 公開日:2023-09-18
# Pre-RadGraphFormer:X線から放射線グラフを生成するための事前知識強化変換器

Prior-RadGraphFormer: A Prior-Knowledge-Enhanced Transformer for Generating Radiology Graphs from X-Rays ( http://arxiv.org/abs/2303.13818v3 )

ライセンス: Link先を確認
Yiheng Xiong, Jingsong Liu, Kamilia Zaripova, Sahand Sharifzadeh, Matthias Keicher, Nassir Navab(参考訳) ラジオグラフィーグラフを用いた自由テキストX線写真からの構造化された臨床情報の抽出は, レポートジェネレーション法の臨床正当性を評価する上で有用であることが示されている。 しかし胸部X線像(CXR)からの放射線線図の直接生成は試みられていない。 このギャップに対処するために,確率的知識グラフ(PKG)の形で事前知識を持つトランスフォーマーモデルを用いて,CXR画像から直接ラジオロジーグラフを生成する,Preside-RadGraphFormerという新しい手法を提案する。 PKGは、解剖学的構造や医学的観察を含む放射線学の実体間の統計的関係をモデル化する。 この追加の文脈情報は、エンティティと関係抽出の精度を高める。 生成されたラジオロジーグラフは、自由テキストや構造化レポートの生成や病理の多ラベル分類など、様々な下流タスクに適用することができる。 提案手法は,CXR画像から直接ラジオグラフィーグラフを生成するための有望な手法であり,医用画像解析や臨床診断に有意な可能性を秘めている。

The extraction of structured clinical information from free-text radiology reports in the form of radiology graphs has been demonstrated to be a valuable approach for evaluating the clinical correctness of report-generation methods. However, the direct generation of radiology graphs from chest X-ray (CXR) images has not been attempted. To address this gap, we propose a novel approach called Prior-RadGraphFormer that utilizes a transformer model with prior knowledge in the form of a probabilistic knowledge graph (PKG) to generate radiology graphs directly from CXR images. The PKG models the statistical relationship between radiology entities, including anatomical structures and medical observations. This additional contextual information enhances the accuracy of entity and relation extraction. The generated radiology graphs can be applied to various downstream tasks, such as free-text or structured reports generation and multi-label classification of pathologies. Our approach represents a promising method for generating radiology graphs directly from CXR images, and has significant potential for improving medical image analysis and clinical decision-making.
翻訳日:2023-09-20 00:29:51 公開日:2023-09-18
# 物理インフォームドポイントネット:不規則な幾何の測地を同時に解くことができるか? 線形弾性への応用

Physics-informed PointNet: On how many irregular geometries can it solve an inverse problem simultaneously? Application to linear elasticity ( http://arxiv.org/abs/2303.13634v3 )

ライセンス: Link先を確認
Ali Kashefi, Leonidas J. Guibas, Tapan Mukerji(参考訳) 正規物理情報ニューラルネットワーク(PINN)はスパースラベル付きデータを用いた偏微分方程式の解を1つの領域で予測する。 一方、完全に教師付き学習モデルは通常、既知のソリューション(ラベル付きデータ)を持つ数千以上のドメインで訓練され、数百の未知のドメインでそのソリューションを予測する。 物理インフォームドポイントネット(PIPN)は、PINN(弱教師付き学習モデル)と完全教師付き学習モデルの間のギャップを埋めるように設計されている。 本稿では、PIPNが数百の領域に対して所望の偏微分方程式の解を同時に予測し、スパースラベル付きデータのみを使用することを示した。 このフレームワークは、ラベル付きデータしか利用できない業界で高速な幾何学的設計の恩恵を受ける。 特に, pipnは, 異なる地形を持つ500以上の領域において, 平面応力問題の解を同時に予測することを示した。 さらに,顕著なバッチサイズの概念(すなわち,各サブエポックで pipn に供給されるジオメトリの数)を pipn に実装する先駆者でもある。 具体的には,7,14,19,38,76,133のバッチサイズを試す。 さらに、損失関数におけるスパースラベルデータの構成成分に対するPIPNサイズ、PIPNアーキテクチャにおける対称関数、および静的および動的重みの影響について検討した。

Regular physics-informed neural networks (PINNs) predict the solution of partial differential equations using sparse labeled data but only over a single domain. On the other hand, fully supervised learning models are first trained usually over a few thousand domains with known solutions (i.e., labeled data) and then predict the solution over a few hundred unseen domains. Physics-informed PointNet (PIPN) is primarily designed to fill this gap between PINNs (as weakly supervised learning models) and fully supervised learning models. In this article, we demonstrate that PIPN predicts the solution of desired partial differential equations over a few hundred domains simultaneously, while it only uses sparse labeled data. This framework benefits fast geometric designs in the industry when only sparse labeled data are available. Particularly, we show that PIPN predicts the solution of a plane stress problem over more than 500 domains with different geometries, simultaneously. Moreover, we pioneer implementing the concept of remarkable batch size (i.e., the number of geometries fed into PIPN at each sub-epoch) into PIPN. Specifically, we try batch sizes of 7, 14, 19, 38, 76, and 133. Additionally, the effect of the PIPN size, symmetric function in the PIPN architecture, and static and dynamic weights for the component of the sparse labeled data in the loss function are investigated.
翻訳日:2023-09-20 00:29:31 公開日:2023-09-18
# 幾何学的領域シフト下における手術用ハイパースペクトル画像の意味セグメンテーション

Semantic segmentation of surgical hyperspectral images under geometric domain shifts ( http://arxiv.org/abs/2303.10972v2 )

ライセンス: Link先を確認
Jan Sellner and Silvia Seidlitz, Alexander Studier-Fischer, Alessandro Motta, Berkin \"Ozdemir, Beat Peter M\"uller-Stich, Felix Nickel, Lena Maier-Hein(参考訳) 術中画像データのロバストなセマンティックセグメンテーションは、自動手術シーン理解と自律ロボット手術の道を開く可能性がある。 幾何学的領域シフトは、外科手術や坐骨閉塞のばらつきによる現実世界の手術では一般的であるが、この分野では未適応である。 このギャップに対処するために,本論文では,幾何学的アウト・オブ・ディストリビューション(ood)データの存在下で,最先端(soa)セマンティクスセグメンテーションネットワークを初めて解析し,(2)一般コンピュータビジョンコミュニティから適応した「オルガン移植」と呼ばれる専用増補技術を用いて一般化可能性を検討する。 意味的アノテーションを付した33頭のブタの600 RGBおよびハイパースペクトルイメージング(HSI)立方体からなる6種類のOODデータセットに対する総合的検証の結果, 幾何学的OODデータに適用したSOA臓器セグメントネットワークの性能低下を実証した。 驚くべきことに、これは従来のRGBデータ(Dice類似度係数(DSC)の46%)だけでなく、HSIデータ(45%)にも当てはまる。 我々の拡張スキームを使用することで、SOA DSCの最大67%(RGB)と90%(HSI)の改善が可能になり、実際のOODテストデータ上での分配内パフォーマンスと同等のパフォーマンスをレンダリングします。 本手法の単純さと有効性は,術中データのセマンティックシーンセグメンテーションにおける幾何学的領域シフトに対処するための,ネットワークに依存しない貴重なツールとなる。 私たちのコードと事前トレーニングされたモデルは、https://github.com/imsy-dkfz/htc.comから入手できます。

Robust semantic segmentation of intraoperative image data could pave the way for automatic surgical scene understanding and autonomous robotic surgery. Geometric domain shifts, however, although common in real-world open surgeries due to variations in surgical procedures or situs occlusions, remain a topic largely unaddressed in the field. To address this gap in the literature, we (1) present the first analysis of state-of-the-art (SOA) semantic segmentation networks in the presence of geometric out-of-distribution (OOD) data, and (2) address generalizability with a dedicated augmentation technique termed "Organ Transplantation" that we adapted from the general computer vision community. According to a comprehensive validation on six different OOD data sets comprising 600 RGB and hyperspectral imaging (HSI) cubes from 33 pigs semantically annotated with 19 classes, we demonstrate a large performance drop of SOA organ segmentation networks applied to geometric OOD data. Surprisingly, this holds true not only for conventional RGB data (drop of Dice similarity coefficient (DSC) by 46 %) but also for HSI data (drop by 45 %), despite the latter's rich information content per pixel. Using our augmentation scheme improves on the SOA DSC by up to 67 % (RGB) and 90 % (HSI) and renders performance on par with in-distribution performance on real OOD test data. The simplicity and effectiveness of our augmentation scheme makes it a valuable network-independent tool for addressing geometric domain shifts in semantic scene segmentation of intraoperative data. Our code and pre-trained models are available at https://github.com/IMSY-DKFZ/htc.
翻訳日:2023-09-20 00:29:06 公開日:2023-09-18
# 二層グラフェン二重量子ドットにおけるコヒーレント電荷振動

Coherent Charge Oscillations in a Bilayer Graphene Double Quantum Dot ( http://arxiv.org/abs/2303.10119v2 )

ライセンス: Link先を確認
Katrin Hecker, Luca Banszerus, Aaron Sch\"apers, Samuel M\"oller, Anton Peters, Eike Icking, Kenji Watanabe, Takashi Taniguchi, Christian Volk, Christoph Stampfer(参考訳) 2つのエネルギーレベルの反交差を通過する量子力学的2レベル系のコヒーレントダイナミクスは、ランダウ・ツェナー・シュタックルベルク・マヨラナ(LZSM)干渉を引き起こす。 LZSM干渉分光法は、半導体量子ドット(QD)における電荷ノイズと電荷デコヒーレンスを研究するための実りあるツールであることが証明されている。 近年、二層グラフェンは、スピンおよびバレーキュービットのホスティングに有用な、高度に調整可能なqdsをホストするための有望なプラットフォームとして開発されている。 これまでのところ、この系ではコヒーレント振動は観測されておらず、荷電ノイズについてはほとんど知られていない。 ここでは、2層グラフェン二重QDにおけるコヒーレント電荷振動と$T_2^*$電荷デコヒーレンス時間を報告する。 lzsm干渉と光子補助トンネルを用いて電荷非干渉時間を独立に測定する。 どちらの手法も400から500~psの範囲で平均値$t_2^*$を得る。 電荷コヒーレンス観測は、将来の実験における電荷ノイズの起源とスペクトル分布の研究を可能にする。

The coherent dynamics of a quantum mechanical two-level system passing through an anti-crossing of two energy levels can give rise to Landau-Zener-St\"uckelberg-Majorana (LZSM) interference. LZSM interference spectroscopy has proven to be a fruitful tool to investigate charge noise and charge decoherence in semiconductor quantum dots (QDs). Recently, bilayer graphene has developed as a promising platform to host highly tunable QDs potentially useful for hosting spin and valley qubits. So far, in this system no coherent oscillations have been observed and little is known about charge noise in this material. Here, we report coherent charge oscillations and $T_2^*$ charge decoherence times in a bilayer graphene double QD. The charge decoherence times are measured independently using LZSM interference and photon assisted tunneling. Both techniques yield $T_2^*$ average values in the range of 400 to 500~ps. The observation of charge coherence allows to study the origin and spectral distribution of charge noise in future experiments.
翻訳日:2023-09-20 00:28:28 公開日:2023-09-18
# 分散シフトを伴う財務時間表表データセットの深層学習モデル

Deep incremental learning models for financial temporal tabular datasets with distribution shifts ( http://arxiv.org/abs/2303.07925v9 )

ライセンス: Link先を確認
Thomas Wong, Mauricio Barahona(参考訳) 金融データセットに典型的な分布シフトに対応するために,一般利用可能な表型および時系列予測モデルの漸進的利用に基づく,金融時間表型データセットの回帰タスクのための強固な深層学習フレームワークを提案する。 このフレームワークは、単純な基本的なビルディングブロック(決定木)を使用して、必要な複雑さの自己相似モデルを構築し、レジームの変化、ファットテール分布、低信号対ノイズ比などの悪い状況下で堅牢なパフォーマンスを提供する。 本研究では,Numeraiデータセットを用いて学習したXGBoostモデルを用いて,異なるモデルスナップショット上のXGBoostモデルの2層深層アンサンブルが,異なる市場状況下で高品質な予測を提供することを示す。 また, 3つのシナリオ(小, 標準, 大規模)において, ブーイングラウンド数が異なるXGBoostモデルの性能は, モデルサイズに対して単調に増加し, 一般化上限に向かって収束することを示した。 また,モデル複雑性やデータサンプリング設定など,異なるハイパーパラメータの可変性の下でモデルのロバスト性を評価する。 我々のモデルは、特別なニューラルネットワークを使用しず、それぞれのベースモデルを独立して並列にトレーニングできるため、ハードウェア要件が低い。

We present a robust deep incremental learning framework for regression tasks on financial temporal tabular datasets which is built upon the incremental use of commonly available tabular and time series prediction models to adapt to distributional shifts typical of financial datasets. The framework uses a simple basic building block (decision trees) to build self-similar models of any required complexity to deliver robust performance under adverse situations such as regime changes, fat-tailed distributions, and low signal-to-noise ratios. As a detailed study, we demonstrate our scheme using XGBoost models trained on the Numerai dataset and show that a two layer deep ensemble of XGBoost models over different model snapshots delivers high quality predictions under different market regimes. We also show that the performance of XGBoost models with different number of boosting rounds in three scenarios (small, standard and large) is monotonically increasing with respect to model size and converges towards the generalisation upper bound. We also evaluate the robustness of the model under variability of different hyperparameters, such as model complexity and data sampling settings. Our model has low hardware requirements as no specialised neural architectures are used and each base model can be independently trained in parallel.
翻訳日:2023-09-20 00:28:12 公開日:2023-09-18
# 確率的拡散モデルのための一般化スケール空間特性

Generalised Scale-Space Properties for Probabilistic Diffusion Models ( http://arxiv.org/abs/2303.07900v4 )

ライセンス: Link先を確認
Pascal Peter(参考訳) 確率的拡散モデルは、ディープラーニングコミュニティで人気が高まっている。 応用分野の広い入力画像の学習分布から説得力のあるサンプルを生成する。 もともとこれらのアプローチはドリフト拡散過程から動機づけられていたが、これらの起源は近年の実践指向の出版物ではあまり注目されなかった。 確率的拡散モデルについて, スケール空間研究の観点から検討し, 進化する確率分布のスケール空間特性を一般化した。 さらに,深層学習とモデルに基づく世界におけるドリフト拡散の物理コア概念の解釈の類似性と相違について論じる。 そこで本研究では,オサムシスフィルタと確率拡散の関係について検討する。

Probabilistic diffusion models enjoy increasing popularity in the deep learning community. They generate convincing samples from a learned distribution of input images with a wide field of practical applications. Originally, these approaches were motivated from drift-diffusion processes, but these origins find less attention in recent, practice-oriented publications. We investigate probabilistic diffusion models from the viewpoint of scale-space research and show that they fulfil generalised scale-space properties on evolving probability distributions. Moreover, we discuss similarities and differences between interpretations of the physical core concept of drift-diffusion in the deep learning and model-based world. To this end, we examine relations of probabilistic diffusion to osmosis filters.
翻訳日:2023-09-20 00:27:49 公開日:2023-09-18
# RE-MOVE:言語に基づくフィードバックによる動的環境におけるロボットナビゲーションタスクの適応的ポリシー設計

RE-MOVE: An Adaptive Policy Design for Robotic Navigation Tasks in Dynamic Environments via Language-Based Feedback ( http://arxiv.org/abs/2303.07622v2 )

ライセンス: Link先を確認
Souradip Chakraborty, Kasun Weerakoon, Prithvi Poddar, Mohamed Elnoor, Priya Narayanan, Carl Busart, Pratap Tokekar, Amrit Singh Bedi, and Dinesh Manocha(参考訳) 継続的制御ロボットナビゲーションタスクのための強化学習ベースのポリシーは、リアルタイムデプロイメント中に環境の変化に適応できないことが多く、破滅的な失敗をもたらす可能性がある。 この制限に対処するために,すでに訓練済みのポリシーを,言語ベースのフィードバックを活用して再トレーニングすることなく,環境のリアルタイムな変更に適応させるための,re-move(request help and move on)と呼ばれる新しいアプローチを提案する。 提案手法は,(1)フィードバックをいつ求めるか,(2)フィードバックをトレーニングされたポリシに組み込むかという,2つの大きな課題に本質的に対処できる。 RE-MOVEは、エピステマティックな不確実性に基づくフレームワークを組み込んで、指示に基づくフィードバックをリクエストする最適な時間を決定する。 第2の課題として,効率的な高速設計と最先端gpt-3.5,llama-2言語モデルを活用したゼロショット学習自然言語処理(nlp)パラダイムを採用している。 提案手法の有効性を示すために,いくつかのテスト時動的ナビゲーションシナリオにおいて,多種多様な合成および実世界評価を行った。 再移動を利用することで、成功した目標達成率を最大80%まで向上させ、また正規化された軌道長を13.50%削減できる。

Reinforcement learning-based policies for continuous control robotic navigation tasks often fail to adapt to changes in the environment during real-time deployment, which may result in catastrophic failures. To address this limitation, we propose a novel approach called RE-MOVE (REquest help and MOVE on) to adapt already trained policy to real-time changes in the environment without re-training via utilizing a language-based feedback. The proposed approach essentially boils down to addressing two main challenges of (1) when to ask for feedback and, if received, (2) how to incorporate feedback into trained policies. RE-MOVE incorporates an epistemic uncertainty-based framework to determine the optimal time to request instructions-based feedback. For the second challenge, we employ a zero-shot learning natural language processing (NLP) paradigm with efficient, prompt design and leverage state-of-the-art GPT-3.5, Llama-2 language models. To show the efficacy of the proposed approach, we performed extensive synthetic and real-world evaluations in several test-time dynamic navigation scenarios. Utilizing RE-MOVE result in up to 80% enhancement in the attainment of successful goals, coupled with a reduction of 13.50% in the normalized trajectory length, as compared to alternative approaches, particularly in demanding real-world environments with perceptual challenges.
翻訳日:2023-09-20 00:27:39 公開日:2023-09-18
# ウィスコンシン公立学校における社会予測の難しさ

Difficult Lessons on Social Prediction from Wisconsin Public Schools ( http://arxiv.org/abs/2304.06205v2 )

ライセンス: Link先を確認
Juan C. Perdomo and Tolani Britton and Moritz Hardt and Rediet Abebe(参考訳) 早期警戒システム(EWS)は、全米の公立学校での卒業率向上に向けた最近の取り組みの中心にある予測ツールである。 これらのシステムは、学生が退学するリスクがあるかを予測することで、個々の学生への介入を標的にすることを支援する。 広く採用されているにもかかわらず、EWSの有効性の理解と教育における統計的リスクスコアの役割には大きなギャップが残っている。 本研究では、ウィスコンシン州全体で使用されているシステムから10年近く分のデータを抽出し、EWSの長期的影響が卒業結果に与える影響を初めて大規模に評価する。 予測システムが学生の脱落リスクによって正確に分類できることを実証的に示す。 また, 卒業率を1桁増やした可能性も示唆したが, 実証分析の結果, 肯定的な治療効果が認められていないことは確実に否定できない。 edwのふりかえり評価を超えて、私たちはewsの使用の核心にある中心的な疑問に注意を向ける: 介入を効果的にターゲットするために、個々のリスクスコアは必要か? 我々は,生徒の学校や学区などの環境に関する情報のみを利用する簡単なメカニズムを提案し,このメカニズムは個々のリスクスコアに基づくメカニズムと同じくらい効率的に介入を目標とすることができると主張する。 個々の予測が極めて正確で効果的な介入が存在するとしても、議論は継続する。 この単純なターゲティングメカニズムの動機付けに加えて、我々の研究は、ドロップアウトが構造的に決定されるという教育研究者の間で、堅牢な質的理解のための新しい実証的なバックボーンを提供する。 我々の洞察は、結果が高レベルの不平等によって駆動される設定において、個々の予測の限界値に疑問を投げかける。

Early warning systems (EWS) are predictive tools at the center of recent efforts to improve graduation rates in public schools across the United States. These systems assist in targeting interventions to individual students by predicting which students are at risk of dropping out. Despite significant investments in their widespread adoption, there remain large gaps in our understanding of the efficacy of EWS, and the role of statistical risk scores in education. In this work, we draw on nearly a decade's worth of data from a system used throughout Wisconsin to provide the first large-scale evaluation of the long-term impact of EWS on graduation outcomes. We present empirical evidence that the prediction system accurately sorts students by their dropout risk. We also find that it may have caused a single-digit percentage increase in graduation rates, though our empirical analyses cannot reliably rule out that there has been no positive treatment effect. Going beyond a retrospective evaluation of DEWS, we draw attention to a central question at the heart of the use of EWS: Are individual risk scores necessary for effectively targeting interventions? We propose a simple mechanism that only uses information about students' environments -- such as their schools, and districts -- and argue that this mechanism can target interventions just as efficiently as the individual risk score-based mechanism. Our argument holds even if individual predictions are highly accurate and effective interventions exist. In addition to motivating this simple targeting mechanism, our work provides a novel empirical backbone for the robust qualitative understanding among education researchers that dropout is structurally determined. Combined, our insights call into question the marginal value of individual predictions in settings where outcomes are driven by high levels of inequality.
翻訳日:2023-09-20 00:21:50 公開日:2023-09-18
# フロケット工学による非線形性と制御可能なペアホッピング過程:光学カーキャビティから相関量子物質へ

Floquet-engineered nonlinearities and controllable pair-hopping processes: From optical Kerr cavities to correlated quantum matter ( http://arxiv.org/abs/2304.05865v2 )

ライセンス: Link先を確認
Nathan Goldman, Oriana K. Diessel, Luca Barbiero, Maximilian Pr\"ufer, Marco Di Liberto and Lucila Peralta Gavensky(参考訳) この研究は、非線形シュリンガー方程式(英語版)(NLSE)によって記述された幅広い種類のシステムにおいて、周期駆動による非伝統的な非線形性の生成と制御の可能性を探る。 親量子多体記述を用いて、そのような駆動系は、創発的非線形性を持つ実効的なNLSEによって十分に捕捉され、駆動シーケンスをチューニングすることで微調整できることを示す。 まず、光学的ケーラー空洞、導波路、ボース=アインシュタイン凝縮物に関連する2モード非線形系の一般的なクラスを考える。 この駆動誘起非線形性のチューニングは、相対的な個体数と位相測定によって検出できる位相空間トポロジーを変更することが示されている。 次に、非慣習非線形性と制御可能なペアホッピング過程を持つ拡張格子モデルを設計するために、個々の(2モード)ディマーを結合する。 この一般的な二量化構造に従い、時間反転対称性の自発的破断を通じて、基底状態が軌道次数、カイラル電流、創発的磁束を示す駆動誘起相互作用を持つ有効格子モデルを得る。 これらの興味深い性質は、弱い相互作用(平均場)状態、効果的なnlse状態、強相関量子状態の両方で解析する。 一般的なアプローチは、フォトニックデバイスにおける非典型的な光学非線形性と超低温量子物質における制御可能な駆動誘起相互作用のエンジニアリングの道を開く。

This work explores the possibility of creating and controlling unconventional nonlinearities by periodic driving, in a broad class of systems described by the nonlinear Schr\"odinger equation (NLSE). By means of a parent quantum many-body description, we demonstrate that such driven systems are well captured by an effective NLSE with emergent nonlinearities, which can be finely controlled by tuning the driving sequence. We first consider a general class of two-mode nonlinear systems - relevant to optical Kerr cavities, waveguides and Bose-Einstein condensates - where we find an emergent four-wave mixing nonlinearity, which originates from pair-hopping processes in the parent quantum picture. Tuning this drive-induced nonlinearity is shown to modify the phase-space topology, which can be detected through relative population and phase measurements. We then couple individual (two-mode) dimers in view of designing extended lattice models with unconventional nonlinearities and controllable pair-hopping processes. Following this general dimerization construction, we obtain an effective lattice model with drive-induced interactions, whose ground-state exhibits orbital order, chiral currents and emergent magnetic fluxes through the spontaneous breaking of time-reversal symmetry. We analyze these intriguing properties both in the weakly-interacting (mean-field) regime, captured by the effective NLSE, and in the strongly-correlated quantum regime. Our general approach opens a route for the engineering of unconventional optical nonlinearities in photonic devices and controllable drive-induced interactions in ultracold quantum matter.
翻訳日:2023-09-20 00:20:42 公開日:2023-09-18
# これが私が言ったこと:完全に調整可能な顔生成システム

That's What I Said: Fully-Controllable Talking Face Generation ( http://arxiv.org/abs/2304.03275v2 )

ライセンス: Link先を確認
Youngjoon Jang, Kyeongha Rho, Jong-Bin Woo, Hyeongkeun Lee, Jihwan Park, Youshin Lim, Byeong-Yeol Kim, Joon Son Chung(参考訳) 本研究の目的は, 顔の動きを制御可能な発話表情を合成することである。 この目標を達成するために、我々は2つの重要なアイデアを提案する。 1つ目は、すべての顔が同じ動きパターンを持つが異なる同一性を持つ標準空間を確立することである。 2つ目は、アイデンティティ情報を排除しながら、動きに関連する特徴のみを表現するマルチモーダルモーション空間をナビゲートすることである。 同一性と運動を両立させるため、2つの異なる潜在空間間の直交制約を導入する。 そこで本手法では, 顔の属性を完全に制御し, 正確な唇の同期を行うことができる。 広汎な実験により,視覚的品質とリップシンクスコアの両面から最先端の結果が得られた。 我々の知る限りでは、音声付きRGBビデオ以外の追加の監督なしに、唇、頭ポーズ、眼球運動を含む完全な顔の動きを正確に表現できる話し顔生成フレームワークを最初に開発した。

The goal of this paper is to synthesise talking faces with controllable facial motions. To achieve this goal, we propose two key ideas. The first is to establish a canonical space where every face has the same motion patterns but different identities. The second is to navigate a multimodal motion space that only represents motion-related features while eliminating identity information. To disentangle identity and motion, we introduce an orthogonality constraint between the two different latent spaces. From this, our method can generate natural-looking talking faces with fully controllable facial attributes and accurate lip synchronisation. Extensive experiments demonstrate that our method achieves state-of-the-art results in terms of both visual quality and lip-sync score. To the best of our knowledge, we are the first to develop a talking face generation framework that can accurately manifest full target facial motions including lip, head pose, and eye movements in the generated video without any additional supervision beyond RGB video with audio.
翻訳日:2023-09-20 00:19:33 公開日:2023-09-18
# 参照自由テキスト品質評価における大規模言語モデルの利用に関する実証的研究

Exploring the Use of Large Language Models for Reference-Free Text Quality Evaluation: An Empirical Study ( http://arxiv.org/abs/2304.00723v3 )

ライセンス: Link先を確認
Yi Chen, Rui Wang, Haiyun Jiang, Shuming Shi, Ruifeng Xu(参考訳) 生成したテキストの品質を評価することは、本質的な複雑さと多様性のため、NLPでは難しい作業である。 近年,大きな言語モデル (LLM) が注目されている。 そこで本研究では,LLM,特にChatGPTの有効性について検討し,テキスト品質評価におけるそれらの利用方法を検討する。 基準フリー評価法を3種類比較した。 実験の結果,ChatGPTは様々な視点からテキスト品質を効果的に評価でき,既存の自動メトリクスよりも優れた性能を示すことがわかった。 特に,ChatGPTを用いてテキスト品質を計測する数値スコアを生成するExplicit Scoreは,この3つの手法の中で最も効果的で信頼性の高い手法である。 しかし、2つのテキストの品質を直接比較すると、最適でない結果につながる可能性がある。 本論文は,LLMを用いてテキスト品質を評価する上で貴重な知見を提供し,使用済みデータを公開した。

Evaluating the quality of generated text is a challenging task in NLP, due to the inherent complexity and diversity of text. Recently, large language models (LLMs) have garnered significant attention due to their impressive performance in various tasks. Therefore, we present this paper to investigate the effectiveness of LLMs, especially ChatGPT, and explore ways to optimize their use in assessing text quality. We compared three kinds of reference-free evaluation methods. The experimental results prove that ChatGPT is capable of evaluating text quality effectively from various perspectives without reference and demonstrates superior performance than most existing automatic metrics. In particular, the Explicit Score, which utilizes ChatGPT to generate a numeric score measuring text quality, is the most effective and reliable method among the three exploited approaches. However, directly comparing the quality of two texts may lead to suboptimal results. We believe this paper will provide valuable insights for evaluating text quality with LLMs and have released the used data.
翻訳日:2023-09-20 00:18:53 公開日:2023-09-18
# 伝達学習能力による知識蒸留の改善

Improving Knowledge Distillation via Transferring Learning Ability ( http://arxiv.org/abs/2304.11923v2 )

ライセンス: Link先を確認
Long Liu, Tong Li, Hui Cheng(参考訳) 既存の知識蒸留法では、一般的に、生徒ネットワークが訓練された教師からのみ学習する教師・生徒のアプローチを用いる。 しかし,本手法は,教師と生徒のネットワーク間の学習能力に固有の違いを見落とし,能力ギャップの問題を引き起こす。 この制限に対処するため,SLKDと呼ばれる新しい手法を提案する。

Existing knowledge distillation methods generally use a teacher-student approach, where the student network solely learns from a well-trained teacher. However, this approach overlooks the inherent differences in learning abilities between the teacher and student networks, thus causing the capacity-gap problem. To address this limitation, we propose a novel method called SLKD.
翻訳日:2023-09-20 00:10:57 公開日:2023-09-18
# リアルタイムアンチエイリアシングニューラルレンダリングのためのマルチスケール表現

Multiscale Representation for Real-Time Anti-Aliasing Neural Rendering ( http://arxiv.org/abs/2304.10075v2 )

ライセンス: Link先を確認
Dongting Hu, Zhenkai Zhang, Tingbo Hou, Tongliang Liu, Huan Fu and Mingming Gong(参考訳) ニューラルレイディアンスフィールド(NeRF)のレンダリングスキームは、シーンにレイを投入することによりピクセルのレンダリングに有効である。 しかし、nerfはトレーニング画像が一様でないスケールでキャプチャされるとぼやけたレンダリング結果をもたらし、テスト画像が遠くの視点で撮影された場合、エイリアシングアーティファクトを生成する。 この問題に対処するため、Mip-NeRFはスケール情報をエンコードする円錐フラストラムとしてマルチスケール表現を提案する。 それでもこのアプローチは、多層パーセプトロン(MLP)のクエリにIPE(Integrated positional encoding)に依存するため、オフラインレンダリングにのみ適している。 この制限を克服するために、リアルタイムアンチエイリアシングレンダリングのための遅延アーキテクチャを備えた明示的なマルチスケール表現であるmip voxel grids (mip-vog)を提案する。 我々のアプローチには、シーン幾何学のための密度 Mip-VoG と、ビュー依存色のための小さな MLP を備えた特徴 Mip-VoG が含まれる。 mip-vogは、レイディファレンシャルから派生したディテールレベル(lod)を使用してシーンスケールをエンコードし、クエリされた3d位置をその特徴と隣接する2つのボクセルグリッドから密度にマッピングする。 私たちの知る限り、私たちのアプローチは、マルチスケールトレーニングとリアルタイムのアンチエイリアスレンダリングを同時に提供する最初の方法です。 マルチスケールデータセットの実験を行い、その結果、我々のアプローチは最先端のリアルタイムレンダリングベースラインよりも優れていることが示された。

The rendering scheme in neural radiance field (NeRF) is effective in rendering a pixel by casting a ray into the scene. However, NeRF yields blurred rendering results when the training images are captured at non-uniform scales, and produces aliasing artifacts if the test images are taken in distant views. To address this issue, Mip-NeRF proposes a multiscale representation as a conical frustum to encode scale information. Nevertheless, this approach is only suitable for offline rendering since it relies on integrated positional encoding (IPE) to query a multilayer perceptron (MLP). To overcome this limitation, we propose mip voxel grids (Mip-VoG), an explicit multiscale representation with a deferred architecture for real-time anti-aliasing rendering. Our approach includes a density Mip-VoG for scene geometry and a feature Mip-VoG with a small MLP for view-dependent color. Mip-VoG encodes scene scale using the level of detail (LOD) derived from ray differentials and uses quadrilinear interpolation to map a queried 3D location to its features and density from two neighboring downsampled voxel grids. To our knowledge, our approach is the first to offer multiscale training and real-time anti-aliasing rendering simultaneously. We conducted experiments on multiscale datasets, and the results show that our approach outperforms state-of-the-art real-time rendering baselines.
翻訳日:2023-09-20 00:10:31 公開日:2023-09-18
# 条件付きパラメータ付き回路による量子モンテカルロ積分の量子アーキテクチャ探索とファイナンスへの応用

Quantum Architecture Search for Quantum Monte Carlo Integration via Conditional Parameterized Circuits with Application to Finance ( http://arxiv.org/abs/2304.08793v2 )

ライセンス: Link先を確認
Mark-Oliver Wolf, Tom Ewen, Ivica Turkalj(参考訳) 古典的モンテカルロアルゴリズムは、振幅推定(AE)を用いて理論的に量子コンピュータ上にスピンアップすることができる。 これを実現するためには、状態依存関数の効率的な実装が不可欠である。 パラメータ化量子回路の事前学習に基づく簡易な手法を開発し,条件付き変種への変換方法を示し,aeアルゴリズムのサブルーチンとして利用できることを示す。 適切な回路を同定するために,可変 ansatzes とデータエンコーディングを組み合わせた遺伝的最適化手法を提案する。 金融デリバティブの価格設定問題にアルゴリズムを適用した。 コストのかかる事前学習過程を犠牲にして、既存の量子アルゴリズムよりも効率的にデリバティブのペイオフ関数を実装する量子回路が得られる。 特に、ヨーロッパのバニラとバスケットの選択肢のパフォーマンスを比較します。

Classical Monte Carlo algorithms can theoretically be sped up on a quantum computer by employing amplitude estimation (AE). To realize this, an efficient implementation of state-dependent functions is crucial. We develop a straightforward approach based on pretraining parameterized quantum circuits, and show how they can be transformed into their conditional variant, making them usable as a subroutine in an AE algorithm. To identify a suitable circuit, we propose a genetic optimization approach that combines variable ansatzes and data encoding. We apply our algorithm to the problem of pricing financial derivatives. At the expense of a costly pretraining process, this results in a quantum circuit implementing the derivatives' payoff function more efficiently than previously existing quantum algorithms. In particular, we compare the performance for European vanilla and basket options.
翻訳日:2023-09-20 00:09:14 公開日:2023-09-18
# 視覚クラスタリングの公平性:新しいトランスフォーマークラスタリングアプローチ

Fairness in Visual Clustering: A Novel Transformer Clustering Approach ( http://arxiv.org/abs/2304.07408v2 )

ライセンス: Link先を確認
Xuan-Bac Nguyen, Chi Nhan Duong, Marios Savvides, Kaushik Roy, Hugh Churchill, Khoa Luu(参考訳) 階層バイアスを減らすために教師なしのクラスタリング設定でディープクラスタリングモデルの公平性を促進することは、難しい目標である。 これは、機密性や保護された属性に対して、十分な注釈付きラベルを持つ大規模なバランスデータに制限があるためである。 本稿では,クラスタ内の正のサンプルの比率と相関度で測定したクラスタ純度の観点から,ディープクラスタリングモデルにおける人口統計バイアスをまず評価する。 この測定は人口バイアスの指標として採用されている。 そして、学習したクラスタリングモデルの公平性を維持するために、すべてのクラスタの純度一貫性を促進するために、新たな損失関数を導入する。 さらに,複数クラスタ間の相関を計測し,遠方正のサンプルを強化し,学習過程におけるクラスタの純度を向上させる,新たな注意機構であるクロスアテンションを提案する。 多数の属性設定を持つ大規模データセットの実験結果から,クラスタリング精度と,複数の属性に対する公平性向上に対する提案手法の有効性が示された。

Promoting fairness for deep clustering models in unsupervised clustering settings to reduce demographic bias is a challenging goal. This is because of the limitation of large-scale balanced data with well-annotated labels for sensitive or protected attributes. In this paper, we first evaluate demographic bias in deep clustering models from the perspective of cluster purity, which is measured by the ratio of positive samples within a cluster to their correlation degree. This measurement is adopted as an indication of demographic bias. Then, a novel loss function is introduced to encourage a purity consistency for all clusters to maintain the fairness aspect of the learned clustering model. Moreover, we present a novel attention mechanism, Cross-attention, to measure correlations between multiple clusters, strengthening faraway positive samples and improving the purity of clusters during the learning process. Experimental results on a large-scale dataset with numerous attribute settings have demonstrated the effectiveness of the proposed approach on both clustering accuracy and fairness enhancement on several sensitive attributes.
翻訳日:2023-09-20 00:08:33 公開日:2023-09-18
# 強化学習における外部アドバイスを取り入れたbandit-based policy invariant explicit shaping

Bandit-Based Policy Invariant Explicit Shaping for Incorporating External Advice in Reinforcement Learning ( http://arxiv.org/abs/2304.07163v3 )

ライセンス: Link先を確認
Yash Satsangi, Paniz Behboudian(参考訳) 強化学習(RL)エージェントの重要な課題は、外部/専門家1のアドバイスを学習に取り入れることである。 外部アドバイスでRLエージェントの学習を形作るアルゴリズムの望ましいゴールは、以下である。 a) 政策の不変性を維持すること b) エージェントの学習を加速すること,及び (c)任意のアドバイスから学ぶ[3]。 この課題に対処するために, シェーピングバンドイットと呼ばれるマルチアームバンドイットとして, 外部アドバイスをRLに組み込むという問題を定式化する。 実環境報酬に基づいて学習した既定のrlアルゴリズムに従えば,各腕の報酬は,実環境報酬に従えば得られるリターンに相当し,基礎となるリターンの非定常性を理由としない既存のバンディットおよびシェーピングアルゴリズムを直接適用することは,結果に悪影響を与える可能性がある。 そこで本研究では,UCB-PIES (UPIES), Racing-PIES (RPIES), Lazy PIES (LPIES) の3つの異なる形状のアルゴリズムを提案する。 4つの異なる設定で実験した結果,これらのアルゴリズムは上記の目標を達成できたが,他のアルゴリズムでは達成できなかった。

A key challenge for a reinforcement learning (RL) agent is to incorporate external/expert1 advice in its learning. The desired goals of an algorithm that can shape the learning of an RL agent with external advice include (a) maintaining policy invariance; (b) accelerating the learning of the agent; and (c) learning from arbitrary advice [3]. To address this challenge this paper formulates the problem of incorporating external advice in RL as a multi-armed bandit called shaping-bandits. The reward of each arm of shaping bandits corresponds to the return obtained by following the expert or by following a default RL algorithm learning on the true environment reward.We show that directly applying existing bandit and shaping algorithms that do not reason about the non-stationary nature of the underlying returns can lead to poor results. Thus we propose UCB-PIES (UPIES), Racing-PIES (RPIES), and Lazy PIES (LPIES) three different shaping algorithms built on different assumptions that reason about the long-term consequences of following the expert policy or the default RL algorithm. Our experiments in four different settings show that these proposed algorithms achieve the above-mentioned goals whereas the other algorithms fail to do so.
翻訳日:2023-09-20 00:08:16 公開日:2023-09-18
# AGIEval: ファンデーションモデルを評価するための人間中心ベンチマーク

AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models ( http://arxiv.org/abs/2304.06364v2 )

ライセンス: Link先を確認
Wanjun Zhong, Ruixiang Cui, Yiduo Guo, Yaobo Liang, Shuai Lu, Yanlin Wang, Amin Saied, Weizhu Chen and Nan Duan(参考訳) 人間レベルのタスクに取り組むための基礎モデルの一般的な能力を評価することは、その開発と人工知能(agi)の追求に不可欠な側面である。 従来のベンチマークは、人工的なデータセットに依存しているが、人間レベルの能力を正確に表現するものではない。 本稿では,大学入学試験,ロースクール入学試験,数学コンペ,弁護士資格試験など,人間中心の標準化試験の文脈において基礎モデルを評価するための新しいベンチマークであるagievalを紹介する。 このベンチマークを用いて,GPT-4,ChatGPT,Text-Davinci-003などの最先端基盤モデルの評価を行った。 印象的なことに、GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。 これは現代の基礎モデルの並外れた性能を示している。 対照的に、GPT-4は複雑な推論や特定のドメイン知識を必要とするタスクでは未熟である。 モデル能力(理解、知識、推論、計算)に関する包括的な分析は、これらのモデルの強みと限界を明らかにし、それらの一般的な能力を高めるための将来の方向性に関する貴重な洞察を提供する。 人間の認知と意思決定に関連するタスクに集中することで、実際のシナリオにおける基礎モデルのパフォーマンスをより有意義で堅牢な評価を行うことができます。 データ、コード、およびすべてのモデル出力は、https://github.com/ruixiangcui/agievalでリリースされる。

Evaluating the general abilities of foundation models to tackle human-level tasks is a vital aspect of their development and application in the pursuit of Artificial General Intelligence (AGI). Traditional benchmarks, which rely on artificial datasets, may not accurately represent human-level capabilities. In this paper, we introduce AGIEval, a novel benchmark specifically designed to assess foundation model in the context of human-centric standardized exams, such as college entrance exams, law school admission tests, math competitions, and lawyer qualification tests. We evaluate several state-of-the-art foundation models, including GPT-4, ChatGPT, and Text-Davinci-003, using this benchmark. Impressively, GPT-4 surpasses average human performance on SAT, LSAT, and math competitions, attaining a 95% accuracy rate on the SAT Math test and a 92.5% accuracy on the English test of the Chinese national college entrance exam. This demonstrates the extraordinary performance of contemporary foundation models. In contrast, we also find that GPT-4 is less proficient in tasks that require complex reasoning or specific domain knowledge. Our comprehensive analyses of model capabilities (understanding, knowledge, reasoning, and calculation) reveal these models' strengths and limitations, providing valuable insights into future directions for enhancing their general capabilities. By concentrating on tasks pertinent to human cognition and decision-making, our benchmark delivers a more meaningful and robust evaluation of foundation models' performance in real-world scenarios. The data, code, and all model outputs are released in https://github.com/ruixiangcui/AGIEval.
翻訳日:2023-09-20 00:07:39 公開日:2023-09-18
# データから物理法則を発見する有限表現法

Finite Expression Methods for Discovering Physical Laws from Data ( http://arxiv.org/abs/2305.08342v2 )

ライセンス: Link先を確認
Zhongyi Jiang and Chunmei Wang and Haizhao Yang(参考訳) 非線形力学は科学や工学の分野で広く見られる現象である。 しかし、限られたデータから非線形力学を記述するための解析式を導出する作業は依然として困難である。 本稿では,有限個の解析式を含む関数空間内の支配方程式を,観測された動的データに基づいて発見する「有限表現法」(FEX)と呼ばれる新しい深層記号学習法を提案する。 鍵となる概念は、畳み込みを通じて偏微分方程式(PDE)解の微分を学習することにより、支配方程式の分析式を生成することである。 我々の数値結果は、時間依存型PDE問題や時間変動係数を持つ非線形力学系を含む様々な問題において、FEXが既存の手法(PDE-Net、SINDy、GP、SPLなど)を超越していることを示す。 さらに、FEXの柔軟性と表現力を強調し、記号的支配方程式を正確に近似する。

Nonlinear dynamics is a pervasive phenomenon observed in scientific and engineering disciplines. However, the task of deriving analytical expressions to describe nonlinear dynamics from limited data remains challenging. In this paper, we shall present a novel deep symbolic learning method called the "finite expression method" (FEX) to discover governing equations within a function space containing a finite set of analytic expressions, based on observed dynamic data. The key concept is to employ FEX to generate analytical expressions of the governing equations by learning the derivatives of partial differential equation (PDE) solutions through convolutions. Our numerical results demonstrate that our FEX surpasses other existing methods (such as PDE-Net, SINDy, GP, and SPL) in terms of numerical performance across a range of problems, including time-dependent PDE problems and nonlinear dynamical systems with time-varying coefficients. Moreover, the results highlight FEX's flexibility and expressive power in accurately approximating symbolic governing equations.
翻訳日:2023-09-20 00:01:05 公開日:2023-09-18
# 弱いテキストによる画像の人間-人間間相互作用の学習

Learning Human-Human Interactions in Images from Weak Textual Supervision ( http://arxiv.org/abs/2304.14104v4 )

ライセンス: Link先を確認
Morris Alper and Hadar Averbuch-Elor(参考訳) 人間間の相互作用は多様で文脈に依存しないが、以前の研究はそれらをカテゴリー的扱いし、可能な相互作用の重みを無視している。 本研究では,人間と人間の相互作用を自由テキストとして学習する新たなパラダイムを提案する。 本課題に特有なラベル付きデータの欠如を克服するために,大言語モデルによって生成された合成キャプションデータに対して,明示的な監督なしに知識蒸留を行う。 本手法により作成した擬似ラベルは,画像中の人間と人間の相互作用を効果的に理解するためのキャプションモデルを訓練するために使用することができることを示す。 さらに本手法は,SOTA画像のキャプションや状況認識モデルよりも優れていることを示す。 コードと擬似ラベルをwaldoとwendaと共にリリースします。これは、静止画の人間と人間とのインタラクションを理解するための手動によるテストセットです。

Interactions between humans are diverse and context-dependent, but previous works have treated them as categorical, disregarding the heavy tail of possible interactions. We propose a new paradigm of learning human-human interactions as free text from a single still image, allowing for flexibility in modeling the unlimited space of situations and relationships between people. To overcome the absence of data labelled specifically for this task, we use knowledge distillation applied to synthetic caption data produced by a large language model without explicit supervision. We show that the pseudo-labels produced by this procedure can be used to train a captioning model to effectively understand human-human interactions in images, as measured by a variety of metrics that measure textual and semantic faithfulness and factual groundedness of our predictions. We further show that our approach outperforms SOTA image captioning and situation recognition models on this task. We will release our code and pseudo-labels along with Waldo and Wenda, a manually-curated test set for still image human-human interaction understanding.
翻訳日:2023-09-19 23:59:23 公開日:2023-09-18
# SPEECH:エネルギーに基づくイベント中心超球面による構造予測

SPEECH: Structured Prediction with Energy-Based Event-Centric Hyperspheres ( http://arxiv.org/abs/2305.13617v3 )

ライセンス: Link先を確認
Shumin Deng, Shengyu Mao, Ningyu Zhang, Bryan Hooi(参考訳) イベント中心の構造化予測では、イベントの構造化出力を予測する。 ほとんどのNLPの場合、イベント構造は多様体依存を伴う複雑であり、これらの複雑な構造化イベントを効果的に表現することは困難である。 これらの問題に対処するため,我々はエネルギーベースの事象中心超球(speech)を用いた構造化予測を提案する。 SPEECHは、エネルギーベースモデリングによるイベント構造化コンポーネント間の複雑な依存関係をモデル化し、単純だが効果的なハイパースフィアを持つイベントクラスを表現する。 2つの統合アノテーション付きイベントデータセットの実験は、SPEECHがイベント検出とイベント関連抽出タスクに支配的であることを示している。

Event-centric structured prediction involves predicting structured outputs of events. In most NLP cases, event structures are complex with manifold dependency, and it is challenging to effectively represent these complicated structured events. To address these issues, we propose Structured Prediction with Energy-based Event-Centric Hyperspheres (SPEECH). SPEECH models complex dependency among event structured components with energy-based modeling, and represents event classes with simple but effective hyperspheres. Experiments on two unified-annotated event datasets indicate that SPEECH is predominant in event detection and event-relation extraction tasks.
翻訳日:2023-09-19 23:49:07 公開日:2023-09-18
# 大言語モデルは半構造化インタビューの帰納的テーマ分析をエミュレートできるか? アプローチとモデルの限界に関する探索と挑発

Can Large Language Models emulate an inductive Thematic Analysis of semi-structured interviews? An exploration and provocation on the limits of the approach and the model ( http://arxiv.org/abs/2305.13014v3 )

ライセンス: Link先を確認
Stefano De Paoli(参考訳) 大規模言語モデル(LLM)は、いくつかの分野や作業領域に適用可能な強力な生成人工知能ソリューションとして登場した。 本稿では, GPT 3.5-Turboモデルを用いて, 帰納的テーマ解析のいくつかの側面をエミュレートした実験結果と考察を行った。 本研究のこれまでの研究は、導出分析の実施に大きく取り組んできた。 主題分析 (thematic analysis) は、社会科学において一般的に用いられる分析の定性的手法であり、人間の分析者による解釈と定性データにおける明示的・潜在的な意味の同定に基づいている。 LLMによる人間の解釈に基づく分析の試みは、明らかに挑発であると同時に、これらのシステムが質的研究でどのように使えるかを学ぶための方法でもある。 本論文は,このエミュレーションを試みる動機について述べるとともに,ブラウンとクラークが提案したテーマ分析への6つのステップを少なくとも部分的にllmで再現できることを示すとともに,モデルが生成するアウトプットを反映する。 論文では、これまでThematic Analysisで分析されていたオープンアクセス半構造化インタビューのデータセットを2つ使用した。 以前に作成された分析(および関連するテーマ)を使用して、LLMが生成した結果と比較した。 結果は、モデルが少なくとも一部主要なテーマを推測できることを示している。 本論文の目的は, 定性解析における人間アナリストの代替ではなく, LLMデータ操作のいくつかの要素がある程度の定性研究を支援することができるかを知ることである。

Large Language Models (LLMs) have emerged as powerful generative Artificial Intelligence solutions which can be applied to several fields and areas of work. This paper presents results and reflection of an experiment done to use the model GPT 3.5-Turbo to emulate some aspects of an inductive Thematic Analysis. Previous research on this subject has largely worked on conducting deductive analysis. Thematic Analysis is a qualitative method for analysis commonly used in social sciences and it is based on interpretations made by the human analyst(s) and the identification of explicit and latent meanings in qualitative data. Attempting an analysis based on human interpretation with an LLM clearly is a provocation but also a way to learn something about how these systems can or cannot be used in qualitative research. The paper presents the motivations for attempting this emulation, it reflects on how the six steps to a Thematic Analysis proposed by Braun and Clarke can at least partially be reproduced with the LLM and it also reflects on what are the outputs produced by the model. The paper used two existing datasets of open access semi-structured interviews, previously analysed with Thematic Analysis by other researchers. It used the previously produced analysis (and the related themes) to compare with the results produced by the LLM. The results show that the model can infer at least partially some of the main Themes. The objective of the paper is not to replace human analysts in qualitative analysis but to learn if some elements of LLM data manipulation can to an extent be of support for qualitative research.
翻訳日:2023-09-19 23:48:57 公開日:2023-09-18
# プラグアンドプレイ言語モデリングのためのパラメータからの知識の分離

Decouple knowledge from parameters for plug-and-play language modeling ( http://arxiv.org/abs/2305.11564v2 )

ライセンス: Link先を確認
Xin Cheng, Yankai Lin, Xiuying Chen, Dongyan Zhao, Rui Yan(参考訳) プレトレーニング言語モデル(PLM)は、様々なNLPタスクにおいて印象的な結果をもたらした。 成功の鍵となる要因の1つは、これらのモデルのパラメーターが、事前学習中に暗黙的にあらゆる種類の知識を学習することである。 しかし、モデルパラメータに暗黙的に知識をエンコーディングすることは、2つの根本的な欠点がある。 第一に、モデルがトレーニングされると、その知識は編集可能でもスケーラブルでもない。 第二に、解釈可能性に欠けており、ある問題に PLM が必要とする知識を人間が理解できないようにする。 本稿では,差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルであるPlugLMを紹介する。 鍵となる直感は、モデルパラメータから編集可能でスケーラブルなキーバリューメモリで知識ストレージを分離し、DPMの知識検索によって説明可能な方法で知識を活用することである。 この設計選択を正当化するために、(1)ドメイン適応を含む3つの設定で評価を行う。 PlugLMは4つのドメインで平均3.95のF1改善を実現している。 (2) 知識更新。 PlugLMは、事前トレーニングが完了した後、トレーニング不要の方法で新しい知識を吸収する可能性がある。 (3)タスク内知識学習。 訓練サンプルをDPMに組み込むことで、PlugLMをさらに改善することができる。

Pre-trained language models(PLM) have made impressive results in various NLP tasks. It has been revealed that one of the key factors to their success is the parameters of these models implicitly learn all kinds of knowledge during pre-training. However, encoding knowledge implicitly in the model parameters has two fundamental drawbacks. First, the knowledge is neither editable nor scalable once the model is trained, which is especially problematic in that knowledge is consistently evolving. Second, it lacks interpretability and prevents humans from understanding which knowledge PLM requires for a certain problem. In this paper, we introduce PlugLM, a pre-training model with differentiable plug-in memory(DPM). The key intuition is to decouple the knowledge storage from model parameters with an editable and scalable key-value memory and leverage knowledge in an explainable manner by knowledge retrieval in the DPM. To justify this design choice, we conduct evaluations in three settings including: (1) domain adaptation. PlugLM obtains 3.95 F1 improvements across four domains on average without any in-domain pre-training. (2) knowledge update. PlugLM could absorb new knowledge in a training-free way after pre-training is done. (3) in-task knowledge learning. PlugLM could be further improved by incorporating training samples into DPM with knowledge prompting.
翻訳日:2023-09-19 23:48:30 公開日:2023-09-18
# エッジ方向性が親水性グラフの学習を改善する

Edge Directionality Improves Learning on Heterophilic Graphs ( http://arxiv.org/abs/2305.10498v2 )

ライセンス: Link先を確認
Emanuele Rossi, Bertrand Charpentier, Francesco Di Giovanni, Fabrizio Frasca, Stephan G\"unnemann, Michael Bronstein(参考訳) グラフニューラルネットワーク(gnns)は、関係データモデリングのデファクト標準ツールとなっている。 しかし、多くの現実世界のグラフが向けられているが、今日のGNNモデルの大半は、グラフを非ダイレクトにすることで、この情報を完全に捨てている。 その理由は歴史的である。 1)スペクトルGNNの初期変種の多くは、明示的に無向グラフを必要とし、 2) 好中球グラフに関する最初のベンチマークでは, 方向性による有意な利得は得られなかった。 本稿では, グラフを方向性として扱うと, グラフの有効ホモフィリエが増大し, 方向情報の正しい利用による潜在的な利得が示唆された。 そこで我々は,有向グラフの深層学習のための新しい汎用フレームワークであるDirected Graph Neural Network (Dir-GNN)を紹介した。 dir-gnnは、入出力エッジの分離集約を行うことで、エッジ方向情報を考慮した任意のメッセージパッシングニューラルネットワーク(mpnn)を拡張するために使用できる。 我々は,Dir-GNNが従来のMPNNよりも高い指向性Weisfeiler-Lehmanテストの表現性に一致することを証明した。 広範な実験において、我々のフレームワークは、ホモフィル性データセットにパフォーマンスをそのまま残すが、GCN、GAT、GraphSageのようなヘテロフィル性ベンチマークのベースモデルよりも大幅に向上し、より複雑な手法よりも優れ、新しい最先端の結果が得られることを検証した。

Graph Neural Networks (GNNs) have become the de-facto standard tool for modeling relational data. However, while many real-world graphs are directed, the majority of today's GNN models discard this information altogether by simply making the graph undirected. The reasons for this are historical: 1) many early variants of spectral GNNs explicitly required undirected graphs, and 2) the first benchmarks on homophilic graphs did not find significant gain from using direction. In this paper, we show that in heterophilic settings, treating the graph as directed increases the effective homophily of the graph, suggesting a potential gain from the correct use of directionality information. To this end, we introduce Directed Graph Neural Network (Dir-GNN), a novel general framework for deep learning on directed graphs. Dir-GNN can be used to extend any Message Passing Neural Network (MPNN) to account for edge directionality information by performing separate aggregations of the incoming and outgoing edges. We prove that Dir-GNN matches the expressivity of the Directed Weisfeiler-Lehman test, exceeding that of conventional MPNNs. In extensive experiments, we validate that while our framework leaves performance unchanged on homophilic datasets, it leads to large gains over base models such as GCN, GAT and GraphSage on heterophilic benchmarks, outperforming much more complex methods and achieving new state-of-the-art results.
翻訳日:2023-09-19 23:47:50 公開日:2023-09-18
# 非線形電子-フォノンカップリング系におけるバイポーラロンの光学的操作

Optical manipulation of bipolarons in a system with nonlinear electron-phonon coupling ( http://arxiv.org/abs/2305.09238v2 )

ライセンス: Link先を確認
K. Kova\v{c}, D. Gole\v{z}, M. Mierzejewski, and J. Bon\v{c}a(参考訳) 量子フォノンに非線形に結合した2つの電子の完全な量子力学的進化を解析し、双極子活性振動モードに結合する短空間均一光パルスを受ける系の動的応答をシミュレートする。 非線形電子フォノンカップリングは、電子密度の存在下でフォノン周波数を軟化または固化させる。 前者の場合、フォノン周波数の直下に調整された外部光パルスは、電子間のアトラクションを発生させ、光パルスがオフになった後も長期のバウンド状態をもたらす。 これは、メタスタブル状態を引き起こす自己トラッピング電位の動的修飾に由来する。 パルス周波数を増大させることで、魅力的な電子-電子相互作用は反発に変化する。 周波数の異なる2つのシーケンシャル光パルスは、魅力的な相互作用と反発相互作用を切り替えることができる。 最後に, パルス誘起電子結合は, 弱分散光フォノン, 非調和フォノンスペクトルおよび2次元においても効率的であることが示されている。

We investigate full quantum mechanical evolution of two electrons nonlinearly coupled to quantum phonons and simulate the dynamical response of the system subject to a short spatially uniform optical pulse that couples to dipole-active vibrational modes. Nonlinear electron-phonon coupling can either soften or stiffen the phonon frequency in the presence of electron density. In the former case, an external optical pulse tuned just below the phonon frequency generates attraction between electrons and leads to a long-lived bound state even after the optical pulse is switched off. It originates from a dynamical modification of the self-trapping potential that induces a metastable state. By increasing the pulse frequency, the attractive electron-electron interaction changes to repulsive. Two sequential optical pulses with different frequencies can switch between attractive and repulsive interaction. Finally, we show that the pulse-induced binding of electrons is shown to be efficient also for weakly dispersive optical phonons, in the presence anharmonic phonon spectrum and in two dimensions.
翻訳日:2023-09-19 23:46:31 公開日:2023-09-18
# 量子絡み合いを利用した光子の量子コヒーレンス制御

Control of quantum coherence of photons exploiting quantum entanglement ( http://arxiv.org/abs/2305.19825v2 )

ライセンス: Link先を確認
Dianzhen Cui, Xi-Lin Wang, X. X. Yi, and Li-Ping Yang(参考訳) 光子の量子コヒーレンスを正確に制御することは、量子センシングや量子イメージングにおいて重要な応用である。 本稿では,光子の高次量子コヒーレンスを制御するために,量子エンタングルメントと局所位相操作の活用を提案する。 横面の空間変化位相を工学的に設計することにより、各光子の光子強度分布を変化させることなく、絡み合った光子対の2次コヒーレンス関数の空間構造を正確に操作することができる。 我々のアプローチは容易に高次量子コヒーレンス制御に拡張できる。 これらの結果は、光学量子コヒーレンスの新しい実験的研究と応用を刺激する可能性がある。

Accurately controlling the quantum coherence of photons is pivotal for their applications in quantum sensing and quantum imaging. Here, we propose the utilization of quantum entanglement and local phase manipulation techniques to control the higher-order quantum coherence of photons. By engineering the spatially varying phases in the transverse plane, we can precisely manipulate the spatial structure of the second-order coherence function of entangled photon pairs without changing the photon intensity distribution of each photon. Our approach can readily be extended to higher-order quantum coherence control. These results could potentially stimulate new experimental research and applications of optical quantum coherence.
翻訳日:2023-09-19 23:39:18 公開日:2023-09-18
# リー代数の対称性を用いた完全可解ハミルトニアンの拡張

Extension of exactly-solvable Hamiltonians using symmetries of Lie algebras ( http://arxiv.org/abs/2305.18251v2 )

ライセンス: Link先を確認
Smik Patel, Tzu-Ching Yen, Artur F. Izmaylov(参考訳) 相対的に単純なユニタリ変換を用いて対角化できる厳密解ハミルトニアンは、量子コンピューティングにおいて非常に有用である。 量子位相推定アルゴリズムの進化作用素のトロッター・スズキ近似や変分量子固有解器の量子測定問題において相互作用するハミルトニアンの分解に使用できる。 完全可解ハミルトニアンの典型的な形の1つは、極小リー代数を形成する作用素の線型結合である。 非常に頻繁にそのような線型結合は非相互作用ハミルトニアンを表現するため、相互作用するケースを記述することに限定的な関心を持つ。 ここでは、これらの組合せの係数がリー代数対称性の多項式によって置換される拡張を提案する。 この置換はより一般の可解なハミルトニアンクラスとなり、キュービット代数は最近提案された非文脈的パウリハミルトニアンと関係がある。 フェルミオン問題において、この置換は、単一のスレーター行列式を持つが、異なる固有状態に対して異なる単一粒子状態の異なるハミルトン状態を持つ。 新しい可解ハミルトニアン類は、対称性の中間回路の測定結果に依存するゲートを持つ量子回路を用いて効率的に測定することができる。

Exactly-solvable Hamiltonians that can be diagonalized using relatively simple unitary transformations are of great use in quantum computing. They can be employed for decomposition of interacting Hamiltonians either in Trotter-Suzuki approximations of the evolution operator for the quantum phase estimation algorithm, or in the quantum measurement problem for the variational quantum eigensolver. One of the typical forms of exactly solvable Hamiltonians is a linear combination of operators forming a modest size Lie algebra. Very frequently such linear combinations represent non-interacting Hamiltonians and thus are of limited interest for describing interacting cases. Here we propose the extension where coefficients in these combinations are substituted by polynomials of the Lie algebra symmetries. This substitution results in a more general class of solvable Hamiltonians and for qubit algebras is related to the recently proposed non-contextual Pauli Hamiltonians. In fermionic problems, this substitution leads to Hamiltonians with eigenstates that are single Slater determinants but with different sets of single-particle states for different eigenstates. The new class of solvable Hamiltonians can be measured efficiently using quantum circuits with gates that depend on the result of a mid-circuit measurement of the symmetries.
翻訳日:2023-09-19 23:38:43 公開日:2023-09-18
# TFDet:RGB-Tペデストリアン検出のためのターゲット認識融合

TFDet: Target-aware Fusion for RGB-T Pedestrian Detection ( http://arxiv.org/abs/2305.16580v2 )

ライセンス: Link先を確認
Xue Zhang, Xiaohan Zhang, Zehua Sheng, and Hui-Liang Shen(参考訳) 歩行者検出は、交通安全の確保に寄与するため、コンピュータビジョンにおいて重要な役割を果たす。 RGB画像のみに依存する既存の手法は、有用な情報がないため、低照度条件下での性能劣化に悩まされる。 この問題に対処するため、近年のマルチスペクトル検出手法では、熱画像を組み合わせて補完情報を提供し、性能の向上が図られている。 それにもかかわらず、ノイズの多い特徴マップによって引き起こされる偽陽性の悪影響に焦点を当てるアプローチはほとんどない。 それらと異なるのは,偽陽性が検出性能に与える影響を包括的に分析し,特徴コントラストの強化によってこれらの偽陽性を著しく低減できることを見出した。 本稿では,TFDet と呼ばれる多スペクトル歩行者検出のための新たな目標対応融合戦略を提案する。 我々の融合戦略は歩行者関連機能を強調しながら非関連機能を抑制する。 TFDet は KAIST と LLVIP のベンチマークで最先端のパフォーマンスを実現している。 重要なこととして、TFDetは低照度条件下でも著しく性能が良く、道路安全を確保するための重要な進歩である。 コードは \url{https://github.com/XueZ-phd/TFDet.git} で公開されている。

Pedestrian detection plays a critical role in computer vision as it contributes to ensuring traffic safety. Existing methods that rely solely on RGB images suffer from performance degradation under low-light conditions due to the lack of useful information. To address this issue, recent multispectral detection approaches have combined thermal images to provide complementary information and have obtained enhanced performances. Nevertheless, few approaches focus on the negative effects of false positives caused by noisy fused feature maps. Different from them, we comprehensively analyze the impacts of false positives on the detection performance and find that enhancing feature contrast can significantly reduce these false positives. In this paper, we propose a novel target-aware fusion strategy for multispectral pedestrian detection, named TFDet. Our fusion strategy highlights the pedestrian-related features while suppressing unrelated ones, resulting in more discriminative fused features. TFDet achieves state-of-the-art performance on both KAIST and LLVIP benchmarks, with an efficiency comparable to the previous state-of-the-art counterpart. Importantly, TFDet performs remarkably well even under low-light conditions, which is a significant advancement for ensuring road safety. The code will be made publicly available at \url{https://github.com/XueZ-phd/TFDet.git}.
翻訳日:2023-09-19 23:38:05 公開日:2023-09-18
# KeyPosS: GPSによるTrue-Range Multilaterationによるプラグアンドプレイ顔画像検出

KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration ( http://arxiv.org/abs/2305.16437v3 )

ライセンス: Link先を確認
Xu Bao, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Wangmeng Xiang, Jingdong Sun, Hanbing Liu, Wei Liu, Bin Luo, Yifeng Geng, Xuansong Xie(参考訳) 顔のランドマークの正確な検出は、顔の分析作業には不可欠であるが、熱マップと座標回帰法は、計算コストや量子化エラーに対処する。 包括的理論的分析と実験を通じて,既存の手法の限界を特定し,解明する。 これらの課題を克服するために、当初GPSの局所化のために開発されたTrue-Range Multilaterationの顔のランドマーク検出への応用を開拓した。 完全畳み込みネットワークによって予測される注目点とアンカー点の距離を三角にして正確なランドマーク座標を推定する最初のフレームワークであるKeyPoint Positioning System(KeyPosS)を提案する。 KeyPosSの重要な利点は、様々なデコードパイプラインへの柔軟な統合を可能にする、プラグアンドプレイの性質である。 4つのデータセットに関する広範囲な実験が最先端のパフォーマンスを示している。 顔分析とMultilaterationの統合を先導することで、KeyPosSは顔のランドマーク検出のパラダイムシフトを示す。 コードはhttps://github.com/zhiqic/keypossで入手できる。

Accurate facial landmark detection is critical for facial analysis tasks, yet prevailing heatmap and coordinate regression methods grapple with prohibitive computational costs and quantization errors. Through comprehensive theoretical analysis and experimentation, we identify and elucidate the limitations of existing techniques. To overcome these challenges, we pioneer the application of True-Range Multilateration, originally devised for GPS localization, to facial landmark detection. We propose KeyPoint Positioning System (KeyPosS) - the first framework to deduce exact landmark coordinates by triangulating distances between points of interest and anchor points predicted by a fully convolutional network. A key advantage of KeyPosS is its plug-and-play nature, enabling flexible integration into diverse decoding pipelines. Extensive experiments on four datasets demonstrate state-of-the-art performance, with KeyPosS outperforming existing methods in low-resolution settings despite minimal computational overhead. By spearheading the integration of Multilateration with facial analysis, KeyPosS marks a paradigm shift in facial landmark detection. The code is available at https://github.com/zhiqic/KeyPosS.
翻訳日:2023-09-19 23:37:45 公開日:2023-09-18
# shorの因子分解アルゴリズムとモジュラー指数演算子

Shor's Factoring Algorithm and Modular Exponentiation Operators ( http://arxiv.org/abs/2306.09122v3 )

ライセンス: Link先を確認
Robert L Singleton Jr(参考訳) これらはショアの分解アルゴリズムに関する教育的ノートであり、多項式時間で非常に大きな数(数百から数千ビット)を分解する量子アルゴリズムである。 対照的に、因数分解問題に対する既知のすべての古典的アルゴリズムは指数関数時間で大量の因数分解を行う。 これらのノートでは、量子コンピューティングの回路モデルに対する基本的な親和性以上のshorのアルゴリズムの事前知識を仮定する。 文学はショアのアルゴリズムの導出と解説で厚くなっているが、それらの多くは本質的な詳細に欠けており、教育的なプレゼンテーションを提供していない。 モジュラー指数(me)作用素の理論を,shorのアルゴリズムの基本成分の1つであり,量子資源のほとんどが展開される場所として,ある程度詳細に展開する。 また,me演算子の近似位相角からモジュラー指数関数の正確な周期を抽出するために,量子後処理と継続分数法についても検討した。 その後、写本は一連の例に移行した。 まず,shor のアルゴリズムでアクセス可能な最小数 n=15 を因子として定式化を検証する。 次に、より大きい数を分解し、任意の半素数$N = p \times q$(ここで$q$と~$p$は素数)の ME 演算子を見つける体系的な手順を開発する。 最後に、Qiskitシミュレータを用いて、N=21, 33, 35, 143, 247 を分解する。 ME演算子は幾分保留であり、切り詰められた近似形式は正確な演算子と同様に因子を抽出することができる。 これは、継続分数法が入力に近似位相値のみを必要とするためであり、これはショアのアルゴリズムの実装が最初に疑ったほど難しくないことを示唆している。

These are pedagogical notes on Shor's factoring algorithm, which is a quantum algorithm for factoring very large numbers (of order of hundreds to thousands of bits) in polynomial time. In contrast, all known classical algorithms for the factoring problem take an exponential time to factor large numbers. In these notes, we assume no prior knowledge of Shor's algorithm beyond a basic familiarity with the circuit model of quantum computing. The literature is thick with derivations and expositions of Shor's algorithm, but most of them seem to be lacking in essential details, and none of them provide a pedagogical presentation. We develop the theory of modular exponentiation (ME) operators in some detail, one of the fundamental components of Shor's algorithm, and the place where most of the quantum resources are deployed. We also discuss the post-quantum processing and the method of continued fractions, which is used to extract the exact period of the modular exponential function from the approximately measured phase angles of the ME operator. The manuscript then moves on to a series of examples. We first verify the formalism by factoring N=15, the smallest number accessible to Shor's algorithm. We then proceed to factor larger numbers, developing a systematic procedure that will find the ME operators for any semi-prime $N = p \times q$ (where $q$ and~$p$ are prime). Finally, we factor the numbers N=21, 33, 35, 143, 247 using the Qiskit simulator. It is observed that the ME operators are somewhat forgiving, and truncated approximate forms are able to extract factors just as well as the exact operators. This is because the method of continued fractions only requires an approximate phase value for its input, which suggests that implementing Shor's algorithm might not be as difficult as first suspected.
翻訳日:2023-09-19 23:28:47 公開日:2023-09-18
# GANeRF: 神経放射場最適化のためのディスクリミネータの活用

GANeRF: Leveraging Discriminators to Optimize Neural Radiance Fields ( http://arxiv.org/abs/2306.06044v2 )

ライセンス: Link先を確認
Barbara Roessle, Norman M\"uller, Lorenzo Porzi, Samuel Rota Bul\`o, Peter Kontschieder, Matthias Nie{\ss}ner(参考訳) 神経放射野 (neural radiance fields, nerf) は目覚ましい新規な視野合成結果を示している。 我々は,現実的な画像を生成するためにGAN(Generative Adversarial Network)を活用し,NeRFを用いた3次元シーン再構成における現実性を高めることを目的としている。 この目的を達成するために, 敵判別器を用いてシーンのパッチ分布を学習し, 放射場再構成にフィードバックを与え, リアリズムを3d一貫性で改善する。 これにより、レンダリングアーチファクトは、マルチビューパスレンダリング制約を課すことで、基礎となる3D表現で直接修復される。 さらに,レンダリング品質の向上のために,逆向きに訓練されたマルチレゾリューションNeRFレンダリングを用いたジェネレータを条件とした。 提案手法は,例えばNerfactoに比べてLPIPSスコアが半減するのに対して,PSNRを1.4dB向上させるなど,レンダリング品質を著しく向上することを示した。

Neural Radiance Fields (NeRF) have shown impressive novel view synthesis results; nonetheless, even thorough recordings yield imperfections in reconstructions, for instance due to poorly observed areas or minor lighting changes. Our goal is to mitigate these imperfections from various sources with a joint solution: we take advantage of the ability of generative adversarial networks (GANs) to produce realistic images and use them to enhance realism in 3D scene reconstruction with NeRFs. To this end, we learn the patch distribution of a scene using an adversarial discriminator, which provides feedback to the radiance field reconstruction, thus improving realism in a 3D-consistent fashion. Thereby, rendering artifacts are repaired directly in the underlying 3D representation by imposing multi-view path rendering constraints. In addition, we condition a generator with multi-resolution NeRF renderings which is adversarially trained to further improve rendering quality. We demonstrate that our approach significantly improves rendering quality, e.g., nearly halving LPIPS scores compared to Nerfacto while at the same time improving PSNR by 1.4dB on the advanced indoor scenes of Tanks and Temples.
翻訳日:2023-09-19 23:26:57 公開日:2023-09-18
# 大規模言語モデルに基づくエージェントがユーザ行動分析と出会う:新しいユーザシミュレーションパラダイム

When Large Language Model based Agent Meets User Behavior Analysis: A Novel User Simulation Paradigm ( http://arxiv.org/abs/2306.02552v2 )

ライセンス: Link先を確認
Lei Wang, Jingsen Zhang, Hao Yang, Zhiyuan Chen, Jiakai Tang, Zeyu Zhang, Xu Chen, Yankai Lin, Ruihua Song, Wayne Xin Zhao, Jun Xu, Zhicheng Dou, Jun Wang, Ji-Rong Wen(参考訳) ユーザー行動分析は、人間中心のAIアプリケーションにおいて重要である。 この分野では、十分かつ高品質なユーザー行動データの収集は、常に根本的かつ困難な問題である。 この問題を解決する直感的なアイデアは、自動的にユーザの振る舞いをシミュレートすることだ。 しかし、人間の認知プロセスの主観的かつ複雑な性質から、ユーザーの行動を確実にシミュレートすることは困難である。 近年、大きな言語モデル (LLM) が顕著な成功を収め、人間のような知性を実現する大きな可能性を示している。 これらのモデルが信頼性の高いユーザシミュレーションに重要な機会をもたらし、ユーザ行動分析における従来の研究パラダイムに革命をもたらす可能性があると論じている。 本稿では,ユーザシミュレーションにおけるllm活用の可能性を探るために,レコメンダシステムを提案する。 具体的には、各ユーザをllmベースの自律エージェントとみなし、recagentと呼ばれる仮想シミュレータで、異なるエージェントが自由にコミュニケーションし、行動し、進化させる。 総合的なシミュレーションのために、推薦システム内の行動(例えば、項目のブラウジングやクリック)を考えるだけでなく、友人のチャットやソーシャル広告といった外部の影響要因についても考慮する。 シミュレータには少なくとも1000のエージェントが含まれており、各エージェントはプロファイリングモジュール、メモリモジュール、アクションモジュールで構成されており、一貫した、合理的かつ確実な動作を可能にする。 さらに,シミュレータをより柔軟に操作するために,実演とシステム介入を含む2つのグローバル関数を設計する。 シミュレータの有効性を評価するため,エージェントおよびシステムの観点から広範囲な実験を行った。 この方向性を進めるため、私たちはhttps://github.com/RUC-GSAI/YuLan-Rec}でプロジェクトをリリースしました。

User behavior analysis is crucial in human-centered AI applications. In this field, the collection of sufficient and high-quality user behavior data has always been a fundamental yet challenging problem. An intuitive idea to address this problem is automatically simulating the user behaviors. However, due to the subjective and complex nature of human cognitive processes, reliably simulating the user behavior is difficult. Recently, large language models (LLM) have obtained remarkable successes, showing great potential to achieve human-like intelligence. We argue that these models present significant opportunities for reliable user simulation, and have the potential to revolutionize traditional study paradigms in user behavior analysis. In this paper, we take recommender system as an example to explore the potential of using LLM for user simulation. Specifically, we regard each user as an LLM-based autonomous agent, and let different agents freely communicate, behave and evolve in a virtual simulator called RecAgent. For comprehensively simulation, we not only consider the behaviors within the recommender system (\emph{e.g.}, item browsing and clicking), but also accounts for external influential factors, such as, friend chatting and social advertisement. Our simulator contains at most 1000 agents, and each agent is composed of a profiling module, a memory module and an action module, enabling it to behave consistently, reasonably and reliably. In addition, to more flexibly operate our simulator, we also design two global functions including real-human playing and system intervention. To evaluate the effectiveness of our simulator, we conduct extensive experiments from both agent and system perspectives. In order to advance this direction, we have released our project at {https://github.com/RUC-GSAI/YuLan-Rec}.
翻訳日:2023-09-19 23:26:14 公開日:2023-09-18
# 多層エキスパートネットワークに基づくNL2SQLの改良

Improved NL2SQL based on Multi-layer Expert Network ( http://arxiv.org/abs/2306.17727v3 )

ライセンス: Link先を確認
Chenduo Hao, Xu Zhang(参考訳) natural language to sql (nl2sql)テクニックは、自然言語クエリを実行可能なsqlステートメントに変換するために使用される。 通常、スロット充填はこの目的を達成するためにマルチタスクケースの分類方法として使用される。 しかし、スロットフィリングは、異なる分類タスクから生じる負のマイグレーション問題により、不正確なSQLステートメントを生成する可能性がある。 この制限を克服するために,本研究では,専用マルチタスク階層ネットワークを利用したMulti-Layer Expert Generate SQL(MLEG-SQL)という新しいアプローチを導入する。 ネットワークの下層は自然言語文の意味的特徴を抽出し、上層は特定の分類タスクを扱う専門的なエキスパートシステムを構築している。 この階層的アプローチは、異なるタスク競合によるパフォーマンス低下を軽減する。 提案手法はwiksqlデータセット上で評価され,正確なsql文の生成に有効であることがわかった。

The Natural Language to SQL (NL2SQL) technique is used to convert natural language queries into executable SQL statements. Typically, slot-filling is employed as a classification method for multi-task cases to achieve this goal. However, slot-filling can result in inaccurate SQL statement generation due to negative migration issues arising from different classification tasks. To overcome this limitation, this study introduces a new approach called Multi-Layer Expert Generate SQL (MLEG-SQL), which utilizes a dedicated multi-task hierarchical network. The lower layer of the network extracts semantic features of natural language statements, while the upper layer builds a specialized expert system for handling specific classification tasks. This hierarchical approach mitigates performance degradation resulting from different task conflicts. The proposed method was evaluated on the WiKSQL dataset and was found to be effective in generating accurate SQL statements.
翻訳日:2023-09-19 23:18:29 公開日:2023-09-18
# 最小kochen-specker問題に対するsatソルバと計算機代数学攻撃

A SAT Solver and Computer Algebra Attack on the Minimum Kochen-Specker Problem ( http://arxiv.org/abs/2306.13319v4 )

ライセンス: Link先を確認
Zhengyu Li, Curtis Bright, Vijay Ganesh(参考訳) 量子基礎の基本的な結果の1つがkochen-specker(ks)定理であり、量子力学と一致する予測を持つ理論は文脈的、すなわち量子観測は既存の値を明らかにするものとしては理解できないと述べる。 この定理はKSベクトル系と呼ばれる数学的対象の存在に基づいている。 多くのKSベクトル系が知られているが、最小のKSベクトル系を3次元で見つけるという問題は55年以上も頑固に開き続けている。 本稿では,この問題を解決するために,ブール充足可能性 (SAT) と計算機代数システム (CAS) を組み合わせた新しい手法を提案する。 本手法は,3次元のks系が少なくとも24ベクトルを含む必要があることを示す。 SAT+CAS法は従来のCAS検索よりも22ベクトルの既知下界の導出において35,000倍高速である。 より重要なことは、KS問題の低い境界のコンピュータで検証可能な最初の証明証明書を、23で41.6 TiBの証明サイズで提供することである。 この効率の向上は、SATソルバの強力な組合せ探索学習能力と、CASをベースとしたグラフを秩序に生成するイソモルフィックフリーの徹底的な方法を利用することができるという事実による。 我々の研究は、量子基礎の領域における問題に対するSAT+CAS法の第一の応用であり、コンピュータで検証可能な証明証明を持つ最小コチェン=スペーカー問題における第一の下位境界である。

One of the fundamental results in quantum foundations is the Kochen-Specker (KS) theorem, which states that any theory whose predictions agree with quantum mechanics must be contextual, i.e., a quantum observation cannot be understood as revealing a pre-existing value. The theorem hinges on the existence of a mathematical object called a KS vector system. While many KS vector systems are known, the problem of finding the minimum KS vector system in three dimensions has remained stubbornly open for over 55 years. In this paper, we present a new method based on a combination of a Boolean satisfiability (SAT) solver and a computer algebra system (CAS) to address this problem. Our approach shows that a KS system in three dimensions must contain at least 24 vectors. Our SAT+CAS method is over 35,000 times faster at deriving the previously known lower bound of 22 vectors than the prior CAS-based searches. More importantly, we provide the first computer-verifiable proof certificate of a lower bound in the KS problem with a proof size of 41.6 TiB in order 23. The increase in efficiency is due to the fact we are able to exploit the powerful combinatorial search-with-learning capabilities of SAT solvers, together with the CAS-based isomorph-free exhaustive method of orderly generation of graphs. To the best of our knowledge, our work is the first application of a SAT+CAS method to a problem in the realm of quantum foundations and the first lower bound in the minimum Kochen-Specker problem with a computer-verifiable proof certificate.
翻訳日:2023-09-19 23:17:55 公開日:2023-09-18
# 公正な因果的特徴選択

Fair Causal Feature Selection ( http://arxiv.org/abs/2306.10336v2 )

ライセンス: Link先を確認
Zhaolong Ling, Enqi Xu, Peng Zhou, Liang Du, Kui Yu, and Xindong Wu(参考訳) 分類決定タスクの公平な特徴選択は、最近研究者から大きな注目を集めている。 しかし、既存の公正な特徴選択アルゴリズムは、特徴と機密属性の因果関係を完全に説明できないため、公正な特徴識別の精度に影響を及ぼす可能性がある。 この問題に対処するため,FairCFSと呼ばれるFair Causal Feature Selectionアルゴリズムを提案する。 具体的には、FairCFSは、クラスと機密変数のマルコフ毛布を識別する局所因果グラフを構築し、公正因果特徴を選択するための機密情報の伝達をブロックする。 7つの公開実世界のデータセットに対する大規模な実験により、FairCFSは8つの最先端機能選択アルゴリズムと比較して精度が同等であり、より優れた公正性を示す。

Fair feature selection for classification decision tasks has recently garnered significant attention from researchers. However, existing fair feature selection algorithms fall short of providing a full explanation of the causal relationship between features and sensitive attributes, potentially impacting the accuracy of fair feature identification. To address this issue, we propose a Fair Causal Feature Selection algorithm, called FairCFS. Specifically, FairCFS constructs a localized causal graph that identifies the Markov blankets of class and sensitive variables, to block the transmission of sensitive information for selecting fair causal features. Extensive experiments on seven public real-world datasets validate that FairCFS has comparable accuracy compared to eight state-of-the-art feature selection algorithms, while presenting more superior fairness.
翻訳日:2023-09-19 23:17:04 公開日:2023-09-18
# 実世界の知覚入力による動き予測に向けて:エンドツーエンドアプローチは競争的であるか?

Towards Motion Forecasting with Real-World Perception Inputs: Are End-to-End Approaches Competitive? ( http://arxiv.org/abs/2306.09281v2 )

ライセンス: Link先を確認
Yihong Xu, Lo\"ick Chambon, \'Eloi Zablocki, Micka\"el Chen, Alexandre Alahi, Matthieu Cord, Patrick P\'erez(参考訳) 動き予測は、自動運転車が周囲のエージェントの将来の軌道を予測できるようにするのに不可欠である。 そのためには、マッピング、検出、追跡、そして問題予測を、マルチステップパイプラインで解決する必要がある。 この複雑なシステムでは, 完全地図, 検出, 追跡を前提に, キュレーションデータを用いて従来の予測手法の進歩がみられた。 しかし、このパラダイムは上流モジュールからのエラーを無視する。 一方、アーキテクチャの認識と予測を緊密に統合したエンドツーエンドパラダイムは、この問題を解決することを約束している。 しかし,2手法間の評価プロトコルは相容れないため,比較は不可能であった。 実際、おそらく意外なことに、従来の予測手法は通常、実世界のパイプライン(上流検出、追跡、マッピングモジュールなど)でトレーニングやテストが行われません。 本研究は,実世界の展開に予測モデルを近づけることを目的としている。 まず,実世界の知覚入力を用いた予測手法の統一評価パイプラインを提案し,従来の手法とエンドツーエンドの手法のパフォーマンスを初めて比較する。 第2に、我々の詳細な研究は、キュレートされたデータから知覚ベースのデータへ移行する際の大きなパフォーマンスギャップを明らかにする。 特に、このギャップ(1)は、精度の差だけでなく、知覚モジュールが提供する不完全な入力の性質にも起因しており、(2)単に知覚出力を微調整するだけで、自明に減少しないことを示す。 広範にわたる実験に基づき,実世界におけるより堅牢な動き予測に向けた改善とガイダンスを必要とする重要な領域を推奨する。 標準および実用条件下でモデルをベンチマークするための評価ライブラリをリリースする。

Motion forecasting is crucial in enabling autonomous vehicles to anticipate the future trajectories of surrounding agents. To do so, it requires solving mapping, detection, tracking, and then forecasting problems, in a multi-step pipeline. In this complex system, advances in conventional forecasting methods have been made using curated data, i.e., with the assumption of perfect maps, detection, and tracking. This paradigm, however, ignores any errors from upstream modules. Meanwhile, an emerging end-to-end paradigm, that tightly integrates the perception and forecasting architectures into joint training, promises to solve this issue. So far, however, the evaluation protocols between the two methods were incompatible and their comparison was not possible. In fact, and perhaps surprisingly, conventional forecasting methods are usually not trained nor tested in real-world pipelines (e.g., with upstream detection, tracking, and mapping modules). In this work, we aim to bring forecasting models closer to real-world deployment. First, we propose a unified evaluation pipeline for forecasting methods with real-world perception inputs, allowing us to compare the performance of conventional and end-to-end methods for the first time. Second, our in-depth study uncovers a substantial performance gap when transitioning from curated to perception-based data. In particular, we show that this gap (1) stems not only from differences in precision but also from the nature of imperfect inputs provided by perception modules, and that (2) is not trivially reduced by simply finetuning on perception outputs. Based on extensive experiments, we provide recommendations for critical areas that require improvement and guidance towards more robust motion forecasting in the real world. We will release an evaluation library to benchmark models under standardized and practical conditions.
翻訳日:2023-09-19 23:16:50 公開日:2023-09-18
# Re-mine, Learn and Reason: 言語誘導HOI検出のためのクロスモーダルセマンティック相関の探索

Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detection ( http://arxiv.org/abs/2307.13529v2 )

ライセンス: Link先を確認
Yichao Cao, Qingfei Tang, Feng Yang, Xiu Su, Shan You, Xiaobo Lu and Chang Xu(参考訳) ヒューマン・オブジェクト・インタラクション(human-object interaction, hoi)は、人間と物体の複雑な対話的関係に対処し、hoiトリプルトを予測する視覚モデルを必要とするコンピュータビジョンタスクである。 多くの相互作用の組み合わせによってもたらされる課題にもかかわらず、視覚テキストのマルチモーダル学習の機会を提供する。 本稿では,構造化テキスト知識を取り入れることで,hoi検出を強化する体系的統一フレームワーク(rmlr)を提案する。 Firstly, we qualitatively and quantitatively analyze the loss of interaction information in the two-stage HOI detector and propose a re-mining strategy to generate more comprehensive visual representation.Secondly, we design more fine-grained sentence- and word-level alignment and knowledge transfer strategies to effectively address the many-to-many matching problem between multiple interactions and multiple texts.These strategies alleviate the matching confusion problem that arises when multiple interactions occur simultaneously, thereby improving the effectiveness of the alignment process. 最後に、テキスト知識を付加した視覚特徴によるHOI推論は、インタラクションの理解を大幅に改善する。 実験結果は,公開ベンチマークにおいて最先端のパフォーマンスが達成される手法の有効性を示す。 さらに,このアプローチのさまざまなコンポーネントの効果を解析し,その効果について考察する。

Human-Object Interaction (HOI) detection is a challenging computer vision task that requires visual models to address the complex interactive relationship between humans and objects and predict HOI triplets. Despite the challenges posed by the numerous interaction combinations, they also offer opportunities for multimodal learning of visual texts. In this paper, we present a systematic and unified framework (RmLR) that enhances HOI detection by incorporating structured text knowledge. Firstly, we qualitatively and quantitatively analyze the loss of interaction information in the two-stage HOI detector and propose a re-mining strategy to generate more comprehensive visual representation.Secondly, we design more fine-grained sentence- and word-level alignment and knowledge transfer strategies to effectively address the many-to-many matching problem between multiple interactions and multiple texts.These strategies alleviate the matching confusion problem that arises when multiple interactions occur simultaneously, thereby improving the effectiveness of the alignment process. Finally, HOI reasoning by visual features augmented with textual knowledge substantially improves the understanding of interactions. Experimental results illustrate the effectiveness of our approach, where state-of-the-art performance is achieved on public benchmarks. We further analyze the effects of different components of our approach to provide insights into its efficacy.
翻訳日:2023-09-19 23:08:16 公開日:2023-09-18
# RCM融合:3次元物体検出のためのレーダーカメラ多層核融合

RCM-Fusion: Radar-Camera Multi-Level Fusion for 3D Object Detection ( http://arxiv.org/abs/2307.10249v3 )

ライセンス: Link先を確認
Jisong Kim, Minjae Seong, Geonho Bang, Dongsuk Kum, Jun Won Choi(参考訳) LiDARセンサーは3Dオブジェクト検出にうまく応用されているが、レーダーやカメラセンサーが手に入ることで、3Dオブジェクト検出のためのレーダーやカメラの融合への関心が高まっている。 しかし、従来のレーダー・カメラ融合モデルはレーダー情報の可能性を十分に活用できなかった。 本稿では,特徴レベルとインスタンスレベルの両モードを融合するRadar-Camera Multi-level fusion (RCM-Fusion)を提案する。 特徴レベルの融合のために,レーダーバード-アイビュー(BEV)特徴の誘導を用いて,カメラ特徴を正確なBEV表現に変換するレーダー誘導型BEVエンコーダを提案する。 実例レベルの融合では,レーダ点雲の特性を考慮し,局所化誤差を低減できるレーダグリッドポイントリファインメントモジュールを提案する。 公開nuScenesデータセットを用いて行った実験により,提案したRCM-Fusionは,nuScenes 3Dオブジェクト検出ベンチマークにおいて,単一フレームベースレーダカメラ融合方式の最先端性能を実現することが示された。 コードは公開される予定だ。

While LiDAR sensors have been successfully applied to 3D object detection, the affordability of radar and camera sensors has led to a growing interest in fusing radars and cameras for 3D object detection. However, previous radar-camera fusion models were unable to fully utilize the potential of radar information. In this paper, we propose Radar-Camera Multi-level fusion (RCM-Fusion), which attempts to fuse both modalities at both feature and instance levels. For feature-level fusion, we propose a Radar Guided BEV Encoder which transforms camera features into precise BEV representations using the guidance of radar Bird's-Eye-View (BEV) features and combines the radar and camera BEV features. For instance-level fusion, we propose a Radar Grid Point Refinement module that reduces localization error by accounting for the characteristics of the radar point clouds. The experiments conducted on the public nuScenes dataset demonstrate that our proposed RCM-Fusion achieves state-of-the-art performances among single frame-based radar-camera fusion methods in the nuScenes 3D object detection benchmark. Code will be made publicly available.
翻訳日:2023-09-19 23:06:15 公開日:2023-09-18
# 核殻モデルにおける原子核の構造における量子絡み合いパターン

Quantum entanglement patterns in the structure of atomic nuclei within the nuclear shell model ( http://arxiv.org/abs/2307.05197v2 )

ライセンス: Link先を確認
A. P\'erez-Obiol, S. Masot-Llima, A.M. Romero, J. Men\'endez, A. Rios, A. Garc\'ia-S\'aez, B. Juli\'a-D\'iaz(参考訳) 量子絡み合いは原子核のような強相関系の基盤構造にユニークな視点を与える。 本稿では,原子核シェルモデルにおける光および中質量ベリリウム,酸素,ネオンおよびカルシウム同位体の構造を量子情報ツールを用いて解析する。 我々は、シェルモデル価空間の異なる分断に対して、単軌道エンタングルメント、相互情報、フォン・ノイマンエントロピーを含む異なるエンタングルメント指標を使用し、核単一粒子軌道のエネルギー、角運動量、アイソスピンに関連するモードエンタングルメントパターンを同定する。 単一軌道の絡み合いは原子価核数と殻のエネルギー構造に直接関係しているのに対し、相互情報ではプロトン-プロトンと中性子-中性子対の署名や核の変形が強調される。 陽子と中性子の軌道は全ての測度で弱く絡み合っており、実際に原子価空間の全ての同分量の中でフォン・ノイマンのエントロピーが最も低い。 対照的に、反対の角運動量投影を持つ軌道は、特に球核において比較的大きなエントロピーを持つ。 この分析は、ノイズの多い中間スケール量子時代のより効率的な量子アルゴリズムを設計するためのガイドを提供する。

Quantum entanglement offers a unique perspective into the underlying structure of strongly-correlated systems such as atomic nuclei. In this paper, we use quantum information tools to analyze the structure of light and medium-mass berillyum, oxygen, neon and calcium isotopes within the nuclear shell model. We use different entanglement metrics, including single-orbital entanglement, mutual information, and von Neumann entropies for different equipartitions of the shell-model valence space and identify mode-entanglement patterns related to the energy, angular momentum and isospin of the nuclear single-particle orbitals. We observe that the single-orbital entanglement is directly related to the number of valence nucleons and the energy structure of the shell, while the mutual information highlights signatures of proton-proton and neutron-neutron pairing, as well as nuclear deformation. Proton and neutron orbitals are weakly entangled by all measures, and in fact have the lowest von Neumann entropies among all possible equipartitions of the valence space. In contrast, orbitals with opposite angular momentum projection have relatively large entropies, especially in spherical nuclei. This analysis provides a guide for designing more efficient quantum algorithms for the noisy intermediate-scale quantum era.
翻訳日:2023-09-19 23:05:22 公開日:2023-09-18
# 実践的・自動ドメイン適応のための教師なし評価指標の検討

A Study of Unsupervised Evaluation Metrics for Practical and Automatic Domain Adaptation ( http://arxiv.org/abs/2308.00287v2 )

ライセンス: Link先を確認
Minghao Chen, Zepeng Gao, Shuai Zhao, Qibo Qiu, Wenxiao Wang, Binbin Lin, Xiaofei He(参考訳) unsupervised domain adaptation(uda)メソッドは、ラベルのないターゲットドメインへのモデル転送を容易にする。 しかし、これらの手法はハイパーパラメータチューニングとモデル選択のためのラベル付きターゲット検証セットを必要とする。 本稿では,対象の検証ラベルにアクセスすることなく,移動モデルの品質を評価できる評価指標を見つけることを目的とする。 まず,モデル予測の相互情報に基づく計量から始める。 経験分析を通して、この計量の3つの主要な問題を特定する。 1)ソース構造を考慮に入れない。 2) 容易に攻撃することができる。 3) ソースとターゲットの特徴の過剰な無視による負の転送の検出に失敗する。 最初の2つの問題に対処するために、情報源の精度を指標に組み込み、トレーニング中に保持される新しいMLP分類器を採用し、その結果を大幅に改善する。 最終課題に対処するため、この拡張メトリックをデータ拡張と統合し、ACM(Augmentation Consistency Metric)と呼ばれる新しい教師なしUDAメトリックを作成した。 さらに,これまでの実験環境の欠点を実証し,提案手法の有効性を検証するために大規模実験を行った。 さらに、我々の測定値を用いて最適なハイパーパラメータ集合を自動検索し、4つの共通ベンチマークで手動チューニングしたセットよりも優れた性能を実現する。 コードはもうすぐ入手できる。

Unsupervised domain adaptation (UDA) methods facilitate the transfer of models to target domains without labels. However, these methods necessitate a labeled target validation set for hyper-parameter tuning and model selection. In this paper, we aim to find an evaluation metric capable of assessing the quality of a transferred model without access to target validation labels. We begin with the metric based on mutual information of the model prediction. Through empirical analysis, we identify three prevalent issues with this metric: 1) It does not account for the source structure. 2) It can be easily attacked. 3) It fails to detect negative transfer caused by the over-alignment of source and target features. To address the first two issues, we incorporate source accuracy into the metric and employ a new MLP classifier that is held out during training, significantly improving the result. To tackle the final issue, we integrate this enhanced metric with data augmentation, resulting in a novel unsupervised UDA metric called the Augmentation Consistency Metric (ACM). Additionally, we empirically demonstrate the shortcomings of previous experiment settings and conduct large-scale experiments to validate the effectiveness of our proposed metric. Furthermore, we employ our metric to automatically search for the optimal hyper-parameter set, achieving superior performance compared to manually tuned sets across four common benchmarks. Codes will be available soon.
翻訳日:2023-09-19 22:59:56 公開日:2023-09-18
# 個人化フェデレーション学習のバックドア化

You Can Backdoor Personalized Federated Learning ( http://arxiv.org/abs/2307.15971v2 )

ライセンス: Link先を確認
Tiandi Ye, Cen Chen, Yinggui Wang, Xiang Li and Ming Gao(参考訳) 既存の研究は主に、すべてのクライアントが単一のグローバルモデルをトレーニングするために協力する、汎用的な統合学習シナリオにおけるバックドア攻撃と防御に焦点を当てている。 Qinらによる最近の研究(2023年)は、各クライアントがそのローカルデータに基づいてパーソナライズされたモデルを構築する、パーソナライズされたフェデレーションラーニング(pFL)シナリオにおけるバックドアアタックの最初の調査である。 特に, <textit{parameter decoupling} を用いたpFL法は, バックドア攻撃に対するロバスト性を著しく向上することを示した。 しかし,本論文では,パラメータデカップリングを用いたpFL法がバックドア攻撃に対して脆弱であることを示す。 パラメータデカップリングによるpFL法の抵抗は、悪意のあるクライアントと良質なクライアントの間の異種分類器に起因する。 1)データ不均一性は本質的にクライアントの間に存在し、(2)悪意のあるクライアントによる中毒はデータの不均一性をさらに悪化させる。 これらの問題に対処するために,(1)分類器を固定したまま特徴エンコーダのみを毒殺すること,(2)雑音導入により分類器を多様化し,良質なクライアントをシミュレートすること,の2つの簡単な方法であるBapFLを提案する。 様々な条件下で3つのベンチマークデータセットを広範囲に実験した結果,提案手法の有効性が示された。 さらに,6種類の防御手法の有効性を評価し,最善の防御であるマルチクラムが存在する場合でもbapflが依然として重大な脅威であることを確認した。 pFLシナリオにおける攻撃および防衛戦略に関するさらなる研究を刺激したいと思っています。 コードは、https://github.com/BapFL/code.comで入手できる。

Existing research primarily focuses on backdoor attacks and defenses within the generic federated learning scenario, where all clients collaborate to train a single global model. A recent study conducted by Qin et al. (2023) marks the initial exploration of backdoor attacks within the personalized federated learning (pFL) scenario, where each client constructs a personalized model based on its local data. Notably, the study demonstrates that pFL methods with \textit{parameter decoupling} can significantly enhance robustness against backdoor attacks. However, in this paper, we whistleblow that pFL methods with parameter decoupling are still vulnerable to backdoor attacks. The resistance of pFL methods with parameter decoupling is attributed to the heterogeneous classifiers between malicious clients and benign counterparts. We analyze two direct causes of the heterogeneous classifiers: (1) data heterogeneity inherently exists among clients and (2) poisoning by malicious clients further exacerbates the data heterogeneity. To address these issues, we propose a two-pronged attack method, BapFL, which comprises two simple yet effective strategies: (1) poisoning only the feature encoder while keeping the classifier fixed and (2) diversifying the classifier through noise introduction to simulate that of the benign clients. Extensive experiments on three benchmark datasets under varying conditions demonstrate the effectiveness of our proposed attack. Additionally, we evaluate the effectiveness of six widely used defense methods and find that BapFL still poses a significant threat even in the presence of the best defense, Multi-Krum. We hope to inspire further research on attack and defense strategies in pFL scenarios. The code is available at: https://github.com/BapFL/code.
翻訳日:2023-09-19 22:58:01 公開日:2023-09-18
# 固定積分型ニューラルネットワーク

Fixed Integral Neural Networks ( http://arxiv.org/abs/2307.14439v2 )

ライセンス: Link先を確認
Ryan Kortvelesy(参考訳) ニューラルネットワークで表される学習関数に対して統合を行うのに有用であることが多い。 しかし、この積分は通常数値的に行われ、学習関数(特にニューラルネットワーク)上の解析的積分は一般に難解であると見なされる。 本研究では、学習した関数の積分を$f$で表す方法を提案する。 これにより、ニューラルネットワークの正確な積分を計算でき、制約付きニューラルネットワークを積分に直接制約を適用してパラメータ化することができる。 重要な点として、多くのアプリケーション(例えば確率分布、距離メトリクスなど)に必要な条件として、$f$を正に制限する手法も紹介する。 最後に,固定積分ニューラルネットワーク(finn)を活用可能なアプリケーションをいくつか紹介する。

It is often useful to perform integration over learned functions represented by neural networks. However, this integration is usually performed numerically, as analytical integration over learned functions (especially neural networks) is generally viewed as intractable. In this work, we present a method for representing the analytical integral of a learned function $f$. This allows the exact integral of a neural network to be computed, and enables constrained neural networks to be parametrised by applying constraints directly to the integral. Crucially, we also introduce a method to constrain $f$ to be positive, a necessary condition for many applications (e.g. probability distributions, distance metrics, etc). Finally, we introduce several applications where our fixed-integral neural network (FINN) can be utilised.
翻訳日:2023-09-19 22:57:26 公開日:2023-09-18
# 自律運転における異常検出のための世界モデルの可能性を探る

Exploring the Potential of World Models for Anomaly Detection in Autonomous Driving ( http://arxiv.org/abs/2308.05701v2 )

ライセンス: Link先を確認
Daniel Bogdoll, Lukas Bosch, Tim Joseph, Helen Gremmelmaier, Yitian Yang, J. Marius Z\"ollner(参考訳) 近年、自動運転は飛躍的な進歩を遂げている。 自動運転車はクローズドな環境で高い性能を示すが、予期せぬ状況に直面すると困難に遭遇する。 同時に、エージェントが潜在的なアクションに応じて未来を予測する方法として、モデルベースの強化学習の分野に世界モデルが出現した。 これにより、少ない報酬と複雑な制御タスクに優れた結果がもたらされた。 この研究は、自動運転の領域で異常検出を行うために、世界モデルをどのように活用できるかの概要を提供する。 我々は,世界モデルのキャラクタリゼーションを提供し,個々のコンポーネントを異常検出の以前の研究に関連付けて,さらなる研究を促進する。

In recent years there have been remarkable advancements in autonomous driving. While autonomous vehicles demonstrate high performance in closed-set conditions, they encounter difficulties when confronted with unexpected situations. At the same time, world models emerged in the field of model-based reinforcement learning as a way to enable agents to predict the future depending on potential actions. This led to outstanding results in sparse reward and complex control tasks. This work provides an overview of how world models can be leveraged to perform anomaly detection in the domain of autonomous driving. We provide a characterization of world models and relate individual components to previous works in anomaly detection to facilitate further research in the field.
翻訳日:2023-09-19 22:47:41 公開日:2023-09-18
# AspectMMKG: アスペクト認識エンティティを備えたマルチモーダル知識グラフ

AspectMMKG: A Multi-modal Knowledge Graph with Aspect-aware Entities ( http://arxiv.org/abs/2308.04992v2 )

ライセンス: Link先を確認
Jingdan Zhang, Jiaan Wang, Xiaodan Wang, Zhixu Li, Yanghua Xiao(参考訳) マルチモーダル知識グラフ(MMKG)は、さまざまなモーダルデータ(テキストや画像など)を組み合わせて、エンティティを包括的に理解する。 近年の大規模MMKGの進歩にもかかわらず、既存のMMKGはエンティティの多面的な性質を無視し、さまざまな観点からエンティティを理解する能力を制限する。 本稿では,アスペクト関連画像を持つ最初のMMKGであるAspectMMKGを構築する。 具体的には、知識ベースからアスペクト関連画像を集め、さらに知識ベースからアスペクト関連文をクエリとして抽出し、オンライン画像検索エンジンを介して多数のアスペクト関連画像を取得する。 最後に、AspectMMKGには2,380のエンティティ、18,139のエンティティアスペクト、645,383のアスペクト関連イメージが含まれている。 本稿では,エンティティ・アスペクト・リンク(EAL)下流タスクにおけるAspectMMKGのユーザビリティを実証し,従来のEALモデルがAspectMMKGの助けを借りて新たな最先端性能を実現することを示す。 AspectMMKGにおけるアスペクト関連画像の修正と拡張を目的としたアスペクト関連画像検索(AIR)モデルを提案する。 エンティティ画像,アスペクト,アスペクト情報を組み込んで,エンティティ画像とエンティティアスペクト関連画像の関係を学習するために,airモデルを訓練する。 実験結果は、エアモデルが与えられたエンティティ w.r.t の異なる側面に適した画像を取得することができることを示した。

Multi-modal knowledge graphs (MMKGs) combine different modal data (e.g., text and image) for a comprehensive understanding of entities. Despite the recent progress of large-scale MMKGs, existing MMKGs neglect the multi-aspect nature of entities, limiting the ability to comprehend entities from various perspectives. In this paper, we construct AspectMMKG, the first MMKG with aspect-related images by matching images to different entity aspects. Specifically, we collect aspect-related images from a knowledge base, and further extract aspect-related sentences from the knowledge base as queries to retrieve a large number of aspect-related images via an online image search engine. Finally, AspectMMKG contains 2,380 entities, 18,139 entity aspects, and 645,383 aspect-related images. We demonstrate the usability of AspectMMKG in entity aspect linking (EAL) downstream task and show that previous EAL models achieve a new state-of-the-art performance with the help of AspectMMKG. To facilitate the research on aspect-related MMKG, we further propose an aspect-related image retrieval (AIR) model, that aims to correct and expand aspect-related images in AspectMMKG. We train an AIR model to learn the relationship between entity image and entity aspect-related images by incorporating entity image, aspect, and aspect image information. Experimental results indicate that the AIR model could retrieve suitable images for a given entity w.r.t different aspects.
翻訳日:2023-09-19 22:47:30 公開日:2023-09-18
# 適応学習戦略を持つ物理情報ニューラルネットワークを用いた圧縮機カスケード流れの検討

Investigation of Compressor Cascade Flow Using Physics- Informed Neural Networks with Adaptive Learning Strategy ( http://arxiv.org/abs/2308.04501v2 )

ライセンス: Link先を確認
Zhihui Li, Francesco Montomoli, Sanjiv Sharma(参考訳) 本研究では,新しい物理学インフォームドニューラルネットワーク(pinns)を用いて,圧縮器カスケードの流れ場を初めて予測する。 従来の学習方法と異なり、ピンの収束を改善するために、学習速度を動的に調整して適応重みを組み込むことにより、勾配の不均衡を緩和する新しい適応学習戦略を用いる。 PINNの性能は,前向きと逆向きの両方の問題を解くことで評価する。 前方問題では、関係変数間の物理関係をカプセル化することにより、圧縮機の流れ場を正確に予測する効果を示す。 PINNはまた、従来のCFDアプローチ、特に完全な境界条件を欠いたシナリオにおいて、逆エンジニアリング問題のように明らかな優位性を示す。 ピンは部分速度ベクトルと壁近傍圧力情報のみに基づいて圧縮機カスケードの流れ場を再構築することに成功した。 さらに、ピンはラベル付きデータから生じる様々なレベルの不確かさの環境においてロバストな性能を示す。 この研究は、PINNが現在の支配的なCFD手法と並行して、ターボ機械設計者に追加かつ有望な選択肢を提供できることを示す証拠を提供する。

In this study, we utilize the emerging Physics Informed Neural Networks (PINNs) approach for the first time to predict the flow field of a compressor cascade. Different from conventional training methods, a new adaptive learning strategy that mitigates gradient imbalance through incorporating adaptive weights in conjunction with dynamically adjusting learning rate is used during the training process to improve the convergence of PINNs. The performance of PINNs is assessed here by solving both the forward and inverse problems. In the forward problem, by encapsulating the physical relations among relevant variables, PINNs demonstrate their effectiveness in accurately forecasting the compressor's flow field. PINNs also show obvious advantages over the traditional CFD approaches, particularly in scenarios lacking complete boundary conditions, as is often the case in inverse engineering problems. PINNs successfully reconstruct the flow field of the compressor cascade solely based on partial velocity vectors and near-wall pressure information. Furthermore, PINNs show robust performance in the environment of various levels of aleatory uncertainties stemming from labeled data. This research provides evidence that PINNs can offer turbomachinery designers an additional and promising option alongside the current dominant CFD methods.
翻訳日:2023-09-19 22:47:05 公開日:2023-09-18
# ユニモーダルからマルチモーダルへ:深い生成モデルによるsEMGに基づくパターン認識の改善

From Unimodal to Multimodal: improving sEMG-Based Pattern Recognition via deep generative models ( http://arxiv.org/abs/2308.04091v2 )

ライセンス: Link先を確認
Wentao Wei, Linyan Ren(参考訳) 目的: マルチモーダルハンドジェスチャ認識(HGR)システムでは, 単調なHGRシステムと比較して高い認識精度が得られる。 しかし、マルチモーダルなジェスチャー認識データを取得するには、ユーザーが追加のセンサーを装着する必要があるため、ハードウェアコストが増加する。 方法: 仮想慣性計測ユニット(IMU)信号を用いた表面筋電図(sEMG)に基づくHGRの精度向上のための新しい生成手法を提案する。 具体的には,前腕sEMG信号と前腕IMU信号の内在的相関に基づいて深部生成モデルを訓練し,入力前腕sEMG信号から仮想前腕IMU信号を生成する。 その後、SEMG信号と仮想IMU信号は、ジェスチャー認識のためのマルチモーダル畳み込みニューラルネットワーク(CNN)モデルに入力される。 結果: 公開されている5つのデータベースと28の被験者からなる収集データベースを含む6つのデータベースに対して, sEMGデータとIMUデータの両方を含む38のジェスチャーを行った。 その結果,提案手法はsEMGをベースとした単調HGR法(2.15%~13.10%増加)よりも有意に優れていた。 さらに、仮想加速度(ACC)信号を使用する場合、マルチモーダルHGRの精度レベルを密に一致させる。 結論: 深部生成モデルにより生成された仮想IMU信号の統合は, sEMGベースのHGRの精度を著しく向上することを示した。 意義: 提案手法は, 生体工学分野における自然および費用効果の高い筋電インタフェースのさらなる発展を促進するために, センサハードウェアを付加することなく, ユニモーダルhgrとマルチモーダルhgrのギャップを埋める試みである。

Objective: Multimodal hand gesture recognition (HGR) systems can achieve higher recognition accuracy compared to unimodal HGR systems. However, acquiring multimodal gesture recognition data typically requires users to wear additional sensors, thereby increasing hardware costs. Methods: This paper proposes a novel generative approach to improve Surface Electromyography (sEMG)-based HGR accuracy via virtual Inertial Measurement Unit (IMU) signals. Specifically, we trained a deep generative model based on the intrinsic correlation between forearm sEMG signals and forearm IMU signals to generate virtual forearm IMU signals from the input forearm sEMG signals at first. Subsequently, the sEMG signals and virtual IMU signals were fed into a multimodal Convolutional Neural Network (CNN) model for gesture recognition. Results: We conducted evaluations on six databases, including five publicly available databases and our collected database comprising 28 subjects performing 38 gestures, containing both sEMG and IMU data. The results show that our proposed approach significantly outperforms the sEMG-based unimodal HGR approach (with increases of 2.15%-13.10%). Moreover, it achieves accuracy levels closely matching those of multimodal HGR when using virtual Acceleration (ACC) signals. Conclusion: It demonstrates that incorporating virtual IMU signals, generated by deep generative models, can significantly improve the accuracy of sEMG-based HGR. Significance: The proposed approach represents a successful attempt to bridge the gap between unimodal HGR and multimodal HGR without additional sensor hardware, which can help to promote further development of natural and cost-effective myoelectric interfaces in the biomedical engineering field.
翻訳日:2023-09-19 22:46:26 公開日:2023-09-18
# 時間対称深層学習による細胞追跡の促進

Enhancing Cell Tracking with a Time-Symmetric Deep Learning Approach ( http://arxiv.org/abs/2308.03887v2 )

ライセンス: Link先を確認
Gergely Szab\'o, Paolo Bonaiuti, Andrea Ciliberto, Andr\'as Horv\'ath(参考訳) ビデオ顕微鏡記録によるライブ細胞の正確な追跡は、一般的な最先端の画像処理に基づくオブジェクト追跡手法では難しい課題である。 近年、いくつかの既存および新しいアプリケーションがディープラーニングベースのフレームワークをこのタスクに統合しようと試みているが、その多くは、アーキテクチャや一般的な学習を妨げる他の前提に埋め込まれた連続的なフレームベースのトラッキングに依存している。 この問題に対処するため,我々は,細胞を連続するフレームに制限することなく,その時空間的近傍に基づいて追跡できるという仮定にのみ依存する,新しいディープラーニングベースの追跡手法の開発を目標とした。 提案手法は,事前の仮定を必要とせず,予測者によってセルの動作パターンを完全に学習できるという付加的な利点があり,大量の映像フレームを重いアーティファクトで処理できる可能性がある。 提案手法の有効性は, 生物学的に動機づけた検証戦略を用いて実証し, 複数の最先端細胞追跡法と比較した。

The accurate tracking of live cells using video microscopy recordings remains a challenging task for popular state-of-the-art image processing based object tracking methods. In recent years, several existing and new applications have attempted to integrate deep-learning based frameworks for this task, but most of them still heavily rely on consecutive frame based tracking embedded in their architecture or other premises that hinder generalized learning. To address this issue, we aimed to develop a new deep-learning based tracking method that relies solely on the assumption that cells can be tracked based on their spatio-temporal neighborhood, without restricting it to consecutive frames. The proposed method has the additional benefit that the motion patterns of the cells can be learned completely by the predictor without any prior assumptions, and it has the potential to handle a large number of video frames with heavy artifacts. The efficacy of the proposed method is demonstrated through biologically motivated validation strategies and compared against multiple state-of-the-art cell tracking methods.
翻訳日:2023-09-19 22:45:53 公開日:2023-09-18
# 一般化可能な人物識別のための部分認識変換器

Part-Aware Transformer for Generalizable Person Re-identification ( http://arxiv.org/abs/2308.03322v2 )

ライセンス: Link先を確認
Hao Ni, Yuke Li, Lianli Gao, Heng Tao Shen, Jingkuan Song(参考訳) ドメイン一般化者再識別(DG-ReID)は、ソースドメインのモデルをトレーニングし、見えないドメインでうまく一般化することを目的としている。 ビジョントランスフォーマーは通常、分布シフト下での一般的なcnnネットワークよりも優れた一般化能力をもたらす。 しかし、TransformerベースのReIDモデルは、ソースドメインの教師付き学習戦略のため、必然的にドメイン固有のバイアスに適合しない。 異なるidのグローバルイメージは異なる特徴を持つべきであるが、同様の局所的な部分(黒いバックパックなど)は、この制約によって拘束されない。 そこで本研究では,DG-ReID に共通する局所的な視覚情報をマイニングするために,CSL (Cross-ID similarity Learning) と呼ばれるプロキシタスクを設計することで,DG-ReID のための純粋なトランスフォーマーモデルを提案する。 このプロキシタスクは、IDラベルに関係なく部品の視覚的類似性のみを気にするので、モデルが汎用的な特徴を学習することができるため、ドメイン固有のバイアスの副作用を軽減することができる。 CSLで得られる局所的類似性に基づいて、グローバルな特徴の一般化をさらに向上するために、PSD(Part-guided Self-Distillation)を提案する。 提案手法は,ほとんどのDG ReID設定下での最先端性能を実現する。 Market$\to$Duke設定では、当社の手法は、それぞれランク1とmAPの10.9%、12.8%を超える。 コードはhttps://github.com/liyuke65535/Part-Aware-Transformerで入手できる。

Domain generalization person re-identification (DG-ReID) aims to train a model on source domains and generalize well on unseen domains. Vision Transformer usually yields better generalization ability than common CNN networks under distribution shifts. However, Transformer-based ReID models inevitably over-fit to domain-specific biases due to the supervised learning strategy on the source domain. We observe that while the global images of different IDs should have different features, their similar local parts (e.g., black backpack) are not bounded by this constraint. Motivated by this, we propose a pure Transformer model (termed Part-aware Transformer) for DG-ReID by designing a proxy task, named Cross-ID Similarity Learning (CSL), to mine local visual information shared by different IDs. This proxy task allows the model to learn generic features because it only cares about the visual similarity of the parts regardless of the ID labels, thus alleviating the side effect of domain-specific biases. Based on the local similarity obtained in CSL, a Part-guided Self-Distillation (PSD) is proposed to further improve the generalization of global features. Our method achieves state-of-the-art performance under most DG ReID settings. Under the Market$\to$Duke setting, our method exceeds state-of-the-art by 10.9% and 12.8% in Rank1 and mAP, respectively. The code is available at https://github.com/liyuke65535/Part-Aware-Transformer.
翻訳日:2023-09-19 22:45:36 公開日:2023-09-18
# ラショモンセットの探索は医療データのための信頼できる説明を支援する

Exploration of the Rashomon Set Assists Trustworthy Explanations for Medical Data ( http://arxiv.org/abs/2308.11446v2 )

ライセンス: Link先を確認
Katarzyna Kobyli\'nska, Mateusz Krzyzi\'nski, Rafa{\l} Machowicz, Mariusz Adamek, Przemys{\l}aw Biecek(参考訳) 機械学習のモデリングプロセスは、従来、選択されたパフォーマンスメトリックを最大化する単一のモデルを選択することで頂点に達する。 しかし、このアプローチはわずかに劣ったモデルのより深い分析を捨てる結果となる。 特に医学や医療の分野では、目標は予測を超えて価値ある洞察を生み出すことであり、単一のモデルのみに依存することは誤解を招くか不完全な結論をもたらす可能性がある。 この問題は、最大値に近いパフォーマンスを持つ$\textit{Rashomon set}$と呼ばれるモデルの集合を扱う場合に特に関係がある。 このような集合は多数あり、異なる方法でデータを記述するモデルを含んでいる可能性がある。 本稿では,Rashomon集合におけるモデル探索の新たなプロセスを紹介し,従来のモデリング手法を拡張した。 動作の異なるモデルを検出するために,$\texttt{Rashomon_DETECT}$アルゴリズムを提案する。 これは、eXplainable Artificial Intelligence (XAI)分野の最近の発展に基づいている。 モデル間の変動効果の差を定量化するために,機能的データ解析に基づくプロファイル分散指数(PDI)を導入する。 本手法の有効性を示すため,造血細胞リンパ血球症(hlh)患者の生存率の予測に本手法を応用した基礎的検討を行った。 さらに,我々のアプローチを他の医療データセットにベンチマークし,様々な状況においてその汎用性と有用性を示す。 異なる振る舞いモデルがRashomonセットで検出された場合、それらの組み合わせ分析によりより信頼性の高い結論が導かれる。

The machine learning modeling process conventionally culminates in selecting a single model that maximizes a selected performance metric. However, this approach leads to abandoning a more profound analysis of slightly inferior models. Particularly in medical and healthcare studies, where the objective extends beyond predictions to valuable insight generation, relying solely on a single model can result in misleading or incomplete conclusions. This problem is particularly pertinent when dealing with a set of models known as $\textit{Rashomon set}$, with performance close to maximum one. Such a set can be numerous and may contain models describing the data in a different way, which calls for comprehensive analysis. This paper introduces a novel process to explore models in the Rashomon set, extending the conventional modeling approach. We propose the $\texttt{Rashomon_DETECT}$ algorithm to detect models with different behavior. It is based on recent developments in the eXplainable Artificial Intelligence (XAI) field. To quantify differences in variable effects among models, we introduce the Profile Disparity Index (PDI) based on measures from functional data analysis. To illustrate the effectiveness of our approach, we showcase its application in predicting survival among hemophagocytic lymphohistiocytosis (HLH) patients - a foundational case study. Additionally, we benchmark our approach on other medical data sets, demonstrating its versatility and utility in various contexts. If differently behaving models are detected in the Rashomon set, their combined analysis leads to more trustworthy conclusions, which is of vital importance for high-stakes applications such as medical applications.
翻訳日:2023-09-19 22:38:52 公開日:2023-09-18
# 量子状態ベクトルシミュレーションのスケールでのエネルギー効率

Energy Efficiency of Quantum Statevector Simulation at Scale ( http://arxiv.org/abs/2308.07402v2 )

ライセンス: Link先を確認
Jakub Adamski and James Peter Richings and Oliver Thomson Brown(参考訳) 古典シミュレーションは量子コンピューティングの発展に不可欠であり、その指数関数的スケーリングは現代のスーパーコンピュータを簡単に満たすことができる。 本稿では,大容量量子フーリエ変換 (QFT) シミュレーションの性能とエネルギー消費を,QuEST ツールキットを用いたイギリスのスーパーコンピュータサービス ARCHER2 上で行うことを検討する。 cpuのクロック周波数とノードのメモリサイズを考慮し、キャッシュブロッキングを使って回路を再構成し、通信を最小化する。 2.25GHzの代わりに2.00GHzを使用すると、実行時の5%の増加で25%のエネルギーを節約できることがわかった。 高いノードメモリは、より効率が良く、ユーザがCUを少なくする可能性があるが、実行時のペナルティが高い。 最後に,必要な通信を必要としないキャッシュブロッキングqft回路を提案する。 その結果、4,096のARCHER2ノード上で44量子ビットシミュレーションを行い、40%高速なシミュレーションと35%の省エネを実現した。

Classical simulations are essential for the development of quantum computing, and their exponential scaling can easily fill any modern supercomputer. In this paper we consider the performance and energy consumption of large Quantum Fourier Transform (QFT) simulations run on ARCHER2, the UK's National Supercomputing Service, with QuEST toolkit. We take into account CPU clock frequency and node memory size, and use cache-blocking to rearrange the circuit, which minimises communications. We find that using 2.00GHz instead of 2.25GHz can save as much as 25% of energy at 5% increase in runtime. Higher node memory also has the potential to be more efficient, and cost the user fewer CUs, but at higher runtime penalty. Finally, we present a cache-blocking QFT circuit, which halves the required communication. All our optimisations combined result in 40% faster simulations and 35% energy savings in 44 qubit simulations on 4,096 ARCHER2 nodes.
翻訳日:2023-09-19 22:36:44 公開日:2023-09-18
# NOVIS: 終端から終端に近いビデオインスタンスセグメンテーションの1例

NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation ( http://arxiv.org/abs/2308.15266v2 )

ライセンス: Link先を確認
Tim Meinhardt and Matt Feiszli and Yuchen Fan and Laura Leal-Taixe and Rakesh Ranjan(参考訳) 最近まで、ビデオインスタンスセグメンテーション(vis)コミュニティは、オフラインメソッドは一般的にフレームによるオンライン処理よりも優れているという共通の信念の下で運営されていた。 しかし、最近のオンライン手法の成功は、特に挑戦的で長いビデオシーケンスに対するこの信念に疑問を呈している。 我々は、この研究を最近の観察に対する反論として理解し、コミュニティに対して、ほぼオンラインに近いVISアプローチに焦点を合わせるよう訴える。 本論を支持するために,様々な処理パラダイムに関する詳細な解析と,新しいエンドツーエンドトレーニング可能なnovis(near-online video instance segmentation)法を提案する。 我々のトランスモデルでは,フレームクリップの時空間マスクボリュームを直接予測し,重複埋め込みによるクリップ間のインスタンス追跡を行う。 NOVISは、手作りの追跡ヒューリスティックを回避する最初のニアオンラインVISアプローチである。 我々は既存のすべてのVIS手法を大きなマージンで上回り、YouTube-VIS (2019/2021) とOVISベンチマークの両方で最新の結果を提供する。

Until recently, the Video Instance Segmentation (VIS) community operated under the common belief that offline methods are generally superior to a frame by frame online processing. However, the recent success of online methods questions this belief, in particular, for challenging and long video sequences. We understand this work as a rebuttal of those recent observations and an appeal to the community to focus on dedicated near-online VIS approaches. To support our argument, we present a detailed analysis on different processing paradigms and the new end-to-end trainable NOVIS (Near-Online Video Instance Segmentation) method. Our transformer-based model directly predicts spatio-temporal mask volumes for clips of frames and performs instance tracking between clips via overlap embeddings. NOVIS represents the first near-online VIS approach which avoids any handcrafted tracking heuristics. We outperform all existing VIS methods by large margins and provide new state-of-the-art results on both YouTube-VIS (2019/2021) and the OVIS benchmarks.
翻訳日:2023-09-19 22:27:13 公開日:2023-09-18
# 高速フィードフォワードネットワーク

Fast Feedforward Networks ( http://arxiv.org/abs/2308.14711v2 )

ライセンス: Link先を確認
Peter Belcak and Roger Wattenhofer(参考訳) 我々は,高速フィードフォワード(FFF)アーキテクチャを導入することで,層の大きさと推論コストの線形リンクを断ち切る。 我々はFFFがフィードフォワードネットワークよりも最大220倍高速で、エキスパートネットワークより最大6倍高速であり、ノイズのない条件付き実行によるエキスパートの混合よりも優れたトレーニング特性を示すことを示した。 FFFを限界まで押し上げれば、予測性能の94.2%を保ちながら、視覚トランスフォーマーの推論に1%の層ニューロンを使用できることを示す。

We break the linear link between the layer size and its inference cost by introducing the fast feedforward (FFF) architecture, a log-time alternative to feedforward networks. We demonstrate that FFFs are up to 220x faster than feedforward networks, up to 6x faster than mixture-of-experts networks, and exhibit better training properties than mixtures of experts thanks to noiseless conditional execution. Pushing FFFs to the limit, we show that they can use as little as 1% of layer neurons for inference in vision transformers while preserving 94.2% of predictive performance.
翻訳日:2023-09-19 22:26:29 公開日:2023-09-18
# 因果性に基づく特徴重要度定量法:PN-FI、PS-FI、PNS-FI

Causality-Based Feature Importance Quantifying Methods: PN-FI, PS-FI and PNS-FI ( http://arxiv.org/abs/2308.14474v2 )

ライセンス: Link先を確認
Shuxian Du, Yaxiu Sun and Changyi Du(参考訳) 現在のMLフィールドモデルでは、より大きく複雑になり、モデルトレーニングに使用されるデータも量的に大きくなり、次元的にも高くなる。 したがって、より良いモデルを訓練し、トレーニング時間と計算資源を節約するためには、前処理段階における優れた特徴選択(FS)法が必要である。 特徴選択の基礎であるため、特徴重要度(FI)が非常に重要である。 そこで本稿では,機能の重要性を定量化するために,pn(必要可能性),pn(充足可能性),pns(必要可能性と充足可能性)の計算を創造的に導入し,画像認識タスクにおける特徴の重要性を示すpn-fi,画像生成タスクにおける特徴の重要度を示すps-fi,その両方を測定するpns-fiの3つの新しいfi計測手法を提案する。 本論文の本体は,PS-FI, PN-FI, PNS-FIの3つの特徴, 犬の鼻, 犬の目, 犬の口の計算方法を示す3つのRCTである。 実験の結果, FI値は上下境界が狭い間隔であることがわかった。 第二に、特徴犬の目が一番重要で、他の2つはほぼ同じです。 第3に、PNS と PN の境界は PS の境界よりも厳密である。

In the current ML field models are getting larger and more complex, and data used for model training are also getting larger in quantity and higher in dimensions. Therefore, in order to train better models, and save training time and computational resources, a good Feature Selection (FS) method in the preprocessing stage is necessary. Feature importance (FI) is of great importance since it is the basis of feature selection. Therefore, this paper creatively introduces the calculation of PN (the probability of Necessity), PN (the probability of Sufficiency), and PNS (the probability of Necessity and Sufficiency) of Causality into quantifying feature importance and creates 3 new FI measuring methods, PN-FI, which means how much importance a feature has in image recognition tasks, PS-FI that means how much importance a feature has in image generating tasks, and PNS-FI which measures both. The main body of this paper is three RCTs, with whose results we show how PS-FI, PN-FI, and PNS-FI of 3 features, dog nose, dog eyes, and dog mouth are calculated. The experiments show that firstly, FI values are intervals with tight upper and lower bounds. Secondly, the feature dog eyes has the most importance while the other two have almost the same. Thirdly, the bounds of PNS and PN are tighter than the bounds of PS.
翻訳日:2023-09-19 22:26:17 公開日:2023-09-18
# 量子インフォームド再帰最適化アルゴリズム

Quantum-Informed Recursive Optimization Algorithms ( http://arxiv.org/abs/2308.13607v2 )

ライセンス: Link先を確認
Jernej Rudi Fin\v{z}gar, Aron Kerschbaumer, Martin J. A. Schuetz, Christian B. Mendl, Helmut G. Katzgraber(参考訳) 組合せ最適化問題に対する量子インフォームド再帰最適化(QIRO)アルゴリズムのファミリーを提案し,実装する。 提案手法では,量子資源を活用し,問題を再帰的に単純化する問題特有の古典的還元ステップで使用される情報を得る。 これらの削減ステップは、量子成分の限界に対処し、制約付き最適化問題における解実現可能性を保証する。 さらに,量子ハードウェアの要求を増加させることなく,アルゴリズムの性能をさらに向上させるためにバックトラッキング技術を用いる。 我々は,量子近似最適化アルゴリズム (qaoa) の浅層(深さ$p=1$) 回路の古典的シミュレーションによる相関関係をqiroに通知し, 最大独立集合のインスタンスを解き, 最大充足可能性問題を数百変数で解いた。 また、Amazon Braket上で利用可能な中性原子量子プロセッサにQIROをデプロイして、グラフの大きな独立した集合を見つける方法を示す。 要約すると, この手法は, 比較的弱い量子資源でも, シュミレーション・アニーリングや欲望アルゴリズムのような古典的ヒューリスティックスに匹敵する結果が得られる。 さらに、これらの量子リソースの品質の向上はアルゴリズムの性能を改善し、QIROの可能性を強調している。 特に、QIROのモジュラー性は様々な修正の道を提供し、組合せ最適化のためのより広範なハイブリッド量子古典アルゴリズムを設計するための青写真として位置づけられている。

We propose and implement a family of quantum-informed recursive optimization (QIRO) algorithms for combinatorial optimization problems. Our approach leverages quantum resources to obtain information that is used in problem-specific classical reduction steps that recursively simplify the problem. These reduction steps address the limitations of the quantum component and ensure solution feasibility in constrained optimization problems. Additionally, we use backtracking techniques to further improve the performance of the algorithm without increasing the requirements on the quantum hardware. We demonstrate the capabilities of our approach by informing QIRO with correlations from classical simulations of shallow (depth $p=1$) circuits of the quantum approximate optimization algorithm (QAOA), solving instances of maximum independent set and maximum satisfiability problems with hundreds of variables. We also demonstrate how QIRO can be deployed on a neutral atom quantum processor available online on Amazon Braket to find large independent sets of graphs. In summary, our scheme achieves results comparable to classical heuristics, such as simulated annealing and greedy algorithms, even with relatively weak quantum resources. Furthermore, enhancing the quality of these quantum resources improves the performance of the algorithms, highlighting the potential of QIRO. Notably, the modular nature of QIRO offers various avenues for modifications, positioning our work as a blueprint for designing a broader class of hybrid quantum-classical algorithms for combinatorial optimization.
翻訳日:2023-09-19 22:25:51 公開日:2023-09-18
# 言語・アズ・リアリティ:ジェネレーティブAIを用いた1001夜の共作ストーリーテリングゲーム体験

Language as Reality: A Co-Creative Storytelling Game Experience in 1001 Nights using Generative AI ( http://arxiv.org/abs/2308.12915v2 )

ライセンス: Link先を確認
Yuqian Sun, Zhouyi Li, Ke Fang, Chang Hee Lee, Ali Asadipour(参考訳) 本稿では,ゲーム内現実をプレイヤーがリードするaiネイティブゲーム「1001 nights」について紹介する。 この概念はウィトゲンシュタインの言語の境界によって決定される世界の限界という考え方に着想を得たものである。 GPT-4やStable Diffusionのような高度なAIツールを使うことで、ゲームの2回目のイテレーションでは、主人公のShahrzadが彼女の世界で言葉や物語を実現できる。 プレイヤーはaiキングとの会話を特定のキーワードに向かって制御し、ゲーム内の戦闘装備となる。 このインタラクティブな物語とテキストから画像への変換の混合は、ゲームの世界と現実の従来の境界を双対視点で克服する。 私たちは、オリジナルの伝承と比較して運命を変えようとするシャフルザードと、AIと協力して物語を作り、ゲーム世界を形作るプレイヤーに焦点を当てています。 我々は、AI生成コンテンツを用いて物語ゲームジャンルを強化し、AIネイティブなゲームプレイの可能性を探るため、そのようなゲームを実装するための技術的および設計要素について検討する。

In this paper, we present "1001 Nights", an AI-native game that allows players lead in-game reality through co-created storytelling with the character driven by large language model. The concept is inspired by Wittgenstein's idea of the limits of one's world being determined by the bounds of their language. Using advanced AI tools like GPT-4 and Stable Diffusion, the second iteration of the game enables the protagonist, Shahrzad, to realize words and stories in her world. The player can steer the conversation with the AI King towards specific keywords, which then become battle equipment in the game. This blend of interactive narrative and text-to-image transformation challenges the conventional border between the game world and reality through a dual perspective. We focus on Shahrzad, who seeks to alter her fate compared to the original folklore, and the player, who collaborates with AI to craft narratives and shape the game world. We explore the technical and design elements of implementing such a game with an objective to enhance the narrative game genre with AI-generated content and to delve into AI-native gameplay possibilities.
翻訳日:2023-09-19 22:25:25 公開日:2023-09-18
# 量子輸送における光誘起ロレンツ様力によるフロッケ非断熱核ダイナミクス

Floquet Nonadiabatic Nuclear Dynamics with Photoinduced Lorenz-Like Force in Quantum Transport ( http://arxiv.org/abs/2308.12660v2 )

ライセンス: Link先を確認
Jingqi Chen, Wei Liu, and Wenjie Dou(参考訳) 最近の論文 "Mosallanejad et al., Phys. B 107(18), 184314, 2023] では, 周期駆動時の金属表面近傍の非断熱的分子動力学を記述するためのフロケ電子摩擦モデルが導出されている。 本研究では,フロッケ駆動が量子輸送において反対称電子摩擦テンソルを導入できることを示す。 さらに, ローレンツ様の力は核運動に強く影響し, 低い電圧バイアスではフロケット駆動は核の温度を上昇させ, より大きな電圧バイアスではフロケット駆動は核の温度を低下させることができることを示した。 さらに、フロッケ駆動は電子輸送に強く影響を及ぼす。 最後に、電子電流を最大化する最適な周波数が存在することを示す。 Floquetの電子摩擦モデルは、Floquet駆動下での金属表面近傍の非断熱的分子動力学を研究する強力なツールとして期待できる。

In our recent paper [Mosallanejad et al., Phys. Rev. B 107(18), 184314, 2023], we have derived a Floquet electronic friction model to describe nonadiabatic molecular dynamics near metal surfaces in the presence of periodic driving. In this work, we demonstrate that Floquet driving can introduce an anti-symmetric electronic friction tensor in quantum transport, resulting in circular motion of the nuclei in the long time limit. Furthermore, we show that such a Lorentz-like force strongly affects nuclear motion: at lower voltage bias, Floquet driving can increase the temperature of nuclei; at larger voltage bias, Floquet driving can decrease the temperature of nuclei. In addition, Floquet driving can affect electron transport strenuously. Finally, we show that there is an optimal frequency that maximizes electron current. We expect that the Floquet electronic friction model is a powerful tool to study nonadiabatic molecular dynamics near metal surfaces under Floquet driving in complex systems.
翻訳日:2023-09-19 22:25:06 公開日:2023-09-18
# 言語モデルの効率的なベンチマーク

Efficient Benchmarking (of Language Models) ( http://arxiv.org/abs/2308.11696v3 )

ライセンス: Link先を確認
Yotam Perlitz, Elron Bandel, Ariel Gera, Ofir Arviv, Liat Ein-Dor, Eyal Shnarch, Noam Slonim, Michal Shmueli-Scheuer, Leshem Choshen(参考訳) 言語モデルの汎用性の向上により、LMは幅広い能力を包括的に評価する新しいクラスのベンチマークを生み出した。 このようなベンチマークは、モデル当たり数千gpu時間に達する膨大な計算コストと関連している。 しかし,これらの評価作業の効率性は文献上ではほとんど議論されなかった。 本稿では,lm評価の計算コストを,信頼性を損なうことなくインテリジェントに削減する,効率的なベンチマーク問題を提案する。 helmベンチマークをテストケースとして使用することにより,ベンチマーク設計の異なる選択が計算信頼性のトレードオフに与える影響を調べる。 そこで本研究では,新しい尺度決定が信頼性ディオールに与える影響を簡潔に評価することを提案する。 例えば、HELMの現在のリーダーは、単にベンチマークから低ランクのモデルを取り除くだけで変化し、いくつかのサンプルが正しいベンチマークランキングを得るのに十分であることを示す。 逆に、ヘルムシナリオのわずかに異なる選択は、ランクが異なる。 ベンチマークの信頼性を最小限に抑えることで、より効率的なベンチマーク設計と利用プラクティスのための具体的な推奨事項を概説し、しばしばx100以上の計算を削減します。

The increasing versatility of language models LMs has given rise to a new class of benchmarks that comprehensively assess a broad range of capabilities. Such benchmarks are associated with massive computational costs reaching thousands of GPU hours per model. However the efficiency aspect of these evaluation efforts had raised little discussion in the literature. In this work we present the problem of Efficient Benchmarking namely intelligently reducing the computation costs of LM evaluation without compromising reliability. Using the HELM benchmark as a test case we investigate how different benchmark design choices affect the computation-reliability tradeoff. We propose to evaluate the reliability of such decisions by using a new measure Decision Impact on Reliability DIoR for short. We find for example that the current leader on HELM may change by merely removing a low-ranked model from the benchmark and observe that a handful of examples suffice to obtain the correct benchmark ranking. Conversely a slightly different choice of HELM scenarios varies ranking widely. Based on our findings we outline a set of concrete recommendations for more efficient benchmark design and utilization practices leading to dramatic cost savings with minimal loss of benchmark reliability often reducing computation by x100 or more.
翻訳日:2023-09-19 22:24:24 公開日:2023-09-18
# エンタープライズデータに基づくLLMアプリケーションアーキテクチャを用いた生成AIサービスの実装に関する研究

A Study on the Implementation of Generative AI Services Using an Enterprise Data-Based LLM Application Architecture ( http://arxiv.org/abs/2309.01105v2 )

ライセンス: Link先を確認
Cheonsu Jeong(参考訳) 本研究では,Large Language Models (LLM) アプリケーションアーキテクチャを用いて生成AIサービスを実装する手法を提案する。 最近のジェネレーティブai技術の進歩により、llmは様々な分野に普及した。 この文脈において,本研究は情報不足の課題に対処し,llm能力を活用した具体的な治療を提案する。 調査は不適切なデータの問題を緩和し、適切なソリューションを提供する戦略を練っている。 この研究は、データ不足を軽減するための微調整技術と直接文書統合の有効性について論じている。 この研究の重要な貢献は、前述の課題に対処する検索・拡張世代(RAG)モデルの開発である。 RAGモデルは、情報ストレージと検索プロセスを強化し、コンテンツ生成を改善するために慎重に設計されている。 本研究は,RAGモデルに基づく情報蓄積・検索手法の重要な段階を解明する。 これらのステップを包括的に分析し、データの不足に対処する上での重要性を強調した。 本研究は,本手法の有効性を強調し,実例による適用性を示す。 情報ストレージと検索のためのRAGモデルを実装することにより、この研究は、生成AI技術の深い理解に寄与するだけでなく、LCMを利用した企業における実用的ユーザビリティも促進する。 この作業は、生成aiの分野を前進させ、データ駆動コンテンツ生成の強化に関する洞察を提供し、企業環境におけるllmベースのサービスの積極的な利用を促進することに大きな価値がある。

This study presents a method for implementing generative AI services by utilizing the Large Language Models (LLM) application architecture. With recent advancements in generative AI technology, LLMs have gained prominence across various domains. In this context, the research addresses the challenge of information scarcity and proposes specific remedies by harnessing LLM capabilities. The investigation delves into strategies for mitigating the issue of inadequate data, offering tailored solutions. The study delves into the efficacy of employing fine-tuning techniques and direct document integration to alleviate data insufficiency. A significant contribution of this work is the development of a Retrieval-Augmented Generation (RAG) model, which tackles the aforementioned challenges. The RAG model is carefully designed to enhance information storage and retrieval processes, ensuring improved content generation. The research elucidates the key phases of the information storage and retrieval methodology underpinned by the RAG model. A comprehensive analysis of these steps is undertaken, emphasizing their significance in addressing the scarcity of data. The study highlights the efficacy of the proposed method, showcasing its applicability through illustrative instances. By implementing the RAG model for information storage and retrieval, the research not only contributes to a deeper comprehension of generative AI technology but also facilitates its practical usability within enterprises utilizing LLMs. This work holds substantial value in advancing the field of generative AI, offering insights into enhancing data-driven content generation and fostering active utilization of LLM-based services within corporate settings.
翻訳日:2023-09-19 22:17:48 公開日:2023-09-18
# 縮退定常状態からのジェネリック局所ハミルトニアンの回復

Recovery of a generic local Hamiltonian from a degenerate steady state ( http://arxiv.org/abs/2309.00334v2 )

ライセンス: Link先を確認
Jing Zhou and D. L. Zhou(参考訳) 量子コンピューティングにおける量子システムの検証には、ハミルトニアン学習(HL)が不可欠である。 すべてのハミルトン人は定常状態から一意に回復できるわけではない。 HLの成功はハミルトンモデルと定常状態に依存する。 ここで, HL は縮退混合重みを持つ固有状態からなる特定の定常状態に対して解析し, これらの固有状態は区別できない。 この課題を克服するために、固有状態空間とその補空間の間の直交関係を利用して直交空間方程式を構築する。 定常状態から導出される線形独立方程式の数を数えることにより、一般局所ハミルトニアンの回復可能性を決定する。 我々のスキームは、様々な定常状態の下での一般の局所ハミルトニアンに適用できるので、定常状態がハミルトニアンを特徴づける度合いを測る方法を提供する。

Hamiltonian Learning (HL) is essential for validating quantum systems in quantum computing. Not all Hamiltonians can be uniquely recovered from a steady state. HL success depends on the Hamiltonian model and steady state. Here, we analyze HL for a specific type of steady state composed of eigenstates with degenerate mixing weight, making these Hamiltonian's eigenstates indistinguishable. To overcome this challenge, we utilize the orthogonality relationship between the eigenstate space and its complement space, constructing the orthogonal space equation. By counting the number of linearly independent equations derived from a steady state, we determine the recoverability of a generic local Hamiltonian. Our scheme is applicable for generic local Hamiltonians under various steady state, therefore offering a way of measuring the degree to which a steady state characterizes a Hamiltonian.
翻訳日:2023-09-19 22:16:39 公開日:2023-09-18
# 画像ハイジャック: 逆画像は実行時に生成モデルを制御することができる

Image Hijacks: Adversarial Images can Control Generative Models at Runtime ( http://arxiv.org/abs/2309.00236v2 )

ライセンス: Link先を確認
Luke Bailey, Euan Ong, Stuart Russell, Scott Emmons(参考訳) 基礎モデルは悪意のあるアクターから安全か? 本研究では,視覚言語モデル(VLM)への画像入力に着目した。 我々は、実行時に生成モデルを制御する画像ハイジャック、逆画像を発見する。 我々は,イメージハイジャックを作成する一般的な手法であるビヘイビアマッチングを導入し,それを用いて3種類の攻撃を探索する。 特定の文字列攻撃は、敵の選択の任意の出力を生成する。 リークコンテキスト攻撃は、コンテキストウィンドウから出力に情報をリークする。 ジェイルブレイク攻撃はモデルの安全訓練を回避します。 CLIPとLLaMA-2をベースとした最先端のVLMであるLLaVAに対するこれらの攻撃について検討し、我々の攻撃タイプが90%以上の成功率を示した。 さらに、攻撃は自動化され、小さな画像の摂動のみを必要とする。 これらの知見は、基礎モデルの安全性に対する深刻な懸念を引き起こす。 もし画像ハイジャックがCIFAR-10の敵の例と同じくらい防御が難しいなら、解が見つかるまでには何年もかかるかもしれない。

Are foundation models secure from malicious actors? In this work, we focus on the image input to a vision-language model (VLM). We discover image hijacks, adversarial images that control generative models at runtime. We introduce Behaviour Matching, a general method for creating image hijacks, and we use it to explore three types of attacks. Specific string attacks generate arbitrary output of the adversary's choice. Leak context attacks leak information from the context window into the output. Jailbreak attacks circumvent a model's safety training. We study these attacks against LLaVA, a state-of-the-art VLM based on CLIP and LLaMA-2, and find that all our attack types have above a 90% success rate. Moreover, our attacks are automated and require only small image perturbations. These findings raise serious concerns about the security of foundation models. If image hijacks are as difficult to defend against as adversarial examples in CIFAR-10, then it might be many years before a solution is found -- if it even exists.
翻訳日:2023-09-19 22:16:25 公開日:2023-09-18
# ニュースストーリーチェーンのクラスタリングによるニュースレコメンデーションにおけるフラグメンテーション検出の改善と評価

Improving and Evaluating the Detection of Fragmentation in News Recommendations with the Clustering of News Story Chains ( http://arxiv.org/abs/2309.06192v2 )

ライセンス: Link先を確認
Alessandra Polimeno and Myrthe Reuver and Sanne Vrijenhoek and Antske Fokkens(参考訳) ニュースレコメンデーターシステムは、民主社会における情報アクセスの形成において、ますます影響力を増している。 しかし、ユーザの特定の関心事にリコメンデーションを合わせると、情報ストリームが多様化する可能性がある。 情報への断片的なアクセスは、公共の領域の整合性に挑戦し、民主主義や世論に影響を与える。 フラグメンテーション指標は、ニュースレコメンデーションにおける情報ストリームの断片化の程度を定量化する。 このメトリクスの正確な測定には、異なるニュースイベント、ストーリー、タイムラインを特定するために自然言語処理(NLP)を適用する必要がある。 本稿では,ニュースレコメンデーションにおけるフラグメンテーションの定量化のための様々な手法について詳細に検討する。 これらの手法は、ニュースストーリーのクラスタリングにおける性能の測定と、異なるシミュレートされたニュースレコメンデータシナリオのフラグメンテーションスコアの評価の両方により、本質的に評価される。 その結果,集合的階層的クラスタリングとセンテンスBERTテキスト表現は,従来の実装よりもフラグメンテーションの検出に優れていた。 さらに、シミュレーションシナリオの分析は、断片化の測定と解釈に関するステークホルダーにとって貴重な洞察と推奨を与える。

News recommender systems play an increasingly influential role in shaping information access within democratic societies. However, tailoring recommendations to users' specific interests can result in the divergence of information streams. Fragmented access to information poses challenges to the integrity of the public sphere, thereby influencing democracy and public discourse. The Fragmentation metric quantifies the degree of fragmentation of information streams in news recommendations. Accurate measurement of this metric requires the application of Natural Language Processing (NLP) to identify distinct news events, stories, or timelines. This paper presents an extensive investigation of various approaches for quantifying Fragmentation in news recommendations. These approaches are evaluated both intrinsically, by measuring performance on news story clustering, and extrinsically, by assessing the Fragmentation scores of different simulated news recommender scenarios. Our findings demonstrate that agglomerative hierarchical clustering coupled with SentenceBERT text representation is substantially better at detecting Fragmentation than earlier implementations. Additionally, the analysis of simulated scenarios yields valuable insights and recommendations for stakeholders concerning the measurement and interpretation of Fragmentation.
翻訳日:2023-09-19 22:07:33 公開日:2023-09-18
# 量子加速器と高性能コンピューティングの統合 --量子プログラミングツールのレビュー-

Integration of Quantum Accelerators with High Performance Computing -- A Review of Quantum Programming Tools ( http://arxiv.org/abs/2309.06167v2 )

ライセンス: Link先を確認
Amr Elsharkawy, Xiao-Ting Michelle To, Philipp Seitz, Yanbin Chen, Yannick Stade, Manuel Geiger, Qunsheng Huang, Xiaorang Guo, Muhammad Arslan Ansari, Christian B. Mendl, Dieter Kranzlm\"uller, and Martin Schulz(参考訳) 量子コンピューティング(qc)は、ハイパフォーマンスコンピューティング(hpc)アプリケーションのためのエキサイティングな機会を生かした、より大きな計算能力を持つ新しい計算モードを導入する。 しかし、近年の分野の発展により、QCは従来のHPCに取って代わらず、むしろ現在の異種HPCインフラに付加的な加速器として組み込むことができ、両方のパラダイムの最適利用を可能にしている。 このような統合の欲求は量子コンピュータ用ソフトウェアの開発に大きく影響し、それによって必要なソフトウェア基盤に影響を及ぼす。 これまでのレビューでは、様々な量子プログラミングツール(言語、ライブラリ、フレームワークなど)を、量子回路をプログラムし、コンパイルし、実行する能力について研究してきた。 しかし、古典的なHPCフレームワークやシステムとの統合は解決されていない。 本研究は,hpcの観点から既存のqptを特徴付けることを目的としており,既存のqptが古典的計算モデルと効率的に統合できる可能性を検証し,作業がいまだに必要である場所を決定する。 この研究は、一連の基準を分析ブループリントに構造化し、HPC科学者が量子加速古典的応用にQPTが適しているかどうかを判断できるようにする。

Quantum computing (QC) introduces a novel mode of computation with the possibility of greater computational power that remains to be exploited - presenting exciting opportunities for high performance computing (HPC) applications. However, recent advancements in the field have made clear that QC does not supplant conventional HPC, but can rather be incorporated into current heterogeneous HPC infrastructures as an additional accelerator, thereby enabling the optimal utilization of both paradigms. The desire for such integration significantly affects the development of software for quantum computers, which in turn influences the necessary software infrastructure. To date, previous review papers have investigated various quantum programming tools (QPTs) (such as languages, libraries, frameworks) in their ability to program, compile, and execute quantum circuits. However, the integration effort with classical HPC frameworks or systems has not been addressed. This study aims to characterize existing QPTs from an HPC perspective, investigating if existing QPTs have the potential to be efficiently integrated with classical computing models and determining where work is still required. This work structures a set of criteria into an analysis blueprint that enables HPC scientists to assess whether a QPT is suitable for the quantum-accelerated classical application at hand.
翻訳日:2023-09-19 22:07:13 公開日:2023-09-18
# 腫瘍血管新生最適化 : 新しいバイオインスパイアされたメタヒューリスティック

Tumoral Angiogenic Optimizer: A new bio-inspired based metaheuristic ( http://arxiv.org/abs/2309.05947v2 )

ライセンス: Link先を確認
Hern\'andez Rodr\'iguez, Mat\'ias Ezequiel(参考訳) 本稿では,腫瘍血管新生過程中に発生する血管内皮細胞(ecs)の形態形成細胞運動に着想を得た新しいメタヒューリスティックを提案する。 このアルゴリズムはランダムな初期集団から始まる。 各反復において、最も優れた候補が腫瘍として選択され、人口の他の個体は、先端と追従心電図の間の空間的関係を通して、調整されたダイナミクスに従って腫瘍の方向に移動するECとして扱われる。 このアルゴリズムは、他の類似の最適化メタヒューリスティックと比較して利点がある: モデルパラメータは、既に腫瘍血管形成現象モデリングに従って設定されており、研究者が任意の値で初期化することを妨げている。 その後、このアルゴリズムをよく知られたベンチマーク関数と比較し、PSO(Particle Swarm Optimization)との比較研究により結果を検証する。 その結果,アルゴリズムは競争力の高い結果が得られることが示された。 さらに, 提案アルゴリズムは実世界の問題 (カンチレバービーム設計, 圧力容器設計, テンション/圧縮ばね, 持続的浮揚資源) に適用される。 その結果,提案アルゴリズムは制約付き最適化問題を効果的に解いた。 その結果,いくつかの既知のアルゴリズムと比較した。

In this article, we propose a new metaheuristic inspired by the morphogenetic cellular movements of endothelial cells (ECs) that occur during the tumor angiogenesis process. This algorithm starts with a random initial population. In each iteration, the best candidate selected as the tumor, while the other individuals in the population are treated as ECs migrating toward the tumor's direction following a coordinated dynamics through a spatial relationship between tip and follower ECs. This algorithm has an advantage compared to other similar optimization metaheuristics: the model parameters are already configured according to the tumor angiogenesis phenomenon modeling, preventing researchers from initializing them with arbitrary values. Subsequently, the algorithm is compared against well-known benchmark functions, and the results are validated through a comparative study with Particle Swarm Optimization (PSO). The results demonstrate that the algorithm is capable of providing highly competitive outcomes. Furthermore, the proposed algorithm is applied to real-world problems (cantilever beam design, pressure vessel design, tension/compression spring and sustainable explotation renewable resource). The results showed that the proposed algorithm worked effectively in solving constrained optimization problems. The results obtained were compared with several known algorithms.
翻訳日:2023-09-19 22:06:50 公開日:2023-09-18
# radiography-reports foundation modelにおける表現の強化 : masked contrastive learningを用いた粒状アライメントアルゴリズム

Enhancing Representation in Radiography-Reports Foundation Model: A Granular Alignment Algorithm Using Masked Contrastive Learning ( http://arxiv.org/abs/2309.05904v2 )

ライセンス: Link先を確認
Weijian Huang and Cheng Li and Hao Yang and Jiarun Liu and Shanshan Wang(参考訳) 近年,医療分野では多モード視覚言語基盤モデルが注目されている。 これらのモデルは大きな機会を提供するが、コンピュータ支援診断におけるきめ細かい知識の理解の必要性や、実際の臨床応用におけるタスク固有のラベル付きデータの利用能力など、多くの課題に直面している。 本研究では,マルチモーダルな医療基盤モデルであるMaCoについて述べる。マスク付きコントラスト学習を用いて,様々な医用画像処理タスクに対して,微粒化とゼロショット学習を実現する。 MaCoには相関重み付け機構が組み込まれており、マスク画像パッチとその対応レポートの相関を調整し、表現学習能力を向上させる。 我々は,オープンソースのx線データセット6種についてmacoを評価し,その結果,分類,セグメンテーション,ゼロショット位相法における7つの最先端手法を上回っており,医療画像解析タスクを広範に促進する大きな可能性を示している。

Recently, multi-modal vision-language foundation models have gained significant attention in the medical field. While these models offer great opportunities, they still face a number of challenges, such as the requirement for fine-grained knowledge understanding in computer-aided diagnosis and capability of utilizing very limited or no task-specific labeled data in real-world clinical applications. In this study, we present MaCo, a novel multi-modal medical foundation model that explores masked contrastive learning to achieve granular alignment and zero-shot learning for a variety of medical imaging tasks. MaCo incorporates a correlation weighting mechanism to adjust the correlation between masked image patches and their corresponding reports, thereby enhancing the representation learning capabilities. We evaluate MaCo on six well-known open-source X-ray datasets, and the experimental results show it outperforms seven state-of-the-art approaches for classification, segmentation, and zero-shot phase grounding, demonstrating its great potential to promote a wide range of medical image analysis tasks.
翻訳日:2023-09-19 22:06:29 公開日:2023-09-18
# 拡散生成逆設計

Diffusion Generative Inverse Design ( http://arxiv.org/abs/2309.02040v2 )

ライセンス: Link先を確認
Marin Vlastelica, Tatiana L\'opez-Guevara and Kelsey Allen, Peter Battaglia, Arnaud Doucet, Kimberley Stachenfeld(参考訳) 逆設計(inverse design)とは、目的関数の入力を最適化して目標結果を達成する問題を指す。 多くの実世界のエンジニアリング問題に対して、客観的関数は、システム状態が時間とともにどのように進化するかを予測するシミュレータの形式をとり、設計上の課題は、ターゲットとなる結果につながる初期条件を最適化することである。 近年の学習シミュレーションでは、グラフニューラルネットワーク(GNN)がシミュレーション力学の正確で効率的で微分可能な推定に利用でき、勾配やサンプリングに基づく最適化手順による高品質な設計最適化をサポートすることが示されている。 しかし、設計をスクラッチから最適化するには多くの高価なモデルクエリが必要であり、これらの手順は非凸または高次元の問題に基本的な失敗を示す。 本研究では,逆設計問題を効率的に解くために拡散モデル (DDM) をいかに利用できるかを示すとともに,より効率的な粒子サンプリングアルゴリズムを提案する。 我々は流体力学設計の課題について実験を行い,本手法はシミュレータの呼び出し回数を標準手法に比べて大幅に削減することを示した。

Inverse design refers to the problem of optimizing the input of an objective function in order to enact a target outcome. For many real-world engineering problems, the objective function takes the form of a simulator that predicts how the system state will evolve over time, and the design challenge is to optimize the initial conditions that lead to a target outcome. Recent developments in learned simulation have shown that graph neural networks (GNNs) can be used for accurate, efficient, differentiable estimation of simulator dynamics, and support high-quality design optimization with gradient- or sampling-based optimization procedures. However, optimizing designs from scratch requires many expensive model queries, and these procedures exhibit basic failures on either non-convex or high-dimensional problems. In this work, we show how denoising diffusion models (DDMs) can be used to solve inverse design problems efficiently and propose a particle sampling algorithm for further improving their efficiency. We perform experiments on a number of fluid dynamics design challenges, and find that our approach substantially reduces the number of calls to the simulator compared to standard techniques.
翻訳日:2023-09-19 22:04:12 公開日:2023-09-18
# 一般化可能なオーディオ・ビジュアル・ソース・ローカライザ

Prompting Segmentation with Sound is Generalizable Audio-Visual Source Localizer ( http://arxiv.org/abs/2309.07929v2 )

ライセンス: Link先を確認
Yaoting Wang, Weisong Liu, Guangyao Li, Jian Ding, Di Hu, Xi Li(参考訳) 物体を見て同時に音を聞いたことはないが、モデルはまだ入力音声から視覚位置を正確に特定できるのだろうか? 本研究では,ゼロショットと少数ショットのシナリオを前提として,オーディオ・ビジュアル・ローカライゼーションとセグメンテーションのタスクに集中する。 この目的を達成するために,コーダ・フュージョン・デコーダ・パラダイムを主に採用する既存のアプローチとは異なり,プリトレーニングモデルから豊富な知識を生かして,データ不足やデータ分散ジレンマの適合性を向上させることを目的としたエンコーダ・プロンプト・デコーダ・パラダイムを導入する。 具体的には、まず、視覚基盤モデルがオブジェクトの聴取に焦点を合わせるのを支援するために、セマンティック・アウェア・オーディオ・プロンプト(SAP)を構築することを提案する。 次に,視覚基礎モデルの知識を十分に保持すると同時に,最小限のトレーニング努力を維持するための相関アダプタ(cola)を開発した。 これらの手段を装備することにより、この新しいパラダイムは、目に見えないクラスとデータセット間の設定の両方において、他の融合ベースのメソッドよりも優れていることを示す。 我々は,本研究が,実用シナリオにおける視聴覚定位とセグメンテーションの一般化研究をさらに促進できることを願っている。

Never having seen an object and heard its sound simultaneously, can the model still accurately localize its visual position from the input audio? In this work, we concentrate on the Audio-Visual Localization and Segmentation tasks but under the demanding zero-shot and few-shot scenarios. To achieve this goal, different from existing approaches that mostly employ the encoder-fusion-decoder paradigm to decode localization information from the fused audio-visual feature, we introduce the encoder-prompt-decoder paradigm, aiming to better fit the data scarcity and varying data distribution dilemmas with the help of abundant knowledge from pre-trained models. Specifically, we first propose to construct Semantic-aware Audio Prompt (SAP) to help the visual foundation model focus on sounding objects, meanwhile, the semantic gap between the visual and audio modalities is also encouraged to shrink. Then, we develop a Correlation Adapter (ColA) to keep minimal training efforts as well as maintain adequate knowledge of the visual foundation model. By equipping with these means, extensive experiments demonstrate that this new paradigm outperforms other fusion-based methods in both the unseen class and cross-dataset settings. We hope that our work can further promote the generalization study of Audio-Visual Localization and Segmentation in practical application scenarios.
翻訳日:2023-09-19 21:57:38 公開日:2023-09-18
# Kid-Whisper: 子ども向け音声認識におけるパフォーマンスギャップのブリッジ化に向けて

Kid-Whisper: Towards Bridging the Performance Gap in Automatic Speech Recognition for Children VS. Adults ( http://arxiv.org/abs/2309.07927v2 )

ライセンス: Link先を確認
Ahmed Adel Attia, Jing Liu, Wei Ai, Dorottya Demszky, Carol Espy-Wilson(参考訳) 近年、Whisperによって実証された自動音声認識(ASR)システムの進歩は、十分なデータから人間レベルの性能にアプローチする可能性を示している。 しかし、子供固有のデータベースが限られており、子どもの発話の特徴が異なるため、この進歩は子供向けのASRに容易には及ばない。 最近の研究では、my science tutor (myst) の児童音声コーパスを利用して、子どもの発話認識におけるささやきの演奏能力を高める。 彼らは限られたテストセットでいくつかの改善を示すことができた。 本稿では,より効率的なデータプリプロセッシングにより,mystデータセットの有用性を高めることにより,これらの知見を裏付ける。 myst テストセットの単語誤り率 (wer) を 13.93% から 9.11% に、whisper-small を 13.23% から 8.61% に削減した。 また,子どものASRパフォーマンス向上に向けた重要な課題も強調した。 その結果,実効性のある子どもの音声認識におけるwhisperの有効かつ効率的な統合が示された。

Recent advancements in Automatic Speech Recognition (ASR) systems, exemplified by Whisper, have demonstrated the potential of these systems to approach human-level performance given sufficient data. However, this progress doesn't readily extend to ASR for children due to the limited availability of suitable child-specific databases and the distinct characteristics of children's speech. A recent study investigated leveraging the My Science Tutor (MyST) children's speech corpus to enhance Whisper's performance in recognizing children's speech. They were able to demonstrate some improvement on a limited testset. This paper builds on these findings by enhancing the utility of the MyST dataset through more efficient data preprocessing. We reduce the Word Error Rate (WER) on the MyST testset 13.93% to 9.11% with Whisper-Small and from 13.23% to 8.61% with Whisper-Medium and show that this improvement can be generalized to unseen datasets. We also highlight important challenges towards improving children's ASR performance. The results showcase the viable and efficient integration of Whisper for effective children's speech recognition.
翻訳日:2023-09-19 21:57:08 公開日:2023-09-18
# 頚部脊柱管狭窄定量化のためのトポロジーインスパイアクロスドメインネットワーク

Topology-inspired Cross-domain Network for Developmental Cervical Stenosis Quantification ( http://arxiv.org/abs/2309.06825v2 )

ライセンス: Link先を確認
Zhenxi Zhang, Yanyang Wang, Yao Wu and Weifei Wu(参考訳) 頚部脊柱管狭窄症(DCS)の定量化は頚椎症スクリーニングにおいて重要である。 手動でDCSを定量化するのと比較すると、より効率的でタイムセーブな方法はディープキーポイントローカライゼーションネットワークによって提供され、座標または画像領域で実装できる。 しかし、脊椎の視覚的特徴はしばしばキーポイントの局在中に異常なトポロジカルな構造をもたらし、エッジによるキーポイント歪みや弱い連結構造は座標領域と画像領域の両方で完全に抑制できない。 この制限を克服するために、キーポイントエッジと再パラメータ化モジュールを使用して、これらの異常構造をドメイン横断的に制限する。 キーポイントエッジ制約モジュールは脊椎の縁にあるキーポイントを制限し、キーポイント座標の分布パターンがDCS量子化の値と一致していることを保証する。 再パラメータ化モジュールは、座標を組み合わせた画像領域のヒートマップ内の弱結合構造を制約する。 さらに、クロスドメインネットワークは、ヒートマップを利用して空間一般化を改善し、正確な位置決めのための座標を導入し、個々の領域におけるこれらの2つの特性間のトレードオフを回避する。 異なる定量化タスクの包括的結果から,提案するトポロジーに触発されたクロスドメインネットワーク (tcn) は,他のローカライズ手法と比較して優越性と生成性を示した。

Developmental Canal Stenosis (DCS) quantification is crucial in cervical spondylosis screening. Compared with quantifying DCS manually, a more efficient and time-saving manner is provided by deep keypoint localization networks, which can be implemented in either the coordinate or the image domain. However, the vertebral visualization features often lead to abnormal topological structures during keypoint localization, including keypoint distortion with edges and weakly connected structures, which cannot be fully suppressed in either the coordinate or image domain alone. To overcome this limitation, a keypoint-edge and a reparameterization modules are utilized to restrict these abnormal structures in a cross-domain manner. The keypoint-edge constraint module restricts the keypoints on the edges of vertebrae, which ensures that the distribution pattern of keypoint coordinates is consistent with those for DCS quantification. And the reparameterization module constrains the weakly connected structures in image-domain heatmaps with coordinates combined. Moreover, the cross-domain network improves spatial generalization by utilizing heatmaps and incorporating coordinates for accurate localization, which avoids the trade-off between these two properties in an individual domain. Comprehensive results of distinct quantification tasks show the superiority and generability of the proposed Topology-inspired Cross-domain Network (TCN) compared with other competing localization methods.
翻訳日:2023-09-19 21:56:22 公開日:2023-09-18
# 有毒ウサギの穴を壊す:palm 2ガードレールの調査

Down the Toxicity Rabbit Hole: Investigating PaLM 2 Guardrails ( http://arxiv.org/abs/2309.06415v2 )

ライセンス: Link先を確認
Adel Khorramrouz and Sujan Dutta and Arka Dutta and Ashiqur R. KhudaBukhsh(参考訳) 本稿では,新しい毒性ウサギ穴の枠組みを用いて,PALM2の安全性フィードバックのロバスト性評価を行う。 ステレオタイプから始めて、このフレームワークは PaLM 2 にステレオタイプよりも有害なコンテンツを生成するよう指示する。 その後のイテレーションごとに、PaLM 2の安全ガードレールが安全違反を起こすまで、PaLM 2に以前のイテレーションよりも有害なコンテンツを生成するよう指示している。 当社の実験では,PALM2の安全ガードレールは安全性が低いと評価されていない,非常に乱暴な反ユダヤ主義,イスラム嫌悪主義,人種差別主義,ホモホビア主義,異義主義的な内容がいくつか見出されている。

This paper conducts a robustness audit of the safety feedback of PaLM 2 through a novel toxicity rabbit hole framework introduced here. Starting with a stereotype, the framework instructs PaLM 2 to generate more toxic content than the stereotype. Every subsequent iteration it continues instructing PaLM 2 to generate more toxic content than the previous iteration until PaLM 2 safety guardrails throw a safety violation. Our experiments uncover highly disturbing antisemitic, Islamophobic, racist, homophobic, and misogynistic (to list a few) generated content that PaLM 2 safety guardrails do not evaluate as highly unsafe.
翻訳日:2023-09-19 21:54:58 公開日:2023-09-18
# Polyak-{\L}ojasiewicz条件下での時間変化オンライン確率最適化と条件付き統計的学習への応用

Distributionally Time-Varying Online Stochastic Optimization under Polyak-{\L}ojasiewicz Condition with Application in Conditional Value-at-Risk Statistical Learning ( http://arxiv.org/abs/2309.09411v1 )

ライセンス: Link先を確認
Yuen-Man Pun, Farhad Farokhi, Iman Shames(参考訳) 本研究では,オンライン最適化のレンズを通して時間変動分布を追従する確率的最適化問題の列を考える。 損失関数がpolyak-{\l}ojasiewicz条件を満たすと仮定すると、オンライン確率勾配降下を適用し、累積分布ドリフトと確率性に起因する累積勾配バイアスからなるその動的後悔境界を確立する。 ここで採用する分布計量はワッサーシュタイン距離であり、絶対連続性仮定や時間変化の支援セットなしでよく定義される。 また、目的関数が正規化されると、オンライン確率的近位勾配降下の後悔境界を確立する。 さらに,上記のフレームワークを条件付きvalue-at-risk(cvar)学習問題に適用可能であることを示す。 特に,CVaR問題におけるPL条件の発見に関する既存の証明を改良し,オンライン確率勾配降下を後悔させる結果となった。

In this work, we consider a sequence of stochastic optimization problems following a time-varying distribution via the lens of online optimization. Assuming that the loss function satisfies the Polyak-{\L}ojasiewicz condition, we apply online stochastic gradient descent and establish its dynamic regret bound that is composed of cumulative distribution drifts and cumulative gradient biases caused by stochasticity. The distribution metric we adopt here is Wasserstein distance, which is well-defined without the absolute continuity assumption or with a time-varying support set. We also establish a regret bound of online stochastic proximal gradient descent when the objective function is regularized. Moreover, we show that the above framework can be applied to the Conditional Value-at-Risk (CVaR) learning problem. Particularly, we improve an existing proof on the discovery of the PL condition of the CVaR problem, resulting in a regret bound of online stochastic gradient descent.
翻訳日:2023-09-19 15:44:34 公開日:2023-09-18
# BRONCO:CT画像を用いた気管支血管束の自動モデリング

BRONCO: Automated modelling of the bronchovascular bundle using the Computed Tomography Images ( http://arxiv.org/abs/2309.09410v1 )

ライセンス: Link先を確認
Wojciech Pra\.zuch, Marek Socha, Anna Mrukwa, Aleksandra Suwalska, Agata Durawa, Malgorzata Jelitto-G\'orska, Katarzyna Dziadziuszko, Edyta Szurowska, Pawel Bo\.zek, Michal Marczyk, Witold Rzyman, Joanna Polanska(参考訳) 肺小葉内の気管支血管束の分画は,多くの肺疾患の適切な解析と計画のための重要なステップである。 また、結節を肺実質から切り離すことを目標とする前処理段階と考えることもできる。 我々は,CT画像に基づく気管支血管束の分枝パイプラインを提案し,肺小葉に位置する血管および気管支の2次元またはラベル付きマスクを返却した。 この方法は2つのモジュールから構成され、気管支木と血管のモデリングである。 コアは、同様のパイプラインを中心に回転し、GMM法による初期周方向の決定、骨格化、生成したグラフの階層解析を行う。 低線量CTと標準線量CTの両方で,様々な病理組織を用いて,様々なスライス厚で再構成し,各種装置から取得した。 本手法はCTシリーズの起源とパラメータに関して不変である。 このパイプラインは健常者、肺結節患者、気腫患者の研究に最適である。

Segmentation of the bronchovascular bundle within the lung parenchyma is a key step for the proper analysis and planning of many pulmonary diseases. It might also be considered the preprocessing step when the goal is to segment the nodules from the lung parenchyma. We propose a segmentation pipeline for the bronchovascular bundle based on the Computed Tomography images, returning either binary or labelled masks of vessels and bronchi situated in the lung parenchyma. The method consists of two modules, modeling of the bronchial tree and vessels. The core revolves around a similar pipeline, the determination of the initial perimeter by the GMM method, skeletonization, and hierarchical analysis of the created graph. We tested our method on both low-dose CT and standard-dose CT, with various pathologies, reconstructed with various slice thicknesses, and acquired from various machines. We conclude that the method is invariant with respect to the origin and parameters of the CT series. Our pipeline is best suited for studies with healthy patients, patients with lung nodules, and patients with emphysema.
翻訳日:2023-09-19 15:44:17 公開日:2023-09-18
# オンライン蒸留ガイド:オフラインによる安全強化学習の促進

Guided Online Distillation: Promoting Safe Reinforcement Learning by Offline Demonstration ( http://arxiv.org/abs/2309.09408v1 )

ライセンス: Link先を確認
Jinning Li, Xinyi Liu, Banghua Zhu, Jiantao Jiao, Masayoshi Tomizuka, Chen Tang, Wei Zhan(参考訳) 安全強化学習(RL)は、コスト制約を満たしつつ高い報酬を達成する政策を見つけることを目的としている。 スクラッチから学ぶと、安全なRLエージェントは過度に保守的になり、探索を妨げ、全体的なパフォーマンスを抑制する。 多くの現実的なタスク、例えば自動運転では、大規模な専門家によるデモンストレーションデータが利用可能である。 オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。 意思決定変換器(DT)のような大容量モデルは、オフラインのポリシー学習に適していることが証明されている。 しかし、現実のシナリオで収集されたデータは、危険なケース(例えば衝突)をほとんど含まないため、安全概念を学ぶための政策が禁止される。 さらに、これらのバルクポリシネットワークは、自動運転のような現実世界のタスクにおいて、推論時に計算速度の要求を満たせない。 そこで本研究では,オフラインからオンラインへの安全なrlフレームワークであるgoldを提案する。 GOLDは、オフラインDTポリシーとオンライン安全なRLアルゴリズムの両方を上回り、オンライン安全なRLトレーニングを通じて、オフラインDTポリシーを軽量なポリシーネットワークに蒸留する。 Waymo Open Motion Dataset(WOMD)に基づくベンチマークセーフなRLタスクと実世界の運転タスクの両方の実験では、GOLDは軽量なポリシーの蒸留に成功し、安全クリティカルなシナリオに挑戦して意思決定問題を解決することができることを示した。

Safe Reinforcement Learning (RL) aims to find a policy that achieves high rewards while satisfying cost constraints. When learning from scratch, safe RL agents tend to be overly conservative, which impedes exploration and restrains the overall performance. In many realistic tasks, e.g. autonomous driving, large-scale expert demonstration data are available. We argue that extracting expert policy from offline data to guide online exploration is a promising solution to mitigate the conserveness issue. Large-capacity models, e.g. decision transformers (DT), have been proven to be competent in offline policy learning. However, data collected in real-world scenarios rarely contain dangerous cases (e.g., collisions), which makes it prohibitive for the policies to learn safety concepts. Besides, these bulk policy networks cannot meet the computation speed requirements at inference time on real-world tasks such as autonomous driving. To this end, we propose Guided Online Distillation (GOLD), an offline-to-online safe RL framework. GOLD distills an offline DT policy into a lightweight policy network through guided online safe RL training, which outperforms both the offline DT policy and online safe RL algorithms. Experiments in both benchmark safe RL tasks and real-world driving tasks based on the Waymo Open Motion Dataset (WOMD) demonstrate that GOLD can successfully distill lightweight policies and solve decision-making problems in challenging safety-critical scenarios.
翻訳日:2023-09-19 15:44:01 公開日:2023-09-18
# ビデオ要約はビデオを必要とするか? ビデオ要約における言語の有効性の定量化

Does Video Summarization Require Videos? Quantifying the Effectiveness of Language in Video Summarization ( http://arxiv.org/abs/2309.09405v1 )

ライセンス: Link先を確認
Yoonsoo Nam, Adam Lehavi, Daniel Yang, Digbalay Bose, Swabha Swayamdipta, Shrikanth Narayanan(参考訳) 入力ビデオのサイズが要約されるため、コンピュータビジョンにおいてビデオの要約は依然として大きな課題である。 本稿では,高いデータ効率で競合精度を実現する,効率的な言語のみのビデオ要約器を提案する。 ゼロショットアプローチで得られたテキストキャプションのみを用いて,言語トランスフォーマーモデルと前置画像表現を訓練する。 この方法により、代表テキストベクトル間でフィルタリングを行い、シーケンスをコンデンスすることができる。 提案手法では,人間の解釈やビデオのテキスト要約に容易に対応できる自然言語による説明性を得る。 モダリティとデータ圧縮に焦点を当てたアブレーション研究では、テキストモダリティを活用することで、比較結果を維持しながら入力データ処理を効果的に削減できることが示された。

Video summarization remains a huge challenge in computer vision due to the size of the input videos to be summarized. We propose an efficient, language-only video summarizer that achieves competitive accuracy with high data efficiency. Using only textual captions obtained via a zero-shot approach, we train a language transformer model and forego image representations. This method allows us to perform filtration amongst the representative text vectors and condense the sequence. With our approach, we gain explainability with natural language that comes easily for human interpretation and textual summaries of the videos. An ablation study that focuses on modality and data compression shows that leveraging text modality only effectively reduces input data processing while retaining comparable results.
翻訳日:2023-09-19 15:43:36 公開日:2023-09-18
# (デプロイアプリケーション)提案の要求に応じて、オープンデータ駆動チーム推奨によるリサーチコラボレーションを促進する

(Deployed Application) Promoting Research Collaboration with Open Data Driven Team Recommendation in Response to Call for Proposals ( http://arxiv.org/abs/2309.09404v1 )

ライセンス: Link先を確認
Siva Likitha Valluru, Biplav Srivastava, Sai Teja Paladi, Siwen Yan, Sriraam Natarajan(参考訳) チームの構築とコラボレーションの促進は2つの非常に一般的なビジネス活動です。 例えばteamingforfunding問題では、研究機関や研究者が、後者の提案に応じて資金提供機関に申し込む際の協力的な機会を特定することに関心を持っている。 本稿では,(1)各チームが,その機会に要求される最高のスキルカバレッジを達成し,(2)その機会を分配する作業負荷が,候補メンバー間でバランスをとるような,さまざまなAI手法を用いてチームを推薦するシステムについて述べる。 我々は,提案コール(需要)と研究者プロファイル(供給)のオープンデータに潜んでいるスキルを抽出し,分類法を用いてそれらを正規化し,供給需要にマッチする効率的なアルゴリズムを作成することで,これらの疑問に対処した。 短期と長期の目標のバランスをとる新しいメトリクスに沿って、良さを最大化するチームを作ります。 我々は,(1) アルゴリズムの成功を定量的に検証し,(1) 優れたスコアを用いて推奨チームを評価し,より情報のある手法がより少ない人数のチームの推薦につながること,(2) 大学レベルの大規模ユーザスタディを実施することによって質的に,そのツールが極めて有用かつ関連性の高いものであることを示す。 最後に,我々のアプローチの汎用性を確立するために,米国とインド(研究者と提案コール)の2つの異なる環境でシステムを評価し,日常的な使用のために米国の主要大学に展開する。

Building teams and promoting collaboration are two very common business activities. An example of these are seen in the TeamingForFunding problem, where research institutions and researchers are interested to identify collaborative opportunities when applying to funding agencies in response to latter's calls for proposals. We describe a novel system to recommend teams using a variety of AI methods, such that (1) each team achieves the highest possible skill coverage that is demanded by the opportunity, and (2) the workload of distributing the opportunities is balanced amongst the candidate members. We address these questions by extracting skills latent in open data of proposal calls (demand) and researcher profiles (supply), normalizing them using taxonomies, and creating efficient algorithms that match demand to supply. We create teams to maximize goodness along a novel metric balancing short- and long-term objectives. We validate the success of our algorithms (1) quantitatively, by evaluating the recommended teams using a goodness score and find that more informed methods lead to recommendations of smaller number of teams but higher goodness, and (2) qualitatively, by conducting a large-scale user study at a college-wide level, and demonstrate that users overall found the tool very useful and relevant. Lastly, we evaluate our system in two diverse settings in US and India (of researchers and proposal calls) to establish generality of our approach, and deploy it at a major US university for routine use.
翻訳日:2023-09-19 15:43:25 公開日:2023-09-18
# ゼロショット検索に使用するDense Retrieverの選択

Selecting which Dense Retriever to use for Zero-Shot Search ( http://arxiv.org/abs/2309.09403v1 )

ライセンス: Link先を確認
Ekaterina Khramtsova, Shengyao Zhuang, Mahsa Baktashmotlagh, Xi Wang, Guido Zuccon(参考訳) 本稿では,ラベルが存在しない新しいコレクション,すなわちゼロショット設定で検索する際に,どの高密度検索モデルを使用するかを選択する新しい問題を提案する。 多くの高密度検索モデルが利用可能である。 しかし、それぞれのモデルは、非常に異なる検索効率で特徴付けられている -- 密度表現が学習されたデータセットのテスト部分だけでなく、密度表現を学習するためにデータが使用されなかった異なるデータセットについても。 これは、一般に、特定のデータセットやドメインで十分な探索効率を達成するために、大量のラベル付きデータをトレーニングする必要があるためである。 また、トレーニング中にラベルを観測できるデータセットの高密度検索によって得られる有効性は、トレーニング中に観測されていないデータセットに必ずしも一般化するとは限らない。 しかし、これは難しい問題であり、実証実験を通じて、コンピュータビジョンと機械学習の領域におけるドメインシフトの存在による教師なしのパフォーマンス評価における最近の研究にインスパイアされた手法は、我々の設定において高機能な高密度レトリバーを選択するのに有効ではないことを示す。 評価のためにラベルの収集を必要としないゼロショット設定で高密度検索モデルを選択するための信頼性の高い手法が利用可能となり、高密度検索が広く採用されるようになる。 したがって、これは情報検索コミュニティが考慮すべき重要な新しい問題である。 メソッドの実装と生の結果ファイルと分析スクリプトはhttps://www.github.com/匿名で公開されている。

We propose the new problem of choosing which dense retrieval model to use when searching on a new collection for which no labels are available, i.e. in a zero-shot setting. Many dense retrieval models are readily available. Each model however is characterized by very differing search effectiveness -- not just on the test portion of the datasets in which the dense representations have been learned but, importantly, also across different datasets for which data was not used to learn the dense representations. This is because dense retrievers typically require training on a large amount of labeled data to achieve satisfactory search effectiveness in a specific dataset or domain. Moreover, effectiveness gains obtained by dense retrievers on datasets for which they are able to observe labels during training, do not necessarily generalise to datasets that have not been observed during training. This is however a hard problem: through empirical experimentation we show that methods inspired by recent work in unsupervised performance evaluation with the presence of domain shift in the area of computer vision and machine learning are not effective for choosing highly performing dense retrievers in our setup. The availability of reliable methods for the selection of dense retrieval models in zero-shot settings that do not require the collection of labels for evaluation would allow to streamline the widespread adoption of dense retrieval. This is therefore an important new problem we believe the information retrieval community should consider. Implementation of methods, along with raw result files and analysis scripts are made publicly available at https://www.github.com/anonymized.
翻訳日:2023-09-19 15:42:58 公開日:2023-09-18
# 修正Salp Swarmアルゴリズムを用いたクラウド空間におけるデューティのスケジュール

A Schedule of Duties in the Cloud Space Using a Modified Salp Swarm Algorithm ( http://arxiv.org/abs/2309.09441v1 )

ライセンス: Link先を確認
Hossein Jamali, Ponkoj Chandra Shill, David Feil-Seifer, Frederick C. Harris, Jr., Sergiu M. Dascalu(参考訳) クラウドコンピューティングは情報技術時代に導入された概念であり、主なコンポーネントはグリッドコンピューティング、分散コンピューティング、価値あるコンピューティングである。 クラウドは継続的に開発され、当然、多くの課題が浮かび上がっています。 スケジュールまたはタイムラインは、義務または一連の義務を実行するための時間を最適化するために使用されるメカニズムである。 スケジューリングプロセスは、義務を実行するための最適なリソースを選択するために責任を負う。 スケジューリングアルゴリズムの主な目標は、サービスの効率と品質を向上させると同時に、ターゲットの受容性と有効性を保証することである。 タスクスケジューリング問題はクラウド分野で最も重要なnp-hard問題のひとつであり、これまでのところ、遺伝的アルゴリズム(gas)、粒子群最適化(pso)、antコロニー最適化(aco)など、多くの技術がソリューションとして提案されてきた。 この問題に対処するため,本論文では,salp swarm algorithm (ssa) と呼ばれる集団知能アルゴリズムの1つを拡張,改良,適用した。 提案アルゴリズムの性能をGA, PSO, 連続ACO, 基本SSAと比較した。 その結果,本アルゴリズムは一般に他のアルゴリズムよりも高い性能を示した。 例えば、基本的なSSAと比較して、提案手法は平均21%の減少率を持つ。

Cloud computing is a concept introduced in the information technology era, with the main components being the grid, distributed, and valuable computing. The cloud is being developed continuously and, naturally, comes up with many challenges, one of which is scheduling. A schedule or timeline is a mechanism used to optimize the time for performing a duty or set of duties. A scheduling process is accountable for choosing the best resources for performing a duty. The main goal of a scheduling algorithm is to improve the efficiency and quality of the service while at the same time ensuring the acceptability and effectiveness of the targets. The task scheduling problem is one of the most important NP-hard issues in the cloud domain and, so far, many techniques have been proposed as solutions, including using genetic algorithms (GAs), particle swarm optimization, (PSO), and ant colony optimization (ACO). To address this problem, in this paper, one of the collective intelligence algorithms, called the Salp Swarm Algorithm (SSA), has been expanded, improved, and applied. The performance of the proposed algorithm has been compared with that of GAs, PSO, continuous ACO, and the basic SSA. The results show that our algorithm has generally higher performance than the other algorithms. For example, compared to the basic SSA, the proposed method has an average reduction of approximately 21% in makespan.
翻訳日:2023-09-19 15:32:52 公開日:2023-09-18
# データ汚染下における教師なしロバスト異常検出の反復法

An Iterative Method for Unsupervised Robust Anomaly Detection Under Data Contamination ( http://arxiv.org/abs/2309.09436v1 )

ライセンス: Link先を確認
Minkyung Kim, Jongmin Yu, Junsik Kim, Tae-Hyun Oh, Jun Kyun Choi(参考訳) ほとんどの深部異常検出モデルは、その多様で一貫性のない性質によって異常を定義することが困難であるため、データセットからの正規性学習に基づいている。 したがって、正規性仮定と呼ばれるトレーニングデータセットに異常データが存在しないという仮定の下で正規性を学ぶのが一般的である。 しかし、実際には、異常な尾を含む実際のデータ分布の性質、すなわち汚染されたデータセットの性質により、正規性の仮定がしばしば破られる。 これにより、仮定と実際のトレーニングデータのギャップが異常検出モデルの学習に有害になる。 本研究では,このギャップを減らし,正規性の表現性を向上する学習フレームワークを提案する。 私たちの重要なアイデアは、サンプル毎の正規性を特定し、トレーニング中に繰り返し更新される重要度重みとして利用することです。 我々のフレームワークはモデルに依存しないハイパーパラメータ非感受性を持つように設計されており、パラメータチューニングを慎重に行うことなく、様々な既存手法に適用できる。 本手法は, 1クラス分類, 確率モデル, 再構成に基づくアプローチに分類される, 深部異常検出の3つの代表的な手法に適用する。 さらに,反復的手法における終了条件の重要性について述べ,異常検出目標に触発された終了基準を提案する。 我々は,5つの異常検出ベンチマークデータセットと2つの画像データセットに対して,異なるレベルの汚染率の下で異常検出モデルのロバスト性を向上させることを検証する。 各種汚染データセットを用いて, ROC曲線下の領域で測定した3つの代表的な異常検出手法の性能を向上させる。

Most deep anomaly detection models are based on learning normality from datasets due to the difficulty of defining abnormality by its diverse and inconsistent nature. Therefore, it has been a common practice to learn normality under the assumption that anomalous data are absent in a training dataset, which we call normality assumption. However, in practice, the normality assumption is often violated due to the nature of real data distributions that includes anomalous tails, i.e., a contaminated dataset. Thereby, the gap between the assumption and actual training data affects detrimentally in learning of an anomaly detection model. In this work, we propose a learning framework to reduce this gap and achieve better normality representation. Our key idea is to identify sample-wise normality and utilize it as an importance weight, which is updated iteratively during the training. Our framework is designed to be model-agnostic and hyperparameter insensitive so that it applies to a wide range of existing methods without careful parameter tuning. We apply our framework to three different representative approaches of deep anomaly detection that are classified into one-class classification-, probabilistic model-, and reconstruction-based approaches. In addition, we address the importance of a termination condition for iterative methods and propose a termination criterion inspired by the anomaly detection objective. We validate that our framework improves the robustness of the anomaly detection models under different levels of contamination ratios on five anomaly detection benchmark datasets and two image datasets. On various contaminated datasets, our framework improves the performance of three representative anomaly detection methods, measured by area under the ROC curve.
翻訳日:2023-09-19 15:32:30 公開日:2023-09-18
# factoformer:自己教師付き事前学習による因子化ハイパースペクトルトランスフォーマ

FactoFormer: Factorized Hyperspectral Transformers with Self-Supervised Pre-Training ( http://arxiv.org/abs/2309.09431v1 )

ライセンス: Link先を確認
Shaheer Mohamed, Maryam Haghighat, Tharindu Fernando, Sridha Sridharan, Clinton Fookes, Peyman Moghadam(参考訳) ハイパースペクトル画像(HSI)は、豊富なスペクトルと空間情報を含む。 自然言語処理やコンピュータビジョンの分野でのトランスフォーマーの成功により、入力データ内の長距離依存を学習する能力が示され、最近の研究は、HSIのためのトランスフォーマーの使用に焦点を当てている。 しかし、現在最先端のハイパースペクトル変換器は、入力されたHSIサンプルをスペクトル次元に沿ってトークン化するだけで、空間情報の未利用をもたらす。 さらに、トランスはデータハングリーであることが知られており、その性能は大規模な事前トレーニングに大きく依存している。 したがって、hsiトランスフォーマのポテンシャルは十分に実現されていない。 これらの限界を克服するために, 自己教師付き事前学習手順を組み込んだ新しい因子化スペクトル空間トランスを提案する。 入力の分解により、スペクトル変換器と空間変換器はハイパースペクトルデータキューブ内の相互作用をよりよく捉えることができる。 マスク画像モデリングの事前学習に着想を得て,スペクトルおよび空間トランスフォーマーを事前学習するための効率的なマスク戦略を考案する。 HSI分類タスクのための3つの公開データセットの実験を行い、我々のモデルが3つのデータセットすべてにおいて最先端のパフォーマンスを達成することを示す。 私たちのモデルのコードは、https://github.com/csiro-robotics/factoformerで利用可能になります。

Hyperspectral images (HSIs) contain rich spectral and spatial information. Motivated by the success of transformers in the field of natural language processing and computer vision where they have shown the ability to learn long range dependencies within input data, recent research has focused on using transformers for HSIs. However, current state-of-the-art hyperspectral transformers only tokenize the input HSI sample along the spectral dimension, resulting in the under-utilization of spatial information. Moreover, transformers are known to be data-hungry and their performance relies heavily on large-scale pre-training, which is challenging due to limited annotated hyperspectral data. Therefore, the full potential of HSI transformers has not been fully realized. To overcome these limitations, we propose a novel factorized spectral-spatial transformer that incorporates factorized self-supervised pre-training procedures, leading to significant improvements in performance. The factorization of the inputs allows the spectral and spatial transformers to better capture the interactions within the hyperspectral data cubes. Inspired by masked image modeling pre-training, we also devise efficient masking strategies for pre-training each of the spectral and spatial transformers. We conduct experiments on three publicly available datasets for HSI classification task and demonstrate that our model achieves state-of-the-art performance in all three datasets. The code for our model will be made available at https://github.com/csiro-robotics/factoformer.
翻訳日:2023-09-19 15:32:07 公開日:2023-09-18
# 単一相対論的粒子の量子力学的ガウス波束

Quantum mechanical Gaussian wavepackets of single relativistic particles ( http://arxiv.org/abs/2309.09429v1 )

ライセンス: Link先を確認
Yu-Che Huang, Fong-Ming He, and Shih-Yuin Lin(参考訳) ミンコフスキー空間における一様運動あるいは一様電場により加速される相対論的荷電粒子に対するクライン・ゴルドン方程式に対する選択された準(1+1)次元波束解の進化について検討する。 クライン・ゴルドン波束の電荷密度が、単一粒子解釈を持つガウス状態によってどのように近似できるかを考察する。 位置空間におけるガウス近似のためのウェーブパケットの最小初期幅は、初期モーメントにおいてローレンツ因子によって分割された粒子のコンプトン波長であることがわかった。 相対論的長さの収縮は、ウェーブパケットの電荷密度の拡散にも現れる。

We study the evolutions of selected quasi-(1+1) dimensional wavepacket solutions to the Klein-Gordon equation for a relativistic charged particle in uniform motion or accelerated by a uniform electric field in Minkowski space. We explore how good the charge density of a Klein-Gordon wavepacket can be approximated by a Gaussian state with the single-particle interpretation. We find that the minimal initial width of a wavepacket for a good Gaussian approximation in position space is about the Compton wavelength of the particle divided by its Lorentz factor at the initial moment. Relativistic length contraction also manifests in the spreading of the wavepacket's charge density.
翻訳日:2023-09-19 15:31:42 公開日:2023-09-18
# TransTouch:スパースタッチで透明な物体の深度を学習する

TransTouch: Learning Transparent Objects Depth Sensing Through Sparse Touches ( http://arxiv.org/abs/2309.09427v1 )

ライセンス: Link先を確認
Liuyu Bian, Pengyang Shi, Weihang Chen, Jing Xu, Li Yi, Rui Chen(参考訳) 透明な物体は日常生活で一般的です。 しかし、透明物体の深度検出は依然として困難な問題である。 学習に基づく手法は、シェイププリエントを活用して、センシング品質を改善することができるが、実世界の労働集約型データ収集とsim-to-realドメインギャップは、これらの方法のスケーラビリティを制限する。 本稿では,触覚フィードバックを用いたプローブシステムを用いて,奥行きラベルのばらばらなステレオネットワークを自動収集する手法を提案する。 触覚の利点を評価するための新しいユーティリティ機能を提案する。 ユーティリティ関数の近似と最適化により、固定されたタッチ予算を与えられた探索位置を最適化し、実際のオブジェクトにおけるネットワークの性能を改善することができる。 さらに,触覚奥行き監視と信頼度に基づく正則化を組み合わせることで,微調整時の過剰フィッティングを防止する。 本手法の有効性を評価するため,拡散オブジェクトと透明オブジェクトの両方を含む実世界のデータセットを構築した。 このデータセットにおける実験結果は,特に透明な物体に対して,実世界の深度センシング精度を著しく向上できることを示した。

Transparent objects are common in daily life. However, depth sensing for transparent objects remains a challenging problem. While learning-based methods can leverage shape priors to improve the sensing quality, the labor-intensive data collection in the real world and the sim-to-real domain gap restrict these methods' scalability. In this paper, we propose a method to finetune a stereo network with sparse depth labels automatically collected using a probing system with tactile feedback. We present a novel utility function to evaluate the benefit of touches. By approximating and optimizing the utility function, we can optimize the probing locations given a fixed touching budget to better improve the network's performance on real objects. We further combine tactile depth supervision with a confidence-based regularization to prevent over-fitting during finetuning. To evaluate the effectiveness of our method, we construct a real-world dataset including both diffuse and transparent objects. Experimental results on this dataset show that our method can significantly improve real-world depth sensing accuracy, especially for transparent objects.
翻訳日:2023-09-19 15:31:32 公開日:2023-09-18
# ダブル・ディープ・イメージ・プリミティブを用いた共同デモサイジングとデノナイジング

Joint Demosaicing and Denoising with Double Deep Image Priors ( http://arxiv.org/abs/2309.09426v1 )

ライセンス: Link先を確認
Taihui Li, Anish Lahiri, Yutong Dai, Owen Mayer(参考訳) 原画像の復調と校正は、現代のデジタルカメラの処理パイプラインにおいて重要なステップである。 デジタル画像を生成するのに必要なカラー情報の3分の1だけをカメラセンサで捉えているため、復調のプロセスは本質的に不適切である。 騒音の存在によりこの問題はさらに悪化する。 これら2つのステップを順次実行すると、キャプチャしたrawイメージの内容を歪め、あるステップから別のステップにエラーを蓄積する。 最近のディープニューラルネットワークベースのアプローチでは、これらの課題を緩和するための共同デモサイシングとデノイジングの有効性が示されている。 しかし、これらの手法は典型的には多数のトレーニングサンプルを必要とし、異なる種類のノイズと強度によく当てはまらない。 本稿では,JDD-DoubleDIPと呼ばれる,単一のRAW画像上で,トレーニングデータを必要とせずに直接動作可能な新しい共同復調・復調手法を提案する。 我々は,KodakとMcMasterという2つの一般的なデータセットに対して,様々なノイズとノイズ強度で提案手法の有効性を検証する。 実験結果から,PSNR,SSIM,定性的視覚知覚において,他の比較手法よりも常に優れることがわかった。

Demosaicing and denoising of RAW images are crucial steps in the processing pipeline of modern digital cameras. As only a third of the color information required to produce a digital image is captured by the camera sensor, the process of demosaicing is inherently ill-posed. The presence of noise further exacerbates this problem. Performing these two steps sequentially may distort the content of the captured RAW images and accumulate errors from one step to another. Recent deep neural-network-based approaches have shown the effectiveness of joint demosaicing and denoising to mitigate such challenges. However, these methods typically require a large number of training samples and do not generalize well to different types and intensities of noise. In this paper, we propose a novel joint demosaicing and denoising method, dubbed JDD-DoubleDIP, which operates directly on a single RAW image without requiring any training data. We validate the effectiveness of our method on two popular datasets -- Kodak and McMaster -- with various noises and noise intensities. The experimental results show that our method consistently outperforms other compared methods in terms of PSNR, SSIM, and qualitative visual perception.
翻訳日:2023-09-19 15:31:15 公開日:2023-09-18
# 量子機械学習のための近似符号化による対向ロバスト性保存回路深さ低減

Drastic Circuit Depth Reductions with Preserved Adversarial Robustness by Approximate Encoding for Quantum Machine Learning ( http://arxiv.org/abs/2309.09424v1 )

ライセンス: Link先を確認
Maxwell T. West, Azar C. Nakhl, Jamie Heredge, Floyd M. Creevey, Lloyd C.L. Hollenberg, Martin Sevior, Muhammad Usman(参考訳) 量子機械学習(quantum machine learning, qml)は、量子コンピューティングの応用として登場し、量子の優位性をもたらす可能性があるが、実用的応用に対するその実現は課題によって妨げられている。 中でも重要な障壁は、古典的なデータを量子状態に符号化する計算コストのかかるタスクであり、古典的なアルゴリズムに対する予測的なスピードアップを消すことができる。 本研究では, 変分, 遺伝的および行列積状態に基づくアルゴリズムを用いて, 符号化画像データを表す量子状態の効率的な生成法を提案する。 その結果,本手法は,標準状態準備方式よりも2桁浅く,精度を犠牲にすることなく回路深度とゲート数を大幅に節約できる回路を用いて,qmlに適したレベルに準じることができた。 さらに、ほぼ符号化されたデータに基づいてトレーニングおよび評価されたQMLモデルは、逆向きに生成された入力データの摂動に対するロバスト性を高める。 この敵対的脆弱性の部分的緩和は、データの有意義な大規模特徴を保ちながら、敵対的摂動の「drrowning out」によって可能であり、量子ハードウェアの要件を減少させるだけでなく、近似状態の準備にかなりの利益をもたらす。 我々は,IBM量子デバイス上でのシミュレーションと実験に基づいて,実用アプリケーションに関連する複雑なデータセット上での高精度で堅牢なQMLモデルを将来実装する上で,将来的な経路を明らかにする。

Quantum machine learning (QML) is emerging as an application of quantum computing with the potential to deliver quantum advantage, but its realisation for practical applications remains impeded by challenges. Amongst those, a key barrier is the computationally expensive task of encoding classical data into a quantum state, which could erase any prospective speed-ups over classical algorithms. In this work, we implement methods for the efficient preparation of quantum states representing encoded image data using variational, genetic and matrix product state based algorithms. Our results show that these methods can approximately prepare states to a level suitable for QML using circuits two orders of magnitude shallower than a standard state preparation implementation, obtaining drastic savings in circuit depth and gate count without unduly sacrificing classification accuracy. Additionally, the QML models trained and evaluated on approximately encoded data display an increased robustness to adversarially generated input data perturbations. This partial alleviation of adversarial vulnerability, possible due to the "drowning out" of adversarial perturbations while retaining the meaningful large-scale features of the data, constitutes a considerable benefit for approximate state preparation in addition to lessening the requirements of the quantum hardware. Our results, based on simulations and experiments on IBM quantum devices, highlight a promising pathway for the future implementation of accurate and robust QML models on complex datasets relevant for practical applications, bringing the possibility of NISQ-era QML advantage closer to reality.
翻訳日:2023-09-19 15:30:56 公開日:2023-09-18
# 実固有値は固有状態の再帰によって決定される

Real eigenvalues are determined by the recursion of eigenstates ( http://arxiv.org/abs/2309.09418v1 )

ライセンス: Link先を確認
Tong Liu and Youguo Wang(参考訳) 量子物理学は一般に時間進化のユニタリ性に起因する真の固有値に関係している。 $\mathcal{PT}$ 対称性を導入することで、システムのハミルトニアンがエルミート的でないとしても、固有値は特定の対称性の下で純粋に実数となることが広く受け入れられる。 したがって、非エルミート系の固有値問題の探求に多大な熱意が注がれている。 そこで本研究では,実固有値が固有状態の適切な再帰的条件下でも現れることを示す。 その結果,非エルミート系の実エネルギースペクトルを抽出し,確率の保存を保証し,将来の実験観測を刺激する新たな経路が得られた。

Quantum physics is generally concerned with real eigenvalues due to the unitarity of time evolution. With the introduction of $\mathcal{PT}$ symmetry, a widely accepted consensus is that, even if the Hamiltonian of the system is not Hermitian, the eigenvalues can still be pure real under specific symmetry. Hence, great enthusiasm has been devoted to exploring the eigenvalue problem of non-Hermitian systems. In this work, from a distinct perspective, we demonstrate that real eigenvalues can also emerge under the appropriate recursive condition of eigenstates. Consequently, our findings provide another path to extract the real energy spectrum of non-Hermitian systems, which guarantees the conservation of probability and stimulates future experimental observations.
翻訳日:2023-09-19 15:30:30 公開日:2023-09-18
# 因果発見と予測:方法とアルゴリズム

Causal Discovery and Prediction: Methods and Algorithms ( http://arxiv.org/abs/2309.09416v1 )

ライセンス: Link先を確認
Gilles Blondel(参考訳) 私たちは観察者だけでなく、現実の俳優でもある。 私たちを取り巻く空間や時間におけるいくつかの出来事を介入し、変化させる能力は、私たちの世界のモデルを構築する上で不可欠な要素です。 本論文では,最も費用効果の高い介入のみを選択し,現実世界における不要な系統的実験を避けるために,各介入の一般的なアプリオリアセスメントを導入する。 このa-prioriアセスメントに基づき、最小コストの介入シーケンスを用いて、任意の因果モデルにおける因果関係を同定する能動的学習アルゴリズムを提案する。 我々のアルゴリズムにはいくつかの新しい側面がある。 ほとんどの場合、多くの因果モデル候補を、介入変数の1つの値のみをテストする比較的安価な介入を使って破棄することができる。 また、アルゴリズムによって実行される介入の数は因果モデル候補の数によって制限される。 したがって、初期候補(またはそれより前の知識)が少なくなると、因果発見に対する介入が少なくなる。 因果関係は時間と密接に関連しており、原因がその効果に先行するように見える。 周期的因果過程は時間に関する因果関係の非常に興味深い例である。 本論文では,純粋に観察可能な動的ベイズネットワークに対する因果類似性を定義することによって,時間循環因果設定の形式的解析を行い,循環的設定における因果効果の同定のための健全かつ完全なアルゴリズムを提案する。 本稿では,この枠組みにおける2種類の隠れ共起変数の存在について紹介する。これは,動的ベイズネットワークと標準因果グラフのいずれにも類似しない,識別手順の仕方が大きく異なる。

We are not only observers but also actors of reality. Our capability to intervene and alter the course of some events in the space and time surrounding us is an essential component of how we build our model of the world. In this doctoral thesis we introduce a generic a-priori assessment of each possible intervention, in order to select the most cost-effective interventions only, and avoid unnecessary systematic experimentation on the real world. Based on this a-priori assessment, we propose an active learning algorithm that identifies the causal relations in any given causal model, using a least cost sequence of interventions. There are several novel aspects introduced by our algorithm. It is, in most case scenarios, able to discard many causal model candidates using relatively inexpensive interventions that only test one value of the intervened variables. Also, the number of interventions performed by the algorithm can be bounded by the number of causal model candidates. Hence, fewer initial candidates (or equivalently, more prior knowledge) lead to fewer interventions for causal discovery. Causality is intimately related to time, as causes appear to precede their effects. Cyclical causal processes are a very interesting case of causality in relation to time. In this doctoral thesis we introduce a formal analysis of time cyclical causal settings by defining a causal analog to the purely observational Dynamic Bayesian Networks, and provide a sound and complete algorithm for the identification of causal effects in the cyclic setting. We introduce the existence of two types of hidden confounder variables in this framework, which affect in substantially different ways the identification procedures, a distinction with no analog in either Dynamic Bayesian Networks or standard causal graphs.
翻訳日:2023-09-19 15:30:18 公開日:2023-09-18
# 全スライド画像における癌転移予測のためのクロス・アテンションに基づく塩分推定

Cross-attention-based saliency inference for predicting cancer metastasis on whole slide images ( http://arxiv.org/abs/2309.09412v1 )

ライセンス: Link先を確認
Ziyu Su, Mostafa Rezapour, Usama Sajjad, Shuo Niu, Metin Nafi Gurcan, Muhammad Khalid Khan Niazi(参考訳) マルチインスタンス・ラーニング (mil) 法は全スライド画像 (wsi) の自動腫瘍検出に広く用いられているが, 小型腫瘍wsis における極度のクラス不均衡に苦しむ。 これは、腫瘍が少数の単離細胞のみを含む場合に発生する。 早期発見のためには、milアルゴリズムがwsiの大きさの1%未満であっても、小さな腫瘍を識別できることが最も重要である。 既存の研究は注意に基づくアーキテクチャとインスタンス選択ベースの方法論を使ってこの問題に対処しようとしたが、大きな改善は得られていない。 本稿では,WSI 上の乳癌リンパ節微小転移をアノテーションを必要とせずに同定するために,新規な唾液度インフォームドアテンション機構を備えたクロスアテンション型唾液性インスタンス推論 MIL (CASiiMIL) を提案する。 この新しい注意機構は別として, 腫瘍wsisの感度を向上させるために, 塩分を含まない注意重みの学習を容易にする負の表現学習アルゴリズムを提案する。 提案モデルでは, 2つの腫瘍転移検出データセットに対して, 最先端のMIL法より優れた性能を示し, クロスセンターの一般化性を示す。 また, 腫瘍病変の少ないWSIの分類では, 精度が良好である。 また,提案モデルでは,注意重みによる解釈性が良好であることが判明した。 提案手法は,細粒度アノテーションの取得が事実上不可能である大規模データセットにおける早期腫瘍検出のための訓練アルゴリズムへの道を開くと強く信じている。

Although multiple instance learning (MIL) methods are widely used for automatic tumor detection on whole slide images (WSI), they suffer from the extreme class imbalance within the small tumor WSIs. This occurs when the tumor comprises only a few isolated cells. For early detection, it is of utmost importance that MIL algorithms can identify small tumors, even when they are less than 1% of the size of the WSI. Existing studies have attempted to address this issue using attention-based architectures and instance selection-based methodologies, but have not yielded significant improvements. This paper proposes cross-attention-based salient instance inference MIL (CASiiMIL), which involves a novel saliency-informed attention mechanism, to identify breast cancer lymph node micro-metastasis on WSIs without the need for any annotations. Apart from this new attention mechanism, we introduce a negative representation learning algorithm to facilitate the learning of saliency-informed attention weights for improved sensitivity on tumor WSIs. The proposed model outperforms the state-of-the-art MIL methods on two popular tumor metastasis detection datasets, and demonstrates great cross-center generalizability. In addition, it exhibits excellent accuracy in classifying WSIs with small tumor lesions. Moreover, we show that the proposed model has excellent interpretability attributed to the saliency-informed attention weights. We strongly believe that the proposed method will pave the way for training algorithms for early tumor detection on large datasets where acquiring fine-grained annotations is practically impossible.
翻訳日:2023-09-19 15:29:50 公開日:2023-09-18
# マルチパーティの絡み合い対策--概観

Multipartite entanglement measures: a review ( http://arxiv.org/abs/2309.09459v1 )

ライセンス: Link先を確認
Mengru Ma, Yinfei Li, and Jiangwei Shang(参考訳) 量子力学の基本的な側面である量子絡み合いは、量子情報科学の時代に大きな注目を集めている。 多部量子システムにおいて、絡み合いは量子テレポーテーションや密度符号化といった様々な量子情報処理タスクの促進に重要な役割を果たしている。 本稿では,多元的絡み合い測度の理論と,多元的絡み合い測度の操作的意味について考察する。 この領域について徹底的で貴重な知見を提供することで、このレビューが研究者の努力を刺激し、多部交絡を特徴づけるための新しいアプローチをさらに発展させることを期待します。

Quantum entanglement, a fundamental aspect of quantum mechanics, has captured significant attention in the era of quantum information science. In multipartite quantum systems, entanglement plays a crucial role in facilitating various quantum information processing tasks, such as quantum teleportation and dense coding. In this article, we review the theory of multipartite entanglement measures, with a particular focus on the genuine as well as the operational meaning of multipartite entanglement measures. By providing a thorough and valuable insight on this field, we hope that this review would inspire and guide researchers in their endeavors to further develop novel approaches for characterizing multipartite entanglement.
翻訳日:2023-09-19 15:25:12 公開日:2023-09-18
# 計算難解なOracleのない疎線形MDPの探索と学習

Exploring and Learning in Sparse Linear MDPs without Computationally Intractable Oracles ( http://arxiv.org/abs/2309.09457v1 )

ライセンス: Link先を確認
Noah Golowich and Dhruv Rohatgi and Ankur Moitra(参考訳) 基本となる線形マルコフ決定プロセス(mdps)は、学習者が既知の特徴写像$\phi(x, a)$にアクセスでき、状態-作用対を$d$-次元ベクトルにマッピングし、報酬と遷移がこの表現の線形関数である、という仮定である。 しかし、これらの機能はどこから来るのか? 専門家のドメイン知識がなければ,‘kitchen sink’というアプローチを採用して,真の機能がもっと大きな機能セットに含まれていることを期待する,という誘惑的な戦略がある。 本稿では,線形mdpを特徴選択の観点から再検討する。 a $k$-sparse linear MDP には、すべての関連する特徴を含む未知のサブセット $S \subset [d]$ of size $k$ が存在し、その目標は、環境との相互作用をpoly$(k,\log d)$でのみ学習することである。 我々の主な結果は、この問題に対する最初の多項式時間アルゴリズムである。 対照的に、初期の研究は、探索の必要性を損なう、あるいは計算的に難解な最適化問題を解く必要のある、禁止的に強い仮定をした。 その過程で、あるベルマンバックアップを計算するのに十分である遷移の簡潔な近似表現であるエミュレータの概念を導入する。 線形 MDP は非パラメトリックモデルであるため、多項式サイズのエミュレータが存在するかどうかさえ明らかではない。 それらは存在し、凸プログラミングによって効率的に計算できることを示す。 そこで本研究では,ブロックmdpにおいてデコード関数が低深さ決定木である近最適ポリシを学習するアルゴリズムを提案し,そのアルゴリズムを準多項時間で実行し,多項式数のサンプルを取る。 これは計算学習理論における古典的な結果の強化学習類似体と見なすことができる。 さらに、表現学習によるサンプル複雑性の向上が計算可能となる自然なモデルを与える。

The key assumption underlying linear Markov Decision Processes (MDPs) is that the learner has access to a known feature map $\phi(x, a)$ that maps state-action pairs to $d$-dimensional vectors, and that the rewards and transitions are linear functions in this representation. But where do these features come from? In the absence of expert domain knowledge, a tempting strategy is to use the ``kitchen sink" approach and hope that the true features are included in a much larger set of potential features. In this paper we revisit linear MDPs from the perspective of feature selection. In a $k$-sparse linear MDP, there is an unknown subset $S \subset [d]$ of size $k$ containing all the relevant features, and the goal is to learn a near-optimal policy in only poly$(k,\log d)$ interactions with the environment. Our main result is the first polynomial-time algorithm for this problem. In contrast, earlier works either made prohibitively strong assumptions that obviated the need for exploration, or required solving computationally intractable optimization problems. Along the way we introduce the notion of an emulator: a succinct approximate representation of the transitions that suffices for computing certain Bellman backups. Since linear MDPs are a non-parametric model, it is not even obvious whether polynomial-sized emulators exist. We show that they do exist and can be computed efficiently via convex programming. As a corollary of our main result, we give an algorithm for learning a near-optimal policy in block MDPs whose decoding function is a low-depth decision tree; the algorithm runs in quasi-polynomial time and takes a polynomial number of samples. This can be seen as a reinforcement learning analogue of classic results in computational learning theory. Furthermore, it gives a natural model where improving the sample complexity via representation learning is computationally feasible.
翻訳日:2023-09-19 15:24:59 公開日:2023-09-18
# Object2Scene:Open-Vocabulary 3D Detectionのためのコンテキストにオブジェクトを置く

Object2Scene: Putting Objects in Context for Open-Vocabulary 3D Detection ( http://arxiv.org/abs/2309.09456v1 )

ライセンス: Link先を確認
Chenming Zhu, Wenwei Zhang, Tai Wang, Xihui Liu and Kai Chen(参考訳) point cloudベースのopen-vocabulary 3d object detectionは、トレーニングセットに基底アノテーションを持たない3dカテゴリの検出を目的としている。 3Dシーンの制限されたデータとアノテーション(クラスラベルやテキスト記述付きのバウンディングボックス)のため、非常に難しい。 従来のアプローチでは、大規模なリッチな注釈付きイメージデータセットを3Dとカテゴリセマンティクスの橋渡しとして活用するが、2Dイメージと3Dポイントの間に余分なアライメントプロセスを必要とし、3D検出器のオープン語彙能力を制限する。 2d画像を活用する代わりに,大規模な3dオブジェクトデータセットを活用した最初のアプローチであるobject2sceneを提案する。 Object2Sceneは、異なるソースからのオブジェクトを3Dシーンに挿入し、3Dシーンデータセットの語彙を強化し、新たに挿入されたオブジェクトのテキスト記述を生成する。 さらに,l3detと呼ばれる3d検出と視覚的接地を統合するフレームワークを導入し,異なるデータセットからの3dオブジェクト間のドメイン間ギャップを緩和するクロスドメインカテゴリレベルのコントラスト学習手法を提案する。 既存のopen-vocabulary 3d object detectionベンチマークに関する広範囲な実験は、object2sceneが既存のメソッドよりも優れたパフォーマンスを得ることを示している。 我々は,新しいベンチマークOV-ScanNet-200におけるObject2Sceneの有効性をさらに検証する。

Point cloud-based open-vocabulary 3D object detection aims to detect 3D categories that do not have ground-truth annotations in the training set. It is extremely challenging because of the limited data and annotations (bounding boxes with class labels or text descriptions) of 3D scenes. Previous approaches leverage large-scale richly-annotated image datasets as a bridge between 3D and category semantics but require an extra alignment process between 2D images and 3D points, limiting the open-vocabulary ability of 3D detectors. Instead of leveraging 2D images, we propose Object2Scene, the first approach that leverages large-scale large-vocabulary 3D object datasets to augment existing 3D scene datasets for open-vocabulary 3D object detection. Object2Scene inserts objects from different sources into 3D scenes to enrich the vocabulary of 3D scene datasets and generates text descriptions for the newly inserted objects. We further introduce a framework that unifies 3D detection and visual grounding, named L3Det, and propose a cross-domain category-level contrastive learning approach to mitigate the domain gap between 3D objects from different datasets. Extensive experiments on existing open-vocabulary 3D object detection benchmarks show that Object2Scene obtains superior performance over existing methods. We further verify the effectiveness of Object2Scene on a new benchmark OV-ScanNet-200, by holding out all rare categories as novel categories not seen during training.
翻訳日:2023-09-19 15:24:25 公開日:2023-09-18
# CaT: グラフ凝縮による連続グラフ学習のバランス

CaT: Balanced Continual Graph Learning with Graph Condensation ( http://arxiv.org/abs/2309.09455v1 )

ライセンス: Link先を確認
Yilun Liu and Ruihong Qiu and Zi Huang(参考訳) 連続グラフ学習(CGL)は、グラフデータをストリーミング形式で供給するグラフモデルを継続的に更新することを目的としている。 このモデルは、新しいデータでトレーニングする際の学習知識を忘れやすいため、大惨事な忘れの問題がCGLの主要な焦点となっている。 近年のリプレイベース手法では,(1)新しいデータ全体と(2)履歴データの分布を近似するためにリプレイされたグラフを格納するサンプリングベースメモリバンクを用いて,モデルを更新する。 モデルを更新した後、入ってくるグラフからサンプリングされた新しい再生グラフが既存のメモリバンクに追加される。 これらの手法は直感的でCGLに有効であるが,本論文では2つの問題点を同定する。 第一に、ほとんどのサンプリングベース手法は、ストレージ予算が厳しい場合、履歴分布を完全に把握するのに苦労している。 第二に、複雑な新しいグラフデータと軽量メモリバンクのスケールで重要なデータ不均衡が存在し、結果としてトレーニングが不均衡になる。 これらの問題を解決するために,本稿では,<textit{Condense and Train(CaT)フレームワークを提案する。 モデル更新に先立って、新しいグラフは小さいが情報に富んだ合成されたリプレイグラフに集約され、履歴リプレイグラフを持つ \textit{condensed graph memory} に格納される。 連続学習フェーズでは、データ不均衡問題を緩和する新しいグラフではなく、モデルを直接 \textit{condensed graph memory} で更新するために \textit{training in memory}スキームが使用される。 4つのベンチマークデータセットで実施された大規模な実験は、有効性と効率の観点から提案したCaTフレームワークの優れた性能を示すことに成功した。 コードは \url{https://github.com/superallen13/CaT-CGL} でリリースされた。

Continual graph learning (CGL) is purposed to continuously update a graph model with graph data being fed in a streaming manner. Since the model easily forgets previously learned knowledge when training with new-coming data, the catastrophic forgetting problem has been the major focus in CGL. Recent replay-based methods intend to solve this problem by updating the model using both (1) the entire new-coming data and (2) a sampling-based memory bank that stores replayed graphs to approximate the distribution of historical data. After updating the model, a new replayed graph sampled from the incoming graph will be added to the existing memory bank. Despite these methods are intuitive and effective for the CGL, two issues are identified in this paper. Firstly, most sampling-based methods struggle to fully capture the historical distribution when the storage budget is tight. Secondly, a significant data imbalance exists in terms of the scales of the complex new-coming graph data and the lightweight memory bank, resulting in unbalanced training. To solve these issues, a \textit{Condense and Train (CaT)} framework is proposed in this paper. Prior to each model update, the new-coming graph is condensed to a small yet informative synthesised replayed graph, which is then stored in a \textit{Condensed Graph Memory} with historical replay graphs. In the continual learning phase, a \textit{Training in Memory} scheme is used to update the model directly with the \textit{Condensed Graph Memory} rather than the whole new-coming graph, which alleviates the data imbalance problem. Extensive experiments conducted on four benchmark datasets successfully demonstrate superior performances of the proposed CaT framework in terms of effectiveness and efficiency. The code has been released on \url{https://github.com/superallen13/CaT-CGL}.
翻訳日:2023-09-19 15:23:59 公開日:2023-09-18
# 非i.i.dデータに基づく検閲回帰モデルの漸近的効率的オンライン学習

Asymptotically Efficient Online Learning for Censored Regression Models Under Non-I.I.D Data ( http://arxiv.org/abs/2309.09454v1 )

ライセンス: Link先を確認
Lantian Zhang and Lei Guo(参考訳) 漸近的効率のよいオンライン学習問題は、様々な学習と統計学の分野から生じる確率的検閲回帰モデルに対して研究されているが、現在まで学習アルゴリズムの効率に関する包括的な理論的研究が欠けている。 そこで本研究では,第1段階がアルゴリズム収束の達成に焦点をあて,第2段階が推定性能の向上に焦点をあてた2段階オンラインアルゴリズムを提案する。 データに対する一般的な励起条件の下では、確率的リャプノフ関数法とマルティンガレの極限理論を用いて、我々のアルゴリズムは強く一貫性があり、漸近的に正常であることを示す。 さらに, 推定値の共分散が漸近的にクラマー・ラオ(C-R)境界を達成できることを示し, 提案アルゴリズムの性能が一般に期待できる最良の可能性であることを示す。 既存の著作物と異なり,データに対する独立かつ同一分散(i.i.d)の仮定のような,従来使用されてきたが厳密な条件に頼らずに結果が得られるため,フィードバックを伴う確率力学系への応用は除外されない。 オンラインアルゴリズムが文献上の既存の関連アルゴリズムよりも優れていることを示す数値例も提示されている。

The asymptotically efficient online learning problem is investigated for stochastic censored regression models, which arise from various fields of learning and statistics but up to now still lacks comprehensive theoretical studies on the efficiency of the learning algorithms. For this, we propose a two-step online algorithm, where the first step focuses on achieving algorithm convergence, and the second step is dedicated to improving the estimation performance. Under a general excitation condition on the data, we show that our algorithm is strongly consistent and asymptotically normal by employing the stochastic Lyapunov function method and limit theories for martingales. Moreover, we show that the covariances of the estimates can achieve the Cramer-Rao (C-R) bound asymptotically, indicating that the performance of the proposed algorithm is the best possible that one can expect in general. Unlike most of the existing works, our results are obtained without resorting to the traditionally used but stringent conditions such as independent and identically distributed (i.i.d) assumption on the data, and thus our results do not exclude applications to stochastic dynamical systems with feedback. A numerical example is also provided to illustrate the superiority of the proposed online algorithm over the existing related ones in the literature.
翻訳日:2023-09-19 15:23:27 公開日:2023-09-18
# 私の信頼に値するか? 信頼できるaiシステムが環境・人間社会に与える影響に関する社会倫理学的視点

Are You Worthy of My Trust?: A Socioethical Perspective on the Impacts of Trustworthy AI Systems on the Environment and Human Society ( http://arxiv.org/abs/2309.09450v1 )

ライセンス: Link先を確認
Jamell Dacon(参考訳) 今日、ユビキタスなAIシステムの露出により、我々はAI開発には信頼できるとみなすための重要な考慮が必要であると信じている。 しかし、AIシステムのポテンシャルは報奨金だが、そのリスクは、まだ不明だ。 本稿では、aiシステムの社会的影響を簡潔かつ高レベルに概観する。 そのために, 重要なシステム検査(エネルギー消費など)を通じて, ライフサイクルを通じて多分野のガバナンスと収束の必要性を強調し, 環境への影響(炭素フットプリントなど)とユーザ(社会開発など)について議論する。 特に,これらの影響は,コンピュータ科学,社会学,環境科学など多分野の観点から考察し,その相互接続型社会的リスクと,幸福の側面を同時に満たすことができないことを論じる。 そこで我々は,人間中心の信頼できるAIを実現するために,社会倫理的影響評価の観点から,AIシステムの強迫的関心事に対して,その有害な社会的影響を解明する必要性を強調した。

With ubiquitous exposure of AI systems today, we believe AI development requires crucial considerations to be deemed trustworthy. While the potential of AI systems is bountiful, though, is still unknown-as are their risks. In this work, we offer a brief, high-level overview of societal impacts of AI systems. To do so, we highlight the requirement of multi-disciplinary governance and convergence throughout its lifecycle via critical systemic examinations (e.g., energy consumption), and later discuss induced effects on the environment (i.e., carbon footprint) and its users (i.e., social development). In particular, we consider these impacts from a multi-disciplinary perspective: computer science, sociology, environmental science, and so on to discuss its inter-connected societal risks and inability to simultaneously satisfy aspects of well-being. Therefore, we accentuate the necessity of holistically addressing pressing concerns of AI systems from a socioethical impact assessment perspective to explicate its harmful societal effects to truly enable humanity-centered Trustworthy AI.
翻訳日:2023-09-19 15:23:04 公開日:2023-09-18
# リモートセンシングデータと自己教師型学習を用いたスケーラブルラベル効率の高いフットパスネットワーク生成

Scalable Label-efficient Footpath Network Generation Using Remote Sensing Data and Self-supervised Learning ( http://arxiv.org/abs/2309.09446v1 )

ライセンス: Link先を確認
Xinye Wanyan, Sachith Seneviratne, Kerry Nice, Jason Thompson, Marcus White, Nano Langenheim, and Mark Stevenson(参考訳) フットパスマッピング、モデリング、分析は、交通、健康、環境、都市計画など、多くの研究分野に重要な地理空間的洞察を提供することができる。 堅牢な地理情報システム(GIS)のレイヤは、特に都市プランナーがインフラの配備と維持に責任を負う地方自治体レベルで、インフラ在庫の管理に役立てることができる。 しかし、多くの都市は依然として足跡の位置、接続性、幅に関するリアルタイム情報を欠いている。 本研究は,機械学習モデルを用いたリモートセンシング画像に基づくフットパスネットワークの自動生成パイプラインの設計と実装を行う。 セグメンテーションタスクのアノテーション、特に特殊な要求を伴うリモートセンシングイメージのラベル付けは非常に高価であるため、ラベル付きデータの少ないパイプラインの導入を目指している。 教師付き手法は大量のトレーニングデータを必要とするため,アノテーションの要求を減らすために特徴表現学習に自己教師付き手法を用いる。 次に、事前学習されたモデルを、フットパスセグメンテーションのためのU-Netエンコーダとして使用する。 生成したマスクに基づいて、フットパスポリゴンを抽出してフットパスネットワークに変換し、地理的情報システムにより簡便にロードおよび可視化することができる。 検証結果は,手作業で収集したGIS層と比較してかなりの一貫性を示す。 本研究で提案するフットパスネットワーク生成パイプラインは低コストで拡張可能であり,リモートセンシング画像が利用可能であれば適用可能である。 github: https://github.com/wennyxy/footpathseg。

Footpath mapping, modeling, and analysis can provide important geospatial insights to many fields of study, including transport, health, environment and urban planning. The availability of robust Geographic Information System (GIS) layers can benefit the management of infrastructure inventories, especially at local government level with urban planners responsible for the deployment and maintenance of such infrastructure. However, many cities still lack real-time information on the location, connectivity, and width of footpaths, and/or employ costly and manual survey means to gather this information. This work designs and implements an automatic pipeline for generating footpath networks based on remote sensing images using machine learning models. The annotation of segmentation tasks, especially labeling remote sensing images with specialized requirements, is very expensive, so we aim to introduce a pipeline requiring less labeled data. Considering supervised methods require large amounts of training data, we use a self-supervised method for feature representation learning to reduce annotation requirements. Then the pre-trained model is used as the encoder of the U-Net for footpath segmentation. Based on the generated masks, the footpath polygons are extracted and converted to footpath networks which can be loaded and visualized by geographic information systems conveniently. Validation results indicate considerable consistency when compared to manually collected GIS layers. The footpath network generation pipeline proposed in this work is low-cost and extensible, and it can be applied where remote sensing images are available. Github: https://github.com/WennyXY/FootpathSeg.
翻訳日:2023-09-19 15:22:33 公開日:2023-09-18
# ファクト検証におけるゼロ・ショット一般化の検討

Investigating Zero- and Few-shot Generalization in Fact Verification ( http://arxiv.org/abs/2309.09444v1 )

ライセンス: Link先を確認
Liangming Pan, Yunxiang Zhang, Min-Yen Kan(参考訳) 本稿では,人間アノテーションを欠くローソースドメインに対して,適切に再資源化されたドメイン(例えばwikipedia)で訓練されたfvモデルを一般化することを目的とした,ファクト検証のためのゼロショットとマイショットの一般化(fv)について検討する。 この目的のために、まず6つのドメインを表す11のfvデータセットを含むベンチマークデータセットコレクションを構築する。 我々はこれらのFVデータセットにおける一般化の実証分析を行い、現在のモデルでは一般化が不十分であることを示す。 分析の結果,データセットのサイズ,証拠の長さ,クレームの種類など,いくつかの要因が一般化に影響を与えることが明らかとなった。 最後に、作業の2つの方向が一般化を改善することを示す。 1)専門分野の事前学習によるドメイン知識の取り込み、及び 2)クレーム生成によるトレーニングデータの自動生成。

In this paper, we explore zero- and few-shot generalization for fact verification (FV), which aims to generalize the FV model trained on well-resourced domains (e.g., Wikipedia) to low-resourced domains that lack human annotations. To this end, we first construct a benchmark dataset collection which contains 11 FV datasets representing 6 domains. We conduct an empirical analysis of generalization across these FV datasets, finding that current models generalize poorly. Our analysis reveals that several factors affect generalization, including dataset size, length of evidence, and the type of claims. Finally, we show that two directions of work improve generalization: 1) incorporating domain knowledge via pretraining on specialized domains, and 2) automatically generating training data via claim generation.
翻訳日:2023-09-19 15:21:20 公開日:2023-09-18
# 言語プロンプトチューニングとフレームレベル言語アダプタによる多言語音声認識の強化

Enhancing Multilingual Speech Recognition through Language Prompt Tuning and Frame-Level Language Adapter ( http://arxiv.org/abs/2309.09443v1 )

ライセンス: Link先を確認
Song Li, Yonbin You, Xuezhi Wang, Ke Ding, Guanglu Wan(参考訳) ChatGPTのような多言語インテリジェントアシスタントは最近人気を集めている。 多言語人工知能アシスタントの応用をさらに拡大し、国際コミュニケーションを促進するためには、音声対話の重要な構成要素である多言語音声認識の性能を高めることが不可欠である。 本稿では,言語構成可能で言語非依存な多言語音声認識を実現するために,言語プロンプトチューニングとフレームレベル言語アダプタという2つの簡易かつパラメータ効率のよい手法を提案する。 さらに,パラメータ効率の良い微調整手法を用いて,これら2つのアプローチを統合する可能性について検討する。 本実験は,提案手法を用いて,7言語にまたがる大幅な性能向上を示す。

Multilingual intelligent assistants, such as ChatGPT, have recently gained popularity. To further expand the applications of multilingual artificial intelligence assistants and facilitate international communication, it is essential to enhance the performance of multilingual speech recognition, which is a crucial component of speech interaction. In this paper, we propose two simple and parameter-efficient methods: language prompt tuning and frame-level language adapter, to respectively enhance language-configurable and language-agnostic multilingual speech recognition. Additionally, we explore the feasibility of integrating these two approaches using parameter-efficient fine-tuning methods. Our experiments demonstrate significant performance improvements across seven languages using our proposed methods.
翻訳日:2023-09-19 15:21:03 公開日:2023-09-18
# 次元性低減のためのカントロヴィチ・ルビンシュタイン距離の利用について

On the Use of the Kantorovich-Rubinstein Distance for Dimensionality Reduction ( http://arxiv.org/abs/2309.09442v1 )

ライセンス: Link先を確認
Ga\"el Giordano(参考訳) この論文の目的は、分類問題におけるサンプル複雑性の記述子を構築するために、カントロヴィチ-ルビンシュタイン距離の使用を研究することである。 この考え方は、カントロヴィチ-ルビンシュタイン距離が測度の空間における計量であるという事実を、基礎となる計量空間の幾何学と位相も考慮して使うことである。 我々は各点の類を測度として関連付け、これらの測度間のカントロヴィチ-ルビンシュタイン距離から得られる幾何学的情報を研究する。 これらの測度の間の大きなカントロヴィチ・ルビンシュタイン距離は、点のクラスをうまく分類する 1-リプシッツ分類器が存在すると結論付けることができる。 また、記述子としてのカントロヴィチ-ルビンシュタイン距離の制限についても論じる。

The goal of this thesis is to study the use of the Kantorovich-Rubinstein distance as to build a descriptor of sample complexity in classification problems. The idea is to use the fact that the Kantorovich-Rubinstein distance is a metric in the space of measures that also takes into account the geometry and topology of the underlying metric space. We associate to each class of points a measure and thus study the geometrical information that we can obtain from the Kantorovich-Rubinstein distance between those measures. We show that a large Kantorovich-Rubinstein distance between those measures allows to conclude that there exists a 1-Lipschitz classifier that classifies well the classes of points. We also discuss the limitation of the Kantorovich-Rubinstein distance as a descriptor.
翻訳日:2023-09-19 15:20:40 公開日:2023-09-18
# 映像スプライシング局所化のための時空間コアテンション融合ネットワーク

Spatio-temporal Co-attention Fusion Network for Video Splicing Localization ( http://arxiv.org/abs/2309.09482v1 )

ライセンス: Link先を確認
Man Lin, Gang Cao, Zijie Lou(参考訳) デジタルビデオスプライシングは簡単でユビキタスになった。 悪意のあるユーザーは、ビデオの一部の領域をコピーして別のビデオにペーストし、現実的な偽造書を作成する。 ビデオ中のこのような偽造領域を盲目的に検出することは重要である。 本稿では,ビデオスプライシングローカライゼーションのための時空間コアテンション融合ネットワーク(SCFNet)を提案する。 具体的には、複数のフレームにわたる操作トレースをキャプチャするエンコーダとして、3ストリームネットワークが使用される。 時空間法医学的特徴の深い相互作用と融合は、新しい並列およびクロスアテンション融合モジュールによって達成される。 軽量多層パーセプトロン(MLP)デコーダを採用し、画素レベルのタンパリングローカライゼーションマップを生成する。 SCFNetをトレーニングするために、新しい大規模ビデオスプライシングデータセットが作成されている。 ベンチマークデータセットの広範なテストは、scfnetのローカライズと一般化のパフォーマンスが最先端を上回っていることを示している。 コードとデータセットはhttps://github.com/multimediaFor/SCFNetで入手できる。

Digital video splicing has become easy and ubiquitous. Malicious users copy some regions of a video and paste them to another video for creating realistic forgeries. It is significant to blindly detect such forgery regions in videos. In this paper, a spatio-temporal co-attention fusion network (SCFNet) is proposed for video splicing localization. Specifically, a three-stream network is used as an encoder to capture manipulation traces across multiple frames. The deep interaction and fusion of spatio-temporal forensic features are achieved by the novel parallel and cross co-attention fusion modules. A lightweight multilayer perceptron (MLP) decoder is adopted to yield a pixel-level tampering localization map. A new large-scale video splicing dataset is created for training the SCFNet. Extensive tests on benchmark datasets show that the localization and generalization performances of our SCFNet outperform the state-of-the-art. Code and datasets will be available at https://github.com/multimediaFor/SCFNet.
翻訳日:2023-09-19 15:11:59 公開日:2023-09-18
# 対向型最適化によるステルス物理マスク型顔認識攻撃

Stealthy Physical Masked Face Recognition Attack via Adversarial Style Optimization ( http://arxiv.org/abs/2309.09480v1 )

ライセンス: Link先を確認
Huihui Gong, Minjing Dong, Siqi Ma, Seyit Camtepe, Surya Nepal, Chang Xu(参考訳) ディープニューラルネットワーク(DNN)は、過去10年間で顔認識(FR)タスクにおける最先端のパフォーマンスを達成した。 実際のシナリオでは、DNNの展開には、眼鏡、帽子、マスクなど、さまざまな顔アクセサリーを考慮する必要がある。 新型コロナウイルス(COVID-19)のパンデミック時代には、マスクを着用することが新型コロナウイルス対策の最も効果的な方法の1つだ。 しかし、DNNは小さなが精巧な摂動を持つ敵の例に弱いことが知られている。 したがって、逆向きの摂動を持つ顔のマスクは、広く使われているディープラーニングベースのfrモデルにとって大きな脅威となる可能性がある。 本稿では,frモデルに対する標的攻撃という,挑戦的な敵意設定を考える。 本稿では,敵対的スタイルの最適化によるステルス物理マスクFR攻撃を提案する。 具体的には,対向型マスク生成装置を訓練し,対向型マスク内の摂動を隠蔽する。 さらに,1つの固定スタイルでサブ最適化の現象を改善するため,連続緩和方式で最適化することで,ターゲットに与えられた最適スタイルを見出す。 強力でステルスなスタイルマスクを生成するために,ジェネレータとスタイル選択を同時に最適化する。 提案手法の有効性と移動性について,ホワイトボックスおよびブラックボックスディジタル実験を用いて評価した。 さらに,ローカルFRモデルやオンラインプラットフォームに対する物理的攻撃実験も行った。

Deep neural networks (DNNs) have achieved state-of-the-art performance on face recognition (FR) tasks in the last decade. In real scenarios, the deployment of DNNs requires taking various face accessories into consideration, like glasses, hats, and masks. In the COVID-19 pandemic era, wearing face masks is one of the most effective ways to defend against the novel coronavirus. However, DNNs are known to be vulnerable to adversarial examples with a small but elaborated perturbation. Thus, a facial mask with adversarial perturbations may pose a great threat to the widely used deep learning-based FR models. In this paper, we consider a challenging adversarial setting: targeted attack against FR models. We propose a new stealthy physical masked FR attack via adversarial style optimization. Specifically, we train an adversarial style mask generator that hides adversarial perturbations inside style masks. Moreover, to ameliorate the phenomenon of sub-optimization with one fixed style, we propose to discover the optimal style given a target through style optimization in a continuous relaxation manner. We simultaneously optimize the generator and the style selection for generating strong and stealthy adversarial style masks. We evaluated the effectiveness and transferability of our proposed method via extensive white-box and black-box digital experiments. Furthermore, we also conducted physical attack experiments against local FR models and online platforms.
翻訳日:2023-09-19 15:11:43 公開日:2023-09-18
# mechanic maker 2.0: 生成ルール評価のための強化学習

Mechanic Maker 2.0: Reinforcement Learning for Evaluating Generated Rules ( http://arxiv.org/abs/2309.09476v1 )

ライセンス: Link先を確認
Johor Jara Gonzalez, Seth Cooper, Mathew Guzdial(参考訳) ゲームの自動生成に関する研究であるautomated game design(agd)は、技術ゲーム研究において長い歴史を持つ。 agdアプローチは一般に、客観的機能またはaiエージェントの人間の遊びの近似に依存する。 それにもかかわらず、これらの近似値は静的であり、ゲームにおける人間の学習能力や改善能力を反映していない。 本稿では,ルール生成のための人間遊びの近似器として強化学習(RL)の適用について検討する。 従来のAGD環境であるMechanic Maker in Unityを,新たなオープンソースルール生成フレームワークとして再現する。 以上の結果から,RLはA*エージェントのベースラインから異なるルールセットを生成することが明らかとなった。

Automated game design (AGD), the study of automatically generating game rules, has a long history in technical games research. AGD approaches generally rely on approximations of human play, either objective functions or AI agents. Despite this, the majority of these approximators are static, meaning they do not reflect human player's ability to learn and improve in a game. In this paper, we investigate the application of Reinforcement Learning (RL) as an approximator for human play for rule generation. We recreate the classic AGD environment Mechanic Maker in Unity as a new, open-source rule generation framework. Our results demonstrate that RL produces distinct sets of rules from an A* agent baseline, which may be more usable by humans.
翻訳日:2023-09-19 15:11:26 公開日:2023-09-18
# コンピュータビジョンにおける自己教師付きマルチビュークラスタリング:調査

Self-supervised Multi-view Clustering in Computer Vision: A Survey ( http://arxiv.org/abs/2309.09473v1 )

ライセンス: Link先を確認
Jiatai Wang, Zhiwei Xu, Xuewen Yang, Hailong Li, Bo Li, Xuying Meng(参考訳) マルチビュークラスタリング (MVC) は近年, クロスモーダルな表現学習とデータ駆動型意思決定に重要な影響を与えている。 複数のビュー間の一貫性と相補的な情報を活用して、サンプルを個別のグループにクラスタ化する。 しかし、コンピュータビジョンの分野ではコントラスト学習が進化し続けており、自己教師型学習もかなりの研究進歩を遂げており、MVC手法では徐々に支配的になりつつある。 イメージとビデオデータの表現自体を監督情報としてマイニングするためにプロキシタスクを設計することで、クラスタリングプロセスをガイドする。 自己監督型MVCの急速な開発にもかかわらず、研究の進捗状況を分析し要約するための総合的な調査はまだ行われていない。 そこで本稿では,MVCの出現の理由とメリットを考察し,共通データセット,データ問題,表現学習手法,自己教師付き学習手法の内部接続と分類について考察する。 本稿では,メソッドのカテゴリごとのメカニズムを紹介するだけでなく,これらの手法の使い方を例に紹介する。 最終的に、さらなる調査と開発のためにいくつかのオープンな問題が指摘されている。

Multi-view clustering (MVC) has had significant implications in cross-modal representation learning and data-driven decision-making in recent years. It accomplishes this by leveraging the consistency and complementary information among multiple views to cluster samples into distinct groups. However, as contrastive learning continues to evolve within the field of computer vision, self-supervised learning has also made substantial research progress and is progressively becoming dominant in MVC methods. It guides the clustering process by designing proxy tasks to mine the representation of image and video data itself as supervisory information. Despite the rapid development of self-supervised MVC, there has yet to be a comprehensive survey to analyze and summarize the current state of research progress. Therefore, this paper explores the reasons and advantages of the emergence of self-supervised MVC and discusses the internal connections and classifications of common datasets, data issues, representation learning methods, and self-supervised learning methods. This paper does not only introduce the mechanisms for each category of methods but also gives a few examples of how these techniques are used. In the end, some open problems are pointed out for further investigation and development.
翻訳日:2023-09-19 15:11:15 公開日:2023-09-18
# レベルインパインティングによる既存レベルの再構築

Reconstructing Existing Levels through Level Inpainting ( http://arxiv.org/abs/2309.09472v1 )

ライセンス: Link先を確認
Johor Jara Gonzalez, Mathew Guzdial(参考訳) プロシージャコンテンツ生成 (PCG) とプロシージャコンテンツ生成 (PCGML) は, 様々なゲームにおいて, 先行研究に用いられている。 本稿では,ゲームレベルの再構築と拡張を伴うレベルインペインティングのサブプロブレムに着目し,コンテンツ拡張について述べる。 イメージインペインティングからインスピレーションを得て、このドメインから2つのテクニックを適用して、特定のユースケースに対処します。 本稿では,オートエンコーダとU-netの2つのレベルインペイント手法を提案する。 包括的ケーススタディを通じて,ベースライン法と比較して優れた性能を示し,それらの相対的メリットについて議論する。 さらに, レベルインペインティングタスクのアプローチを実践的に実証し, 今後の研究の方向性について考察する。

Procedural Content Generation (PCG) and Procedural Content Generation via Machine Learning (PCGML) have been used in prior work for generating levels in various games. This paper introduces Content Augmentation and focuses on the subproblem of level inpainting, which involves reconstructing and extending video game levels. Drawing inspiration from image inpainting, we adapt two techniques from this domain to address our specific use case. We present two approaches for level inpainting: an Autoencoder and a U-net. Through a comprehensive case study, we demonstrate their superior performance compared to a baseline method and discuss their relative merits. Furthermore, we provide a practical demonstration of both approaches for the level inpainting task and offer insights into potential directions for future research.
翻訳日:2023-09-19 15:10:55 公開日:2023-09-18
# メモリベース顔音声アライメントを用いた顔駆動ゼロショット音声変換

Face-Driven Zero-Shot Voice Conversion with Memory-based Face-Voice Alignment ( http://arxiv.org/abs/2309.09470v1 )

ライセンス: Link先を確認
Zheng-Yan Sheng, Yang Ai, Yan-Nian Chen, Zhen-Hua Ling(参考訳) 本稿では,顔画像に基づくゼロショット音声変換(ゼロショットFaceVC)を提案する。これは,ターゲット話者の単一顔画像にのみ依存して,任意の話者からの発話の音声特性を新たなターゲット話者に変換することを目的としている。 この課題に対処するために,フェースボイスメモリを用いたゼロショットFaceVC法を提案する。 本手法では,これら2つのモダリティを整列させるために,スロットがブリッジとして機能するメモリベースの顔声調アライメントモジュールを活用し,顔画像から音声特性をキャプチャする。 また、音声変換タスクにおける訓練と推論の相違の長期的問題を軽減するため、複合的な監視戦略も導入されている。 話者非依存のコンテンツ関連表現を得るために,事前訓練されたゼロショット音声変換モデルからゼロショットFaceVCモデルに知識を伝達する。 FaceVCと従来の音声変換タスクの違いを考慮すると、顔画像によって制御される音声特性の均一性、多様性、一貫性を、体系的主観的および客観的に評価するように設計されている。 広範にわたる実験を通して、ゼロショットFaceVCタスクにおける提案手法の優位性を示す。 サンプルはデモwebサイトで公開しています。

This paper presents a novel task, zero-shot voice conversion based on face images (zero-shot FaceVC), which aims at converting the voice characteristics of an utterance from any source speaker to a newly coming target speaker, solely relying on a single face image of the target speaker. To address this task, we propose a face-voice memory-based zero-shot FaceVC method. This method leverages a memory-based face-voice alignment module, in which slots act as the bridge to align these two modalities, allowing for the capture of voice characteristics from face images. A mixed supervision strategy is also introduced to mitigate the long-standing issue of the inconsistency between training and inference phases for voice conversion tasks. To obtain speaker-independent content-related representations, we transfer the knowledge from a pretrained zero-shot voice conversion model to our zero-shot FaceVC model. Considering the differences between FaceVC and traditional voice conversion tasks, systematic subjective and objective metrics are designed to thoroughly evaluate the homogeneity, diversity and consistency of voice characteristics controlled by face images. Through extensive experiments, we demonstrate the superiority of our proposed method on the zero-shot FaceVC task. Samples are presented on our demo website.
翻訳日:2023-09-19 15:10:42 公開日:2023-09-18
# Spiking-LEAF:スパイクニューラルネットワークのための学習可能な聴覚フロントエンド

Spiking-LEAF: A Learnable Auditory front-end for Spiking Neural Networks ( http://arxiv.org/abs/2309.09469v1 )

ライセンス: Link先を確認
Zeyang Song, Jibin Wu, Malu Zhang, Mike Zheng Shou, Haizhou Li(参考訳) 脳にインスパイアされたスパイクニューラルネットワーク(SNN)は、時間信号処理に大きな可能性を示している。 しかし, 音声処理におけるその性能は, 効果的な聴覚フロントエンドが欠如しているため, 制限されている。 この制限に対処するため,SNNに基づく音声処理のための学習可能なフロントエンドであるSpking-LEAFを導入する。 spiking-leafは学習可能なフィルタバンクと、新しい2コンパートメントスパイキングニューロンモデル、icc-lifを組み合わせる。 IHC-LIFニューロンは、内毛細胞(IHC)の構造からインスピレーションを受け、分離した樹状体と体細胞複合体を利用して、音声信号のマルチスケール時間的ダイナミクスを効果的に捉える。 さらに、IHC-LIFニューロンは、スパイク符号化効率を高めるために、スパイク正規化損失とともに横方向フィードバック機構を組み込んでいる。 キーワードスポッティングと話者識別タスクにおいて,提案するスパイキングリーフは,分類精度,雑音頑健性,符号化効率の点で,somaスパイキング聴覚フロントエンドと従来の実数値音響特徴を上回っている。

Brain-inspired spiking neural networks (SNNs) have demonstrated great potential for temporal signal processing. However, their performance in speech processing remains limited due to the lack of an effective auditory front-end. To address this limitation, we introduce Spiking-LEAF, a learnable auditory front-end meticulously designed for SNN-based speech processing. Spiking-LEAF combines a learnable filter bank with a novel two-compartment spiking neuron model called IHC-LIF. The IHC-LIF neurons draw inspiration from the structure of inner hair cells (IHC) and they leverage segregated dendritic and somatic compartments to effectively capture multi-scale temporal dynamics of speech signals. Additionally, the IHC-LIF neurons incorporate the lateral feedback mechanism along with spike regularization loss to enhance spike encoding efficiency. On keyword spotting and speaker identification tasks, the proposed Spiking-LEAF outperforms both SOTA spiking auditory front-ends and conventional real-valued acoustic features in terms of classification accuracy, noise robustness, and encoding efficiency.
翻訳日:2023-09-19 15:10:21 公開日:2023-09-18
# ソフトラテント方向によるプログレッシブテキスト・画像拡散

Progressive Text-to-Image Diffusion with Soft Latent Direction ( http://arxiv.org/abs/2309.09466v1 )

ライセンス: Link先を確認
YuTeng Ye, Jiale Cai, Hang Zhou, Guanwen Li, Youjia Zhang, Zikai Song, Chenxing Gao, Junqing Yu, Wei Yang(参考訳) テキスト対画像生成の急速な発展にもかかわらず、特定の関係制約に固執しながら複数のエンティティの合成と操作は永続的な課題をもたらす。 本稿では,対象画像にエンティティを体系的に組み込んだ革新的プログレッシブな合成・編集操作を導入し,各ステップにおける空間的および関係的制約の順守を保証する。 我々の重要な洞察は、事前訓練されたテキスト・ツー・イメージ拡散モデルが1つか2つのエンティティを順応的に扱うのに対して、より大きな数を扱う場合、しばしばフェールする、という観察に由来する。 この制限に対処するために,大規模言語モデル(LLM)の機能を活用して,複雑なテキスト記述を厳密な形式に固執するコヒーレントディレクティブに分解する手法を提案する。 Stimulus, Response, and Fusion(SRF)フレームワークを定式化して、個別の意味操作、すなわち挿入、編集、消去を含むディレクティブの実行を容易にする。 このフレームワーク内では、潜在領域は各操作に合わせて緩やかに刺激され、次いで応答性の潜在コンポーネントが融合して凝集したエンティティ操作を実現する。 提案手法は,特に複雑なテキスト入力に直面する場合に,オブジェクト合成の顕著な進歩をもたらす。 そのため、テキストから画像への生成タスクの新しいベンチマークを確立し、この分野のパフォーマンス基準をさらに高めます。

In spite of the rapidly evolving landscape of text-to-image generation, the synthesis and manipulation of multiple entities while adhering to specific relational constraints pose enduring challenges. This paper introduces an innovative progressive synthesis and editing operation that systematically incorporates entities into the target image, ensuring their adherence to spatial and relational constraints at each sequential step. Our key insight stems from the observation that while a pre-trained text-to-image diffusion model adeptly handles one or two entities, it often falters when dealing with a greater number. To address this limitation, we propose harnessing the capabilities of a Large Language Model (LLM) to decompose intricate and protracted text descriptions into coherent directives adhering to stringent formats. To facilitate the execution of directives involving distinct semantic operations-namely insertion, editing, and erasing-we formulate the Stimulus, Response, and Fusion (SRF) framework. Within this framework, latent regions are gently stimulated in alignment with each operation, followed by the fusion of the responsive latent components to achieve cohesive entity manipulation. Our proposed framework yields notable advancements in object synthesis, particularly when confronted with intricate and lengthy textual inputs. Consequently, it establishes a new benchmark for text-to-image generation tasks, further elevating the field's performance standards.
翻訳日:2023-09-19 15:10:01 公開日:2023-09-18
# ディープワンクラス分類に基づくアクティブな異常検出

Active anomaly detection based on deep one-class classification ( http://arxiv.org/abs/2309.09465v1 )

ライセンス: Link先を確認
Minkyung Kim, Junsik Kim, Jongmin Yu, Jun Kyun Choi(参考訳) アクティブラーニングは、専門家のフィードバックを利用して異常検出モデルを構築するための効率的なツールとして利用されてきた。 アクティブラーニングフレームワークでは、モデルが専門家によってラベル付けされるサンプルをクエリし、ラベル付きデータサンプルでモデルを再トレーニングする。 異常検出性能を改善しながら、注釈付きデータセットの取得を禁止する。 しかし、既存の研究のほとんどは、専門家が可能な限り多くの異常データサンプルを特定するのを助けることに焦点を当てており、これは一級分類に基づく深部異常検出のための準最適アプローチである。 本稿では,問合せ戦略と半教師付き学習手法という,深層svddにおけるアクティブラーニングの重要な2つの問題に取り組む。 まず,クエリ戦略は異常のみを識別するのではなく,適応境界に従って不確定なサンプルを選択する。 第2に,ラベル付き正規データと異常データの両方を効果的に組み込むための1クラス分類モデルの訓練において,ノイズコントラスト推定を適用する。 提案したクエリ戦略と半教師付き損失は,異常検出のアクティブな学習過程を個別に改善し,7つの異常検出データセットで組み合わせることでさらに改善する。

Active learning has been utilized as an efficient tool in building anomaly detection models by leveraging expert feedback. In an active learning framework, a model queries samples to be labeled by experts and re-trains the model with the labeled data samples. It unburdens in obtaining annotated datasets while improving anomaly detection performance. However, most of the existing studies focus on helping experts identify as many abnormal data samples as possible, which is a sub-optimal approach for one-class classification-based deep anomaly detection. In this paper, we tackle two essential problems of active learning for Deep SVDD: query strategy and semi-supervised learning method. First, rather than solely identifying anomalies, our query strategy selects uncertain samples according to an adaptive boundary. Second, we apply noise contrastive estimation in training a one-class classification model to incorporate both labeled normal and abnormal data effectively. We analyze that the proposed query strategy and semi-supervised loss individually improve an active learning process of anomaly detection and further improve when combined together on seven anomaly detection datasets.
翻訳日:2023-09-19 15:09:37 公開日:2023-09-18
# 勾配近似による対向訓練コストの削減

Reducing Adversarial Training Cost with Gradient Approximation ( http://arxiv.org/abs/2309.09464v1 )

ライセンス: Link先を確認
Huihui Gong, Shuo Yang, Siqi Ma, Seyit Camtepe, Surya Nepal, Chang Xu(参考訳) 深層学習モデルは様々な領域で最先端のパフォーマンスを達成してきたが、熟練した小さな摂動を持つ入力に対して脆弱であり、敵の例(AE)にちなんで名づけられている。 AEに対するモデルロバスト性を改善するための多くの戦略のうち、PGD(Projected Gradient Descent)に基づく対角訓練は最も効果的な方法の1つである。 残念なことに、損失関数の最大化によって十分な aes を生成することのできない計算上のオーバーヘッドは、より大きく複雑なモデルを使用する場合、通常の pgd 敵対訓練を非現実的にすることがある。 本稿では,Taylor級数の部分和によって逆損失を近似できることを示す。 さらに, 対向損失の勾配を近似し, 新たな効率的な対向訓練法, gaat (adversarial training with gradient approximation) を提案し, 頑健なモデルの構築コストを削減する。 また,本手法は,mnist,cifar-10,cifar-100データセットのモデルテスト精度に匹敵するトレーニング時間の最大60%を節約できることを示した。

Deep learning models have achieved state-of-the-art performances in various domains, while they are vulnerable to the inputs with well-crafted but small perturbations, which are named after adversarial examples (AEs). Among many strategies to improve the model robustness against AEs, Projected Gradient Descent (PGD) based adversarial training is one of the most effective methods. Unfortunately, the prohibitive computational overhead of generating strong enough AEs, due to the maximization of the loss function, sometimes makes the regular PGD adversarial training impractical when using larger and more complicated models. In this paper, we propose that the adversarial loss can be approximated by the partial sum of Taylor series. Furthermore, we approximate the gradient of adversarial loss and propose a new and efficient adversarial training method, adversarial training with gradient approximation (GAAT), to reduce the cost of building up robust models. Additionally, extensive experiments demonstrate that this efficiency improvement can be achieved without any or with very little loss in accuracy on natural and adversarial examples, which show that our proposed method saves up to 60\% of the training time with comparable model test accuracy on MNIST, CIFAR-10 and CIFAR-100 datasets.
翻訳日:2023-09-19 15:09:20 公開日:2023-09-18
# renderocc: 2次元レンダリングを監督するビジョン中心の3d占有率予測

RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering Supervision ( http://arxiv.org/abs/2309.09502v1 )

ライセンス: Link先を確認
Mingjie Pan, Jiaming Liu, Renrui Zhang, Peixiang Huang, Xiaoqi Li, Li Liu, Shanghang Zhang(参考訳) 3D占有率予測は、ロボットの知覚と自律運転の分野で大きな可能性を秘めており、3Dシーンをセマンティックラベル付きグリッドセルに定量化している。 最近の作品は、主に3dボクセル空間の完全な占有ラベルを用いて監督を行っている。 しかし、高価なアノテーションプロセスや曖昧なラベルは、3D占有モデルのユーザビリティとスケーラビリティを厳しく制限している。 そこで本稿では,2dラベルのみを用いて3d占有モデルのトレーニングを行うための新しいパラダイムであるrenderoccを提案する。 具体的には,多視点画像からnerf型3次元ボリューム表現を抽出し,ボリュームレンダリング技術を用いて2次元レンダリングを行い,2次元セマンティクスと奥行きラベルからの直接3次元監視を可能にする。 さらに,逐次フレームを活用し,各対象に対する総合的な2次元レンダリングを構築する自律運転シナリオにおいて,スパース視点の問題に対処する補助レイ法を提案する。 我々の知る限り、RenderOccは2Dラベルだけでマルチビュー3D占有モデルをトレーニングする最初の試みであり、高価な3D占有アノテーションへの依存を減らす。 大規模な実験により、RenderOccは3Dラベルで完全に教師されたモデルに匹敵するパフォーマンスを達成し、現実世界のアプリケーションにおけるこのアプローチの重要性を強調している。

3D occupancy prediction holds significant promise in the fields of robot perception and autonomous driving, which quantifies 3D scenes into grid cells with semantic labels. Recent works mainly utilize complete occupancy labels in 3D voxel space for supervision. However, the expensive annotation process and sometimes ambiguous labels have severely constrained the usability and scalability of 3D occupancy models. To address this, we present RenderOcc, a novel paradigm for training 3D occupancy models only using 2D labels. Specifically, we extract a NeRF-style 3D volume representation from multi-view images, and employ volume rendering techniques to establish 2D renderings, thus enabling direct 3D supervision from 2D semantics and depth labels. Additionally, we introduce an Auxiliary Ray method to tackle the issue of sparse viewpoints in autonomous driving scenarios, which leverages sequential frames to construct comprehensive 2D rendering for each object. To our best knowledge, RenderOcc is the first attempt to train multi-view 3D occupancy models only using 2D labels, reducing the dependence on costly 3D occupancy annotations. Extensive experiments demonstrate that RenderOcc achieves comparable performance to models fully supervised with 3D labels, underscoring the significance of this approach in real-world applications.
翻訳日:2023-09-19 15:03:29 公開日:2023-09-18
# 音声ビジュアルセグメンテーションのための音声クエリによる発音物体の検出

Discovering Sounding Objects by Audio Queries for Audio Visual Segmentation ( http://arxiv.org/abs/2309.09501v1 )

ライセンス: Link先を確認
Shaofei Huang, Han Li, Yuqing Wang, Hongji Zhu, Jiao Dai, Jizhong Han, Wenge Rong, Si Liu(参考訳) オーディオビジュアルセグメンテーション(avs)は、所定のビデオの各フレームの音響オブジェクトをセグメンテーションすることを目的としている。 音響オブジェクトと無音オブジェクトを区別するには、音声と視覚のセマンティック対応と時間的相互作用の両方が必要である。 先行手法では,マルチフレームのクロスモーダルな注意を施し,冗長かつ暗黙的な複数フレームの音響特徴と視覚特徴とのピクセルレベルのインタラクションを同時に行う。 本稿では,音声情報に基づくオブジェクトクエリの集合を定義し,それぞれを特定の音響オブジェクトに関連付ける,音声クエリ変換アーキテクチャ aqformer を提案する。 事前定義された音声クエリを用いて、視覚的特徴からオブジェクト情報を収集することにより、音声と視覚的モダリティのオブジェクトレベルのセマンティック対応を明示する。 さらに,複数フレーム間の音声関連情報を音声特徴のブリッジで交換するために,オーディオブリッジ型テンポラルインタラクションモジュールを提案する。 2つのAVSベンチマークにおいて,本手法が最先端性能,特に7.1%のM_J,7.6%のM_Fゲインを達成することを示す。

Audio visual segmentation (AVS) aims to segment the sounding objects for each frame of a given video. To distinguish the sounding objects from silent ones, both audio-visual semantic correspondence and temporal interaction are required. The previous method applies multi-frame cross-modal attention to conduct pixel-level interactions between audio features and visual features of multiple frames simultaneously, which is both redundant and implicit. In this paper, we propose an Audio-Queried Transformer architecture, AQFormer, where we define a set of object queries conditioned on audio information and associate each of them to particular sounding objects. Explicit object-level semantic correspondence between audio and visual modalities is established by gathering object information from visual features with predefined audio queries. Besides, an Audio-Bridged Temporal Interaction module is proposed to exchange sounding object-relevant information among multiple frames with the bridge of audio features. Extensive experiments are conducted on two AVS benchmarks to show that our method achieves state-of-the-art performances, especially 7.1% M_J and 7.6% M_F gains on the MS3 setting.
翻訳日:2023-09-19 15:03:07 公開日:2023-09-18
# promptst: 迅速エンハンス型時空間多分布予測

PromptST: Prompt-Enhanced Spatio-Temporal Multi-Attribute Prediction ( http://arxiv.org/abs/2309.09500v1 )

ライセンス: Link先を確認
Zijian Zhang, Xiangyu Zhao, Qidong Liu, Chunxu Zhang, Qian Ma, Wanyu Wang, Hongwei Zhao, Yiqi Wang and Zitao Liu(参考訳) 情報爆発の時代には、時空間データマイニングが都市管理の重要な役割を担っている。 交通状況、人的活動、社会イベントなどの注意を要する様々な分野を考慮すると、複数の時空間特性を同時に予測することは規制圧力を緩和し、スマートシティの構築を促進することができる。 しかし, 多様な属性間の複雑な関係のため, 時空間多属性予測はうまく処理できない。 主な課題は、それらの区別に対処しながら、一般的な時空間パターンにどのように対処するかである。 本稿では,時空間多属性予測であるPromptSTの有効解を提案する。 時空間変換器とパラメータ共有学習方式を考案し,時空間特性の異なる共通知識に対処する。 次に,特定属性を軽量に適合させる時空間的プロンプトチューニング戦略について述べる。 プリトレインとプロンプトのチューニングフェーズを通じて,学習した共通知識を維持しつつ,バックボーンモデルに特定のターゲット属性を適合させるように促すことにより,プロンプトストは特定の時空間的特性のキャプチャを向上させることができる。 実世界のデータセットに関する広範な実験は、プロンプトが最先端のパフォーマンスを達成することを検証します。 さらに,PromptSTは時空間特性に優れた転送性を持っていることを証明し,都市コンピューティングに有望な可能性をもたらす。 実装コードは再現性を簡単にするために利用できる。

In the era of information explosion, spatio-temporal data mining serves as a critical part of urban management. Considering the various fields demanding attention, e.g., traffic state, human activity, and social event, predicting multiple spatio-temporal attributes simultaneously can alleviate regulatory pressure and foster smart city construction. However, current research can not handle the spatio-temporal multi-attribute prediction well due to the complex relationships between diverse attributes. The key challenge lies in how to address the common spatio-temporal patterns while tackling their distinctions. In this paper, we propose an effective solution for spatio-temporal multi-attribute prediction, PromptST. We devise a spatio-temporal transformer and a parameter-sharing training scheme to address the common knowledge among different spatio-temporal attributes. Then, we elaborate a spatio-temporal prompt tuning strategy to fit the specific attributes in a lightweight manner. Through the pretrain and prompt tuning phases, our PromptST is able to enhance the specific spatio-temoral characteristic capture by prompting the backbone model to fit the specific target attribute while maintaining the learned common knowledge. Extensive experiments on real-world datasets verify that our PromptST attains state-of-the-art performance. Furthermore, we also prove PromptST owns good transferability on unseen spatio-temporal attributes, which brings promising application potential in urban computing. The implementation code is available to ease reproducibility.
翻訳日:2023-09-19 15:02:42 公開日:2023-09-18
# 教師なしテキスト生成のための検索と学習

Search and Learning for Unsupervised Text Generation ( http://arxiv.org/abs/2309.09497v1 )

ライセンス: Link先を確認
Lili Mou(参考訳) ディープラーニング技術の進歩により、テキスト生成は人工知能(AI)コミュニティへの関心が高まっている。 従来のテキスト生成システムは教師ありの方法で訓練され、大量のラベル付き並列コーパスを必要とする。 本稿では,教師なしテキスト生成における探索と学習のアプローチに関する最近の研究を紹介する。そこでは,ヒューリスティックな目的関数が候補文の品質を推定し,個別探索アルゴリズムが探索対象を最大化して文を生成する。 機械学習モデルは、検索結果からさらに学習し、ノイズを平滑化し、効率を向上させる。 私たちのアプローチは、新しいタスクのために最小限の実行可能な製品を構築するために、業界にとって重要です。

With the advances of deep learning techniques, text generation is attracting increasing interest in the artificial intelligence (AI) community, because of its wide applications and because it is an essential component of AI. Traditional text generation systems are trained in a supervised way, requiring massive labeled parallel corpora. In this paper, I will introduce our recent work on search and learning approaches to unsupervised text generation, where a heuristic objective function estimates the quality of a candidate sentence, and discrete search algorithms generate a sentence by maximizing the search objective. A machine learning model further learns from the search results to smooth out noise and improve efficiency. Our approach is important to the industry for building minimal viable products for a new task; it also has high social impacts for saving human annotation labor and for processing low-resource languages.
翻訳日:2023-09-19 15:02:19 公開日:2023-09-18
# テキストに基づく人物検索のためのCLIPに基づく相乗的知識伝達

CLIP-based Synergistic Knowledge Transfer for Text-based Person Retrieval ( http://arxiv.org/abs/2309.09496v1 )

ライセンス: Link先を確認
Yating liu, Yaowei Li, Zimo Liu, Wenming Yang, Yaowei Wang, Qingmin Liao(参考訳) テキストベースのPerson Retrievalは、テキストクエリが与えられたターゲットの人物画像を取得することを目的としている。 主な課題は、特に限られた大規模データセットを扱う場合、視覚と言語モダリティの実質的なギャップを埋めることである。 本稿では, TBPRのためのCLIPベースのSynergistic Knowledge Transfer (CSKT)アプローチを提案する。 具体的には、まず、テキストから画像への双方向プロンプトと画像からテキストへの双方向プロンプトと投影の結合によって構築された双方向プロンプト転送(bpt)モジュールを提案する。 第二に、デュアルアダプタ転送(DAT)は、視覚と言語におけるマルチヘッド自己認識(MHSA)の出力側で知識を伝達するように設計されている。 この相乗的双方向協調機構は、早期特徴融合を促進し、クリップの既存の知識を効率的に活用する。 CSKTは、トレーニングパラメータがモデル全体の7.4%を占めるだけで、3つのベンチマークデータセットの最先端アプローチよりも優れており、その顕著な効率、有効性、一般化を示している。

Text-based Person Retrieval aims to retrieve the target person images given a textual query. The primary challenge lies in bridging the substantial gap between vision and language modalities, especially when dealing with limited large-scale datasets. In this paper, we introduce a CLIP-based Synergistic Knowledge Transfer(CSKT) approach for TBPR. Specifically, to explore the CLIP's knowledge on input side, we first propose a Bidirectional Prompts Transferring (BPT) module constructed by text-to-image and image-to-text bidirectional prompts and coupling projections. Secondly, Dual Adapters Transferring (DAT) is designed to transfer knowledge on output side of Multi-Head Self-Attention (MHSA) in vision and language. This synergistic two-way collaborative mechanism promotes the early-stage feature fusion and efficiently exploits the existing knowledge of CLIP. CSKT outperforms the state-of-the-art approaches across three benchmark datasets when the training parameters merely account for 7.4% of the entire model, demonstrating its remarkable efficiency, effectiveness and generalization.
翻訳日:2023-09-19 15:02:04 公開日:2023-09-18
# HiFTNet:高調波+雑音フィルタと逆短周期フーリエ変換を備えた高速高品質ニューラルヴォコーダ

HiFTNet: A Fast High-Quality Neural Vocoder with Harmonic-plus-Noise Filter and Inverse Short Time Fourier Transform ( http://arxiv.org/abs/2309.09493v1 )

ライセンス: Link先を確認
Yinghao Aaron Li, Cong Han, Xilin Jiang, Nima Mesgarani(参考訳) 音声合成の最近の進歩は、HiFi-GANやBigVGANのようなGANベースのネットワークを利用して、メルスペクトルから高忠実度波形を生成する。 しかし、これらのネットワークは計算コストが高く、パラメータが重い。 iSTFTNetは、逆ショートタイムフーリエ変換(iSTFT)をネットワークに統合することでこれらの制限に対処し、速度とパラメータ効率の両方を達成する。 本稿では,基本周波数(f0)からの正弦波源を用いた時間周波数領域に高調波プラスノイズ源フィルタを組み込んだistftnetの拡張を,事前学習したf0推定ネットワークを用いて予測し,予測速度を高速化する。 LJSpeech の主観評価では,iSTFTNet と HiFi-GAN の両モデルが有意に優れ,基調性能が向上した。 HiFTNetはまた、LibriTTSのBigVGANベースよりも優れており、パラメータのたった1/6ドルで4倍高速でBigVGANに匹敵するパフォーマンスを実現している。 私たちの研究は、高品質な音声合成を必要とするリアルタイムアプリケーションのための、効率的で高品質なニューラルヴォコーディングのための新しいベンチマークを設定しています。

Recent advancements in speech synthesis have leveraged GAN-based networks like HiFi-GAN and BigVGAN to produce high-fidelity waveforms from mel-spectrograms. However, these networks are computationally expensive and parameter-heavy. iSTFTNet addresses these limitations by integrating inverse short-time Fourier transform (iSTFT) into the network, achieving both speed and parameter efficiency. In this paper, we introduce an extension to iSTFTNet, termed HiFTNet, which incorporates a harmonic-plus-noise source filter in the time-frequency domain that uses a sinusoidal source from the fundamental frequency (F0) inferred via a pre-trained F0 estimation network for fast inference speed. Subjective evaluations on LJSpeech show that our model significantly outperforms both iSTFTNet and HiFi-GAN, achieving ground-truth-level performance. HiFTNet also outperforms BigVGAN-base on LibriTTS for unseen speakers and achieves comparable performance to BigVGAN while being four times faster with only $1/6$ of the parameters. Our work sets a new benchmark for efficient, high-quality neural vocoding, paving the way for real-time applications that demand high quality speech synthesis.
翻訳日:2023-09-19 15:01:45 公開日:2023-09-18
# ショット分割のためのターゲット対応バイコンバータ

Target-aware Bi-Transformer for Few-shot Segmentation ( http://arxiv.org/abs/2309.09492v1 )

ライセンス: Link先を確認
Xianglin Wang, Xiaoliu Luo, Taiping Zhang(参考訳) 従来のセマンティックセグメンテーションタスクは多数のラベルを必要とし、未学習のカテゴリを特定するのが困難である。 Few-shot semantic segmentation (FSS) は、限定ラベル付きサポートイメージを使用して、オブジェクトの新たなクラスのセグメンテーションを特定することを目的としている。 以前の研究は主にプロトタイプや相関に基づいている。 色やテクスチャ,スタイルが同じ画像に類似しているため,クエリイメージを独自のサポートイメージとみなすことができる。 本稿では,支援画像と問合せ画像とを等価に扱うために,目標認識型bi-transformer network (tbtnet) を提案する。 TTL(Target-aware Transformer Layer)もまた、相関関係を蒸留し、モデルにフォアグラウンド情報に集中させるように設計されている。 ハイパー相関を特徴として扱い、特徴チャネルの数を大幅に減少させる。 この特性の利点により、これまでに学習可能なパラメータが0.4mしかないモデルが最も軽量である。 さらに、TBTNetは従来の方法に比べてトレーニングエポックの10%から25%しか収束しない。 PASCAL-5i と COCO-20i の標準 FSS ベンチマークの優れた性能は,本手法の効率性を証明している。 また, Bi-Transformer アーキテクチャと TTL の有効性を評価するため, 広範囲なアブレーション試験を行った。

Traditional semantic segmentation tasks require a large number of labels and are difficult to identify unlearned categories. Few-shot semantic segmentation (FSS) aims to use limited labeled support images to identify the segmentation of new classes of objects, which is very practical in the real world. Previous researches were primarily based on prototypes or correlations. Due to colors, textures, and styles are similar in the same image, we argue that the query image can be regarded as its own support image. In this paper, we proposed the Target-aware Bi-Transformer Network (TBTNet) to equivalent treat of support images and query image. A vigorous Target-aware Transformer Layer (TTL) also be designed to distill correlations and force the model to focus on foreground information. It treats the hypercorrelation as a feature, resulting a significant reduction in the number of feature channels. Benefit from this characteristic, our model is the lightest up to now with only 0.4M learnable parameters. Futhermore, TBTNet converges in only 10% to 25% of the training epochs compared to traditional methods. The excellent performance on standard FSS benchmarks of PASCAL-5i and COCO-20i proves the efficiency of our method. Extensive ablation studies were also carried out to evaluate the effectiveness of Bi-Transformer architecture and TTL.
翻訳日:2023-09-19 15:01:21 公開日:2023-09-18
# 小児遠位端の超音波領域分割のための自己教師型TransUNet

Self-supervised TransUNet for Ultrasound regional segmentation of the distal radius in children ( http://arxiv.org/abs/2309.09490v1 )

ライセンス: Link先を確認
Yuyue Zhou, Jessica Knight, Banafshe Felfeliyan, Christopher Keen, Abhilash Rakkunedeth Hareendranathan, Jacob L. Jaremko(参考訳) 教師付きディープラーニングは、セグメンテーションから診断まで、医療画像の分析を自動化することを大いに約束する。 しかし、それらのパフォーマンスはデータアノテーションの品質と量に大きく依存している。 一方、医療画像のための大規模な注釈付きデータセットのキュレーションには、高いレベルの専門知識が必要です。 近年,高品質なアノテーションを付加した大規模データセットに対して,ラベル付きドメイン固有データを用いた自己教師付き学習(SSL)手法が注目されている。 したがって、最小限のラベル付きデータに依存するSSL方式を設計することは、医療画像においてはるかに重要となる。 本稿では,TransUNet の SSL (SSL-MAE) 用 Masked Autoencoder を小児手首超音波スキャンからボニー領域に分割する可能性について検討した。 SSL-MAEにおける埋め込みとロス関数の変更は,従来のSSL-MAEと比較して,よりダウンストリームな結果が得られることがわかった。 さらに、SSL-MAEによるTransUNetのプリトレーニングとエンコーダのみは、下流セグメンテーションタスクでSSL-MAEを事前トレーニングすることなく、TransUNetと同等に動作しないと判断した。

Supervised deep learning offers great promise to automate analysis of medical images from segmentation to diagnosis. However, their performance highly relies on the quality and quantity of the data annotation. Meanwhile, curating large annotated datasets for medical images requires a high level of expertise, which is time-consuming and expensive. Recently, to quench the thirst for large data sets with high-quality annotation, self-supervised learning (SSL) methods using unlabeled domain-specific data, have attracted attention. Therefore, designing an SSL method that relies on minimal quantities of labeled data has far-reaching significance in medical images. This paper investigates the feasibility of deploying the Masked Autoencoder for SSL (SSL-MAE) of TransUNet, for segmenting bony regions from children's wrist ultrasound scans. We found that changing the embedding and loss function in SSL-MAE can produce better downstream results compared to the original SSL-MAE. In addition, we determined that only pretraining TransUNet embedding and encoder with SSL-MAE does not work as well as TransUNet without SSL-MAE pretraining on downstream segmentation tasks.
翻訳日:2023-09-19 15:01:00 公開日:2023-09-18
# 監視面詐欺防止のためのデータ不確かさの分布推定

Distributional Estimation of Data Uncertainty for Surveillance Face Anti-spoofing ( http://arxiv.org/abs/2309.09485v1 )

ライセンス: Link先を確認
Mouxiao Huang(参考訳) 近年、顔認識システムはセキュリティの脅威に対してますます脆弱化しており、電話のアンロック、顔の支払い、セルフサービスセキュリティ検査など、さまざまな種類の攻撃から保護するためにFace Anti-Spoofing(FAS)の使用が進められている。 FASはその効果を従来の環境で実証しているが、長距離監視シナリオで確保することは大きな課題である。 これらのシナリオは、しばしば低い品質の顔画像を持ち、極端な条件下での安定性を改善するためにデータ不確実性のモデリングを必要とする。 本研究は,従来のFAS点推定を,特徴(平均)や不確実性(分散)を含むトレーニング中のデータ不確実性をモデル化して分布推定に変換する手法である分布推定(DisE)を提案する。 クリーンでノイズの多いサンプルの学習強度を安定と精度のために調整することにより,学習不確実性はdiseの性能を高める。 監視シナリオにおける大規模かつ挑戦的なFASデータセットであるSuHiFiMask [1]で評価を行った。 その結果、DisEはACERとAUCの両方で同等のパフォーマンスを達成できた。

Face recognition systems have become increasingly vulnerable to security threats in recent years, prompting the use of Face Anti-spoofing (FAS) to protect against various types of attacks, such as phone unlocking, face payment, and self-service security inspection. While FAS has demonstrated its effectiveness in traditional settings, securing it in long-distance surveillance scenarios presents a significant challenge. These scenarios often feature low-quality face images, necessitating the modeling of data uncertainty to improve stability under extreme conditions. To address this issue, this work proposes Distributional Estimation (DisE), a method that converts traditional FAS point estimation to distributional estimation by modeling data uncertainty during training, including feature (mean) and uncertainty (variance). By adjusting the learning strength of clean and noisy samples for stability and accuracy, the learned uncertainty enhances DisE's performance. The method is evaluated on SuHiFiMask [1], a large-scale and challenging FAS dataset in surveillance scenarios. Results demonstrate that DisE achieves comparable performance on both ACER and AUC metrics.
翻訳日:2023-09-19 15:00:39 公開日:2023-09-18
# OCTA船体セグメンテーションのための高精度かつ効率的なニューラルネットワークと新しいデータセット

An Accurate and Efficient Neural Network for OCTA Vessel Segmentation and a New Dataset ( http://arxiv.org/abs/2309.09483v1 )

ライセンス: Link先を確認
Haojian Ning, Chengliang Wang, Xinrun Chen and Shiying Li(参考訳) 光コヒーレンス断層撮影血管造影(OCTA)は、高分解能網膜血管を呈する非侵襲的イメージング技術である。 本研究では,OCTA画像における網膜血管分割のための高精度かつ効率的なニューラルネットワークを提案する。 提案されたネットワークは、他の sota 手法に匹敵する精度を実現し、より少ないパラメータとより高速な推論速度(例えば、u-net よりも 110 倍軽量で 1.3 倍高速)を持つ。 これは修正されたRecurrent ConvNeXt Blockをフル解像度畳み込みネットワークに適用することで実現される。 さらに,918オクターク画像とその対応するコンテナアノテーションを含む新しいデータセットを作成する。 データセットはSegment Anything Model (SAM) の助けを借りて半自動で注釈付けされ、アノテーションの速度を大幅に改善する。 コミュニティの利益のために、コードとデータセットはhttps://github.com/nhjydywd/OCTA-FRNetから取得できます。

Optical coherence tomography angiography (OCTA) is a noninvasive imaging technique that can reveal high-resolution retinal vessels. In this work, we propose an accurate and efficient neural network for retinal vessel segmentation in OCTA images. The proposed network achieves accuracy comparable to other SOTA methods, while having fewer parameters and faster inference speed (e.g. 110x lighter and 1.3x faster than U-Net), which is very friendly for industrial applications. This is achieved by applying the modified Recurrent ConvNeXt Block to a full resolution convolutional network. In addition, we create a new dataset containing 918 OCTA images and their corresponding vessel annotations. The data set is semi-automatically annotated with the help of Segment Anything Model (SAM), which greatly improves the annotation speed. For the benefit of the community, our code and dataset can be obtained from https://github.com/nhjydywd/OCTA-FRNet.
翻訳日:2023-09-19 15:00:17 公開日:2023-09-18
# NOMAD:緊急対応シナリオのための自然に蓄積されたマルチスケール航空データセット

NOMAD: A Natural, Occluded, Multi-scale Aerial Dataset, for Emergency Response Scenarios ( http://arxiv.org/abs/2309.09518v1 )

ライセンス: Link先を確認
Arturo Miguel Russell Bernal, Walter Scheirer, Jane Cleland-Huang(参考訳) 捜索や救助などの緊急対応シナリオに対する小型無人航空機システム(suas)への依存が高まる中、コンピュータビジョン機能の統合はミッション成功の重要な要因となっている。 それでも、人間を検知するコンピュータビジョン性能は、地上から空中への視界シフト時に著しく低下する。 この問題を軽減するためにいくつかの航空データセットが作成されているが、緊急対応シナリオにおける重要な要素である閉塞の問題に特に対処する者はいない。 NOMAD(Natural Occluded Multi-scale Aerial Dataset)は、5つの異なる空中距離とリッチな画像のばらつきを持つ、閉鎖された空中ビュー下での人間の検出のためのベンチマークを示す。 ノマドは100の異なる俳優で構成され、それぞれが歩き、横たわり、隠れている。 5.4k解像度ビデオから抽出された42,825フレームを含み、バウンディングボックスと10の異なる可視性レベルを示すラベルを手作業で注釈付けし、バウンディングボックス内で見える人体の割合に応じて分類する。 これにより、コンピュータビジョンモデルが様々な咬合範囲で検出性能を評価することができる。 NOMADは、空中視下での人間の検出のための新しいベンチマークデータセットを提供することで、航空捜索と救助の有効性を改善し、sUASと人間との協力を強化するように設計されている。

With the increasing reliance on small Unmanned Aerial Systems (sUAS) for Emergency Response Scenarios, such as Search and Rescue, the integration of computer vision capabilities has become a key factor in mission success. Nevertheless, computer vision performance for detecting humans severely degrades when shifting from ground to aerial views. Several aerial datasets have been created to mitigate this problem, however, none of them has specifically addressed the issue of occlusion, a critical component in Emergency Response Scenarios. Natural Occluded Multi-scale Aerial Dataset (NOMAD) presents a benchmark for human detection under occluded aerial views, with five different aerial distances and rich imagery variance. NOMAD is composed of 100 different Actors, all performing sequences of walking, laying and hiding. It includes 42,825 frames, extracted from 5.4k resolution videos, and manually annotated with a bounding box and a label describing 10 different visibility levels, categorized according to the percentage of the human body visible inside the bounding box. This allows computer vision models to be evaluated on their detection performance across different ranges of occlusion. NOMAD is designed to improve the effectiveness of aerial search and rescue and to enhance collaboration between sUAS and humans, by providing a new benchmark dataset for human detection under occluded aerial views.
翻訳日:2023-09-19 14:52:34 公開日:2023-09-18
# FedGKD:フェデレーショングラフニューラルネットワークにおけるコラボレーションのパワーの解放

FedGKD: Unleashing the Power of Collaboration in Federated Graph Neural Networks ( http://arxiv.org/abs/2309.09517v1 )

ライセンス: Link先を確認
Qiying Pan, Ruofan Wu, Tengfei Liu, Tianyi Zhang, Yifei Zhu, Weiqiang Wang(参考訳) グラフニューラルネットワーク(gnn)のフェデレーショントレーニングは、データプライバシを維持しながら、データ分離シナリオ下でグラフ関連タスクを実行する能力から、近年普及している。 しかし、連合型GNNシステムにおけるグラフの不均一性問題は引き続き課題となっている。 既存のフレームワークは、異なる統計を用いてローカルタスクを表現し、単純な集約メカニズムを通じてそれらを関連付けることで、この問題に対処する。 しかしながら、これらのアプローチは、タスク関連性定量化の低品質と、コラボレーション構造を利用する非効率という2つの側面から、限られた効率性に苦しめられている。 これらの課題に対処するため,FedGKDという新しいクライアント側グラフデータセット蒸留手法を用いてタスク関連性をよりよく記述したタスク特徴を抽出する新しいGNNフレームワークを提案し,グローバルな協調構造を認識したサーバ側集約機構を提案する。 異なるスケールの6つの実世界のデータセットについて広範な実験を行い、フレームワークのアウトパフォーマンスを実証した。

Federated training of Graph Neural Networks (GNN) has become popular in recent years due to its ability to perform graph-related tasks under data isolation scenarios while preserving data privacy. However, graph heterogeneity issues in federated GNN systems continue to pose challenges. Existing frameworks address the problem by representing local tasks using different statistics and relating them through a simple aggregation mechanism. However, these approaches suffer from limited efficiency from two aspects: low quality of task-relatedness quantification and inefficacy of exploiting the collaboration structure. To address these issues, we propose FedGKD, a novel federated GNN framework that utilizes a novel client-side graph dataset distillation method to extract task features that better describe task-relatedness, and introduces a novel server-side aggregation mechanism that is aware of the global collaboration structure. We conduct extensive experiments on six real-world datasets of different scales, demonstrating our framework's outperformance.
翻訳日:2023-09-19 14:52:12 公開日:2023-09-18
# 人格推定のためのスパースおよびプライバシー強化表現

Sparse and Privacy-enhanced Representation for Human Pose Estimation ( http://arxiv.org/abs/2309.09515v1 )

ライセンス: Link先を確認
Ting-Ying Lin and Lin-Yung Hsieh and Fu-En Wang and Wen-Shen Wuen and Min Sun(参考訳) 本稿では,Human Pose Estimation (HPE) のスパース表現とプライバシ強化表現を提案する。 視点カメラが与えられた場合,各フレームのエッジ画像と2方向動きベクトル画像を抽出するために,独自のモーションベクトルセンサ(mvs)を用いる。 エッジとモーションベクターのイメージはスパースであり、情報が少ない(つまり人間のプライバシーの強化)。 エッジ情報はhpeに必須であり,動きベクトルは高速動作時にエッジ情報を補完する。 本研究では,3dボクセルによく用いられるスパース畳み込みの最近の進歩を利用して,提案するスパース表現を効率的に処理し,約13倍の高速化と96%のフロップ削減を実現する融合ネットワークを提案する。 プロプライエタリなMVSを使用して,40ユーザによる16種類のアクションを含む,社内エッジとモーションベクトルデータセットを収集する。 本手法は,エッジやモーションベクトル画像のみを用いて,個々のモーダル性に優れる。 最後に、celeba(大きな顔データセット)上の顔認識と、社内データセットに関するユーザスタディを通じて、スパース表現のプライバシ向上品質を検証する。

We propose a sparse and privacy-enhanced representation for Human Pose Estimation (HPE). Given a perspective camera, we use a proprietary motion vector sensor(MVS) to extract an edge image and a two-directional motion vector image at each time frame. Both edge and motion vector images are sparse and contain much less information (i.e., enhancing human privacy). We advocate that edge information is essential for HPE, and motion vectors complement edge information during fast movements. We propose a fusion network leveraging recent advances in sparse convolution used typically for 3D voxels to efficiently process our proposed sparse representation, which achieves about 13x speed-up and 96% reduction in FLOPs. We collect an in-house edge and motion vector dataset with 16 types of actions by 40 users using the proprietary MVS. Our method outperforms individual modalities using only edge or motion vector images. Finally, we validate the privacy-enhanced quality of our sparse representation through face recognition on CelebA (a large face dataset) and a user study on our in-house dataset.
翻訳日:2023-09-19 14:51:55 公開日:2023-09-18
# 屋内シーン理解のための構造交換によるパノミックススワップパノラマ混合

PanoMixSwap Panorama Mixing via Structural Swapping for Indoor Scene Understanding ( http://arxiv.org/abs/2309.09514v1 )

ライセンス: Link先を確認
Yu-Cheng Hsieh, Cheng Sun, Suraj Dengale, Min Sun(参考訳) 訓練データの量と多様性は、現代の深層学習手法にとって重要である。 ラベル付き視点画像と比較すると、360パノラマ画像は体積と多様性の両方で不足している。 本稿では,室内パノラマ画像に特化して設計された新しいデータ拡張技術であるPanoMixSwapを提案する。 PanoMixSwapは、既存の屋内パノラマデータセットからさまざまな背景スタイル、前景家具、部屋レイアウトを明示的に混合し、データセットを豊かにするさまざまなパノラマ画像を生成する。 まず,各パノラマ画像から背景スタイル,前景家具,室内レイアウトなどを構成する部分に分割する。 そして、これら3つの部分を1つの画像から前景家具、別の画像から背景スタイル、そして3番目の画像から部屋構造といった3つの異なる画像から混合して拡張画像を生成する。 画像の組み合わせが3次的に増加するため,本手法は高い多様性をもたらす。 また,屋内シーン理解におけるPanoMixSwapの有効性を,セマンティックセグメンテーションとレイアウト推定の2つで評価した。 実験では,panomixswapでトレーニングされた最先端の手法が,両タスクの本来の設定を一貫して上回ることを実証した。

The volume and diversity of training data are critical for modern deep learningbased methods. Compared to the massive amount of labeled perspective images, 360 panoramic images fall short in both volume and diversity. In this paper, we propose PanoMixSwap, a novel data augmentation technique specifically designed for indoor panoramic images. PanoMixSwap explicitly mixes various background styles, foreground furniture, and room layouts from the existing indoor panorama datasets and generates a diverse set of new panoramic images to enrich the datasets. We first decompose each panoramic image into its constituent parts: background style, foreground furniture, and room layout. Then, we generate an augmented image by mixing these three parts from three different images, such as the foreground furniture from one image, the background style from another image, and the room structure from the third image. Our method yields high diversity since there is a cubical increase in image combinations. We also evaluate the effectiveness of PanoMixSwap on two indoor scene understanding tasks: semantic segmentation and layout estimation. Our experiments demonstrate that state-of-the-art methods trained with PanoMixSwap outperform their original setting on both tasks consistently.
翻訳日:2023-09-19 14:51:36 公開日:2023-09-18
# ステレオイベントベースモーションデブラリングのための学習パララックス

Learning Parallax for Stereo Event-based Motion Deblurring ( http://arxiv.org/abs/2309.09513v1 )

ライセンス: Link先を確認
Mingyuan Lin, Chi Zhang, Chu He, Lei Yu(参考訳) 遅延が極端に低かったため、近年、モーションデブラリングで失われた情報を補うためにイベントが利用されている。 既存のアプローチでは、インテンシティ画像とイベントの完全なピクセル単位でのアライメントに大きく依存しています。 そこで本研究では,ステレオイベントとインテンシティカメラ(st-ednet)を併用した,イベントベース動作のネットワークと呼ばれる新しい粗粒度フレームを提案する。 具体的には、ぼやけた画像とイベントストリームの粗い空間的アライメントを、地底深度を必要とせずに、まずクロスモーダルなステレオマッチングモジュールで実装する。 次に、粗い整列データの微細な双方向結合を徐々に構築し、潜伏したシャープ画像のシーケンスを再構築する二機能埋め込みアーキテクチャを提案する。 さらに,ステレオイベントとインテンシティカメラ(steic)を備えた新しいデータセットを構築し,実世界のイベント,インテンシティ画像,密集した不一致マップを含む。 実世界のデータセットの実験は、最先端の手法よりも提案されたネットワークの優位性を実証している。

Due to the extremely low latency, events have been recently exploited to supplement lost information for motion deblurring. Existing approaches largely rely on the perfect pixel-wise alignment between intensity images and events, which is not always fulfilled in the real world. To tackle this problem, we propose a novel coarse-to-fine framework, named NETwork of Event-based motion Deblurring with STereo event and intensity cameras (St-EDNet), to recover high-quality images directly from the misaligned inputs, consisting of a single blurry image and the concurrent event streams. Specifically, the coarse spatial alignment of the blurry image and the event streams is first implemented with a cross-modal stereo matching module without the need for ground-truth depths. Then, a dual-feature embedding architecture is proposed to gradually build the fine bidirectional association of the coarsely aligned data and reconstruct the sequence of the latent sharp images. Furthermore, we build a new dataset with STereo Event and Intensity Cameras (StEIC), containing real-world events, intensity images, and dense disparity maps. Experiments on real-world datasets demonstrate the superiority of the proposed network over state-of-the-art methods.
翻訳日:2023-09-19 14:51:17 公開日:2023-09-18
# Dynamic-SUPERB:音声の動的・協調的・包括的指導調整ベンチマークを目指して

Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech ( http://arxiv.org/abs/2309.09510v1 )

ライセンス: Link先を確認
Chien-yu Huang, Ke-Han Lu, Shih-Heng Wang, Chi-Yuan Hsiao, Chun-Yi Kuan, Haibin Wu, Siddhant Arora, Kai-Wei Chang, Jiatong Shi, Yifan Peng, Roshan Sharma, Shinji Watanabe, Bhiksha Ramakrishnan, Shady Shehata, Hung-yi Lee(参考訳) テキスト言語モデルは、十分に定式化された命令が提供されたとき、見当たらないタスクに一般化する顕著なゼロショット能力を示している。 しかし、音声処理における既存の研究は、主に限定的あるいは特定のタスクに焦点を当てている。 さらに、標準ベンチマークの欠如は、異なるアプローチ間の公正な比較を妨げる。 そこで本稿では,命令チューニングを活用し,ゼロショット方式で複数のタスクを実行するユニバーサル音声モデル構築のためのベンチマークであるdynamic-superbを提案する。 多様な音声タスクの包括的なカバレッジと命令チューニングを実現するため、コミュニティに協力と貢献を呼びかけ、ベンチマークのダイナミックな成長を促進します。 Dynamic-SUPERBは、33のタスクと22のデータセットを組み合わせて55の評価インスタンスを特徴とする。 これは幅広い次元にまたがり、評価のための包括的なプラットフォームを提供する。 さらに,ベンチマークベースラインを確立するためのいくつかのアプローチを提案する。 これには、音声モデル、テキスト言語モデル、マルチモーダルエンコーダの利用が含まれる。 評価の結果、これらのベースラインは見かけのタスクで合理的に機能するが、目に見えないタスクに苦しむことがわかった。 また,ロバスト性の評価と性能改善のためのアブレーション調査を行った。 我々はすべての資料を一般に公開し、研究者にプロジェクトの共同研究を歓迎し、この分野のテクノロジーを進歩させます。

Text language models have shown remarkable zero-shot capability in generalizing to unseen tasks when provided with well-formulated instructions. However, existing studies in speech processing primarily focus on limited or specific tasks. Moreover, the lack of standardized benchmarks hinders a fair comparison across different approaches. Thus, we present Dynamic-SUPERB, a benchmark designed for building universal speech models capable of leveraging instruction tuning to perform multiple tasks in a zero-shot fashion. To achieve comprehensive coverage of diverse speech tasks and harness instruction tuning, we invite the community to collaborate and contribute, facilitating the dynamic growth of the benchmark. To initiate, Dynamic-SUPERB features 55 evaluation instances by combining 33 tasks and 22 datasets. This spans a broad spectrum of dimensions, providing a comprehensive platform for evaluation. Additionally, we propose several approaches to establish benchmark baselines. These include the utilization of speech models, text language models, and the multimodal encoder. Evaluation results indicate that while these baselines perform reasonably on seen tasks, they struggle with unseen ones. We also conducted an ablation study to assess the robustness and seek improvements in the performance. We release all materials to the public and welcome researchers to collaborate on the project, advancing technologies in the field together.
翻訳日:2023-09-19 14:50:56 公開日:2023-09-18
# 最高裁判所論争の多様化を理解:ソーシャルメディア vs. ニュースアウトレット

Understanding Divergent Framing of the Supreme Court Controversies: Social Media vs. News Outlets ( http://arxiv.org/abs/2309.09508v1 )

ライセンス: Link先を確認
Jinsheng Pan, Zichen Wang, Weihong Qi, Hanjia Lyu, Jiebo Luo(参考訳) 政治的問題のフレーミングを理解することは重要であり、これは個人がこれらの問題をどのように認識し、解釈し、関与するかを著しく形作る。 これまでの研究は、ニュースメディアとソーシャルメディアのユーザによるフレーミングを独立に検討してきたが、これら2つの異なるグループ間の政治的問題をフレーミングすることの相違に対するわれわれの理解には、注目すべきギャップがある。 このギャップに対処するため,我々は,肯定的行動,学生ローン,中絶権に関する米国最高裁判所の一連の判決に関して,ソーシャルメディアと伝統的メディアのフレーミングにおいて,質的かつ定量的に微妙な区別に焦点を当てた包括的調査を行う。 ソーシャルメディアと従来のメディアの間にはフレーミングの重複がいくつか存在するが、様々なトピックや特定のフレーミングカテゴリーにおいて大きな違いが現れる。 従来のニュースメディアと比較すると、ソーシャルメディアプラットフォームはすべてのフレーミングカテゴリでより偏ったスタンスを示す傾向がある。 さらに、学生ローンの話題は、よりコンセンサスが高い傾向にあるのに対し、肯定的な行動と中絶の権利に対するメディアの扱い(左対右傾きメディア)において顕著な分極を観察する。 伝統的なソーシャルメディアプラットフォームとソーシャルメディアプラットフォーム間のフレーミングの格差は、世論の形成、政策決定、そしてより広い政治的景観に重大な影響を及ぼす。

Understanding the framing of political issues is of paramount importance as it significantly shapes how individuals perceive, interpret, and engage with these matters. While prior research has independently explored framing within news media and by social media users, there remains a notable gap in our comprehension of the disparities in framing political issues between these two distinct groups. To address this gap, we conduct a comprehensive investigation, focusing on the nuanced distinctions both qualitatively and quantitatively in the framing of social media and traditional media outlets concerning a series of American Supreme Court rulings on affirmative action, student loans, and abortion rights. Our findings reveal that, while some overlap in framing exists between social media and traditional media outlets, substantial differences emerge both across various topics and within specific framing categories. Compared to traditional news media, social media platforms tend to present more polarized stances across all framing categories. Further, we observe significant polarization in the news media's treatment (i.e., Left vs. Right leaning media) of affirmative action and abortion rights, whereas the topic of student loans tends to exhibit a greater degree of consensus. The disparities in framing between traditional and social media platforms carry significant implications for the formation of public opinion, policy decision-making, and the broader political landscape.
翻訳日:2023-09-19 14:50:38 公開日:2023-09-18
# 精度予測器による大規模言語モデルの作成

Pruning Large Language Models via Accuracy Predictor ( http://arxiv.org/abs/2309.09507v1 )

ライセンス: Link先を確認
Yupeng Ji, Yibo Cao, Jiucai Liu(参考訳) 数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。 しかし、かなりのモデルサイズは、モデルを圧縮する必要があるように、トレーニング、推論、デプロイメントに課題をもたらします。 現在、LLMのモデル圧縮のほとんどは、複雑な最適化パイプラインやモデルの機能維持の難しさといった問題を伴うプルーニングの特徴を手動で設計する必要があるが、従来、あるアーキテクチャと精度のペアのトレーニングセットが確立され、非ニューラルモデルが精度予測器として訓練される新しいプルーニング手法が提案されている。 精度予測器を用いて探索空間と探索をさらに最適化し、最適なモデルを自動的に選択することができる。 実験の結果,提案手法は効率的かつ効果的であることがわかった。 ベースラインと比較すると、Wikitext2とPTBのパープレキシティ(PPL)はそれぞれ9.48%、PTBは5.76%減少し、MMLUの平均精度は6.28%上昇した。

Large language models(LLMs) containing tens of billions of parameters (or even more) have demonstrated impressive capabilities in various NLP tasks. However, substantial model size poses challenges to training, inference, and deployment so that it is necessary to compress the model. At present, most model compression for LLMs requires manual design of pruning features, which has problems such as complex optimization pipeline and difficulty in retaining the capabilities of certain parts of the model.Therefore, we propose a novel pruning approach: firstly, a training set of a certain number of architecture-accuracy pairs is established, and then a non-neural model is trained as an accuracy predictor. Using the accuracy predictor to further optimize the search space and search, the optimal model can be automatically selected. Experiments show that our proposed approach is effective and efficient. Compared with the baseline, the perplexity(PPL) on Wikitext2 and PTB dropped by 9.48% and 5,76% respectively, and the average accuracy of MMLU increased by 6.28%.
翻訳日:2023-09-19 14:50:11 公開日:2023-09-18
# LayoutNUWA: 大規模言語モデルの隠れたレイアウトエキスパートを明らかにする

LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models ( http://arxiv.org/abs/2309.09506v1 )

ライセンス: Link先を確認
Zecheng Tang, Chenfei Wu, Juntao Li, Nan Duan(参考訳) 成長する研究分野であるグラフィックレイアウト生成は、ユーザのエンゲージメントと情報知覚において重要な役割を果たす。 既存の手法は主に、レイアウト生成を数値最適化タスクとして扱い、各レイアウト要素間の関係のようなレイアウトの意味情報を見下ろしながら、定量的な側面に焦点を当てる。 本稿では,レイアウト生成をコード生成タスクとして扱う最初のモデルであるLayoutNUWAを提案する。 より具体的には、3つの相互接続モジュールからなるCode Instruct Tuning (CIT) アプローチを開発する。 1) Code Initialization (CI)モジュールは,数値条件を定量化し,戦略的に配置されたマスク付きHTMLコードとして初期化する。 2) Code Completion (CC)モジュールは,LLMのフォーマット知識を利用して,HTMLコード内のマスク部分を満たす。 3) Code Rendering (CR)モジュールは、完了したコードを最終的なレイアウト出力に変換し、高度に解釈可能で透過的なレイアウト生成手順を保証する。 LayoutNUWAの強みを示しながら、複数のデータセット上での最先端のパフォーマンス(50倍以上の改善)を実現しました。 私たちのコードはhttps://github.com/ProjectNUWA/LayoutNUWAで利用可能です。

Graphic layout generation, a growing research field, plays a significant role in user engagement and information perception. Existing methods primarily treat layout generation as a numerical optimization task, focusing on quantitative aspects while overlooking the semantic information of layout, such as the relationship between each layout element. In this paper, we propose LayoutNUWA, the first model that treats layout generation as a code generation task to enhance semantic information and harness the hidden layout expertise of large language models~(LLMs). More concretely, we develop a Code Instruct Tuning (CIT) approach comprising three interconnected modules: 1) the Code Initialization (CI) module quantifies the numerical conditions and initializes them as HTML code with strategically placed masks; 2) the Code Completion (CC) module employs the formatting knowledge of LLMs to fill in the masked portions within the HTML code; 3) the Code Rendering (CR) module transforms the completed code into the final layout output, ensuring a highly interpretable and transparent layout generation procedure that directly maps code to a visualized layout. We attain significant state-of-the-art performance (even over 50\% improvements) on multiple datasets, showcasing the strong capabilities of LayoutNUWA. Our code is available at https://github.com/ProjectNUWA/LayoutNUWA.
翻訳日:2023-09-19 14:49:52 公開日:2023-09-18
# 外周非感受性カルマンフィルタの理論と応用

Outlier-Insensitive Kalman Filtering: Theory and Applications ( http://arxiv.org/abs/2309.09505v1 )

ライセンス: Link先を確認
Shunit Truzman, Guy Revach, Nir Shlezinger, Itzik Klein(参考訳) 雑音観測による力学系の状態推定は多くの応用において基本的な課題である。 一般に、線形カルマンフィルタ(KF)を用いて対処されるが、このフィルタは凸2次目的関数の感度のため、観測における外れ値の存在下で性能が著しく低下する可能性がある。 このような挙動を緩和するために、外れ値検出アルゴリズムを適用することができる。 本研究では,kfの標準更新ステップの短い反復処理のみを必要としつつ,異常値の有害な影響を緩和するパラメータフリーアルゴリズムを提案する。 そこで我々は,各ポテンシャル外乱を未知のばらつきを持つ正規プロセスとしてモデル化し,期待最大化あるいは交互最大化アルゴリズムによるオンライン推定を適用した。 シミュレーションとフィールド実験により,提案手法の競合性能を実証し,その頑健さを他のアルゴリズムと比較してフィルタシナリオの外れ値に示す。

State estimation of dynamical systems from noisy observations is a fundamental task in many applications. It is commonly addressed using the linear Kalman filter (KF), whose performance can significantly degrade in the presence of outliers in the observations, due to the sensitivity of its convex quadratic objective function. To mitigate such behavior, outlier detection algorithms can be applied. In this work, we propose a parameter-free algorithm which mitigates the harmful effect of outliers while requiring only a short iterative process of the standard update step of the KF. To that end, we model each potential outlier as a normal process with unknown variance and apply online estimation through either expectation maximization or alternating maximization algorithms. Simulations and field experiment evaluations demonstrate competitive performance of our method, showcasing its robustness to outliers in filtering scenarios compared to alternative algorithms.
翻訳日:2023-09-19 14:49:31 公開日:2023-09-18
# リソース制約装置の自動音声認識における早期出口を用いた動的モデルの訓練

Training dynamic models using early exits for automatic speech recognition on resource-constrained devices ( http://arxiv.org/abs/2309.09546v1 )

ライセンス: Link先を確認
George August Wright, Umberto Cappellazzo, Salah Zaiem, Desh Raj, Lucas Ondel Yang, Daniele Falavigna, Alessio Brutti(参考訳) 推論時にニューラルネットワークの計算負荷を動的に修正する可能性は、計算パワーが制限され、時間的に変化するオンデバイス処理に不可欠である。 ニューラルネットワーク圧縮のための確立されたアプローチは存在するが、アーキテクチャ上静的なモデルを提供する。 本稿では,大語彙音声認識に適用した中間出口分岐に依存する早期排他アーキテクチャの利用について検討する。 これにより、計算コストを利用可能なリソースと認識性能に調整する動的モデルの開発が可能になる。 以前の作業とは異なり、事前トレーニングされたバックボーンの使用に加えて、初期のアーキテクチャでモデルをゼロからトレーニングします。 公開データセットでの実験では、初期の外部アーキテクチャは、エンコーダ層が少ない場合にパフォーマンスレベルをゼロから保持するだけでなく、単一外部モデルやトレーニング済みモデルを使用する場合と比較してタスクの正確性も向上している。 さらに,フレームベースのエントロピーの代替として,後部確率に基づく出口選択戦略を検討する。

The possibility of dynamically modifying the computational load of neural models at inference time is crucial for on-device processing, where computational power is limited and time-varying. Established approaches for neural model compression exist, but they provide architecturally static models. In this paper, we investigate the use of early-exit architectures, that rely on intermediate exit branches, applied to large-vocabulary speech recognition. This allows for the development of dynamic models that adjust their computational cost to the available resources and recognition performance. Unlike previous works, besides using pre-trained backbones we also train the model from scratch with an early-exit architecture. Experiments on public datasets show that early-exit architectures from scratch not only preserve performance levels when using fewer encoder layers, but also improve task accuracy as compared to using single-exit models or using pre-trained models. Additionally, we investigate an exit selection strategy based on posterior probabilities as an alternative to frame-based entropy.
翻訳日:2023-09-19 14:43:24 公開日:2023-09-18
# 位相図の見当たらない点における状態形成のための量子waserstein gans

Quantum Wasserstein GANs for State Preparation at Unseen Points of a Phase Diagram ( http://arxiv.org/abs/2309.09543v1 )

ライセンス: Link先を確認
Wiktor Jurasz, Christian B. Mendl(参考訳) 生成モデル、特にGAN(Generative Adversarial Networks)は非常に人気があり、強力なデータ生成ツールになっている。 近年では、この概念を量子領域に拡張する大きな進歩がなされている。 しかし、現在の手法のほとんどは、入力セットで提供され、トレーニング時に見られる状態のクラスを生成することに焦点を当てている。 本研究では,この制限を克服した量子ワッサーシュタイン GAN に基づくハイブリッド古典量子法を提案する。 これにより、供給された状態の測定期待を統制する関数を学習し、入力セットの一部ではなく、どの期待が同じ基礎機能に従う新しい状態を生成することができる。

Generative models and in particular Generative Adversarial Networks (GANs) have become very popular and powerful data generation tool. In recent years, major progress has been made in extending this concept into the quantum realm. However, most of the current methods focus on generating classes of states that were supplied in the input set and seen at the training time. In this work, we propose a new hybrid classical-quantum method based on quantum Wasserstein GANs that overcomes this limitation. It allows to learn the function governing the measurement expectations of the supplied states and generate new states, that were not a part of the input set, but which expectations follow the same underlying function.
翻訳日:2023-09-19 14:43:08 公開日:2023-09-18
# 事象の因果順序付けのための量子確率

Quantum probabilities for the causal ordering of events ( http://arxiv.org/abs/2309.09541v1 )

ライセンス: Link先を確認
Charis Anastopoulos and Maria_Electra Plakitsi(参考訳) 量子論において、事象の因果順序付けに関連する確率を構築するための新しい形式論を考案し、事象によって検出器上の測定記録の出現を意味する。 まず、古典物理学における因果順序付けイベントの確率の構築から始める。 そして、これらの概念がどのようにして量子系に一般化するかを示す。 ここで構築される確率は、少なくとも原則として、実験的にアクセス可能である。 ここでの解析は、事象の量子秩序の存在が量子重力効果を必要としないことを明確にする:物質の量子力学の結果であり、固定された背景時空の存在で現れる。

We develop a new formalism for constructing probabilities associated to the causal ordering of events in quantum theory, where by an event we mean the emergence of a measurement record on a detector. We start with constructing probabilities for the causal ordering events in classical physics, where events are defined in terms of worldline coincidences. Then, we show how these notions generalize to quantum systems, where there exists no fundamental notion of trajectory. The probabilities constructed here are experimentally accessible, at least in principle. Our analysis here clarifies that the existence of quantum orderings of events does not require quantum gravity effects: it is a consequence of the quantum dynamics of matter, and it appears in presence of a fixed background spacetime.
翻訳日:2023-09-19 14:42:58 公開日:2023-09-18
# 原子干渉型ダークマター検出におけるクロック遷移とブラッグ回折

Clock Transitions Versus Bragg Diffraction in Atom-interferometric Dark-matter Detection ( http://arxiv.org/abs/2309.09538v1 )

ライセンス: Link先を確認
Daniel Derr and Enno Giese(参考訳) 長いベースラインを持つ原子干渉計は、ダークマターの探索を補完すると考えられている。 これらは内部(クロック)遷移や状態保存原子回折に基づく原子操作に依存している。 主に、ダークマターは内部だけでなく、原子干渉計の両方が影響を受けやすい外部の自由度にも作用することができる。 そこで我々は,暗黒物質が内部原子構造と原子の動きに及ぼす影響について考察した。 特に, 原子遷移周波数は, 関連する状態とダークマターとの平均結合と差分結合に依存し, 摂動しない原子遷移周波数とコンプトン周波数とをそれぞれスケーリングすることを示した。 微分結合は、内部状態が変化したときのみ関連し、例えば、両方の結合パラメータに敏感な単光子遷移に基づく検出器となる。 ブラッグ回折のような状態保存回折機構によって生成されるセンサでは、平均結合は原子の運動のみを支配的な寄与として修飾する。 最後に、地上の暗黒物質検出器で観測された両方の効果を比較した。

Atom interferometers with long baselines are envisioned to complement the ongoing search for dark matter. They rely on atomic manipulation based on internal (clock) transitions or state-preserving atomic diffraction. Principally, dark matter can act on the internal as well as the external degrees of freedom to both of which atom interferometers are susceptible. We therefore study in this contribution the effects of dark matter on the internal atomic structure and the atoms' motion. In particular, we show that the atomic transition frequency depends on the mean coupling and the differential coupling of the involved states to dark matter, scaling with the unperturbed atomic transition frequency and the Compton frequency, respectively. The differential coupling is only of relevance when internal states change, which makes detectors, e.g., based on single-photon transitions sensitive to both coupling parameters. For sensors generated by state-preserving diffraction mechanisms like Bragg diffraction, the mean coupling modifies only the motion of the atom as the dominant contribution. Finally, we compare both effects observed in terrestrial dark-matter detectors.
翻訳日:2023-09-19 14:42:47 公開日:2023-09-18
# モデル評価のための性能特性曲線 -情報拡散予測への応用-

A performance characteristic curve for model evaluation: the application in information diffusion prediction ( http://arxiv.org/abs/2309.09537v1 )

ライセンス: Link先を確認
Wenjin Xie, Xiaomeng Wang, Rados{\l}aw Michalsk, Tao Jia(参考訳) ソーシャルネットワーク上での情報拡散予測は、今後のメッセージ受信者を予測することを目的としており、マーケティングやソーシャルメディアに実用化されている。 様々な予測モデルがよく機能すると主張しているが、パフォーマンス評価のための一般的なフレームワークは依然として限られている。 ここでは,モデルの性能特性曲線を同定し,異なる複雑性のタスクにおける性能をキャプチャする。 拡散データ中のランダム性を定量化するために,情報エントロピーに基づくメトリクスを提案し,モデルのランダム性と予測精度の間のスケーリングパターンを同定する。 異なるシーケンス長、システムサイズ、ランダム性によるパターンのデータポイントは、すべて単一の曲線に崩壊し、不確実性の増加に対して正しい予測を行うモデル固有の能力を取得する。 この曲線がモデルの評価に使用できるような重要な特性を持っていることを考慮し、モデルの性能特性曲線と定義する。 曲線の妥当性は、同じ家系の3つの予測モデルによって検証され、既存の研究と一致する結論に達する。 また、この曲線は文献から2つの異なるモデルを評価するためにうまく適用される。 我々の研究は、データのランダム性と予測精度の基礎となるパターンを明らかにする。 性能特性曲線は、モデルの性能を体系的に評価する新しい方法を提供し、モデル評価のための他のフレームワークに関する将来の研究に光を当てる。

The information diffusion prediction on social networks aims to predict future recipients of a message, with practical applications in marketing and social media. While different prediction models all claim to perform well, general frameworks for performance evaluation remain limited. Here, we aim to identify a performance characteristic curve for a model, which captures its performance on tasks of different complexity. We propose a metric based on information entropy to quantify the randomness in diffusion data, then identify a scaling pattern between the randomness and the prediction accuracy of the model. Data points in the patterns by different sequence lengths, system sizes, and randomness all collapse into a single curve, capturing a model's inherent capability of making correct predictions against increased uncertainty. Given that this curve has such important properties that it can be used to evaluate the model, we define it as the performance characteristic curve of the model. The validity of the curve is tested by three prediction models in the same family, reaching conclusions in line with existing studies. Also, the curve is successfully applied to evaluate two distinct models from the literature. Our work reveals a pattern underlying the data randomness and prediction accuracy. The performance characteristic curve provides a new way to systematically evaluate models' performance, and sheds light on future studies on other frameworks for model evaluation.
翻訳日:2023-09-19 14:42:32 公開日:2023-09-18
# ビデオ行動認識のための選択ボリュームミックスアップ

Selective Volume Mixup for Video Action Recognition ( http://arxiv.org/abs/2309.09534v1 )

ライセンス: Link先を確認
Yi Tan, Zhaofan Qiu, Yanbin Hao, Ting Yao, Xiangnan He and Tao Mei(参考訳) 畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(Vision Transformers)の最近の進歩は、大規模なデータセット上でのビデオアクション認識の高度な学習能力を確実に実証している。 それにもかかわらず、深層モデルは、限られた数のトレーニングビデオを持つ小規模データセットに過剰な影響を被ることが多い。 一般的な解決策は、ビデオデータに特に最適化されていないMixup、Cutmix、RandAugmentを含む、各フレームの既存の画像拡張戦略を活用することである。 本稿では,訓練ビデオの少ない深層モデルの一般化能力を向上させるために,sv-mix(selective volume mixup)という新しい拡張戦略を提案する。 SV-Mixは、2つのビデオから最も情報性の高いボリュームを選択するための学習可能な選択モジュールを考案し、新しいトレーニングビデオを達成するためにボリュームをミックスする。 技術的には,各空間位置の局所パッチを選択する空間選択モジュールと,タイムスタンプ毎にフレーム全体を混合して空間パターンを維持する時間選択モジュールという2つの新しいモジュールを提案する。 2つのモジュールのうちの1つをランダムに選択し、トレーニングサンプルの多様性を拡大します。 選択モジュールは、ビデオアクション認識フレームワークと共同で最適化され、最適な拡張戦略を見つける。 我々は、幅広いビデオアクション認識ベンチマークにおけるsv-mix拡張の利点を実証し、cnnベースとtransformerベースのモデルの両方のパフォーマンスを一貫してブートする。

The recent advances in Convolutional Neural Networks (CNNs) and Vision Transformers have convincingly demonstrated high learning capability for video action recognition on large datasets. Nevertheless, deep models often suffer from the overfitting effect on small-scale datasets with a limited number of training videos. A common solution is to exploit the existing image augmentation strategies for each frame individually including Mixup, Cutmix, and RandAugment, which are not particularly optimized for video data. In this paper, we propose a novel video augmentation strategy named Selective Volume Mixup (SV-Mix) to improve the generalization ability of deep models with limited training videos. SV-Mix devises a learnable selective module to choose the most informative volumes from two videos and mixes the volumes up to achieve a new training video. Technically, we propose two new modules, i.e., a spatial selective module to select the local patches for each spatial position, and a temporal selective module to mix the entire frames for each timestamp and maintain the spatial pattern. At each time, we randomly choose one of the two modules to expand the diversity of training samples. The selective modules are jointly optimized with the video action recognition framework to find the optimal augmentation strategy. We empirically demonstrate the merits of the SV-Mix augmentation on a wide range of video action recognition benchmarks and consistently boot the performances of both CNN-based and transformer-based models.
翻訳日:2023-09-19 14:42:12 公開日:2023-09-18
# 合成画像検索のための意味的シフトの分解

Decompose Semantic Shifts for Composed Image Retrieval ( http://arxiv.org/abs/2309.09531v1 )

ライセンス: Link先を確認
Xingyu Yang, Daqing Liu, Heng Zhang, Yong Luo, Chaoyue Wang, Jing Zhang(参考訳) 合成画像検索は、ユーザが参照画像を出発点として提供し、開始点から所望の目標画像へのシフト方法に関するテキストを指定する画像検索タスクの一種である。 しかし、既存の手法のほとんどはテキストと参照画像の合成学習に重点を置いており、テキストを記述として過度に単純化し、本質的な構造やユーザのテキストのシフト意図を無視している。 結果として、これらの方法は、通常、参照画像の視覚的な手がかりを無視するショートカットを取る。 この問題に対処するために,テキストを命令として再考し,セマンティックシフトネットワーク(SSN)を提案し,セマンティックシフトを,参照画像から視覚プロトタイプ,視覚プロトタイプから対象イメージへ,という2つのステップに明示的に分解する。 具体的には、SSNは、指示を2つのコンポーネントに明示的に分解する:分解とアップグレード、分解は参照画像から視覚プロトタイプを描画するために使用され、アップグレードは、視覚プロトタイプを最終表現に拡張して、望ましいターゲット画像を取得するために使用される。 実験の結果,提案SSNはCIRRデータセットとFashionIQデータセットでそれぞれ5.42%と1.37%の大幅な改善を示し,新たな最先端性能を確立した。 コードは公開されます。

Composed image retrieval is a type of image retrieval task where the user provides a reference image as a starting point and specifies a text on how to shift from the starting point to the desired target image. However, most existing methods focus on the composition learning of text and reference images and oversimplify the text as a description, neglecting the inherent structure and the user's shifting intention of the texts. As a result, these methods typically take shortcuts that disregard the visual cue of the reference images. To address this issue, we reconsider the text as instructions and propose a Semantic Shift network (SSN) that explicitly decomposes the semantic shifts into two steps: from the reference image to the visual prototype and from the visual prototype to the target image. Specifically, SSN explicitly decomposes the instructions into two components: degradation and upgradation, where the degradation is used to picture the visual prototype from the reference image, while the upgradation is used to enrich the visual prototype into the final representations to retrieve the desired target image. The experimental results show that the proposed SSN demonstrates a significant improvement of 5.42% and 1.37% on the CIRR and FashionIQ datasets, respectively, and establishes a new state-of-the-art performance. Codes will be publicly available.
翻訳日:2023-09-19 14:41:46 公開日:2023-09-18
# 読解による大規模言語モデルの適用

Adapting Large Language Models via Reading Comprehension ( http://arxiv.org/abs/2309.09530v1 )

ライセンス: Link先を確認
Daixuan Cheng, Shaohan Huang, Furu Wei(参考訳) ドメイン固有コーパスの事前学習が大規模言語モデルにどのように影響するかを探索し、生コーパスのトレーニングがドメイン知識を生かしたモデルを実現するが、質問応答の促進能力を大幅に損なうことを明らかにした。 読み書きによる人間の学習からインスピレーションを得る-学習知識に基づいて質問に答える能力を向上させる-本研究では、生コーパスを読解テキストに変換する簡単な方法を提案する。 各原文には、その内容に関連する一連のタスクが強化されている。 本手法は,任意の事前学習コーパスに適用可能であり,バイオメディシン,ファイナンス,法則の3分野において,様々なタスクにまたがるパフォーマンスを継続的に向上させる。 特に、我々の7B言語モデルは、BloombergGPT-50Bのような非常に大きなスケールのドメイン固有モデルと競合する性能を実現しています。 さらに、一般ベンチマークにおいても、ドメイン固有の読解テキストがモデルの性能を向上させることを実証し、さらに多くのドメインにまたがる汎用モデルを開発する可能性を示す。 私たちのモデル、コード、データはhttps://github.com/microsoft/LMOps.comで公開されます。

We explore how continued pre-training on domain-specific corpora influences large language models, revealing that training on the raw corpora endows the model with domain knowledge, but drastically hurts its prompting ability for question answering. Taken inspiration from human learning via reading comprehension--practice after reading improves the ability to answer questions based on the learned knowledge--we propose a simple method for transforming raw corpora into reading comprehension texts. Each raw text is enriched with a series of tasks related to its content. Our method, highly scalable and applicable to any pre-training corpora, consistently enhances performance across various tasks in three different domains: biomedicine, finance, and law. Notably, our 7B language model achieves competitive performance with domain-specific models of much larger scales, such as BloombergGPT-50B. Furthermore, we demonstrate that domain-specific reading comprehension texts can improve the model's performance even on general benchmarks, showing the potential to develop a general model across even more domains. Our model, code, and data will be available at https://github.com/microsoft/LMOps.
翻訳日:2023-09-19 14:41:23 公開日:2023-09-18
# dfil: domain-invariant forgery cluesを活用したdeepfakeインクリメンタル学習

DFIL: Deepfake Incremental Learning by Exploiting Domain-invariant Forgery Clues ( http://arxiv.org/abs/2309.09526v1 )

ライセンス: Link先を確認
Kun Pan, Yin Yifang, Yao Wei, Feng Lin, Zhongjie Ba, Zhenguang Liu, ZhiBo Wang, Lorenzo Cavallaro and Kui Ren(参考訳) 悪質な使用とディープフェイクの普及は、重大な信頼の危機を引き起こす。 現在のディープフェイク検出モデルは、大規模なデータセットでトレーニングすることで、一般的に偽造画像を認識することができる。 しかし, 検出モデルの精度は, データ分布の違いにより, 新たなディープフェイク法で生成した画像によって著しく低下する。 そこで本研究では,少数のサンプルから連続学習を行うことにより,深度検出モデルの一般化を向上する新たな漸進学習フレームワークを提案する。 異なるデータ分布に対処するために,教師付きコントラスト学習に基づくドメイン不変表現を学習し,不十分な新しいデータへの過剰適合を防止する。 破滅的な忘れを緩和するため,多視点の知識蒸留手法を用いて特徴レベルとラベルレベルの両方でモデルを正規化する。 最後に,リプレイセットを更新するために,中央代表とハード代表の両方を選択し,ドメイン不変表現学習とリハーサルベース知識保存の両方に有益である。 FF++,DFDC-P,DFD,CDF2の4つのベンチマークデータセットに対して,新しい最先端平均忘れ率7.01と平均精度85.49を得る。 私たちのコードはhttps://github.com/DeepFakeIL/DFILでリリースされています。

The malicious use and widespread dissemination of deepfake pose a significant crisis of trust. Current deepfake detection models can generally recognize forgery images by training on a large dataset. However, the accuracy of detection models degrades significantly on images generated by new deepfake methods due to the difference in data distribution. To tackle this issue, we present a novel incremental learning framework that improves the generalization of deepfake detection models by continual learning from a small number of new samples. To cope with different data distributions, we propose to learn a domain-invariant representation based on supervised contrastive learning, preventing overfit to the insufficient new data. To mitigate catastrophic forgetting, we regularize our model in both feature-level and label-level based on a multi-perspective knowledge distillation approach. Finally, we propose to select both central and hard representative samples to update the replay set, which is beneficial for both domain-invariant representation learning and rehearsal-based knowledge preserving. We conduct extensive experiments on four benchmark datasets, obtaining the new state-of-the-art average forgetting rate of 7.01 and average accuracy of 85.49 on FF++, DFDC-P, DFD, and CDF2. Our code is released at https://github.com/DeepFakeIL/DFIL.
翻訳日:2023-09-19 14:41:06 公開日:2023-09-18
# テキストのみの領域適応のための分解型ニューラルトランスデューサモデルの改良

Improved Factorized Neural Transducer Model For text-only Domain Adaptation ( http://arxiv.org/abs/2309.09524v1 )

ライセンス: Link先を確認
Junzhe Liu, Jianwei Yu, Xie Chen(参考訳) ニューラルトランスデューサなどのエンドツーエンドモデルでは、音響情報と言語情報の統合が成功し、優れた認識性能を達成している。 しかし、これらのモデルをテキストのみのデータで適用することは困難である。 Factorized Neural Transducer (FNT) は、従来のテキストデータ適応を効果的に実行可能な語彙予測のための別個の語彙デコーダを導入することで、この問題に対処することを目指している。 それにもかかわらず、このアプローチは音響情報と言語情報をシームレスに融合する制限がある。 さらに、一般的なテストセットにおける単語誤り率(WER)の低下も観察され、全体的な性能に疑問が生じた。 この課題に対応するために,音と言語情報を包括的に統合し,効果的なテキスト適応を実現するための改良された分解型ニューラルトランスデューサ(IFNT)モデル構造を提案する。 提案手法の性能評価は,GigaSpeechのドメイン内実験とEuroParl,TED-Lium,医療データセットに対応するドメイン外実験を用いて行った。 テキストのみの適応の後、IFNTは標準のニューラルトランスデューサよりも7.9%から28.5%の相対的なWER改善を実現し、FNTモデルと比較して3つのテストセットで1.6%から8.2%の相対的なWER削減を実現した。

End-to-end models, such as the neural Transducer, have been successful in integrating acoustic and linguistic information jointly to achieve excellent recognition performance. However, adapting these models with text-only data is challenging. Factorized neural Transducer (FNT) aims to address this issue by introducing a separate vocabulary decoder to predict the vocabulary, which can effectively perform traditional text data adaptation. Nonetheless, this approach has limitations in fusing acoustic and language information seamlessly. Moreover, a degradation in word error rate (WER) on the general test sets was also observed, leading to doubts about its overall performance. In response to this challenge, we present an improved factorized neural Transducer (IFNT) model structure designed to comprehensively integrate acoustic and language information while enabling effective text adaptation. We evaluate the performance of our proposed methods through in-domain experiments on GigaSpeech and out-of-domain experiments adapting to EuroParl, TED-LIUM, and Medical datasets. After text-only adaptation, IFNT yields 7.9% to 28.5% relative WER improvements over the standard neural Transducer with shallow fusion, and relative WER reductions ranging from 1.6% to 8.2% on the three test sets compared to the FNT model.
翻訳日:2023-09-19 14:40:45 公開日:2023-09-18
# 複数クラス分類における多数投票の精度に関する新しい知見

New Bounds on the Accuracy of Majority Voting for Multi-Class Classification ( http://arxiv.org/abs/2309.09564v1 )

ライセンス: Link先を確認
Sina Aeeneh, Nikola Zlatanov, Jiangshan Yu(参考訳) 多数決は、集合の中で最も頻繁に現れる値を返す単純な数学的関数である。 人気の高い意思決定融合手法として、多数決関数 (MVF) は紛争解決の応用を見つけ、多くの独立した有権者が分類問題について意見を述べる。 その重要性と、アンサンブル学習、データクラウドソーシング、リモートセンシング、ブロックチェーンのデータオラクルにおける様々な応用にもかかわらず、一般的なマルチクラス分類問題に対するmvfの精度は未知のままである。 本稿では,マルチクラス分類問題に対するmvfの精度に関する新たな上限を導出する。 より具体的には、ある条件下では、独立投票者の数が増加するにつれて、MVFの誤差率は指数関数的にゼロに低下する。 逆に、MVFの誤差率は、これらの条件が満たされない場合、独立投票者の数とともに指数関数的に増加する。 まず、データポイントの真の分類を考えると、各投票者が異なるクラスに対する投票の条件付き確率分布に従うと仮定して、独立で同一に分布する有権者の問題を考察する。 次に、有権者が独立しているが、特定されていない場合の結果を拡張する。 得られた結果を用いて,真理探索アルゴリズムの精度について考察する。 最良ケースでは、真理発見アルゴリズムが増幅されたMVFとして動作し、MVFが小さなエラー率を達成した場合にのみ小さなエラー率を達成することを示し、また、MVFが大きなエラー率を達成した場合にも大きなエラー率を達成することを示す。 最悪のシナリオでは、真理発見アルゴリズムはMVFよりも高いエラー率を達成する可能性がある。 最後に,数値シミュレーションにより理論的結果を確認する。

Majority voting is a simple mathematical function that returns the value that appears most often in a set. As a popular decision fusion technique, the majority voting function (MVF) finds applications in resolving conflicts, where a number of independent voters report their opinions on a classification problem. Despite its importance and its various applications in ensemble learning, data crowd-sourcing, remote sensing, and data oracles for blockchains, the accuracy of the MVF for the general multi-class classification problem has remained unknown. In this paper, we derive a new upper bound on the accuracy of the MVF for the multi-class classification problem. More specifically, we show that under certain conditions, the error rate of the MVF exponentially decays toward zero as the number of independent voters increases. Conversely, the error rate of the MVF exponentially grows with the number of independent voters if these conditions are not met. We first explore the problem for independent and identically distributed voters where we assume that every voter follows the same conditional probability distribution of voting for different classes, given the true classification of the data point. Next, we extend our results for the case where the voters are independent but non-identically distributed. Using the derived results, we then provide a discussion on the accuracy of the truth discovery algorithms. We show that in the best-case scenarios, truth discovery algorithms operate as an amplified MVF and thereby achieve a small error rate only when the MVF achieves a small error rate, and vice versa, achieve a large error rate when the MVF also achieves a large error rate. In the worst-case scenario, the truth discovery algorithms may achieve a higher error rate than the MVF. Finally, we confirm our theoretical results using numerical simulations.
翻訳日:2023-09-19 14:33:19 公開日:2023-09-18
# RIDE: 内視鏡における回転同変キーポイント検出と不変記述の自己教師付き学習

RIDE: Self-Supervised Learning of Rotation-Equivariant Keypoint Detection and Invariant Description for Endoscopy ( http://arxiv.org/abs/2309.09563v1 )

ライセンス: Link先を確認
Mert Asim Karaoglu, Viktoria Markova, Nassir Navab, Benjamin Busam, and Alexander Ladikos(参考訳) 自然画像と異なり、内視鏡では上向きのカメラ指向という明確な概念は存在しない。 したがって、内視鏡ビデオは大きな回転運動を含むことが多く、これらの条件に対してキーポイントの検出と記述アルゴリズムを必要とする。 ほとんどの古典的手法は、回転同変検出と不変記述を設計によって達成するが、多くの学習に基づくアプローチは、ある程度の堅牢性しか持たない。 同時に、適度な回転の下での学習に基づく手法は、しばしば古典的アプローチを上回っている。 本稿では,この欠点に対処するため,回転同変検出と不変記述のための学習ベース手法であるRIDEを提案する。 グループ同変学習の最近の進歩に続いて、ライドモデルはそのアーキテクチャ内で暗黙的に回転同変する。 RIDEは、内視鏡画像の大規模なキュレーションで自己監督的に訓練され、手動によるトレーニングデータのラベル付けは不要である。 我々は,スーパーデータセット上での外科組織追跡の文脈と,怖れるデータセットの再利用版における相対的なポーズ推定の文脈において,ライドをテストした。 さらに,大きな回転に対するロバスト性を示す明示的な研究を行う。 近年の学習ベースおよび古典的アプローチとの比較により,RIDEはマッチングおよび相対ポーズ推定タスクに新たな最先端のパフォーマンスを設定し,手術組織追跡に競争力を持たせた。

Unlike in natural images, in endoscopy there is no clear notion of an up-right camera orientation. Endoscopic videos therefore often contain large rotational motions, which require keypoint detection and description algorithms to be robust to these conditions. While most classical methods achieve rotation-equivariant detection and invariant description by design, many learning-based approaches learn to be robust only up to a certain degree. At the same time learning-based methods under moderate rotations often outperform classical approaches. In order to address this shortcoming, in this paper we propose RIDE, a learning-based method for rotation-equivariant detection and invariant description. Following recent advancements in group-equivariant learning, RIDE models rotation-equivariance implicitly within its architecture. Trained in a self-supervised manner on a large curation of endoscopic images, RIDE requires no manual labeling of training data. We test RIDE in the context of surgical tissue tracking on the SuPeR dataset as well as in the context of relative pose estimation on a repurposed version of the SCARED dataset. In addition we perform explicit studies showing its robustness to large rotations. Our comparison against recent learning-based and classical approaches shows that RIDE sets a new state-of-the-art performance on matching and relative pose estimation tasks and scores competitively on surgical tissue tracking.
翻訳日:2023-09-19 14:32:51 公開日:2023-09-18
# CAF\'E 2.0における学生の抽象化スキルの育成

Training Students' Abstraction Skills Around a CAF\'E 2.0 ( http://arxiv.org/abs/2309.09562v1 )

ライセンス: Link先を確認
G\'eraldine Brieven, Lev Malcev, Benoit Donnet(参考訳) 抽象化スキルを習得するために1年生の心を形作ることは、困難であると同時に重要です。 抽象化は(特にSTEMの分野において)問題解決において重要な能力であるが、生徒はそれを難しく感じ、直接の結果を得ないため、そのプロセスを急ぐことがよく見られる。 彼らは、ソリューションを作るのに抽象化を使うよりも、具体的基盤に直接投資することを好む。 この状況を克服するため,CS1コースでは,CAF\'E 2.0というツールを実装した。 生徒はグラフィカルプログラミングの方法論を通じて、積極的に定期的に(縦断的な活動によって)抽象化スキルを実践することができる。 さらに、CAF\'E 2.0は、学生の最終的な実装をレビューするだけでなく、生徒のソリューションのモデル化方法や最終コードとの整合性に関するパーソナライズされたフィードバックを生み出している。 本稿では CAF\'E 2.0 を一般的な設定で記述し、CS1 コースのコンテキストで具体例を示す。 また,学生の CAF\'E 2.0 との相互作用を知覚と参加データを通じて評価する。 最後に、CAF\'E 2.0がCS1コース以外のコンテキストでどのように拡張できるかを説明する。

Shaping first year students' mind to help them master abstraction skills is as crucial as it is challenging. Although abstraction is a key competence in problem-solving (in particular in STEM disciplines), students are often found to rush that process because they find it hard and do not get any direct outcome out of it. They prefer to invest their efforts directly in a concrete ground, rather than using abstraction to create a solution. To overcome that situation, in the context of our CS1 course, we implemented a tool called CAF\'E 2.0. It allows students to actively and regularly practice (thanks to a longitudinal activity) their abstraction skills through a graphical programming methodology. Moreover, further than reviewing students' final implementation, CAF\'E 2.0 produces a personalized feedback on how students modeled their solution, and on how consistent it is with their final code. This paper describes CAF\'E 2.0 in a general setting and also provides a concrete example in our CS1 course context. This paper also assesses students' interaction with CAF\'E 2.0 through perception and participation data. Finally, we explain how CAF\'E 2.0 could extended in another context than a CS1 course.
翻訳日:2023-09-19 14:32:31 公開日:2023-09-18
# 要約は(ほとんど)死んだ

Summarization is (Almost) Dead ( http://arxiv.org/abs/2309.09558v1 )

ライセンス: Link先を確認
Xiao Pu, Mingqi Gao, Xiaojun Wan(参考訳) 大規模言語モデル(llm)はどの程度要約を生成するのか? 我々は,新しいデータセットを開発し,人間の評価実験を行い,LLMのゼロショット生成能力を評価する。 本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。 特に、LCM生成サマリーは、より良い事実整合性を示し、外因性幻覚の少ない例を示す。 要約タスクにおけるLLMの良好な性能(参照要約のベンチマークを超越しても)のため、LLMの時代にはテキスト要約の分野における従来の作業はもはや必要ないと我々は信じている。 しかし、我々は、高品質で信頼性の高い評価手法による新しいデータセットの作成など、探索する価値のある方向性がまだあることを認識している。

How well can large language models (LLMs) generate summaries? We develop new datasets and conduct human evaluation experiments to evaluate the zero-shot generation capability of LLMs across five distinct summarization tasks. Our findings indicate a clear preference among human evaluators for LLM-generated summaries over human-written summaries and summaries generated by fine-tuned models. Specifically, LLM-generated summaries exhibit better factual consistency and fewer instances of extrinsic hallucinations. Due to the satisfactory performance of LLMs in summarization tasks (even surpassing the benchmark of reference summaries), we believe that most conventional works in the field of text summarization are no longer necessary in the era of LLMs. However, we recognize that there are still some directions worth exploring, such as the creation of novel datasets with higher quality and more reliable evaluation methods.
翻訳日:2023-09-19 14:32:11 公開日:2023-09-18
# 低ランク構造をもつ多次元領域一般化

Multi-dimensional domain generalization with low-rank structures ( http://arxiv.org/abs/2309.09555v1 )

ライセンス: Link先を確認
Sai Li and Linjun Zhang(参考訳) 従来の統計的および機械学習手法では、テストデータはトレーニングデータと同一に分散されていると仮定される。 しかし、特に訓練データで対象人口が十分に表現されていない場合に、この仮定が常に成り立つとは限らない。 これは、特定の民族が過小評価される可能性がある健康関連研究において顕著な問題であり、これらの少数民族について統計的に推測することを目指す研究者にとって大きな課題となっている。 本稿では,線形回帰モデルにおけるこの課題に対処するための新しいアプローチを提案する。 すべてのサブポピュレーションのモデルパラメータをテンソルに整理する。 構造的テンソル完備化問題を研究することによって、ロバストな領域の一般化、すなわち、限られたあるいは利用可能なデータを持たないサブポピュレーションについて学ぶことができる。 本手法はグループラベルの構造を新規に活用し,より信頼性が高く,解釈可能な一般化結果が得られる。 提案手法の厳密な理論的保証を確立し,その最小限の最適性を示す。 提案手法の有効性を検証するために,多民族集団の教育水準予測に着目した数値実験と実データ分析を行い,他の手法を用いた結果と比較した。

In conventional statistical and machine learning methods, it is typically assumed that the test data are identically distributed with the training data. However, this assumption does not always hold, especially in applications where the target population are not well-represented in the training data. This is a notable issue in health-related studies, where specific ethnic populations may be underrepresented, posing a significant challenge for researchers aiming to make statistical inferences about these minority groups. In this work, we present a novel approach to addressing this challenge in linear regression models. We organize the model parameters for all the sub-populations into a tensor. By studying a structured tensor completion problem, we can achieve robust domain generalization, i.e., learning about sub-populations with limited or no available data. Our method novelly leverages the structure of group labels and it can produce more reliable and interpretable generalization results. We establish rigorous theoretical guarantees for the proposed method and demonstrate its minimax optimality. To validate the effectiveness of our approach, we conduct extensive numerical experiments and a real data study focused on education level prediction for multiple ethnic groups, comparing our results with those obtained using other existing methods.
翻訳日:2023-09-19 14:31:58 公開日:2023-09-18
# Causal-Story:パラメータ効率を考慮したビジュアルストーリー合成のための局所因果注意

Causal-Story: Local Causal Attention Utilizing Parameter-Efficient Tuning For Visual Story Synthesis ( http://arxiv.org/abs/2309.09553v1 )

ライセンス: Link先を確認
Tianyi Song (1), Jiuxin Cao (1), Kun Wang (1), Bo Liu (1), Xiaofeng Zhang (2) ((1) Southeast University (2) Shanghai Jiao Tong University)(参考訳) 拡散モデルの優れたテキストと画像の合成能力は、コヒーレントなビジュアルストーリーの合成の進歩を促した。 現在の最先端の手法は、現在のフレームを生成する条件として、歴史的なキャプション、歴史的なフレーム、そして現在のキャプションの特徴を組み合わせる。 しかし、この方法はそれぞれの歴史的枠とキャプションを同じ貢献として扱う。 すべての歴史的条件が現在のフレームの生成と関連しているわけではないことを無視して、同じ重みでそれらを順番に結びつける。 この問題に対処するため、我々はCausal-Storyを提案する。 このモデルは、以前のキャプション、フレーム、現在のキャプション間の因果関係を考慮した、局所的な因果的注意機構を取り入れている。 この関係に基づいて重みを割り当てることで、因果関係は現在のフレームを生成し、ストーリー生成のグローバル一貫性を向上させる。 本研究では,pororosvとflintstonessvデータセットのモデルを評価し,得られた最新fidスコアを評価した。 Causal-Storyのソースコードはhttps://github.com/styufo/Causal-Storyから入手できる。

The excellent text-to-image synthesis capability of diffusion models has driven progress in synthesizing coherent visual stories. The current state-of-the-art method combines the features of historical captions, historical frames, and the current captions as conditions for generating the current frame. However, this method treats each historical frame and caption as the same contribution. It connects them in order with equal weights, ignoring that not all historical conditions are associated with the generation of the current frame. To address this issue, we propose Causal-Story. This model incorporates a local causal attention mechanism that considers the causal relationship between previous captions, frames, and current captions. By assigning weights based on this relationship, Causal-Story generates the current frame, thereby improving the global consistency of story generation. We evaluated our model on the PororoSV and FlintstonesSV datasets and obtained state-of-the-art FID scores, and the generated frames also demonstrate better storytelling in visuals. The source code of Causal-Story can be obtained from https://github.com/styufo/Causal-Story.
翻訳日:2023-09-19 14:31:39 公開日:2023-09-18
# CB-Whisper: TTSベースのキーワードスポッティングを用いたコンテキストバイザ・ウィスパー

CB-Whisper: Contextual Biasing Whisper using TTS-based Keyword Spotting ( http://arxiv.org/abs/2309.09552v1 )

ライセンス: Link先を確認
Yuang Li, Yinglu Li, Min Zhang, Chang Su, Mengyao Piao, Xiaosong Qiao, Jiawei Yu, Miaomiao Ma, Yanqing Zhao, Hao Yang(参考訳) エンド・ツー・エンドの自動音声認識(asr)システムは、トレーニングデータで頻繁に遭遇しない、個人名、組織、技術用語といった珍しい名前のエンティティを認識するのに苦労することが多い。 本稿では,OpenAIのWhisperモデルに基づく新しいASRシステムであるContextual Biasing Whisper(CB-Whisper)について述べる。 KWSモジュールは、テキスト音声(TTS)技術と畳み込みニューラルネットワーク(CNN)分類器を利用して、エンティティと発話の特徴を一致させる。 実験では、予測されたエンティティを慎重に設計された音声プロンプトに組み込むことで、Whisperモデルの混合エラーレート(MER)とエンティティリコールが、英語のみ、中国語のみ、コードスイッチングシナリオをカバーする3つの内部データセットと2つのオープンソースデータセットで大幅に改善されることを示した。

End-to-end automatic speech recognition (ASR) systems often struggle to recognize rare name entities, such as personal names, organizations, or technical terms that are not frequently encountered in the training data. This paper presents Contextual Biasing Whisper (CB-Whisper), a novel ASR system based on OpenAI's Whisper model that performs keyword-spotting (KWS) before the decoder. The KWS module leverages text-to-speech (TTS) techniques and a convolutional neural network (CNN) classifier to match the features between the entities and the utterances. Experiments demonstrate that by incorporating predicted entities into a carefully designed spoken form prompt, the mixed-error-rate (MER) and entity recall of the Whisper model is significantly improved on three internal datasets and two open-sourced datasets that cover English-only, Chinese-only, and code-switching scenarios.
翻訳日:2023-09-19 14:31:20 公開日:2023-09-18
# ハイブリッドスパイクニューラルネットワークを用いた連続学習のための神経経路の適応的再構成

Adaptive Reorganization of Neural Pathways for Continual Learning with Hybrid Spiking Neural Networks ( http://arxiv.org/abs/2309.09550v1 )

ライセンス: Link先を確認
Bing Han, Feifei Zhao, Wenxuan Pan, Zhaoya Zhao, Xianqi Li, Qingqun Kong, Yi Zeng(参考訳) 人間の脳は、豊かで多様な神経経路を自己組織化し、数百の認知タスクを段階的にマスターすることができる。 しかし、深層人工およびスパイクニューラルネットワークのための既存の連続学習アルゴリズムのほとんどは、ネットワーク内の限られたリソースを適切に自動制御できないため、タスクの増加に伴ってエネルギー消費量が増加するとともに、パフォーマンスが低下する。 本稿では,SOR-SNNを単一かつ限られたスパイキングニューラルネットワーク(SOR-SNN)に再編成し,インクリメンタルなタスクを効率的に処理する,適応的な神経経路再構成を伴う脳インスピレーション型連続学習アルゴリズムを提案する。 提案モデルでは,CIFAR100やImageNetデータセットだけでなく,児童のような単純なタスクから複雑なタスクまで,さまざまな連続的な学習タスクにおいて,パフォーマンス,エネルギー消費,メモリ容量が一貫した優位性を示す。 特に、sor-snnモデルは、より複雑なタスクとより多くのタスクの学習に優れており、過去の学習した知識と現在のタスクの情報を統合することができ、古いタスクを容易にするための後方移動能力を示す。 一方,提案モデルでは,損傷を不可逆的に抑制する自己修復能力を示すとともに,保持ネットワークから新たな経路を自動割り当てすることで,記憶の回復を図ることができる。

The human brain can self-organize rich and diverse sparse neural pathways to incrementally master hundreds of cognitive tasks. However, most existing continual learning algorithms for deep artificial and spiking neural networks are unable to adequately auto-regulate the limited resources in the network, which leads to performance drop along with energy consumption rise as the increase of tasks. In this paper, we propose a brain-inspired continual learning algorithm with adaptive reorganization of neural pathways, which employs Self-Organizing Regulation networks to reorganize the single and limited Spiking Neural Network (SOR-SNN) into rich sparse neural pathways to efficiently cope with incremental tasks. The proposed model demonstrates consistent superiority in performance, energy consumption, and memory capacity on diverse continual learning tasks ranging from child-like simple to complex tasks, as well as on generalized CIFAR100 and ImageNet datasets. In particular, the SOR-SNN model excels at learning more complex tasks as well as more tasks, and is able to integrate the past learned knowledge with the information from the current task, showing the backward transfer ability to facilitate the old tasks. Meanwhile, the proposed model exhibits self-repairing ability to irreversible damage and for pruned networks, could automatically allocate new pathway from the retained network to recover memory for forgotten knowledge.
翻訳日:2023-09-19 14:30:48 公開日:2023-09-18
# 3量子状態における2体相関の幾何学

Geometry of two-body correlations in three-qubit states ( http://arxiv.org/abs/2309.09549v1 )

ライセンス: Link先を確認
Shravan Shravan, Simon Morelli, Otfried G\"uhne, Satoya Imai(参考訳) 境界状態のブロッホベクトル長に基づく3つの局所不変座標を用いて, 3量子状態における2体相関の制約について検討した。 まず、全ての純状態で満たされる厳密な非線形境界を見つけ、この結果を3体相関を含めることで拡張する。 第2に、混合状態を考え、全ての3量子状態に対して厳密な非線形境界を予想する。 最後に、生成されたフレームワーク内では、異なる種類のマルチパーティイトの絡み合いを検出し、量子状態のランクを特徴づける基準を与える。

We study restrictions of two-body correlations in three-qubit states, using three local-unitarily invariant coordinates based on the Bloch vector lengths of the marginal states. First, we find tight nonlinear bounds satisfied by all pure states and extend this result by including the three-body correlations. Second, we consider mixed states and conjecture a tight non-linear bound for all three-qubit states. Finally, within the created framework we give criteria to detect different types of multipartite entanglement as well as characterize the rank of the quantum state.
翻訳日:2023-09-19 14:29:45 公開日:2023-09-18
# ウィスパーを用いた補聴器のマルチブランチ音声明瞭度予測モデル

Utilizing Whisper to Enhance Multi-Branched Speech Intelligibility Prediction Model for Hearing Aids ( http://arxiv.org/abs/2309.09548v1 )

ライセンス: Link先を確認
Ryandhimas E. Zezario, Fei Chen, Chiou-Shann Fuh, Hsin-Min Wang, Yu Tsao(参考訳) 補聴器(HA)装置における音声明瞭度の自動評価は非常に重要である。 先行研究では,mbi-netと呼ばれる非インタラクティブなマルチブランチ音声理解性予測モデルを導入し,clarity prediction challenge 2022でトップパフォーマンスを達成した。 MBI-Netモデルの有望な結果に基づいて,Whisperの埋め込みを利用して音響特性を豊かにすることで,その性能をさらに向上することを目指している。 本研究では, MBI-Net+ と MBI-Net++ の2つの改良モデルを提案する。 MBI-Net+はMBI-Netと同じモデルアーキテクチャを維持しているが、自己教師付き学習(SSL)音声の埋め込みをWhisper埋め込みに置き換え、クロスドメイン機能をデプロイする。 一方、MBI-Net++はより精巧な設計を採用し、客観的音声認識能力指標HASPI(Hearing Aid Speech Perception Index)とマルチタスク学習のフレームレベルおよび発話レベルスコアを予測する補助タスクを取り入れている。 実験の結果,MBI-Net++ と MBI-Net+ は MBI-Net よりも,MBI-Net++ は MBI-Net+ より優れていることがわかった。

Automated assessment of speech intelligibility in hearing aid (HA) devices is of great importance. Our previous work introduced a non-intrusive multi-branched speech intelligibility prediction model called MBI-Net, which achieved top performance in the Clarity Prediction Challenge 2022. Based on the promising results of the MBI-Net model, we aim to further enhance its performance by leveraging Whisper embeddings to enrich acoustic features. In this study, we propose two improved models, namely MBI-Net+ and MBI-Net++. MBI-Net+ maintains the same model architecture as MBI-Net, but replaces self-supervised learning (SSL) speech embeddings with Whisper embeddings to deploy cross-domain features. On the other hand, MBI-Net++ further employs a more elaborate design, incorporating an auxiliary task to predict frame-level and utterance-level scores of the objective speech intelligibility metric HASPI (Hearing Aid Speech Perception Index) and multi-task learning. Experimental results confirm that both MBI-Net++ and MBI-Net+ achieve better prediction performance than MBI-Net in terms of multiple metrics, and MBI-Net++ is better than MBI-Net+.
翻訳日:2023-09-19 14:29:31 公開日:2023-09-18
# ビデオキャプション用コラボレーティブ3ストリームトランス

Collaborative Three-Stream Transformers for Video Captioning ( http://arxiv.org/abs/2309.09611v1 )

ライセンス: Link先を確認
Hao Wang, Libo Zhang, Heng Fan, Tiejian Luo(参考訳) 文の最も重要な要素として、主語、述語、対象はビデオキャプションタスクにおいて特別な注意を要する。 このアイデアを実現するために,我々は,3つの部品を別々にモデル化し,相互補完し,よりよい表現のために相互補完する,コラボレーティブ・スリー・ストリーム・トランスフォーマー(コスト)と呼ばれる新しいフレームワークを設計した。 特に、COSTは、ビデオとテキスト、検出されたオブジェクトとテキスト、およびアクションとテキストの間の空間的時間的領域における異なる粒度の視覚的・言語的相互作用を利用する3つのトランスフォーマーによって形成される。 一方,トランスフォーマの3つの枝がモデル化した相互作用を整合させるクロスグラニュラリティアテンションモジュールを提案し,トランスフォーマの3つの枝が相互にサポートし,キャプションの正確な予測のために異なる粒度の最も識別的な意味情報を利用する。 モデル全体がエンドツーエンドでトレーニングされる。 大規模挑戦型データセット(youcookii, activitynet captions, msvd)を用いた大規模実験により,提案手法が最先端手法に対して好適に機能することを実証した。

As the most critical components in a sentence, subject, predicate and object require special attention in the video captioning task. To implement this idea, we design a novel framework, named COllaborative three-Stream Transformers (COST), to model the three parts separately and complement each other for better representation. Specifically, COST is formed by three branches of transformers to exploit the visual-linguistic interactions of different granularities in spatial-temporal domain between videos and text, detected objects and text, and actions and text. Meanwhile, we propose a cross-granularity attention module to align the interactions modeled by the three branches of transformers, then the three branches of transformers can support each other to exploit the most discriminative semantic information of different granularities for accurate predictions of captions. The whole model is trained in an end-to-end fashion. Extensive experiments conducted on three large-scale challenging datasets, i.e., YouCookII, ActivityNet Captions and MSVD, demonstrate that the proposed method performs favorably against the state-of-the-art methods.
翻訳日:2023-09-19 14:23:40 公開日:2023-09-18
# ローグ量子振幅の管理--量子ウォークの制御の観点から

Managing rogue quantum amplitudes: a control perspective in quantum walks ( http://arxiv.org/abs/2309.09606v1 )

ライセンス: Link先を確認
A. R. C. Buarque and E. P. Raposo(参考訳) 位相障害による離散時間量子ウォーク(DTQW)におけるローグ量子振幅の出現について検討する。 本研究は、空間と時間における職業確率振幅の統計を明らかにし、ローグ波の事象を好む最適な障害状態を明らかにする。 数値シミュレーションにより, 乱れ波の確率は, 乱れの程度に関わらず, パウリ・z選択に近い量子コインで増加することを証明した。 逆に、パウリ・x・ローグ(pauli-x rogue)付近の硬貨は、弱い障害を除いては少ない。 量子コインにより、希少波と高確率波の間でモノトニックしきい値が観測される。 ローグ・ウェーブ・イベントに対するコイン・ディスオーダ・インタープレイの包括的分析を行う。 我々の発見は、DTQWの量子コインによる極端量子振幅の制御の可能性に光を当てた。

We investigate the emergence of rogue quantum amplitudes in discrete-time quantum walks (DTQWs) influenced by phase disorder. Our study reveals the statistics of occupation probability amplitudes in space and time, uncovering optimal disorder regimes that favor rogue wave events. Through numerical simulations, we demonstrate that the probability of rogue waves increases with quantum coins close to the Pauli-Z choice, regardless the disorder degree. Conversely, for coins near Pauli-X rogue events are scarce, except under weak disorder. A monotonic threshold is observed between rare- and high-probability rogue wave regimes, depending on the quantum coin. We provide a comprehensive analysis of the coin-disorder interplay to rogue wave events. Our findings shed light on the possible control of extreme quantum amplitudes through quantum coins in disordered DTQWs.
翻訳日:2023-09-19 14:23:20 公開日:2023-09-18
# 中国語の観点からの命題:中国語の命題分類評価ベンチマーク

Proposition from the Perspective of Chinese Language: A Chinese Proposition Classification Evaluation Benchmark ( http://arxiv.org/abs/2309.09602v1 )

ライセンス: Link先を確認
Conghui Niu, Mengyang Hu, Lin Bo, Xiaoli He, Dong Yu, Pengyuan Liu(参考訳) 既存の命題はしばしば分類の論理定数に依存する。 英語などの低軸に傾く西洋語と比較して、中国語は日常の表現における論理的結合よりも意味論や論理的理解に頼り、パラタキシーの特徴を示す。 しかし、既存の研究がこの問題に注目することはめったにない。 そして、これらの命題を正確に分類することは、自然言語の理解と推論に不可欠です。 本稿では,明示的・暗黙的な命題の概念を提唱し,言語学と論理学に基づく包括的多段階命題分類システムを提案する。 それに対応して,中国の大規模提案データセットを複数のドメインから作成し,提案に関するすべてのカテゴリをカバーする。 既存モデルの中国語命題分類能力を評価し,その限界を探索するために,ルールベース手法,SVM,BERT,RoBERTA,ChatGPTなど,いくつかの異なる手法を用いてPEACE上で評価を行う。 その結果,命題の意味的特徴を適切にモデル化することの重要性が示された。 BERTは比較的優れた命題分類能力を持っているが、ドメイン間の転送性に欠ける。 chatgptは性能が悪いが、より多くの提案情報を提供することで分類能力が向上する。 多くの問題は未だ解決されておらず、さらなる研究が必要である。

Existing propositions often rely on logical constants for classification. Compared with Western languages that lean towards hypotaxis such as English, Chinese often relies on semantic or logical understanding rather than logical connectives in daily expressions, exhibiting the characteristics of parataxis. However, existing research has rarely paid attention to this issue. And accurately classifying these propositions is crucial for natural language understanding and reasoning. In this paper, we put forward the concepts of explicit and implicit propositions and propose a comprehensive multi-level proposition classification system based on linguistics and logic. Correspondingly, we create a large-scale Chinese proposition dataset PEACE from multiple domains, covering all categories related to propositions. To evaluate the Chinese proposition classification ability of existing models and explore their limitations, We conduct evaluations on PEACE using several different methods including the Rule-based method, SVM, BERT, RoBERTA, and ChatGPT. Results show the importance of properly modeling the semantic features of propositions. BERT has relatively good proposition classification capability, but lacks cross-domain transferability. ChatGPT performs poorly, but its classification ability can be improved by providing more proposition information. Many issues are still far from being resolved and require further study.
翻訳日:2023-09-19 14:23:07 公開日:2023-09-18
# MEDL-U: 証拠深層学習に基づく不確かさを意識した3次元自動アノテーション

MEDL-U: Uncertainty-aware 3D Automatic Annotator based on Evidential Deep Learning ( http://arxiv.org/abs/2309.09599v1 )

ライセンス: Link先を確認
Helbert Paat, Qing Lian, Weilong Yao, Tong Zhang(参考訳) ディープラーニングベースの3Dオブジェクト検出の進歩は、大規模なデータセットの可用性を必要とする。 しかし、この要件は手動アノテーションの課題を提起している。 この問題に対処するため、文献では、ラベルなしデータの擬似ラベルを自動的に生成できる3次元オブジェクト検出のための弱教師付きフレームワークがいくつか出現している。 それにもかかわらず、これらの生成された擬似ラベルはノイズを含み、人間のラベルほど正確ではない。 本稿では,Evidential Deep Learning(EDL)に基づく不確実性推定フレームワークを導入することにより,擬似ラベルに存在する固有曖昧性に対処する最初のアプローチを提案する。 具体的には,MTransに基づくEDLフレームワークであるMEDL-Uを提案する。 しかし,EDLを3次元物体検出に適用することは,(1)他のオートラボラに比べて比較的低い擬似ラベル品質,(2)過度に明らかな不確実性評価,(3)下流タスクにおける明確な解釈可能性の欠如,有効利用の3つの課題を生じさせる。 我々は,不確実性を考慮したiouベースの損失,エビデンス対応マルチタスク損失関数の導入,不確実性改善のための後処理ステージの実装を通じて,これらの課題に取り組む。 実験の結果,MEDL-Uの出力を用いてトレーニングした確率的検出器は,KITTI val の以前の3次元アノテータの出力を用いて訓練した決定論的検出器を超えていることがわかった。 さらに,MEDL-Uは,既存の3D自動アノテータと比較して,KITTIオフィシャルテストセットの最先端結果を達成している。

Advancements in deep learning-based 3D object detection necessitate the availability of large-scale datasets. However, this requirement introduces the challenge of manual annotation, which is often both burdensome and time-consuming. To tackle this issue, the literature has seen the emergence of several weakly supervised frameworks for 3D object detection which can automatically generate pseudo labels for unlabeled data. Nevertheless, these generated pseudo labels contain noise and are not as accurate as those labeled by humans. In this paper, we present the first approach that addresses the inherent ambiguities present in pseudo labels by introducing an Evidential Deep Learning (EDL) based uncertainty estimation framework. Specifically, we propose MEDL-U, an EDL framework based on MTrans, which not only generates pseudo labels but also quantifies the associated uncertainties. However, applying EDL to 3D object detection presents three primary challenges: (1) relatively lower pseudolabel quality in comparison to other autolabelers; (2) excessively high evidential uncertainty estimates; and (3) lack of clear interpretability and effective utilization of uncertainties for downstream tasks. We tackle these issues through the introduction of an uncertainty-aware IoU-based loss, an evidence-aware multi-task loss function, and the implementation of a post-processing stage for uncertainty refinement. Our experimental results demonstrate that probabilistic detectors trained using the outputs of MEDL-U surpass deterministic detectors trained using outputs from previous 3D annotators on the KITTI val set for all difficulty levels. Moreover, MEDL-U achieves state-of-the-art results on the KITTI official test set compared to existing 3D automatic annotators.
翻訳日:2023-09-19 14:22:46 公開日:2023-09-18
# エッジにおける不確実性を考慮したマルチモーダル3次元物体検出のための相互情報校正整形特徴融合

Mutual Information-calibrated Conformal Feature Fusion for Uncertainty-Aware Multimodal 3D Object Detection at the Edge ( http://arxiv.org/abs/2309.09593v1 )

ライセンス: Link先を確認
Alex C. Stutts, Danilo Erricolo, Sathya Ravi, Theja Tulabandhula, Amit Ranjan Trivedi(参考訳) AI対応ロボットの分野では、予測の不確実性の堅牢な定量化が非常に重要である。 3次元(3d)物体検出はロボット工学の重要な操作であるが、現在の研究の大部分は精度だけに焦点を当て、不確かさの定量化を無視している。 このギャップに対処するため,本研究では,共形推論(CI)の原理を情報理論の尺度と統合し,モンテカルロ自由不確実性評価をマルチモーダルフレームワーク内で行う。 変分オートコーダ(VAE)における潜伏変数の多変量ガウス積を通じて、RGBカメラとLiDARセンサデータの特徴を融合させて予測精度を向上させる。 重み付き損失関数に基づいてCIから導出される不確実性境界を校正するための変調器として正規化相互情報(NMI)を利用する。 シミュレーションの結果,本モデルにおける予測不確かさとNMIとの逆相関が得られた。 このフレームワークは、KITTIの3Dオブジェクト検出ベンチマークにおいて、不確実性を認識しない類似の手法と同等またはより良いパフォーマンスを示し、リアルタイムエッジロボティクスに適している。

In the expanding landscape of AI-enabled robotics, robust quantification of predictive uncertainties is of great importance. Three-dimensional (3D) object detection, a critical robotics operation, has seen significant advancements; however, the majority of current works focus only on accuracy and ignore uncertainty quantification. Addressing this gap, our novel study integrates the principles of conformal inference (CI) with information theoretic measures to perform lightweight, Monte Carlo-free uncertainty estimation within a multimodal framework. Through a multivariate Gaussian product of the latent variables in a Variational Autoencoder (VAE), features from RGB camera and LiDAR sensor data are fused to improve the prediction accuracy. Normalized mutual information (NMI) is leveraged as a modulator for calibrating uncertainty bounds derived from CI based on a weighted loss function. Our simulation results show an inverse correlation between inherent predictive uncertainty and NMI throughout the model's training. The framework demonstrates comparable or better performance in KITTI 3D object detection benchmarks to similar methods that are not uncertainty-aware, making it suitable for real-time edge robotics.
翻訳日:2023-09-19 14:22:16 公開日:2023-09-18
# 一般化ゼロショットスケルトンに基づくアクション認識のためのマルチセマンティクス融合モデル

Multi-Semantic Fusion Model for Generalized Zero-Shot Skeleton-Based Action Recognition ( http://arxiv.org/abs/2309.09592v1 )

ライセンス: Link先を確認
Ming-Zhe Li, Zhen Jia, Zhang Zhang, Zhanyu Ma, and Liang Wang(参考訳) 一般化ゼロショットスケルトンに基づくアクション認識(GZSSAR)は、コンピュータビジョンコミュニティにおいて新たな課題であり、モデルがトレーニングサンプルなしでアクションを認識する必要がある。 これまでの研究では、動詞句のアクションラベルのみを意味的プロトタイプとして使用して、スケルトンベースのアクションから共有意味空間へのマッピングを学ぶ。 しかし、アクションラベルの限定された意味情報は、未認識のアクションを認識するための骨格特徴の一般化能力を制限する。 このジレンマを解決するために,2種類のクラスレベルのテキスト記述(動作記述と動作記述)を補助的な意味情報として収集し,汎用的な骨格特徴の学習効果を高めるgzssarの性能を向上させるマルチセマンティクス融合(msf)モデルを提案する。 特に、事前訓練された言語エンコーダは、アクション記述、モーション記述、および元のクラスラベルを入力として、各アクションクラスのリッチなセマンティック特徴を取得し、スケルトンエンコーダは骨格の特徴を抽出するために実装される。 次に、変分オートエンコーダ(VAE)に基づく生成モジュールを実行し、スケルトンと意味的特徴の相互アライメントを学習する。 最後に、入力サンプルの動作カテゴリを認識するために分類モジュールを構築し、GZSSARでサンプルが動作クラスから来ているかどうかを予測するために、見知らぬ分類ゲートを採用する。 従来のモデルと比較して優れた性能は、gzssar上で提案されたmsfモデルの有効性を検証している。

Generalized zero-shot skeleton-based action recognition (GZSSAR) is a new challenging problem in computer vision community, which requires models to recognize actions without any training samples. Previous studies only utilize the action labels of verb phrases as the semantic prototypes for learning the mapping from skeleton-based actions to a shared semantic space. However, the limited semantic information of action labels restricts the generalization ability of skeleton features for recognizing unseen actions. In order to solve this dilemma, we propose a multi-semantic fusion (MSF) model for improving the performance of GZSSAR, where two kinds of class-level textual descriptions (i.e., action descriptions and motion descriptions), are collected as auxiliary semantic information to enhance the learning efficacy of generalizable skeleton features. Specially, a pre-trained language encoder takes the action descriptions, motion descriptions and original class labels as inputs to obtain rich semantic features for each action class, while a skeleton encoder is implemented to extract skeleton features. Then, a variational autoencoder (VAE) based generative module is performed to learn a cross-modal alignment between skeleton and semantic features. Finally, a classification module is built to recognize the action categories of input samples, where a seen-unseen classification gate is adopted to predict whether the sample comes from seen action classes or not in GZSSAR. The superior performance in comparisons with previous models validates the effectiveness of the proposed MSF model on GZSSAR.
翻訳日:2023-09-19 14:21:54 公開日:2023-09-18
# 惑星間ナビゲーションのための自律視覚に基づくアルゴリズム

An Autonomous Vision-Based Algorithm for Interplanetary Navigation ( http://arxiv.org/abs/2309.09590v1 )

ライセンス: Link先を確認
Eleonora Andreis, Paolo Panicucci, Francesco Topputo(参考訳) 深宇宙探査機のサージは、標準的な放射計追跡でそれらをナビゲートすることは不可能である。 自走型惑星間衛星はこの問題の解決策である。 本研究では、軌道決定法と、惑星間移動に適した画像処理パイプラインを組み合わせることで、完全な視覚に基づくナビゲーションアルゴリズムを構築する。 アルゴリズムの計算効率を高めるために、深宇宙画像から抽出された惑星の位置によって供給される非次元拡張カルマンフィルタを状態推定器として選択する。 追跡する惑星の最適な対を選択するための最適な戦略を適用することにより、推定精度の向上を図る。 さらに,光収差と光時間効果を1次近似した新しい深宇宙航法解析モデルを開発した。 アルゴリズムの性能は高忠実な地球上でテストされ、火星間移動が深宇宙航法に適用可能であることを示す。

The surge of deep-space probes makes it unsustainable to navigate them with standard radiometric tracking. Self-driving interplanetary satellites represent a solution to this problem. In this work, a full vision-based navigation algorithm is built by combining an orbit determination method with an image processing pipeline suitable for interplanetary transfers of autonomous platforms. To increase the computational efficiency of the algorithm, a non-dimensional extended Kalman filter is selected as state estimator, fed by the positions of the planets extracted from deep-space images. An enhancement of the estimation accuracy is performed by applying an optimal strategy to select the best pair of planets to track. Moreover, a novel analytical measurement model for deep-space navigation is developed providing a first-order approximation of the light-aberration and light-time effects. Algorithm performance is tested on a high-fidelity, Earth--Mars interplanetary transfer, showing the algorithm applicability for deep-space navigation.
翻訳日:2023-09-19 14:21:28 公開日:2023-09-18
# Fabricator: 教師 LLM を用いたラベル付きトレーニングデータ生成用オープンソースツールキット

Fabricator: An Open Source Toolkit for Generating Labeled Training Data with Teacher LLMs ( http://arxiv.org/abs/2309.09582v1 )

ライセンス: Link先を確認
Jonas Golde, Patrick Haller, Felix Hamborg, Julian Risch, Alan Akbik(参考訳) ほとんどのNLPタスクは教師付き学習としてモデル化されており、効果的モデルのトレーニングにはラベル付きトレーニングデータが必要である。 しかしながら、このようなデータを十分な品質と量で手作業で生成することはコストと時間を要することが知られている。 現在の研究は、データセット生成によるゼロショット学習と呼ばれる新しいパラダイムを探求することで、このボトルネックに対処している。 ここでは、下流のNLPモデルをトレーニングするために使用できるラベル付きデータを生成するために、強力なLCMにタスク記述を付与する。 例えば、llmは「肯定的な総合感情を持つ500本の映画レビューと否定的な感情を持つ500本の映画レビューを生成」するよう促されるかもしれない。 生成されたデータはバイナリ感情分類器のトレーニングに使用することができ、LLMを教師として有効活用してより小さな学生モデルを構築することができる。 このデモでは、データセット生成のためのオープンソースのpythonツールキットであるfabricatorを紹介します。 Fabricatorは、共通のデータセット生成ワークフローを実装し、幅広い下流のNLPタスク(テキスト分類、質問応答、エンティティ認識など)をサポートし、よく知られたライブラリと統合されて、迅速な実験を容易にする。 fabricatorでは,llmを用いた再現可能なデータセット生成実験を支援するとともに,このアプローチを下流タスクのトレーニングモデルに適用する支援を行う。

Most NLP tasks are modeled as supervised learning and thus require labeled training data to train effective models. However, manually producing such data at sufficient quality and quantity is known to be costly and time-intensive. Current research addresses this bottleneck by exploring a novel paradigm called zero-shot learning via dataset generation. Here, a powerful LLM is prompted with a task description to generate labeled data that can be used to train a downstream NLP model. For instance, an LLM might be prompted to "generate 500 movie reviews with positive overall sentiment, and another 500 with negative sentiment." The generated data could then be used to train a binary sentiment classifier, effectively leveraging an LLM as a teacher to a smaller student model. With this demo, we introduce Fabricator, an open-source Python toolkit for dataset generation. Fabricator implements common dataset generation workflows, supports a wide range of downstream NLP tasks (such as text classification, question answering, and entity recognition), and is integrated with well-known libraries to facilitate quick experimentation. With Fabricator, we aim to support researchers in conducting reproducible dataset generation experiments using LLMs and help practitioners apply this approach to train models for downstream tasks.
翻訳日:2023-09-19 14:21:12 公開日:2023-09-18
# 未知ダイナミクスのための暗黙的神経表現と潜在性同化

Latent assimilation with implicit neural representations for unknown dynamics ( http://arxiv.org/abs/2309.09574v1 )

ライセンス: Link先を確認
Zhuoyuan Li, Bin Dong, and Pingwen Zhang(参考訳) データ同化は幅広いアプリケーションにおいて不可欠であるが、データ次元による高い計算コストや基礎となるメカニズムの不完全な理解といった課題に直面することが多い。 これらの課題に対処するため、本研究では、LAINR(Latent Assimilation with Implicit Neural Representations)と呼ばれる新しい同化フレームワークを提案する。 Spherical Implicit Neural Representation (SINR)とデータ駆動型ニューラルネットワークの不確実性推定器を導入することにより、LAINRは同化過程における効率を向上させる。 実験結果から,LAINRはオートエンコーダをベースとした既存手法に対して,精度と効率の両面で一定の優位性を有することが示された。

Data assimilation is crucial in a wide range of applications, but it often faces challenges such as high computational costs due to data dimensionality and incomplete understanding of underlying mechanisms. To address these challenges, this study presents a novel assimilation framework, termed Latent Assimilation with Implicit Neural Representations (LAINR). By introducing Spherical Implicit Neural Representations (SINR) along with a data-driven uncertainty estimator of the trained neural networks, LAINR enhances efficiency in assimilation process. Experimental results indicate that LAINR holds certain advantage over existing methods based on AutoEncoders, both in terms of accuracy and efficiency.
翻訳日:2023-09-19 14:20:51 公開日:2023-09-18
# マスク画像モデルによる異種生成的知識蒸留

Heterogeneous Generative Knowledge Distillation with Masked Image Modeling ( http://arxiv.org/abs/2309.09571v1 )

ライセンス: Link先を確認
Ziming Wang, Shumin Han, Xiaodi Wang, Jing Hao, Xianbin Cao, Baochang Zhang(参考訳) 小さいCNNベースのモデルでは、計算資源に制限のあるエッジデバイスにデプロイする前に、大きなモデルから知識を転送する必要がある。 Masked Image Modeling (MIM) 法は様々な視覚的タスクにおいて大きな成功を収めるが、ヘテロジニアス深層モデルに対する知識蒸留では未解明のままである。 この理由は、主にトランスフォーマーベースの大型モデルとcnnベースの小型ネットワークの大きな違いが原因である。 本稿では,大形トランスフォーマーモデルから小型cnnモデルへの知識を,生成的自己教師付方式で効率的に伝達できるmimに基づく,最初の異種生成知識蒸留法(h-gkd)を開発した。 本研究では,トランスフォーマーモデルとCNN間の橋渡しを行い,教師がマスク付きモデルを用いて推定した視覚表現を効果的に模倣する。 本手法は,先進的な生成手法を用いて事前学習可能な異種教師モデルから,データの視覚的表現と分布を学習するための,シンプルで効果的な学習パラダイムである。 大規模な実験では、様々なモデルやサイズに順応し、画像分類、オブジェクト検出、セマンティックセグメンテーションタスクにおける最先端のパフォーマンスを一貫して達成している。 例えば、Imagenet 1Kデータセットでは、H-GKDはResnet50(スパース)の精度を76.98%から80.01%に改善している。

Small CNN-based models usually require transferring knowledge from a large model before they are deployed in computationally resource-limited edge devices. Masked image modeling (MIM) methods achieve great success in various visual tasks but remain largely unexplored in knowledge distillation for heterogeneous deep models. The reason is mainly due to the significant discrepancy between the Transformer-based large model and the CNN-based small network. In this paper, we develop the first Heterogeneous Generative Knowledge Distillation (H-GKD) based on MIM, which can efficiently transfer knowledge from large Transformer models to small CNN-based models in a generative self-supervised fashion. Our method builds a bridge between Transformer-based models and CNNs by training a UNet-style student with sparse convolution, which can effectively mimic the visual representation inferred by a teacher over masked modeling. Our method is a simple yet effective learning paradigm to learn the visual representation and distribution of data from heterogeneous teacher models, which can be pre-trained using advanced generative methods. Extensive experiments show that it adapts well to various models and sizes, consistently achieving state-of-the-art performance in image classification, object detection, and semantic segmentation tasks. For example, in the Imagenet 1K dataset, H-GKD improves the accuracy of Resnet50 (sparse) from 76.98% to 80.01%.
翻訳日:2023-09-19 14:20:36 公開日:2023-09-18
# 真理表を用いたニューラルネットワークに基づくルールモデル

Neural Network-Based Rule Models With Truth Tables ( http://arxiv.org/abs/2309.09638v1 )

ライセンス: Link先を確認
Adrien Benamira, Tristan Gu\'erand, Thomas Peyrin, Hans Soegeng(参考訳) 機械学習モデルの意思決定プロセスを理解することは、特にセキュリティに敏感なアプリケーションにおいて重要である。 本研究では,ルールベースモデルの大域的かつ正確な解釈性と,ディープニューラルネットワークの高性能性を組み合わせたニューラルネットワークフレームワークを提案する。 提案フレームワークである$\textit{truth table rules}$ (tt-rules) は,形式的検証のために開発された深層ニューラルネットワークのファミリである$\textit{truth table nets}$ (ttnets) 上に構築されている。 訓練されたttnetモデル(グローバル解釈可能性)から必要十分条件のセット$\mathcal{r}$を抽出し、ttnetと同じ出力(例:解釈可能性)を得ることにより、tt-rulesはニューラルネットワークをルールベースモデルに効果的に変換する。 このルールベースのモデルは、グラフデータセットのバイナリ分類、マルチラベル分類、回帰タスクをサポートする。 さらに、TT-rulesフレームワークはルールの数とサイズを減らして、ルールセット $\mathcal{R}$ を $\mathcal{R}_{opt}$ に最適化します。 モデル解釈を強化するために、ROBDD(Reduced Ordered Binary Decision Diagrams)を活用し、これらのルールを効果的に視覚化する。 フレームワークの概要を説明した後、金融、医療、司法ドメインの7つの表付きデータセット上でのTTルールのパフォーマンスを評価した。 また,tt-rulesフレームワークを最先端のルールベース手法と比較した。 その結果,TTルールは,他の解釈可能な手法と比較して同等あるいは高い性能を実現し,性能と複雑性のバランスを維持していることがわかった。 特にTT-rulesは、20K以上の特徴を持つ2つの実際のDNAデータセットを含む、大きな表形式のデータセットを適合させることのできる、最初の正確なルールベースのモデルを示している。 最後に,成人データセットを用いたtt-rules由来のルールベースモデルの検討を行った。

Understanding the decision-making process of a machine/deep learning model is crucial, particularly in security-sensitive applications. In this study, we introduce a neural network framework that combines the global and exact interpretability properties of rule-based models with the high performance of deep neural networks. Our proposed framework, called $\textit{Truth Table rules}$ (TT-rules), is built upon $\textit{Truth Table nets}$ (TTnets), a family of deep neural networks initially developed for formal verification. By extracting the set of necessary and sufficient rules $\mathcal{R}$ from the trained TTnet model (global interpretability), yielding the same output as the TTnet (exact interpretability), TT-rules effectively transforms the neural network into a rule-based model. This rule-based model supports binary classification, multi-label classification, and regression tasks for tabular datasets. Furthermore, our TT-rules framework optimizes the rule set $\mathcal{R}$ into $\mathcal{R}_{opt}$ by reducing the number and size of the rules. To enhance model interpretation, we leverage Reduced Ordered Binary Decision Diagrams (ROBDDs) to visualize these rules effectively. After outlining the framework, we evaluate the performance of TT-rules on seven tabular datasets from finance, healthcare, and justice domains. We also compare the TT-rules framework to state-of-the-art rule-based methods. Our results demonstrate that TT-rules achieves equal or higher performance compared to other interpretable methods while maintaining a balance between performance and complexity. Notably, TT-rules presents the first accurate rule-based model capable of fitting large tabular datasets, including two real-life DNA datasets with over 20K features. Finally, we extensively investigate a rule-based model derived from TT-rules using the Adult dataset.
翻訳日:2023-09-19 14:12:15 公開日:2023-09-18
# フラクタルシミュレーションによる実世界のひび割れセグメンテーション学習のためのハイブリッドニューラルネットワークの設計

Designing a Hybrid Neural System to Learn Real-world Crack Segmentation from Fractal-based Simulation ( http://arxiv.org/abs/2309.09637v1 )

ライセンス: Link先を確認
Achref Jaziri, Martin Mundt, Andres Fernandez Rodriguez, Visvanathan Ramesh(参考訳) コンクリート構造物の構造的整合性を評価するためにはひび割れの同定が不可欠である。 しかし,コンクリート表面の外観の多様性,照明や気象条件の変動,欠陥の重なりなどにより,コンピュータビジョンシステムでは頑健なひび割れ分割が課題となっている。 特に最近のデータ駆動型メソッドは、データの可用性の制限、クラックアノテーションの細かな粒度と時間を要する性質、そしてそれに続く分散サンプルへの一般化の困難に直面している。 この作業では、これらの課題を2倍の方法で乗り越えます。 フラクタルとそれに対応するフルアノテートクラックデータセットに基づく高忠実度クラックグラフィーシミュレータを提案する。 次に,シミュレーションから一般化表現を学習するシステムで後者を補完し,ポイントワイズ相互情報推定と適応インスタンス正規化を帰納バイアスとして活用する。 最後に,シミュレーションを現実のギャップに橋渡しする上で,設計選択の違いが共生的であることを実証し,最終的に導入したシステムが実世界のひび割れセグメンテーションを効果的に処理できることを実証する。

Identification of cracks is essential to assess the structural integrity of concrete infrastructure. However, robust crack segmentation remains a challenging task for computer vision systems due to the diverse appearance of concrete surfaces, variable lighting and weather conditions, and the overlapping of different defects. In particular recent data-driven methods struggle with the limited availability of data, the fine-grained and time-consuming nature of crack annotation, and face subsequent difficulty in generalizing to out-of-distribution samples. In this work, we move past these challenges in a two-fold way. We introduce a high-fidelity crack graphics simulator based on fractals and a corresponding fully-annotated crack dataset. We then complement the latter with a system that learns generalizable representations from simulation, by leveraging both a pointwise mutual information estimate along with adaptive instance normalization as inductive biases. Finally, we empirically highlight how different design choices are symbiotic in bridging the simulation to real gap, and ultimately demonstrate that our introduced system can effectively handle real-world crack segmentation.
翻訳日:2023-09-19 14:11:45 公開日:2023-09-18
# ダークパターンの時間的分析:「イリアドフロー」を通じてプライムメンバーシップのキャンセルを克服するユーザのオデュッセイアを事例として

Temporal Analysis of Dark Patterns: A Case Study of a User's Odyssey to Conquer Prime Membership Cancellation through the "Iliad Flow" ( http://arxiv.org/abs/2309.09635v1 )

ライセンス: Link先を確認
Colin M. Gray and Thomas Mildner and Nataliia Bielova(参考訳) ダークパターンはデジタルシステムではユビキタスであり、多くの人気アプリやウェブサイトでユーザーに影響を与える。 過去5年間の研究コミュニティの努力は、新興のオントロジを含むダークパターンの分類を統合することに繋がったが、これらのディスクリプタのほとんどの応用は、静的画像の分析や孤立したパターンタイプとして注目されてきた。 本稿では,Amazon PrimeのIliad Flowを事例として,米国連邦取引委員会(Federal Trade Commission)による同社に対する苦情を根拠として,ユーザジャーニーにおけるダークパターンの相互作用を説明する。 このケーススタディは,ユーザジャーニーにおける個別の暗黒パターンのキャラクタリゼーション,複数種類の暗黒パターンの組合せ効果,専門家による検出と自動検出の意義など,TADP(Temporal Analysis of Dark Patterns)の方法論の基礎となるものである。

Dark patterns are ubiquitous in digital systems, impacting users throughout their journeys on many popular apps and websites. While substantial efforts from the research community in the last five years have led to consolidated taxonomies of dark patterns, including an emerging ontology, most applications of these descriptors have been focused on analysis of static images or as isolated pattern types. In this paper, we present a case study of Amazon Prime's "Iliad Flow" to illustrate the interplay of dark patterns across a user journey, grounded in insights from a US Federal Trade Commission complaint against the company. We use this case study to lay the groundwork for a methodology of Temporal Analysis of Dark Patterns (TADP), including considerations for characterization of individual dark patterns across a user journey, combinatorial effects of multiple dark patterns types, and implications for expert detection and automated detection.
翻訳日:2023-09-19 14:11:24 公開日:2023-09-18
# シリコンスピン量子ビットによる制御パルスのオンチップ歪みの補正

Correcting on-chip distortion of control pulses with silicon spin qubits ( http://arxiv.org/abs/2309.09628v1 )

ライセンス: Link先を確認
Ming Ni, Rong-Long Ma, Zhen-Zhen Kong, Ning Chu, Wei-Zhu Liao, Sheng-Kai Zhu, Chu Wang, Gang Luo, Di Liu, Gang Cao, Gui-Lei Wang, Hai-Ou Li and Guo-Ping Guo(参考訳) パルス歪みは、コヒーレントな誤差源の1つであり、量子ビットの特性と制御を妨げる。 半導体量子ドット系では、測定パルスと制御パルスの歪みが実験結果を妨害するが、効果的な校正手順は報告されていない。 本稿では,2量子ビット系を検出器として,歪みを校正し補正するための2つの異なるキャリブレーション手法を示す。 2つの校正法は補正精度と複雑さが異なる。 ひとつは粗い事前歪み(CPD)法で、歪みを部分的に緩和する。 もう1つの方法は、転送関数を計測し、交換発振の均一性を著しく改善する全事前歪み(APD)法である。 2つの方法は交換振動均質を計量として使用し、ダイアバティックパルスと振動する任意の量子ビットに適している。 APD手順では、任意の制御波形をデバイスに正確に配信することができ、これはキュービットの特徴付けとゲート忠実性の向上に不可欠である。

Pulse distortion, as one of the coherent error sources, hinders the characterization and control of qubits. In the semiconductor quantum dot system, the distortions on measurement pulses and control pulses disturb the experimental results, while no effective calibration procedure has yet been reported. Here, we demonstrate two different calibration methods to calibrate and correct the distortion using the two-qubit system as a detector. The two calibration methods have different correction accuracy and complexity. One is the coarse predistortion (CPD) method, with which the distortion is partly relieved. The other method is the all predistortion (APD) method, with which we measure the transfer function and significantly improve the exchange oscillation homogeneity. The two methods use the exchange oscillation homogeneity as the metric and are appropriate for any qubit that oscillates with a diabatic pulse. With the APD procedure, an arbitrary control waveform can be accurately delivered to the device, which is essential for characterizing qubits and improving gate fidelity.
翻訳日:2023-09-19 14:11:03 公開日:2023-09-18
# シリコンスピン量子コンピュータのためのスケーラブルアトミックアレイ

Scalable Atomic Arrays for Spin-Based Quantum Computers in Silicon ( http://arxiv.org/abs/2309.09626v1 )

ライセンス: Link先を確認
Alexander M. Jakob (1), Simon G. Robson (1), Hannes R. Firgau (2), Vincent Mourik (2), Vivien Schmitt (2), Danielle Holmes (2), Matthias Posselt (3), Edwin L.H. Mayes (4), Daniel Spemann (5), Andrea Morello (2), David N. Jamieson (1) ((1) CQC2T, School of Physics, The University of Melbourne, Australia, (2) CQC2T, School of Electrical Engineering and Telecommunications, UNSW Sydney, Australia, (3) Helmholtz-Zentrum Dresden-Rossendorf (HZDR), Germany, (4) RMIT Microscopy and Microanalysis Facility, RMIT University, Australia, (5) Leibniz-Institut f\"ur Oberfl\"achenmodifizierung e.V., Germany)(参考訳) 半導体スピン量子ビットは、優れた量子性能と業界標準の金属酸化物半導体(mos)プロセスを用いた量子デバイス製造の可能性を組み合わせた。 これはイオン注入ドナースピンにも当てはまり、核スピンにおいて特別なコヒーレンス時間と大きなヒルベルト空間次元が与えられる。 ここでは、スケールアップドナーベースの量子コンピュータを製造するための複数の戦略を実証し、統合する。 我々は、$^{31}$PF$_{2}$分子インプラントを使用して、インプラントの検出に99.99$\,$%の信頼を得ながら、配置確実性を$^{31}$Pイオンと比較する。 同様の信頼性は、量子情報処理のための高次元quditを表す$^{123}$sbや$^{209}$biのような重い原子を注入することで維持される。 ナノアパーチャによるステップ・アンド・レピート注入により,300$\,$nm間隔のドナー原子の規則配列が決定論的に形成されることを示す。 これらの手法は、シリコンでドナーベースの量子コンピュータを構築するための技術要件の全範囲をカバーする。

Semiconductor spin qubits combine excellent quantum performance with the prospect of manufacturing quantum devices using industry-standard metal-oxide-semiconductor (MOS) processes. This applies also to ion-implanted donor spins, which further afford exceptional coherence times and large Hilbert space dimension in their nuclear spin. Here we demonstrate and integrate multiple strategies to manufacture scale-up donor-based quantum computers. We use $^{31}$PF$_{2}$ molecule implants to triple the placement certainty compared to $^{31}$P ions, while attaining 99.99$\,$% confidence in detecting the implant. Similar confidence is retained by implanting heavier atoms such as $^{123}$Sb and $^{209}$Bi, which represent high-dimensional qudits for quantum information processing, while Sb$_2$ molecules enable deterministic formation of closely-spaced qudits. We demonstrate the deterministic formation of regular arrays of donor atoms with 300$\,$nm spacing, using step-and-repeat implantation through a nano aperture. These methods cover the full gamut of technological requirements for the construction of donor-based quantum computers in silicon.
翻訳日:2023-09-19 14:10:48 公開日:2023-09-18
# 超低温原子中の例外的なnexusの観察

Observation of an exceptional nexus in ultracold atoms ( http://arxiv.org/abs/2309.09625v1 )

ライセンス: Link先を確認
Chenhao Wang, Nan Li, Jin Xie, Cong Ding, Zhonghua Ji, Liantuan Xiao, Suotang Jia, Ying Hu and Yanting Zhao(参考訳) 多状態非エルミート系では、高次例外点(EP)と二段階系に類推のないエキゾチック現象が出現し、興味をそそられた。 パラダイムは例外的ネクサス(EX)であり、複数の例外的弧(EA)の尖点特異点としての3階EPであり、独特のハイブリッドな位相的性質を持つ。 bose-einstein condensate を用いて散逸3状態系のダイナミクスをシミュレートし、epジオメトリの異なる2つのeaの合体によって形成されたex を観測した。 これらの例外構造は対称性がなくても2つの実パラメータだけを制御して実現され、それぞれ強いカップリング極限と量子ゼノ状態における散逸の異なる役割に由来する。 我々の研究は、超低温原子の多体配置における高次EP物理学の探求の道を開いた。

In multistate non-Hermitian systems, higher-order exceptional points (EP) and exotic phenomena with no analogues in two-level systems arise, which have spawned intriguing prospects. A paradigm is an exceptional nexus (EX), a third-order EP as the cusp singularity of multiple exceptional arcs (EAs), that has a unique, hybrid topological nature. Using Bose-Einstein condensates to simulate the dynamics of a dissipative three-state system, we observe an EX formed by the coalescence of two EAs with different EP geometries. These exceptional structures are realized by controlling only two real parameters even in the absence of symmetry, and originate from the different roles of dissipation in the strong coupling limit and quantum Zeno regime, respectively. Our work paves the way for exploring higher-order EP physics in the many-body setting of ultracold atoms.
翻訳日:2023-09-19 14:10:27 公開日:2023-09-18
# 構造再構築のための全体幾何学的特徴学習

Holistic Geometric Feature Learning for Structured Reconstruction ( http://arxiv.org/abs/2309.09622v1 )

ライセンス: Link先を確認
Ziqiong Lu, Linxi Huan, Qiyuan Ma, Xianwei Zheng(参考訳) トポロジカル原理の推論は、構造化再構成における重要な問題である。 誤った予測されたトポロジカルな関係は、しばしば低レベル特徴における全体幾何学的手がかりの欠如によって引き起こされる。 周波数解析により大規模信号がコンパクトに記述できるという事実に触発されて,周波数領域における学習構造幾何学の効率と傾向を実験的に検討した。 そこで本稿では, 位相非接触構造推論のための周波数領域特徴学習戦略(F-Learn)を提案する。 控えめな設計の恩恵を受けたf-learn戦略は、軽量なモデル修正でディープリコンストラクタに容易に展開できる。 実験により、f-learn戦略が幾何学的原始的検出とトポロジー推論に構造認識を効果的に導入し、最終的な構造化再構成に大幅な性能改善をもたらすことが示されている。 コードと事前訓練されたモデルはhttps://github.com/Geo-Tell/F-Learn.comで入手できる。

The inference of topological principles is a key problem in structured reconstruction. We observe that wrongly predicted topological relationships are often incurred by the lack of holistic geometry clues in low-level features. Inspired by the fact that massive signals can be compactly described with frequency analysis, we experimentally explore the efficiency and tendency of learning structure geometry in the frequency domain. Accordingly, we propose a frequency-domain feature learning strategy (F-Learn) to fuse scattered geometric fragments holistically for topology-intact structure reasoning. Benefiting from the parsimonious design, the F-Learn strategy can be easily deployed into a deep reconstructor with a lightweight model modification. Experiments demonstrate that the F-Learn strategy can effectively introduce structure awareness into geometric primitive detection and topology inference, bringing significant performance improvement to final structured reconstruction. Code and pre-trained models are available at https://github.com/Geo-Tell/F-Learn.
翻訳日:2023-09-19 14:10:10 公開日:2023-09-18
# 行列代数 $M_n$ における正写像の最適化

Optimizing positive maps in the matrix algebra $M_n$ ( http://arxiv.org/abs/2309.09621v1 )

ライセンス: Link先を確認
Anindita Bera, Gniewomir Sarbicki and Dariusz Chru\'sci\'nski(参考訳) タナハシ、富山、安東、中村、大阪によって導入・研究された複素行列の代数学において、正の写像のセミナル類 $\tau_{n,k}$ の最適化手順を示す。 最近、これらの写像は最大公約数$GCD(n,k)=1$のときに最適であることが証明された。 gcd(n,k)=2$ または 3 のとき、マップ $\tau_{n,k}$ を最適化する方法の一般予想を得る。 GCD(n,k)=2$の場合、一連の解析結果が導出され、$GCD(n,k)=3$の場合、適切な数値解析を行う。

We present an optimization procedure for a seminal class of positive maps $\tau_{n,k}$ in the algebra of $n \times n$ complex matrices introduced and studied by Tanahasi and Tomiyama, Ando, Nakamura and Osaka. Recently, these maps were proved to be optimal whenever the greatest common divisor $GCD(n,k)=1$. We attain a general conjecture how to optimize a map $\tau_{n,k}$ when $GCD(n,k)=2$ or 3. For $GCD(n,k)=2$, a series of analytical results are derived and for $GCD(n,k)=3$, we provide a suitable numerical analysis.
翻訳日:2023-09-19 14:09:52 公開日:2023-09-18
# 次世代予測の一般化に関する一考察

A Discussion on Generalization in Next-Activity Prediction ( http://arxiv.org/abs/2309.09618v1 )

ライセンス: Link先を確認
Luka Abb, Peter Pfeiffer, Peter Fettke, Jana-Rebecca Rehse(参考訳) 次のアクティビティ予測は、実行中のプロセスインスタンスの振る舞いを予測することを目的としている。 この分野の最近の出版物は、主にディープラーニング技術を採用し、公開イベントログを用いて予測性能を評価する。 本稿では,これらの評価手法の有効性に疑問を呈する実証的エビデンスを提案する。 一般的に使用されるイベントログには膨大な量のサンプルリークがあることを示し,より簡単な予測アプローチが深層学習とほぼ同等に動作することを示す。 さらに、ロバストな評価を設計するには、次の活動予測のトピック、特に新しいデータへの一般化の概念とのより深い概念的な関与が必要であると論じる。 そこで本研究では,様々な種類の一般化を必要とする予測シナリオについて述べる。

Next activity prediction aims to forecast the future behavior of running process instances. Recent publications in this field predominantly employ deep learning techniques and evaluate their prediction performance using publicly available event logs. This paper presents empirical evidence that calls into question the effectiveness of these current evaluation approaches. We show that there is an enormous amount of example leakage in all of the commonly used event logs, so that rather trivial prediction approaches perform almost as well as ones that leverage deep learning. We further argue that designing robust evaluations requires a more profound conceptual engagement with the topic of next-activity prediction, and specifically with the notion of generalization to new data. To this end, we present various prediction scenarios that necessitate different types of generalization to guide future research.
翻訳日:2023-09-19 14:09:36 公開日:2023-09-18
# Gradpaint: 拡散モデルによるグラディエントガイド塗装

Gradpaint: Gradient-Guided Inpainting with Diffusion Models ( http://arxiv.org/abs/2309.09614v1 )

ライセンス: Link先を確認
Asya Grechka, Guillaume Couairon, Matthieu Cord(参考訳) Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。 事前訓練されたモデルは、追加の制約を満たすために推論時に反復的なデノベーションプロセスを導くことで、異なる下流タスクにさらなるトレーニングを加えることなく適応することができる。 イメージインパインティングの特定のタスクでは、現在のガイド機構は、各デノベーションステップにおいて、入力画像から既知の領域をコピー&ペーストする。 しかし、拡散モデルは初期ランダムノイズによって強く条件付けされているため、塗装マスク内の予測と入力画像の実際の部分との調和に苦慮し、しばしば不自然な成果物による結果を生み出す。 我々の手法はGradPaintと呼ばれ、世界的コヒーレントなイメージに向けて世代を操る。 各ステップにおいて,マスク入力画像とのコヒーレンスを測定するカスタム損失を計算し,モデルの「デノライズ画像推定」を活用する。 誘導機構は拡散モデル自体を通じてこの損失をバックプロパゲーションして得られる勾配を用いる。 gradpaintは、さまざまなデータセットでトレーニングされた拡散モデルにうまく一般化し、現在の教師なしおよび教師なしの方法を改善している。

Denoising Diffusion Probabilistic Models (DDPMs) have recently achieved remarkable results in conditional and unconditional image generation. The pre-trained models can be adapted without further training to different downstream tasks, by guiding their iterative denoising process at inference time to satisfy additional constraints. For the specific task of image inpainting, the current guiding mechanism relies on copying-and-pasting the known regions from the input image at each denoising step. However, diffusion models are strongly conditioned by the initial random noise, and therefore struggle to harmonize predictions inside the inpainting mask with the real parts of the input image, often producing results with unnatural artifacts. Our method, dubbed GradPaint, steers the generation towards a globally coherent image. At each step in the denoising process, we leverage the model's "denoised image estimation" by calculating a custom loss measuring its coherence with the masked input image. Our guiding mechanism uses the gradient obtained from backpropagating this loss through the diffusion model itself. GradPaint generalizes well to diffusion models trained on various datasets, improving upon current state-of-the-art supervised and unsupervised methods.
翻訳日:2023-09-19 14:09:25 公開日:2023-09-18
# 糖尿病網膜症分類におけるDGM-DRの有用性

DGM-DR: Domain Generalization with Mutual Information Regularized Diabetic Retinopathy Classification ( http://arxiv.org/abs/2309.09670v1 )

ライセンス: Link先を確認
Aleksandr Matsun, Dana O. Mohamed, Sharon Chokuwa, Muhammad Ridzuan, and Mohammad Yaqub(参考訳) トレーニングデータとテストデータのドメインシフトは、一般化可能なディープラーニングモデルをトレーニングする上で大きな課題となる。 その結果、独立かつ同一分散(i.i.d)仮定でトレーニングされたモデルのパフォーマンスは、実世界でデプロイされると低下する。 この問題は、医療センター、医療機器、患者間のデータ取得のばらつきにより、医療画像の文脈において悪化する。 ドメイン一般化 (Domain Generalization, DG) は、目に見えない対象ドメインによく一般化するモデルを学ぶことでこの問題に対処することを目的としている。 多くのドメイン一般化技術は、大きなドメインシフトのため、ドメイン不変表現の学習に失敗した。 また, dgの観点からは, 既存の文献において, 医用画像撮影における複数の課題が十分に研究されていない。 本稿では,大容量事前学習モデルを用いた相互情報の最大化として,モデル対象関数を再確立するDG手法を提案する。 糖尿病網膜症(DR)分類におけるDGの問題を再検討し、正しいモデル選択戦略を持つ明確なベンチマークを確立し、改良された一般化のための堅牢なドメイン不変表現を実現する。 さらに,提案手法が従来手法よりも平均精度が5.25%,標準偏差が低かったことを明らかにするため,公開データセットの広範な実験を行った。 ソースコードはhttps://github.com/BioMedIA-MBzuAI/DGM-DRで入手できる。

The domain shift between training and testing data presents a significant challenge for training generalizable deep learning models. As a consequence, the performance of models trained with the independent and identically distributed (i.i.d) assumption deteriorates when deployed in the real world. This problem is exacerbated in the medical imaging context due to variations in data acquisition across clinical centers, medical apparatus, and patients. Domain generalization (DG) aims to address this problem by learning a model that generalizes well to any unseen target domain. Many domain generalization techniques were unsuccessful in learning domain-invariant representations due to the large domain shift. Furthermore, multiple tasks in medical imaging are not yet extensively studied in existing literature when it comes to DG point of view. In this paper, we introduce a DG method that re-establishes the model objective function as a maximization of mutual information with a large pretrained model to the medical imaging field. We re-visit the problem of DG in Diabetic Retinopathy (DR) classification to establish a clear benchmark with a correct model selection strategy and to achieve robust domain-invariant representation for an improved generalization. Moreover, we conduct extensive experiments on public datasets to show that our proposed method consistently outperforms the previous state-of-the-art by a margin of 5.25% in average accuracy and a lower standard deviation. Source code available at https://github.com/BioMedIA-MBZUAI/DGM-DR
翻訳日:2023-09-19 14:04:09 公開日:2023-09-18
# dformer: 意味セグメンテーションのためのrgbd表現学習の再考

DFormer: Rethinking RGBD Representation Learning for Semantic Segmentation ( http://arxiv.org/abs/2309.09668v1 )

ライセンス: Link先を確認
Bowen Yin, Xuying Zhang, Zhongyu Li, Li Liu, Ming-Ming Cheng, Qibin Hou(参考訳) 本稿では,新しいRGB-D事前学習フレームワークであるDFormerについて述べる。 dformerには2つの新しいイノベーションがあります 1) 従来のRGB機能をエンコードする作業とは異なり、DFormerは、新しいビルディングブロック設計により、RGBと深度情報の両方をエンコードするためのRGB-Dブロックのシーケンスで構成されている。 2)ImageNet-1Kから画像深度ペアを用いてバックボーンを事前トレーニングするため,DFormerにはRGB-D表現をエンコードする能力がある。 RGB事前学習したバックボーンによる深度マップの3次元形状関係のミスマッチ符号化を回避し、既存の手法に広く適用されているが解決されていない。 rgb-d セマンティクスセグメンテーションと rgb-d salient object detection という2つの一般的な rgb-d タスクに対して,プリトレーニングされた dformer を軽量デコーダヘッドで微調整した。 実験の結果,DFormerは2つのRGB-Dセグメンテーションデータセットと5つのRGB-Dサリエンシデータセットの計算コストの半分以下で,これらの2つのタスクに対して新たな最先端性能を実現することがわかった。 私たちのコードは、https://github.com/VCIP-RGBD/DFormer.comで利用可能です。

We present DFormer, a novel RGB-D pretraining framework to learn transferable representations for RGB-D segmentation tasks. DFormer has two new key innovations: 1) Unlike previous works that aim to encode RGB features,DFormer comprises a sequence of RGB-D blocks, which are tailored for encoding both RGB and depth information through a novel building block design; 2) We pre-train the backbone using image-depth pairs from ImageNet-1K, and thus the DFormer is endowed with the capacity to encode RGB-D representations. It avoids the mismatched encoding of the 3D geometry relationships in depth maps by RGB pre-trained backbones, which widely lies in existing methods but has not been resolved. We fine-tune the pre-trained DFormer on two popular RGB-D tasks, i.e., RGB-D semantic segmentation and RGB-D salient object detection, with a lightweight decoder head. Experimental results show that our DFormer achieves new state-of-the-art performance on these two tasks with less than half of the computational cost of the current best methods on two RGB-D segmentation datasets and five RGB-D saliency datasets. Our code is available at: https://github.com/VCIP-RGBD/DFormer.
翻訳日:2023-09-19 14:03:37 公開日:2023-09-18
# マルチモーダル操作の検出と接地のための統一周波数アシスト変圧器フレームワーク

Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation ( http://arxiv.org/abs/2309.09667v1 )

ライセンス: Link先を確認
Huan Liu, Zichang Tan, Qiang Chen, Yunchao Wei, Yao Zhao, Jingdong Wang(参考訳) 顔偽造やテキスト誤報の拡散により, マルチモーダルメディア操作(DGM^4)の検出と接地がますます重要になっている。 本稿では、DGM^4問題に対処するため、UFAFormerという名前の統一周波数支援トランスフォーマーフレームワークを提案する。 画像(RGB)領域のみに焦点をあてて視覚的偽造の特徴を記述する従来の最先端手法とは異なり、周波数領域を補完的な視点として導入する。 離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。 次に,提案する周波数エンコーダは,帯域内およびバンド間自己接続を組み込んで,サブバンド内およびサブバンド間における偽造機能を明示的に集約する。 さらに、画像領域と周波数領域間の意味的衝突に対処するために、異なる画像と周波数特徴の効果的な相互作用を可能にするために、forgery-aware mutual moduleを開発した。 最後に,視覚およびテキストの偽造機能に基づいて,モダリティ固有の偽造情報を収集する2つの対称クロスモーダルインタラクションモジュールと,両モダリティを集約するfusingインタラクションモジュールからなる統一デコーダを提案する。 提案するunified decoderは、ufaformerを統一フレームワークとして定式化し、最終的にはアーキテクチャ全体を単純化し、最適化プロセスを促進します。 いくつかの摂動を含むDGM^4データセットの実験結果から,従来の手法と比較して,フレームワークの性能が優れていることが示され,フィールドに新たなベンチマークが設定された。

Detecting and grounding multi-modal media manipulation (DGM^4) has become increasingly crucial due to the widespread dissemination of face forgery and text misinformation. In this paper, we present the Unified Frequency-Assisted transFormer framework, named UFAFormer, to address the DGM^4 problem. Unlike previous state-of-the-art methods that solely focus on the image (RGB) domain to describe visual forgery features, we additionally introduce the frequency domain as a complementary viewpoint. By leveraging the discrete wavelet transform, we decompose images into several frequency sub-bands, capturing rich face forgery artifacts. Then, our proposed frequency encoder, incorporating intra-band and inter-band self-attentions, explicitly aggregates forgery features within and across diverse sub-bands. Moreover, to address the semantic conflicts between image and frequency domains, the forgery-aware mutual module is developed to further enable the effective interaction of disparate image and frequency features, resulting in aligned and comprehensive visual forgery representations. Finally, based on visual and textual forgery features, we propose a unified decoder that comprises two symmetric cross-modal interaction modules responsible for gathering modality-specific forgery information, along with a fusing interaction module for aggregation of both modalities. The proposed unified decoder formulates our UFAFormer as a unified framework, ultimately simplifying the overall architecture and facilitating the optimization process. Experimental results on the DGM^4 dataset, containing several perturbations, demonstrate the superior performance of our framework compared to previous methods, setting a new benchmark in the field.
翻訳日:2023-09-19 14:03:06 公開日:2023-09-18
# 話題を意識したマルチターン対話理解

Multi-turn Dialogue Comprehension from a Topic-aware Perspective ( http://arxiv.org/abs/2309.09666v1 )

ライセンス: Link先を確認
Xinbei Ma, Yi Xu, Hai Zhao, Zhuosheng Zhang(参考訳) 対話関連機械読解は、言語モデルに効果的に多重ターン対話の節を分離しモデル化することを要求する。 対話開発は参加者の意図に従って行われるため、その話題は一節を通して一定に保たれることはない。 したがって、対話モデリングにおいてトピックシフトを検出して活用するのは自明ではない。 トピックモデリングは、プレーンテキストで広く研究されているが、対話読解においてはるかに有効である。 本稿では,話題認識の観点から多段対話をモデル化する。 まず,対話文を,教師なしの方法でトピック中心の断片に分割する対話セグメンテーションアルゴリズムから始める。 次に、これらの断片を話題認識言語処理単位として、さらに対話理解を行う。 一方、分割セグメントは混合意図ではなく特定のトピックを予測し、ドメイン内のトピックの検出と位置に便利である。 本研究では,自己学習型オートエンコーダを用いたクラスタリングシステムを設計し,評価のために構築した2つのデータセットを構築する。 一方、分割セグメントはマルチターン対話応答選択の適切な要素である。 そこで本研究では,トピックセグメントを処理要素とし,応答候補と2重クロスアテンションをマッチングする,トピックアウェアな2重アテンションマッチング(tadam)ネットワークを提案する。 3つの公開ベンチマークに関する実証研究は、ベースラインよりも大きな改善を示している。 本研究は、文書トピックに関するこれまでの研究を継続し、対話モデリングを、徹底的な実験と分析を伴う新しいトピック認識視点にもたらした。

Dialogue related Machine Reading Comprehension requires language models to effectively decouple and model multi-turn dialogue passages. As a dialogue development goes after the intentions of participants, its topic may not keep constant through the whole passage. Hence, it is non-trivial to detect and leverage the topic shift in dialogue modeling. Topic modeling, although has been widely studied in plain text, deserves far more utilization in dialogue reading comprehension. This paper proposes to model multi-turn dialogues from a topic-aware perspective. We start with a dialogue segmentation algorithm to split a dialogue passage into topic-concentrated fragments in an unsupervised way. Then we use these fragments as topic-aware language processing units in further dialogue comprehension. On one hand, the split segments indict specific topics rather than mixed intentions, thus showing convenient on in-domain topic detection and location. For this task, we design a clustering system with a self-training auto-encoder, and we build two constructed datasets for evaluation. On the other hand, the split segments are an appropriate element of multi-turn dialogue response selection. For this purpose, we further present a novel model, Topic-Aware Dual-Attention Matching (TADAM) Network, which takes topic segments as processing elements and matches response candidates with a dual cross-attention. Empirical studies on three public benchmarks show great improvements over baselines. Our work continues the previous studies on document topic, and brings the dialogue modeling to a novel topic-aware perspective with exhaustive experiments and analyses.
翻訳日:2023-09-19 14:02:36 公開日:2023-09-18
# 変圧器処理に基づくファジィトピックモデリングの新しい手法

A Novel Method of Fuzzy Topic Modeling based on Transformer Processing ( http://arxiv.org/abs/2309.09658v1 )

ライセンス: Link先を確認
Ching-Hsun Tseng, Shin-Jye Lee, Po-Wei Cheng, Chien Lee, Chih-Chieh Hung(参考訳) トピックモデリングは、明らかに市場の動向を監視する便利な方法である。 従来、LDA(Latent Dirichlet Allocation)はこの種の情報を得るために必須のモデルであると考えられてきた。 LDAのトークン条件付き確率でキーワードを導出するメリットを生かして、最も可能なトピックや本質的なトピックを知ることができる。 しかし、与えられたトピックが人間の知識に完全に適合できないため、結果は直感的ではない。 LDAは最初の可能な関連するキーワードを提供しており、統計的可能性に基づいてコネクションが信頼できるかどうかという別の問題も生じている。 トピック番号を事前に手作業で決めることも難しい。 ファジィメンバシップをクラスタに使用し、トランスフォーマーを使って単語を埋め込むブームのトレンドとして、ソフトクラスタリングに基づくファジィトピックモデリングと、最先端のトランスフォーマーベースモデルによるドキュメント埋め込みを提案する。 プレスリリースモニタリングの実用的なアプリケーションでは、ファジィトピックモデリングは従来のldaのアウトプットよりも自然な結果をもたらします。

Topic modeling is admittedly a convenient way to monitor markets trend. Conventionally, Latent Dirichlet Allocation, LDA, is considered a must-do model to gain this type of information. By given the merit of deducing keyword with token conditional probability in LDA, we can know the most possible or essential topic. However, the results are not intuitive because the given topics cannot wholly fit human knowledge. LDA offers the first possible relevant keywords, which also brings out another problem of whether the connection is reliable based on the statistic possibility. It is also hard to decide the topic number manually in advance. As the booming trend of using fuzzy membership to cluster and using transformers to embed words, this work presents the fuzzy topic modeling based on soft clustering and document embedding from state-of-the-art transformer-based model. In our practical application in a press release monitoring, the fuzzy topic modeling gives a more natural result than the traditional output from LDA.
翻訳日:2023-09-19 14:02:12 公開日:2023-09-18
# リング電流ゲーティングによるTunable Teslaスケール磁気アト秒パルス

Tunable Tesla-scale magnetic attosecond pulses through ring-current gating ( http://arxiv.org/abs/2309.09654v1 )

ライセンス: Link先を確認
Alba de las Heras, Franco P. Bonaf\'e, Carlos Hern\'andez-Garc\'ia, Angel Rubio, and Ofer Neufeld(参考訳) 高強度円偏光レーザーパルスを用いた原子や分子の電子動力学のコヒーレント制御は電流ループを生じさせ、磁場が放出される。 我々は、赤外線スペクトル領域において、波長と周波数の調整が可能な直接または交互に電流パルスを発生させ、フェムト秒からアット秒までのパルス持続時間を示す「電流ゲーティング」方式を提案し、実証する。 最適条件下では、磁気パルスは駆動レーザから高度に分離することができ、超高速分光法の前面実験に利用するために高い磁束密度(数百ナノメートルで\sim1$ tesla、パルス持続時間は787attoseconds)を示す。 我々の研究は、超高速磁化、キラル応答、スピンダイナミクスを探究するアト秒磁場の生成への道を開く。

Coherent control over electron dynamics in atoms and molecules using high-intensity circularly-polarized laser pulses gives rise to current loops, resulting in the emission of magnetic fields. We propose and demonstrate with ab-initio calculations ``current-gating" schemes to generate direct or alternating-current magnetic pulses in the infrared spectral region, with highly tunable waveform and frequency, and showing femtosecond-to-attosecond pulse duration. In optimal conditions, the magnetic pulse can be highly isolated from the driving laser and exhibits a high flux density ($\sim1$ Tesla at few hundred nanometers from the source, with a pulse duration of 787 attoseconds) for application in forefront experiments of ultrafast spectroscopy. Our work paves the way toward the generation of attosecond magnetic fields to probe ultrafast magnetization, chiral responses, and spin dynamics.
翻訳日:2023-09-19 14:01:55 公開日:2023-09-18
# データ分散回復ステップの短縮による拡散モデルにおける音声合成の高速化

Speeding Up Speech Synthesis In Diffusion Models By Reducing Data Distribution Recovery Steps Via Content Transfer ( http://arxiv.org/abs/2309.09652v1 )

ライセンス: Link先を確認
Peter Ochieng(参考訳) 拡散に基づくボコーダはサンプリングに必要な多くのステップのために遅いと批判されている。 さらに、一般に実装されているモデルの損失関数は、ターゲットが元の入力$x_0$またはエラー$\epsilon_0$であるように設計されている。 リバースプロセスの初期のステップでは、大きな予測エラーが発生し、結果として音声の歪みが発生し、学習時間が増加する。 本研究では,予測誤差の低減とトレーニング時間の短縮を目的として,前処理時間ステップの異なる出力を目標とする設定を提案する。 ニューラルネットワーク(nn)の異なるレイヤを使用して,拡散の進行過程におけるノイズ出力に類似した表現を生成するようにトレーニングすることで,ノイズ処理を行う。 NN層は、最終的に最終層がクリーン音声を推定するまで、逆処理で入力を段階的に認知する。 ニューラルネットワークのレイヤとフォワードプロセスステップの間の1:1マッピングを避けるために、nn層が前方プロセスにおいて$\tau$ステップで注入されるノイズを累積的に除去するように訓練されるようにスキップパラメータ$\tau>1$を定義する。 これにより、データ分散回復ステップの数を大幅に減らし、その結果、音声を生成する時間が短縮される。 提案手法は,現在最先端のツールよりも優れた高忠実度音声を競合時間で生成することを示す。 提案手法は,不明瞭な発話にうまく一般化することができる。

Diffusion based vocoders have been criticised for being slow due to the many steps required during sampling. Moreover, the model's loss function that is popularly implemented is designed such that the target is the original input $x_0$ or error $\epsilon_0$. For early time steps of the reverse process, this results in large prediction errors, which can lead to speech distortions and increase the learning time. We propose a setup where the targets are the different outputs of forward process time steps with a goal to reduce the magnitude of prediction errors and reduce the training time. We use the different layers of a neural network (NN) to perform denoising by training them to learn to generate representations similar to the noised outputs in the forward process of the diffusion. The NN layers learn to progressively denoise the input in the reverse process until finally the final layer estimates the clean speech. To avoid 1:1 mapping between layers of the neural network and the forward process steps, we define a skip parameter $\tau>1$ such that an NN layer is trained to cumulatively remove the noise injected in the $\tau$ steps in the forward process. This significantly reduces the number of data distribution recovery steps and, consequently, the time to generate speech. We show through extensive evaluation that the proposed technique generates high-fidelity speech in competitive time that outperforms current state-of-the-art tools. The proposed technique is also able to generalize well to unseen speech.
翻訳日:2023-09-19 14:01:38 公開日:2023-09-18
# 任意に小さな非局所性を持つデバイス独立量子鍵分布

Device-independent quantum key distribution with arbitrarily small nonlocality ( http://arxiv.org/abs/2309.09650v1 )

ライセンス: Link先を確認
Lewis Wooltorton, Peter Brown, Roger Colbeck(参考訳) デバイス非依存の量子キー分散(DIQKD)により、2人のユーザが使用する量子デバイスを信頼することなく、共有暗号キーをセットアップできる。 そのためには、ユーザ間の非ローカルな相関が必要となる。 しかし、[Phys. Rev. Lett. 127, 050503 (2021)] において、既知のプロトコルの非局所性は常に十分ではないことが示され、任意のDIQKD実装に必要な最小限の非局所性に基礎的な下限が存在するかどうかが問題となった。 ここではそのような境界が存在しないことを示し、局所集合に任意に近い相関を持つ鍵を与えるスキームを与える。 さらに、いくつかの構成により、1組のエンタングル量子ビットにつき最大1ビットの鍵が得られる。 一つの線形ベル表現で最大絡み合う状態の全ての自己テストを構成するベル不等式の族を研究することでこれを実現できる。 この族内には、一対の入力が任意に完全鍵に近い出力を与える性質と非局所相関が存在する。 このような相関関係は、古典境界に任意に近いものを含む、chsh値の範囲で存在する。 最後に、完全鍵と完全ランダム性の両方を同時に生成できる量子相関の存在を示すとともに、任意に小さいchsh違反を表示することにより、新たな暗号プロトコルの可能性を開く。

Device-independent quantum key distribution (DIQKD) allows two users to set up shared cryptographic key without the need to trust the quantum devices used. Doing so requires nonlocal correlations between the users. However, in [Phys. Rev. Lett. 127, 050503 (2021)] it was shown that for known protocols nonlocality is not always sufficient, leading to the question of whether there is a fundamental lower bound on the minimum amount of nonlocality needed for any DIQKD implementation. Here we show that no such bound exists, giving schemes that achieve key with correlations arbitrarily close to the local set. Furthermore, some of our constructions achieve the maximum of 1 bit of key per pair of entangled qubits. We achieve this by studying a family of Bell-inequalities that constitute all self-tests of the maximally entangled state with a single linear Bell expression. Within this family there exist non-local correlations with the property that one pair of inputs yield outputs arbitrarily close to perfect key. Such correlations exist for a range of Clauser-Horne-Shimony-Holt (CHSH) values, including those arbitrarily close to the classical bound. Finally, we show the existence of quantum correlations that can generate both perfect key and perfect randomness simultaneously, whilst also displaying arbitrarily small CHSH violation; this opens up the possibility of a new class of cryptographic protocol.
翻訳日:2023-09-19 14:01:13 公開日:2023-09-18
# VULNERLIZER: 脆弱性とソフトウェアライブラリの相互分析

VULNERLIZER: Cross-analysis Between Vulnerabilities and Software Libraries ( http://arxiv.org/abs/2309.09649v1 )

ライセンス: Link先を確認
Irdin Pekaric, Michael Felderer and Philipp Steinm\"uller(参考訳) 脆弱性の特定は、ソフトウェアプロジェクトにおける継続的な課題である。 これは、アタッカーが採用するメソッドの進化と、ソフトウェアへの定期的なアップデートによって、さらなる問題が明らかになったためである。 その結果、脆弱なソフトウェアを特定するための新しい革新的なアプローチが必要となる。 本稿では,脆弱性とソフトウェアライブラリ間のクロス分析のための新しいフレームワークであるVULNERLIZERを提案する。 CVEとソフトウェアライブラリのデータとクラスタリングアルゴリズムを使用して、脆弱性とライブラリ間のリンクを生成する。 また、生成された関連性を再評価するためにモデルのトレーニングを行う。 これは割り当てられた重量を更新することで達成される。 最後に、テストセットからCVEデータを用いて予測を行うことにより、アプローチを評価する。 その結果、VULNERLIZERは、初期入力CVEエントリやソフトウェアライブラリに基づいて、将来の脆弱なライブラリを予測できる大きな可能性を示唆している。 訓練されたモデルは75%以上の予測精度に達する。

The identification of vulnerabilities is a continuous challenge in software projects. This is due to the evolution of methods that attackers employ as well as the constant updates to the software, which reveal additional issues. As a result, new and innovative approaches for the identification of vulnerable software are needed. In this paper, we present VULNERLIZER, which is a novel framework for cross-analysis between vulnerabilities and software libraries. It uses CVE and software library data together with clustering algorithms to generate links between vulnerabilities and libraries. In addition, the training of the model is conducted in order to reevaluate the generated associations. This is achieved by updating the assigned weights. Finally, the approach is then evaluated by making the predictions using the CVE data from the test set. The results show that the VULNERLIZER has a great potential in being able to predict future vulnerable libraries based on an initial input CVE entry or a software library. The trained model reaches a prediction accuracy of 75% or higher.
翻訳日:2023-09-19 14:00:45 公開日:2023-09-18
# HiT: 階層型トランスフォーマーによるマッピングの構築

HiT: Building Mapping with Hierarchical Transformers ( http://arxiv.org/abs/2309.09643v1 )

ライセンス: Link先を確認
Mingming Zhang, Qingjie Liu, Yunhong Wang(参考訳) 近年,高分解能リモートセンシング画像から自動ビルマッピングを行うための深層学習に基づく手法が広く研究されている。 ほとんどの建物マッピングモデルは、地理的およびマッピングシステムのための建物のベクトル多角形を生成するが、支配的な手法は、分割、多角化、正規化を含むいくつかのサブプロブレムにおいてポリゴン構造抽出を分解し、複雑な推論手順、低い精度、低い一般化をもたらす。 本論文では,高分解能リモートセンシング画像から多角形建物マッピングの品質を向上させるhitと呼ばれる階層的トランスフォーマーを用いた簡易かつ新しい建物マッピング手法を提案する。 HiTは、分類とバウンディングボックス回帰ヘッドに平行なポリゴンヘッドを追加することで、2段階検出アーキテクチャに基づいている。 HiTは、完全にエンドツーエンドのトレーニングが可能な、バウンディングボックスとベクトルポリゴンを同時に出力する。 ポリゴンヘッドは、二方向特性を持つ直列化された頂点としてのビルディングポリゴンを定式化し、始端頂点仮説を避ける単純かつエレガントなポリゴン表現である。 この新たな視点の下では、ポリゴンヘッドはトランスフォーマーエンコーダデコーダアーキテクチャを採用し、設計された双方向ポリゴン損失によって制御されるシリアライズされた頂点を予測する。 さらに、ポリゴンヘッドのエンコーダに畳み込み操作と組み合わされた階層的注意機構を導入し、頂点およびエッジレベルでポリゴンを構築するより幾何学的な構造を提供する。 2つのベンチマーク(CrowdAIとInriaのデータセット)の総合的な実験により、我々の手法は、最先端の手法と比較して、インスタンスのセグメンテーションと多角的メトリクスの点で、新しい最先端の手法を実現することを示した。 さらに,複雑な場面におけるモデルの優位性と有効性を検証する。

Deep learning-based methods have been extensively explored for automatic building mapping from high-resolution remote sensing images over recent years. While most building mapping models produce vector polygons of buildings for geographic and mapping systems, dominant methods typically decompose polygonal building extraction in some sub-problems, including segmentation, polygonization, and regularization, leading to complex inference procedures, low accuracy, and poor generalization. In this paper, we propose a simple and novel building mapping method with Hierarchical Transformers, called HiT, improving polygonal building mapping quality from high-resolution remote sensing images. HiT builds on a two-stage detection architecture by adding a polygon head parallel to classification and bounding box regression heads. HiT simultaneously outputs building bounding boxes and vector polygons, which is fully end-to-end trainable. The polygon head formulates a building polygon as serialized vertices with the bidirectional characteristic, a simple and elegant polygon representation avoiding the start or end vertex hypothesis. Under this new perspective, the polygon head adopts a transformer encoder-decoder architecture to predict serialized vertices supervised by the designed bidirectional polygon loss. Furthermore, a hierarchical attention mechanism combined with convolution operation is introduced in the encoder of the polygon head, providing more geometric structures of building polygons at vertex and edge levels. Comprehensive experiments on two benchmarks (the CrowdAI and Inria datasets) demonstrate that our method achieves a new state-of-the-art in terms of instance segmentation and polygonal metrics compared with state-of-the-art methods. Moreover, qualitative results verify the superiority and effectiveness of our model under complex scenes.
翻訳日:2023-09-19 14:00:30 公開日:2023-09-18
# 雑音を呈するboruta:boruta特徴選択を伴うニューラルネットワーク摂動注入

Noise-Augmented Boruta: The Neural Network Perturbation Infusion with Boruta Feature Selection ( http://arxiv.org/abs/2309.09694v1 )

ライセンス: Link先を確認
Hassan Gharoun, Navid Yazdanjoe, Mohammad Sadegh Khorshidi, Amir H. Gandomi(参考訳) データ生成の急増により、垂直(すなわちデータの体積)と水平(すなわち次元)の両方が増加し、次元性の呪いの負担はますます緩和されつつある。 次元削減技術の重要な側面である特徴選択は、この問題に対処するためにかなり進歩している。 このような進歩の1つはボルタ特徴選択アルゴリズムであり、シャドウ特徴と呼ばれる置換された特徴と対比することで有意義な特徴を識別することに成功している。 しかし、その特徴の意義は、その本質的な価値よりもデータ全体の特性によってより形作られており、従来のボルタアルゴリズムでは、影の特徴が元の特徴の特徴をよく模倣している。 本稿では,この前提に基づいて,影変数に雑音を組み込むことにより,ボルタ特徴選択アルゴリズムに革新的なアプローチを導入する。 ニューラルネットワークの摂動解析フレームワークから並列を引いて,このボルタ法の進化版を提案する。 4つの公開ベンチマークデータセットでの厳密なテストにより、この手法が従来のborutaアルゴリズムよりも優れており、機能選択の精度が向上する可能性があることが判明した。

With the surge in data generation, both vertically (i.e., volume of data) and horizontally (i.e., dimensionality), the burden of the curse of dimensionality has become increasingly palpable. Feature selection, a key facet of dimensionality reduction techniques, has advanced considerably to address this challenge. One such advancement is the Boruta feature selection algorithm, which successfully discerns meaningful features by contrasting them to their permutated counterparts known as shadow features. However, the significance of a feature is shaped more by the data's overall traits than by its intrinsic value, a sentiment echoed in the conventional Boruta algorithm where shadow features closely mimic the characteristics of the original ones. Building on this premise, this paper introduces an innovative approach to the Boruta feature selection algorithm by incorporating noise into the shadow variables. Drawing parallels from the perturbation analysis framework of artificial neural networks, this evolved version of the Boruta method is presented. Rigorous testing on four publicly available benchmark datasets revealed that this proposed technique outperforms the classic Boruta algorithm, underscoring its potential for enhanced, accurate feature selection.
翻訳日:2023-09-19 13:52:21 公開日:2023-09-18
# 言語記号はZipfの法則に従うか?

Do learned speech symbols follow Zipf's law? ( http://arxiv.org/abs/2309.09690v1 )

ライセンス: Link先を確認
Shinnosuke Takamichi, Hiroki Maeda, Joonyong Park, Daisuke Saito, and Hiroshi Saruwatari(参考訳) 本研究では, 深層学習を通じて学習した音声記号が, 自然言語記号に類似したZipfの法則に従うか否かを検討する。 Zipfの法則は、単語の頻度分布を規定する経験則であり、自然言語処理における統計解析の基礎を形成する。 音声内容の象徴として人間によって発明された自然言語記号は、この法則に従うことが認められている。 一方で、近年の音声処理におけるブレークスルーは、学習された音声シンボルの発展を招き、それらは音声コンテンツのデータ駆動のシンボル化である。 我々の目標は、これらのデータ駆動型音声記号が自然言語記号と同様にzipfの法則に従うかどうかを確認することである。 本研究は,音声処理の統計的解析のための新しい手法の構築を目的とする。

In this study, we investigate whether speech symbols, learned through deep learning, follow Zipf's law, akin to natural language symbols. Zipf's law is an empirical law that delineates the frequency distribution of words, forming fundamentals for statistical analysis in natural language processing. Natural language symbols, which are invented by humans to symbolize speech content, are recognized to comply with this law. On the other hand, recent breakthroughs in spoken language processing have given rise to the development of learned speech symbols; these are data-driven symbolizations of speech content. Our objective is to ascertain whether these data-driven speech symbols follow Zipf's law, as the same as natural language symbols. Through our investigation, we aim to forge new ways for the statistical analysis of spoken language processing.
翻訳日:2023-09-19 13:51:59 公開日:2023-09-18
# Ugly Ducklings or Swans: 皮膚病変分類の改善を目的とした患者特異的マイニングによるタイラードクアドルレットネットワーク

Ugly Ducklings or Swans: A Tiered Quadruplet Network with Patient-Specific Mining for Improved Skin Lesion Classification ( http://arxiv.org/abs/2309.09689v1 )

ライセンス: Link先を確認
Nathasha Naranpanawa, H. Peter Soyer, Adam Mothershaw, Gayan K. Kulatilleke, Zongyuan Ge, Brigid Betz-Stablein, Shekhar S. Chandra(参考訳) アヒルは個人の周囲の病変と明らかに異なる皮膚病変であり、アヒルのサインは、非常に疑わしい病変と良性病変を区別することによって皮膚黒色腫の診断を助けるために用いられる基準である。 しかし、色素性病変の出現は、ある患者から別の患者へと大きく変化し、アヒルの視覚的な分離が困難になる。 そこで我々はDMT-Quadruplet(DMT-Quadruplet)を提案する。 そこで我々は,階層化4重層ネットワークと共に,患者固有の4重層マイニング手法を導入することで,ネットワークをグローバルとローカルの両方で,より詳細な文脈情報を学習させる。 さらに患者固有の鉱業にダイナミックマージンを組み込んで、個人内でより有用な四重項を採掘できるようにする。 網羅的な実験により,提案手法は従来の分類器よりも優れており,ベースラインのResNet18 CNNよりも54%,ナイーブ三重項ネットワークより37%高い感度を示した。 計量空間におけるデータ多様体の可視化は、DMT-Quadrupletが患者の特異性および患者非依存性の両方でひどいアヒルの病変を分類できることを示している。

An ugly duckling is an obviously different skin lesion from surrounding lesions of an individual, and the ugly duckling sign is a criterion used to aid in the diagnosis of cutaneous melanoma by differentiating between highly suspicious and benign lesions. However, the appearance of pigmented lesions, can change drastically from one patient to another, resulting in difficulties in visual separation of ugly ducklings. Hence, we propose DMT-Quadruplet - a deep metric learning network to learn lesion features at two tiers - patient-level and lesion-level. We introduce a patient-specific quadruplet mining approach together with a tiered quadruplet network, to drive the network to learn more contextual information both globally and locally between the two tiers. We further incorporate a dynamic margin within the patient-specific mining to allow more useful quadruplets to be mined within individuals. Comprehensive experiments show that our proposed method outperforms traditional classifiers, achieving 54% higher sensitivity than a baseline ResNet18 CNN and 37% higher than a naive triplet network in classifying ugly duckling lesions. Visualisation of the data manifold in the metric space further illustrates that DMT-Quadruplet is capable of classifying ugly duckling lesions in both patient-specific and patient-agnostic manner successfully.
翻訳日:2023-09-19 13:51:45 公開日:2023-09-18
# 閉じ込められたイオン量子コンピュータにおけるフライトゲート割り当て問題のシミュレーション

Simulating the flight gate assignment problem on a trapped ion quantum computer ( http://arxiv.org/abs/2309.09686v1 )

ライセンス: Link先を確認
Yahui Chai, Evgeny Epifanovsky, Karl Jansen, Ananth Kaushik, Stefan K\"uhn(参考訳) 可変量子固有解器を用いたイオンQのAriaトラップイオン量子コンピュータにおけるフライトゲート割り当て問題について検討した。 凝集関数としてリスク条件値を利用することで,現在捕捉されているイオン量子ハードウェアが,この組合せ最適化問題に対して高い確率で優れた解を得ることができることを示す。 特に,小型インスタンスに対して完全変動量子固有解器を動作させ,より大規模なシステムに対して推論実行を行い,現在の量子ハードウェアと近未来の量子ハードウェアが組合せ最適化問題に最適であることを示す。

We study the flight gate assignment problem on IonQ's Aria trapped ion quantum computer using the variational quantum eigensolver. Utilizing the conditional value at risk as an aggregation function, we demonstrate that current trapped ion quantum hardware is able to obtain good solutions for this combinatorial optimization problem with high probability. In particular, we run the full variational quantum eigensolver for small instances and we perform inference runs for larger systems, demonstrating that current and near-future quantum hardware is suitable for addressing combinatorial optimization problems.
翻訳日:2023-09-19 13:51:17 公開日:2023-09-18
# Lanczos法の累積展開を用いた量子計算グリーン関数

Quantum Computed Green's Functions using a Cumulant Expansion of the Lanczos Method ( http://arxiv.org/abs/2309.09685v1 )

ライセンス: Link先を確認
Gabriel Greene-Diniz, David Zsolt Manrique, Kentaro Yamamoto, Evgeny Plekhanov, Nathan Fitzpatrick, Michal Krompiec, Rei Sakuma, David Mu\~noz Ramo(参考訳) 本稿では,多体グリーン関数行列をスピン軌道基底で計算する量子計算法を提案する。 我々は,有限サイズのフェルミオンハバードモデルとそれに関連する不純物モデルに動的平均場理論を適用し,量子量子コンピュータH1-1上でのグリーン関数の計算を実証する。 本手法は, ハミルトンモーメントを計測可能な期待値として, ランチョス法を累積展開する手法である。 これにより、変分量子固有ソルバ(vqe)の繰り返し適用による測定回数の大幅なオーバーヘッドを回避し、代わりに一組の計測回路でモーメントの期待値を測定する。 測定されたモーメントから、三対角化ハミルトン行列が計算され、連続分数を通してグリーン函数が生成される。 本研究では, 変分アルゴリズムを用いて基底状態を作成するが, 実装のモジュラリティにより, 基底状態に対して他の(変分的でない)アプローチが使用できることに留意する。

In this paper, we present a quantum computational method to calculate the many-body Green's function matrix in a spin orbital basis. We apply our approach to finite-sized fermionic Hubbard models and related impurity models within Dynamical Mean Field Theory, and demonstrate the calculation of Green's functions on Quantinuum's H1-1 trapped-ion quantum computer. Our approach involves a cumulant expansion of the Lanczos method, using Hamiltonian moments as measurable expectation values. This bypasses the need for a large overhead in the number of measurements due to repeated applications of the variational quantum eigensolver (VQE), and instead measures the expectation value of the moments with one set of measurement circuits. From the measured moments, the tridiagonalised Hamiltonian matrix can be computed, which in turn yields the Green's function via continued fractions. While we use a variational algorithm to prepare the ground state in this work, we note that the modularity of our implementation allows for other (non-variational) approaches to be used for the ground state.
翻訳日:2023-09-19 13:51:06 公開日:2023-09-18
# 非対称な友情を持つ分散コース割り当て

Distributed course allocation with asymmetric friendships ( http://arxiv.org/abs/2309.09684v1 )

ライセンス: Link先を確認
Ilya Khakhiashvili, Lihi Dery and Tal Grinshpoun(参考訳) 授業を受けるかどうかについての学生の判断は、友人が授業を受けるかどうかに強く影響される。 学生は、より好みのクラスを独学するよりも、友達といることだけよりも、自分の好きなコースに割り当てられることを好むかもしれない。 友人との授業は学業成績に好影響を与えることが示されている。 したがって、学術機関はコースシートを割り当てる際に友情関係を優先すべきである。 友情関係の導入は、現在のコース割り当て方法にいくつかの非自明な変更をもたらす。 本稿では,学生間の友情を,コース割当メカニズムがいかに説明し,ユニークな分散ソリューションを提供するかを検討する。 特に,この問題を非対称分散制約最適化問題としてモデル化し,新しい専用アルゴリズムを開発した。 広範な評価には,授業や友人に対する177人の学生の嗜好に関するユーザ調査から得られたシミュレーションデータとデータが含まれている。 その結果, 解法を公平に保ちながら, 授業の座席容量制限を観察しながら, 学生に高い実用性が得られた。

Students' decisions on whether to take a class are strongly affected by whether their friends plan to take the class with them. A student may prefer to be assigned to a course they likes less, just to be with their friends, rather than taking a more preferred class alone. It has been shown that taking classes with friends positively affects academic performance. Thus, academic institutes should prioritize friendship relations when assigning course seats. The introduction of friendship relations results in several non-trivial changes to current course allocation methods. This paper explores how course allocation mechanisms can account for friendships between students and provide a unique, distributed solution. In particular, we model the problem as an asymmetric distributed constraint optimization problem and develop a new dedicated algorithm. Our extensive evaluation includes both simulated data and data derived from a user study on 177 students' preferences over courses and friends. The results show that our algorithm obtains high utility for the students while keeping the solution fair and observing courses' seat capacity limitations.
翻訳日:2023-09-19 13:50:47 公開日:2023-09-18
# 修正ランドウアーの原理:一般のシステム環境量子状態を用いることでマクスウェルのデーモンはどのくらい得ることができるか?

Modified Landauer's principle: How much can the Maxwell's demon gain by using general system-environment quantum state? ( http://arxiv.org/abs/2309.09678v1 )

ライセンス: Link先を確認
Sayan Mondal, Aparajita Bhattacharyya, Ahana Ghoshal, Ujjwal Sen(参考訳) ランダウアーの原理は、システムのエントロピーの減少は必然的に環境への熱の放散につながると述べている。 このステートメントは通常、最初に熱状態にある環境と接触するシステムと、製品状態にあるシステム環境初期状態とを考慮して確立される。 ここでは,システムと環境が初期相関関係にあり,環境が熱水状態であっても,修正されたランドウアー原理が依然として保持されていることを示す。 さらに,システムダイナミクスがボルン-マルコフ近似を可能にするような大規模熱水環境と接している場合を考え,有限時間修正ランドウアー境界を導出する。

The Landauer principle states that decrease in entropy of a system, inevitably leads to a dissipation of heat to the environment. This statement is usually established by considering the system to be in contact with an environment that is initially in a thermal state with the system-environment initial state being in a product state. Here we show that a modified Landauer principle, with correction terms, still holds even if the system and environment are initially correlated and the environment is in an athermal state. Furthermore, we consider a case where the system is in contact with a large athermal environment, such that the system dynamics allow Born-Markov approximations, and we derive the finite-time modified Landauer's bound for the same.
翻訳日:2023-09-19 13:50:31 公開日:2023-09-18
# 発声音声強調のための単一および少数区間の拡散

Single and Few-step Diffusion for Generative Speech Enhancement ( http://arxiv.org/abs/2309.09677v1 )

ライセンス: Link先を確認
Bunlong Lay, Jean-Marie Lemercier, Julius Richter, Timo Gerkmann(参考訳) 拡散モデルでは,雑音混合したクリーン音声の条件生成にタスク適応拡散法を用いて,音声強調の有望な結果を示した。 しかしながら、テスト時にスコア推定に使用されるニューラルネットワークは、反復逆プロセスを解くために複数回呼び出される。 これにより、推論プロセスが遅くなり、サンプリング軌道上に蓄積される離散化エラーが発生する。 本稿では,これらの制約を2段階のトレーニングアプローチで解決する。 第1段階では,生成的発声スコアマッチング損失を用いて拡散モデルを通常の方法で学習する。 第2段階では、逆過程を解くことで強化された信号を計算し、予測損失を用いて得られた推定結果をクリーン音声目標と比較する。 この第2のトレーニングステージを使用することで,60関数ではなく5関数評価のみを用いて,ベースラインモデルと同じ性能を実現することができることを示す。 関数評価数(nfes)を下げて一段階の拡散を得ると、通常の生成拡散アルゴリズムの性能は劇的に低下するが、本手法は定常的な性能を保ち、したがってその拡散ベースラインを大きく上回っており、予測値よりも一般化する。

Diffusion models have shown promising results in speech enhancement, using a task-adapted diffusion process for the conditional generation of clean speech given a noisy mixture. However, at test time, the neural network used for score estimation is called multiple times to solve the iterative reverse process. This results in a slow inference process and causes discretization errors that accumulate over the sampling trajectory. In this paper, we address these limitations through a two-stage training approach. In the first stage, we train the diffusion model the usual way using the generative denoising score matching loss. In the second stage, we compute the enhanced signal by solving the reverse process and compare the resulting estimate to the clean speech target using a predictive loss. We show that using this second training stage enables achieving the same performance as the baseline model using only 5 function evaluations instead of 60 function evaluations. While the performance of usual generative diffusion algorithms drops dramatically when lowering the number of function evaluations (NFEs) to obtain single-step diffusion, we show that our proposed method keeps a steady performance and therefore largely outperforms the diffusion baseline in this setting and also generalizes better than its predictive counterpart.
翻訳日:2023-09-19 13:50:15 公開日:2023-09-18
# 実世界の異常分類のための条件付き潜在空間クラスター

Conditioning Latent-Space Clusters for Real-World Anomaly Classification ( http://arxiv.org/abs/2309.09676v1 )

ライセンス: Link先を確認
Daniel Bogdoll, Svetlana Pavlitska, Simon Klaus, J. Marius Z\"ollner(参考訳) 自動運転の領域における異常は、自動運転車の大規模展開の大きな障害である。 本研究では,様々な種類や大きさの異常を含む都市シーンの高解像度カメラデータに着目した。 変分オートエンコーダに基づいて、サンプルを正規データまたは異常として分類する潜在空間を条件とする。 特に小さな異常を強調するために,vaeに余分な入力として不一致マップを提供し,検出性能への影響を評価する実験を行った。 本手法では,正常なデータと異常を分離したクラスタに分割し,高品質な画像の再構成を行う。

Anomalies in the domain of autonomous driving are a major hindrance to the large-scale deployment of autonomous vehicles. In this work, we focus on high-resolution camera data from urban scenes that include anomalies of various types and sizes. Based on a Variational Autoencoder, we condition its latent space to classify samples as either normal data or anomalies. In order to emphasize especially small anomalies, we perform experiments where we provide the VAE with a discrepancy map as an additional input, evaluating its impact on the detection performance. Our method separates normal data and anomalies into isolated clusters while still reconstructing high-quality images, leading to meaningful latent representations.
翻訳日:2023-09-19 13:49:55 公開日:2023-09-18
# 2次元励起子とプラズモニックフォトニック結晶の強い結合:顕微鏡理論によるトリプルトスペクトルの研究

Strong Coupling of Two-Dimensional Excitons and Plasmonic Photonic Crystals: Microscopic Theory Reveals Triplet Spectra ( http://arxiv.org/abs/2309.09673v1 )

ライセンス: Link先を確認
Lara Greten, Robert Salzwedel, Tobias G\"ode, David Greten, Stephanie Reich, Stephen Hughes, Malte Selig, and Andreas Knorr(参考訳) 遷移金属ジカルコゲナイド(tmdc)の単分子層は強い光・物質相互作用を持つ直接ギャップ半導体であり、一方プラズモニック結晶(pcs)はメタ原子として働く金属ナノ粒子で構成され、集団プラズモンモードを示し、ナノスケール上で電場を調整できる。 近年の研究では、TMDC-PCハイブリッドはエキシトンとプラズモンの強い結合限界に達し、新しい準粒子、いわゆるプレクシトンを形成することが示されている。 この結合を理論的に記述するために、TMDC-PCハイブリッド構造に対する自己整合Maxwell-Bloch理論を開発し、近距離場における散乱光を明示的に計算し、実験的研究のためのガイダンスを提供する。 以上の結果から,エキシトンとプラズモンの2つの有効複子帯へのハイブリダイゼーションにおいて,金-mose$_2$構造と30-,$nmナノ粒子との強い結合のスペクトル分割シグネチャが明らかとなった。 混合状態に加えて、プラズモニック近接場との結合が著しく小さく、遠方場に直接放出される残余の励起モードが見つかる。 したがって、強い結合状態のハイブリッドスペクトルは3つの放出ピークを含むことができる。

Monolayers of transition metal dichalcogenides (TMDC) are direct-gap semiconductors with strong light-matter interactions featuring tightly bound excitons, while plasmonic crystals (PCs), consisting of metal nanoparticles that act as meta-atoms, exhibit collective plasmon modes and allow one to tailor electric fields on the nanoscale. Recent experiments show that TMDC-PC hybrids can reach the strong-coupling limit between excitons and plasmons forming new quasiparticles, so-called plexcitons. To describe this coupling theoretically, we develop a self-consistent Maxwell-Bloch theory for TMDC-PC hybrid structures, which allows us to compute the scattered light in the near- and far-field explicitly and provide guidance for experimental studies. Our calculations reveal a spectral splitting signature of strong coupling of more than $100\,$meV in gold-MoSe$_2$ structures with $30\,$nm nanoparticles, manifesting in a hybridization of exciton and plasmon into two effective plexcitonic bands. In addition to the hybridized states, we find a remaining excitonic mode with significantly smaller coupling to the plasmonic near-field, emitting directly into the far-field. Thus, hybrid spectra in the strong coupling regime can contain three emission peaks.
翻訳日:2023-09-19 13:49:44 公開日:2023-09-18
# FedLALR:IIDデータの線形高速化を実現するクライアント特化型学習率

FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup for Non-IID Data ( http://arxiv.org/abs/2309.09719v1 )

ライセンス: Link先を確認
Hao Sun, Li Shen, Shixiang Chen, Jingwei Sun, Jing Li, Guangzhong Sun, and Dacheng Tao(参考訳) フェデレーション学習(federated learning)は、新たな分散機械学習手法であり、多数のクライアントがローカルデータを交換することなくモデルをトレーニングできる。 コミュニケーションの時間コストは、特に大規模ディープニューラルネットワークのトレーニングにおいて、連合学習において不可欠なボトルネックである。 FedAvgやFedAdamのようなコミュニケーション効率のよいフェデレーション学習手法は、異なるクライアント間で同じ学習率を共有している。 しかし、データが不均一である場合、効率は良くない。 最適化手法の性能を最大化するためには,コンバージェンスを損なうことなく学習率を調整する方法が主な課題である。 本稿では,amsgrad の局所的変種である fedlalr を提案し,各クライアントが局所的履歴勾配二乗法と同期学習率に基づいて学習率を調整する。 理論的解析により、クライアントが指定した学習速度スケジューリングは、クライアント数に対して線形スピードアップを収束させることができ、フェデレート最適化における有望なスケーラビリティを実現する。 また,提案手法を複数の通信効率のよいフェデレーション最適化手法と比較した。 コンピュータビジョン(cv)タスクと自然言語処理(nlp)タスクの広範な実験結果から,フェデラー法の有効性を示し,理論的知見とも一致した。

Federated learning is an emerging distributed machine learning method, enables a large number of clients to train a model without exchanging their local data. The time cost of communication is an essential bottleneck in federated learning, especially for training large-scale deep neural networks. Some communication-efficient federated learning methods, such as FedAvg and FedAdam, share the same learning rate across different clients. But they are not efficient when data is heterogeneous. To maximize the performance of optimization methods, the main challenge is how to adjust the learning rate without hurting the convergence. In this paper, we propose a heterogeneous local variant of AMSGrad, named FedLALR, in which each client adjusts its learning rate based on local historical gradient squares and synchronized learning rates. Theoretical analysis shows that our client-specified auto-tuned learning rate scheduling can converge and achieve linear speedup with respect to the number of clients, which enables promising scalability in federated optimization. We also empirically compare our method with several communication-efficient federated optimization methods. Extensive experimental results on Computer Vision (CV) tasks and Natural Language Processing (NLP) task show the efficacy of our proposed FedLALR method and also coincides with our theoretical findings.
翻訳日:2023-09-19 13:43:47 公開日:2023-09-18
# 多項テンソル分解

Multi-Dictionary Tensor Decomposition ( http://arxiv.org/abs/2309.09717v1 )

ライセンス: Link先を確認
Maxwell McNeil and Petko Bogdanov(参考訳) テンソル分解法は、ソーシャルメディア、医療、時空間領域などのマルチウェイデータセットを解析するための一般的なツールである。 タッカーや正準多進分解(CPD)のような広く採用されているモデルは、テンソルを観測されたデータをよく近似する因子に分解するという、データ駆動の哲学に従っている。 場合によっては、テンソルモードに関するサイド情報が得られる。 例えば、テンポラリユーザ項目購入テンソルでは、ユーザ影響グラフ、アイテム類似度グラフ、および、テンポラリモードにおける季節性またはトレンドに関する知識が利用可能である。 このようなサイド情報は、より簡潔で解釈可能なテンソル分解モデルを可能にし、下流タスクの品質を向上させることができる。 符号化辞書の形式でテンソルモードに関する事前構造情報を利用して,疎符号化テンソル係数を求める多次元テンソル分解(MDTD)の枠組みを提案する。 我々は,mdtdの一般最適化アルゴリズムを導出し,完全入力と入力の両方を欠いた値で処理する。 我々のフレームワークは、多くの現実世界のアプリケーションドメインに典型的な大きなスパーステンソルを扱う。 我々は合成データセットと実世界のデータセットの両方を用いた実験を通じてmdtdの有用性を実証する。 辞書のないものよりも簡潔なモデルを学び、改良する (i)復元品質(非ゼロ係数を少なくし、誤差を小さくする) (ii)欠落値の含意品質(最大桁の時間節約による2倍のmse削減) (iii)テンソルランクの推定。 MDTDの品質改善にはランニングタイムプレミアムがない。1分以内で19GBのデータセットを分解できる。 また、最先端の競争相手よりも、数十億のテンソルの不足値をより正確かつスカラに引き起こすこともできる。

Tensor decomposition methods are popular tools for analysis of multi-way datasets from social media, healthcare, spatio-temporal domains, and others. Widely adopted models such as Tucker and canonical polyadic decomposition (CPD) follow a data-driven philosophy: they decompose a tensor into factors that approximate the observed data well. In some cases side information is available about the tensor modes. For example, in a temporal user-item purchases tensor a user influence graph, an item similarity graph, and knowledge about seasonality or trends in the temporal mode may be available. Such side information may enable more succinct and interpretable tensor decomposition models and improved quality in downstream tasks. We propose a framework for Multi-Dictionary Tensor Decomposition (MDTD) which takes advantage of prior structural information about tensor modes in the form of coding dictionaries to obtain sparsely encoded tensor factors. We derive a general optimization algorithm for MDTD that handles both complete input and input with missing values. Our framework handles large sparse tensors typical to many real-world application domains. We demonstrate MDTD's utility via experiments with both synthetic and real-world datasets. It learns more concise models than dictionary-free counterparts and improves (i) reconstruction quality ($60\%$ fewer non-zero coefficients coupled with smaller error); (ii) missing values imputation quality (two-fold MSE reduction with up to orders of magnitude time savings) and (iii) the estimation of the tensor rank. MDTD's quality improvements do not come with a running time premium: it can decompose $19GB$ datasets in less than a minute. It can also impute missing values in sparse billion-entry tensors more accurately and scalably than state-of-the-art competitors.
翻訳日:2023-09-19 13:43:25 公開日:2023-09-18
# マルチタスク学習による非負のサンプルを用いたスパン型連成関係抽出

Dealing with negative samples with multi-task learning on span-based joint entity-relation extraction ( http://arxiv.org/abs/2309.09713v1 )

ライセンス: Link先を確認
Chenguang Xue and Jiamin Lu(参考訳) 最近のスパン型関節抽出モデルでは, 実体認識と関係抽出の両方において大きな利点がある。 これらのモデルはテキストスパンを候補エンティティとして扱い、ペアを候補関係タプルとして扱い、ADEのようなデータセットで最先端の結果を達成する。 しかし、これらのモデルは、タスク中にかなりの数の非エンティティスパンまたは無関係スパンペアに遭遇し、モデルパフォーマンスを著しく損なう。 本稿では,スパン型マルチタスク・エンティティ・リレーショナル・ジョイント抽出モデルを提案する。 このアプローチでは、エンティティと関係分類器に対する負のサンプルの影響を軽減するためにマルチタスク学習を用いる。 さらに、IoU(Intersection over Union)の概念を利用して、位置情報をエンティティ分類器に導入し、スパン境界検出を実現する。 さらに、エンティティ分類器によって予測されるエンティティログをエンティティペアの埋め込み表現に組み込むことで、関係分類器のセマンティックインプットが強化される。 実験の結果,提案するspert.mtモデルは,過剰な負のサンプルがモデル性能に与える影響を効果的に軽減できることがわかった。 さらにconll04, scierc, adeの3つの広く採用されている公開データセットにおいて, 73.61\%, 53.72\%, 83.72\%のf1スコアを示した。

Recent span-based joint extraction models have demonstrated significant advantages in both entity recognition and relation extraction. These models treat text spans as candidate entities, and span pairs as candidate relationship tuples, achieving state-of-the-art results on datasets like ADE. However, these models encounter a significant number of non-entity spans or irrelevant span pairs during the tasks, impairing model performance significantly. To address this issue, this paper introduces a span-based multitask entity-relation joint extraction model. This approach employs the multitask learning to alleviate the impact of negative samples on entity and relation classifiers. Additionally, we leverage the Intersection over Union(IoU) concept to introduce the positional information into the entity classifier, achieving a span boundary detection. Furthermore, by incorporating the entity Logits predicted by the entity classifier into the embedded representation of entity pairs, the semantic input for the relation classifier is enriched. Experimental results demonstrate that our proposed SpERT.MT model can effectively mitigate the adverse effects of excessive negative samples on the model performance. Furthermore, the model demonstrated commendable F1 scores of 73.61\%, 53.72\%, and 83.72\% on three widely employed public datasets, namely CoNLL04, SciERC, and ADE, respectively.
翻訳日:2023-09-19 13:43:03 公開日:2023-09-18
# catr : 視覚映像セグメンテーションのための組合せ依存音声問合せトランスフォーマ

CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video Segmentation ( http://arxiv.org/abs/2309.09709v1 )

ライセンス: Link先を確認
Kexin Li, Zongxin Yang, Lei Chen, Yi Yang, Jun Xun(参考訳) AVVS (Audio-visual video segmentation) は、画像フレーム内の音声生成対象のピクセルレベルのマップを生成し、ビデオ内の歌唱者の識別やセグメント化など、所定のオーディオに忠実に忠実に固執することを目的としている。 しかし、既存の方法には2つの制限がある。 1)映像の時間的特徴と音声と視覚の対話的特徴を別々に扱い、音声と映像の組み合わせの空間的時間的依存性を無視し、 2) 復号段階では音声制約やオブジェクトレベルの情報が不十分であり, 音声指示に従わないセグメント化の結果が得られた。 そこで本稿では,これらの問題に対処するために,各時間的および空間的次元から音声と映像の機能を結合した,分離したオーディオビデオトランスフォーマを提案する。 メモリ消費を最適化するために、スタックすると、メモリ効率のよい方法で、視聴覚のきめ細かな組合せ依存性をキャプチャできるブロックを設計する。 さらに,復号段階での音声制約クエリも導入する。 これらのクエリにはリッチなオブジェクトレベルの情報が含まれており、デコードされたマスクが音に付着することを保証する。 実験により,2つのバックボーンを用いた3つのデータセットに対して,新たなSOTA性能を実現することにより,アプローチの有効性を確認した。 コードは \url{https://github.com/aspirinone/catr.github.io} で入手できる。

Audio-visual video segmentation~(AVVS) aims to generate pixel-level maps of sound-producing objects within image frames and ensure the maps faithfully adhere to the given audio, such as identifying and segmenting a singing person in a video. However, existing methods exhibit two limitations: 1) they address video temporal features and audio-visual interactive features separately, disregarding the inherent spatial-temporal dependence of combined audio and video, and 2) they inadequately introduce audio constraints and object-level information during the decoding stage, resulting in segmentation outcomes that fail to comply with audio directives. To tackle these issues, we propose a decoupled audio-video transformer that combines audio and video features from their respective temporal and spatial dimensions, capturing their combined dependence. To optimize memory consumption, we design a block, which, when stacked, enables capturing audio-visual fine-grained combinatorial-dependence in a memory-efficient manner. Additionally, we introduce audio-constrained queries during the decoding phase. These queries contain rich object-level information, ensuring the decoded mask adheres to the sounds. Experimental results confirm our approach's effectiveness, with our framework achieving a new SOTA performance on all three datasets using two backbones. The code is available at \url{https://github.com/aspirinone/CATR.github.io}
翻訳日:2023-09-19 13:42:37 公開日:2023-09-18
# LLM4ジョブ:大規模言語モデルを活用した教師なし職業抽出と標準化

LLM4Jobs: Unsupervised occupation extraction and standardization leveraging Large Language Models ( http://arxiv.org/abs/2309.09708v1 )

ライセンス: Link先を確認
Nan Li, Bo Kang, Tijl De Bie(参考訳) 職業推薦や労働市場政策形成などのアプリケーションには、フリーテキストの求人や履歴書からの職業の自動抽出と標準化が不可欠である。 本稿では,LLM4Jobsについて紹介する。LLM4Jobsは,大規模言語モデル(LLM)の職業的符号化能力を活用する,教師なしの方法論である。 LLM4JobsはLLMの自然言語理解と生成能力の両方を活用する。 合成および実世界のデータセットに対する厳密な実験を評価した結果、LLM4Jobsは教師なしの最先端ベンチマークを一貫して上回り、多様なデータセットや粒度にまたがる汎用性を実証した。 我々の研究の副産物として、この領域におけるその後の研究に役立つかもしれない合成データセットと実世界のデータセットを提示する。 全体として、この調査は、占領の抽出と標準化の複雑な作業に対する現代のLLMの約束を強調しており、研究と産業の文脈の両方に関連する堅牢で適応可能な枠組みの基礎を築いた。

Automated occupation extraction and standardization from free-text job postings and resumes are crucial for applications like job recommendation and labor market policy formation. This paper introduces LLM4Jobs, a novel unsupervised methodology that taps into the capabilities of large language models (LLMs) for occupation coding. LLM4Jobs uniquely harnesses both the natural language understanding and generation capacities of LLMs. Evaluated on rigorous experimentation on synthetic and real-world datasets, we demonstrate that LLM4Jobs consistently surpasses unsupervised state-of-the-art benchmarks, demonstrating its versatility across diverse datasets and granularities. As a side result of our work, we present both synthetic and real-world datasets, which may be instrumental for subsequent research in this domain. Overall, this investigation highlights the promise of contemporary LLMs for the intricate task of occupation extraction and standardization, laying the foundation for a robust and adaptable framework relevant to both research and industrial contexts.
翻訳日:2023-09-19 13:42:10 公開日:2023-09-18
# 電気駆動量子ドットレーザーにおける広帯域振幅スクイーズ

Broadband amplitude squeezing in electrically driven quantum dot lasers ( http://arxiv.org/abs/2309.09703v1 )

ライセンス: Link先を確認
Shiyuan Zhao, Shihao Ding, Heming Huang, Isabelle Zaquine, Nicolas Fabre, Nadia Belabas, Fr\'ed\'eric Grillot(参考訳) 光を絞り込んだ広帯域状態の発生は、高速連続変動量子情報の核心にある。 伝統的に、光学的非線形相互作用は二次定常状態を生成するために用いられている。 しかし、電気励起半導体レーザの活用は、スクイーズ性能の向上を達成するための独特のパラダイムを提供する。 量子ドットレーザーにより、広帯域の振幅系列状態が室温で3ghzから12ghzの範囲の広い周波数範囲で実現可能であることを示す。 結果は実験データと一致した包括的確率シミュレーションによって裏付けられる。

The generation of broadband squeezed states of light lies at the heart of high-speed continuous-variable quantum information. Traditionally, optical nonlinear interactions have been employed to produce quadrature-squeezed states. However, the harnessing of electrically pumped semiconductor lasers offers distinctive paradigms to achieve enhanced squeezing performance. We present evidence that quantum dot lasers enable the realization of broadband amplitude-squeezed states at room temperature across a wide frequency range, spanning from 3 GHz to 12 GHz. Our findings are corroborated by a comprehensive stochastic simulation in agreement with the experimental data.
翻訳日:2023-09-19 13:41:53 公開日:2023-09-18
# ディープラーニングエージェントの情報ベース説明法と大規模オープンソースチェスモデルへの応用

Information based explanation methods for deep learning agents -- with applications on large open-source chess models ( http://arxiv.org/abs/2309.09702v1 )

ライセンス: Link先を確認
Patrik Hammersborg and Inga Str\"umke(参考訳) AlphaZeroのような大規模なチェス演奏ニューラルネットワークモデルでは、コンピュータチェスの世界における芸術の状態を争うが、それ自身には2つの課題がある: このようなモデルによって内部化されているドメイン知識を説明する方法と、そのようなモデルが公開されていないという問題。 この研究は、McGrath et al. (2022)でAlphaZeroに適用された概念検出手法の再実装を、同等の性能を持つ大規模なオープンソースのチェスモデルを用いて提案する。 オープンソースリソースにのみ依存しながら,AlphaZeroで達成した結果と同じような結果が得られる。 また,説明モデルが使用する情報に対して,徹底的かつ排他的に強調できる新しい説明可能なai(xai)手法を提案する。 この方法は、チェスの場合と同様に、離散入力空間によって特徴づけられる領域に合わせた視覚的な説明を生成する。 提案手法は,任意の入力ベクトルと与えられたモデル間の情報フローを制御するための望ましい特性を持ち,その結果として,トレーニングされたモデルが推論中に使用する情報について厳密な保証を提供する。 本手法は,大規模オープンソースチェスモデルを用いて,標準8x8チェスに適用することにより実現可能性を示す。

With large chess-playing neural network models like AlphaZero contesting the state of the art within the world of computerised chess, two challenges present themselves: The question of how to explain the domain knowledge internalised by such models, and the problem that such models are not made openly available. This work presents the re-implementation of the concept detection methodology applied to AlphaZero in McGrath et al. (2022), by using large, open-source chess models with comparable performance. We obtain results similar to those achieved on AlphaZero, while relying solely on open-source resources. We also present a novel explainable AI (XAI) method, which is guaranteed to highlight exhaustively and exclusively the information used by the explained model. This method generates visual explanations tailored to domains characterised by discrete input spaces, as is the case for chess. Our presented method has the desirable property of controlling the information flow between any input vector and the given model, which in turn provides strict guarantees regarding what information is used by the trained model during inference. We demonstrate the viability of our method by applying it to standard 8x8 chess, using large open-source chess models.
翻訳日:2023-09-19 13:41:46 公開日:2023-09-18
# 固定型ニューラルネットワークステガノグラフィの確保

Securing Fixed Neural Network Steganography ( http://arxiv.org/abs/2309.09700v1 )

ライセンス: Link先を確認
Zicong Luo, Sheng Li, Guobiao Li, Zhenxing Qian and Xinpeng Zhang(参考訳) 画像ステガノグラフィ(英: image steganography)とは、画像に秘密情報を隠す技術で、不正な当事者には受け入れられない。 最近の進歩により、秘密の埋め込みと抽出に固定ニューラルネットワーク(fnn)を使うことができる。 このような固定型ニューラルネットワークステガノグラフィ(FNNS)は、ネットワークをトレーニングせずに高いステガノグラフィのパフォーマンスを達成する。 しかし、既存のFNNSスキームは、誰でもステゴイメージから秘密を抽出できるという意味で脆弱である。 この問題に対処するために、FNNSのセキュリティを改善するためのキーベースのFNNSスキームを提案し、データ埋め込みのためのFNNから鍵制御摂動を生成する。 これにより、鍵を有する受信機のみ、FNNを用いてステゴイメージから秘密を正しく抽出することができる。 さらに,スチーゴ画像の視覚的品質と検出不能性を改善するため,摂動コストを考慮した適応的摂動最適化戦略を提案する。 実験の結果,提案手法はステゴイメージから無許可の秘密抽出を防止できることがわかった。 さらに,FNNが通常の学習タスクのためのニューラルネットワークである場合には,現状のFNNS方式よりも高画質のステゴイメージを生成することができる。

Image steganography is the art of concealing secret information in images in a way that is imperceptible to unauthorized parties. Recent advances show that is possible to use a fixed neural network (FNN) for secret embedding and extraction. Such fixed neural network steganography (FNNS) achieves high steganographic performance without training the networks, which could be more useful in real-world applications. However, the existing FNNS schemes are vulnerable in the sense that anyone can extract the secret from the stego-image. To deal with this issue, we propose a key-based FNNS scheme to improve the security of the FNNS, where we generate key-controlled perturbations from the FNN for data embedding. As such, only the receiver who possesses the key is able to correctly extract the secret from the stego-image using the FNN. In order to improve the visual quality and undetectability of the stego-image, we further propose an adaptive perturbation optimization strategy by taking the perturbation cost into account. Experimental results show that our proposed scheme is capable of preventing unauthorized secret extraction from the stego-images. Furthermore, our scheme is able to generate stego-images with higher visual quality than the state-of-the-art FNNS scheme, especially when the FNN is a neural network for ordinary learning tasks.
翻訳日:2023-09-19 13:41:24 公開日:2023-09-18
# 新型コロナウイルスの適応的予測のためのデータ駆動手法に関する研究

A Study of Data-driven Methods for Adaptive Forecasting of COVID-19 Cases ( http://arxiv.org/abs/2309.09698v1 )

ライセンス: Link先を確認
Charithea Stylianides, Kleanthis Malialis, Panayiotis Kolios(参考訳) 重篤な急性呼吸器疾患SARS-CoV-2は、公衆衛生システムや救急医療の緊急対応に特に、どの時点でも最も効果的な措置を講ずる決定に影響を及ぼしている。 新型コロナウイルスによる過去3年間に実証されたように、陽性症例数の予測は意思決定を促進する効果的な方法となり得る。 しかし、データの可用性が限られており、ウイルスの透過性が極めて動的で不確実であるため、この課題は非常に困難である。 これらの課題を調査し、この問題に対処するために、これらの非定常条件に適応するモデルを漸進的に訓練するためのデータ駆動(学習、統計)手法を研究する。 本研究では,ウイルス波毎の性能解析,特徴抽出,「振り返り」ウィンドウサイズ,メモリサイズ,次の7日,14日の予測タスクなど,様々な特性について実験的に検討した。 この段階的な学習フレームワークは、上記の課題にうまく対処し、アウトブレイク時にうまく機能し、正確な予測が可能であることを実証する。

Severe acute respiratory disease SARS-CoV-2 has had a found impact on public health systems and healthcare emergency response especially with respect to making decisions on the most effective measures to be taken at any given time. As demonstrated throughout the last three years with COVID-19, the prediction of the number of positive cases can be an effective way to facilitate decision-making. However, the limited availability of data and the highly dynamic and uncertain nature of the virus transmissibility makes this task very challenging. Aiming at investigating these challenges and in order to address this problem, this work studies data-driven (learning, statistical) methods for incrementally training models to adapt to these nonstationary conditions. An extensive empirical study is conducted to examine various characteristics, such as, performance analysis on a per virus wave basis, feature extraction, "lookback" window size, memory size, all for next-, 7-, and 14-day forecasting tasks. We demonstrate that the incremental learning framework can successfully address the aforementioned challenges and perform well during outbreaks, providing accurate predictions.
翻訳日:2023-09-19 13:41:01 公開日:2023-09-18
# 全ラベルを考慮した自然言語推論における事前学習言語モデルの性バイアス評価

Evaluating Gender Bias of Pre-trained Language Models in Natural Language Inference by Considering All Labels ( http://arxiv.org/abs/2309.09697v1 )

ライセンス: Link先を確認
Panatchakorn Anantaprayoon, Masahiro Kaneko, Naoaki Okazaki(参考訳) 性別バイアスを含む差別的社会バイアスは、事前訓練された言語モデル(plm)で発見されている。 自然言語推論(NLI)において、近年のバイアス評価手法は、中性やエンテーメントなどの特定のラベルの出力からバイアス付き推論を観測している。 しかし、異なるバイアス付き推論は異なる出力ラベルに関連付けられるため、メソッドが一つのラベルに依存することは不正確である。 本研究では,NLIタスクのすべてのラベルを考慮した評価手法を提案する。 評価データを作成し,期待されるバイアス付き出力ラベルに基づいてグループに割り当てる。 次に、各データグループの対応するラベル出力に基づいてバイアス測度を定義する。 実験では,NLI偏差測定のメタ評価法を提案し,それを用いて基準値よりも精度の高い偏差評価が可能であることを確認した。 また,本手法は英語,日本語,中国語の3言語におけるplmのメタ評価を行うことにより,複数の言語に適用できることを示す。 最後に,各言語のPLMを評価し,そのバイアス傾向を確認する。 私たちの知識では、まず評価データセットを構築し、日本語と中国語のnliタスクからplmのバイアスを計測します。

Discriminatory social biases, including gender biases, have been found in Pre-trained Language Models (PLMs). In Natural Language Inference (NLI), recent bias evaluation methods have observed biased inferences from the outputs of a particular label such as neutral or entailment. However, since different biased inferences can be associated with different output labels, it is inaccurate for a method to rely on one label. In this work, we propose an evaluation method that considers all labels in the NLI task. We create evaluation data and assign them into groups based on their expected biased output labels. Then, we define a bias measure based on the corresponding label output of each data group. In the experiment, we propose a meta-evaluation method for NLI bias measures, and then use it to confirm that our measure can evaluate bias more accurately than the baseline. Moreover, we show that our evaluation method is applicable to multiple languages by conducting the meta-evaluation on PLMs in three different languages: English, Japanese, and Chinese. Finally, we evaluate PLMs of each language to confirm their bias tendency. To our knowledge, we are the first to build evaluation datasets and measure the bias of PLMs from the NLI task in Japanese and Chinese.
翻訳日:2023-09-19 13:40:44 公開日:2023-09-18
# 4次元レーダーポイントクラウドによる移動物体検出と追跡

Moving Object Detection and Tracking with 4D Radar Point Cloud ( http://arxiv.org/abs/2309.09737v1 )

ライセンス: Link先を確認
Zhijun Pan, Fangqiang Ding, Hantao Zhong, Chris Xiaoxuan Lu(参考訳) モバイルの自律性は、動的環境の正確な認識に依存している。 3Dの世界における移動物体のロバストな追跡は、軌道予測、障害物回避、経路計画といったアプリケーションにおいて重要な役割を果たす。 現在のほとんどの手法では、LiDARやカメラを多重物体追跡(MOT)に利用しているが、4Dイメージングレーダーの能力はほとんど探索されていない。 4dレーダデータにおけるレーダノイズとポイントスパーシティの課題を認識し,レーダトラッキングに適した革新的なソリューションであるratrackを紹介する。 特定のオブジェクトタイプや3次元境界ボックスに典型的な依存を通すことで、動作推定モジュールによって強化された動きのセグメンテーションとクラスタリングに焦点をあてる。 View-of-Delftデータセットから評価すると、RaTrackは移動物体の追跡精度が優れており、ほとんどの場合、最先端のパフォーマンスを上回っている。

Mobile autonomy relies on the precise perception of dynamic environments. Robustly tracking moving objects in 3D world thus plays a pivotal role for applications like trajectory prediction, obstacle avoidance, and path planning. While most current methods utilize LiDARs or cameras for Multiple Object Tracking (MOT), the capabilities of 4D imaging radars remain largely unexplored. Recognizing the challenges posed by radar noise and point sparsity in 4D radar data, we introduce RaTrack, an innovative solution tailored for radar-based tracking. Bypassing the typical reliance on specific object types and 3D bounding boxes, our method focuses on motion segmentation and clustering, enriched by a motion estimation module. Evaluated on the View-of-Delft dataset, RaTrack showcases superior tracking precision of moving objects, largely surpassing the performance of the state of the art.
翻訳日:2023-09-19 13:32:53 公開日:2023-09-18
# 輸送ロボットスケジューリング問題に対する量子最適化のケーススタディ

A Quantum Optimization Case Study for a Transport Robot Scheduling Problem ( http://arxiv.org/abs/2309.09736v1 )

ライセンス: Link先を確認
Dominik Leib, Tobias Seidel, Sven J\"ager, Raoul Heese, Caitlin Isobel Jones, Abhishek Awasthi, Astrid Niederle, Michael Bortz(参考訳) 本稿では,d-wavesのquantum-classical hybrid framework,futsuのquantum-inspired digital annealer,gurobi's state-of-the-art classical solverの性能比較を行った。 この問題は、産業的に関連のある現実世界のシナリオに由来する。 我々は、異なる設計哲学に従う問題に対して、3つの異なるモデルを提供する。 ベンチマークでは、異なるモデルとソルバの組み合わせのソリューション品質とエンドツーエンドランタイムに焦点を当てています。 ディジタルアニールラーには有望な結果が得られ、グロビと直接比較すると、ハイブリッド量子アニールラーにはいくつかの機会がある。 本研究は、異なる戦略でアプリケーション指向最適化問題を解決するためのワークフローに関する洞察を提供し、異なるアプローチの強みと弱みを評価するのに有用である。

We present a comprehensive case study comparing the performance of D-Waves' quantum-classical hybrid framework, Fujitsu's quantum-inspired digital annealer, and Gurobi's state-of-the-art classical solver in solving a transport robot scheduling problem. This problem originates from an industrially relevant real-world scenario. We provide three different models for our problem following different design philosophies. In our benchmark, we focus on the solution quality and end-to-end runtime of different model and solver combinations. We find promising results for the digital annealer and some opportunities for the hybrid quantum annealer in direct comparison with Gurobi. Our study provides insights into the workflow for solving an application-oriented optimization problem with different strategies, and can be useful for evaluating the strengths and weaknesses of different approaches.
翻訳日:2023-09-19 13:32:37 公開日:2023-09-18
# flowpic 入力表現を用いた交通分類におけるコントラスト学習とデータ拡張

Contrastive Learning and Data Augmentation in Traffic Classification Using a Flowpic Input Representation ( http://arxiv.org/abs/2309.09733v1 )

ライセンス: Link先を確認
Alessandro Finamore, Chao Wang, Jonatan Krolikowski, Jose M. Navarro, Fuxing Chen, Dario Rossi(参考訳) 過去数年間、私たちは、ディープラーニング(dl)の台頭に魅了されたトラフィック分類(tc)に対する新たな関心を目の当たりにした。 しかし、TCの文献の大部分は、コードアーティファクト、データセット間のパフォーマンス評価、機械学習(ML)メソッドに対する参照比較を欠いている。 IMC'22 [17]の最近の研究は、いくつかのサンプルから学び、データセット間での転送を可能にするネットワークに訴える最近のDL方法論(すなわち、対照的な学習とデータ拡張による自己監督)を採用するので、注目に値する。 UCDAVIS19, ISCX-VPN, ISCX-Torデータセットの [17] の主な結果は、そのようなDL手法により、100個の入力サンプルが「フローピック」と呼ばれる入力表現を用いて非常に高い精度を達成することができることである。 この論文では i)同じデータセット上で[17]を再生し、 (II) MIRAGE-19, MIRAGE-22, UTMOBILENET21という3つの追加の公開データセット上で、最も健全な側面(データ拡張の重要性)を再現する。 元の結果の大部分は確認していますが、調査したシナリオの20%の精度低下は、私たちが発見した元のデータセットのデータシフトによるものです。 さらに, [17] で研究したデータ拡張戦略が,他のデータセットでもうまく機能することを検証した。 再現性と複製性の精神では、すべてのアーティファクト(コードとデータ)を[10]で利用できます。

Over the last years we witnessed a renewed interest towards Traffic Classification (TC) captivated by the rise of Deep Learning (DL). Yet, the vast majority of TC literature lacks code artifacts, performance assessments across datasets and reference comparisons against Machine Learning (ML) methods. Among those works, a recent study from IMC'22 [17] is worth of attention since it adopts recent DL methodologies (namely, few-shot learning, self-supervision via contrastive learning and data augmentation) appealing for networking as they enable to learn from a few samples and transfer across datasets. The main result of [17] on the UCDAVIS19, ISCX-VPN and ISCX-Tor datasets is that, with such DL methodologies, 100 input samples are enough to achieve very high accuracy using an input representation called "flowpic" (i.e., a per-flow 2d histograms of the packets size evolution over time). In this paper (i) we reproduce [17] on the same datasets and (ii) we replicate its most salient aspect (the importance of data augmentation) on three additional public datasets, MIRAGE-19, MIRAGE-22 and UTMOBILENET21. While we confirm most of the original results, we also found a 20% accuracy drop on some of the investigated scenarios due to a data shift in the original dataset that we uncovered. Additionally, our study validates that the data augmentation strategies studied in [17] perform well on other datasets too. In the spirit of reproducibility and replicability we make all artifacts (code and data) available at [10].
翻訳日:2023-09-19 13:32:22 公開日:2023-09-18
# ユニモン回路のマルチモード物理

Multimode physics of the unimon circuit ( http://arxiv.org/abs/2309.09732v1 )

ライセンス: Link先を確認
Sasu Tuohino, Vasilii Vadimov, Wallace S. Teixeira, Tommi Malmelin, Matti Silveri, Mikko M\"ott\"onen(参考訳) 超伝導半波長共振器を両端に接地し、ジョセフソン接合を1つ含むと考える。 以前は、この回路は単モード近似の単一量子ビットと見なされ、dc相が結合を$$\pi$にバイアスすることで非調和性が増加し、99.9%の実験的に観察された。 有望な最初の実験結果に触発されて、単調回路の多モード物理を詳細に理解するための理論的および数値モデルを開発した。 この目的のために、まず、単調回路の高周波モードを検討し、これらのモードがその基底状態にあるとしても、ジョセフソンエネルギーに対する顕著な再正規化を示唆する。 そこで本研究では,関連するモードを十分に考慮した効率的な手法を提案し,非励起高次モードが量子エネルギーと非調和性の補正につながることを示す。 興味深いことに、ジャンクションが回路の中央からオフセットされていることを考えると、いくつかの低層モード間の強いクロスカー結合強度が見つかる。 この観察は、例えば複数の量子ビットが1つのユニモン回路に埋め込まれるなど、マルチモード構造の利用の道を開く。

We consider a superconducting half-wavelength resonator that is grounded at its both ends and contains a single Josephson junction. Previously this circuit was considered as a unimon qubit in the single-mode approximation where dc-phase-biasing the junction to $\pi$ leads to increased anharmonicity and 99.9% experimentally observed single-qubit gate fidelity. Inspired by the promising first experimental results, we develop here a theoretical and numerical model for the detailed understanding of the multimode physics of the unimon circuit. To this end, first, we consider the high-frequency modes of the unimon circuit and find that even though these modes are at their ground state, they imply a significant renormalization to the Josephson energy. We introduce an efficient method how the relevant modes can be fully taken into account and show that unexcited high-lying modes lead to corrections in the qubit energy and anharmonicity. Interestingly, provided that the junction is offset from the middle of the circuit, we find strong cross-Kerr coupling strengths between a few low-lying modes. This observation paves the way for the utilization of the multimode structure, for example, as several qubits embedded into a single unimon circuit.
翻訳日:2023-09-19 13:31:52 公開日:2023-09-18
# 3分岐多拡張ネットワークによるクリブル型3次元腹部臓器セグメンテーション

Scribble-based 3D Multiple Abdominal Organ Segmentation via Triple-branch Multi-dilated Network with Pixel- and Class-wise Consistency ( http://arxiv.org/abs/2309.09730v1 )

ライセンス: Link先を確認
Meng Han, Xiangde Luo, Wenjun Liao, Shichuan Zhang, Shaoting Zhang, Guotai Wang(参考訳) 腹部ct画像におけるマルチオルガンセグメンテーションは腹部病変の診断とその後の治療計画に非常に重要である。 深層学習に基づく手法は高い性能を達成したが、時間を要する大規模ピクセルレベルのアノテーションに大きく依存している。 アノテーションへの依存が少ないため、弱い教師付きセグメンテーションが注目されている。 しかし、現在の弱教師付き手法と完全な教師付き学習の間には依然として大きなパフォーマンスギャップがあり、探索の余地は残されている。 そこで本研究では,CTからスクリブル制御された多発腹部臓器分節に対する2つの整合性制約を持つ新しい3Dフレームワークを提案する。 具体的には、1つのエンコーダと異なる拡張率を使用する3つのデコーダを備えたトリプルブランチマルチ拡張ネットワーク(tdnet)を使用して、互いに相補的な異なる受容フィールドから特徴をキャプチャし、高品質なソフト擬似ラベルを生成する。 より安定した教師なし学習のために、我々はvoxel-wise uncertaintyを使ってソフト擬似ラベルを正し、各デコーダの出力を監督する。 ネットワークをさらに正則化するために、生成されたクラス親和性行列を多視点投影下で異なるデコーダ間で一貫性を持たせ、クラス関係情報を活用する。 公開ワードデータセットを用いた実験により,提案手法が既存の5つのscribble-supervisedメソッドを上回っていることが示された。

Multi-organ segmentation in abdominal Computed Tomography (CT) images is of great importance for diagnosis of abdominal lesions and subsequent treatment planning. Though deep learning based methods have attained high performance, they rely heavily on large-scale pixel-level annotations that are time-consuming and labor-intensive to obtain. Due to its low dependency on annotation, weakly supervised segmentation has attracted great attention. However, there is still a large performance gap between current weakly-supervised methods and fully supervised learning, leaving room for exploration. In this work, we propose a novel 3D framework with two consistency constraints for scribble-supervised multiple abdominal organ segmentation from CT. Specifically, we employ a Triple-branch multi-Dilated network (TDNet) with one encoder and three decoders using different dilation rates to capture features from different receptive fields that are complementary to each other to generate high-quality soft pseudo labels. For more stable unsupervised learning, we use voxel-wise uncertainty to rectify the soft pseudo labels and then supervise the outputs of each decoder. To further regularize the network, class relationship information is exploited by encouraging the generated class affinity matrices to be consistent across different decoders under multi-view projection. Experiments on the public WORD dataset show that our method outperforms five existing scribble-supervised methods.
翻訳日:2023-09-19 13:31:28 公開日:2023-09-18
# 大きな言語モデルが引用を満たすとき:調査

When Large Language Models Meet Citation: A Survey ( http://arxiv.org/abs/2309.09727v1 )

ライセンス: Link先を確認
Yang Zhang, Yufei Wang, Kai Wang, Quan Z. Sheng, Lina Yao, Adnan Mahmood, Wei Emma Zhang and Rongying Zhao(参考訳) 学術作品における引用は、組み込まれたり、参照された知識の原典を承認し、信用するために必要な目的である。 周囲のテクストの文脈によって、これらの引用は異なる動機や目的のために使用される。 大きな言語モデル(llm)は、対応するテキストコンテキストを通じてこれらのきめ細かい引用情報を取得するのに役立つので、文学に対する理解を深めることができる。 さらに、これらの引用は科学論文間のつながりを確立し、高品質な文書間関係と人間の構築された知識を提供する。 このような情報は LLM の事前学習に組み込むことができ、LLM のテキスト表現を改善した。 そこで本稿では,llmと引用分析の相互に有益な関係を予備的に検討する。 具体的には,引用分類,引用に基づく要約,引用推薦など,テキスト内引用分析タスクに対するllmの適用について検討する。 次に、引用リンク知識を活用して、引用予測、ネットワーク構造情報、文書間関係を通じてllmのテキスト表現を改善する研究をまとめる。 最終的に、これらの現代的手法の概要を述べ、LLMと引用分析を組み合わせてさらなる研究を行うための有望な方法を提案する。

Citations in scholarly work serve the essential purpose of acknowledging and crediting the original sources of knowledge that have been incorporated or referenced. Depending on their surrounding textual context, these citations are used for different motivations and purposes. Large Language Models (LLMs) could be helpful in capturing these fine-grained citation information via the corresponding textual context, thereby enabling a better understanding towards the literature. Furthermore, these citations also establish connections among scientific papers, providing high-quality inter-document relationships and human-constructed knowledge. Such information could be incorporated into LLMs pre-training and improve the text representation in LLMs. Therefore, in this paper, we offer a preliminary review of the mutually beneficial relationship between LLMs and citation analysis. Specifically, we review the application of LLMs for in-text citation analysis tasks, including citation classification, citation-based summarization, and citation recommendation. We then summarize the research pertinent to leveraging citation linkage knowledge to improve text representations of LLMs via citation prediction, network structure information, and inter-document relationship. We finally provide an overview of these contemporary methods and put forth potential promising avenues in combining LLMs and citation analysis for further investigation.
翻訳日:2023-09-19 13:30:58 公開日:2023-09-18
# 不均衡データを用いたクロスエントロピー損失下における非拘束特徴モデルの神経崩壊

Neural Collapse for Unconstrained Feature Model under Cross-entropy Loss with Imbalanced Data ( http://arxiv.org/abs/2309.09725v1 )

ライセンス: Link先を確認
Wanli Hong and Shuyang Ling(参考訳) 近年、コンピュータビジョンやテキスト処理の様々なタスクにおいて、ディープニューラルネットワーク(DNN)が大きな成功を収めているのを目撃している。 興味深いことに、大量のパラメータを持つこれらのDNNは、特徴表現と終末期(TPT)における最終層分類器に類似した構造特性を共有している。 具体的には、トレーニングデータ(各クラスが同じサンプル数を共有する)のバランスをとると、同じクラスのサンプルの特徴ベクトルが対応するクラス内平均特徴に収束し、ペアワイズ角が同じであることが観察される。 この現象は、2019年にパパヤン、ハン、ドノホによって初めて言及されたNeural Collapse(NC)として知られている。 近年の多くの研究は、いわゆるunconstrained feature model(ufm)を採用してこの現象を理論的に説明している。 本稿では,非拘束特徴モデルの文脈におけるクロスエントロピー損失関数下の不均衡データへの n c 現象の拡張について検討する。 私たちの貢献は最先端の成果と比較すると多様です。 (a)特徴ベクトルが崩壊現象、すなわち同じクラス内の特徴が同じ平均ベクトルに崩壊することを示す。 b) 平均特徴ベクトルは、もはや等角的タイトフレームを形成しない。 その代わりに、その対角はサンプルサイズに依存する。 (c) 少数群の崩壊(少数群の特徴ベクトルが1つのベクトルに崩壊する)が起こるシャープしきい値も正確に特徴づける。 (d)最後に、サンプルサイズが大きくなるとデータサイズの不均衡の影響が減少する。 以上より,不均衡データに対するクロスエントロピー損失下でのn c の全体像を示す。 数値実験は我々の理論解析を裏付ける。

Recent years have witnessed the huge success of deep neural networks (DNNs) in various tasks of computer vision and text processing. Interestingly, these DNNs with massive number of parameters share similar structural properties on their feature representation and last-layer classifier at terminal phase of training (TPT). Specifically, if the training data are balanced (each class shares the same number of samples), it is observed that the feature vectors of samples from the same class converge to their corresponding in-class mean features and their pairwise angles are the same. This fascinating phenomenon is known as Neural Collapse (N C), first termed by Papyan, Han, and Donoho in 2019. Many recent works manage to theoretically explain this phenomenon by adopting so-called unconstrained feature model (UFM). In this paper, we study the extension of N C phenomenon to the imbalanced data under cross-entropy loss function in the context of unconstrained feature model. Our contribution is multi-fold compared with the state-of-the-art results: (a) we show that the feature vectors exhibit collapse phenomenon, i.e., the features within the same class collapse to the same mean vector; (b) the mean feature vectors no longer form an equiangular tight frame. Instead, their pairwise angles depend on the sample size; (c) we also precisely characterize the sharp threshold on which the minority collapse (the feature vectors of the minority groups collapse to one single vector) will take place; (d) finally, we argue that the effect of the imbalance in datasize diminishes as the sample size grows. Our results provide a complete picture of the N C under the cross-entropy loss for the imbalanced data. Numerical experiments confirm our theoretical analysis.
翻訳日:2023-09-19 13:30:40 公開日:2023-09-18
# 微分可能レンダリングを用いたロバスト形状保存深度推定

Robust Geometry-Preserving Depth Estimation Using Differentiable Rendering ( http://arxiv.org/abs/2309.09724v1 )

ライセンス: Link先を確認
Chi Zhang, Wei Yin, Gang Yu, Zhibin Wang, Tao Chen, Bin Fu, Joey Tianyi Zhou, Chunhua Shen(参考訳) 本研究では,単眼深度推定による3次元シーン構造復元の課題に対処する。 従来の深度推定手法はラベル付きデータセットを利用して絶対深度を直接予測するが、最近の進歩はミックスデータセットのトレーニングを提唱し、多様な場面での一般化を促進している。 しかし、これらの混合データセットトレーニングは、未知のスケールとシフトのみの深さ予測をもたらし、正確な3d再構成を妨げる。 既存のソリューションには、余分な3dデータセットやジオメトリ完全深度アノテーションが必要であり、その汎用性を制限する制約がある。 本稿では,余分なデータやアノテーションを必要とせずに,幾何保存深度を予測するためのモデルを訓練する学習フレームワークを提案する。 現実的な3次元構造を実現するために,再構成されたシーンの新しいビューと設計損失関数を作成し,異なるビュー間の深さ推定一貫性を促進する。 総合的な実験は、余分なトレーニング情報を活用することなく、いくつかのベンチマークデータセット上の既存の最先端メソッドを越え、我々のフレームワークの優れた一般化能力を強調します。 さらに,革新的損失関数は,ラベルなしの画像のみを用いて,自律的にドメイン固有スケール・シフト係数を回復させる。

In this study, we address the challenge of 3D scene structure recovery from monocular depth estimation. While traditional depth estimation methods leverage labeled datasets to directly predict absolute depth, recent advancements advocate for mix-dataset training, enhancing generalization across diverse scenes. However, such mixed dataset training yields depth predictions only up to an unknown scale and shift, hindering accurate 3D reconstructions. Existing solutions necessitate extra 3D datasets or geometry-complete depth annotations, constraints that limit their versatility. In this paper, we propose a learning framework that trains models to predict geometry-preserving depth without requiring extra data or annotations. To produce realistic 3D structures, we render novel views of the reconstructed scenes and design loss functions to promote depth estimation consistency across different views. Comprehensive experiments underscore our framework's superior generalization capabilities, surpassing existing state-of-the-art methods on several benchmark datasets without leveraging extra training information. Moreover, our innovative loss functions empower the model to autonomously recover domain-specific scale-and-shift coefficients using solely unlabeled images.
翻訳日:2023-09-19 13:30:14 公開日:2023-09-18
# シリコン-金属-酸化物-半導体二重量子ドットにおける一重項状態の読み出し

Singlet-triplet-state readout in silicon-metal-oxide-semiconductor double quantum dots ( http://arxiv.org/abs/2309.09723v1 )

ライセンス: Link先を確認
Rong-Long Ma, Sheng-Kai Zhu, Zhen-Zhen Kong, Tai-Ping Sun, Ming Ni, Yu-Chen Zhou, Yuan Zhou, Gang Luo, Gang Cao, Gui-Lei Wang, Hai-Ou Li and Guo-Ping Guo(参考訳) 大規模量子コンピューティングでは,高忠実度シングルトリップ状態の読み出しが不可欠である。 しかし, 平均値と定しきい値を比較するために広く用いられているしきい値法では, 緩和時間と信号対雑音比の制限の下で, 特に緩和三重項状態の判定精度が制限される。 そこで我々は,Si-MOS二重量子ドットデバイスにおけるパウリスピン遮断に基づく拡張ラッチ読み出しを実現し,しきい値法により平均シングルトリップ状態読み出し精度が97.59%であることを示す。 緩和三重項状態分類のしきい値法に固有の欠如を明らかにし,学習を緩和非依存の読み出し法として導入し,誤判断を低減した。 シミュレーションされたシングルショットトレースを分類する読み出し精度は、実験結果と一致した97.54%のしきい値法よりも、機械学習によって99.67%向上することができる。 本研究は、大規模量子コンピューティングにおいて、高精度かつ高精度な一重項状態読み出しを安定的に達成する制限を緩和する上で、機械学習法が強力な潜在的な候補となることを示す。

High-fidelity singlet-triplet state readout is essential for large-scale quantum computing. However, the widely used threshold method of comparing a mean value with the fixed threshold will limit the judgment accuracy, especially for the relaxed triplet state, under the restriction of relaxation time and signal-to-noise ratio. Here, we achieve an enhanced latching readout based on Pauli spin blockade in a Si-MOS double quantum dot device and demonstrate an average singlet-triplet state readout fidelity of 97.59% by the threshold method. We reveal the inherent deficiency of the threshold method for the relaxed triplet state classification and introduce machine learning as a relaxation-independent readout method to reduce the misjudgment. The readout fidelity for classifying the simulated single-shot traces can be improved to 99.67% by machine learning method, better than the threshold method of 97.54% which is consistent with the experimental result. This work indicates that machine learning method can be a strong potential candidate for alleviating the restrictions of stably achieving high-fidelity and high-accuracy singlet-triplet state readout in large-scale quantum computing.
翻訳日:2023-09-19 13:29:54 公開日:2023-09-18
# トラフィックシーンの類似性:グラフベースのコントラスト学習アプローチ

Traffic Scene Similarity: a Graph-based Contrastive Learning Approach ( http://arxiv.org/abs/2309.09720v1 )

ライセンス: Link先を確認
Maximilian Zipfl, Moritz Jarosch, and J. Marius Z\"ollner(参考訳) 高度自動走行の検証の確保は、高度自動走行車両の普及に重大な障害をもたらす。 シナリオベースのテストは、これらのシステムに必要な均質化労力を減らすことで潜在的な解決策を提供する。 しかし、重要な前提条件の1つは、テスト空間の定義と有限個のシナリオへの縮小である。 この課題に取り組むために,グラフを用いて有意義な埋め込み空間を構築するコントラスト学習手法の拡張を提案する。 本手法は,シーン特有の特徴を用いたシーンの連続マッピングと,得られた埋め込みに基づくテーマ的に類似したクラスタの生成を示す。 検出されたクラスタに基づいて、同様のシーンがその後のテストプロセスで識別できるため、冗長なテストの実行が削減される可能性がある。

Ensuring validation for highly automated driving poses significant obstacles to the widespread adoption of highly automated vehicles. Scenario-based testing offers a potential solution by reducing the homologation effort required for these systems. However, a crucial prerequisite, yet unresolved, is the definition and reduction of the test space to a finite number of scenarios. To tackle this challenge, we propose an extension to a contrastive learning approach utilizing graphs to construct a meaningful embedding space. Our approach demonstrates the continuous mapping of scenes using scene-specific features and the formation of thematically similar clusters based on the resulting embeddings. Based on the found clusters, similar scenes could be identified in the subsequent test process, which can lead to a reduction in redundant test runs.
翻訳日:2023-09-19 13:29:35 公開日:2023-09-18
# データソンのデータの扱い方

How to Data in Datathons ( http://arxiv.org/abs/2309.09770v1 )

ライセンス: Link先を確認
Carlos Mougan, Richard Plant, Clare Teng, Marya Bazzi, Alvaro Cabregas Ejea, Ryan Sze-Yin Chan, David Salvador Jasin, Martin Stoffel, Kirstie Jane Whitaker, Jules Manser(参考訳) datathonsはdataまたはdata scienceハッカソンとしても知られ、短い時間枠で協力し、学び、革新するプラットフォームを提供している。 潜在的なメリットがあるにもかかわらず、組織はしばしば、潜在的な問題に対して明確なガイドラインとベストプラクティスが欠如しているため、データを扱うのに苦労する。 2016年以降、60以上の提携組織で80以上のデータthonチャレンジを組織した経験と洞察をもとに、オーガナイザがデータthonのデータ関連の複雑さをナビゲートするためのリソースとして役立つガイドラインとレコメンデーションを提供しています。 提案フレームワークを10のケーススタディに適用する。

The rise of datathons, also known as data or data science hackathons, has provided a platform to collaborate, learn, and innovate in a short timeframe. Despite their significant potential benefits, organizations often struggle to effectively work with data due to a lack of clear guidelines and best practices for potential issues that might arise. Drawing on our own experiences and insights from organizing >80 datathon challenges with >60 partnership organizations since 2016, we provide guidelines and recommendations that serve as a resource for organizers to navigate the data-related complexities of datathons. We apply our proposed framework to 10 case studies.
翻訳日:2023-09-19 13:23:52 公開日:2023-09-18
# 局所化誘導トラック:検出の局所化信頼に基づくディープアソシエーション多目的追跡フレームワーク

Localization-Guided Track: A Deep Association Multi-Object Tracking Framework Based on Localization Confidence of Detections ( http://arxiv.org/abs/2309.09765v1 )

ライセンス: Link先を確認
Ting Meng, Chunyun Fu, Mingguang Huang, Xiyang Wang, Jiawei He, Tao Huang, Wankai Shi(参考訳) 現在入手可能な文献では,検出ボックスの局所化信頼度を考慮したTBDパラダイムに基づくトラッキング手法が存在しない。 多くのTBD法では、検出信頼度が低いオブジェクトは極めて無視されているため、そのようなオブジェクトを直接無視したり、マッチングの優先度を下げたりするのが普通であると考えられる。 加えて、外観の類似性はこれらのオブジェクトをマッチングするために考慮すべき要素ではない。 しかし, 分類と局所化を併用した検出信頼度では, 検出信頼度の低い物体は不正確な局所性を持つが, 明瞭な外観を持つ可能性がある。 これらの問題を考慮し,地域誘導トラック (LG-Track) を提案する。 まず,MOTにおける局所化信頼度を初めて適用し,検出ボックスの見かけの明快さと局所化精度を考慮し,効果的な深部結合機構を設計し,分類信頼度と局所化信頼度に基づいて,より適切なコスト行列を選択して利用することができるようにし,MOT17およびMOT20データセットに対して広範な実験を行った。 その結果,提案手法は比較した最先端追跡手法に勝ることがわかった。 コミュニティの利益のために、私たちのコードはhttps://github.com/mengting2023/LG-Track.comで公開されています。

In currently available literature, no tracking-by-detection (TBD) paradigm-based tracking method has considered the localization confidence of detection boxes. In most TBD-based methods, it is considered that objects of low detection confidence are highly occluded and thus it is a normal practice to directly disregard such objects or to reduce their priority in matching. In addition, appearance similarity is not a factor to consider for matching these objects. However, in terms of the detection confidence fusing classification and localization, objects of low detection confidence may have inaccurate localization but clear appearance; similarly, objects of high detection confidence may have inaccurate localization or unclear appearance; yet these objects are not further classified. In view of these issues, we propose Localization-Guided Track (LG-Track). Firstly, localization confidence is applied in MOT for the first time, with appearance clarity and localization accuracy of detection boxes taken into account, and an effective deep association mechanism is designed; secondly, based on the classification confidence and localization confidence, a more appropriate cost matrix can be selected and used; finally, extensive experiments have been conducted on MOT17 and MOT20 datasets. The results show that our proposed method outperforms the compared state-of-art tracking methods. For the benefit of the community, our code has been made publicly at https://github.com/mengting2023/LG-Track.
翻訳日:2023-09-19 13:23:42 公開日:2023-09-18
# 逆問題における後肢の応用駆動検証

Application-driven Validation of Posteriors in Inverse Problems ( http://arxiv.org/abs/2309.09764v1 )

ライセンス: Link先を確認
Tim J. Adler, Jan-Hinrich N\"olke, Annika Reinke, Minu Dietlinde Tizabi, Sebastian Gruber, Dasha Trofimova, Lynton Ardizzone, Paul F. Jaeger, Florian Buettner, Ullrich K\"othe, Lena Maier-Hein(参考訳) 画像解析タスクに対する現在のディープラーニングベースのソリューションは、複数の異なる可算解が存在する問題を扱うことができないのが一般的である。 これに対し, 条件付き拡散モデルや非可逆ニューラルネットワークなどの後進的手法が出現しているが, 適切な検証方法の欠如により翻訳が妨げられている。 言い換えれば、進捗を計測する方法は、しばしば実際に運転するアプリケーションのニーズを反映していない。 文献におけるこのギャップを解消し、逆問題における後続法の適用駆動型検証のための最初の体系的枠組みを示す。 方法論的な斬新さとして、オブジェクト検出バリデーション(object detection validation)の分野から重要な原則を採用しています。 モードをインスタンスとして扱うことで、アプリケーションの観点から解釈可能なメトリクスを使用して、モード中心の検証が可能になります。 人工玩具のインスタンス化と,手術時のポーズ推定と診断のための機能組織パラメータのイメージングに基づく定量化の2つの医療ビジョン利用事例を用いて,本フレームワークの価値を実証した。 我々のフレームワークは,3つの例すべてにおいて,後続検証に対する共通のアプローチよりも重要な利点を提供し,逆問題における性能評価に革命をもたらす可能性がある。

Current deep learning-based solutions for image analysis tasks are commonly incapable of handling problems to which multiple different plausible solutions exist. In response, posterior-based methods such as conditional Diffusion Models and Invertible Neural Networks have emerged; however, their translation is hampered by a lack of research on adequate validation. In other words, the way progress is measured often does not reflect the needs of the driving practical application. Closing this gap in the literature, we present the first systematic framework for the application-driven validation of posterior-based methods in inverse problems. As a methodological novelty, it adopts key principles from the field of object detection validation, which has a long history of addressing the question of how to locate and match multiple object instances in an image. Treating modes as instances enables us to perform mode-centric validation, using well-interpretable metrics from the application perspective. We demonstrate the value of our framework through instantiations for a synthetic toy example and two medical vision use cases: pose estimation in surgery and imaging-based quantification of functional tissue parameters for diagnostics. Our framework offers key advantages over common approaches to posterior validation in all three examples and could thus revolutionize performance assessment in inverse problems.
翻訳日:2023-09-19 13:23:18 公開日:2023-09-18
# 予知されるプリヴィレグ:都市運転のための感覚運動強化学習を目指して

Privileged to Predicted: Towards Sensorimotor Reinforcement Learning for Urban Driving ( http://arxiv.org/abs/2309.09756v1 )

ライセンス: Link先を確認
Ege Onat \"Ozs\"uer, Bar{\i}\c{s} Akg\"un, Fatma G\"uney(参考訳) 強化学習(RL)は、専門家の監督を必要とせず、運転における人間のパフォーマンスを上回る可能性がある。 その約束にもかかわらず、感覚運動の最先端の自動運転は、RLアルゴリズムの固有の欠点のために模倣学習法によって支配されている。 にもかかわらず、RLエージェントは、環境の特権的な真実表現を提供する際に、非常に成功したポリシーを発見することができる。 本研究では,この2つの間隙を橋渡しするために,都市走行のためのセンサモジュレータエージェントと特権的なrlエージェントを区別する要因について検討する。 センサデータから特権表現を近似するために,視覚に基づくディープラーニングモデルを提案する。 特に、所望の経路生成や停止ゾーン予測といったRLエージェントの成功に不可欠な状態表現の側面を特定し、より特権の低いRLエージェントを徐々に発展させるソリューションを提案する。 また、オフラインデータセットで訓練された鳥眼ビューモデルが、分布ミスマッチによるオンラインRLトレーニングに一般化されないことも観察した。 CARLAシミュレーション環境の厳密な評価を通じて、自動運転におけるRLの状態表現の重要性と、将来の研究における未解決課題の指摘に光を当てた。

Reinforcement Learning (RL) has the potential to surpass human performance in driving without needing any expert supervision. Despite its promise, the state-of-the-art in sensorimotor self-driving is dominated by imitation learning methods due to the inherent shortcomings of RL algorithms. Nonetheless, RL agents are able to discover highly successful policies when provided with privileged ground truth representations of the environment. In this work, we investigate what separates privileged RL agents from sensorimotor agents for urban driving in order to bridge the gap between the two. We propose vision-based deep learning models to approximate the privileged representations from sensor data. In particular, we identify aspects of state representation that are crucial for the success of the RL agent such as desired route generation and stop zone prediction, and propose solutions to gradually develop less privileged RL agents. We also observe that bird's-eye-view models trained on offline datasets do not generalize to online RL training due to distribution mismatch. Through rigorous evaluation on the CARLA simulation environment, we shed light on the significance of the state representations in RL for autonomous driving and point to unresolved challenges for future research.
翻訳日:2023-09-19 13:22:57 公開日:2023-09-18
# 強化学習のためのコントラスト初期状態バッファ

Contrastive Initial State Buffer for Reinforcement Learning ( http://arxiv.org/abs/2309.09752v1 )

ライセンス: Link先を確認
Nico Messikommer, Yunlong Song, Davide Scaramuzza(参考訳) 強化学習では、探索と搾取の間のトレードオフは、限られたサンプルから効率的な学習を達成するための複雑な課題となる。 最近の研究は、ポリシー更新に過去の経験を活用するのに効果的だが、データ収集に過去の経験を再利用する可能性をしばしば見落としている。 基礎となるRLアルゴリズムとは独立したコントラスト初期状態バッファ(Contrastive Initial State Buffer)の概念を導入し、過去の経験から状態を戦略的に選択し、エージェントを環境内で初期化し、より情報のある状態へ誘導する。 環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。 (i)挑戦的な地形を横断する四足ロボットの移動 (ii)トラックを走るクワッドコプタードローン。 実験の結果,初期状態バッファは通常のベースラインよりも高いタスク性能を実現し,トレーニング収束も高速化した。

In Reinforcement Learning, the trade-off between exploration and exploitation poses a complex challenge for achieving efficient learning from limited samples. While recent works have been effective in leveraging past experiences for policy updates, they often overlook the potential of reusing past experiences for data collection. Independent of the underlying RL algorithm, we introduce the concept of a Contrastive Initial State Buffer, which strategically selects states from past experiences and uses them to initialize the agent in the environment in order to guide it toward more informative states. We validate our approach on two complex robotic tasks without relying on any prior information about the environment: (i) locomotion of a quadruped robot traversing challenging terrains and (ii) a quadcopter drone racing through a track. The experimental results show that our initial state buffer achieves higher task performance than the nominal baseline while also speeding up training convergence.
翻訳日:2023-09-19 13:22:38 公開日:2023-09-18
# 知識蒸留によるオープンドメイン対話システムにおけるNSFWテキストの検出

Facilitating NSFW Text Detection in Open-Domain Dialogue Systems via Knowledge Distillation ( http://arxiv.org/abs/2309.09749v1 )

ライセンス: Link先を確認
Huachuan Qiu, Shuai Zhang, Hongliang He, Anqi Li, Zhenzhong Lan(参考訳) NSFW(Not Safe for Work)コンテンツは、対話の文脈において、オープンドメインの対話システムにおいて、ユーザに深刻な副作用を与える可能性がある。 しかしながら、対話コンテキストにおけるnsfw言語、特に性的に明示されたコンテンツの検出に関する研究は、大幅に遅れている。 本研究では,NSFW対話検出を目的とした対話監視データセットであるCensorChatを紹介する。 GPT-4とChatGPTを含む知識蒸留技術を活用し、このデータセットはNSFWコンテンツ検出器を構築するためのコスト効率の良い手段を提供する。 このプロセスでは、実際の人間と機械のインタラクションデータを収集し、それを1つの発話と1つの対話に分解する。 ChatGPTは未ラベルデータの注釈付けに使われ、トレーニングセットとして機能する。 ChatGPT と GPT-4 をアノテータとして,ラベリングにおける相違を解消するための自己批判戦略を用いて,ラベリングの検証とテストセットを構築した。 BERTモデルは擬似ラベル付きデータのテキスト分類器として微調整され、その性能を評価する。 この研究は、表現の自由を尊重しながら、デジタル会話におけるユーザーの安全と幸福を優先するAIシステムの重要性を強調している。 提案手法は,NSFWコンテンツ検出だけでなく,AI駆動対話におけるユーザ保護ニーズの進展に対応する。

NSFW (Not Safe for Work) content, in the context of a dialogue, can have severe side effects on users in open-domain dialogue systems. However, research on detecting NSFW language, especially sexually explicit content, within a dialogue context has significantly lagged behind. To address this issue, we introduce CensorChat, a dialogue monitoring dataset aimed at NSFW dialogue detection. Leveraging knowledge distillation techniques involving GPT-4 and ChatGPT, this dataset offers a cost-effective means of constructing NSFW content detectors. The process entails collecting real-life human-machine interaction data and breaking it down into single utterances and single-turn dialogues, with the chatbot delivering the final utterance. ChatGPT is employed to annotate unlabeled data, serving as a training set. Rationale validation and test sets are constructed using ChatGPT and GPT-4 as annotators, with a self-criticism strategy for resolving discrepancies in labeling. A BERT model is fine-tuned as a text classifier on pseudo-labeled data, and its performance is assessed. The study emphasizes the importance of AI systems prioritizing user safety and well-being in digital conversations while respecting freedom of expression. The proposed approach not only advances NSFW content detection but also aligns with evolving user protection needs in AI-driven dialogues.
翻訳日:2023-09-19 13:22:23 公開日:2023-09-18
# 欠落データによるモデリングの改善に向けて - コントラスト学習に基づくビジュアル分析の観点から

Towards Better Modeling with Missing Data: A Contrastive Learning-based Visual Analytics Perspective ( http://arxiv.org/abs/2309.09744v1 )

ライセンス: Link先を確認
Laixin Xie, Yang Ouyang, Longfei Chen, Ziming Wu, Quan Li(参考訳) データ不足は機械学習(ML)モデリングの課題となる可能性がある。 これを解決するために、現在のアプローチは特徴計算とラベル予測に分類され、主にMLのパフォーマンスを向上させるために欠落データを扱うことに重点を置いている。 これらのアプローチは観測されたデータに依存して欠落した値を推定するので、様々な欠落したデータメカニズムに対する異なるインプテーション法の必要性、データ分布の仮定への重依存、バイアスの導入の可能性など、インプテーションの3つの主な欠点に遭遇する。 本研究では,不完全サンプルとその完全サンプルとの類似性と,他のサンプルとの類似性をmlモデルが学習する,観測データに欠落した値をモデル化するためのコントラスト学習(cl)フレームワークを提案する。 提案手法は計算を必要とせずにCLの利点を示す。 解釈可能性を高めるために,解釈可能な手法を取り入れた視覚分析システムCIVisを導入し,学習過程を可視化し,モデルの状態を診断する。 ユーザは対話的なサンプリングを通じてドメイン知識を活用して、CL内の負のペアと正のペアを特定することができる。 CIVisの出力は、特定の機能を取り、下流タスクを予測する最適化モデルである。 回帰・分類作業における2つの利用シナリオを提供し,定量的実験,専門家インタビュー,質的なユーザスタディを行い,提案手法の有効性を実証する。 この研究は、予測精度とモデル解釈可能性を達成する実用的なソリューションを提供することにより、欠落データの存在下でのMLモデリングに関連する課題に対処するための貴重な貢献を提供する。

Missing data can pose a challenge for machine learning (ML) modeling. To address this, current approaches are categorized into feature imputation and label prediction and are primarily focused on handling missing data to enhance ML performance. These approaches rely on the observed data to estimate the missing values and therefore encounter three main shortcomings in imputation, including the need for different imputation methods for various missing data mechanisms, heavy dependence on the assumption of data distribution, and potential introduction of bias. This study proposes a Contrastive Learning (CL) framework to model observed data with missing values, where the ML model learns the similarity between an incomplete sample and its complete counterpart and the dissimilarity between other samples. Our proposed approach demonstrates the advantages of CL without requiring any imputation. To enhance interpretability, we introduce CIVis, a visual analytics system that incorporates interpretable techniques to visualize the learning process and diagnose the model status. Users can leverage their domain knowledge through interactive sampling to identify negative and positive pairs in CL. The output of CIVis is an optimized model that takes specified features and predicts downstream tasks. We provide two usage scenarios in regression and classification tasks and conduct quantitative experiments, expert interviews, and a qualitative user study to demonstrate the effectiveness of our approach. In short, this study offers a valuable contribution to addressing the challenges associated with ML modeling in the presence of missing data by providing a practical solution that achieves high predictive accuracy and model interpretability.
翻訳日:2023-09-19 13:21:58 公開日:2023-09-18
# NFLikelihood:正規化フローの教師なしDNNLikelihood

The NFLikelihood: an unsupervised DNNLikelihood from Normalizing Flows ( http://arxiv.org/abs/2309.09743v1 )

ライセンス: Link先を確認
Humberto Reyes-Gonzalez, Riccardo Torre(参考訳) Refで提案されているDNNLikelihoodの正規化フローに基づく教師なしバージョンであるNFLikelihoodを提案する。 [1]. 実例を通じて,アフィンおよび有理二次スプライン双射体に基づく自己回帰流は,高エネルギー物理学(hep)解析で生じる複雑な高次元の確率を学習できることを示す。 文献ですでに検討されているおもちゃのLHC分析例と,HEPFitコードからサンプルを得たフレーバーと電弱オブザーバブルの2つの有効場理論に焦点を当てた。 我々は,教師なしアプローチのアドバンテージとデメリットについて,教師なしアプローチのアドバンテージとデメリットを議論し,両者の相互作用の可能性について議論する。

We propose the NFLikelihood, an unsupervised version, based on Normalizing Flows, of the DNNLikelihood proposed in Ref.[1]. We show, through realistic examples, how Autoregressive Flows, based on affine and rational quadratic spline bijectors, are able to learn complicated high-dimensional Likelihoods arising in High Energy Physics (HEP) analyses. We focus on a toy LHC analysis example already considered in the literature and on two Effective Field Theory fits of flavor and electroweak observables, whose samples have been obtained throught the HEPFit code. We discuss advantages and disadvantages of the unsupervised approach with respect to the supervised one and discuss possible interplays of the two.
翻訳日:2023-09-19 13:21:31 公開日:2023-09-18
# 同じバウンディングボックスを2枚描ける? 繰り返しラベルを用いた物体検出における符号ノイズアノテーション

Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object Detection with Repeated Labels ( http://arxiv.org/abs/2309.09742v1 )

ライセンス: Link先を確認
David Tschirschwitz, Christian Benz, Morris Florek, Henrik Norderhus, Benno Stein, Volker Rodehorst(参考訳) 教師付き機械学習システムの信頼性は、基底真理ラベルの精度と可用性に依存する。 しかし、ヒューマンアノテーションのプロセスはエラーを起こしやすいため、ノイズラベルの可能性をもたらし、これらのシステムの実用性を阻害する可能性がある。 ノイズラベルによるトレーニングは重要な考慮事項であるが,テストデータの信頼性は,結果の信頼性を確認する上でも重要である。 この問題に対処する一般的なアプローチは繰り返しラベリングであり、複数のアノテータが同じ例をラベル付けし、それらのラベルを組み合わせることで、真のラベルをよりよく見積もる。 本稿では,オブジェクト検出とインスタンス分割タスクに対して,確固とした基底真理推定手法を適用した新しいローカライゼーションアルゴリズムを提案する。 提案手法の重要な革新は,局所化タスクと分類タスクを組み合わせたタスクを分類のみの問題に変換する能力であり,期待最大化(EM)やマジョリティ投票(MJV)といった手法の適用を可能にする。 テストデータに対する一意な基礎的真理の集約に重点を置いていますが、アルゴリズムはtexbigデータセットのトレーニング中に優れたパフォーマンスを示し、重み付きボックス融合(wbf)を用いたノイズラベルトレーニングとラベルアグリゲーションを上回っています。 実験の結果,特定のデータセットやアノテーション設定の下で繰り返しラベルの利点が現れることがわかった。 主な要因は、(1)データセットの複雑さ、(2)アノテーションの一貫性、(3)与えられたアノテーション予算の制約である。

The reliability of supervised machine learning systems depends on the accuracy and availability of ground truth labels. However, the process of human annotation, being prone to error, introduces the potential for noisy labels, which can impede the practicality of these systems. While training with noisy labels is a significant consideration, the reliability of test data is also crucial to ascertain the dependability of the results. A common approach to addressing this issue is repeated labeling, where multiple annotators label the same example, and their labels are combined to provide a better estimate of the true label. In this paper, we propose a novel localization algorithm that adapts well-established ground truth estimation methods for object detection and instance segmentation tasks. The key innovation of our method lies in its ability to transform combined localization and classification tasks into classification-only problems, thus enabling the application of techniques such as Expectation-Maximization (EM) or Majority Voting (MJV). Although our main focus is the aggregation of unique ground truth for test data, our algorithm also shows superior performance during training on the TexBiG dataset, surpassing both noisy label training and label aggregation using Weighted Boxes Fusion (WBF). Our experiments indicate that the benefits of repeated labels emerge under specific dataset and annotation configurations. The key factors appear to be (1) dataset complexity, the (2) annotator consistency, and (3) the given annotation budget constraints.
翻訳日:2023-09-19 13:21:16 公開日:2023-09-18
# Mask-Guided Adaptive Consistency Constraintsによる神経内面再構成の改善

Improving Neural Indoor Surface Reconstruction with Mask-Guided Adaptive Consistency Constraints ( http://arxiv.org/abs/2309.09739v1 )

ライセンス: Link先を確認
Xinyi Yu, Liqin Lu, Jintao Rong, Guangkai Xu, Linlin Ou(参考訳) 2d画像からの3dシーンの復元は長年の課題だった。 フレーム単位の深さマップを3dで見積もる代わりに、最近の研究では、ニューラルネットワークの暗黙的表面を3d再構成のための統一表現として活用している。 データ駆動型事前学習幾何学的手法により,これらの手法は有望な性能を示す。 しかし、通常は避けられない不正確な事前推定は、特に幾何的に複雑な領域において、最適でない復元品質をもたらす可能性がある。 本稿では,2段階のトレーニングプロセスを提案し,ビュー依存色とビュー非依存色を分離し,さらに2つの新しい一貫性制約を活用し,詳細な復元性能を向上させる。 さらに,監督制約の選択に適応的に影響を与え,自己監督パラダイムの性能を向上させるための必須マスクスキームを提案する。 合成および実世界のデータセットの実験は、事前推定誤差からの干渉を低減し、リッチな幾何学的詳細で高品質なシーン再構築を実現する能力を示している。

3D scene reconstruction from 2D images has been a long-standing task. Instead of estimating per-frame depth maps and fusing them in 3D, recent research leverages the neural implicit surface as a unified representation for 3D reconstruction. Equipped with data-driven pre-trained geometric cues, these methods have demonstrated promising performance. However, inaccurate prior estimation, which is usually inevitable, can lead to suboptimal reconstruction quality, particularly in some geometrically complex regions. In this paper, we propose a two-stage training process, decouple view-dependent and view-independent colors, and leverage two novel consistency constraints to enhance detail reconstruction performance without requiring extra priors. Additionally, we introduce an essential mask scheme to adaptively influence the selection of supervision constraints, thereby improving performance in a self-supervised paradigm. Experiments on synthetic and real-world datasets show the capability of reducing the interference from prior estimation errors and achieving high-quality scene reconstruction with rich geometric details.
翻訳日:2023-09-19 13:20:49 公開日:2023-09-18
# バッチandroidマルウェア検出モデルのための効率的な概念ドリフト処理

Efficient Concept Drift Handling for Batch Android Malware Detection Models ( http://arxiv.org/abs/2309.09807v1 )

ライセンス: Link先を確認
Molina-Coronado B., Mori U., Mendiburu A., Miguel-Alonso J(参考訳) Androidアプリの急速に進化する性質は、マルウェア検出システムで使用される静的バッチ機械学習アルゴリズムに重大な課題をもたらしている。 この課題にもかかわらず、既存の文献はこの問題に限定して注意を払っており、drebin、droiddet、mamadroidなど多くの高度なandroidマルウェア検出アプローチは静的モデルに依存している。 本稿では,リトレーニング技術が時間とともに検出能力を維持できることを示す。 特に,検出器の効率と性能における2つの側面の影響を解析する。 1)モデルの再訓練の頻度,及び 2) 再トレーニングに使用するデータ。 最初の実験では、定期的な再トレーニングと、必要時にのみ再トレーニングをトリガーするより高度な概念ドリフト検出法を比較した。 第2の実験では,モデルの再トレーニングに使用するデータ量を削減するためにサンプリング手法を解析した。 具体的には、最近のデータの固定サイズのウィンドウと、トレーニングデータセットを小さくながら多様に保つアプリを選択する最先端のアクティブラーニング手法を比較した。 実験の結果,概念ドリフト検出とサンプル選択機構は,変化環境における静的なandroidマルウェア検出装置の性能維持に有効な,極めて効率的な再訓練戦略をもたらすことがわかった。

The rapidly evolving nature of Android apps poses a significant challenge to static batch machine learning algorithms employed in malware detection systems, as they quickly become obsolete. Despite this challenge, the existing literature pays limited attention to addressing this issue, with many advanced Android malware detection approaches, such as Drebin, DroidDet and MaMaDroid, relying on static models. In this work, we show how retraining techniques are able to maintain detector capabilities over time. Particularly, we analyze the effect of two aspects in the efficiency and performance of the detectors: 1) the frequency with which the models are retrained, and 2) the data used for retraining. In the first experiment, we compare periodic retraining with a more advanced concept drift detection method that triggers retraining only when necessary. In the second experiment, we analyze sampling methods to reduce the amount of data used to retrain models. Specifically, we compare fixed sized windows of recent data and state-of-the-art active learning methods that select those apps that help keep the training dataset small but diverse. Our experiments show that concept drift detection and sample selection mechanisms result in very efficient retraining strategies which can be successfully used to maintain the performance of the static Android malware state-of-the-art detectors in changing environments.
翻訳日:2023-09-19 13:13:20 公開日:2023-09-18
# 最適な契約を学習する:小さなアクションスペースを爆発させる方法

Learning Optimal Contracts: How to Exploit Small Action Spaces ( http://arxiv.org/abs/2309.09801v1 )

ライセンス: Link先を確認
Francesco Bacchiocchi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti(参考訳) 我々は、エージェントが好都合な結果につながるコストのかかる観察不能な行動を起こさせるために、プリンシパルが契約と呼ばれる成果依存の支払いスキームにコミットするプリンシパルエージェントの問題について検討する。 我々は、主成分が複数のラウンドの契約にコミットすることでエージェントと相互作用する問題の古典的(単ラウンド)バージョンの一般化を考える。 プリンシパルはエージェントに関する情報がなく、各ラウンドで達成された結果だけを観察することで最適な契約を学ばなければならない。 エージェントのアクション空間のサイズが小さい設定に焦点を当てる。 動作数が一定である場合,結果空間の大きさの多数の円多項式において,確率の高いほぼ最適契約を学習するアルゴリズムを設計する。 我々のアルゴリズムはZhuらによるオープンな問題を解く。 [2022]. さらに、プリンシパルが累積的効用を最大化することを目的とした関連するオンライン学習環境において、$\tilde{\mathcal{o}}(t^{4/5})$ regret boundを提供することもできる。

We study principal-agent problems in which a principal commits to an outcome-dependent payment scheme -- called contract -- in order to induce an agent to take a costly, unobservable action leading to favorable outcomes. We consider a generalization of the classical (single-round) version of the problem in which the principal interacts with the agent by committing to contracts over multiple rounds. The principal has no information about the agent, and they have to learn an optimal contract by only observing the outcome realized at each round. We focus on settings in which the size of the agent's action space is small. We design an algorithm that learns an approximately-optimal contract with high probability in a number of rounds polynomial in the size of the outcome space, when the number of actions is constant. Our algorithm solves an open problem by Zhu et al.[2022]. Moreover, it can also be employed to provide a $\tilde{\mathcal{O}}(T^{4/5})$ regret bound in the related online learning setting in which the principal aims at maximizing their cumulative utility, thus considerably improving previously-known regret bounds.
翻訳日:2023-09-19 13:12:45 公開日:2023-09-18
# AMuRD: 言語間鍵情報抽出・分類のためのアノテーション付き多言語レセプトデータセット

AMuRD: Annotated Multilingual Receipts Dataset for Cross-lingual Key Information Extraction and Classification ( http://arxiv.org/abs/2309.09800v1 )

ライセンス: Link先を確認
Abdelrahman Abdallah, Mahmoud Abdalla, Mohamed Elkasaby, Yasser Elbendary, Adam Jatowt(参考訳) 鍵となる情報抽出は、スキャンされたレシートからテキストを認識・抽出し、本質的なコンテンツの検索を可能にし、構造化された文書に整理することである。 本稿では,レセプション抽出,情報抽出,項目分類における課題に対処する新しい多言語データセットを提案する。 データセットには47,720ドルのサンプルが含まれており、アイテム名、属性(価格、ブランドなど)、製品カテゴリの分類が含まれている。 InstructLLaMAアプローチを導入し、F1スコアを0.76$、キー情報抽出とアイテム分類の精度を0.68$とする。 コード、データセット、チェックポイントを提供します。 関連スポンサーコンテンツ https://github.com/Update-For-Integrated-Business-AI/AMuRD}}。

Key information extraction involves recognizing and extracting text from scanned receipts, enabling retrieval of essential content, and organizing it into structured documents. This paper presents a novel multilingual dataset for receipt extraction, addressing key challenges in information extraction and item classification. The dataset comprises $47,720$ samples, including annotations for item names, attributes like (price, brand, etc.), and classification into $44$ product categories. We introduce the InstructLLaMA approach, achieving an F1 score of $0.76$ and an accuracy of $0.68$ for key information extraction and item classification. We provide code, datasets, and checkpoints.\footnote{\url{https://github.com/Update-For-Integrated-Business-AI/AMuRD}}.
翻訳日:2023-09-19 13:12:22 公開日:2023-09-18
# watch the speakers: 感情の不一致を伴う会話における感情認識のためのハイブリッド連続帰属ネットワーク

Watch the Speakers: A Hybrid Continuous Attribution Network for Emotion Recognition in Conversation With Emotion Disentanglement ( http://arxiv.org/abs/2309.09799v1 )

ライセンス: Link先を確認
Shanglin Lei and Xiaoping Wang and Guanting Dong and Jiang Li and Yingjian Liu(参考訳) 会話における感情認識(erc)は、実用的応用の可能性が非常に高いことから、自然言語処理の分野で広く注目を集めている。 既存のERC手法は、文脈のモデリング不足、対話関係の曖昧な把握、話者モデリングにおける過度な適合などにより、多様なシナリオへの一般化を達成する上で課題に直面している。 本研究では,これらの課題に対処するハイブリッド連続帰属ネットワーク(HCAN)を,情緒的継続と感情的帰属の観点から提示する。 具体的には、HCANはグローバルな感情の連続性をモデル化するために、ハイブリッドリカレントとアテンションベースのモジュールを採用する。 次に、各発話の感情内および感情間属性をモデル化するために、新しい感情属性符号化(EAE)を提案する。 さらに、話者モデリングにおけるモデルの堅牢性を高め、異なるシナリオにおける性能を向上させることを目的とした、総合的損失関数の感情的認知損失$\mathcal{L}_{\rm EC}$は、感情的ドリフトを緩和し、話者モデリングへのモデルの過度な適合を克服するために提案される。 我々のモデルは3つのデータセットで最先端のパフォーマンスを達成し、作業の優位性を実証する。 3つのベンチマークに関する別の広範な比較実験とアブレーション研究を行い、各モジュールの有効性を支持する証拠を提供する。 一般化能力実験のさらなる探索は,EAEモジュールのプラグアンドプレイ特性を示している。

Emotion Recognition in Conversation (ERC) has attracted widespread attention in the natural language processing field due to its enormous potential for practical applications. Existing ERC methods face challenges in achieving generalization to diverse scenarios due to insufficient modeling of context, ambiguous capture of dialogue relationships and overfitting in speaker modeling. In this work, we present a Hybrid Continuous Attributive Network (HCAN) to address these issues in the perspective of emotional continuation and emotional attribution. Specifically, HCAN adopts a hybrid recurrent and attention-based module to model global emotion continuity. Then a novel Emotional Attribution Encoding (EAE) is proposed to model intra- and inter-emotional attribution for each utterance. Moreover, aiming to enhance the robustness of the model in speaker modeling and improve its performance in different scenarios, A comprehensive loss function emotional cognitive loss $\mathcal{L}_{\rm EC}$ is proposed to alleviate emotional drift and overcome the overfitting of the model to speaker modeling. Our model achieves state-of-the-art performance on three datasets, demonstrating the superiority of our work. Another extensive comparative experiments and ablation studies on three benchmarks are conducted to provided evidence to support the efficacy of each module. Further exploration of generalization ability experiments shows the plug-and-play nature of the EAE module in our method.
翻訳日:2023-09-19 13:12:05 公開日:2023-09-18
# 文化合意の欠如による集団知能の低下

Harnessing Collective Intelligence Under a Lack of Cultural Consensus ( http://arxiv.org/abs/2309.09787v1 )

ライセンス: Link先を確認
Necdet G\"urkan and Jordan W. Suchow(参考訳) 集団的知性を利用して効果的な意思決定と協力を促進することは、コンセンサス信念の不均一性を検出し特徴付ける能力から得られる。 これは、テクノロジーの受容やリーダーシップの認識のような分野において特に当てはまり、合意が相互に相容れないコンセンサスを維持している場合、複数の「地下の真実」が生まれる可能性がある。 CCT(Cultural Consensus Theory)は、これらの異なるコンセンサスを検知し、特徴付ける統計的枠組みを提供する。 しかし、非常に類似した信念を一般化する能力に欠け、スパースデータでは効果がなく、外部知識ベースも学習機械表現も利用できないため、現代の応用では不可能である。 そこで我々は,これらの制約を無限に潜伏する構築文化コンセンサス理論 (idlc-cct) によって克服する。これはcctを拡張した非パラメトリックベイズモデルである。 リスク源,食品の健康状態,リーダーシップ,第一印象,ユーモアの認識を含む領域をまたがってその方法を検証する。 idlc-cctはコンセンサスの程度を良く予測し、サンプル外のエンティティにうまく一般化し、スパースデータでも効果的である。 拡張性を向上させるために,モデルの低分散漸近解析から導出したアルゴリズムを用いて,iDLC-CCTの効率的なハードクラスタリング変種を導入する。 したがって、idlc-cctは、文化的コンセンサスの欠如の下で集団知性を活用するための実用的な計算基盤を提供し、コンセンサスを意識した情報技術の基盤を形成する可能性がある。

Harnessing collective intelligence to drive effective decision-making and collaboration benefits from the ability to detect and characterize heterogeneity in consensus beliefs. This is particularly true in domains such as technology acceptance or leadership perception, where a consensus defines an intersubjective truth, leading to the possibility of multiple "ground truths" when subsets of respondents sustain mutually incompatible consensuses. Cultural Consensus Theory (CCT) provides a statistical framework for detecting and characterizing these divergent consensus beliefs. However, it is unworkable in modern applications because it lacks the ability to generalize across even highly similar beliefs, is ineffective with sparse data, and can leverage neither external knowledge bases nor learned machine representations. Here, we overcome these limitations through Infinite Deep Latent Construct Cultural Consensus Theory (iDLC-CCT), a nonparametric Bayesian model that extends CCT with a latent construct that maps between pretrained deep neural network embeddings of entities and the consensus beliefs regarding those entities among one or more subsets of respondents. We validate the method across domains including perceptions of risk sources, food healthiness, leadership, first impressions, and humor. We find that iDLC-CCT better predicts the degree of consensus, generalizes well to out-of-sample entities, and is effective even with sparse data. To improve scalability, we introduce an efficient hard-clustering variant of the iDLC-CCT using an algorithm derived from a small-variance asymptotic analysis of the model. The iDLC-CCT, therefore, provides a workable computational foundation for harnessing collective intelligence under a lack of cultural consensus and may potentially form the basis of consensus-aware information technologies.
翻訳日:2023-09-19 13:11:41 公開日:2023-09-18
# 議会手続きにおける感情識別のための多言語学習データセット

The ParlaSent multilingual training dataset for sentiment identification in parliamentary proceedings ( http://arxiv.org/abs/2309.09783v1 )

ライセンス: Link先を確認
Michal Mochtak, Peter Rupnik, Nikola Ljube\v{s}i\'c(参考訳) 感覚は本質的に政治を駆り立てる。 どのように情報を受け取り、処理するかは、政治的意思決定において重要な役割を担っており、議員と大衆の両方のレベルで戦略的影響を伴う判断を形作る。 感情が政治においてそんなに重要な役割を果たすなら、どのようにそれを体系的に研究し、測定するか? 本論文は,議会手続におけるロバストな感情分類器の訓練に焦点をあてた一連の実験に使用される,感情注釈文の新しいデータセットを提案する。 また、27の欧州議会の手続きから72億のドメイン特化語を事前訓練した最初のドメイン特化LDMについても紹介した。 本稿では,議会データに対するllmの事前学習が,議会手続きにおける感情検出において,ドメイン固有のタスクにおけるモデル下流性能を著しく改善することを示す実験を行う。 さらに、多言語モデルは、目に見えない言語で非常によく機能し、他の言語からの追加データが目的の議会の結果を大幅に改善することを示した。 この論文は社会科学の複数の領域に重要な貢献をし、それらをコンピュータ科学と計算言語学で橋渡しする。 最後に、一般的な政治的テキストの感情分析に対するより堅牢なアプローチを設定し、研究者は標準的なツールや技術を用いて比較的な視点から政治的感情を研究することができる。

Sentiments inherently drive politics. How we receive and process information plays an essential role in political decision-making, shaping our judgment with strategic consequences both on the level of legislators and the masses. If sentiment plays such an important role in politics, how can we study and measure it systematically? The paper presents a new dataset of sentiment-annotated sentences, which are used in a series of experiments focused on training a robust sentiment classifier for parliamentary proceedings. The paper also introduces the first domain-specific LLM for political science applications additionally pre-trained on 1.72 billion domain-specific words from proceedings of 27 European parliaments. We present experiments demonstrating how the additional pre-training of LLM on parliamentary data can significantly improve the model downstream performance on the domain-specific tasks, in our case, sentiment detection in parliamentary proceedings. We further show that multilingual models perform very well on unseen languages and that additional data from other languages significantly improves the target parliament's results. The paper makes an important contribution to multiple domains of social sciences and bridges them with computer science and computational linguistics. Lastly, it sets up a more robust approach to sentiment analysis of political texts in general, which allows scholars to study political sentiment from a comparative perspective using standardized tools and techniques.
翻訳日:2023-09-19 13:11:06 公開日:2023-09-18
# DriveDreamer: 自律運転のための現実世界駆動の世界モデルを目指して

DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving ( http://arxiv.org/abs/2309.09777v1 )

ライセンス: Link先を確認
Xiaofeng Wang, Zheng Zhu, Guan Huang, Xinze Chen, Jiwen Lu(参考訳) 世界モデルは、特に自動運転において、運転環境の理解能力のためにトレンドとなり、大きな注目を集めている。 確立された世界モデルは、高品質な運転ビデオの生成と安全な操縦のための運転ポリシーに大きな可能性を秘めている。 しかし、関連する研究における重要な制限は、ゲーム環境やシミュレートされた設定に主眼を置き、現実世界の運転シナリオの表現を欠いていることである。 そこで我々は,現実の運転シナリオから完全に派生した先駆的な世界モデルであるDriveDreamerを紹介した。 複雑な運転シーンにおける世界モデリングは圧倒的な探索空間を必要とするため,複雑な環境を包括的に表現するための強力な拡散モデルを提案する。 さらに,2段階のトレーニングパイプラインも導入する。 最初の段階では、drivedreamerは構造化されたトラフィック制約を深く理解し、続く段階は将来の状態を予測できる能力を備えている。 提案されたDriveDreamerは、現実世界の運転シナリオから確立された最初の世界モデルである。 DriveDreamerを挑戦的なnuScenesベンチマークでインスタンス化し、DriveDreamerが実世界のトラフィックシナリオの構造的制約を忠実に捉えた、正確で制御可能なビデオ生成に有効であることを示す広範な実験を行った。 さらにDriveDreamerは、現実的で合理的な駆動ポリシーの生成を可能にし、インタラクションと実用的なアプリケーションのための道を開く。

World models, especially in autonomous driving, are trending and drawing extensive attention due to their capacity for comprehending driving environments. The established world model holds immense potential for the generation of high-quality driving videos, and driving policies for safe maneuvering. However, a critical limitation in relevant research lies in its predominant focus on gaming environments or simulated settings, thereby lacking the representation of real-world driving scenarios. Therefore, we introduce DriveDreamer, a pioneering world model entirely derived from real-world driving scenarios. Regarding that modeling the world in intricate driving scenes entails an overwhelming search space, we propose harnessing the powerful diffusion model to construct a comprehensive representation of the complex environment. Furthermore, we introduce a two-stage training pipeline. In the initial phase, DriveDreamer acquires a deep understanding of structured traffic constraints, while the subsequent stage equips it with the ability to anticipate future states. The proposed DriveDreamer is the first world model established from real-world driving scenarios. We instantiate DriveDreamer on the challenging nuScenes benchmark, and extensive experiments verify that DriveDreamer empowers precise, controllable video generation that faithfully captures the structural constraints of real-world traffic scenarios. Additionally, DriveDreamer enables the generation of realistic and reasonable driving policies, opening avenues for interaction and practical applications.
翻訳日:2023-09-19 13:10:46 公開日:2023-09-18
# ArxNetモデルとデータ:画像アーカイブからソーシャルネットワークを構築する

ArxNet Model and Data: Building Social Networks from Image Archives ( http://arxiv.org/abs/2309.09775v1 )

ライセンス: Link先を確認
Haley Seaward, Jasmine Talley and David Beskow(参考訳) 対応するデジタル画像の爆発は、世界中のモバイルテクノロジーの急速な普及に伴うものだ。 人々とその活動は、デジタル画像とビデオファイルに定期的に記録される。 その性質上、これらの画像やビデオはしばしば社会的および専門的なつながりを描いている。 同じ写真の個人は、意味のある方法で接続されることが多い。 本研究は,現代の顔検出技術とソーシャルネットワーク分析を用いて,画像中の社会的つながりを同定し,モデル化することを目的とする。 提案手法は2022年のエミー賞授賞式に関連付けられた公開画像リポジトリで実証される。

A corresponding explosion in digital images has accompanied the rapid adoption of mobile technology around the world. People and their activities are routinely captured in digital image and video files. By their very nature, these images and videos often portray social and professional connections. Individuals in the same picture are often connected in some meaningful way. Our research seeks to identify and model social connections found in images using modern face detection technology and social network analysis. The proposed methods are then demonstrated on the public image repository associated with the 2022 Emmy's Award Presentation.
翻訳日:2023-09-19 13:10:24 公開日:2023-09-18
# 半教師あり学習のための自己適応型擬似ラベルフィルタリング

Towards Self-Adaptive Pseudo-Label Filtering for Semi-Supervised Learning ( http://arxiv.org/abs/2309.09774v1 )

ライセンス: Link先を確認
Lei Zhu, Zhanghan Ke, Rynson Lau(参考訳) 最近の半教師付き学習(SSL)手法は、典型的には擬似ラベルの品質を改善するためのフィルタリング戦略を含んでいる。 しかし、これらのフィルタリング戦略は通常手作りであり、モデルが更新されると変更されず、多くの正しい擬似ラベルが破棄され、トレーニングプロセス中に誤った擬似ラベルが選択される。 本研究では,疑似ラベルの信頼度と不正確な擬似ラベルの分布ギャップがトレーニングの開始時に現れることを観察し,擬似ラベルのフィルタリングに利用できることを示す。 そこで本研究では,学習過程を通じて信頼度分布をモデル化し,モデル進化に応じて擬似ラベルのノイズを自動的にフィルタする自己適応型擬似ラベルフィルタ(SPF)を提案する。 具体的には、オンライン混合モデルを用いて、各擬似ラベル付きサンプルをその後部で重み付けし、その時の信頼性分布を考慮に入れた。 従来の手作りフィルタとは異なり、SPFは手動チューニングなしでディープニューラルネットワークとともに進化します。 既存のSSLメソッドにSPFを組み込むことで、特にラベル付きデータが極めて少ない場合、SSLのパフォーマンスを向上させることができる。

Recent semi-supervised learning (SSL) methods typically include a filtering strategy to improve the quality of pseudo labels. However, these filtering strategies are usually hand-crafted and do not change as the model is updated, resulting in a lot of correct pseudo labels being discarded and incorrect pseudo labels being selected during the training process. In this work, we observe that the distribution gap between the confidence values of correct and incorrect pseudo labels emerges at the very beginning of the training, which can be utilized to filter pseudo labels. Based on this observation, we propose a Self-Adaptive Pseudo-Label Filter (SPF), which automatically filters noise in pseudo labels in accordance with model evolvement by modeling the confidence distribution throughout the training process. Specifically, with an online mixture model, we weight each pseudo-labeled sample by the posterior of it being correct, which takes into consideration the confidence distribution at that time. Unlike previous handcrafted filters, our SPF evolves together with the deep neural network without manual tuning. Extensive experiments demonstrate that incorporating SPF into the existing SSL methods can help improve the performance of SSL, especially when the labeled data is extremely scarce.
翻訳日:2023-09-19 13:10:18 公開日:2023-09-18
# 意味的冗長なトレーニングデータ除去と深部モデル分類性能:胸部X線による検討

Semantically Redundant Training Data Removal and Deep Model Classification Performance: A Study with Chest X-rays ( http://arxiv.org/abs/2309.09773v1 )

ライセンス: Link先を確認
Sivaramakrishnan Rajaraman, Ghada Zamzmi, Feng Yang, Zhaohui Liang, Zhiyun Xue, and Sameer Antani(参考訳) 深層学習(DL)は、複雑なデータや多次元データから階層的な特徴を独立して学習する能力を示した。 一般的な理解は、そのパフォーマンスがトレーニングデータの量に比例するということだ。 別のデータ属性は、固有のバラエティである。 したがって、類似または反復的な情報が存在する意味的冗長性は、性能を低下させ、見えないデータに対する一般化性を制限しがちである。 医用画像データでは、興味のある疾患に対する非常に類似した提示を有する複数の画像が存在するため、意味的冗長性が発生する可能性がある。 さらに,DLトレーニングにおける多種多様化のための拡張手法の共通利用は,意味的に冗長なデータに適用した場合の性能を制限している可能性がある。 意味的に冗長なトレーニングデータを識別・削除するためのエントロピーに基づくサンプルスコアリング手法を提案する。 トレーニングデータの有益サブセットに基づいてトレーニングされたモデルは、内部(リコール: 0.7164 vs 0.6597, p<0.05)および外部テスト(リコール: 0.3185 vs 0.2589, p<0.05)の両方において、トレーニングセットでトレーニングされたモデルを大幅に上回っている。 本研究は,すべての利用可能なトレーニングデータを使用する従来の手法とは対照的に,情報指向トレーニングサンプル選択の重要性を強調する。

Deep learning (DL) has demonstrated its innate capacity to independently learn hierarchical features from complex and multi-dimensional data. A common understanding is that its performance scales up with the amount of training data. Another data attribute is the inherent variety. It follows, therefore, that semantic redundancy, which is the presence of similar or repetitive information, would tend to lower performance and limit generalizability to unseen data. In medical imaging data, semantic redundancy can occur due to the presence of multiple images that have highly similar presentations for the disease of interest. Further, the common use of augmentation methods to generate variety in DL training may be limiting performance when applied to semantically redundant data. We propose an entropy-based sample scoring approach to identify and remove semantically redundant training data. We demonstrate using the publicly available NIH chest X-ray dataset that the model trained on the resulting informative subset of training data significantly outperforms the model trained on the full training set, during both internal (recall: 0.7164 vs 0.6597, p<0.05) and external testing (recall: 0.3185 vs 0.2589, p<0.05). Our findings emphasize the importance of information-oriented training sample selection as opposed to the conventional practice of using all available training data.
翻訳日:2023-09-19 13:09:59 公開日:2023-09-18
# K平均と動的時間ワープによる都市交通パターンのクラスタリング:ケーススタディ

Clustering of Urban Traffic Patterns by K-Means and Dynamic Time Warping: Case Study ( http://arxiv.org/abs/2309.09830v1 )

ライセンス: Link先を確認
Sadegh Etemad, Raziyeh Mosayebi, Tadeh Alexani Khodavirdian, Elahe Dastan, Amir Salari Telmadarreh, Mohammadreza Jafari, Sepehr Rafiei(参考訳) 都市交通パターンのクラスタリングは、交通管理と計画のさまざまな分野において重要な課題である。 本稿では,都市交通パターンのクラスタリングにおける2つの重要な応用について述べる。 第1のアプリケーションは、マップタイルの色付けに類似したトラフィックパターンを持つ道路セグメントの速度を使用して、失われた速度値を推定する。 2つ目は、異なる道路セグメントの類似パターンを用いて、地図上の局所点のアドレスを生成するための重要な道路セグメントの推定である。 速度時系列は、異なる道路セグメントの交通パターンを抽出する。 本稿では,K-MeansとDynamic Time Warpingに基づく時系列クラスタリングアルゴリズムを提案する。 提案アルゴリズムのケーススタディは,Snappアプリケーションの運転速度時系列データに基づく。 その結果,提案手法は類似の都市交通パターンを抽出できることが示唆された。

Clustering of urban traffic patterns is an essential task in many different areas of traffic management and planning. In this paper, two significant applications in the clustering of urban traffic patterns are described. The first application estimates the missing speed values using the speed of road segments with similar traffic patterns to colorify map tiles. The second one is the estimation of essential road segments for generating addresses for a local point on the map, using the similarity patterns of different road segments. The speed time series extracts the traffic pattern in different road segments. In this paper, we proposed the time series clustering algorithm based on K-Means and Dynamic Time Warping. The case study of our proposed algorithm is based on the Snapp application's driver speed time series data. The results of the two applications illustrate that the proposed method can extract similar urban traffic patterns.
翻訳日:2023-09-19 13:03:52 公開日:2023-09-18
# 非エルミート系に対するschrieffer-wolff変換:$\mathcal{pt}$-symmetric circuit qedへの応用

Schrieffer-Wolff transformation for non-Hermitian systems: application for $\mathcal{PT}$-symmetric circuit QED ( http://arxiv.org/abs/2309.09829v1 )

ライセンス: Link先を確認
Grigory A. Starkov, Mikhail V. Fistul, Ilya M. Eremin(参考訳) 非ハーミシティと相互作用の組み合わせは、オープン量子多体系において新しい効果をもたらす。 ここで、一般化されたシュリーファー・ヴォルフ変換を開発し、様々な準退化 \textit{non-Hermitian} 系に適した実効ハミルトニアンを導出する。 我々は、損失のない共振器に埋め込まれた2つの非エルミート量子ビットからなる模範的な$\mathcal{PT}$-対称回路QEDに適用する。 共振量子回路を ||\omega_r-\omega| \ll \omega_r$, ここで$\omega$ と $\omega_r$ はそれぞれ量子ビットと共振器周波数であり、準縮退共振状態のよく定義されたグループを提供する。 このようなシステムでは、直接の数値対角化を用いて、単一量子ビットと共振器の相互作用強度に対する低次固有スペクトルの依存性、$g$とゲイン(損失)パラメータ$\gamma$を求め、共振状態の有効ハミルトニアンを用いて解析的に得られる固有値と比較する。 我々は、$\mathcal{PT}$-対称性の破れた非破壊相を同定し、2階と3階の例外点の形成をトレースし、低次共鳴状態の完全な位相図$g-\gamma$を提供する。 例外点の形成とシステムの追加の$\mathcal{P}$-pseudo-Hermitian対称性を関連付け、非エルミシティが直接実験結果をもたらす「ダーク」状態と「ライト」状態とを混合することを示す。

Combining non-hermiticity and interactions yields novel effects in open quantum many-body systems. Here, we develop the generalized Schrieffer-Wolff transformation and derive the effective Hamiltonian suitable for various quasi-degenerate \textit{non-Hermitian} systems. We apply our results to an exemplary $\mathcal{PT}$--symmetric circuit QED composed of two non-Hermitian qubits embedded in a lossless resonator. We consider a resonant quantum circuit as $|\omega_r-\Omega| \ll \omega_r$, where $\Omega$ and $\omega_r$ are qubits and resonator frequencies, respectively, providing well-defined groups of quasi-degenerate resonant states. For such a system, using direct numerical diagonalization we obtain the dependence of the low-lying eigenspectrum on the interaction strength between a single qubit and the resonator, $g$, and the gain (loss) parameter $\gamma$, and compare that with the eigenvalues obtained analytically using the effective Hamiltonian of resonant states. We identify $\mathcal{PT}$--symmetry broken and unbroken phases, trace the formation of Exceptional Points of the second and the third order, and provide a complete phase diagram $g-\gamma$ of low-lying resonant states. We relate the formation of Exceptional Points to the additional $\mathcal{P}$-pseudo-Hermitian symmetry of the system and show that non-hermiticity mixes the "dark" and the "bright" states, which has a direct experimental consequence.
翻訳日:2023-09-19 13:03:40 公開日:2023-09-18
# ファインマン光子経路積分法による導電性電子からの光反射、回折、散乱の計算

Feynman photon path integral calculations of optical reflection, diffraction, and scattering from conduction electrons ( http://arxiv.org/abs/2309.09827v1 )

ライセンス: Link先を確認
Stephen E. Derenzo(参考訳) 本稿では, 伝導電子と相互作用した後に空間の異なる点における反射, 回折, 散乱光子を検出する確率を計算するために, ファインマン光子経路積分を用いることについて述べる。 Five examples are given: (1) a thin parabolic sheet of conduction electrons (e.g. a metal mirror) that produces a sharp focus of a distant point source surrounded by the Airy diffraction pattern, (2) the loss of focusing power as the thickness of the parabolic sheet is increased and complete destructive interference for thicknesses that are an integer multiple of 1/2 the wavelength, (3) diffraction of photons entering a thin sheet from the side, (4) diffraction of photons entering the side of a sheet as its thickness is increased, and (5) the angular scattering distribution of internally generated photons in an extended volume of conduction electrons. 計算は光子経路の複素確率振幅を統合した (a)ポイントソース (b)伝導電子体積のすべての点及び (c)点検出器。 各検出器位置では、検出確率は積分の絶対値の平方として計算された。 一般に、ほぼ同じ複素振幅位相の経路が集中している場合、反射が支配的である。 そうでなければ、導電電子体積が鋭い境界を持つ場合、回折が支配される。 等方散乱は導電性電子に支配的であり、低温のn型GaAsにおけるシンチレーション光子が、その高い光度に不可欠な全内部反射トラップから逃れる方法を説明することができる。

This paper describes the use of Feynman photon path integrals to compute the probability of detecting reflected, diffracted, and scattered photons at different points in space after interacting with conduction electrons. Five examples are given: (1) a thin parabolic sheet of conduction electrons (e.g. a metal mirror) that produces a sharp focus of a distant point source surrounded by the Airy diffraction pattern, (2) the loss of focusing power as the thickness of the parabolic sheet is increased and complete destructive interference for thicknesses that are an integer multiple of 1/2 the wavelength, (3) diffraction of photons entering a thin sheet from the side, (4) diffraction of photons entering the side of a sheet as its thickness is increased, and (5) the angular scattering distribution of internally generated photons in an extended volume of conduction electrons. The calculations integrated the complex probability amplitudes for photon paths from (a) a point source to (b) all points in the conduction electron volume and to (c) a point detector. At each detector position the detection probability was computed as the square of the absolute value of the integral. In general, if there is a concentration of paths that have nearly the same complex amplitude phase, reflection dominates. Otherwise, if the conduction electron volume has sharp boundaries, diffraction dominates. Isotropic scattering dominates for conduction electrons distributed throughout an extended volume, and may explain how scintillation photons in cryogenic n-type GaAs can escape total internal reflection trapping, which is essential for its high luminosity.
翻訳日:2023-09-19 13:03:09 公開日:2023-09-18
# 脆弱性制約付きデコードを用いた自動完備スマートコントラクトコードの脆弱性回避

Efficient Avoidance of Vulnerabilities in Auto-completed Smart Contract Code Using Vulnerability-constrained Decoding ( http://arxiv.org/abs/2309.09826v1 )

ライセンス: Link先を確認
Andr\'e Storhaug, Jingyue Li, and Tianyuan Hu(参考訳) コードの自動コンパイルにより、開発者はコーディングを大幅にスピードアップできる。 最近のtransformer-based large language model (llm)技術はコード合成に応用されている。 しかし、このような合成コードの多くは脆弱性を含んでいる。 本稿では,そのようなモデルによって生成される脆弱性コード量を削減するために,脆弱性制約付き復号法を提案する。 ラベル付き脆弱なコードの小さなデータセットを使用することで、コード生成時に脆弱性ラベルを含めるためにllmを微調整し、組み込みの分類器として動作します。 そしてデコード中、脆弱性のあるコードを生成するのを避けるために、これらのラベルを生成するモデルを否定します。 本手法を評価するため,我々は,SCセキュリティの厳格な要件から,Ethereum Blockchainスマートコントラクト(SC)をケーススタディとして自動補完することを選んだ。 2,217,692 scsから重複を取り除いた後、186,397 ethereum scsを用いて6億パラメータのgpt-jモデルを初めて微調整した。 微調整は10個のGPUを使って1週間以上かかった。 その結果,本モデルでは平均 bleu (bilingual evaluation understudy) スコア0.557 の scs を合成できることがわかった。 しかし、オートコンプリートscsの多くのコードは脆弱であった。 コードを自動補完するために異なる種類の脆弱性を含む176 scsの脆弱性ラインの前にコードを使用することで、自動補完コードの70%以上が安全でないことが分かりました。 そこで我々は、同じタイプの脆弱性を含む他の941個の脆弱性SCでモデルをさらに微調整し、脆弱性に制約のあるデコードを適用した。 微調整は4つのGPUで1時間しかかからなかった。 そして、再び176のSCを自動補完し、我々のアプローチは、生成するコードの62%を脆弱性として識別し、67%のコードを生成することを避け、このアプローチが自動補完されたコードの脆弱性を効果的に、効果的に回避できることを示している。

Auto-completing code enables developers to speed up coding significantly. Recent advances in transformer-based large language model (LLM) technologies have been applied to code synthesis. However, studies show that many of such synthesized codes contain vulnerabilities. We propose a novel vulnerability-constrained decoding approach to reduce the amount of vulnerable code generated by such models. Using a small dataset of labeled vulnerable lines of code, we fine-tune an LLM to include vulnerability labels when generating code, acting as an embedded classifier. Then, during decoding, we deny the model to generate these labels to avoid generating vulnerable code. To evaluate the method, we chose to automatically complete Ethereum Blockchain smart contracts (SCs) as the case study due to the strict requirements of SC security. We first fine-tuned the 6-billion-parameter GPT-J model using 186,397 Ethereum SCs after removing the duplication from 2,217,692 SCs. The fine-tuning took more than one week using ten GPUs. The results showed that our fine-tuned model could synthesize SCs with an average BLEU (BiLingual Evaluation Understudy) score of 0.557. However, many codes in the auto-completed SCs were vulnerable. Using the code before the vulnerable line of 176 SCs containing different types of vulnerabilities to auto-complete the code, we found that more than 70% of the auto-completed codes were insecure. Thus, we further fine-tuned the model on other 941 vulnerable SCs containing the same types of vulnerabilities and applied vulnerability-constrained decoding. The fine-tuning took only one hour with four GPUs. We then auto-completed the 176 SCs again and found that our approach could identify 62% of the code to be generated as vulnerable and avoid generating 67% of them, indicating the approach could efficiently and effectively avoid vulnerabilities in the auto-completed code.
翻訳日:2023-09-19 13:02:48 公開日:2023-09-18
# AI生成コンテンツのバイアス:大規模言語モデルによるニュースの検討

Bias of AI-Generated Content: An Examination of News Produced by Large Language Models ( http://arxiv.org/abs/2309.09825v1 )

ライセンス: Link先を確認
Xiao Fang, Shangkun Che, Minjia Mao, Hongzhe Zhang, Ming Zhao, Xiaohang Zhao(参考訳) 大規模言語モデル(LLM)は、AIGC(AI-Generated Content)として知られる、私たちの生活を変革し、それらが生成するコンテンツを通じて機能する可能性がある。 この変換を活用するためには,LLMの限界を理解する必要がある。 本稿では,ChatGPT や LLaMA を含む7つの代表的な LLM によるAIGC のバイアスについて検討する。 われわれはNew York TimesとReutersのニュース記事を集めている。 次に,これらのニュース記事の見出し付きニュースコンテンツをプロンプトとしてLLMに適用し,AIGCとオリジナルのニュース記事を比較して,LLMが生み出すAIGCの性別的・人種的偏見を評価する。 さらに、これらのニュースの見出しから構築されたプロンプトにジェンダーバイアス付きメッセージを追加することにより、各LDMのジェンダーバイアスをバイアス付きプロンプトで分析する。 調査の結果, LLMが生成するAIGCは, 性別や人種の偏りがかなり大きいことがわかった。 さらに、各LSMが生成するAIGCは、黒人人種の女性や個人に対する顕著な差別を示す。 LLMの中で、ChatGPTによって生成されたAIGCはバイアスの最小レベルを示し、ChatGPTはバイアス付きプロンプトが提供されるとコンテンツ生成を減少させる唯一のモデルである。

Large language models (LLMs) have the potential to transform our lives and work through the content they generate, known as AI-Generated Content (AIGC). To harness this transformation, we need to understand the limitations of LLMs. Here, we investigate the bias of AIGC produced by seven representative LLMs, including ChatGPT and LLaMA. We collect news articles from The New York Times and Reuters, both known for delivering relatively unbiased news. We then apply each examined LLM to generate news content with headlines of these news articles as prompts, and evaluate the gender and racial biases of the AIGC produced by the LLM by comparing the AIGC and the original news articles. We further analyze the gender bias of each LLM under biased prompts by adding gender-biased messages to prompts constructed from these news headlines. Our study reveals that the AIGC produced by each examined LLM demonstrates substantial gender and racial biases. Moreover, the AIGC generated by each LLM exhibits notable discrimination against females and individuals of the Black race. Among the LLMs, the AIGC generated by ChatGPT demonstrates the lowest level of bias, and ChatGPT is the sole model capable of declining content generation when provided with biased prompts.
翻訳日:2023-09-19 13:02:20 公開日:2023-09-18
# Grasp-Anything: 基礎モデルによる大規模Graspデータセット

Grasp-Anything: Large-scale Grasp Dataset from Foundation Models ( http://arxiv.org/abs/2309.09818v1 )

ライセンス: Link先を確認
An Dinh Vuong, Minh Nhat Vu, Hieu Le, Baoru Huang, Binh Huynh, Thieu Vo, Andreas Kugi, Anh Nguyen(参考訳) ChatGPTのような基礎モデルは、現実世界のドメインの普遍的な表現のため、ロボットタスクにおいて大きな進歩を遂げている。 本稿では,幅広い産業応用のロボット工学における永続的課題である把握検出のための基礎モデルを活用する。 多数の把握データセットにもかかわらず、そのオブジェクトの多様性は現実世界の数字と比べても限られている。 幸いなことに、ファンデーションモデルには、私たちの日常生活で遭遇するオブジェクトを含む、現実世界の知識の広範なリポジトリがあります。 その結果、以前の把握データセットにおける限定表現に対する有望な解決策は、これらの基礎モデルに埋め込まれた普遍的な知識を活用することである。 そこで本研究では,基礎モデルから合成した大規模把持データセットであるgrab-anythingを提案する。 Grasp-Anythingは多様性と規模に優れており、100万のサンプルにテキスト記述と3万以上のオブジェクトがあり、以前のデータセットを上回っている。 実世界ロボット実験と視覚に基づくタスクにおけるゼロショット把持検出が,把持が効果的であることを示す。 私たちのデータセットとコードはhttps://grasp-anything-2023.github.ioで利用可能です。

Foundation models such as ChatGPT have made significant strides in robotic tasks due to their universal representation of real-world domains. In this paper, we leverage foundation models to tackle grasp detection, a persistent challenge in robotics with broad industrial applications. Despite numerous grasp datasets, their object diversity remains limited compared to real-world figures. Fortunately, foundation models possess an extensive repository of real-world knowledge, including objects we encounter in our daily lives. As a consequence, a promising solution to the limited representation in previous grasp datasets is to harness the universal knowledge embedded in these foundation models. We present Grasp-Anything, a new large-scale grasp dataset synthesized from foundation models to implement this solution. Grasp-Anything excels in diversity and magnitude, boasting 1M samples with text descriptions and more than 3M objects, surpassing prior datasets. Empirically, we show that Grasp-Anything successfully facilitates zero-shot grasp detection on vision-based tasks and real-world robotic experiments. Our dataset and code are available at https://grasp-anything-2023.github.io.
翻訳日:2023-09-19 13:01:57 公開日:2023-09-18
# 安定化形式とその一般化について

On The Stabilizer Formalism And Its Generalization ( http://arxiv.org/abs/2309.09815v1 )

ライセンス: Link先を確認
\'Eloi Descamps and Borivoje Daki\'c(参考訳) 標準安定化器形式主義は、クリフォード群内の演算に制限された量子計算が古典的に効率的にシミュレート可能であることを示す設定を与える。 この研究は、この定理の背後にある数学的構造を分析し、非自明な一般化クリフォード群を構築するのに必要な制約の一般化と導出を求める。 安定化集合の閉包が$su(d)$変換の集合において密であるなら、関連するクリフォード群は自明であり、局所ゲートとサブの置換のみからなる。 この結果は安定化集合の密度と対応するクリフォード群の単純さの間の密接な関係を示す。 解析を適用して、量子ビットのバイナリ可観測子による安定化を検証し、形式主義が低数の量子ビットの標準安定化と等価であることを示す。 観測されたパターンに基づき、一般化安定化状態の大きなクラスは標準状態と同値であると推測する。 我々の結果は、新しいゴッテマン・クニル型の結果の構築に利用でき、量子計算と古典計算の間により鋭い線を引くことができる。

The standard stabilizer formalism provides a setting to show that quantum computation restricted to operations within the Clifford group are classically efficiently simulable: this is the content of the well-known Gottesman-Knill theorem. This work analyzes the mathematical structure behind this theorem to find possible generalizations and derivation of constraints required for constructing a non-trivial generalized Clifford group. We prove that if the closure of the stabilizing set is dense in the set of $SU(d)$ transformations, then the associated Clifford group is trivial, consisting only of local gates and permutations of subsystems. This result demonstrates the close relationship between the density of the stabilizing set and the simplicity of the corresponding Clifford group. We apply the analysis to investigate stabilization with binary observables for qubits and find that the formalism is equivalent to the standard stabilization for a low number of qubits. Based on the observed patterns, we conjecture that a large class of generalized stabilizer states are equivalent to the standard ones. Our results can be used to construct novel Gottesman-Knill-type results and consequently draw a sharper line between quantum and classical computation.
翻訳日:2023-09-19 13:01:40 公開日:2023-09-18
# 進化型ディープカーネルマシン

Convolutional Deep Kernel Machines ( http://arxiv.org/abs/2309.09814v1 )

ライセンス: Link先を確認
Edward Milsom, Ben Anson, Laurence Aitchison(参考訳) deep kernel machine(dkms)は、deep nnsやdeep gaussian processといった他の深層モデルの柔軟性を備えた、最近導入されたカーネルメソッドである。 DKMは純粋にカーネルで動作し、機能では動作しないため、NNから深層カーネル学習、さらには基本コンポーネントとして機能を使用する深いガウスプロセスまで、他の方法とは異なる。 ここでは、畳み込みDKMと、効率的なドメイン間誘導点近似スキームを紹介する。 さらに,畳み込みdkms用に設計された9種類の正規化,2種類の可能性,および2種類のトップ層を含む,多数のモデル変種を開発し,実験的に評価した。 結果、MNISTでは99%、CIFAR-10では92%、CIFAR-100では71%、トレーニングは28時間程度で、NNGP/NTK/Myrtleカーネルより1-2桁速い。

Deep kernel machines (DKMs) are a recently introduced kernel method with the flexibility of other deep models including deep NNs and deep Gaussian processes. DKMs work purely with kernels, never with features, and are therefore different from other methods ranging from NNs to deep kernel learning and even deep Gaussian processes, which all use features as a fundamental component. Here, we introduce convolutional DKMs, along with an efficient inter-domain inducing point approximation scheme. Further, we develop and experimentally assess a number of model variants, including 9 different types of normalisation designed for the convolutional DKMs, two likelihoods, and two different types of top-layer. The resulting models achieve around 99% test accuracy on MNIST, 92% on CIFAR-10 and 71% on CIFAR-100, despite training in only around 28 GPU hours, 1-2 orders of magnitude faster than full NNGP / NTK / Myrtle kernels, whilst achieving comparable performance.
翻訳日:2023-09-19 13:01:20 公開日:2023-09-18
# R2GenGPT:凍結LDMを用いた放射線診断レポート

R2GenGPT: Radiology Report Generation with Frozen LLMs ( http://arxiv.org/abs/2309.09812v1 )

ライセンス: Link先を確認
Zhanyu Wang, Lingqiao Liu, Lei Wang and Luping Zhou(参考訳) 大きな言語モデル(LLM)は、様々な言語タスクに適用する際、目覚ましい一般化機能を示し続けている。 それでも、LLMs for Radiology Report Generation (R2Gen) の潜在能力を最大限に活用することは、LLMsとR2Genタスクの相違に起因する課題である。 このギャップを効果的に埋めるために,効率的な視覚アライメントモジュールを用いて視覚特徴とLLMの単語埋め込み空間を整合させる新しいソリューションR2GenGPTを提案する。 この革新的なアプローチにより、以前の静的LLMは画像情報をシームレスに統合し、処理することができ、R2Genのパフォーマンスを最適化する一歩を踏み出した。 R2GenGPTは以下の利点を提供する。 まず、軽量な視覚アライメントモジュールのみをトレーニングし、LCMの全パラメータを凍結することで、最先端(SOTA)のパフォーマンスを実現する。 第二に、非常に最小限のパラメータのトレーニングが必要であり、迅速な収束を実現するため、高いトレーニング効率を示す。 デルタチューニングを用いることで、我々のモデルは、SOTAレベルに近い性能を達成するために、5Mパラメータ(総パラメータ数の0.07倍)のみを訓練する。 私たちのコードはhttps://github.com/wang-zhanyu/r2gengptで利用可能です。

Large Language Models (LLMs) have consistently showcased remarkable generalization capabilities when applied to various language tasks. Nonetheless, harnessing the full potential of LLMs for Radiology Report Generation (R2Gen) still presents a challenge, stemming from the inherent disparity in modality between LLMs and the R2Gen task. To bridge this gap effectively, we propose R2GenGPT, which is a novel solution that aligns visual features with the word embedding space of LLMs using an efficient visual alignment module. This innovative approach empowers the previously static LLM to seamlessly integrate and process image information, marking a step forward in optimizing R2Gen performance. R2GenGPT offers the following benefits. First, it attains state-of-the-art (SOTA) performance by training only the lightweight visual alignment module while freezing all the parameters of LLM. Second, it exhibits high training efficiency, as it requires the training of an exceptionally minimal number of parameters while achieving rapid convergence. By employing delta tuning, our model only trains 5M parameters (which constitute just 0.07\% of the total parameter count) to achieve performance close to the SOTA levels. Our code is available at https://github.com/wang-zhanyu/R2GenGPT.
翻訳日:2023-09-19 13:01:02 公開日:2023-09-18
# VisualProg Distiller: 微調整不要なビジュアルプログラミングフレームワークを学ぶ

VisualProg Distiller: Learning to Fine-tune Non-differentiable Visual Programming Frameworks ( http://arxiv.org/abs/2309.09809v1 )

ライセンス: Link先を確認
Wentao Wan, Zeqing Wang, Nan Kang, Keze Wang, Zhiyu Shen, Liang Lin(参考訳) 大きな言語モデルに基づいた解釈可能で普遍的なニューロシンボリックパラダイムとして、ビジュアルプログラミング(visualprog)はトレーニングなしで構成的な視覚的タスクを実行することができるが、そのパフォーマンスはタスク固有の教師付き学習モデルよりも著しく劣る。 実用性を高めるために、特定のタスクにおけるVisualProgのパフォーマンスを改善する必要がある。 しかし、VisualProgの非差別性は、さらなる改善を達成するために特定のタスクに微調整戦略を採用する可能性を制限する。 解析の結果、VisualProgの実行における重要なパフォーマンス問題は、対応するビジュアルサブタスクステップのサブモジュールによるエラーに起因することがわかった。 そこで本稿では,分離した視覚サブタスク上でのVisualProgサブモジュールの性能を最適化するため,プロセス知識を補足して蒸留する方法である ``VisualProg Distiller を提案する。 具体的には、教師として与えられたタスクによく適合するエンドツーエンドモデルを選択し、さらにVisualProg生成プログラムの実行フローに基づいて、実行された視覚サブモジュールに教師の知識を抽出する。 このようにして、本手法は、微分不可能なVisualProgフレームワークの微調整を効果的に行うことができる。 広範かつ包括的な実験的評価により,本手法はVisualProgの大幅な性能向上を実現し,比較した最先端手法を大きなマージンで上回った。 さらに,本手法の蒸留プロセスを利用して大規模データセットを構築することにより,GQAタスクに有用なプロセス管理を実現する。

As an interpretable and universal neuro-symbolic paradigm based on Large Language Models, visual programming (VisualProg) can execute compositional visual tasks without training, but its performance is markedly inferior compared to task-specific supervised learning models. To increase its practicality, the performance of VisualProg on specific tasks needs to be improved. However, the non-differentiability of VisualProg limits the possibility of employing the fine-tuning strategy on specific tasks to achieve further improvements. In our analysis, we discovered that significant performance issues in VisualProg's execution originated from errors made by the sub-modules at corresponding visual sub-task steps. To address this, we propose ``VisualProg Distiller", a method of supplementing and distilling process knowledge to optimize the performance of each VisualProg sub-module on decoupled visual sub-tasks, thus enhancing the overall task performance. Specifically, we choose an end-to-end model that is well-performed on the given task as the teacher and further distill the knowledge of the teacher into the invoked visual sub-modules step-by-step based on the execution flow of the VisualProg-generated programs. In this way, our method is capable of facilitating the fine-tuning of the non-differentiable VisualProg frameworks effectively. Extensive and comprehensive experimental evaluations demonstrate that our method can achieve a substantial performance improvement of VisualProg, and outperforms all the compared state-of-the-art methods by large margins. Furthermore, to provide valuable process supervision for the GQA task, we construct a large-scale dataset by utilizing the distillation process of our method.
翻訳日:2023-09-19 13:00:40 公開日:2023-09-18
# リングトラップにおける物質波同位体分離

Matter Wave Isotope Separation in a Ring Trap ( http://arxiv.org/abs/2309.09846v1 )

ライセンス: Link先を確認
Sriganapathy Raghav, Suranjana Ghosh, Barun Halder, Utpal Roy(参考訳) 我々は種間相互作用の存在下でボース・アインシュタイン凝縮物の混合物から同位体分離の新しい機構を考案する。 このミスシブル系の分数再生は、rb$の同位体を空間的に解くためにリング導波路の内部で研究されている。 特徴的な時間スケールは、環半径と種間相互作用の強さに影響される。 自己相関関数が識別可能性のシグネチャを表示する物理パラメータを同定する。 分離性関数の研究は、より大きな収率で同位体を分離する好適な時間例を示唆している。 環半径と種間相互作用強度の正確な範囲を明らかにする。 本稿では,提案インスタンスにおける凝縮密度を例示し,その結果を確認し,本手法の有効性を検証した。

We devise a novel mechanism of isotope separation from a mixture of Bose-Einstein condensate in the presence of interspecies interaction. Fractional revivals of this miscible system are studied inside a ring waveguide for spatially resolving the isotopes of $Rb$. The characteristic time scale is influenced by the ring radius and the strength of interspecies interaction. We identify the physical parameters for which the autocorrelation function displays the signature of distinguishability. A study of the separability function further suggests favourable time instances for separating the isotopes with greater yields. The precise ranges of ring radius and interspecies interaction strength are revealed. We illustrate condensate densities at proposed time instances, which confirms our results and also validates our method.
翻訳日:2023-09-19 12:52:16 公開日:2023-09-18
# CC-SGG:学習シーングラフを用いたコーナーケースシナリオ生成

CC-SGG: Corner Case Scenario Generation using Learned Scene Graphs ( http://arxiv.org/abs/2309.09844v1 )

ライセンス: Link先を確認
George Drayson, Efimia Panagiotaki, Daniel Omeiza, Lars Kunze(参考訳) コーナーケースシナリオは、自動運転車(AV)の安全性のテストと検証に不可欠なツールである。 これらのシナリオは、自然主義的な運転データセットでは不十分であることが多いため、合成コーナーケースによるデータ拡張は、ユニークな状況下でのAVの安全な操作を大幅に強化する。 しかし、合成的、しかし現実的なコーナーケースの生成は、大きな課題となる。 本研究では,不均一グラフニューラルネットワーク(HGNN)に基づく新しい手法を導入し,通常の運転シナリオをコーナーケースに変換する。 これを実現するために,我々はまず,通常の運転シーンの簡潔な表現をシーングラフとして生成し,その構造と特性を最小に操作する。 我々のモデルはこれらのグラフを摂動させ、注意と三重埋め込みを用いてコーナーケースを生成する。 入力グラフと摂動グラフはシミュレーションにインポートされ、コーナーケースシナリオを生成する。 我々のモデルは入力シーングラフからコーナーケースを生成し、テストデータセットで89.9%の精度で予測することに成功した。 さらに、ベースライン自律運転法で生成されたシナリオを検証し、ベースラインにとって重要な状況を効果的に生成するモデルの能力を実証する。

Corner case scenarios are an essential tool for testing and validating the safety of autonomous vehicles (AVs). As these scenarios are often insufficiently present in naturalistic driving datasets, augmenting the data with synthetic corner cases greatly enhances the safe operation of AVs in unique situations. However, the generation of synthetic, yet realistic, corner cases poses a significant challenge. In this work, we introduce a novel approach based on Heterogeneous Graph Neural Networks (HGNNs) to transform regular driving scenarios into corner cases. To achieve this, we first generate concise representations of regular driving scenes as scene graphs, minimally manipulating their structure and properties. Our model then learns to perturb those graphs to generate corner cases using attention and triple embeddings. The input and perturbed graphs are then imported back into the simulation to generate corner case scenarios. Our model successfully learned to produce corner cases from input scene graphs, achieving 89.9% prediction accuracy on our testing dataset. We further validate the generated scenarios on baseline autonomous driving methods, demonstrating our model's ability to effectively create critical situations for the baselines.
翻訳日:2023-09-19 12:52:07 公開日:2023-09-18
# 指示追従音声認識

Instruction-Following Speech Recognition ( http://arxiv.org/abs/2309.09843v1 )

ライセンス: Link先を確認
Cheng-I Jeff Lai, Zhiyun Lu, Liangliang Cao, Ruoming Pang(参考訳) 従来のエンドツーエンド自動音声認識(ASR)モデルは、主に正確な転写タスクに重点を置いており、微妙なユーザインタラクションの柔軟性に欠ける。 音声処理におけるLarge Language Models(LLM)の出現により、より有機的でテキストプロンプトに基づく対話が可能になった。 しかし、これらのモデルの音声理解と「推論」能力のメカニズムはいまだ解明されていない。 データの観点からこの問題を研究するために,命令追従音声認識を導入し,多様な自由形式のテキスト命令を理解し実行するためのリステン・アテンド・スペルモデルを訓練する。 これにより、事前定義されたコマンドセットに頼ることなく、書き起こし操作から要約まで、多数の音声認識タスクが可能になる。 このモデルは,LLMや事前学習した音声モジュールを必要とせずに,簡単な命令を解釈し,実行することができる。 のような命令に基づいて選択的に書き起こしオプションを提供し、既存のLCMと比べてプライバシーと安全性の付加層を提供する。 本研究は,音声基礎モデルにおける指導追従訓練の意義を明らかにするものである。

Conventional end-to-end Automatic Speech Recognition (ASR) models primarily focus on exact transcription tasks, lacking flexibility for nuanced user interactions. With the advent of Large Language Models (LLMs) in speech processing, more organic, text-prompt-based interactions have become possible. However, the mechanisms behind these models' speech understanding and "reasoning" capabilities remain underexplored. To study this question from the data perspective, we introduce instruction-following speech recognition, training a Listen-Attend-Spell model to understand and execute a diverse set of free-form text instructions. This enables a multitude of speech recognition tasks -- ranging from transcript manipulation to summarization -- without relying on predefined command sets. Remarkably, our model, trained from scratch on Librispeech, interprets and executes simple instructions without requiring LLMs or pre-trained speech modules. It also offers selective transcription options based on instructions like "transcribe first half and then turn off listening," providing an additional layer of privacy and safety compared to existing LLMs. Our findings highlight the significant potential of instruction-following training to advance speech foundation models.
翻訳日:2023-09-19 12:51:48 公開日:2023-09-18
# 変分量子光非線形性を持つフォトニック量子メソロジー

Photonic quantum metrology with variational quantum optical non-linearities ( http://arxiv.org/abs/2309.09841v1 )

ライセンス: Link先を確認
A. Mu\~noz de las Heras, C. Tabares, J. T. Schneider, L. Tagliacozzo, D. Porras and A. Gonz\'alez-Tudela(参考訳) フォトニック量子メートル法は、フォックやNOON状態のような複雑な量子状態を利用して、古典的な精度限界を超える未知のパラメータを測定する。 現状の手法は、光子数で成功確率が低下する確率が低いか、必要な操作数の多さにより不確実性のある決定的手法であるため、現在では、大きな光子数を持つメロジカル関連状態の効率的な生成が主なボトルネックとなっている。 ここでは、可変量子光学非線形性を利用した大きな光子数を持つ気象関連状態を変動的に決定的に生成する方法を示す。 我々は,光の2レベルエミッタへの結合とKerr型エミッタへの結合という,非線形性の2つのクラスをベンチマークした。 本手法は,光子数とは独立に,少ない演算数でメトロロジー的に関連した状態に到達できることを実証的に示し,ノイズに対する弾性について検討する。

Photonic quantum metrology harnesses complex quantum states of light, such as Fock or NOON states, to measure unknown parameters beyond classical precision limits. Currently, its main bottleneck is the efficient generation of metrologically-relevant states with large photon numbers because state-of-the-art methods are either probabilistic with a decreasing success probability with the photon number or deterministic ones with poor fidelities due to the large number of operations required. Here, we show how to deterministically generate metrologically-relevant states with large photon numbers exploiting tunable quantum optical non-linearities in a variational way. We benchmark our method with two different classes of non-linearities: the one coming from the coupling of light to a two-level emitter and a Kerr-type one. We show empirically that our method can reach metrologically-relevant states with a low number of operations independently of the photon-number, and study its resilience against noise.
翻訳日:2023-09-19 12:51:29 公開日:2023-09-18
# 量子振幅の非線形変換:指数的改善、一般化および応用

Non-Linear Transformations of Quantum Amplitudes: Exponential Improvement, Generalization, and Applications ( http://arxiv.org/abs/2309.09839v1 )

ライセンス: Link先を確認
Arthur G. Rattew, Patrick Rebentrost(参考訳) 量子アルゴリズムは量子状態の振幅を操作して計算問題の解を求める。 本研究では,量子状態の振幅に非線形関数の一般クラスを適用するためのフレームワークを提案する。 我々のフレームワークは、量子回路として指定された状態準備ユニタリ(またはブロックエンコーディング)を受け取り、n$-dimensionalの量子状態を定義する。 次に、量子状態の振幅の対角ブロックエンコーディングを構築し、それに基づいて以前の作業を単純化する。 QSVT文献のテクニックは、このブロックエンコーディングを処理するために使われる。 指数的スピードアップの源は、重要サンプリングの量子アナログに由来する。 次に、エンドツーエンドアプリケーションに関連する新しいエラーバウンドを導出し、$\ell_2$-normエラーという観点でエラーを与える。 このフレームワークのパワーを4つの主要なアプリケーションで示す。 第一に、我々のアルゴリズムは、任意の量子状態の振幅に$\tanh(x)$を適用でき、最大で$\ell_2$-normエラーが$\epsilon$で、最悪のクエリの複雑さは$O(\log(N/\epsilon))$で、$O(\sqrt{N}\log(N/\epsilon))$は前処理である。 第2に、単項入力モデルにおける最大探索の新しい定式化を解くアルゴリズムを提案する。 第三に、任意の量子状態に多くの共通非線形関数を適用する際に、効率的なエンドツーエンドの複雑さを証明する。 最後に,既存の量子算術自由状態準備手法を一般化し,統一する。 私たちの研究は、最適化、状態準備、量子化学、機械学習といった分野における潜在的に多数の応用を含む、重要で効率的なアルゴリズム構築ブロックを提供します。

Quantum algorithms manipulate the amplitudes of quantum states to find solutions to computational problems. In this work, we present a framework for applying a general class of non-linear functions to the amplitudes of quantum states, with up-to an exponential improvement over the previous work. Our framework accepts a state preparation unitary (or block-encoding), specified as a quantum circuit, defining an $N$-dimensional quantum state. We then construct a diagonal block-encoding of the amplitudes of the quantum state, building on and simplifying previous work. Techniques from the QSVT literature are then used to process this block-encoding. The source of our exponential speedup comes from the quantum analog of importance sampling. We then derive new error-bounds relevant for end-to-end applications, giving the error in terms of $\ell_2$-norm error. We demonstrate the power of this framework with four key applications. First, our algorithm can apply the important function $\tanh(x)$ to the amplitudes of an arbitrary quantum state with at most an $\ell_2$-norm error of $\epsilon$, with worst-case query complexity of $O(\log(N/\epsilon))$, in comparison to the $O(\sqrt{N}\log(N/\epsilon))$ of prior work. Second, we present an algorithm solving a new formulation of maximum finding in the unitary input model. Third, we prove efficient end-to-end complexities in applying a number of common non-linear functions to arbitrary quantum states. Finally, we generalize and unify existing quantum arithmetic-free state-preparation techniques. Our work provides an important and efficient algorithmic building block with potentially numerous applications in areas such as optimization, state preparation, quantum chemistry, and machine learning.
翻訳日:2023-09-19 12:51:12 公開日:2023-09-18
# Hypr:参照コーパスを用いたASR仮説の総合的研究

Hypr: A comprehensive study for ASR hypothesis revising with a reference corpus ( http://arxiv.org/abs/2309.09838v1 )

ライセンス: Link先を確認
Yi-Wei Wang, Ke-Han Lu, Kuan-Yu Chen(参考訳) ディープラーニングの発展に伴い,自動音声認識(ASR)は大きな進歩を遂げた。 性能をさらに向上させるため、認識結果の修正は軽量だが効率的な方法の一つである。 様々な方法は n-best reranking method と error correction model に大別できる。 前者は、与えられた入力音声に対して、ASRによって生成される候補の集合から、最小誤差率の仮説を選択することを目的とする。 後者は、与えられた仮説における認識誤りの検出とこれらの誤りの修正に焦点を合わせ、強化された結果を得る。 しかしながら、これらの研究は、通常異なるコーパスで評価され、異なるASRモデルと組み合わせられ、異なるデータセットを使用してモデルをトレーニングするので、互いにほとんど比較できない。 そこで,本研究ではまず,ASR仮説修正データセット(HypR)のリリースに集中する。 HypRはいくつかの一般的なコーパス(AISHELL-1、TED-Lium 2、LibriSpeech)を含み、各発話に対して50の認識仮説を提供する。 ASRのチェックポイントモデルも公開されている。 また,いくつかの古典的手法と代表的手法を実装し比較し,音声認識結果の改訂に向けた最近の研究動向を示す。 公開のhyprデータセットが、その後の研究のリファレンスベンチマークになり、研究の分野を高度なレベルに促進できることを願っています。

With the development of deep learning, automatic speech recognition (ASR) has made significant progress. To further enhance the performance, revising recognition results is one of the lightweight but efficient manners. Various methods can be roughly classified into N-best reranking methods and error correction models. The former aims to select the hypothesis with the lowest error rate from a set of candidates generated by ASR for a given input speech. The latter focuses on detecting recognition errors in a given hypothesis and correcting these errors to obtain an enhanced result. However, we observe that these studies are hardly comparable to each other as they are usually evaluated on different corpora, paired with different ASR models, and even use different datasets to train the models. Accordingly, we first concentrate on releasing an ASR hypothesis revising (HypR) dataset in this study. HypR contains several commonly used corpora (AISHELL-1, TED-LIUM 2, and LibriSpeech) and provides 50 recognition hypotheses for each speech utterance. The checkpoint models of the ASR are also published. In addition, we implement and compare several classic and representative methods, showing the recent research progress in revising speech recognition results. We hope the publicly available HypR dataset can become a reference benchmark for subsequent research and promote the school of research to an advanced level.
翻訳日:2023-09-19 12:50:39 公開日:2023-09-18
# フレーム-to-Utterance Convergence:一括検出のためのスペクトル-時間的アプローチ

Frame-to-Utterance Convergence: A Spectra-Temporal Approach for Unified Spoofing Detection ( http://arxiv.org/abs/2309.09837v1 )

ライセンス: Link先を確認
Awais Khan, Khalid Mahmood Malik, Shah Nawaz(参考訳) 音声スプーフィング攻撃は、自動話者認証システムに重大な脅威をもたらす。 既存のアンチスプーフィングメソッドは、しばしば合成攻撃やリプレイ攻撃のような特定の攻撃タイプをシミュレートする。 しかし、現実のシナリオでは、対策は攻撃の生成スキーマに気付かず、統一された解決策を必要とする。 現在の統一ソリューションは、特に最近のスプーフィングメカニズムにおいて、スプーフィングアーティファクトの検出に苦労している。 例えば、スプーフィングアルゴリズムはスペクトルまたは時間異常を注入するが、識別は困難である。 この目的のために,フレームレベルおよび発話レベル係数を利用したスペクトル時間融合を提案する。 フレームレベルの不整合に対する新しい局所スペクトル偏差係数(SDC)を導入し,発話レベルのアーティファクトをキャプチャする逐次時間係数(STC)にバイLSTMベースのネットワークを用いる。 我々のスペクトル時間融合戦略はこれらの係数を組み合わせており、オートエンコーダはスペクトル時間ずれ係数(STDC)を生成し、堅牢性を高める。 提案手法は, 合成, リプレイ, 部分的なディープフェイク攻撃を含む複数のスプーフィングカテゴリに対処する。 多様なデータセット(ASVspoof2019, ASVspoof2021, VSDC, 部分スプーフ, in-the-wild ディープフェイク)に対する広範囲な評価は、幅広い音声アプリケーションに対する堅牢性を示した。

Voice spoofing attacks pose a significant threat to automated speaker verification systems. Existing anti-spoofing methods often simulate specific attack types, such as synthetic or replay attacks. However, in real-world scenarios, the countermeasures are unaware of the generation schema of the attack, necessitating a unified solution. Current unified solutions struggle to detect spoofing artifacts, especially with recent spoofing mechanisms. For instance, the spoofing algorithms inject spectral or temporal anomalies, which are challenging to identify. To this end, we present a spectra-temporal fusion leveraging frame-level and utterance-level coefficients. We introduce a novel local spectral deviation coefficient (SDC) for frame-level inconsistencies and employ a bi-LSTM-based network for sequential temporal coefficients (STC), which capture utterance-level artifacts. Our spectra-temporal fusion strategy combines these coefficients, and an auto-encoder generates spectra-temporal deviated coefficients (STDC) to enhance robustness. Our proposed approach addresses multiple spoofing categories, including synthetic, replay, and partial deepfake attacks. Extensive evaluation on diverse datasets (ASVspoof2019, ASVspoof2021, VSDC, partial spoofs, and in-the-wild deepfakes) demonstrated its robustness for a wide range of voice applications.
翻訳日:2023-09-19 12:50:17 公開日:2023-09-18
# recap: 検索型音声キャプション

RECAP: Retrieval-Augmented Audio Captioning ( http://arxiv.org/abs/2309.09836v1 )

ライセンス: Link先を確認
Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Ramani Duraiswami, Dinesh Manocha(参考訳) 本稿では,データストアから検索された音声に類似した入力音声および他のキャプションに条件付けられたキャプションを生成する,新規かつ効果的な音声キャプションシステムであるrecap(retrieval-augmented audio captioning)を提案する。 さらに,提案手法は,追加の微調整を必要とせずに任意の領域に転送できる。 音声サンプルのキャプションを生成するために,音声テキストモデルCLAPを用いて置換可能なデータストアから類似のキャプションを検索し,プロンプトを構築する。 次に、このプロンプトをGPT-2デコーダに供給し、CLAPエンコーダとGPT-2の間にクロスアテンション層を導入し、キャプション生成のためのオーディオを条件付ける。 ClothoとAudioCapsという2つのベンチマークデータセットの実験では、RECAPはドメイン内設定の競合性能とドメイン外設定の大幅な改善を実現している。 さらに、大容量のテキストキャプションのみのデータストアを \textit{training-free} 形式で活用できるため、RECAPはトレーニング中に見たことのない新しいオーディオイベントや、複数のイベントを持つ合成オーディオをキャプションするユニークな機能を示している。 この分野での研究を促進するために、オーディオセット、オーディオキャップ、布地などの弱いラベル付きキャプション15万以上もリリースしています。

We present RECAP (REtrieval-Augmented Audio CAPtioning), a novel and effective audio captioning system that generates captions conditioned on an input audio and other captions similar to the audio retrieved from a datastore. Additionally, our proposed method can transfer to any domain without the need for any additional fine-tuning. To generate a caption for an audio sample, we leverage an audio-text model CLAP to retrieve captions similar to it from a replaceable datastore, which are then used to construct a prompt. Next, we feed this prompt to a GPT-2 decoder and introduce cross-attention layers between the CLAP encoder and GPT-2 to condition the audio for caption generation. Experiments on two benchmark datasets, Clotho and AudioCaps, show that RECAP achieves competitive performance in in-domain settings and significant improvements in out-of-domain settings. Additionally, due to its capability to exploit a large text-captions-only datastore in a \textit{training-free} fashion, RECAP shows unique capabilities of captioning novel audio events never seen during training and compositional audios with multiple events. To promote research in this space, we also release 150,000+ new weakly labeled captions for AudioSet, AudioCaps, and Clotho.
翻訳日:2023-09-19 12:49:52 公開日:2023-09-18
# 非定常マルチアームバンドを用いたマルチモーダルマルチタスク対話法分類のためのタスク選択とアサインメント

Task Selection and Assignment for Multi-modal Multi-task Dialogue Act Classification with Non-stationary Multi-armed Bandits ( http://arxiv.org/abs/2309.09832v1 )

ライセンス: Link先を確認
Xiangheng He, Junjie Chen, Bj\"orn W. Schuller(参考訳) マルチタスク学習(MTL)は、関連する補助タスクと共同学習することで、一次タスクの性能を向上させることを目的としている。 従来のMTLメソッドは、トレーニング中にランダムにタスクを選択する。 しかし,本研究の結果から,このようなタスクのランダムな選択は役に立たず,パフォーマンスに有害である可能性が示唆された。 したがって、MTLにおけるタスクの選択と割り当てのための新しい戦略を検討する必要がある。 本稿では,マルチモーダル・マルチタスク対話行動分類タスクについて検討し,ガウス前処理を用いて非定常的マルチアームバンディット(MAB)に基づくタスクの選択と割り当てを行う手法を提案する。 実験の結果、異なるトレーニング段階において、異なるタスクが異なるユーティリティを持つことが示された。 提案手法は,タスクユーティリティを効果的に識別し,無駄なタスクや有害なタスクを積極的に回避し,トレーニング中のタスク割り当てを実現する。 提案手法は,p値0.05の単一タスクベースラインとマルチタスクベースラインに対して,UARとF1の点で有意に優れている。 実験のさらなる分析により,データ不均衡問題のあるデータセットでは,提案手法は安定性が著しく向上し,マイノリティクラスで一貫性と適度な性能が得られることが示された。 提案手法は現在の最先端モデルよりも優れている。

Multi-task learning (MTL) aims to improve the performance of a primary task by jointly learning with related auxiliary tasks. Traditional MTL methods select tasks randomly during training. However, both previous studies and our results suggest that such the random selection of tasks may not be helpful, and can even be harmful to performance. Therefore, new strategies for task selection and assignment in MTL need to be explored. This paper studies the multi-modal, multi-task dialogue act classification task, and proposes a method for selecting and assigning tasks based on non-stationary multi-armed bandits (MAB) with discounted Thompson Sampling (TS) using Gaussian priors. Our experimental results show that in different training stages, different tasks have different utility. Our proposed method can effectively identify the task utility, actively avoid useless or harmful tasks, and realise the task assignment during training. Our proposed method is significantly superior in terms of UAR and F1 to the single-task and multi-task baselines with p-values < 0.05. Further analysis of experiments indicates that for the dataset with the data imbalance problem, our proposed method has significantly higher stability and can obtain consistent and decent performance for minority classes. Our proposed method is superior to the current state-of-the-art model.
翻訳日:2023-09-19 12:49:23 公開日:2023-09-18
# 高次元における線形判別分析の偏差推定

Pivotal Estimation of Linear Discriminant Analysis in High Dimensions ( http://arxiv.org/abs/2309.09831v1 )

ライセンス: Link先を確認
Ethan X. Fang, Yajun Mei, Yuyang Shi, Qunzhi Xu, Tuo Zhao(参考訳) 高次元設定における線形判別分析問題について考察する。 本研究では,パラメータのチューニングにほとんど手間がかからないという観点から,チューニング非感受性法である panda (pivotal linear discriminant analysis) を提案する。 さらに,推定誤差と誤分類率の両方の観点から,PANDAが最適収束率を達成することを示す。 我々の理論結果はシミュレーションと実データの両方を用いた徹底的な数値研究によって裏付けられている。 既存の手法と比較して,提案したPANDAは同等以上の性能を示し,パラメータチューニングに要する労力を大幅に削減する。

We consider the linear discriminant analysis problem in the high-dimensional settings. In this work, we propose PANDA(PivotAl liNear Discriminant Analysis), a tuning-insensitive method in the sense that it requires very little effort to tune the parameters. Moreover, we prove that PANDA achieves the optimal convergence rate in terms of both the estimation error and misclassification rate. Our theoretical results are backed up by thorough numerical studies using both simulated and real datasets. In comparison with the existing methods, we observe that our proposed PANDA yields equal or better performance, and requires substantially less effort in parameter tuning.
翻訳日:2023-09-19 12:49:02 公開日:2023-09-18
# ラベル付きデータがない? just add semantics:オンライン健康テキストを推論するデータ効率のよい方法

Not Enough Labeled Data? Just Add Semantics: A Data-Efficient Method for Inferring Online Health Texts ( http://arxiv.org/abs/2309.09877v1 )

ライセンス: Link先を確認
Joseph Gatto, Sarah M. Preum(参考訳) Webやソーシャルプラットフォームで利用できるユーザ生成テキストは、長く意味的に難しいことが多いため、注釈付けが難しい。 問題領域がより専門化するにつれて、人間のアノテーションの取得はますます困難になる。 例えば、多くの健康的NLP問題は、ドメインエキスパートをアノテーションパイプラインの一部にする必要があります。 したがって、この一連の限定データ問題に対処できる低リソースNLPソリューションを開発することが重要である。 本研究では,様々なオンライン医療資源やコミュニティから得られた低リソースのNLPタスクをモデル化する手段として,抽象的意味表現(AMR)グラフを用いた。 AMRは、多文入力を表現でき、複雑な用語から抽象化でき、トークン間の長距離関係をモデル化できるので、オンラインの健康テキストをモデル化するのに適しています。 したがってamrは、事前学習された言語モデルの高複雑さテキストを推論する能力を向上させる。 本実験は,テキスト埋め込みをセマンティックグラフ埋め込みで拡張することにより,6つの低リソースなNLPタスクの性能を向上させることができることを示す。 我々のアプローチはタスクに依存しず、どんな標準テキスト分類パイプラインにも簡単に統合できます。 我々は、Flesch Kincaid Reading LevelとSyntactic Complexityという2つのテキスト複雑度測定のレンズを用いて、AMRが複雑なテキストのモデリングに有用であることを実験的に検証した。 我々の誤り解析は、AMRを注入した言語モデルが複雑なテキストでより良く機能し、複雑さの変化が存在する場合の予測上のばらつきが低いことを示している。

User-generated texts available on the web and social platforms are often long and semantically challenging, making them difficult to annotate. Obtaining human annotation becomes increasingly difficult as problem domains become more specialized. For example, many health NLP problems require domain experts to be a part of the annotation pipeline. Thus, it is crucial that we develop low-resource NLP solutions able to work with this set of limited-data problems. In this study, we employ Abstract Meaning Representation (AMR) graphs as a means to model low-resource Health NLP tasks sourced from various online health resources and communities. AMRs are well suited to model online health texts as they can represent multi-sentence inputs, abstract away from complex terminology, and model long-distance relationships between co-referring tokens. AMRs thus improve the ability of pre-trained language models to reason about high-complexity texts. Our experiments show that we can improve performance on 6 low-resource health NLP tasks by augmenting text embeddings with semantic graph embeddings. Our approach is task agnostic and easy to merge into any standard text classification pipeline. We experimentally validate that AMRs are useful in the modeling of complex texts by analyzing performance through the lens of two textual complexity measures: the Flesch Kincaid Reading Level and Syntactic Complexity. Our error analysis shows that AMR-infused language models perform better on complex texts and generally show less predictive variance in the presence of changing complexity.
翻訳日:2023-09-19 12:43:32 公開日:2023-09-18
# RaLF: LiDARマップにおけるフローベースグローバルおよびメトリックレーダの局在

RaLF: Flow-based Global and Metric Radar Localization in LiDAR Maps ( http://arxiv.org/abs/2309.09875v1 )

ライセンス: Link先を確認
Abhijeet Nayak, Daniele Cattaneo, Abhinav Valada(参考訳) 自律ロボットにとってローカライズが最優先だ。 カメラとLiDARに基づくアプローチは広く研究されているが、悪照明や気象条件の影響を受けている。 そのため、レーダーセンサはそのような条件に固有のロバスト性のため、近年注目されている。 本稿では,環境のLiDARマップにレーダースキャンをローカライズするための,新しいディープニューラルネットワークに基づくアプローチであるRaLFを提案する。 RaLFは、レーダーとLiDAR機能エンコーダ、グローバルなディスクリプタを生成する場所認識ヘッド、レーダースキャンとマップ間の3DF変換を予測するメートル法ローカライゼーションヘッドで構成されている。 クロスモーダルメトリック学習を通じて,2つのモダリティ間の共有埋め込み空間を学習することで,位置認識タスクに取り組む。 さらに,クエリレーダスキャンとlidarマップを整合させたピクセルレベルフローベクトルを予測し,メトリックローカライズを行う。 複数の実世界の運転データセットに対する我々のアプローチを広く評価し、RaLFが位置認識とメートル法ローカライゼーションの両方において最先端のパフォーマンスを達成することを示す。 さらに,本手法は,訓練中に使用するものと異なる都市やセンサに効果的に一般化できることを実証した。 コードとトレーニングされたモデルをhttp://ralf.cs.uni-freiburg.deで公開しています。

Localization is paramount for autonomous robots. While camera and LiDAR-based approaches have been extensively investigated, they are affected by adverse illumination and weather conditions. Therefore, radar sensors have recently gained attention due to their intrinsic robustness to such conditions. In this paper, we propose RaLF, a novel deep neural network-based approach for localizing radar scans in a LiDAR map of the environment, by jointly learning to address both place recognition and metric localization. RaLF is composed of radar and LiDAR feature encoders, a place recognition head that generates global descriptors, and a metric localization head that predicts the 3-DoF transformation between the radar scan and the map. We tackle the place recognition task by learning a shared embedding space between the two modalities via cross-modal metric learning. Additionally, we perform metric localization by predicting pixel-level flow vectors that align the query radar scan with the LiDAR map. We extensively evaluate our approach on multiple real-world driving datasets and show that RaLF achieves state-of-the-art performance for both place recognition and metric localization. Moreover, we demonstrate that our approach can effectively generalize to different cities and sensor setups than the ones used during training. We make the code and trained models publicly available at http://ralf.cs.uni-freiburg.de.
翻訳日:2023-09-19 12:43:08 公開日:2023-09-18
# 芳香族複素環の$\pi \to \pi^*$ および $n \to \pi^*$ 励起状態の量子計算

Quantum computation of $\pi \to \pi^*$ and $n \to \pi^*$ excited states of aromatic heterocycles ( http://arxiv.org/abs/2309.09868v1 )

ライセンス: Link先を確認
Maria A. Castellanos, Mario Motta, Julia E. Rice(参考訳) 励起電子状態の計算は量子コンピュータにとって重要な応用である。 本研究では,IBM超伝導量子コンピュータ上での4つの芳香族複素環の励起状態スペクトルをシミュレートし,$\pi \to \pi^*$と$n \to \pi^*$の活性空間に着目した。 2つの量子ビットではなく1つの量子ビットに空間軌道をマッピングする量子ビット低減手法である entanglement forging method を用いて基底状態の近似を行った。 量子部分空間展開法を用いて励起状態を決定する。 最大8量子ビットの量子ハードウェア上でこれらのアルゴリズムをデモし、読み出しとゲートエラー軽減技術を用いた。 本研究では, 置換芳香族複素環の活性空間電子波動関数のシミュレーションにおける量子コンピューティングの応用を実証し, 有機分子の光学的性質をハイブリッド量子古典アルゴリズムで解明する上での課題を概説する。

The computation of excited electronic states is an important application for quantum computers. In this work, we simulate the excited state spectra of four aromatic heterocycles on IBM superconducting quantum computers, focusing on active spaces of $\pi \to \pi^*$ and $n \to \pi^*$ excitations. We approximate the ground state with the entanglement forging method, a qubit reduction technique that maps a spatial orbital to a single qubit, rather than two qubits. We then determine excited states using the quantum subspace expansion method. We showcase these algorithms on quantum hardware using up to 8 qubits and employing readout and gate error mitigation techniques. Our results demonstrate a successful application of quantum computing in the simulation of active-space electronic wavefunctions of substituted aromatic heterocycles, and outline challenges to be overcome in elucidating the optical properties of organic molecules with hybrid quantum-classical algorithms.
翻訳日:2023-09-19 12:42:43 公開日:2023-09-18
# EGFE:マルチモーダル学習によるUI設計におけるフラグメント要素のエンドツーエンドグループ化

EGFE: End-to-end Grouping of Fragmented Elements in UI Designs with Multimodal Learning ( http://arxiv.org/abs/2309.09867v1 )

ライセンス: Link先を確認
Liuqing Chen, Yunnong Chen, Shuhong Xiao, Yaxuan Song, Lingyun Sun, Yankun Zhen, Tingting Zhou, Yanfang Chang(参考訳) ui設計プロトタイプを業界でのコードに翻訳する場合、設計プロトタイプからコードを自動的に生成することで、アプリケーションやguiイテレーションの開発が迅速になる。 しかし、厳密な設計仕様のない設計プロトタイプでは、UIコンポーネントは断片化された要素で構成されている可能性がある。 これらの断片化された要素をグループ化すると、生成されたコードの可読性と保守性が大幅に向上する。 現在の手法では、フラグメントされた要素をグループ化する手作りのルールを導入する2段階の戦略を採用している。 残念なことに、これらのメソッドのパフォーマンスは、視覚的に重複し、ui要素が小さいため満足できません。 そこで本研究では,UIシーケンス予測によるグループ化フラグメンテッド要素の自動エンドツーエンド化手法EGFEを提案する。 UI理解を容易にするために,マルチモーダル表現学習を用いてUI要素間の関係をモデル化するトランスフォーマーエンコーダを革新的に構築する。 プロのUIデザイナから収集された4606のUIプロトタイプのデータセットの評価によると、我々のメソッドは、精度29.75\%、リコール31.07\%、F1スコア30.39\%の精度で、最先端のベースラインを上回っている。 さらに、生成したフロントエンドコードの改善を評価するための実証的研究を行った。 その結果,本手法が実際のソフトウェア工学アプリケーションに与える影響が示された。 エンドツーエンドの断片化要素グループ化手法は、UI関連のソフトウェアエンジニアリングタスクを改善する機会を生み出します。

When translating UI design prototypes to code in industry, automatically generating code from design prototypes can expedite the development of applications and GUI iterations. However, in design prototypes without strict design specifications, UI components may be composed of fragmented elements. Grouping these fragmented elements can greatly improve the readability and maintainability of the generated code. Current methods employ a two-stage strategy that introduces hand-crafted rules to group fragmented elements. Unfortunately, the performance of these methods is not satisfying due to visually overlapped and tiny UI elements. In this study, we propose EGFE, a novel method for automatically End-to-end Grouping Fragmented Elements via UI sequence prediction. To facilitate the UI understanding, we innovatively construct a Transformer encoder to model the relationship between the UI elements with multi-modal representation learning. The evaluation on a dataset of 4606 UI prototypes collected from professional UI designers shows that our method outperforms the state-of-the-art baselines in the precision (by 29.75\%), recall (by 31.07\%), and F1-score (by 30.39\%) at edit distance threshold of 4. In addition, we conduct an empirical study to assess the improvement of the generated front-end code. The results demonstrate the effectiveness of our method on a real software engineering application. Our end-to-end fragmented elements grouping method creates opportunities for improving UI-related software engineering tasks.
翻訳日:2023-09-19 12:42:25 公開日:2023-09-18
# フーリエ変換とソフトしきい値付き領域一般化

Domain Generalization with Fourier Transform and Soft Thresholding ( http://arxiv.org/abs/2309.09866v1 )

ライセンス: Link先を確認
Hongyi Pan, Bin Wang, Zheyuan Zhan, Xin Zhu, Debesh Jha, Ahmet Enis Cetin, Concetto Spampinato, Ulas Bagci(参考訳) ドメインの一般化は、複数のソースドメインでモデルをトレーニングすることを目的としている。 多くの領域一般化法の中で、フーリエ変換に基づく領域一般化法は、主にフーリエ変換のパワーを利用してデータの本質的なパターンや規則性を捉え、モデルがドメインシフトに対してより堅牢になるために人気を得ている。 主流のフーリエ変換に基づく領域一般化は、ソースとターゲット画像の間の位相スペクトルを保持しながらフーリエスペクトルを置き換える。 しかし、振幅スペクトルの背景干渉を無視する。 この制限を克服するために、フーリエ領域にソフトスレッディング関数を導入する。 このアルゴリズムを眼疾患の診断に重要な網膜眼底画像分割に適用するが,神経回路の性能は領域シフトによって異なる源をまたがって劣化する可能性がある。 提案手法は,フーリエ領域の小さな値を除去し,より優れた一般化を提供することにより,基礎画像の強化を実現する。 フーリエ変換に基づく領域一般化と融合したソフトしきい値の革新的な性質は、ターゲット画像の背景干渉を著しく減らし、ニューラルネットワークモデルの性能を向上させる。 公開データ実験は,従来の手法や最先端手法よりも優れたセグメンテーション指標を用いた手法の有効性を検証する。

Domain generalization aims to train models on multiple source domains so that they can generalize well to unseen target domains. Among many domain generalization methods, Fourier-transform-based domain generalization methods have gained popularity primarily because they exploit the power of Fourier transformation to capture essential patterns and regularities in the data, making the model more robust to domain shifts. The mainstream Fourier-transform-based domain generalization swaps the Fourier amplitude spectrum while preserving the phase spectrum between the source and the target images. However, it neglects background interference in the amplitude spectrum. To overcome this limitation, we introduce a soft-thresholding function in the Fourier domain. We apply this newly designed algorithm to retinal fundus image segmentation, which is important for diagnosing ocular diseases but the neural network's performance can degrade across different sources due to domain shifts. The proposed technique basically enhances fundus image augmentation by eliminating small values in the Fourier domain and providing better generalization. The innovative nature of the soft thresholding fused with Fourier-transform-based domain generalization improves neural network models' performance by reducing the target images' background interference significantly. Experiments on public data validate our approach's effectiveness over conventional and state-of-the-art methods with superior segmentation metrics.
翻訳日:2023-09-19 12:42:01 公開日:2023-09-18
# 視覚ベースのアジャイル飛行におけるロバストなシーン転送強化のためのコントラスト学習

Contrastive Learning for Enhancing Robust Scene Transfer in Vision-based Agile Flight ( http://arxiv.org/abs/2309.09865v1 )

ライセンス: Link先を確認
Jiaxu Xing, Leonard Bauersfeld, Yunlong Song, Chunwei Xing, Davide Scaramuzza(参考訳) 視覚に基づくモバイルロボティクスアプリケーションのためのシーン転送は、非常に重要で困難な問題である。 ロボットの実用性は、十分に制御された実験室環境以外で、現実世界でタスクを実行する能力に大きく依存する。 既存のシーン転送のエンドツーエンドのポリシー学習アプローチは、しばしばサンプル効率の低下や限定的な一般化能力に悩まされ、モバイルロボティクスアプリケーションには適さない。 本研究では,ゼロショットシーン転送と実世界の展開を可能にする視覚表現学習のための適応型マルチペアコントラスト学習戦略を提案する。 組み込みに依存するコントロールポリシは、デプロイメント環境の微調整を必要とせずに、見えない環境で動作することができる。 私たちは、アジャイルなビジョンベースのクアドロター飛行のタスクにおける我々のアプローチのパフォーマンスをデモします。 大規模なシミュレーションと実世界の実験により,本手法はトレーニング領域を超えて一般化し,全てのベースラインを上回る結果となった。

Scene transfer for vision-based mobile robotics applications is a highly relevant and challenging problem. The utility of a robot greatly depends on its ability to perform a task in the real world, outside of a well-controlled lab environment. Existing scene transfer end-to-end policy learning approaches often suffer from poor sample efficiency or limited generalization capabilities, making them unsuitable for mobile robotics applications. This work proposes an adaptive multi-pair contrastive learning strategy for visual representation learning that enables zero-shot scene transfer and real-world deployment. Control policies relying on the embedding are able to operate in unseen environments without the need for finetuning in the deployment environment. We demonstrate the performance of our approach on the task of agile, vision-based quadrotor flight. Extensive simulation and real-world experiments demonstrate that our approach successfully generalizes beyond the training domain and outperforms all baselines.
翻訳日:2023-09-19 12:41:40 公開日:2023-09-18
# 空間的階層と時間的階層の学習:マルチルーム迷路環境におけるナビゲーションのための階層的アクティブ推論

Learning Spatial and Temporal Hierarchies: Hierarchical Active Inference for navigation in Multi-Room Maze Environments ( http://arxiv.org/abs/2309.09864v1 )

ライセンス: Link先を確認
Daria de Tinguy, Toon Van de Maele, Tim Verbelen, Bart Dhoedt(参考訳) 認知地図は、環境内の空間的および概念的関係を表現することによって柔軟な行動を促進する上で重要な役割を果たす。 環境の基盤構造を学習し、推測する能力は、効率的な探索と航海に不可欠である。 本稿では,画素に基づく観測から世界の構造を推測する課題に対処する階層的アクティブ推論モデルを提案する。 本稿では,認知マップ,アロセンティブ,エゴセントリックな世界モデルからなる3層階層型階層モデルを提案する。 これにより、部屋構成のミニグリッド環境における効率的な探索と目標指向探索が可能になる。

Cognitive maps play a crucial role in facilitating flexible behaviour by representing spatial and conceptual relationships within an environment. The ability to learn and infer the underlying structure of the environment is crucial for effective exploration and navigation. This paper introduces a hierarchical active inference model addressing the challenge of inferring structure in the world from pixel-based observations. We propose a three-layer hierarchical model consisting of a cognitive map, an allocentric, and an egocentric world model, combining curiosity-driven exploration with goal-oriented behaviour at the different levels of reasoning from context to place to motion. This allows for efficient exploration and goal-directed search in room-structured mini-grid environments.
翻訳日:2023-09-19 12:41:24 公開日:2023-09-18
# 非マルコフ非線形フォトニクスにおける駆動散逸相とダイナミクス

Driven-dissipative phases and dynamics in non-Markovian nonlinear photonics ( http://arxiv.org/abs/2309.09863v1 )

ライセンス: Link先を確認
Jamison Sloan, Nicholas Rivera, Marin Solja\v{c}i\'c(参考訳) 光子間の相互作用(非線形性)は光の状態の強力な制御を可能にする。 この制御により、新しい波長の光源、超短光パルス、周波数コム気象システム、量子光源などの技術が実現された。 様々な非線形光学技術に共通しているのは、外部レーザーのようなエネルギー源と放射損失や吸収といった散逸との間の平衡である。 これらのシステムの大部分では、システムと外部との結合(損失につながる)は ‘`markovian'' とよく説明されており、外部の世界は過去の状態を記憶していない。 本研究では,非線形空洞が外界との非マルコフ結合を経験する,駆動散逸系のクラスを紹介する。 古典的体制では、これらの非マルコフ系キャビティは非線形効果の閾値が極端に低く、THz速度での自己推進不安定性や、安定性と不安定性の交互に変化する豊かな位相図が示される。 量子状態において、これらの系が、最先端のプラットフォームに実装されると、制限が3dBであるマルコフ駆動散逸性空洞とは対照的に、古典的限界より15dB以上低い強度の揺らぎを持つ強い圧縮された空洞状態を生成することができることを示す。 数光子非線形性の体制において、このような非マルコフのキャビティは、長い望ましくないが光学周波数で解き放たれる高次フォック状態を生成する決定論的プロトコルを可能にする。 非線形光学における非マルコフ結合の活用は、将来的には古典的および量子的な光の操作において議論されたものよりもさらに豊かな可能性をもたらすだろうと期待している。

Interactions between photons (nonlinearities) enable a powerful form of control over the state of light. This control has enabled technologies such as light sources at new wavelengths, ultra-short optical pulses, frequency-comb metrology systems, even quantum light sources. Common to a wide variety of nonlinear optical technologies is an equilibrium between an energy source, such as an external laser, and dissipation, such as radiation loss or absorption. In the vast majority of these systems, the coupling between the system and the outside world (which leads to loss) is well-described as ``Markovian,'' meaning that the outside world has no memory of its past state. In this work, we introduce a class of driven-dissipative systems in which a nonlinear cavity experiences non-Markovian coupling to the outside world. In the classical regime, we show that these non-Markovian cavities can have extremely low thresholds for nonlinear effects, as well as self-pulsing instabilities at THz rates, and rich phase diagrams with alternating regions of stability and instability. In the quantum regime, we show how these system, when implemented on state-of-the-art platforms, can enable generation of strongly squeezed cavity states with intensity fluctuations that can be more than 15 dB below the classical limit, in contrast to the Markovian driven-dissipative cavity, in which the limit is 3 dB. In the regime of few-photon nonlinearity, such non-Markovian cavities can enable a deterministic protocol to generate Fock states of high order, which are long-desired, but still elusive at optical frequencies. We expect that exploiting non-Markovian couplings in nonlinear optics should in the future lead to even richer possibilities than those discussed here for both classical and quantum light manipulations.
翻訳日:2023-09-19 12:41:09 公開日:2023-09-18
# ビデオにおける教師なしオープン語彙オブジェクトの定位

Unsupervised Open-Vocabulary Object Localization in Videos ( http://arxiv.org/abs/2309.09858v1 )

ライセンス: Link先を確認
Ke Fan, Zechen Bai, Tianjun Xiao, Dominik Zietlow, Max Horn, Zixu Zhao, Carl-Johann Simon-Gabriel, Mike Zheng Shou, Francesco Locatello, Bernt Schiele, Thomas Brox, Zheng Zhang, Yanwei Fu, Tong He(参考訳) 本稿では,映像表現学習と事前学習型視覚言語モデルの進歩により,自己教師付き映像オブジェクトのローカライゼーションが大幅に向上したことを示す。 そこで本研究では,まず映像中のオブジェクトをスロットアテンションアプローチでローカライズし,得られたスロットにテキストを割り当てる手法を提案する。 後者は、事前訓練されたCLIPモデルから局所的なセマンティック情報を読み取る教師なしの方法によって実現される。 結果として得られるビデオオブジェクトのローカライゼーションは、CLIPに含まれる暗黙のアノテーションとは別に完全に教師なしであり、事実上、通常のビデオベンチマークで良い結果をもたらす最初の教師なしのアプローチである。

In this paper, we show that recent advances in video representation learning and pre-trained vision-language models allow for substantial improvements in self-supervised video object localization. We propose a method that first localizes objects in videos via a slot attention approach and then assigns text to the obtained slots. The latter is achieved by an unsupervised way to read localized semantic information from the pre-trained CLIP model. The resulting video object localization is entirely unsupervised apart from the implicit annotation contained in CLIP, and it is effectively the first unsupervised approach that yields good results on regular video benchmarks.
翻訳日:2023-09-19 12:40:36 公開日:2023-09-18
# PseudoCal: 初期化のないディープラーニングベースのカメラ-LiDAR自己校正を目指して

PseudoCal: Towards Initialisation-Free Deep Learning-Based Camera-LiDAR Self-Calibration ( http://arxiv.org/abs/2309.09855v1 )

ライセンス: Link先を確認
Mathieu Cocheteux, Julien Moreau, Franck Davoine(参考訳) カメラ-LiDARの外付けキャリブレーションは、自動運転車や移動ロボットのような自律システムにおけるマルチセンサー融合にとって重要なタスクである。 伝統的な技術は、しばしば手動の介入や特定の環境を必要とし、労働集約的でエラーを起こしやすい。 既存のディープラーニングベースの自己校正手法は、小さな認識に重点を置いており、まだ初期推定に依存しており、実用性に制限がある。 本稿では,疑似ライダーの概念を活用し,カメラの視野に限らず直接3d空間で作業することで,これらの制限を克服する新しい自己校正法であるpseudocalを提案する。 典型的な自動運転車やロボット工学の文脈や慣習において、pseudocalは初期パラメータ推定から準独立にワンショットキャリブレーションを行うことができ、既存のアプローチで未解決の極端なケースに対処することができる。

Camera-LiDAR extrinsic calibration is a critical task for multi-sensor fusion in autonomous systems, such as self-driving vehicles and mobile robots. Traditional techniques often require manual intervention or specific environments, making them labour-intensive and error-prone. Existing deep learning-based self-calibration methods focus on small realignments and still rely on initial estimates, limiting their practicality. In this paper, we present PseudoCal, a novel self-calibration method that overcomes these limitations by leveraging the pseudo-LiDAR concept and working directly in the 3D space instead of limiting itself to the camera field of view. In typical autonomous vehicle and robotics contexts and conventions, PseudoCal is able to perform one-shot calibration quasi-independently of initial parameter estimates, addressing extreme cases that remain unsolved by existing approaches.
翻訳日:2023-09-19 12:40:22 公開日:2023-09-18
# 集中水文モデル生成のための学習

Learning to Generate Lumped Hydrological Models ( http://arxiv.org/abs/2309.09904v1 )

ライセンス: Link先を確認
Yang Yang and Ting Fong May Chui(参考訳) 集中した水文モデル構造では、キャッチメントの水文機能はほんの数個のパラメータによって特徴づけられる。 パラメータのセットが与えられると、水文予測に有用な数値関数が生成される。 そこで本研究では, 漁獲量の水理機能は, 少数の潜在変数で十分に特徴付けられると仮定した。 可変値を指定することにより、生成モデルを用いて実世界のキャッチメントの水文関数に似た数値関数を生成することができる。 本研究では, 捕集属性を使わずに, 異なる捕集量の生成モデルと潜時変動値の両方を, 気候の強制・流出データから直接学習する深層学習手法を提案する。 ジェネリックモデルキャリブレーションアルゴリズムを用いて、最適パラメータまたは潜在変数値を推定することにより、集約モデル構造と同様に、最適数値モデルを導出することができる。 本研究では,8つの潜伏変数を用いた生成モデルを世界中の3000以上の捕集データから学習し,700以上の捕集データに対して一般的なキャリブレーションアルゴリズムを用いて学習モデルを適用した。 その結果得られた最適モデルの品質は,36種類の塊型モデル構造を用いたり,非生成的深層学習手法を用いた場合と概ね同等かそれ以上であった。 本研究は,低次元空間におけるキャッチメントの水文関数を表現するためのデータ駆動型アプローチと,その表現から特定の水文関数を再構成する方法を提案する。

In a lumped hydrological model structure, the hydrological function of a catchment is characterized by only a few parameters. Given a set of parameter values, a numerical function useful for hydrological prediction is generated. Thus, this study assumes that the hydrological function of a catchment can be sufficiently well characterized by a small number of latent variables. By specifying the variable values, a numerical function resembling the hydrological function of a real-world catchment can be generated using a generative model. In this study, a deep learning method is used to learn both the generative model and the latent variable values of different catchments directly from their climate forcing and runoff data, without using catchment attributes. The generative models can be used similarly to a lumped model structure, i.e., by estimating the optimal parameter or latent variable values using a generic model calibration algorithm, an optimal numerical model can be derived. In this study, generative models using eight latent variables were learned from data from over 3,000 catchments worldwide, and the learned generative models were applied to model over 700 different catchments using a generic calibration algorithm. The quality of the resulting optimal models was generally comparable to or better than that obtained using 36 different types of lump model structures or using non-generative deep learning methods. In summary, this study presents a data-driven approach for representing the hydrological function of a catchment in low-dimensional space and a method for reconstructing specific hydrological functions from the representations.
翻訳日:2023-09-19 12:31:58 公開日:2023-09-18
# QLoRA適応大言語モデルによるドイツの議会討論における話者帰属

Speaker attribution in German parliamentary debates with QLoRA-adapted large language models ( http://arxiv.org/abs/2309.09902v1 )

ライセンス: Link先を確認
Tobias Bornheim, Niklas Grieger, Patrick Gustav Blaneck, Stephan Bialonski(参考訳) 政治文書の増加は、政治のダイナミクスとイデオロギーに対する豊富な洞察の新たな機会を開く一方で、手動分析のための作業負荷も増大する。 自動話者帰属(automated speaker attribution, 自動話者帰属)は、音声イベントにおいて誰が誰と何を話したかを検知し、意味的役割ラベリングと密接に関連している。 我々は,2017-2021年のドイツ議会討論会において,大型言語モデルLlama 2の話者属性の自動化の可能性について検討した。 我々は,効率的なトレーニング戦略であるQLoRAを用いてLlama 2を微調整し,ドイツのニュース記事や議会討論会におけるGermEval 2023Shared Task on Speaker Attributionにおける競争性能を達成するためのアプローチを観察する。 本稿の結果は,話者帰属の自動化における大規模言語モデルの能力に光を当て,政治談話の計算分析や意味的役割ラベルシステムの開発に期待できる道のりを明らかにした。

The growing body of political texts opens up new opportunities for rich insights into political dynamics and ideologies but also increases the workload for manual analysis. Automated speaker attribution, which detects who said what to whom in a speech event and is closely related to semantic role labeling, is an important processing step for computational text analysis. We study the potential of the large language model family Llama 2 to automate speaker attribution in German parliamentary debates from 2017-2021. We fine-tune Llama 2 with QLoRA, an efficient training strategy, and observe our approach to achieve competitive performance in the GermEval 2023 Shared Task On Speaker Attribution in German News Articles and Parliamentary Debates. Our results shed light on the capabilities of large language models in automating speaker attribution, revealing a promising avenue for computational analysis of political discourse and the development of semantic role labeling systems.
翻訳日:2023-09-19 12:31:35 公開日:2023-09-18
# 説明可能な人工知能における因果関係の役割

The role of causality in explainable artificial intelligence ( http://arxiv.org/abs/2309.09901v1 )

ライセンス: Link先を確認
Gianluca Carloni, Andrea Berti, Sara Colantonio(参考訳) 因果関係とeXplainable Artificial Intelligence(XAI)は、因果関係と説明の基本的な概念が共通の古代のルーツを共有しているにもかかわらず、コンピュータ科学の別の分野として発展した。 これは、これらの2つの分野を共同でカバーするレビュー作業の欠如によってさらに強化される。 本稿では,XAIと因果関係がどの程度の程度に絡み合っているかを理解するために,文献を調査する。 より正確には、私たちは2つの概念の間にどのような関係があるのか、そして、aiシステムに対する信頼を構築する際にどのようにそれらから利益を得るのかを明らかにすることを目指している。 結果として、3つの主要な視点が特定される。 第一に、因果関係の欠如は、現在のAIとXAIアプローチの大きな限界の一つと見なされ、最適な"説明の形式が研究されている。 2つ目は実践的な視点であり、XAIは、追求に値する実験操作の識別を通じて、因果探究のための科学的探索を促進するツールであると考えている。 最後に、第3の視点は、因果関係から借用された概念を活用して、XAIを支援したり、改善したりするという3つの可能な方法で、因果関係がXAIに伝播するという考えを支持する。 分析を補完するため、因果タスクの自動化に使用される関連するソフトウェアソリューションも提供します。 私たちは、潜在的なドメインブリッジを強調し、潜在的な制限を明らかにすることによって、因果関係とXAIの2つの分野を統一的に見ることができます。

Causality and eXplainable Artificial Intelligence (XAI) have developed as separate fields in computer science, even though the underlying concepts of causation and explanation share common ancient roots. This is further enforced by the lack of review works jointly covering these two fields. In this paper, we investigate the literature to try to understand how and to what extent causality and XAI are intertwined. More precisely, we seek to uncover what kinds of relationships exist between the two concepts and how one can benefit from them, for instance, in building trust in AI systems. As a result, three main perspectives are identified. In the first one, the lack of causality is seen as one of the major limitations of current AI and XAI approaches, and the "optimal" form of explanations is investigated. The second is a pragmatic perspective and considers XAI as a tool to foster scientific exploration for causal inquiry, via the identification of pursue-worthy experimental manipulations. Finally, the third perspective supports the idea that causality is propaedeutic to XAI in three possible manners: exploiting concepts borrowed from causality to support or improve XAI, utilizing counterfactuals for explainability, and considering accessing a causal model as explaining itself. To complement our analysis, we also provide relevant software solutions used to automate causal tasks. We believe our work provides a unified view of the two fields of causality and XAI by highlighting potential domain bridges and uncovering possible limitations.
翻訳日:2023-09-19 12:31:15 公開日:2023-09-18
# 言語モデルを用いたオントロジー構築に向けて

Towards Ontology Construction with Language Models ( http://arxiv.org/abs/2309.09898v1 )

ライセンス: Link先を確認
Maurice Funk, Simon Hosemann, Jean Christoph Jung, Carsten Lutz(参考訳) 本稿では,大言語モデルを問合せすることで,与えられたドメインの概念階層を自動的に構築する手法を提案する。 本手法をOpenAIの GPT 3.5 を用いて様々な領域に適用する。 我々の実験は、llmが概念階層の構築に大いに役立つことを示している。

We present a method for automatically constructing a concept hierarchy for a given domain by querying a large language model. We apply this method to various domains using OpenAI's GPT 3.5. Our experiments indicate that LLMs can be of considerable help for constructing concept hierarchies.
翻訳日:2023-09-19 12:30:46 公開日:2023-09-18
# 歩行指紋

Walking fingerprinting ( http://arxiv.org/abs/2309.09897v1 )

ライセンス: Link先を確認
Lily Koffman (1), Ciprian Crainiceanu (1), Andrew Leroux (2) ((1) Department of Biostatistics, Johns Hopkins Bloomberg School of Public Health (2) Department of Biostatistics and Bioinformatics, Colorado School of Public Health)(参考訳) 歩行中の加速度計測データから個体の同一性を予測する問題を考える。 前報では,加速度計の時系列を画像に変換する手法を提案し,その完全な自己相関分布を構築した。 この画像をグリッドセルに分割した予測器は、ロジスティック回帰で個人を予測するために用いられた。 ここでは,(1)格子細胞由来の予測器を用いた予測のための機械学習手法の実装,(2)最も予測可能な格子セルのスクリーニングのための推論手法の導出,(3)予測器空間のセルへの分割を回避する新しい多変量関数回帰モデルの開発を行う。 予測方法は2つのオープンソースのデータセットで比較される: (1)32ドルの個人から収集された加速度計のデータが1.06ドルの経路を歩いており、(2)2つの異なる機会に20ドルの経路を歩いた6回から収集された加速度計データは153ドルの参加者のために少なくとも1週間離れている。 332ドルの個人研究では、すべての方法が最低でも$95$%のランク-1精度を達成しているのに対し、153ドルの個人研究では、精度はメソッドと予測タスクによって411$%から$8$%に変化している。 メソッドは、ある個人が他の個人よりも容易に予測できる理由に関する洞察を提供する。

We consider the problem of predicting an individual's identity from accelerometry data collected during walking. In a previous paper we introduced an approach that transforms the accelerometry time series into an image by constructing its complete empirical autocorrelation distribution. Predictors derived by partitioning this image into grid cells were used in logistic regression to predict individuals. Here we: (1) implement machine learning methods for prediction using the grid cell-derived predictors; (2) derive inferential methods to screen for the most predictive grid cells; and (3) develop a novel multivariate functional regression model that avoids partitioning of the predictor space into cells. Prediction methods are compared on two open source data sets: (1) accelerometry data collected from $32$ individuals walking on a $1.06$ kilometer path; and (2) accelerometry data collected from six repetitions of walking on a $20$ meter path on two separate occasions at least one week apart for $153$ study participants. In the $32$-individual study, all methods achieve at least $95$% rank-1 accuracy, while in the $153$-individual study, accuracy varies from $41$% to $98$%, depending on the method and prediction task. Methods provide insights into why some individuals are easier to predict than others.
翻訳日:2023-09-19 12:30:43 公開日:2023-09-18
# 最小の興味深い色コードを持つフォールトトレラントな1ビット加算

Fault-Tolerant One-Bit Addition with the Smallest Interesting Colour Code ( http://arxiv.org/abs/2309.09893v1 )

ライセンス: Link先を確認
Yang Wang, Selwyn Simsek, Thomas M. Gatterman, Justin A. Gerber, Kevin Gilmore, Dan Gresh, Nathan Hewitt, Chandler V. Horst, Mitchell Matheny, Tanner Mengle, Brian Neyenhuis, Ben Criger(参考訳) 安定化符号に基づくフォールトトレラント演算は、量子計算におけるエラー率を抑制する技術である。 そのような符号の多くは、普遍ゲート集合を定義するために必要な非クリフォード論理演算の直接的な実装を許さない。 結果として、これらの操作の実装は、より複雑な誤り訂正手順を持つ誤り訂正符号を使うか、論理レベルで準備されたゲートテレポーテーションとマジック状態を使い、短期的な実装を妨げる程度にオーバーヘッドを増加させなければならない。 本研究では,[8,3,2]色コードを用いて,量子化h1-1量子コンピュータ上でフォールトトレラントな1量子ビット加算アルゴリズムを実装した。 不要な誤り訂正回路を除去し, 耐故障性の測定に低オーバーヘッド技術を用いることで, エラーを起こしやすい2ビットゲートの数を36に削減する。 故障耐性回路では$\sim 1.1 \times 10^{-3}$、未符号化回路では$\sim 9.5 \times 10^{-3}$で演算誤差を観測する。

Fault-tolerant operations based on stabilizer codes are the state of the art in suppressing error rates in quantum computations. Most such codes do not permit a straightforward implementation of non-Clifford logical operations, which are necessary to define a universal gate set. As a result, implementations of these operations must either use error-correcting codes with more complicated error correction procedures or gate teleportation and magic states, which are prepared at the logical level, increasing overhead to a degree that precludes near-term implementation. In this work, we implement a small quantum algorithm, one-qubit addition, fault-tolerantly on the Quantinuum H1-1 quantum computer, using the [[8,3,2]] colour code. By removing unnecessary error-correction circuits and using low-overhead techniques for fault-tolerant preparation and measurement, we reduce the number of error-prone two-qubit gates and measurements to 36. We observe arithmetic errors with a rate of $\sim 1.1 \times 10^{-3}$ for the fault-tolerant circuit and $\sim 9.5 \times 10^{-3}$ for the unencoded circuit.
翻訳日:2023-09-19 12:30:18 公開日:2023-09-18
# 文脈 $\approx$環境

Context $\approx$ Environment ( http://arxiv.org/abs/2309.09888v1 )

ライセンス: Link先を確認
Sharut Gupta, Stefanie Jegelka, David Lopez-Paz, Kartik Ahuja(参考訳) 2行の作業がAI研究の中心的な段階にある。 一方、コミュニティは、散発的な相関を破棄し、新しいテスト環境でより良い一般化を行うモデルを構築するための努力を強めている。 残念ながら、これまでの苦しい教訓は、提案が単純な経験的リスク最小化ベースラインを上回っていないことです。 一方,大規模言語モデル (LLMs) は文脈内で学習できるアルゴリズムとして出現し,ユーザがプロンプトによって強制する環境条件へのオンザフライを一般化している。 本稿では、コンテキスト$\approx$環境を議論し、コンテキスト内学習がドメイン一般化の鍵を握っていることを仮定する。 広い理論と実験により、コンテキスト$\unicode{x2013}\unicode{x2013}$unicode{x2013}$labeled examples as they arrive$\unicode{x2013}\unicode{x2013}$allows our proposed In-Context Risk Minimization (ICRM) algorithm to zoom-in on the test environment risk minimalr。 これらから、2つのメッセージは家に帰る価値がある。 ドメイン一般化の研究者は、環境をコンテキストとして考慮し、文脈内学習の適応能力を活用するべきである。 LLMの研究者は、コンテキストを、一般化に向けたデータ構造を改善する環境として考えるべきである。

Two lines of work are taking the central stage in AI research. On the one hand, the community is making increasing efforts to build models that discard spurious correlations and generalize better in novel test environments. Unfortunately, the bitter lesson so far is that no proposal convincingly outperforms a simple empirical risk minimization baseline. On the other hand, large language models (LLMs) have erupted as algorithms able to learn in-context, generalizing on-the-fly to the eclectic contextual circumstances that users enforce by means of prompting. In this paper, we argue that context $\approx$ environment, and posit that in-context learning holds the key to better domain generalization. Via extensive theory and experiments, we show that paying attention to context$\unicode{x2013}\unicode{x2013}$unlabeled examples as they arrive$\unicode{x2013}\unicode{x2013}$allows our proposed In-Context Risk Minimization (ICRM) algorithm to zoom-in on the test environment risk minimizer, leading to significant out-of-distribution performance improvements. From all of this, two messages are worth taking home. Researchers in domain generalization should consider environment as context, and harness the adaptive power of in-context learning. Researchers in LLMs should consider context as environment to better structure data towards generalization.
翻訳日:2023-09-19 12:29:57 公開日:2023-09-18
# 伝達性神経経路を用いたモデル説明について

On Model Explanations with Transferable Neural Pathways ( http://arxiv.org/abs/2309.09887v1 )

ライセンス: Link先を確認
Xinmiao Lin, Wentao Bao, Qi Yu, Yu Kong(参考訳) モデル説明としての神経経路は、モデル全体と同じレベルの予測性能を提供するスパースなニューロンからなる。 既存の手法は主に精度とスパーシティに重点を置いているが、生成された経路は限定的な解釈可能性を提供するため、モデルの振る舞いを説明するのに不足する。 本稿では,神経経路の解釈可能性基準を2つ提案する。 (i)同類神経経路は、主にクラス関連ニューロンから構成されるべきである。 (ii)各症例の神経経路の間隔を最適に決定すべきである。 そこで本研究では,対象モデルの特徴写像からニューラルパスの予測を学習する生成型クラス関連ニューラルパス(GEN-CNP)モデルを提案する。 我々は,同類ニューラルパスの類似度が高い深層および浅層の特徴から,クラス関連情報を学習することを提案する。 我々はさらに、gen-CNPがインスタンス特異的な間隔で経路を生成するための忠実度基準を課す。 そこで我々は,同クラスのサンプルを説明するためにクラス関連神経経路を転送し,その忠実さと解釈可能性について実験的,質的に示すことを提案する。

Neural pathways as model explanations consist of a sparse set of neurons that provide the same level of prediction performance as the whole model. Existing methods primarily focus on accuracy and sparsity but the generated pathways may offer limited interpretability thus fall short in explaining the model behavior. In this paper, we suggest two interpretability criteria of neural pathways: (i) same-class neural pathways should primarily consist of class-relevant neurons; (ii) each instance's neural pathway sparsity should be optimally determined. To this end, we propose a Generative Class-relevant Neural Pathway (GEN-CNP) model that learns to predict the neural pathways from the target model's feature maps. We propose to learn class-relevant information from features of deep and shallow layers such that same-class neural pathways exhibit high similarity. We further impose a faithfulness criterion for GEN-CNP to generate pathways with instance-specific sparsity. We propose to transfer the class-relevant neural pathways to explain samples of the same class and show experimentally and qualitatively their faithfulness and interpretability.
翻訳日:2023-09-19 12:29:23 公開日:2023-09-18
# 交通信号信号と車両速度アドバイスの協調制御のための深層強化学習

Deep Reinforcement Learning for the Joint Control of Traffic Light Signaling and Vehicle Speed Advice ( http://arxiv.org/abs/2309.09881v1 )

ライセンス: Link先を確認
Johannes V. S. Busch, Robert Voelckner, Peter Sossalla, Christian L. Vielhaus, Roberto Calandra, Frank H. P. Fitzek(参考訳) 密集した都市部の交通渋滞は経済的・環境的な負担をもたらす。 近年では、車両間通信が利用可能になり、インテリジェントな光制御に使用できるインフラへの詳細な車両状態の送信が可能になる。 反対に、インフラは、適切な速度などの運転行動に関するアドバイスを車両に提供することで、交通システムの有効性を向上させることができる。 いくつかの研究は、交通信号の制御や車両速度のアドバイスに深い強化学習を適用した。 本研究では,両者の制御を共同学習する最初の試みを提案する。 我々は、交通システムの有効性を改善するためにこれを示す。 実験では,11のベンチマークシナリオ中8つのシナリオにおいて,共同制御手法により平均走行遅延を低減し,信号機のみを制御する。 車両の速度アドバイスポリシの定性的挙動を解析した結果,信号機近傍の車両の速度分布をスムーズにすることで実現可能であることがわかった。 現実世界における交通信号の協調制御と速度アドバイスの学習は、混雑を減らし、今日の交通システムの経済的および環境的な影響を軽減するのに役立つ。

Traffic congestion in dense urban centers presents an economical and environmental burden. In recent years, the availability of vehicle-to-anything communication allows for the transmission of detailed vehicle states to the infrastructure that can be used for intelligent traffic light control. The other way around, the infrastructure can provide vehicles with advice on driving behavior, such as appropriate velocities, which can improve the efficacy of the traffic system. Several research works applied deep reinforcement learning to either traffic light control or vehicle speed advice. In this work, we propose a first attempt to jointly learn the control of both. We show this to improve the efficacy of traffic systems. In our experiments, the joint control approach reduces average vehicle trip delays, w.r.t. controlling only traffic lights, in eight out of eleven benchmark scenarios. Analyzing the qualitative behavior of the vehicle speed advice policy, we observe that this is achieved by smoothing out the velocity profile of vehicles nearby a traffic light. Learning joint control of traffic signaling and speed advice in the real world could help to reduce congestion and mitigate the economical and environmental repercussions of today's traffic systems.
翻訳日:2023-09-19 12:29:07 公開日:2023-09-18
# 重ね合わせ回帰による誤差低減

Error Reduction from Stacked Regressions ( http://arxiv.org/abs/2309.09880v1 )

ライセンス: Link先を確認
Xin Chen and Jason M. Klusowski and Yan Shuo Tan(参考訳) stacking regressionsは、予測精度を高めるために異なる回帰推定器の線形結合を形成するアンサンブルテクニックである。 従来のアプローチでは、クロスバリデーションデータを使用して構成推定子から予測を生成し、非負性制約のある最小二乗数で重み付けを学習する。 本稿では,非負性制約による人口リスクの推定を最小化することにより,これらの重みを類似的に学習する。 構成推定器が少なくとも3次元で区切られたネスト付き部分空間への線形最小二乗射影である場合, 縮退効果により, 結果として得られる累積推定器の人口リスクは, 最上位の単一推定器よりも厳密に小さいことを示す。 ここで `best' は AIC や BIC のような選択基準を最小化するモデルを指す。 言い換えれば、この設定では、最高の単一推定子は許容できない。 最適化問題は等調回帰として再構成できるため、積み重ねられた推定器は最高の単一推定器と同じ計算順序を必要とするため、性能と実装の両面で魅力的な代替手段となる。

Stacking regressions is an ensemble technique that forms linear combinations of different regression estimators to enhance predictive accuracy. The conventional approach uses cross-validation data to generate predictions from the constituent estimators, and least-squares with nonnegativity constraints to learn the combination weights. In this paper, we learn these weights analogously by minimizing an estimate of the population risk subject to a nonnegativity constraint. When the constituent estimators are linear least-squares projections onto nested subspaces separated by at least three dimensions, we show that thanks to a shrinkage effect, the resulting stacked estimator has strictly smaller population risk than best single estimator among them. Here ``best'' refers to a model that minimizes a selection criterion such as AIC or BIC. In other words, in this setting, the best single estimator is inadmissible. Because the optimization problem can be reformulated as isotonic regression, the stacked estimator requires the same order of computation as the best single estimator, making it an attractive alternative in terms of both performance and implementation.
翻訳日:2023-09-19 12:28:51 公開日:2023-09-18
# 有望な性能を期待する対人ロバスト性の評価

Evaluating Adversarial Robustness with Expected Viable Performance ( http://arxiv.org/abs/2309.09928v1 )

ライセンス: Link先を確認
Ryan McCoppin, Colin Dawson, Sean M. Kennedy, Leslie M. Blaha(参考訳) 分類器のロバスト性を評価するための指標,特に逆摂動に着目し,逆摂動の可能性に関して期待できる機能について述べる。 分類器が非機能的(つまり、0の関数を持つ)であると仮定されるのは、従来の性能の測度、例えば分類精度が、その摂動境界の例で分類器がテストされるときの最小限のしきい値以下である場合である。 期待値の観点からロバスト性を定義することは、ロバスト性定量化に対するドメイン一般アプローチによって動機付けられる。

We introduce a metric for evaluating the robustness of a classifier, with particular attention to adversarial perturbations, in terms of expected functionality with respect to possible adversarial perturbations. A classifier is assumed to be non-functional (that is, has a functionality of zero) with respect to a perturbation bound if a conventional measure of performance, such as classification accuracy, is less than a minimally viable threshold when the classifier is tested on examples from that perturbation bound. Defining robustness in terms of an expected value is motivated by a domain general approach to robustness quantification.
翻訳日:2023-09-19 12:22:09 公開日:2023-09-18
# 熱・波動ダイナミクスに基づくグラフD上のグラフトポロジカル特性の回復

Graph topological property recovery with heat and wave dynamics-based features on graphsD ( http://arxiv.org/abs/2309.09924v1 )

ライセンス: Link先を確認
Dhananjay Bhaskar, Yanlei Zhang, Charles Xu, Xingzhi Sun, Oluwadamilola Fasina, Guy Wolf, Maximilian Nickel, Michael Perlmutter and Smita Krishnaswamy(参考訳) 本稿では,グラフ上のPDEに対する解の表現力を生かしたグラフ微分方程式ネットワーク(GDeNet)を提案する。 熱方程式と波動方程式の力学をグラフのスペクトル特性に結びつける理論結果と,グラフ上の連続時間ランダムウォークの挙動を導出する。 これらの力学は,ランダムグラフ,リッチ曲率,永続ホモロジーの生成パラメータを回復することで,グラフ幾何学とトポロジーの有意義な側面を捉えることができることを実験的に証明する。 さらに, 引用グラフ, 薬物様分子, タンパク質など, 現実世界のデータセットにおけるgdenetの優れた性能を示す。

In this paper, we propose Graph Differential Equation Network (GDeNet), an approach that harnesses the expressive power of solutions to PDEs on a graph to obtain continuous node- and graph-level representations for various downstream tasks. We derive theoretical results connecting the dynamics of heat and wave equations to the spectral properties of the graph and to the behavior of continuous-time random walks on graphs. We demonstrate experimentally that these dynamics are able to capture salient aspects of graph geometry and topology by recovering generating parameters of random graphs, Ricci curvature, and persistent homology. Furthermore, we demonstrate the superior performance of GDeNet on real-world datasets including citation graphs, drug-like molecules, and proteins.
翻訳日:2023-09-19 12:21:45 公開日:2023-09-18
# スマートグリッドにおける障害事象診断のためのヘテロジニアスグラフに基づくマルチタスク学習

A Heterogeneous Graph-Based Multi-Task Learning for Fault Event Diagnosis in Smart Grid ( http://arxiv.org/abs/2309.09921v1 )

ライセンス: Link先を確認
Dibaloke Chanda, Nasim Yahya Soltani(参考訳) 配信システムにおいて,最小ダウンタイムを確保し,信頼性の高い運用を維持するためには,高精度でタイムリーな障害診断が必須条件である。 これは、フォールトイベントの場合、グリッドオペレータに洞察力のある情報を提供する包括的なプロシージャへのアクセスを必要とする。 本稿では,障害抵抗と電流を推定することに加えて,障害の検出,同定,分類が可能な異種多タスク学習グラフニューラルネットワーク(mtl-gnn)を提案する。 グラフニューラルネットワーク(GNN)を使用することで、分散システムのトポロジ的表現と、メッセージパス方式による特徴学習を学習することができる。 IEEE-123テストフィードシステムを用いて,提案モデルのロバスト性を検討した。 本研究は,配電系統におけるキーノードを識別する新しいGNNに基づく説明可能性手法を提案する。 数値テストは、すべてのタスクにわたるモデルの性能を検証する。

Precise and timely fault diagnosis is a prerequisite for a distribution system to ensure minimum downtime and maintain reliable operation. This necessitates access to a comprehensive procedure that can provide the grid operators with insightful information in the case of a fault event. In this paper, we propose a heterogeneous multi-task learning graph neural network (MTL-GNN) capable of detecting, locating and classifying faults in addition to providing an estimate of the fault resistance and current. Using a graph neural network (GNN) allows for learning the topological representation of the distribution system as well as feature learning through a message-passing scheme. We investigate the robustness of our proposed model using the IEEE-123 test feeder system. This work also proposes a novel GNN-based explainability method to identify key nodes in the distribution system which then facilitates informed sparse measurements. Numerical tests validate the performance of the model across all tasks.
翻訳日:2023-09-19 12:21:32 公開日:2023-09-18
# 切り離された知識蒸留によるHumbertとLSTMの蒸留

Distilling HuBERT with LSTMs via Decoupled Knowledge Distillation ( http://arxiv.org/abs/2309.09920v1 )

ライセンス: Link先を確認
Danilo de Oliveira, Timo Gerkmann(参考訳) 多くの研究が、強力な、しかし大きく、メモリを消費する自己監督モデルの知識を圧縮するタスクに適用されている。 本研究では,HuBERTの蒸留作業に,従来の知識蒸留法(および最近提案された拡張,非結合知識蒸留法)を適用することができることを示す。 内部的特徴の蒸留に焦点を当てた手法とは対照的に、圧縮されたモデルのネットワークアーキテクチャにおいてより自由になる。 そこで我々は, HuBERT の変換器層を LSTM に基づく蒸留モデルに蒸留し, DistilHuBERT 以下でもパラメータ数を削減し,同時に自動音声認識の性能向上を示す。

Much research effort is being applied to the task of compressing the knowledge of self-supervised models, which are powerful, yet large and memory consuming. In this work, we show that the original method of knowledge distillation (and its more recently proposed extension, decoupled knowledge distillation) can be applied to the task of distilling HuBERT. In contrast to methods that focus on distilling internal features, this allows for more freedom in the network architecture of the compressed model. We thus propose to distill HuBERT's Transformer layers into an LSTM-based distilled model that reduces the number of parameters even below DistilHuBERT and at the same time shows improved performance in automatic speech recognition.
翻訳日:2023-09-19 12:21:18 公開日:2023-09-18
# 安全チップのプラグ:LLM駆動型ロボットエージェントの制約を強制する

Plug in the Safety Chip: Enforcing Constraints for LLM-driven Robot Agents ( http://arxiv.org/abs/2309.09919v1 )

ライセンス: Link先を確認
Ziyi Yang and Shreyas S. Raman and Ankit Shah and Stefanie Tellex(参考訳) 大規模言語モデル(LLM)の最近の進歩により、ロボット工学を解くための新しい研究領域であるLLMエージェントが、事前訓練中に得られたLLMの世界の知識と一般的な推論能力を活用して実現されている。 しかし、ロボットに"dos"を教えるためにかなりの努力がなされているが、"Don'ts"は比較的あまり注目されなかった。 我々は、いかなる実践的利用においても、禁止された行為に関する明確な指示を伝えること、これらの制限に対するロボットの理解を評価すること、そして最も重要なのはコンプライアンスを確保すること、をロボットに教えることが重要であると主張する。 さらに、検証可能な安全な運用は、世界中の産業工場環境で安全にロボットを配備するための標準を定義するiso 61508のような世界的な標準を満たす展開には不可欠である。 本研究では,LLMエージェントを協調環境に配置することを目的とした,線形時間論理(LTL)に基づくクエリ可能な安全制約モジュールを提案する。 本システムの有効性を実証するため,バーチャルホーム環境と実ロボットを用いて実験を行った。 実験の結果,本システムは安全制約に厳格に準拠し,複雑な安全制約とともにスケールし,実用性の可能性を強調した。

Recent advancements in large language models (LLMs) have enabled a new research domain, LLM agents, for solving robotics and planning tasks by leveraging the world knowledge and general reasoning abilities of LLMs obtained during pretraining. However, while considerable effort has been made to teach the robot the "dos," the "don'ts" received relatively less attention. We argue that, for any practical usage, it is as crucial to teach the robot the "don'ts": conveying explicit instructions about prohibited actions, assessing the robot's comprehension of these restrictions, and, most importantly, ensuring compliance. Moreover, verifiable safe operation is essential for deployments that satisfy worldwide standards such as ISO 61508, which defines standards for safely deploying robots in industrial factory environments worldwide. Aiming at deploying the LLM agents in a collaborative environment, we propose a queryable safety constraint module based on linear temporal logic (LTL) that simultaneously enables natural language (NL) to temporal constraints encoding, safety violation reasoning and explaining, and unsafe action pruning. To demonstrate the effectiveness of our system, we conducted experiments in VirtualHome environment and on a real robot. The experimental results show that our system strictly adheres to the safety constraints and scales well with complex safety constraints, highlighting its potential for practical utility.
翻訳日:2023-09-19 12:21:04 公開日:2023-09-18
# 決定木を用いたグローバルモデル説明の理解可能性の評価

Evaluation of Human-Understandability of Global Model Explanations using Decision Tree ( http://arxiv.org/abs/2309.09917v1 )

ライセンス: Link先を確認
Adarsa Sivaprasad, Ehud Reiter, Nava Tintarev and Nir Oren(参考訳) 説明可能な人工知能(XAI)の研究において、主に専門家や実践者のモデルを解釈することに焦点を当てている。 モデル非依存的および局所的説明法は多くの応用において解釈可能で十分であるとみなされる。 しかし、エンドユーザーがAIやドメインの専門知識を持たない患者である医療のようなドメインでは、モデルの操作をより理解し、信頼を損なうようなモデル説明が緊急に必要となる。 ナラティブ,患者固有,グローバル(モデル総括)のモデル説明を生成すれば,理解性が向上し,意思決定が可能になると仮定した。 冠状動脈疾患のリスクが高いと診断された患者に対して,決定木モデルを用いて局所的およびグローバル的説明を生成する。 これらの説明は専門家でないユーザーに提示される。 特定のタイプの説明に対して,個々の好みが強いことが分かりました。 参加者の大半はグローバルな説明を好むが、小さなグループはローカルな説明を好む。 これらの被験者のメンタルモデルに対するタスクベース評価は、物語のグローバルな説明を強化する貴重なフィードバックを提供する。 これは、信頼性と行動性の両方を有する健康情報システムの設計をガイドする。

In explainable artificial intelligence (XAI) research, the predominant focus has been on interpreting models for experts and practitioners. Model agnostic and local explanation approaches are deemed interpretable and sufficient in many applications. However, in domains like healthcare, where end users are patients without AI or domain expertise, there is an urgent need for model explanations that are more comprehensible and instil trust in the model's operations. We hypothesise that generating model explanations that are narrative, patient-specific and global(holistic of the model) would enable better understandability and enable decision-making. We test this using a decision tree model to generate both local and global explanations for patients identified as having a high risk of coronary heart disease. These explanations are presented to non-expert users. We find a strong individual preference for a specific type of explanation. The majority of participants prefer global explanations, while a smaller group prefers local explanations. A task based evaluation of mental models of these participants provide valuable feedback to enhance narrative global explanations. This, in turn, guides the design of health informatics systems that are both trustworthy and actionable.
翻訳日:2023-09-19 12:20:40 公開日:2023-09-18
# 非パラメトリックな高次元生成モデルを学ぶ:experience-beta-copula autoencoder

Learning Nonparametric High-Dimensional Generative Models: The Empirical-Beta-Copula Autoencoder ( http://arxiv.org/abs/2309.09916v1 )

ライセンス: Link先を確認
Maximilian Coblenz, Oliver Grothe, Fabian K\"achele(参考訳) オートエンコーダの潜在空間からサンプリングし、潜在空間のサンプルを元のデータ空間にデコードすることで、任意のオートエンコーダを生成モデルに変換することができる。 これを実現するためには、サンプルが得られる分布を持つオートエンコーダの潜在空間をモデル化する必要がある。 いくつかの単純な可能性(カーネル密度推定、ガウス分布)やより洗練された可能性(ガウス混合モデル、コプラモデル、正規化フロー)は近年検討されている。 本研究の目的は,自己エンコーダが単純さを追求しながら生成モデルとなるために,潜在空間を捕捉する様々な手法を議論し,評価し,比較することである。 このうち、新しいコプラ方式であるEmpirical Beta Copula Autoencoderが検討されている。 さらに,これらの手法のさらなる側面,例えば,特定の特徴を持つ新しいデータのターゲットサンプリングや合成などについて考察する。

By sampling from the latent space of an autoencoder and decoding the latent space samples to the original data space, any autoencoder can simply be turned into a generative model. For this to work, it is necessary to model the autoencoder's latent space with a distribution from which samples can be obtained. Several simple possibilities (kernel density estimates, Gaussian distribution) and more sophisticated ones (Gaussian mixture models, copula models, normalization flows) can be thought of and have been tried recently. This study aims to discuss, assess, and compare various techniques that can be used to capture the latent space so that an autoencoder can become a generative model while striving for simplicity. Among them, a new copula-based method, the Empirical Beta Copula Autoencoder, is considered. Furthermore, we provide insights into further aspects of these methods, such as targeted sampling or synthesizing new data with specific features.
翻訳日:2023-09-19 12:20:25 公開日:2023-09-18
# 虚時間グリーン関数の量子アルゴリズム

Quantum algorithm for imaginary-time Green's functions ( http://arxiv.org/abs/2309.09914v1 )

ライセンス: Link先を確認
Diksha Dhawan, Dominika Zgid and Mario Motta(参考訳) グリーンの関数法は、状態密度やスペクトル関数のような実験的に観測可能な複数の特性へのアクセスを提供しながら、分子や物質の体系的に即効的なシミュレーションをもたらす。 正確な1粒子グリーン関数の計算は、古典コンピュータにとって重要な課題であり、非常に小さなシステムでのみ試みられた。 本稿では,仮想時間一粒子グリーン関数を計算するためのハイブリッド量子古典アルゴリズムを提案する。 提案アルゴリズムは変分量子固有解法と量子部分空間展開を組み合わせてレーマンの表現におけるグリーン関数を計算する。 我々は、H$_2$とH$_4$を量子シミュレータやIBMの量子デバイス上でシミュレーションすることで、このアルゴリズムの有効性を示す。

Green's function methods lead to ab initio, systematically improvable simulations of molecules and materials while providing access to multiple experimentally observable properties such as the density of states and the spectral function. The calculation of the exact one-particle Green's function remains a significant challenge for classical computers and was attempted only on very small systems. Here, we present a hybrid quantum-classical algorithm to calculate the imaginary-time one-particle Green's function. The proposed algorithm combines variational quantum eigensolver and quantum subspace expansion to calculate Green's function in Lehmann's representation. We demonstrate the validity of this algorithm by simulating H$_2$ and H$_4$ on quantum simulators and on IBM's quantum devices.
翻訳日:2023-09-19 12:20:07 公開日:2023-09-18
# 親しみやすいもの:優先経路計画のための人間の選好を外挿する学習

Wait, That Feels Familiar: Learning to Extrapolate Human Preferences for Preference Aligned Path Planning ( http://arxiv.org/abs/2309.09912v1 )

ライセンス: Link先を確認
Haresh Karnan, Elvin Yang, Garrett Warnell, Joydeep Biswas, Peter Stone(参考訳) ラストマイル配送のような自律移動タスクは、ロボットの安全とミッションの成功を確実にするために、ロボットがナビゲートすべき地形よりも、オペレーターに関する推論を必要とする。 しかし、視覚地形適応ナビゲーションでは、新しい地形や照明変化による外観変化からの分布データの取り扱いが根本的な問題となっている。 既存のソリューションでは、労働集約的な手動データリコレクションとラベル付けが必要か、オペレータの好みに合致しないハンドコードによる報酬機能を使うかのどちらかである。 本研究では,ロボットが従うべき視覚的に新しい地形に対するオペレーターの選好が,慣性領域,固有受容領域,触覚領域において確立された地形参照から外挿可能であることを仮定する。 この知見を生かしたPreference extrApolation for Terrain awarE Robot Navigation, PATERNは、視覚ナビゲーションのための演算子地形選好を推定するための新しいフレームワークである。 PATERNは、ロボットの観察から、慣性、受容性、触覚の測定を表現空間にマッピングすることを学び、新しい地形よりもオペレーターの好みを推定するために、この空間で最も近い隣の探索を行う。 屋外環境における物理ロボット実験を通じて,父母の嗜好を外挿し,新しい地形に一般化し,照明条件に挑戦する能力を評価する。 ベースラインアプローチと比較すると,父母は様々な地形や照明条件にロバストに一般化し,順応的にナビゲートできることが示唆された。

Autonomous mobility tasks such as lastmile delivery require reasoning about operator indicated preferences over terrains on which the robot should navigate to ensure both robot safety and mission success. However, coping with out of distribution data from novel terrains or appearance changes due to lighting variations remains a fundamental problem in visual terrain adaptive navigation. Existing solutions either require labor intensive manual data recollection and labeling or use handcoded reward functions that may not align with operator preferences. In this work, we posit that operator preferences for visually novel terrains, which the robot should adhere to, can often be extrapolated from established terrain references within the inertial, proprioceptive, and tactile domain. Leveraging this insight, we introduce Preference extrApolation for Terrain awarE Robot Navigation, PATERN, a novel framework for extrapolating operator terrain preferences for visual navigation. PATERN learns to map inertial, proprioceptive, tactile measurements from the robots observations to a representation space and performs nearest neighbor search in this space to estimate operator preferences over novel terrains. Through physical robot experiments in outdoor environments, we assess PATERNs capability to extrapolate preferences and generalize to novel terrains and challenging lighting conditions. Compared to baseline approaches, our findings indicate that PATERN robustly generalizes to diverse terrains and varied lighting conditions, while navigating in a preference aligned manner.
翻訳日:2023-09-19 12:19:55 公開日:2023-09-18
# 量子ビジョンクラスタリング

Quantum Vision Clustering ( http://arxiv.org/abs/2309.09907v1 )

ライセンス: Link先を確認
Xuan Bac Nguyen, Benjamin Thompson, Hugh Churchill, Khoa Luu, Samee U. Khan(参考訳) 教師なしの視覚的クラスタリングが最近注目されている。 パラメータ化された外観モデルを用いて、ラベルのない視覚画像の分布をクラスタリングすることを目的としている。 異なる観点から、クラスタリングアルゴリズムは代入問題として扱うことができ、しばしばNPハードである。 それらは、現在のハードウェア上の小さなインスタンスに対して正確に解決できる。 AQC(Adiabatic Quantum Computing)は、NP-hard最適化問題に対して、すぐにかなりのスピードアップを提供するソリューションを提供する。 しかし、現在のクラスタリングの定式化は、スケーリング特性のために量子コンピューティングには適さない。 そこで本研究では,AQCで解けるように設計された最初のクラスタリングの定式化を提案する。 AQC上に実装された量子力学系を表すIsingモデルを用いる。 我々のアプローチは、最先端の最適化に基づくアプローチと比較して競争力がある。 最後に,我々のクラスタリング問題は,実量子コンピュータの現世代の小さな例に対してすでに解決可能であり,測定した解の性質を解析できることを実証する。

Unsupervised visual clustering has recently received considerable attention. It aims to explain distributions of unlabeled visual images by clustering them via a parameterized appearance model. From a different perspective, the clustering algorithms can be treated as assignment problems, often NP-hard. They can be solved precisely for small instances on current hardware. Adiabatic quantum computing (AQC) offers a solution, as it can soon provide a considerable speedup on a range of NP-hard optimization problems. However, current clustering formulations are unsuitable for quantum computing due to their scaling properties. Consequently, in this work, we propose the first clustering formulation designed to be solved with AQC. We employ an Ising model representing the quantum mechanical system implemented on the AQC. Our approach is competitive compared to state-of-the-art optimization-based approaches, even using of-the-shelf integer programming solvers. Finally, we demonstrate that our clustering problem is already solvable on the current generation of real quantum computers for small examples and analyze the properties of the measured solutions.
翻訳日:2023-09-19 12:19:28 公開日:2023-09-18
# スケーリングインストラクタ型大規模マルチモーダルモデルに関する経験的研究

An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models ( http://arxiv.org/abs/2309.09958v1 )

ライセンス: Link先を確認
Yadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao, Yelong Shen(参考訳) 近年,LLaVAやMiniGPT-4など,オープンソースの大規模マルチモーダルモデル(LMM)の開発が進められている。 しかし、既存のオープンソースのLMMの研究は13Bパラメータ以下のモデルを用いて行われている。 本稿では,最大33bおよび65b/70bまでのllavaのスケーリングに関する実証研究を行い,画像解像度,データ混合,lora/qloraなどのパラメータ効率の高いトレーニング手法について検討した。 これらは、実世界のタスクを野生で完了する際のマルチモーダルおよび言語能力への影響によって評価される。 また,LMMのLRA/QLoRAチューニング性能は,モデルファインチューニングの性能に匹敵するものである。 さらに,LMMの性能向上のために画像解像度の向上とマルチモーダル言語データの混合が重要であり,視覚的インストラクションチューニングによりLMMの純粋言語能力の向上が期待できる。 この研究によって、より大規模なLMM研究がよりアクセスしやすくなり、将来の研究のベースラインが強化されることを願っている。 コードとチェックポイントは公開されます。

Visual instruction tuning has recently shown encouraging progress with open-source large multimodal models (LMM) such as LLaVA and MiniGPT-4. However, most existing studies of open-source LMM are performed using models with 13B parameters or smaller. In this paper we present an empirical study of scaling LLaVA up to 33B and 65B/70B, and share our findings from our explorations in image resolution, data mixing and parameter-efficient training methods such as LoRA/QLoRA. These are evaluated by their impact on the multi-modal and language capabilities when completing real-world tasks in the wild. We find that scaling LMM consistently enhances model performance and improves language capabilities, and performance of LoRA/QLoRA tuning of LMM are comparable to the performance of full-model fine-tuning. Additionally, the study highlights the importance of higher image resolutions and mixing multimodal-language data to improve LMM performance, and visual instruction tuning can sometimes improve LMM's pure language capability. We hope that this study makes state-of-the-art LMM research at a larger scale more accessible, thus helping establish stronger baselines for future research. Code and checkpoints will be made public.
翻訳日:2023-09-19 12:11:34 公開日:2023-09-18
# 逐次事前条件勾配降下による量子回路最適化

Quantum Circuit Optimization through Iteratively Pre-Conditioned Gradient Descent ( http://arxiv.org/abs/2309.09957v1 )

ライセンス: Link先を確認
Dhruv Srinivasan, Kushal Chakrabarti, Nikhil Chopra, Avik Dutt(参考訳) ゲートベース量子コンピューティングの典型的な量子サブルーチンでは、単一量子と2量子のエンタングゲートの点で回路の明示的な分解が存在する。 しかし、ノイズの多い中間スケール量子(nisq)ハードウェアに挑戦する大深度回路に繋がることが多い。 さらに、正確な分解はモジュラー量子回路でのみ存在する。 したがって、例えば勾配に基づく最適化を用いて、これらの回路を潜在的に低い深さで高忠実度に近似するゲートの組み合わせを見つけることが不可欠である。 従来のオプティマイザは、多くの繰り返しを必要とする緩やかな収束の問題に遭遇し、ノイズの存在下では性能が良くない。 本稿では,量子回路の最適化のための反復的事前条件勾配降下(ipg)と,量子アルゴリズムサブルーチンの構成と実装のための性能向上を示す。 IPGは、古典最適化における収束速度の有望な向上を示し、凸問題に対する線形速度で局所的に収束し、解が一意であるときに超線形に収束する、耐雑音性の高い高次アルゴリズムである。 具体的には、同じアンサッツをチューニングする他の一般的な古典的最適化器と比較して、4量子ビットw状態と最大絡み合う5量子ビットghz状態を作成するために、10^4$の精度向上を示す。 また、ipgを用いた量子フーリエ変換のユニタリ最適化の利点を示し、ionqの量子処理ユニット(qpu)上での最適化回路の実行結果を報告する。 このような高速収束とノイズ耐性の約束は、特に量子コンピュータ上で各イテレーションを実行するコストが古典的なオプティマイザステップよりもかなり高いため、NISQハードウェア上で量子アルゴリズムの利点をもたらす可能性がある。

For typical quantum subroutines in the gate-based model of quantum computing, explicit decompositions of circuits in terms of single-qubit and two-qubit entangling gates may exist. However, they often lead to large-depth circuits that are challenging for noisy intermediate-scale quantum (NISQ) hardware. Additionally, exact decompositions might only exist for some modular quantum circuits. Therefore, it is essential to find gate combinations that approximate these circuits to high fidelity with potentially low depth, for example, using gradient-based optimization. Traditional optimizers often run into problems of slow convergence requiring many iterations, and perform poorly in the presence of noise. Here we present iteratively preconditioned gradient descent (IPG) for optimizing quantum circuits and demonstrate performance speedups for state preparation and implementation of quantum algorithmic subroutines. IPG is a noise-resilient, higher-order algorithm that has shown promising gains in convergence speed for classical optimizations, converging locally at a linear rate for convex problems and superlinearly when the solution is unique. Specifically, we show an improvement in fidelity by a factor of $10^4$ for preparing a 4-qubit W state and a maximally entangled 5-qubit GHZ state compared to other commonly used classical optimizers tuning the same ansatz. We also show gains for optimizing a unitary for a quantum Fourier transform using IPG, and report results of running such optimized circuits on IonQ's quantum processing unit (QPU). Such faster convergence with promise for noise-resilience could provide advantages for quantum algorithms on NISQ hardware, especially since the cost of running each iteration on a quantum computer is substantially higher than the classical optimizer step.
翻訳日:2023-09-19 12:11:15 公開日:2023-09-18
# 小さい$k$-pairable状態

Small $k$-pairable states ( http://arxiv.org/abs/2309.09956v1 )

ライセンス: Link先を確認
Nathan Claudet, Mehdi Mhalla, Simon Perdrix(参考訳) $k$-pairable $n$-qubit stateは、$n$ qubitsの任意の$k$-disjointペアの中で、ローカルオペレーションと古典通信(LOCC)プロトコルがEPRペアを生成することができるリソース状態である。 Bravyiらは$k$-pairable $n$-qubit状態のファミリーを導入し、$n$は$k$で指数関数的に成長する。 我々の主な貢献は「小さな」ペアリング可能な量子状態の存在を確立することである。 具体的には、$k$-pairable $n$-qubit graph状態の族を示し、$n$は$k$の多項式、すなわち$n=O(k^3\ln^3k)$である。 我々の構成は確率的方法に依存している。 さらに、共有状態を固定点として持つ任意の局所ユニタリ変換の支持に基づき、任意の量子状態のペア性に関する上限を与える。 この下限は、グラフ状態のペアビリティが、基礎となるグラフの局所補完(例えば $k(|G \rangle)\le \lceil \delta_{loc}(G)/2\rceil$)までの最小次の半分であることを意味する。 グラフ$g$が$k$-vertex-minor-universalであれば、その頂点の任意のグラフが$g$である。 グラフが2k$-vertex-minor-Universalの場合、対応するグラフ状態は$k$-pairableである。 より正確には、eprペアだけでなく、ローカル操作や古典的な通信を通じて、2k$ qubitsの任意の安定化状態も作成できる。 我々は位数$O(k^4 \ln k)$の$k$-vertex-minor-universal graphの存在を確立する。 最後に、エラーや悪意ある当事者の存在下でのペアビリティの自然な拡張について検討し、頂点と最小のユニバーシティが堅牢なペアビリティを実現することを示す。

A $k$-pairable $n$-qubit state is a resource state that allows Local Operations and Classical Communication (LOCC) protocols to generate EPR-pairs among any $k$-disjoint pairs of the $n$ qubits. Bravyi et al. introduced a family of $k$-pairable $n$-qubit states, where $n$ grows exponentially with $k$. Our primary contribution is to establish the existence of 'small' pairable quantum states. Specifically, we present a family of $k$-pairable $n$-qubit graph states, where $n$ is polynomial in $k$, namely $n=O(k^3\ln^3k)$. Our construction relies on probabilistic methods. Furthermore, we provide an upper bound on the pairability of any arbitrary quantum state based on the support of any local unitary transformation that has the shared state as a fixed point. This lower bound implies that the pairability of a graph state is at most half of the minimum degree up to local complementation of the underlying graph, i.e., $k(|G \rangle)\le \lceil \delta_{loc}(G)/2\rceil$. We also investigate the related combinatorial problem of $k$-vertex-minor-universality: a graph $G$ is $k$-vertex-minor-universal if any graph on any $k$ of its vertices is a vertex-minor of $G$. When a graph is $2k$-vertex-minor-universal, the corresponding graph state is $k$-pairable. More precisely, one can create not only EPR-pairs but also any stabilizer state on any $2k$ qubits through local operations and classical communication. We establish the existence of $k$-vertex-minor-universal graphs of order $O(k^4 \ln k)$. Finally, we explore a natural extension of pairability in the presence of errors or malicious parties and show that vertex-minor-universality ensures a robust form of pairability.
翻訳日:2023-09-19 12:10:43 公開日:2023-09-18
# vSHARP:変数分割半四分法ADMMアルゴリズムによる逆プロブレムの再構成

vSHARP: variable Splitting Half-quadratic ADMM algorithm for Reconstruction of inverse-Problems ( http://arxiv.org/abs/2309.09954v1 )

ライセンス: Link先を確認
George Yiasemis, Nikita Moriakov, Jan-Jakob Sonke, Jonas Teuwen(参考訳) メディカルイメージング(MI)タスク、例えばアクセラレーションパラレル磁気共鳴イメージング(MRI)は、しばしばノイズや不完全な測定からイメージを再構成する。 これは、満足のいく閉形式解析解が得られない不測の逆問題を解くことを意味する。 MRI再構成における圧縮センシング(CS)のような従来の手法は、低忠実度画像を得るのに時間がかかるか、時間がかかりやすい。 近年,教師付き・自己教師型Deep Learning (DL) アプローチは,従来の手法を超越した逆確率解法において,優れた性能を示した。 本研究では,miで発生する逆問題を解くための新しいdlベース手法であるvsharp (variable split half-quadratic admm algorithm for reconstruction of inverse problems)を提案する。 vSHARPは半量子可変分割法を用いており、最適化プロセスのアンロールには Alternating Direction Method of Multipliers (ADMM) を用いる。 データ一貫性のために、vSHARPは画像領域で微分勾配降下過程をアンロールし、一方、U-NetアーキテクチャのようなDLベースのデノイザは画質を高めるために適用される。 vSHARPはまた、ADMM初期化のためのラグランジュ乗算器を予測するために拡張畳み込みDLベースのモデルも採用している。 2つの異なるデータセット上での並列mri再構成を高速化するタスクに適用し,提案モデルを評価する。 本稿では,vSHARPの優れた性能に着目し,最先端手法による実験結果の比較分析を行った。

Medical Imaging (MI) tasks, such as accelerated Parallel Magnetic Resonance Imaging (MRI), often involve reconstructing an image from noisy or incomplete measurements. This amounts to solving ill-posed inverse problems, where a satisfactory closed-form analytical solution is not available. Traditional methods such as Compressed Sensing (CS) in MRI reconstruction can be time-consuming or prone to obtaining low-fidelity images. Recently, a plethora of supervised and self-supervised Deep Learning (DL) approaches have demonstrated superior performance in inverse-problem solving, surpassing conventional methods. In this study, we propose vSHARP (variable Splitting Half-quadratic ADMM algorithm for Reconstruction of inverse Problems), a novel DL-based method for solving ill-posed inverse problems arising in MI. vSHARP utilizes the Half-Quadratic Variable Splitting method and employs the Alternating Direction Method of Multipliers (ADMM) to unroll the optimization process. For data consistency, vSHARP unrolls a differentiable gradient descent process in the image domain, while a DL-based denoiser, such as a U-Net architecture, is applied to enhance image quality. vSHARP also employs a dilated-convolution DL-based model to predict the Lagrange multipliers for the ADMM initialization. We evaluate the proposed model by applying it to the task of accelerated Parallel MRI Reconstruction on two distinct datasets. We present a comparative analysis of our experimental results with state-of-the-art approaches, highlighting the superior performance of vSHARP.
翻訳日:2023-09-19 12:10:10 公開日:2023-09-18
# ソーシャルメディアで人気記事の見出しを作るには?

How to Generate Popular Post Headlines on Social Media? ( http://arxiv.org/abs/2309.09949v1 )

ライセンス: Link先を確認
Zhouxiang Fang, Min Yu, Zhendong Fu, Boning Zhang, Xuanwen Huang, Xiaoqi Tang, Yang Yang(参考訳) ソーシャルメディア上のユーザー生成コンテンツの重要なコンテナであるポストは、膨大な社会的影響と商業的価値を持っている。 記事の不可欠な要素として、見出しは記事の人気に決定的な貢献をしている。 しかし、現在のヘッドライン生成法はまだ手書きであり、不安定であり、広範囲の人的努力を必要とする。 ソーシャルメディア上で人気のある見出しを自動生成できるのだろうか? われわれは中国で有名なソーシャルメディアプラットフォームであるXiaohongshuの公開データから、4047人の有名人の100万以上の投稿を集めている。 次に、これらの投稿の見出しについて注意深く観察する。 その結果、トレンドや個人のスタイルはソーシャルメディアの見出しに広まり、ポストの人気に大きく貢献していることがわかった。 これらの知見に触発され,複数の選好抽出器と双方向・自動回帰変換器(BART)を組み合わせたMEBARTが,ソーシャルメディア上で人気の見出しを生成する傾向と個人的スタイルを捉えた。 実世界のデータセットに関する広範な実験を行い、先進的なベースラインと比較して最先端のパフォーマンスを達成する。 加えて、アブレーションとケーススタディは、MEBARTがトレンドや個人のスタイルを捉えていることを示している。

Posts, as important containers of user-generated-content pieces on social media, are of tremendous social influence and commercial value. As an integral components of a post, the headline has a decisive contribution to the post's popularity. However, current mainstream method for headline generation is still manually writing, which is unstable and requires extensive human effort. This drives us to explore a novel research question: Can we automate the generation of popular headlines on social media? We collect more than 1 million posts of 42,447 celebrities from public data of Xiaohongshu, which is a well-known social media platform in China. We then conduct careful observations on the headlines of these posts. Observation results demonstrate that trends and personal styles are widespread in headlines on social medias and have significant contribution to posts's popularity. Motivated by these insights, we present MEBART, which combines Multiple preference-Extractors with Bidirectional and Auto-Regressive Transformers (BART), capturing trends and personal styles to generate popular headlines on social medias. We perform extensive experiments on real-world datasets and achieve state-of-the-art performance compared with several advanced baselines. In addition, ablation and case studies demonstrate that MEBART advances in capturing trends and personal styles.
翻訳日:2023-09-19 12:09:43 公開日:2023-09-18
# エンド・ツー・エンド学習イベントと画像に基づく視覚オドメトリ

End-to-End Learned Event- and Image-based Visual Odometry ( http://arxiv.org/abs/2309.09947v1 )

ライセンス: Link先を確認
Roberto Pellerito, Marco Cannici, Daniel Gehrig, Joris Belhadj, Olivier Dubois-Matra, Massimo Casasco, Davide Scaramuzza(参考訳) ビジュアルオドメトリー(VO)は、自律的なロボットナビゲーション、特に惑星の地形のようなGPSで特定された環境では不可欠である。 標準のRGBカメラは低照度または高速動作で苦労するが、イベントベースのカメラは高いダイナミックレンジと低レイテンシを提供する。 しかし、非同期イベントデータを同期フレームとシームレスに統合することは依然として難しい。 本稿では,最初のエンドツーエンド学習イベントと画像ベースVOシステムであるRAMP-VOを紹介する。 新たなRecurrent, Asynchronous, Massively Parallel(RAMP)エンコーダを活用し、既存の非同期エンコーダよりも8倍高速で20%精度がある。 ramp-voはさらに、新しいポーズ予測技術を使用して、初期化のための将来のポーズを予測する。 シミュレーションのみのトレーニングにもかかわらず、RAMP-VOは従来の実世界のベンチマークと新しく導入されたApolloとMalapertのランディングシーケンスで、イメージベースとイベントベースのメソッドをそれぞれ52%、イベントベースで20%上回り、宇宙での堅牢なVOと非同期VOの道を開いた。

Visual Odometry (VO) is crucial for autonomous robotic navigation, especially in GPS-denied environments like planetary terrains. While standard RGB cameras struggle in low-light or high-speed motion, event-based cameras offer high dynamic range and low latency. However, seamlessly integrating asynchronous event data with synchronous frames remains challenging. We introduce RAMP-VO, the first end-to-end learned event- and image-based VO system. It leverages novel Recurrent, Asynchronous, and Massively Parallel (RAMP) encoders that are 8x faster and 20% more accurate than existing asynchronous encoders. RAMP-VO further employs a novel pose forecasting technique to predict future poses for initialization. Despite being trained only in simulation, RAMP-VO outperforms image- and event-based methods by 52% and 20%, respectively, on traditional, real-world benchmarks as well as newly introduced Apollo and Malapert landing sequences, paving the way for robust and asynchronous VO in space.
翻訳日:2023-09-19 12:09:23 公開日:2023-09-18
# 公正拡散モデルとは何か? 様々な世界観を取り入れた生成テキスト・画像モデルの設計

What is a Fair Diffusion Model? Designing Generative Text-To-Image Models to Incorporate Various Worldviews ( http://arxiv.org/abs/2309.09944v1 )

ライセンス: Link先を確認
Zoe De Simone and Angie Boggust and Arvind Satyanarayan and Ashia Wilson(参考訳) gti(generative text-to-image)モデルは、短いテキスト記述から高品質の画像を生成し、学術的および創造的な領域で広く使われている。 しかし、GTIモデルはトレーニングデータからバイアスを増幅し、偏見やステレオタイプ画像を生成することが多い。 しかし、現在の偏見緩和戦略は限定的であり、主に職業間の男女平等を強制することに焦点を当てている。 GTIのバイアス緩和を強化するために、GTIモデルの姿勢、価値観、ストーリー、および生成された画像に影響を与える世界の期待を分析し、操作するツールであるDiffusionWorldViewerを紹介する。 WebベースのGUIとJupyter Notebookプラグインとしてデプロイされるインタラクティブインターフェースを通じて、DiffusionWorldViewerは、GTI生成画像の既存の人口層を分類し、画像の人口層とユーザ世界ビューを整合させるインタラクティブな方法を提供する。 13 人の GTI ユーザを対象にした研究では,DiffusionWorldViewer を用いて,GTI 出力の公正性に関するさまざまな視点を表現できることが判明した。

Generative text-to-image (GTI) models produce high-quality images from short textual descriptions and are widely used in academic and creative domains. However, GTI models frequently amplify biases from their training data, often producing prejudiced or stereotypical images. Yet, current bias mitigation strategies are limited and primarily focus on enforcing gender parity across occupations. To enhance GTI bias mitigation, we introduce DiffusionWorldViewer, a tool to analyze and manipulate GTI models' attitudes, values, stories, and expectations of the world that impact its generated images. Through an interactive interface deployed as a web-based GUI and Jupyter Notebook plugin, DiffusionWorldViewer categorizes existing demographics of GTI-generated images and provides interactive methods to align image demographics with user worldviews. In a study with 13 GTI users, we find that DiffusionWorldViewer allows users to represent their varied viewpoints about what GTI outputs are fair and, in doing so, challenges current notions of fairness that assume a universal worldview.
翻訳日:2023-09-19 12:09:03 公開日:2023-09-18
# ホログラフィーの限界と量子情報プロトコルの補正

Holographic Limitations and Corrections to Quantum Information Protocols ( http://arxiv.org/abs/2309.09939v1 )

ライセンス: Link先を確認
Stefano Pirandola(参考訳) 本稿では,bekenstein 境界や susskind 球面エントロピー境界などのホログラフィック境界によって課される絡み合い分布,量子テレポーテーション,量子通信の制約と限界について論じる。 連続可変(CV)量子情報の文脈では、ホログラム補正を鼻で適用すれば、よく知られた結果の正確な実現は崩壊する。 これらの補正は完全なCVテレポーテーションの不可能性、損失量子チャネルのテレポーテーションシミュレーションにおける均一収束の不可能性、および量子通信のための修正PLOBに繋がる。

We discuss restrictions and limitations to entanglement distribution, quantum teleportation, and quantum communication that are imposed by the holographic bounds, such as the Bekenstein bound and Susskind's spherical entropy bound. In the context of continuous-variable (CV) quantum information, we show that the exact realization of well-known results would break down if holographic corrections are naively applied. These corrections would lead to the impossibility of perfect CV teleportation, the impossibility of uniform convergence in the teleportation simulation of lossy quantum channels, and to a modified PLOB bound for quantum communication.
翻訳日:2023-09-19 12:08:42 公開日:2023-09-18
# 階層的注意とグラフニューラルネットワーク:ドリフトフリーポス推定に向けて

Hierarchical Attention and Graph Neural Networks: Toward Drift-Free Pose Estimation ( http://arxiv.org/abs/2309.09934v1 )

ライセンス: Link先を確認
Kathia Melbouci, Fawzi Nashashibi(参考訳) 3次元幾何登録に最もよく用いられる手法は反復的なクローゼットポイントアルゴリズムであり、このアプローチはインクリメンタルであり、複数の連続するフレームを行き来する傾向にある。 ドリフトに対処する一般的な戦略は、フレーム間登録に続くポーズグラフの最適化であり、以前訪れた場所を特定するループクロージャプロセスが組み込まれている。 本稿では,従来の幾何学的登録とポーズグラフ最適化を階層的注意機構とグラフニューラルネットワークを用いた学習モデルに置き換える枠組みについて検討する。 本稿では,厳格なポーズの正確な推定に必要な重要な情報を保存し,データフローを凝縮する戦略を提案する。 KITTI Odometry データセットを用いた実験の結果,ポーズ推定精度は有意に向上した。 この改善は、ポーズグラフ最適化による従来の多方向登録の結果と比較して、回転成分を決定する際に特に顕著である。 レビュープロセスが完了すると、コードは利用可能になる。

The most commonly used method for addressing 3D geometric registration is the iterative closet-point algorithm, this approach is incremental and prone to drift over multiple consecutive frames. The Common strategy to address the drift is the pose graph optimization subsequent to frame-to-frame registration, incorporating a loop closure process that identifies previously visited places. In this paper, we explore a framework that replaces traditional geometric registration and pose graph optimization with a learned model utilizing hierarchical attention mechanisms and graph neural networks. We propose a strategy to condense the data flow, preserving essential information required for the precise estimation of rigid poses. Our results, derived from tests on the KITTI Odometry dataset, demonstrate a significant improvement in pose estimation accuracy. This improvement is especially notable in determining rotational components when compared with results obtained through conventional multi-way registration via pose graph optimization. The code will be made available upon completion of the review process.
翻訳日:2023-09-19 12:08:31 公開日:2023-09-18
# 古典的あるいは量子的二進最適化による線形系の次元の増大:大規模線形方程式系を解く新しい方法

Increasing the dimension of linear systems solved by classical or quantum binary optimization: A new method to solve large linear equation systems ( http://arxiv.org/abs/2309.09933v1 )

ライセンス: Link先を確認
Erick R. Castro, Eldues O. Martins, Roberto S. Sarthour, Alexandre M. Souza, Ivan S. Oliveira(参考訳) 近年、量子コンピューティングと量子コンピューティングにインスパイアされた古典システムの開発により、バイナリ最適化は魅力的な研究トピックとなっている。 これらのハードウェアシステムは計算の高速化を約束している。 本研究では,バイナリ最適化問題として記述された線形系の解法を提案する。 この手順は問題を効率的に解き、大きな線形システムを扱うことができる。 本手法は元の線形問題の幾何学に基づいており,勾配共役法に類似している。 共役方向はアルゴリズムの収束率を大幅に向上させることができる。 また、問題の内在幾何学の部分的知識は、元の問題をより小さな次元の独立した部分確率に分割できることを示す。 これらの部分問題は、量子解または古典解法を用いて解くことができる。 問題の幾何を決定するには計算コストがかかるが,従来の実装と比較して,本手法の性能は大幅に向上する。

Recently, binary optimization has become an attractive research topic due to the development of quantum computing and specialized classical systems inspired by quantum computing. These hardware systems promise to speed up the computation significantly. In this work, we propose a new method to solve linear systems written as a binary optimization problem. The procedure solves the problem efficiently and allows it to handle large linear systems. Our approach is founded on the geometry of the original linear problem and resembles the gradient conjugate method. The conjugated directions used can significantly improve the algorithm's convergence rate. We also show that a partial knowledge of the intrinsic geometry of the problem can divide the original problem into independent sub-problems of smaller dimensions. These sub-problems can then be solved using quantum or classical solvers. Although determining the geometry of the problem has an additional computational cost, it can substantially improve the performance of our method compared to previous implementations.
翻訳日:2023-09-19 12:08:14 公開日:2023-09-18
# 視覚とタッチによる一般的な手内物体回転

General In-Hand Object Rotation with Vision and Touch ( http://arxiv.org/abs/2309.09979v1 )

ライセンス: Link先を確認
Haozhi Qi, Brent Yi, Sudharshan Suresh, Mike Lambeta, Yi Ma, Roberto Calandra, Jitendra Malik(参考訳) マルチモーダル感覚入力を活用することで,複数の軸に沿って指先に基づく物体の回転を可能にするシステムであるRotateItを紹介する。 本システムは, 地表面の物体形状や物理的特性にアクセス可能なシミュレーションで訓練されている。 そして、現実的でうるさい振動性感覚入力と固有受容感覚入力で操作するために蒸留する。 これらのマルチモーダル入力は、Visuotactile Transformerを介して融合され、デプロイ中にオブジェクトの形状や物理的特性をオンラインで推測することができる。 従来の手法よりも優れた性能を示し,視覚・触覚センシングの重要性を示した。

We introduce RotateIt, a system that enables fingertip-based object rotation along multiple axes by leveraging multimodal sensory inputs. Our system is trained in simulation, where it has access to ground-truth object shapes and physical properties. Then we distill it to operate on realistic yet noisy simulated visuotactile and proprioceptive sensory inputs. These multimodal inputs are fused via a visuotactile transformer, enabling online inference of object shapes and physical properties during deployment. We show significant performance improvements over prior methods and the importance of visual and tactile sensing.
翻訳日:2023-09-19 12:02:20 公開日:2023-09-18
# 半分散垂直フェデレート学習のためのマルチトケン座標降下法

A Multi-Token Coordinate Descent Method for Semi-Decentralized Vertical Federated Learning ( http://arxiv.org/abs/2309.09977v1 )

ライセンス: Link先を確認
Pedro Valdeira, Yuejie Chi, Cl\'audia Soares, Jo\~ao Xavier(参考訳) コミュニケーション効率は連合学習(fl)において大きな課題である。 クライアントサーバのスキームでは、サーバはボトルネックを構成し、分散したセットアップは通信を広めるが、コンバージェンスが遅いため必ずしも減少しない。 我々は,クライアントサーバとクライアントクライアントの双方の通信を,クライアントが少数の機能を持つ場合に利用する,半分散型垂直連合学習のための通信効率の高いアルゴリズムMTCDを提案する。 我々のマルチトークン手法は並列マルコフ連鎖(ブロック)座標降下アルゴリズムとみなすことができ、クライアントサーバと分散化セットアップを特別なケースとして仮定する。 トークンがクライアントの非結合部分集合の上を歩き回るときの非凸目的に対する$\mathcal{O}(1/T)$の収束率と、重複する可能性のある部分集合の上を歩き回るときの凸目標を得る。 MTCDは最先端の通信効率を向上し、可変量の並列通信を可能にすることを示す。

Communication efficiency is a major challenge in federated learning (FL). In client-server schemes, the server constitutes a bottleneck, and while decentralized setups spread communications, they do not necessarily reduce them due to slower convergence. We propose Multi-Token Coordinate Descent (MTCD), a communication-efficient algorithm for semi-decentralized vertical federated learning, exploiting both client-server and client-client communications when each client holds a small subset of features. Our multi-token method can be seen as a parallel Markov chain (block) coordinate descent algorithm and it subsumes the client-server and decentralized setups as special cases. We obtain a convergence rate of $\mathcal{O}(1/T)$ for nonconvex objectives when tokens roam over disjoint subsets of clients and for convex objectives when they roam over possibly overlapping subsets. Numerical results show that MTCD improves the state-of-the-art communication efficiency and allows for a tunable amount of parallel communications.
翻訳日:2023-09-19 12:02:08 公開日:2023-09-18
# $des$-$q$:回帰と二分分類のための決定木を構築し、効率的に再訓練する量子アルゴリズム

$Des$-$q$: a quantum algorithm to construct and efficiently retrain decision trees for regression and binary classification ( http://arxiv.org/abs/2309.09976v1 )

ライセンス: Link先を確認
Niraj Kumar, Romina Yalovetzky, Changhao Li, Pierre Minnsen, and Marco Pistoia(参考訳) 決定木は、構築と解釈性の単純さのために機械学習で広く使われている。 しかしながら,データサイズが大きくなるにつれて,従来型の意思決定木の構築と再訓練の手法が徐々に遅くなり,トレーニング例の数で多項式的にスケーリングされるようになっている。 本研究では,回帰および二分分類タスクにおける決定木の構築と再訓練を行うための,新しい量子アルゴリズムである$des$-$q$を導入する。 データストリームが新たなトレーニングサンプルの小さなインクリメントを生成すると仮定すると、我々の$des$-$q$アルゴリズムは、ツリーリトレーニングに必要な時間を大幅に削減し、トレーニングサンプル数における多対数時間の複雑さを実現し、新しいサンプルを量子アクセス可能なメモリにロードするのに必要な時間も考慮している。 提案手法では,各内部ノードで k 個の線形木分割を行う決定木アルゴリズムを構築する。 これらの分割は同時に複数の超平面を生成し、特徴空間を k 個の異なる領域に分割する。 これらの分割に適したk個のアンカーポイントを決定するために、kerenidis $et$$al$のq-meansアルゴリズムに基づく効率的な量子教師付きクラスタリング法を開発した。 第一に$des$-$q$ は、ピアソン相関を推定するために新しい量子技術を用いて各特徴量を効率的に見積もる。 その後,重み付き距離推定を用いて,k個の非結合領域にトレーニングサンプルをクラスタ化し,同じ手順で木を拡大する。 数値的特徴を持つ複数データセットの回帰と二項分類のための古典的決定木に対して,本アルゴリズムのシミュレーション版の性能をベンチマークした。 さらに,提案アルゴリズムは,周期木再学習を著しく高速化しつつ,最先端の決定木と同等の性能を示すことを示す。

Decision trees are widely used in machine learning due to their simplicity in construction and interpretability. However, as data sizes grow, traditional methods for construction and retraining decision trees become increasingly slow, scaling polynomially with the number of training examples. In this work, we introduce a novel quantum algorithm, named $Des$-$q$, for constructing and retraining decision trees in regression and binary classification tasks. Assuming the data stream produces small increments of new training examples, we demonstrate that our $Des$-$q$ algorithm significantly reduces the time required for tree retraining, achieving a poly-logarithmic time complexity in the number of training examples, even accounting for the time needed to load the new examples into quantum-accessible memory. Our approach involves building a decision tree algorithm to perform k-piecewise linear tree splits at each internal node. These splits simultaneously generate multiple hyperplanes, dividing the feature space into k distinct regions. To determine the k suitable anchor points for these splits, we develop an efficient quantum-supervised clustering method, building upon the q-means algorithm of Kerenidis $et$ $al$. $Des$-$q$ first efficiently estimates each feature weight using a novel quantum technique to estimate the Pearson correlation. Subsequently, we employ weighted distance estimation to cluster the training examples in k disjoint regions and then proceed to expand the tree using the same procedure. We benchmark the performance of the simulated version of our algorithm against the state-of-the-art classical decision tree for regression and binary classification on multiple data sets with numerical features. Further, we showcase that the proposed algorithm exhibits similar performance to the state-of-the-art decision tree while significantly speeding up the periodic tree retraining.
翻訳日:2023-09-19 12:01:48 公開日:2023-09-18
# GEDepth: 単眼深度推定のための接地埋め込み

GEDepth: Ground Embedding for Monocular Depth Estimation ( http://arxiv.org/abs/2309.09975v1 )

ライセンス: Link先を確認
Xiaodong Yang, Zhuang Ma, Zhiyu Ji, Zhe Ren(参考訳) 同じ2D画像が無限の3Dシーンから投影できるため、単眼深度推定は不適切な問題である。 この分野の指導的アルゴリズムは著しい改善を報告しているが、それらは本質的には、実世界のシナリオにおいてその一般化可能性を強く制限する、画像観察とカメラパラメータ(すなわち内在性と外在性)の特定の複合に向けられている。 この課題に対処するため,本論文では,カメラパラメータを画像的手がかりから切り離すための新しい接地埋め込みモジュールを提案する。 カメラパラメータが与えられたとき、提案されたモジュールは、入力画像に積み重ねられ、最終深度予測で参照される地上深度を生成する。 地下深度と残留深度を最適に組み合わせるために、地上の注意をモジュール内に設計する。 地中埋め込みは非常に柔軟で軽量で,様々な深度推定ネットワークに統合可能なプラグインモジュールが実現されている。 実験の結果,提案手法は一般的なベンチマークにおいて最先端の結果を達成し,さらに重要な点として,広範囲なクロスドメインテストにおいて大幅な一般化が達成されることがわかった。

Monocular depth estimation is an ill-posed problem as the same 2D image can be projected from infinite 3D scenes. Although the leading algorithms in this field have reported significant improvement, they are essentially geared to the particular compound of pictorial observations and camera parameters (i.e., intrinsics and extrinsics), strongly limiting their generalizability in real-world scenarios. To cope with this challenge, this paper proposes a novel ground embedding module to decouple camera parameters from pictorial cues, thus promoting the generalization capability. Given camera parameters, the proposed module generates the ground depth, which is stacked with the input image and referenced in the final depth prediction. A ground attention is designed in the module to optimally combine ground depth with residual depth. Our ground embedding is highly flexible and lightweight, leading to a plug-in module that is amenable to be integrated into various depth estimation networks. Experiments reveal that our approach achieves the state-of-the-art results on popular benchmarks, and more importantly, renders significant generalization improvement on a wide range of cross-domain tests.
翻訳日:2023-09-19 12:01:18 公開日:2023-09-18
# MindAgent: 創発的なゲームインタラクション

MindAgent: Emergent Gaming Interaction ( http://arxiv.org/abs/2309.09971v1 )

ライセンス: Link先を確認
Ran Gong, Qiuyuan Huang, Xiaojian Ma, Hoi Vo, Zane Durante, Yusuke Noda, Zilong Zheng, Song-Chun Zhu, Demetri Terzopoulos, Li Fei-Fei, Jianfeng Gao(参考訳) 大規模言語モデル(LLM)は、マルチエージェントシステムで複雑なスケジューリングを行う能力を持ち、これらのエージェントを協調作業を必要とする高度なタスクに調整することができる。 しかし、多くのゲームフレームワークが導入されたにもかかわらず、コミュニティはLLMと人間-NPCの両方のコラボレーションを含む汎用マルチエージェントコラボレーションインフラを構築するためのベンチマークが不十分である。 本研究では,ゲーム対話のための計画と協調能力を評価するための新しいインフラ,mindagentを提案する。 特にインフラは既存のゲームフレームワークを利用して 一 マルチエージェントシステムのコーディネータの理解が必要であること。 二 未熟な適切な指示により、人間のプレーヤーと協力すること。 iii) フィードバックを伴う、わずかなプロンプトでコンテキスト内学習を確立すること。 さらに,マルチエージェントコラボレーションの効率性を提供し,同時に複数のエージェントを監督する新しいゲームシナリオと関連するベンチマークであるCUISINEWORLDを紹介する。 協調効率を計算するために,新しいオートメトリックcosを用いて包括的評価を行う。 最後に、私たちのインフラはCUISINEWORLDのカスタマイズされたVRバージョンで現実世界のゲームシナリオにデプロイでき、既存の幅広いMinecraftゲームドメインに適応できます。 llmsと汎用スケジューリングとコーディネートのための新しいインフラストラクチャに関する知見が,大規模言語コーポラから学ぶことで,そのようなスキルがいかに得られるか,という点に光を当ててくれることを願っています。

Large Language Models (LLMs) have the capacity of performing complex scheduling in a multi-agent system and can coordinate these agents into completing sophisticated tasks that require extensive collaboration. However, despite the introduction of numerous gaming frameworks, the community has insufficient benchmarks towards building general multi-agents collaboration infrastructure that encompass both LLM and human-NPCs collaborations. In this work, we propose a novel infrastructure - MindAgent - to evaluate planning and coordination emergent capabilities for gaming interaction. In particular, our infrastructure leverages existing gaming framework, to i) require understanding of the coordinator for a multi-agent system, ii) collaborate with human players via un-finetuned proper instructions, and iii) establish an in-context learning on few-shot prompt with feedback. Furthermore, we introduce CUISINEWORLD, a new gaming scenario and related benchmark that dispatch a multi-agent collaboration efficiency and supervise multiple agents playing the game simultaneously. We conduct comprehensive evaluations with new auto-metric CoS for calculating the collaboration efficiency. Finally, our infrastructure can be deployed into real-world gaming scenarios in a customized VR version of CUISINEWORLD and adapted in existing broader Minecraft gaming domain. We hope our findings on LLMs and the new infrastructure for general-purpose scheduling and coordination can help shed light on how such skills can be obtained by learning from large language corpora.
翻訳日:2023-09-19 12:00:56 公開日:2023-09-18
# 生理時系列データにおける混合データ拡張法の実証的研究

Empirical Study of Mix-based Data Augmentation Methods in Physiological Time Series Data ( http://arxiv.org/abs/2309.09970v1 )

ライセンス: Link先を確認
Peikun Guo, Huiyuan Yang, Akane Sano(参考訳) データ拡張は、ディープモデルトレーニングの手順の一般化を支援する一般的なプラクティスである。 生理学的時系列分類の文脈において、以前の研究は主にラベル不変データ拡張法に焦点を当ててきた。 しかし、コンピュータビジョン分野に出現した別の拡張技法(\textit{i,e, mixup})は、時系列領域ではまだ十分に研究されていない。 本研究では,6つの生理学的データセットについて,ミックスアップ,カットミックス,マニホールドミックスアップなどのミックスベース拡張を体系的に検討し,異なる感覚データと分類タスクにおける性能評価を行った。 以上の結果から,ミックスベースの3つの拡張が6つのデータセットのパフォーマンスを継続的に改善できることが示唆された。 さらに重要なことに、改善は専門家の知識や広範なパラメータチューニングに依存しない。 最後に,ミックスベース強化法の特徴を概観するとともに,ミックスベース強化法を生理時系列データで用いることの利点を強調する。

Data augmentation is a common practice to help generalization in the procedure of deep model training. In the context of physiological time series classification, previous research has primarily focused on label-invariant data augmentation methods. However, another class of augmentation techniques (\textit{i.e., Mixup}) that emerged in the computer vision field has yet to be fully explored in the time series domain. In this study, we systematically review the mix-based augmentations, including mixup, cutmix, and manifold mixup, on six physiological datasets, evaluating their performance across different sensory data and classification tasks. Our results demonstrate that the three mix-based augmentations can consistently improve the performance on the six datasets. More importantly, the improvement does not rely on expert knowledge or extensive parameter tuning. Lastly, we provide an overview of the unique properties of the mix-based augmentation methods and highlight the potential benefits of using the mix-based augmentation in physiological time series data.
翻訳日:2023-09-19 12:00:34 公開日:2023-09-18
# ロボットに大きな言語モデルで歩くように促す

Prompt a Robot to Walk with Large Language Models ( http://arxiv.org/abs/2309.09969v1 )

ライセンス: Link先を確認
Yen-Jen Wang, Bike Zhang, Jianyu Chen, Koushil Sreenath(参考訳) 巨大な言語モデル(LLM)は、大規模なインターネットスケールのデータに基づいて事前訓練されている。 近年,ファウンデーションモデルのパワーを現実の環境で活用することを目的とした,ロボット工学用LLMの展開への関心が高まっている。 しかし、このアプローチは、特に物理世界でこれらのモデルを接地し、動的なロボットの動きを生成する際に、重大な課題に直面している。 これらの問題に対処するために,我々は物理環境から収集した少数ショットプロンプトを用いて,タスク固有の微調整を行わずにロボットの低レベル制御コマンドを自動生成する新しいパラダイムを提案する。 様々なロボットや環境における実験により、我々の手法がロボットに歩行を促すことができることが検証された。 そこで本稿では,LLMが高次元ロボットシステムにおいても,ダイナミックモーション制御のための低レベルフィードバックコントローラとして機能する方法について述べる。 プロジェクトのwebサイトとソースコードは、https://prompt2walk.github.io/にある。

Large language models (LLMs) pre-trained on vast internet-scale data have showcased remarkable capabilities across diverse domains. Recently, there has been escalating interest in deploying LLMs for robotics, aiming to harness the power of foundation models in real-world settings. However, this approach faces significant challenges, particularly in grounding these models in the physical world and in generating dynamic robot motions. To address these issues, we introduce a novel paradigm in which we use few-shot prompts collected from the physical environment, enabling the LLM to autoregressively generate low-level control commands for robots without task-specific fine-tuning. Experiments across various robots and environments validate that our method can effectively prompt a robot to walk. We thus illustrate how LLMs can proficiently function as low-level feedback controllers for dynamic motion control even in high-dimensional robotic systems. The project website and source code can be found at: https://prompt2walk.github.io/ .
翻訳日:2023-09-19 12:00:15 公開日:2023-09-18
# 拡散とフローベース勾配ブーストツリーによる語彙データの生成と導入

Generating and Imputing Tabular Data via Diffusion and Flow-based Gradient-Boosted Trees ( http://arxiv.org/abs/2309.09968v1 )

ライセンス: Link先を確認
Alexia Jolicoeur-Martineau, Kilian Fatras, Tal Kachman(参考訳) 表データを取得するのが難しく、値が不足している。 本稿では, スコアベース拡散と条件付き流れマッチングを用いて, 混合型(連続型, カテゴリー型) 表データを生成し, インプットする手法を提案する。 ニューラルネットワークを関数近似器として使用する以前の作業とは対照的に、一般的な勾配ブーストツリー(gbt)メソッドであるxgboostを使用する。 エレガントであることに加えて,我々の手法が示す様々なデータセットを実証的に示す。 一 訓練データセットが欠如データによりクリーン又は汚染されたとき、高度に現実的な合成データを生成すること。 ii) 多様な妥当なデータインプテーションを生成する。 本手法は,gpuを必要とせず,cpuを用いて並列に学習することができる。 簡単にアクセスできるようにするため、PyPI上のPythonライブラリとCRAN上のRパッケージを通じてコードをリリースします。

Tabular data is hard to acquire and is subject to missing values. This paper proposes a novel approach to generate and impute mixed-type (continuous and categorical) tabular data using score-based diffusion and conditional flow matching. Contrary to previous work that relies on neural networks as function approximators, we instead utilize XGBoost, a popular Gradient-Boosted Tree (GBT) method. In addition to being elegant, we empirically show on various datasets that our method i) generates highly realistic synthetic data when the training dataset is either clean or tainted by missing data and ii) generates diverse plausible data imputations. Our method often outperforms deep-learning generation methods and can trained in parallel using CPUs without the need for a GPU. To make it easily accessible, we release our code through a Python library on PyPI and an R package on CRAN.
翻訳日:2023-09-19 11:59:59 公開日:2023-09-18
# 非物理的操作をシミュレートする量子測定のパワー

Power of quantum measurement in simulating unphysical operations ( http://arxiv.org/abs/2309.09963v1 )

ライセンス: Link先を確認
Xuanqiang Zhao, Lei Zhang, Benchi Zhao, Xin Wang(参考訳) 量子演算以外の線形写像による量子状態の操作は、量子情報処理の様々な領域において重要な応用となっている。 現在の手法では、物理演算をサンプリングすることで非物理的な写像をシミュレートするが、古典的な方法である。 本研究では,古典的なサンプリングに代えて量子計測を用いることで,一般エルミート保存マップのシミュレーションコストを低減できることを示す。 注目すべきは、シミュレーションコストとよく知られたダイヤモンドノルムの等価性を確立し、既知のギャップを閉じ、ダイヤモンドノルムを地図のシミュラビリティとして普遍的な操作意味に割り当てることである。 提案手法は,誤差軽減と量子機械学習に密接に関連する2つのアプリケーションで実証し,良好なスケーリングを示す。 これらの発見は、量子干渉が重要な役割を果たすと考えられている非物理的操作をシミュレートする量子測定の力を強調している。 我々の研究はより効率的なサンプリング手法の道を切り開いており、より多くの量子情報処理シナリオに拡張される可能性がある。

The manipulation of quantum states through linear maps beyond quantum operations has many important applications in various areas of quantum information processing. Current methods simulate unphysical maps by sampling physical operations, but in a classical way. In this work, we show that using quantum measurement in place of classical sampling leads to lower simulation costs for general Hermitian-preserving maps. Remarkably, we establish the equality between the simulation cost and the well-known diamond norm, thus closing a previously known gap and assigning diamond norm a universal operational meaning as a map's simulability. We demonstrate our method in two applications closely related to error mitigation and quantum machine learning, where it exhibits a favorable scaling. These findings highlight the power of quantum measurement in simulating unphysical operations, in which quantum interference is believed to play a vital role. Our work paves the way for more efficient sampling techniques and has the potential to be extended to more quantum information processing scenarios.
翻訳日:2023-09-19 11:59:45 公開日:2023-09-18
# 2量子werner状態の正確なステアリングバウンド

Exact Steering Bound for Two-Qubit Werner States ( http://arxiv.org/abs/2309.09960v1 )

ライセンス: Link先を確認
Yujie Zhang and Eric Chitambar(参考訳) 量子ステアリング作業における投影計測と正の演算子値測定(POVM)の関係について検討する。 この分野における長年の未解決の問題は、PVMが、ワーナー状態として知られるノイズの多い単一状態のステアビリティの射影的測定よりも強力であるかどうかである。 この問題を2量子系で解き、両者が等しく強力であることを示し、いわゆるヴェルナーギャップを閉じる。 雑音性POVMの不整合基準と量子ステアリングと測定不整合性の接続を用いて、一般のPOVMの下でBloch球半径$r\leq 1/2$のWerner状態の局所隠れ状態モデルを構築する。 この構成はまた、より広い範囲のヴェルナー状態に対する局所的な隠れ変数モデルも提供する。 対照的に、固定状態アンサンブルを用いて異なる局所的な隠れ状態モデルを構築する場合、射影測定とPOVMが等価なノイズ耐性を持つことを示す。 これらの結果は、量子ステアリングと非局所情報処理のタスクにおける投影計測とpovmの関係を明らかにするのに役立つ。

We investigate the relationship between projective measurements and positive operator-valued measures (POVMs) in the task of quantum steering. A longstanding open problem in the field has been whether POVMs are more powerful than projective measurements for the steerability of noisy singlet states, which are known as Werner states. We resolve this problem for two-qubit systems and show that the two are equally powerful, thereby closing the so-called Werner gap. Using the incompatible criteria for noisy POVMs and the connection between quantum steering and measurement incompatibility, we construct a local hidden state model for Werner states with Bloch sphere radius $r\leq 1/2$ under general POVMs. This construction also provides a local hidden variable model for a larger range of Werner states than previously known. {In contrast, we also show that projective measurements and POVMs can have inequivalent noise tolerances when using a fixed state ensemble to build different local hidden state models.} These results help clarify the relationship between projective measurements and POVMs for the tasks of quantum steering and nonlocal information processing.
翻訳日:2023-09-19 11:59:30 公開日:2023-09-18
# 潜時拡散モデルを用いたテキスト駆動型フォリー音生成

Text-Driven Foley Sound Generation With Latent Diffusion Model ( http://arxiv.org/abs/2306.10359v5 )

ライセンス: Link先を確認
Yi Yuan, Haohe Liu, Xubo Liu, Xiyuan Kang, Peipei Wu, Mark D. Plumbley, Wenwu Wang(参考訳) Foley Sound Generationはマルチメディアコンテンツのための背景音の合成を目的としている。 従来のモデルは通常、ラベルを入力として大規模な開発セット(シングルナンバーやワンホットベクトルなど)を使用する。 本研究では,テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。 データ不足の問題を緩和するため,本モデルはまず,大規模データセットを事前学習し,コントラスト言語-オーディオ関連(clap)手法を用いた転送学習により,このタスクを微調整した。 テキストエンコーダによって抽出された特徴埋め込みは,生成モデルの性能に大きな影響を与える可能性がある。 したがって、エンコーダの後、トレーニング可能な層を導入し、エンコーダによって生成されたテキスト埋め込みを改善する。 また、複数の候補音声クリップを同時に生成し、候補クリップの埋め込みと対象テキストラベルの埋め込みとの類似度スコアで決定される最良波形を選択することにより、生成された波形をさらに洗練する。 提案手法を用いて,DCASEチャレンジ2023タスク7に提出されたシステムのうち,${1}^{st}$をランク付けする。 アブレーション実験の結果,提案手法は音響発生性能を著しく向上させることが示された。 提案するシステムの実装コードはオンラインで公開されている。

Foley sound generation aims to synthesise the background sound for multimedia content. Previous models usually employ a large development set with labels as input (e.g., single numbers or one-hot vector). In this work, we propose a diffusion model based system for Foley sound generation with text conditions. To alleviate the data scarcity issue, our model is initially pre-trained with large-scale datasets and fine-tuned to this task via transfer learning using the contrastive language-audio pertaining (CLAP) technique. We have observed that the feature embedding extracted by the text encoder can significantly affect the performance of the generation model. Hence, we introduce a trainable layer after the encoder to improve the text embedding produced by the encoder. In addition, we further refine the generated waveform by generating multiple candidate audio clips simultaneously and selecting the best one, which is determined in terms of the similarity score between the embedding of the candidate clips and the embedding of the target text label. Using the proposed method, our system ranks ${1}^{st}$ among the systems submitted to DCASE Challenge 2023 Task 7. The results of the ablation studies illustrate that the proposed techniques significantly improve sound generation performance. The codes for implementing the proposed system are available online.
翻訳日:2023-09-19 10:13:48 公開日:2023-09-18
# 高分解能銀河シミュレーションに向けた深層学習による超新星シェル膨張の3次元時空間予測

3D-Spatiotemporal Forecasting the Expansion of Supernova Shells Using Deep Learning toward High-Resolution Galaxy Simulations ( http://arxiv.org/abs/2302.00026v3 )

ライセンス: Link先を確認
Keiya Hirashima, Kana Moriwaki, Michiko S. Fujii, Yutaka Hirai, Takayuki R. Saitoh, Junichiro Makino(参考訳) 超新星(SN)は銀河の形成と進化に重要な役割を果たしている。 超並列計算を用いた高解像度銀河シミュレーションでは、sneの短い積分時間ステップは深刻なボトルネックである。 これは、将来の高解像度銀河シミュレーションのために解決する必要がある緊急問題である。 可能な1つの解決策はハミルトニアン分割法で、短い時間ステップを必要とする領域はシステム全体から分離して統合される。 平滑化粒子の流体力学シミュレーションにおいて, sneの影響を受ける粒子に適用するには, その後の大域的ステップにおいて, このようなsn影響を受ける粒子の殻の形状を事前に検出する必要がある。 本稿では,SN爆発後の殻膨張を予測する深層学習モデルである3D-MIMを開発する。 粒子質量$m_{\rm gas}=1$m$_\odot$の乱流シミュレーションに基づいて訓練されたこのモデルは、爆発によって密度が10%以上減少する異方性殻の形を正確に再現する。 また,不均質乱流雲のトレーニングデータセットを超えた均一媒質中の殻半径を適切に予測することを示した。 本モデルにより,SNの影響のある粒子が存在する貝殻とその内部の予測が可能となる。

Supernova (SN) plays an important role in galaxy formation and evolution. In high-resolution galaxy simulations using massively parallel computing, short integration timesteps for SNe are serious bottlenecks. This is an urgent issue that needs to be resolved for future higher-resolution galaxy simulations. One possible solution would be to use the Hamiltonian splitting method, in which regions requiring short timesteps are integrated separately from the entire system. To apply this method to the particles affected by SNe in a smoothed-particle hydrodynamics simulation, we need to detect the shape of the shell on and within which such SN-affected particles reside during the subsequent global step in advance. In this paper, we develop a deep learning model, 3D-MIM, to predict a shell expansion after a SN explosion. Trained on turbulent cloud simulations with particle mass $m_{\rm gas}=1$M$_\odot$, the model accurately reproduces the anisotropic shell shape, where densities decrease by over 10 per cent by the explosion. We also demonstrate that the model properly predicts the shell radius in the uniform medium beyond the training dataset of inhomogeneous turbulent clouds. We conclude that our model enables the forecast of the shell and its interior where SN-affected particles will be present.
翻訳日:2023-09-19 10:13:28 公開日:2023-09-18
# 言語モデルのプロンプトによる推論:調査

Reasoning with Language Model Prompting: A Survey ( http://arxiv.org/abs/2212.09597v8 )

ライセンス: Link先を確認
Shuofei Qiao, Yixin Ou, Ningyu Zhang, Xiang Chen, Yunzhi Yao, Shumin Deng, Chuanqi Tan, Fei Huang, Huajun Chen(参考訳) 推論は複雑な問題解決に不可欠な能力であり、医療診断や交渉など、さまざまな現実世界のアプリケーションに対するバックエンドサポートを提供することができる。 本稿では,言語モデルによる推論に関する最先端の研究を包括的に調査する。 比較や要約による研究成果を紹介し,初心者を支援するための体系的な資源を提供する。 また,このような推論能力が出現する潜在的な理由を議論し,今後の研究の方向性を強調する。 リソースはhttps://github.com/zjunlp/Prompt4ReasoningPapers(定期的に更新)で入手できる。

Reasoning, as an essential ability for complex problem-solving, can provide back-end support for various real-world applications, such as medical diagnosis, negotiation, etc. This paper provides a comprehensive survey of cutting-edge research on reasoning with language model prompting. We introduce research works with comparisons and summaries and provide systematic resources to help beginners. We also discuss the potential reasons for emerging such reasoning abilities and highlight future research directions. Resources are available at https://github.com/zjunlp/Prompt4ReasoningPapers (updated periodically).
翻訳日:2023-09-19 10:13:08 公開日:2023-09-18
# SCT:Salient Channelsを用いたパラメータ効率の良いファインチューニングのための簡易ベースライン

SCT: A Simple Baseline for Parameter-Efficient Fine-Tuning via Salient Channels ( http://arxiv.org/abs/2309.08513v2 )

ライセンス: Link先を確認
Henry Hengyuan Zhao, Pichao Wang, Yuyang Zhao, Hao Luo, Fan Wang, Mike Zheng Shou(参考訳) 事前訓練された視覚トランスフォーマーは、様々な下流タスクに強い表現の利点がある。 近年,多くのパラメータ効率細調整法が提案されており,その実験により,低データのリソースシナリオにおいて,パラメータの1%しか調整できないことが示されている。 しかし、これらの方法は様々な下流タスクを微調整する際にタスク固有の情報を見落とします。 本稿では,SCT(Salient Channel Tuning)と呼ばれる簡易かつ効果的な手法を提案する。タスクイメージをモデルに転送し,特徴マップ内の部分的なチャネルを選択することで,パラメータコストを大幅に低減する1/8チャネルのみをチューニングできる。 VTAB-1Kベンチマークの19タスク中18タスクにおいて、VT-Bのパラメータは0.11Mしかなく、完全な微調整よりも780$\times$は少ない。 さらに,パラメータコストの低い他のPEFT手法を超越した領域一般化と少数ショット学習の実験を行い,提案手法の高機能化と低データ方式の有効性を実証した。

Pre-trained vision transformers have strong representation benefits to various downstream tasks. Recently, many parameter-efficient fine-tuning (PEFT) methods have been proposed, and their experiments demonstrate that tuning only 1% of extra parameters could surpass full fine-tuning in low-data resource scenarios. However, these methods overlook the task-specific information when fine-tuning diverse downstream tasks. In this paper, we propose a simple yet effective method called "Salient Channel Tuning" (SCT) to leverage the task-specific information by forwarding the model with the task images to select partial channels in a feature map that enables us to tune only 1/8 channels leading to significantly lower parameter costs. Experiments outperform full fine-tuning on 18 out of 19 tasks in the VTAB-1K benchmark by adding only 0.11M parameters of the ViT-B, which is 780$\times$ fewer than its full fine-tuning counterpart. Furthermore, experiments on domain generalization and few-shot learning surpass other PEFT methods with lower parameter costs, demonstrating our proposed tuning technique's strong capability and effectiveness in the low-data regime.
翻訳日:2023-09-19 10:10:38 公開日:2023-09-18
# RADE:オープンドメイン対話のための参照支援対話評価

RADE: Reference-Assisted Dialogue Evaluation for Open-Domain Dialogue ( http://arxiv.org/abs/2309.08156v2 )

ライセンス: Link先を確認
Zhengliang Shi, Weiwei Sun, Shuo Zhang, Zhen Zhang, Pengjie Ren, Zhaochun Ren(参考訳) オープンドメイン対話システムの評価は、一対多の問題、すなわちゴールデンレスポンス以外の多くの適切な応答のために困難である。 現在、自動評価手法では人間との整合性が向上し、信頼性の高い人体評価は時間と費用がかかる可能性がある。 そこで本研究では,前作成した発話を,一対多の問題を解決するための金の応答以外の基準として利用するマルチタスク学習フレームワークにおいて,参照支援対話評価(rade)手法を提案する。 具体的には、radeは参照と候補応答を明示的に比較して全体のスコアを予測する。 さらに、補助応答生成タスクは、共有エンコーダによる予測を強化する。 radeをサポートするために、3つのデータセットを拡張し、人間のアノテーションによるゴールデンレスポンス以外の評価された応答を追加します。 Pearson, Spearman, Kendallの3つのデータセットと2つの既存のベンチマーク実験により,Pearson, Spearman, Kendallの3つの手法の有効性が実証された。

Evaluating open-domain dialogue systems is challenging for reasons such as the one-to-many problem, i.e., many appropriate responses other than just the golden response. As of now, automatic evaluation methods need better consistency with humans, while reliable human evaluation can be time- and cost-intensive. To this end, we propose the Reference-Assisted Dialogue Evaluation (RADE) approach under the multi-task learning framework, which leverages the pre-created utterance as reference other than the gold response to relief the one-to-many problem. Specifically, RADE explicitly compares reference and the candidate response to predict their overall scores. Moreover, an auxiliary response generation task enhances prediction via a shared encoder. To support RADE, we extend three datasets with additional rated responses other than just a golden response by human annotation. Experiments on our three datasets and two existing benchmarks demonstrate the effectiveness of our method, where Pearson, Spearman, and Kendall correlations with human evaluation outperform state-of-the-art baselines.
翻訳日:2023-09-19 10:10:03 公開日:2023-09-18
# CRYPTO-MINE:相互情報ニューラル推定によるクリプトアナリシス

CRYPTO-MINE: Cryptanalysis via Mutual Information Neural Estimation ( http://arxiv.org/abs/2309.08019v2 )

ライセンス: Link先を確認
Benjamin D. Kim, Vipindev Adat Vasudevan, Jongchan Woo, Alejandro Cohen, Rafael G. L. D'Oliveira, Thomas Stahlbuhk, and Muriel M\'edard(参考訳) 暗号システムの効率を評価する手段としての相互情報(mi)の使用には、幅広い歴史がある。 しかし,高次元空間における未知確率変数間のmi推定は困難である。 機械学習の最近の進歩により、ニューラルネットワークを用いたmi推定が進歩している。 本研究は,暗号分野におけるMI推定の新しい応用法を提案する。 本手法を用いて,選択した平文攻撃における平文と暗号文間のMIを推定する。 暗号化から漏洩した情報は、暗号システムの計算セキュリティを侵害するために敵に悪用される可能性がある。 我々は,複数の暗号方式とベースライン手法を実証的に分析し,提案手法の効率性を評価する。 さらに,個々の秘密情報を提供する新たなネットワーク符号化ベースの暗号システムに解析を拡張し,情報漏洩と入力分布の関係について検討する。

The use of Mutual Information (MI) as a measure to evaluate the efficiency of cryptosystems has an extensive history. However, estimating MI between unknown random variables in a high-dimensional space is challenging. Recent advances in machine learning have enabled progress in estimating MI using neural networks. This work presents a novel application of MI estimation in the field of cryptography. We propose applying this methodology directly to estimate the MI between plaintext and ciphertext in a chosen plaintext attack. The leaked information, if any, from the encryption could potentially be exploited by adversaries to compromise the computational security of the cryptosystem. We evaluate the efficiency of our approach by empirically analyzing multiple encryption schemes and baseline approaches. Furthermore, we extend the analysis to novel network coding-based cryptosystems that provide individual secrecy and study the relationship between information leakage and input distribution.
翻訳日:2023-09-19 10:09:45 公開日:2023-09-18
# ゼロショットタスク指向把握のための言語組込みラミアンスフィールド

Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping ( http://arxiv.org/abs/2309.07970v2 )

ライセンス: Link先を確認
Adam Rashid, Satvik Sharma, Chung Min Kim, Justin Kerr, Lawrence Chen, Angjoo Kanazawa, Ken Goldberg(参考訳) 特定の部分によるオブジェクトの把握は、しばしば安全性とダウンストリームタスクの実行に不可欠である。 しかし、学習ベースの把握プランナーは、特定のオブジェクト部分データでトレーニングされない限り、このような振る舞いを欠いている。 そこで本研究では,タスク指向の物体把握のための言語組込み放射場であるlerf-togoを提案する。 そこで我々はまずシーンのLERFを再構築し,CLIPの埋め込みをテキストで検索可能な大規模3D言語フィールドに蒸留する。 しかし、LERFは目的意識を持たないため、その関連性出力は、その後の部分クエリに不十分なオブジェクトに対して不完全なアクティベーションを返すことが多い。 LERF-TOGOはこの空間的グルーピングの欠如を、DINO特徴を介して3Dオブジェクトマスクを抽出し、そのマスク上のLERFを条件付きクエリすることで軽減し、オフザシェルフグリッププランナーからの把握をランク付けするオブジェクトのセマンティック分布を得る。 LERF-TOGOは,31個の物理物体のタスク指向対象部位を把握できる能力を評価し,その正解点を81%,正解点を69%,正解点を81%,正解点を69%とした。 プロジェクトのwebサイト: lerftogo.github.io

Grasping objects by a specific part is often crucial for safety and for executing downstream tasks. Yet, learning-based grasp planners lack this behavior unless they are trained on specific object part data, making it a significant challenge to scale object diversity. Instead, we propose LERF-TOGO, Language Embedded Radiance Fields for Task-Oriented Grasping of Objects, which uses vision-language models zero-shot to output a grasp distribution over an object given a natural language query. To accomplish this, we first reconstruct a LERF of the scene, which distills CLIP embeddings into a multi-scale 3D language field queryable with text. However, LERF has no sense of objectness, meaning its relevancy outputs often return incomplete activations over an object which are insufficient for subsequent part queries. LERF-TOGO mitigates this lack of spatial grouping by extracting a 3D object mask via DINO features and then conditionally querying LERF on this mask to obtain a semantic distribution over the object with which to rank grasps from an off-the-shelf grasp planner. We evaluate LERF-TOGO's ability to grasp task-oriented object parts on 31 different physical objects, and find it selects grasps on the correct part in 81% of all trials and grasps successfully in 69%. See the project website at: lerftogo.github.io
翻訳日:2023-09-19 10:09:35 公開日:2023-09-18
# voxtlm:音声認識/合成と音声/テキスト継続タスクを統合する統合デコーダ専用モデル

Voxtlm: unified decoder-only models for consolidating speech recognition/synthesis and speech/text continuation tasks ( http://arxiv.org/abs/2309.07937v2 )

ライセンス: Link先を確認
Soumi Maiti, Yifan Peng, Shukjae Choi, Jee-weon Jung, Xuankai Chang, Shinji Watanabe(参考訳) 音声認識,音声合成,テキスト生成,音声継続の4つのタスクを実行できるデコーダのみの言語モデルである \textit{VoxtLM} を提案する。 VoxtLMは、テキスト語彙を自己教師付き音声特徴から独立した音声トークンと統合し、マルチタスク学習を可能にするために特別なトークンを使用する。 単一タスクモデルと比較すると、voxtlmは音声合成が著しく改善され、音声の知性が28.9から5.6に向上し、客観的品質が2.68から3.90に向上した。 また、VoxtLMはシングルタスクよりも音声認識性能と音声認識性能を向上させる。 VoxtLMは、公開データでトレーニングされ、トレーニングレシピとモデルチェックポイントは、完全に再現可能な作業のためにオープンソース化される。

We propose a decoder-only language model, \textit{VoxtLM}, that can perform four tasks: speech recognition, speech synthesis, text generation, and speech continuation. VoxtLM integrates text vocabulary with discrete speech tokens from self-supervised speech features and uses special tokens to enable multitask learning. Compared to a single-task model, VoxtLM exhibits a significant improvement in speech synthesis, with improvements in both speech intelligibility from 28.9 to 5.6 and objective quality from 2.68 to 3.90. VoxtLM also improves speech generation and speech recognition performance over the single-task counterpart. VoxtLM is trained with publicly available data and training recipes and model checkpoints will be open-sourced to make fully reproducible work.
翻訳日:2023-09-19 10:09:05 公開日:2023-09-18
# 強化学習における近似のある種のネイティブ空間における収束率

Rates of Convergence in Certain Native Spaces of Approximations used in Reinforcement Learning ( http://arxiv.org/abs/2309.07383v2 )

ライセンス: Link先を確認
Ali Bouland, Shengyuan Niu, Sai Tej Paruchuri, Andrew Kurdila, John Burns, Eugenio Schuster(参考訳) 本稿では、再生カーネルヒルベルト空間(RKHS)$H(\Omega)$の集合に生じる値関数近似の収束率について研究する。 自然空間の特定のクラスに最適制御問題をキャストすることにより、ポリシー反復に現れるオフライン近似を可能にする演算子方程式に対して強い収束率が導出される。 値関数近似における誤差の明示的な上限は、ネイティブ空間 $h(\omega)$ における有限次元近似の空間に対するパワー関数 $\pwr_{h,n}$ によって導かれる。 これらの境界は自然界において幾何学的であり、値関数の近似の収束に関する古典的結果のいくつかを洗練している。

This paper studies convergence rates for some value function approximations that arise in a collection of reproducing kernel Hilbert spaces (RKHS) $H(\Omega)$. By casting an optimal control problem in a specific class of native spaces, strong rates of convergence are derived for the operator equation that enables offline approximations that appear in policy iteration. Explicit upper bounds on error in value function approximations are derived in terms of power function $\Pwr_{H,N}$ for the space of finite dimensional approximants $H_N$ in the native space $H(\Omega)$. These bounds are geometric in nature and refine some well-known, now classical results concerning convergence of approximations of value functions.
翻訳日:2023-09-19 10:07:56 公開日:2023-09-18
# アルツハイマー病に対する説明可能なグラフニューラルネットワークと認知症リスク予測

Explainable Graph Neural Network for Alzheimer's Disease And Related Dementias Risk Prediction ( http://arxiv.org/abs/2309.06584v3 )

ライセンス: Link先を確認
Xinyue Hu, Zenan Sun, Yi Nian, Yifang Dang, Fang Li, Jingna Feng, Evan Yu, Cui Tao(参考訳) アルツハイマー病と関連する認知症(ADRD)は、ADRDの正確なリスク予測の重要性を浮き彫りにして、米国で6番目に大きな死因となっている。 近年のADRDリスク予測の進歩は画像解析に大きく依存しているが,ADRD診断に先立ってすべての患者が画像診断を受けているわけではない。 機械学習とクレームデータの融合は、さまざまな医療コード間の新たなリスク要因や相互関係を明らかにする可能性がある。 我々の目標は、ADRDリスク予測のためのクレームデータとグラフニューラルネットワーク(GNN)を使用することです。 これらの予測の背後にある人間解釈可能な理由の欠如に対処し,関係の重要性とそのadrdリスク予測への影響を評価し,包括的解釈を確実にする革新的な手法を提案する。 我々はADRD確率を推定するために変分正規化エンコーダデコーダグラフニューラルネットワーク(VGNN)を用いた。 モデル効率を評価するために,ランダムフォレストと光勾配ブーストマシンをベースラインとして用いた3つのシナリオを作成した。 我々はさらに,ADRDリスク予測の鍵となる関係を明らかにするために,関係重要度法を適用した。 vgnnは、受信機の動作特性の下で、他のベースラインモデルを10%上回った。 gnnモデルと関係重要度解釈の統合は、adrdの進行に寄与または遅延する要因に対する貴重な洞察を提供する上で重要な役割を果たす可能性がある。 クレームデータによるGNNアプローチの採用はADRDリスク予測を強化し、相互接続された医療コード関係の影響に関する洞察を提供する。 この手法はADRDリスクモデリングを可能にするだけでなく、クレームデータを用いた他の画像解析予測の可能性を示す。

Alzheimer's disease and related dementias (ADRD) ranks as the sixth leading cause of death in the US, underlining the importance of accurate ADRD risk prediction. While recent advancement in ADRD risk prediction have primarily relied on imaging analysis, yet not all patients undergo medical imaging before an ADRD diagnosis. Merging machine learning with claims data can reveal additional risk factors and uncover interconnections among diverse medical codes. Our goal is to utilize Graph Neural Networks (GNNs) with claims data for ADRD risk prediction. Addressing the lack of human-interpretable reasons behind these predictions, we introduce an innovative method to evaluate relationship importance and its influence on ADRD risk prediction, ensuring comprehensive interpretation. We employed Variationally Regularized Encoder-decoder Graph Neural Network (VGNN) for estimating ADRD likelihood. We created three scenarios to assess the model's efficiency, using Random Forest and Light Gradient Boost Machine as baselines. We further used our relation importance method to clarify the key relationships for ADRD risk prediction. VGNN surpassed other baseline models by 10% in the area under the receiver operating characteristic. The integration of the GNN model and relation importance interpretation could potentially play an essential role in providing valuable insight into factors that may contribute to or delay ADRD progression. Employing a GNN approach with claims data enhances ADRD risk prediction and provides insights into the impact of interconnected medical code relationships. This methodology not only enables ADRD risk modeling but also shows potential for other image analysis predictions using claims data.
翻訳日:2023-09-19 10:07:43 公開日:2023-09-18