このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240116となっている論文です。

PDF登録状況(公開日: 20240116)

TitleAuthorsAbstract論文公表日・翻訳日
# 超伝導量子コンピュータの熱初期状態からの量子熱化に関する研究

Study on quantum thermalization from thermal initial states in a superconducting quantum computer ( http://arxiv.org/abs/2403.14630v1 )

ライセンス: Link先を確認
Marc Espinosa Edo, Lian-Ao Wu, (参考訳) 現代の量子デバイス、特に量子コンピュータにおける量子熱化は、近年、重要な理論的な関心を集めている。 量子ムペンバ効果 (Quantum Mpemba Effect, QME) のような異常な熱化過程が理論的に研究されている。 しかし、熱状態の調整が難しいため、実験結果が不足している。 本稿では,この問題に対処する手法を提案する。 さらに、我々はIBM量子デバイスを用いたアプローチを実験的に検証し、IBM量子ビットに対して予測される等距離クエンチの非使用緩和結果を提供する。 また、QMEに導入された形式性を評価し、理論的な予測と一致した結果を得る。 この実験は、量子物理学における熱状態と熱化の研究を合理化できることを示すものである。

Quantum thermalization in contemporary quantum devices, in particular quantum computers, has recently attracted significant theoretical interest. Unusual thermalization processes, such as the Quantum Mpemba Effect (QME), have been explored theoretically. However, there is a shortage of experimental results due to the difficulty in preparing thermal states. In this paper, we propose a method to address this challenge. Moreover, we experimentally validate our approach using IBM quantum devices, providing results for unusal relaxation in equidistant quenches as predicted for the IBM qubit. We also assess the formalism introduced for the QME, obtaining results consistent with the theoretical predictions. This demonstration underscores that our method can streamline the investigation of thermal states and thermalization in quantum physics.
翻訳日:2024-04-01 03:58:36 公開日:2024-01-16
# IoTWarden: トリガーアクションによるIoT攻撃を軽減する,ディープラーニングベースのリアルタイム防衛システム

IoTWarden: A Deep Reinforcement Learning Based Real-time Defense System to Mitigate Trigger-action IoT Attacks ( http://arxiv.org/abs/2401.08141v1 )

ライセンス: Link先を確認
Md Morshed Alam, Israt Jahan, Weichao Wang, (参考訳) トリガアクションIoTプラットフォームでは、IoTデバイスは、IoTハブにイベント条件を報告し、彼らのサイバー状態を通知し、ルールエンジンのルールとして定義された機能的依存関係に基づいて、ハブが他のIoTデバイスでアクションを起動する。 これらの機能的依存関係は、ネットワークタスクの自動化を支援する一連のインタラクションを生み出します。 このチェーンを利用して、偽のイベント条件をIoTハブに報告し、スマート環境へのリモートインジェクションアタックを実行して、ターゲットとするIoTデバイスを間接的に制御する。 既存の防衛努力は通常、ルールベースの異常検出メカニズムを開発するために、IoTアプリの静的解析に依存する。 また、物理イベント指紋を利用してIoTネットワーク内の異常を判定するMLベースの防御機構も文献で見ることができる。 しかし、これらの手法は、複雑な攻撃に直面した場合、応答時間が長く、適応性の欠如を示すことが多い。 本稿では,インジェクション攻撃のための深層強化学習に基づくリアルタイム防衛システムを構築することを提案する。 我々は、ディフェンダーに対する報酬関数を定義し、最適な防衛方針を特定するための深いQネットワークベースのアプローチを実装した。 実験の結果,提案機構は適切な計算オーバヘッドによるインジェクション攻撃を効果的かつ正確に識別し,防御することができることがわかった。

In trigger-action IoT platforms, IoT devices report event conditions to IoT hubs notifying their cyber states and let the hubs invoke actions in other IoT devices based on functional dependencies defined as rules in a rule engine. These functional dependencies create a chain of interactions that help automate network tasks. Adversaries exploit this chain to report fake event conditions to IoT hubs and perform remote injection attacks upon a smart environment to indirectly control targeted IoT devices. Existing defense efforts usually depend on static analysis over IoT apps to develop rule-based anomaly detection mechanisms. We also see ML-based defense mechanisms in the literature that harness physical event fingerprints to determine anomalies in an IoT network. However, these methods often demonstrate long response time and lack of adaptability when facing complicated attacks. In this paper, we propose to build a deep reinforcement learning based real-time defense system for injection attacks. We define the reward functions for defenders and implement a deep Q-network based approach to identify the optimal defense policy. Our experiments show that the proposed mechanism can effectively and accurately identify and defend against injection attacks with reasonable computation overhead.
翻訳日:2024-03-25 12:27:42 公開日:2024-01-16
# 検証可能なクレデンシャルの選択的開示のための暗号機構について

On Cryptographic Mechanisms for the Selective Disclosure of Verifiable Credentials ( http://arxiv.org/abs/2401.08196v1 )

ライセンス: Link先を確認
Andrea Flamini, Giada Sciarretta, Mario Scuro, Amir Sharif, Alessandro Tomasi, Silvio Ranise, (参考訳) 認証資格は、物理的資格のデジタルアナログである。 それらの認証と完全性は暗号技術によって保護されており、検証者に提示して属性を明らかにしたり、クレデンシャルに含まれる属性について述述したりすることもできる。 プレゼンテーション中にプライバシを保存する1つの方法は、クレデンシャル内の属性を選択的に開示することである。 本稿では,隠蔽コミットメント (eg, mdl ISO/IEC 18013-5) に基づく属性の選択的開示と,非対話的ゼロ知識証明 (eg, BBSシグネチャ) に基づく暗号機構について述べる。 また、このような暗号機構の設計に使用される暗号プリミティブについても記述する。 暗号機構の設計を記述し、標準化、暗号機敏性、量子安全性の観点から標準成熟度の分析を行い、それらの特徴をプレゼンテーションの非リンク性、述語証明の作成能力、しきい値認証発行のサポートなどを中心に比較する。 最後に、最も重要と考えられるRustのオープンソース実装に基づいて、実験的な評価を行います。 特に、異なる暗号機構を用いて構築された認証情報やプレゼンテーションのサイズと、それらを生成し検証するのに要する時間を評価します。 また、暗号メカニズムのインスタンス化において考慮しなければならないいくつかのトレードオフを強調します。

Verifiable credentials are a digital analogue of physical credentials. Their authenticity and integrity are protected by means of cryptographic techniques, and they can be presented to verifiers to reveal attributes or even predicates about the attributes included in the credential. One way to preserve privacy during presentation consists in selectively disclosing the attributes in a credential. In this paper we present the most widespread cryptographic mechanisms used to enable selective disclosure of attributes identifying two categories: the ones based on hiding commitments - e.g., mdl ISO/IEC 18013-5 - and the ones based on non-interactive zero-knowledge proofs - e.g., BBS signatures. We also include a description of the cryptographic primitives used to design such cryptographic mechanisms. We describe the design of the cryptographic mechanisms and compare them by performing an analysis on their standard maturity in terms of standardization, cryptographic agility and quantum safety, then we compare the features that they support with main focus on the unlinkability of presentations, the ability to create predicate proofs and support for threshold credential issuance. Finally we perform an experimental evaluation based on the Rust open source implementations that we have considered most relevant. In particular we evaluate the size of credentials and presentations built using different cryptographic mechanisms and the time needed to generate and verify them. We also highlight some trade-offs that must be considered in the instantiation of the cryptographic mechanisms.
翻訳日:2024-03-25 12:27:42 公開日:2024-01-16
# フィッシングWebページ検出のための機械学習モデルにおけるバイアスの緩和

Mitigating Bias in Machine Learning Models for Phishing Webpage Detection ( http://arxiv.org/abs/2401.08363v1 )

ライセンス: Link先を確認
Aditya Kulkarni, Vivek Balachandran, Dinil Mon Divakaran, Tamal Das, (参考訳) インターネットの普及により、オンライン不正行為が急増し、ユーザーの機密情報をサイバー犯罪から守る必要性が浮き彫りになっている。 フィッシングはよく知られたサイバー攻撃であり、フィッシングウェブページの作成とそれに対応するURLの拡散を中心に展開している。 独自の属性を蒸留し、予測モデルを構築することで、ゼロデイフィッシングURLをプリエンプティブに分類する様々な技術が利用可能である。 しかし、これらの既存の手法は未解決の問題に直面している。 この提案では、フィッシング検出ソリューション内の永続的な課題、特に包括的なデータセットを組み立てる予備フェーズに集中し、MLモデルのバイアスを軽減するために設計されたツールという形で潜在的ソリューションを提案する。 このようなツールは、ランダムに選択されたコンテンツや視覚ベースのフィッシング機能を注入して、任意の正当なURLに対してフィッシングWebページを生成することができる。 さらに,本ツールは,既存のフィッシング検出ソリューション,特に限定されたデータセットでトレーニングされたフィッシングの検出の有効性を評価する可能性を秘めている,と論じる。

The widespread accessibility of the Internet has led to a surge in online fraudulent activities, underscoring the necessity of shielding users' sensitive information from cybercriminals. Phishing, a well-known cyberattack, revolves around the creation of phishing webpages and the dissemination of corresponding URLs, aiming to deceive users into sharing their sensitive information, often for identity theft or financial gain. Various techniques are available for preemptively categorizing zero-day phishing URLs by distilling unique attributes and constructing predictive models. However, these existing techniques encounter unresolved issues. This proposal delves into persistent challenges within phishing detection solutions, particularly concentrated on the preliminary phase of assembling comprehensive datasets, and proposes a potential solution in the form of a tool engineered to alleviate bias in ML models. Such a tool can generate phishing webpages for any given set of legitimate URLs, infusing randomly selected content and visual-based phishing features. Furthermore, we contend that the tool holds the potential to assess the efficacy of existing phishing detection solutions, especially those trained on confined datasets.
翻訳日:2024-03-25 12:27:42 公開日:2024-01-16
# セキュアなソフトウェア開発のインセンティブ: 責任(ウェイバー)と監査の役割

Incentivizing Secure Software Development: The Role of Liability (Waiver) and Audit ( http://arxiv.org/abs/2401.08476v1 )

ライセンス: Link先を確認
Ziyuan Huang, Gergely Biczók, Mingyan Liu, (参考訳) セキュアなソフトウェア開発における誤ったインセンティブは、長い間、セキュリティの経済学の研究の中心であった。 他の業界における強力な法的枠組みである製品責任は、近年までソフトウェア製品にはほとんど効果がなかった。 しかし、米国と欧州連合(EU)の最近の世界的なサイバー攻撃に対する迅速な規制対応は、ソフトウェアベンダーの義務とケアの標準を定義する一般データ保護規則(General Data Protection Regulation)の(相対的な)成功と並んで、規制当局がデジタル社会の利益のためにインセンティブを再調整するために責任を行使することを可能にしている。 具体的には、最近提案された米国国家サイバーセキュリティ戦略は、サイバーインシデントに対する責任をソフトウェアベンダーに戻す。 ソフトウェア企業が自発的にITセキュリティ監査を受け、合格した場合、その責任は放棄されます。 本稿では,この監査シナリオをソフトウェアベンダの側面から分析する。 本稿では,ソフトウェアベンダが早期に退社するか,追加のセキュリティ投資を行うかを決定する段階ごとに,監査プロセスを繰り返し実施する仕組みを提案する。 我々は、オプトインベンダーにとって最適な戦略は、決して辞めることではなく、"ワン・アンド・ドーン"あるいは"インクリメンタル"な方法で累積的な投資を行うことであることを示す。 我々は、監査機構を債務返済保険政策に関連付け、ベンダーのリスク認識を再構築する効果を明らかにした。 我々はまた、監査品質がベンダーのインセンティブに与える影響についても論じ、望ましい監査ルールは極めて正確かつ厳格でないべきであると指摘している。

Misaligned incentives in secure software development have long been the focus of research in the economics of security. Product liability, a powerful legal framework in other industries, has been largely ineffective for software products until recent times. However, the rapid regulatory responses to recent global cyberattacks by both the United States and the European Union, together with the (relative) success of the General Data Protection Regulation in defining both duty and standard of care for software vendors, may just enable regulators to use liability to re-align incentives for the benefit of the digital society. Specifically, the recently proposed United States National Cybersecurity Strategy shifts responsibility for cyber incidents back to software vendors. In doing so, the strategy also puts forward the concept of the liability waiver: if a software company voluntarily undergoes and passes an IT security audit, its liability is waived. In this paper, we analyze this audit scenario from the aspect of the software vendor. We propose a mechanism where a software vendor should first undergo a repeated auditing process in each stage of which the vendor decides whether to quit early or stay with additional security investment. We show that the optimal strategy for an opt-in vendor is to never quit; and exert cumulative investments in either "one-and-done" or "incremental" manner. We relate the audit mechanism to a liability waiver insurance policy and revealed its effect on reshaping the vendor's risk perception. We also discuss influence of audit quality on the vendor's incentives and pinpoint that a desirable audit rule should be highly accurate and less strict.
翻訳日:2024-03-25 12:27:42 公開日:2024-01-16
# SecPLF: Oracle操作攻撃に対するローン可能なファンドのためのセキュアなプロトコル

SecPLF: Secure Protocols for Loanable Funds against Oracle Manipulation Attacks ( http://arxiv.org/abs/2401.08520v1 )

ライセンス: Link先を確認
Sanidhay Arora, Yingjiu Li, Yebo Feng, Jiahua Xu, (参考訳) 分散ファイナンス(DeFi)の進化する状況は、特にPLF(Protocols for Loanable Funds)と、操作に敏感な価格変動への依存に関して、重要なセキュリティ上の懸念を提起している。 フラッシュローンの出現により、これらのリスクはさらに増幅され、より複雑なオラクル操作攻撃が可能となり、財政的に大きな損失をもたらす可能性がある。 この脅威に対応して、我々はまず、PLFの標準的な運用モデルと敵モデルの形式化によって攻撃メカニズムを識別する。 そこで本研究では,オラクル操作を効果的に行うための,堅牢で実用的なソリューションであるSecPLFを提案する。 SecPLFは、最新の価格と前回のアップデートのタイムスタンプを含む、各暗号資産の価格状態を追跡することで動作する。 SecPLFは価格オラクルの使用に価格制約を課すことで、最後に記録された価格が定義された閾値に収まると、PLFが価格オラクルにのみ関与することを保証し、潜在的攻撃の利益性を否定する。 歴史的市場データに基づく評価では、価格差が小さいことから生じる仲裁攻撃に対して、SecPLFが高信頼の予防に有効であることが確認されている。 SecPLFは、オラクル操作攻撃に対する積極的な保護、実装の容易さ、オラクル非依存性、リソースとコスト効率を提供する。

The evolving landscape of Decentralized Finance (DeFi) has raised critical security concerns, especially pertaining to Protocols for Loanable Funds (PLFs) and their dependency on price oracles, which are susceptible to manipulation. The emergence of flash loans has further amplified these risks, enabling increasingly complex oracle manipulation attacks that can lead to significant financial losses. Responding to this threat, we first dissect the attack mechanism by formalizing the standard operational and adversary models for PLFs. Based on our analysis, we propose SecPLF, a robust and practical solution designed to counteract oracle manipulation attacks efficiently. SecPLF operates by tracking a price state for each crypto-asset, including the recent price and the timestamp of its last update. By imposing price constraints on the price oracle usage, SecPLF ensures a PLF only engages a price oracle if the last recorded price falls within a defined threshold, thereby negating the profitability of potential attacks. Our evaluation based on historical market data confirms SecPLF's efficacy in providing high-confidence prevention against arbitrage attacks that arise due to minor price differences. SecPLF delivers proactive protection against oracle manipulation attacks, offering ease of implementation, oracle-agnostic property, and resource and cost efficiency.
翻訳日:2024-03-25 12:27:42 公開日:2024-01-16
# 最新のGPUで一意化されたレジスタアクセスを爆発させる「Whispering Pixels」

Whispering Pixels: Exploiting Uninitialized Register Accesses in Modern GPUs ( http://arxiv.org/abs/2401.08881v1 )

ライセンス: Link先を確認
Frederik Dermot Pustelnik, Xhani Marvin Saß, Jean-Pierre Seifert, (参考訳) グラフィック処理ユニット(GPU)は、従来のレンダリンググラフィックスのユースケースを超越し、今日ではユビキタスで非グラフィックレンダリングタスクを加速するための強力なプラットフォームとしても機能している。 注目すべき課題のひとつは、音声、テキスト、画像などの膨大な個人情報を処理するニューラルネットワークの推論である。 これにより、GPUは膨大な量の潜在的機密データを処理するための重要なコンポーネントとなり、セキュリティ研究者の関心を喚起した。 近年、GPUに様々な脆弱性が発見されている。 我々は、シェーダ実行前に適切なレジスタ初期化ルーチンを欠いているGPU実装が、以前に実行されたシェーダカーネルの意図しないレジスタコンテンツリークにつながることを発見した。 上記の脆弱性が、Apple、NVIDIA、Qualcommの3つの主要ベンダーの製品に存在していることを示す。 この脆弱性は、GPUファームウェアに存在する不透明なスケジューリングとレジスタリマッピングアルゴリズムによって、漏洩したデータの再構築が複雑になるため、敵に固有の課題をもたらす。 この欠陥の現実的な影響を説明するために、GPU上のさまざまなワークロードを攻撃する上で、これらの課題をどのように解決できるかを説明します。 まず、初期化されていないレジスタがフラグメントシェーダーによって処理される任意のピクセルデータをリークする方法を示す。 さらに,畳み込みニューラルネットワーク(CNN)の中間データに対する情報漏洩攻撃を実装し,大規模言語モデル(LLM)の出力を漏洩・再構成する攻撃能力を示す。

Graphic Processing Units (GPUs) have transcended their traditional use-case of rendering graphics and nowadays also serve as a powerful platform for accelerating ubiquitous, non-graphical rendering tasks. One prominent task is inference of neural networks, which process vast amounts of personal data, such as audio, text or images. Thus, GPUs became integral components for handling vast amounts of potentially confidential data, which has awakened the interest of security researchers. This lead to the discovery of various vulnerabilities in GPUs in recent years. In this paper, we uncover yet another vulnerability class in GPUs: We found that some GPU implementations lack proper register initialization routines before shader execution, leading to unintended register content leakage of previously executed shader kernels. We showcase the existence of the aforementioned vulnerability on products of 3 major vendors - Apple, NVIDIA and Qualcomm. The vulnerability poses unique challenges to an adversary due to opaque scheduling and register remapping algorithms present in the GPU firmware, complicating the reconstruction of leaked data. In order to illustrate the real-world impact of this flaw, we showcase how these challenges can be solved for attacking various workloads on the GPU. First, we showcase how uninitialized registers leak arbitrary pixel data processed by fragment shaders. We further implement information leakage attacks on intermediate data of Convolutional Neural Networks (CNNs) and present the attack's capability to leak and reconstruct the output of Large Language Models (LLMs).
翻訳日:2024-03-25 12:27:42 公開日:2024-01-16
# 水に基づくメタヒューリスティックス:水力学がNPハード問題の解決にどのように役立つか

Water-Based Metaheuristics: How Water Dynamics Can Help Us to Solve NP-Hard Problems ( http://arxiv.org/abs/2403.12058v1 )

ライセンス: Link先を確認
Fernando Rubio, Ismael Rodríguez, (参考訳) 水に基づく最適化メタヒューリスティックは、組合せと連続最適化の両方のために、過去10年間に導入された。 これらの手法は、その基礎となる自然な比喩(多くは、何らかの方法で、どのようにして海に下る経路を共同で形成するかをエミュレートする)において、強い類似性にもかかわらず、一般的には、結果のアルゴリズムは、探索アプローチや解構築アプローチの点でかなり異なる。 例えば、各エンティティはそれ自体でソリューションを表現するか、あるいは移動しながらランドスケープを変更することでソリューションを構築することができる。 研究者や実践者は、2つの水系メタヒューリスティックの類似度が、それらがエミュレートする自然水力学の類似度に大きく依存していると仮定できるが、そうではない。 本稿では, メタヒューリスティックス(メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス, メタヒューリスティックス)のこのモザイックにいくつかの明確さをもたらすために, それらを紹介する。

Many water-based optimization metaheuristics have been introduced during the last decade, both for combinatorial and for continuous optimization. Despite the strong similarities of these methods in terms of their underlying natural metaphors (most of them emulate, in some way or another, how drops collaboratively form paths down to the sea), in general the resulting algorithms are quite different in terms of their searching approach or their solution construction approach. For instance, each entity may represent a solution by itself or, alternatively, entities may construct solutions by modifying the landscape while moving. A researcher or practitioner could assume that the degree of similarity between two water-based metaheuristics heavily depends on the similarity of the natural water mechanics they emulate, but this is not the case. In order to bring some clarity to this mosaic of apparently related metaheuristics, in this paper we introduce them, explain their mechanics, and highlight their differences.
翻訳日:2024-03-25 07:46:43 公開日:2024-01-16
# REACT:Intelligent Vehicleの自律的侵入応答システム

REACT: Autonomous Intrusion Response System for Intelligent Vehicles ( http://arxiv.org/abs/2401.04792v2 )

ライセンス: Link先を確認
Mohammad Hamad, Andreas Finkenzeller, Michael Kühr, Andrew Roberts, Olaf Maennel, Vassilis Prevelakis, Sebastian Steinhorst, (参考訳) 自動運転車とコネクテッドカーは急速に進化し、多くの技術とソフトウェアを統合している。 しかし、この進歩は、サイバーセキュリティ攻撃のターゲットをアピールさせた。 この進歩によってサイバー攻撃のリスクが増大する中、これらの攻撃を単に阻止することから、その影響を緩和することへと焦点が移っている。 現在のソリューションは車両のセキュリティ運用センターに依存しており、攻撃情報は応答戦略を決定する前に分析される。 しかし、このプロセスは時間がかかり、車両の接続性に起因する他の問題と同様にスケーラビリティの課題に直面します。 本稿では,車両内に組み込まれた動的侵入応答システムを提案する。 このシステムにより、車両は様々なインシデントにほぼ瞬時に応答できるため、車両セキュリティ操作センタとのインタラクションが不要になる。 システムには、潜在的な応答の包括的なリスト、応答評価のための方法論、および様々な応答選択方法が提供されている。 提案手法は組込みプラットフォーム上で実装された。 2つの異なるサイバー攻撃のユースケースがシステム評価の基礎となった。 この評価は、システムの適応性、迅速な応答能力、メモリフットプリントの最小化、動的システムのパラメータ調整の能力を強調している。 提案手法は, スマート車に動的応答機構を組み込むことの必要性と実現可能性を示すものである。 これは、将来のスマートモビリティの安全性とレジリエンスを確保する上で重要な要素である。

Autonomous and connected vehicles are rapidly evolving, integrating numerous technologies and software. This progress, however, has made them appealing targets for cybersecurity attacks. As the risk of cyber threats escalates with this advancement, the focus is shifting from solely preventing these attacks to also mitigating their impact. Current solutions rely on vehicle security operation centers, where attack information is analyzed before deciding on a response strategy. However, this process can be time-consuming and faces scalability challenges, along with other issues stemming from vehicle connectivity. This paper proposes a dynamic intrusion response system integrated within the vehicle. This system enables the vehicle to respond to a variety of incidents almost instantly, thereby reducing the need for interaction with the vehicle security operation center. The system offers a comprehensive list of potential responses, a methodology for response evaluation, and various response selection methods. The proposed solution was implemented on an embedded platform. Two distinct cyberattack use cases served as the basis for evaluating the system. The evaluation highlights the system's adaptability, its ability to respond swiftly, its minimal memory footprint, and its capacity for dynamic system parameter adjustments. The proposed solution underscores the necessity and feasibility of incorporating dynamic response mechanisms in smart vehicles. This is a crucial factor in ensuring the safety and resilience of future smart mobility.
翻訳日:2024-03-18 08:46:40 公開日:2024-01-16
# マイクログラム $\mathrm{BaCl}_2$ Ablation Targets for Trapped Ion Experiments

Microgram $\mathrm{BaCl}_2$ Ablation Targets for Trapped Ion Experiments ( http://arxiv.org/abs/2402.06632v1 )

ライセンス: Link先を確認
Noah Greenberg, Akbar Jahangiri Jozani, Collin J.C. Epstein, Xinghe Tan, Rajibul Islam, and Crystal Senko(参考訳) 量子情報処理のためのトラップイオンは、実験的に報告された超高忠実度演算のために、激しい研究領域となっている。 具体的には、バリウムトラップイオンは、例外的な状態準備と測定(SPAM)フィポリティを有することが示されている。 特に、$^{133}\mathrm{Ba}^+$(I = 1/2$)同位体は、大規模量子コンピューティング実験において有望な候補である。 しかし、この同位体の主な落とし穴は放射性であり、安全規制を満たすために一般的にマイクログラム量で使用されることである。 捕獲イオン実験に使用するマイクログラム塩化バリウム(\mathrm{bacl}_2$)アブレーションターゲットの作成法と従来の方法との比較を行った。 本稿では,バリウムイオンの同位体選択負荷のための中性原子生成を増加させるアブレーションターゲット作成のための2つのレシピについて概説する。 アブレーションターゲットの熱処理は中性原子を生成可能な一貫性を大幅に向上させ,エネルギー分散X線分光法(EDS)や中性蛍光回収法などのトラップ非依存技術を用いて,これらのターゲットの均一性を特徴付ける。 創製技術と一貫した中性蛍光路の実証との比較は、表面トラップにおける$^{133}\mathrm{Ba}^+$の信頼性負荷への道を開き、この同位体を用いたスケーラブルな量子コンピューティングの機会を開く。

Trapped ions for quantum information processing has been an area of intense study due to the extraordinarily high fidelity operations that have been reported experimentally. Specifically, barium trapped ions have been shown to have exceptional state-preparation and measurement (SPAM) fidelities. The $^{133}\mathrm{Ba}^+$ ($I = 1/2$) isotope in particular is a promising candidate for large-scale quantum computing experiments. However, a major pitfall with this isotope is that it is radioactive and is thus generally used in microgram quantities to satisfy safety regulations. We describe a new method for creating microgram barium chloride ($\mathrm{BaCl}_2$) ablation targets for use in trapped ion experiments and compare our procedure to previous methods. We outline two recipes for fabrication of ablation targets that increase the production of neutral atoms for isotope-selective loading of barium ions. We show that heat-treatment of the ablation targets greatly increases the consistency at which neutral atoms can be produced and we characterize the uniformity of these targets using trap-independent techniques such as energy dispersive x-ray spectroscopy (EDS) and neutral fluorescence collection. Our comparison between fabrication techniques and demonstration of consistent neutral fluorescence paves a path towards reliable loading of $^{133}\mathrm{Ba}^+$ in surface traps and opens opportunities for scalable quantum computing with this isotope.
翻訳日:2024-02-18 14:08:35 公開日:2024-01-16
# 高不均衡産業データに基づく診断用コスト感応変換器モデル

A Cost-Sensitive Transformer Model for Prognostics Under Highly Imbalanced Industrial Data ( http://arxiv.org/abs/2402.08611v1 )

ライセンス: Link先を確認
Ali Beikmohammadi, Mohammad Hosein Hamian, Neda Khoeyniha, Tony Lindgren, Olof Steinert, and Sindri Magn\'usson(参考訳) 産業分野へのデータ駆動モデルの急速な流入は、センサー技術の普及によって促進され、膨大な量のデータの収集が可能になった。 しかしながら、これらのモデルを障害検出や予後に活用することは、値の欠如やクラス不均衡など、重大な課題をもたらす。 さらに、工業運転に伴うコストの感度は、この文脈で従来のモデルの適用をさらに複雑にする。 本稿では,ハイブリッドリサンプラーと回帰型インデューサを統合した,システムワークフローの一部として開発された新しいコスト感受性トランスモデルを提案する。 Scania trucks と SECOM の APS 障害データセットを用いた厳密なテストにアプローチした結果,最先端の手法と比較して性能が大幅に向上した。 さらに,提案手法における異なる成分の寄与を分析するため,アブレーション研究を行った。 本研究は,産業現場における故障予測のユニークな課題に対処し,産業運用における信頼性と効率の向上に寄与する可能性を示す。

The rapid influx of data-driven models into the industrial sector has been facilitated by the proliferation of sensor technology, enabling the collection of vast quantities of data. However, leveraging these models for failure detection and prognosis poses significant challenges, including issues like missing values and class imbalances. Moreover, the cost sensitivity associated with industrial operations further complicates the application of conventional models in this context. This paper introduces a novel cost-sensitive transformer model developed as part of a systematic workflow, which also integrates a hybrid resampler and a regression-based imputer. After subjecting our approach to rigorous testing using the APS failure dataset from Scania trucks and the SECOM dataset, we observed a substantial enhancement in performance compared to state-of-the-art methods. Moreover, we conduct an ablation study to analyze the contributions of different components in our proposed method. Our findings highlight the potential of our method in addressing the unique challenges of failure prediction in industrial settings, thereby contributing to enhanced reliability and efficiency in industrial operations.
翻訳日:2024-02-18 13:13:21 公開日:2024-01-16
# 新興技術採用の可能性を追跡するスケーラブルで自動化されたフレームワーク

A Scalable and Automated Framework for Tracking the likely Adoption of Emerging Technologies ( http://arxiv.org/abs/2402.01670v1 )

ライセンス: Link先を確認
Lowri Williams, Eirini Anthi, Pete Burnap(参考訳) 新しい技術は、私たちの日常生活の効率性と実践を改善する上で革新的かつゲームチェンジャーになることが期待されているが、導入者が直面する障壁や機会を調査し理解することが重要である。 このような発見は、特定の場所で新興技術を採用するリスク、コスト、利益を分析する際に、意思決定プロセスに付加的な機能として役立ちます。 このような調査を試みている研究はいくつかあるが、これらのアプローチでは質的データ収集手法を採用しており、対象グループのサイズに制限があり、結果の書き起こしや推測において大きなオーバーヘッドを伴っている。 本稿では,新しい技術の採用や拒絶の可能性を追及するための,スケーラブルで自動化されたフレームワークを提案する。 特に新興技術への言及を含むソーシャルメディアテキストの大規模なコーパスが編纂された。 テキストマイニング技術は、技術面で表現された感情を抽出するために応用された。 ここでは、問題定義の文脈において、肯定的な感情表現は、テクノロジー利用者の採用、統合、および/または使用に対する受容に影響を与える可能性の増加を推測し、ネガティブな感情は、導入者による新興技術の拒絶に影響を及ぼす可能性の増大を推測する。 この仮説を定量的に検証するために,テキストマイニングアプローチによって得られた感情が,これらのテキストが新興技術の採用に肯定的あるいは否定的に影響を与えるか否かをラベル付けした際に,人間の注釈者によって与えられた結果に匹敵するものであることを検証するために,根拠真理分析を行った。

While new technologies are expected to revolutionise and become game-changers in improving the efficiencies and practises of our daily lives, it is also critical to investigate and understand the barriers and opportunities faced by their adopters. Such findings can serve as an additional feature in the decision-making process when analysing the risks, costs, and benefits of adopting an emerging technology in a particular setting. Although several studies have attempted to perform such investigations, these approaches adopt a qualitative data collection methodology which is limited in terms of the size of the targeted participant group and is associated with a significant manual overhead when transcribing and inferring results. This paper presents a scalable and automated framework for tracking likely adoption and/or rejection of new technologies from a large landscape of adopters. In particular, a large corpus of social media texts containing references to emerging technologies was compiled. Text mining techniques were applied to extract sentiments expressed towards technology aspects. In the context of the problem definition herein, we hypothesise that the expression of positive sentiment infers an increase in the likelihood of impacting a technology user's acceptance to adopt, integrate, and/or use the technology, and negative sentiment infers an increase in the likelihood of impacting the rejection of emerging technologies by adopters. To quantitatively test our hypothesis, a ground truth analysis was performed to validate that the sentiment captured by the text mining approach is comparable to the results given by human annotators when asked to label whether such texts positively or negatively impact their outlook towards adopting an emerging technology.
翻訳日:2024-02-11 17:05:21 公開日:2024-01-16
# 知能学習システムの性能向上とモチベーション:機械学習と学習者の選択を組み合わせる

Improved Performances and Motivation in Intelligent Tutoring Systems: Combining Machine Learning and Learner Choice ( http://arxiv.org/abs/2402.01669v1 )

ライセンス: Link先を確認
Benjamin Cl\'ement (1 adn 3), H\'el\`ene Sauz\'eon (1 and 2), Didier Roy (1), Pierre-Yves Oudeyer (1) ((1) Inria FLOWERS team Talence France, (2) Universit\'e de Bordeaux BPH lab Bordeaux France, (3) EvidenceB Paris France)(参考訳) 大規模なクラス規模は、教育技術、特に知的家庭教師システム(ITS)が目指す学校におけるパーソナライズされた学習に挑戦する。 この文脈において、ZPDESアルゴリズムは、学習進歩(LPH)とマルチアームバンディット機械学習技術に基づいて、学習進歩(LP)を最大化するシーケンス演習を行う。 このアルゴリズムは、手作りのカリキュラムと比較して、より幅広い生徒の学習性能を高めるために、フィールドスタディで示されている。 しかし、その動機的な影響は評価されなかった。 また、ZPDESは生徒に選択の表現を許さなかった。 エージェンシーにおけるこの制限は、好奇心駆動学習のモデリングに関するlph理論と相反する。 このような選択の可能性の導入が学習効率とモチベーションの両方に与える影響について検討する。 与えられた選択は、困難をエクササイズするために直交する次元に関係し、遊び心のある特徴として機能する。 広範なフィールドスタディ (265, 7-8歳, rct設計) において, zpdesに基づくシステムと, 自己完結の有無に関わらず手作りのカリキュラムを比較検討した。 まず,ZPDESが学習性能を向上し,積極的でモチベーションの高い学習体験を生み出すことを示す。 次に,選択の付加が本質的動機づけを引き起こし,lpベースパーソナライゼーションの学習効果を高めることを示す。 これにより本質的なモチベーションと本質的なゲームにおけるパフォーマンス向上との関係が強化される。 逆に、手書き線形パスに対して遊び心のある特徴の有害な効果が観察される。 したがって、カリキュラムのパーソナライゼーションが学習者に有効である場合に限り、遊び心のある特徴によって引き起こされる本質的な動機付けが有益である。 このような結果は、非適応型教育技術における遊び心のある特徴の利用の増加によって大きな注目を集める。

Large class sizes pose challenges to personalized learning in schools, which educational technologies, especially intelligent tutoring systems (ITS), aim to address. In this context, the ZPDES algorithm, based on the Learning Progress Hypothesis (LPH) and multi-armed bandit machine learning techniques, sequences exercises that maximize learning progress (LP). This algorithm was previously shown in field studies to boost learning performances for a wider diversity of students compared to a hand-designed curriculum. However, its motivational impact was not assessed. Also, ZPDES did not allow students to express choices. This limitation in agency is at odds with the LPH theory concerned with modeling curiosity-driven learning. We here study how the introduction of such choice possibilities impact both learning efficiency and motivation. The given choice concerns dimensions that are orthogonal to exercise difficulty, acting as a playful feature. In an extensive field study (265 7-8 years old children, RCT design), we compare systems based either on ZPDES or a hand-designed curriculum, both with and without self-choice. We first show that ZPDES improves learning performance and produces a positive and motivating learning experience. We then show that the addition of choice triggers intrinsic motivation and reinforces the learning effectiveness of the LP-based personalization. In doing so, it strengthens the links between intrinsic motivation and performance progress during the serious game. Conversely, deleterious effects of the playful feature are observed for hand-designed linear paths. Thus, the intrinsic motivation elicited by a playful feature is beneficial only if the curriculum personalization is effective for the learner. Such a result deserves great attention due to increased use of playful features in non adaptive educational technologies.
翻訳日:2024-02-11 17:04:54 公開日:2024-01-16
# CNN-DRLと金融のシャッフル機能

CNN-DRL with Shuffled Features in Finance ( http://arxiv.org/abs/2402.03338v1 )

ライセンス: Link先を確認
Sina Montazeri, Akram Mirzaeinia, Amir Mirzaeinia(参考訳) 従来の手法では、深層強化学習における畳み込みニューラルネットワークエージェントの適用により、報酬が増大することが観察された。 本研究では,特徴ベクトルに特定の置換を適用し,CNN行列を生成し,より近い位置でより関連する特徴を戦略的に配置する。 包括的実験による評価は、報酬達成の大幅な向上を示すものである。

In prior methods, it was observed that the application of Convolutional Neural Networks agent in Deep Reinforcement Learning to financial data resulted in an enhanced reward. In this study, a specific permutation was applied to the feature vector, thereby generating a CNN matrix that strategically positions more pertinent features in close proximity. Our comprehensive experimental evaluations unequivocally demonstrate a substantial enhancement in reward attainment.
翻訳日:2024-02-11 15:37:18 公開日:2024-01-16
# 強化学習型ロボットヨット : シミュレータと予備結果

Reinforcement-learning robotic sailboats: simulator and preliminary results ( http://arxiv.org/abs/2402.03337v1 )

ライセンス: Link先を確認
Eduardo Charles Vasconcellos (UFF), Ronald M Sampaio, Andr\'e P D Ara\'ujo (UFF), Esteban Walter Gonzales Clua, Philippe Preux (SEQUEL, GRAppA - LIFL), Raphael Guerra, Luiz M G Gon\c{c}alves (UFRN), Luis Mart\'i, Hernan Lira, Nayat Sanchez-Pi(参考訳) この研究は、無人表面車両(USV)デジタルツインを用いた実実験を再現する仮想海洋環境の開発における主な課題と課題に焦点を当てる。 本稿では,自律的なナビゲーションと制御のための強化学習(rl)エージェントを用いた仮想世界構築のための重要な機能を紹介する。 このことを念頭に置いて、主な問題はシミュレーション方程式(物理学と数学)の定義、それらの効果的な実装、rlで使用するシミュレーション制御および知覚(センサー)の戦略などである。 本稿では,実際のロボット帆走船に基づく機能的デジタル双生児の作成に必要なモデリング,実装手順,課題について述べる。 このアプリケーションは、実船に適用するRLに基づくナビゲーションアルゴリズムの開発に即時対応している。

This work focuses on the main challenges and problems in developing a virtual oceanic environment reproducing real experiments using Unmanned Surface Vehicles (USV) digital twins. We introduce the key features for building virtual worlds, considering using Reinforcement Learning (RL) agents for autonomous navigation and control. With this in mind, the main problems concern the definition of the simulation equations (physics and mathematics), their effective implementation, and how to include strategies for simulated control and perception (sensors) to be used with RL. We present the modeling, implementation steps, and challenges required to create a functional digital twin based on a real robotic sailing vessel. The application is immediate for developing navigation algorithms based on RL to be applied on real boats.
翻訳日:2024-02-11 15:37:10 公開日:2024-01-16
# イオン電荷初期化を用いたオープンソースフェルミオンニューラルネットワーク

Open-Source Fermionic Neural Networks with Ionic Charge Initialization ( http://arxiv.org/abs/2401.10287v1 )

ライセンス: Link先を確認
Shai Pranesh, Shang Zhu, Venkat Viswanathan, Bharath Ramsundar(参考訳) 電子シュリンガー方程式の正確な解を見つけることは重要な分子エネルギーと物質エネルギーと特性を発見する上で重要な役割を果たす。 その結果、多数の電子を持つシステムを解くことがますます重要になっている。 変分モンテカルロ法(VMC)、特にディープニューラルネットワークで近似した手法は、この点において有望である。 本稿では,HF後のDeep Neural Network(DNN)モデルであるFermiNetを,標準かつ広く使用されているオープンソースライブラリであるDeepChemに統合することを目的とする。 また,イオンの過剰な電子の割り当てや電子の欠如に伴う困難を克服するための新しい初期化手法を提案する。

Finding accurate solutions to the electronic Schr\"odinger equation plays an important role in discovering important molecular and material energies and characteristics. Consequently, solving systems with large numbers of electrons has become increasingly important. Variational Monte Carlo (VMC) methods, especially those approximated through deep neural networks, are promising in this regard. In this paper, we aim to integrate one such model called the FermiNet, a post-Hartree-Fock (HF) Deep Neural Network (DNN) model, into a standard and widely used open source library, DeepChem. We also propose novel initialization techniques to overcome the difficulties associated with the assignment of excess or lack of electrons for ions.
翻訳日:2024-01-28 16:23:10 公開日:2024-01-16
# 暗号通貨の逆転予測

Forecasting Cryptocurrency Staking Rewards ( http://arxiv.org/abs/2401.10931v1 )

ライセンス: Link先を確認
Sauren Gupta, Apoorva Hathi Katharaki, Yifan Xu, Bhaskar Krishnamachari, Rajarshi Gupta(参考訳) この研究は、暗号通貨の購入報酬を予測する比較的未開拓領域を探索し、研究者や投資家に潜在的な洞察を提供する。 2つの予測手法を調べました a) 素直な滑空風平均, および b) 履歴データに基づく線形回帰モデル その結果,1日平均と7日平均の平均値の0.7%と1.1%以内のRMSEでETH摂取報酬を予測できることが判明した。 さらに、SOL、XTZ、ATOM、MATICなど、さまざまな暗号通貨の様々な予測精度を識別する。 線形回帰は,XTZとATOMの短期的な予測において,移動ウィンドウ平均よりも優れていた。 結果は、ほとんどの資産に対して、概して安定かつ予測可能な報酬の獲得性を強調し、MATICは注目すべき例外を提示した。

This research explores a relatively unexplored area of predicting cryptocurrency staking rewards, offering potential insights to researchers and investors. We investigate two predictive methodologies: a) a straightforward sliding-window average, and b) linear regression models predicated on historical data. The findings reveal that ETH staking rewards can be forecasted with an RMSE within 0.7% and 1.1% of the mean value for 1-day and 7-day look-aheads respectively, using a 7-day sliding-window average approach. Additionally, we discern diverse prediction accuracies across various cryptocurrencies, including SOL, XTZ, ATOM, and MATIC. Linear regression is identified as superior to the moving-window average for perdicting in the short term for XTZ and ATOM. The results underscore the generally stable and predictable nature of staking rewards for most assets, with MATIC presenting a noteworthy exception.
翻訳日:2024-01-28 15:55:26 公開日:2024-01-16
# 半定義型プログラミングによる集団クラスタリングのデバイアスと局所解析

Debiasing and a local analysis for population clustering using semidefinite programming ( http://arxiv.org/abs/2401.10927v1 )

ライセンス: Link先を確認
Shuheng Zhou(参考訳) 本稿では,2ドルのサブガウス分布の混合分布から抽出したサイズ$n$の小さなデータサンプルを分割する問題を考える。 特に,同一著者が提案する計算効率のよいアルゴリズムを解析し,サンプルが与えられた場合の原産地人口にほぼ比例してデータを2つのグループに分割する。 この研究は、これらの2つの集団間のばらつきが小さいときに、$p$マーカーを使用して、起源の個体数に応じてクラスタリングする個人の応用によって動機付けられている。 我々は、本質的にグラフ上の最大カットを求めるものとして定式化された整数二次プログラムの半定緩和の上に構築し、カットのエッジウェイトは、それらの$p$の特徴に基づいて2つのノード間の相似性スコアを表す。 ここで、$\delta^2 :=p \gamma$を用いて、2つの中心(平均ベクトル)の間の$\ell_2^2$の距離、すなわち$\mu^{(1)}$、$\mu^{(2)}$ $\in$ $$$\mathbb{r}^p$を表す。 目的は、信号からノイズ比が$s^2 := \min\{np \gamma^2, \Delta^2\}$が定数で下限となると、部分回復(success rate $<100\%$)が実現可能であるという意味で、$n, p, \gamma$間の完全なトレードオフを許容することである。 重要なことは、SNR$s^2$に対して誤分類誤差が指数関数的に崩壊することを証明する。 この結果は、完全な証明なしで早く導入された。 したがって、本研究の完全な証明を提示する。 最後に、バランスの取れた分割に対して、SDP1の変種を考えると、新しい推定器がスーパーブデバイアス特性を持つことを示す。 これは私たちの知る限りでは新鮮だ。

In this paper, we consider the problem of partitioning a small data sample of size $n$ drawn from a mixture of $2$ sub-gaussian distributions. In particular, we analyze computational efficient algorithms proposed by the same author, to partition data into two groups approximately according to their population of origin given a small sample. This work is motivated by the application of clustering individuals according to their population of origin using $p$ markers, when the divergence between any two of the populations is small. We build upon the semidefinite relaxation of an integer quadratic program that is formulated essentially as finding the maximum cut on a graph, where edge weights in the cut represent dissimilarity scores between two nodes based on their $p$ features. Here we use $\Delta^2 :=p \gamma$ to denote the $\ell_2^2$ distance between two centers (mean vectors), namely, $\mu^{(1)}$, $\mu^{(2)}$ $\in$ $\mathbb{R}^p$. The goal is to allow a full range of tradeoffs between $n, p, \gamma$ in the sense that partial recovery (success rate $< 100\%$) is feasible once the signal to noise ratio $s^2 := \min\{np \gamma^2, \Delta^2\}$ is lower bounded by a constant. Importantly, we prove that the misclassification error decays exponentially with respect to the SNR $s^2$. This result was introduced earlier without a full proof. We therefore present the full proof in the present work. Finally, for balanced partitions, we consider a variant of the SDP1, and show that the new estimator has a superb debiasing property. This is novel to the best of our knowledge.
翻訳日:2024-01-28 15:55:12 公開日:2024-01-16
# トピックモデリング:トークン出力を超える

Topic Modelling: Going Beyond Token Outputs ( http://arxiv.org/abs/2401.12990v1 )

ライセンス: Link先を確認
Lowri Williams, Eirini Anthi, Laura Arman, Pete Burnap(参考訳) トピックモデリングは、多くの文書から有能なテーマを特定するためのテキストマイニング技術である。 出力は通常、そのような文書でしばしば共起する孤立トークンからなるトピックの集合である。 手作業はしばしば、そのようなトークンからトピックの記述を解釈する。 しかし、人間の視点では、そのような出力はトピックの意味を推測するのに十分な情報を提供していないため、その解釈可能性はしばしば不正確である。 トピックモデルの解釈を強化する手段として、トピック記述を自動的に拡張しようとする研究がいくつかあるが、それらは利用不能になりうる外部言語ソースに依存し、関連する結果を生成するために最新に保たなければならない。 本稿では,従来のトピックモデリング手法の出力を,分離トークンのリストを超えて拡張する新しいアプローチを提案する。 このアプローチでは、テキストデータ自体を使用することで、外部ソースへの依存を取り除き、ハイスケーシングキーワードを抽出し、トピックモデルのトークン出力にマッピングする。 従来のトピックモデリング手法と比較して,提案する出力の解釈可能性を測定するために,アノテーションタスクの効率や品質や有用性に基づいて,各出力を手動でスコア付けした。 提案手法は,従来のトピックモデリング手法と比較して,高い品質と有用性,およびアノテーションタスクの高効率性を実証し,解釈可能性の向上を示した。

Topic modelling is a text mining technique for identifying salient themes from a number of documents. The output is commonly a set of topics consisting of isolated tokens that often co-occur in such documents. Manual effort is often associated with interpreting a topic's description from such tokens. However, from a human's perspective, such outputs may not adequately provide enough information to infer the meaning of the topics; thus, their interpretability is often inaccurately understood. Although several studies have attempted to automatically extend topic descriptions as a means of enhancing the interpretation of topic models, they rely on external language sources that may become unavailable, must be kept up-to-date to generate relevant results, and present privacy issues when training on or processing data. This paper presents a novel approach towards extending the output of traditional topic modelling methods beyond a list of isolated tokens. This approach removes the dependence on external sources by using the textual data itself by extracting high-scoring keywords and mapping them to the topic model's token outputs. To measure the interpretability of the proposed outputs against those of the traditional topic modelling approach, independent annotators manually scored each output based on their quality and usefulness, as well as the efficiency of the annotation task. The proposed approach demonstrated higher quality and usefulness, as well as higher efficiency in the annotation task, in comparison to the outputs of a traditional topic modelling method, demonstrating an increase in their interpretability.
翻訳日:2024-01-28 15:30:14 公開日:2024-01-16
# 銃乱射事件:銃暴力報告のクラウドソーシングにおける言語モデルの利用評価

Into the crossfire: evaluating the use of a language model to crowdsource gun violence reports ( http://arxiv.org/abs/2401.12989v1 )

ライセンス: Link先を確認
Adriano Belisario, Scott Hale, Luc Rocher(参考訳) 銃暴力は、医療、教育、心理学、経済など、社会構造のほぼすべての側面に影響を及ぼす、迫り強く成長する人権問題である。 銃器事件に関する信頼性の高いデータは、より効果的な公共政策と緊急対応を開発する上で重要である。 しかし、包括的データベースの欠如と個人調査のリスクは、人権団体が多くの国で必要なデータを集めることを妨げている。 ここでは、ブラジルの人権団体と提携し、ソーシャルメディアデータから実世界の銃器イベントを監視するために、言語モデルの体系的な評価を行う。 我々は、Twitter(現在のX)テキストで訓練された細調整BERTベースのモデルを提案し、通常のポルトガルのテキストと銃暴力レポートを区別する。 その結果,AUCスコアは0.97。 次に、モデルをWebアプリケーションに組み込んで、ライブの介入でテストします。 我々は、新しい銃暴力事件を特定するために、ソーシャルメディアのテキストを継続的に事実チェックするブラジルのアナリストを調査し、インタビューする。 質的な評価は、我々のソリューションが全てのアナリストがより効率的に時間を使い、検索能力を拡張するのに役立ったことを示している。 定量的評価の結果,本モデルの利用は,銃による暴力を報告するオンラインユーザとのより多くのアナリストのインタラクションと関連していることが示唆された。 その結果,現代自然言語処理技術は人権団体の業務を支援することができることが示唆された。

Gun violence is a pressing and growing human rights issue that affects nearly every dimension of the social fabric, from healthcare and education to psychology and the economy. Reliable data on firearm events is paramount to developing more effective public policy and emergency responses. However, the lack of comprehensive databases and the risks of in-person surveys prevent human rights organizations from collecting needed data in most countries. Here, we partner with a Brazilian human rights organization to conduct a systematic evaluation of language models to assist with monitoring real-world firearm events from social media data. We propose a fine-tuned BERT-based model trained on Twitter (now X) texts to distinguish gun violence reports from ordinary Portuguese texts. Our model achieves a high AUC score of 0.97. We then incorporate our model into a web application and test it in a live intervention. We study and interview Brazilian analysts who continuously fact-check social media texts to identify new gun violence events. Qualitative assessments show that our solution helped all analysts use their time more efficiently and expanded their search capacities. Quantitative assessments show that the use of our model was associated with more analysts' interactions with online users reporting gun violence. Taken together, our findings suggest that modern Natural Language Processing techniques can help support the work of human rights organizations.
翻訳日:2024-01-28 15:29:48 公開日:2024-01-16
# 慢性疾患管理のためのFew-Shot Learning:医療知識注入による大規模言語モデルとマルチプロンプト工学の活用

Few-Shot Learning for Chronic Disease Management: Leveraging Large Language Models and Multi-Prompt Engineering with Medical Knowledge Injection ( http://arxiv.org/abs/2401.12988v1 )

ライセンス: Link先を確認
Haoxin Liu, Wenli Zhang, Jiaheng Xie, Buomsoo Kim, Zhu Zhang, Yidong Chai(参考訳) 本研究は,慢性疾患管理のための最先端AI技術,特にユーザ生成テキストコンテンツによる種々の精神疾患の検出に活用する。 既存の研究は通常、完全に監督された機械学習に頼り、各疾患の広範なトレーニングデータを注釈する労働集約的な手動プロセスや、各問題のための専門的なディープラーニングアーキテクチャを設計する必要性など、課題を提示している。 このような課題に対処するために、大規模言語モデルやマルチプロンプトエンジニアリングを含む高度なAI技術を活用する新しいフレームワークを提案する。 具体的には,データ駆動型慢性疾患管理における技術的課題として,(1)各ユーザの独特さを表わすパーソナライズドプロンプトの開発,(2)慢性疾患検出のコンテキスト提供,学習目標の指導,予測目標の運用化という2つの課題に対処した。 本手法は,世界中で流行している慢性疾患である4つの精神疾患を研究事例として評価する。 抑うつ検出タスクでは,本手法は特徴工学(F1 = 0.760)やアーキテクチャ工学(F1 = 0.756)など,従来の教師あり学習パラダイムよりも優れていた。 一方,本手法は,ユーザ生成したテキストコンテンツ(約2,10名,約100名)に基づいて慢性疾患を検出するために,最小限のトレーニング例しか必要としないという,数ショット学習の成功を実証する。 さらに、この方法は食欲不振、病的ギャンブル、自傷など他の精神障害検出タスクに一般化することができる(f1 = 0.919~0.978)。

This study harnesses state-of-the-art AI technology for chronic disease management, specifically in detecting various mental disorders through user-generated textual content. Existing studies typically rely on fully supervised machine learning, which presents challenges such as the labor-intensive manual process of annotating extensive training data for each disease and the need to design specialized deep learning architectures for each problem. To address such challenges, we propose a novel framework that leverages advanced AI techniques, including large language models and multi-prompt engineering. Specifically, we address two key technical challenges in data-driven chronic disease management: (1) developing personalized prompts to represent each user's uniqueness and (2) incorporating medical knowledge into prompts to provide context for chronic disease detection, instruct learning objectives, and operationalize prediction goals. We evaluate our method using four mental disorders, which are prevalent chronic diseases worldwide, as research cases. On the depression detection task, our method (F1 = 0.975~0.978) significantly outperforms traditional supervised learning paradigms, including feature engineering (F1 = 0.760) and architecture engineering (F1 = 0.756). Meanwhile, our approach demonstrates success in few-shot learning, i.e., requiring only a minimal number of training examples to detect chronic diseases based on user-generated textual content (i.e., only 2, 10, or 100 subjects). Moreover, our method can be generalized to other mental disorder detection tasks, including anorexia, pathological gambling, and self-harm (F1 = 0.919~0.978).
翻訳日:2024-01-28 15:29:26 公開日:2024-01-16
# telme: 会話における感情認識のための教師主導マルチモーダル融合ネットワーク

TelME: Teacher-leading Multimodal Fusion Network for Emotion Recognition in Conversation ( http://arxiv.org/abs/2401.12987v1 )

ライセンス: Link先を確認
Taeyang Yun, Hyunkuk Lim, Jeonghwan Lee, Min Song(参考訳) 会話における感情認識(erc)は,対話システムがユーザの要求に効果的に対応できるようにする上で重要な役割を担っている。 会話中の感情は、音声、視覚、テキストといった様々なモダリティの表現によって識別することができる。 しかし、感情を認識するための非言語的モダリティの弱い貢献により、マルチモーダルERCは常に困難な課題とみなされてきた。 本稿では,ERC(TelME)のための教師主導型マルチモーダル核融合ネットワークを提案する。 TelMEはクロスモーダルな知識蒸留を取り入れ、教師として働く言語モデルから非言語学生に情報を伝達し、弱いモダリティの有効性を最適化する。 次に,学生ネットワークが教師を支援するシフト型融合アプローチを用いて,マルチモーダル機能を組み合わせる。 TelMEは、ERCのためのマルチ話者会話データセットであるMELDで最先端のパフォーマンスを達成する。 最後に、追加実験により、コンポーネントの有効性を実証する。

Emotion Recognition in Conversation (ERC) plays a crucial role in enabling dialogue systems to effectively respond to user requests. The emotions in a conversation can be identified by the representations from various modalities, such as audio, visual, and text. However, due to the weak contribution of non-verbal modalities to recognize emotions, multimodal ERC has always been considered a challenging task. In this paper, we propose Teacher-leading Multimodal fusion network for ERC (TelME). TelME incorporates cross-modal knowledge distillation to transfer information from a language model acting as the teacher to the non-verbal students, thereby optimizing the efficacy of the weak modalities. We then combine multimodal features using a shifting fusion approach in which student networks support the teacher. TelME achieves state-of-the-art performance in MELD, a multi-speaker conversation dataset for ERC. Finally, we demonstrate the effectiveness of our components through additional experiments.
翻訳日:2024-01-28 15:28:52 公開日:2024-01-16
# クラウドソーシングによるAdaptive Surveys

Crowdsourced Adaptive Surveys ( http://arxiv.org/abs/2401.12986v1 )

ライセンス: Link先を確認
Yamil Velez(参考訳) 世論調査は民主的な意思決定に欠かせないが、急速に変化する情報環境への対応やニッチなコミュニティにおける信念の測定は、従来の調査手法では困難である。 本稿では,自然言語処理と適応アルゴリズムの進歩を統合し,ユーザ入力で進化する質問バンクを生成するクラウドソーシング適応調査手法(csas)を提案する。 CSAS法では,参加者が提供したオープンエンドテキストをLikertスタイルの項目に変換し,マルチアームバンディットアルゴリズムを適用して,調査で優先すべきユーザの質問を決定する。 この手法の適応性は、調査期間の最小コストを課しながら、新たな調査質問の探索を可能にする。 ラテン系情報環境の領域での応用と問題の重要性は、CSASが標準的アプローチで追跡するのが困難である主張や問題を特定する能力を示している。 参加者生成コンテンツが世論の理解を深める可能性のあるトピックを研究するための手法の可能性について論じる。

Public opinion surveys are vital for informing democratic decision-making, but responding to rapidly changing information environments and measuring beliefs within niche communities can be challenging for traditional survey methods. This paper introduces a crowdsourced adaptive survey methodology (CSAS) that unites advances in natural language processing and adaptive algorithms to generate question banks that evolve with user input. The CSAS method converts open-ended text provided by participants into Likert-style items and applies a multi-armed bandit algorithm to determine user-provided questions that should be prioritized in the survey. The method's adaptive nature allows for the exploration of new survey questions, while imposing minimal costs in survey length. Applications in the domains of Latino information environments and issue importance showcase CSAS's ability to identify claims or issues that might otherwise be difficult to track using standard approaches. I conclude by discussing the method's potential for studying topics where participant-generated content might improve our understanding of public opinion.
翻訳日:2024-01-28 15:28:36 公開日:2024-01-16
# 分子酸素イオン中の振動オーバートン遷移の精密量子論理分光法の展望

Prospect for precision quantum logic spectroscopy of vibrational overtone transitions in molecular oxygen ions ( http://arxiv.org/abs/2002.05584v2 )

ライセンス: Link先を確認
Fabian Wolf, Jan C. Heip, Maximilian J. Zawierucha, Chunyan Shi, Silke Ospelkaus and Piet O. Schmidt(参考訳) 精密分光法は、我々の物理理解の進歩の原動力であり、新しい物理学の研究のための有望なツールである。 分子は、原子システムでは不可能なテストを可能にする遷移を提供する。 しかし、状態準備と状態検出のためのサイクル遷移が欠如しているため、分子の通常精密分光は困難である。 分子イオンでは、量子論理分光法によってこの障害を克服することができ、状態の合成と検出のための散逸は、運動の共有固有状態を利用する共トラップ原子イオンによって与えられる。 本稿では,分子酸素イオンの完全な量子論理分光法を提案し,量子論理支援状態検出と準備の可能性について理論的に検討する。 さらに,陽子対電子質量比の変動の可能性について,感度の高い遷移として機能する振動オーバートン遷移の単光子四極子直接励起の結合速度を提供する。

Precision spectroscopy has been the driving force for progress of our physical understanding and still is a promising tool for the investigation of new physics. Molecules offer transitions which allow tests that are not possible in atomic systems. However, usually precision spectroscopy of molecules is challenging due to the lack of cycling transitions for state preparation and state detection. For molecular ions, this obstacle can be overcome by quantum logic spectroscopy, where dissipation for state preparation and detection is provided by a co-trapped atomic ion exploiting the shared eigenstates of motion. Here, we propose a full quantum logic spectroscopy scheme for molecular oxygen ions and theoretically investigate the feasibility of quantum logic assisted state detection and preparation. Furthermore, we provide coupling rates for a direct single-photon quadrupole excitation of a vibrational overtone transition that can serve as a sensitive transition for tests of a possible variation of the proton-to-electron mass ratio.
翻訳日:2024-01-19 21:14:30 公開日:2024-01-16
# PUPAE: 時系列異常に対する直感的で実行可能な説明

PUPAE: Intuitive and Actionable Explanations for Time Series Anomalies ( http://arxiv.org/abs/2401.09489v1 )

ライセンス: Link先を確認
Audrey Der, Chin-Chia Michael Yeh, Yan Zheng, Junpeng Wang, Zhongfang Zhuang, Liang Wang, Wei Zhang, Eamonn J. Keogh(参考訳) 近年,時系列異常検出が著しい進歩を遂げている。 しかし、(おそらく仮の)異常を検出すると、それを説明できますか? このような説明はトリアージ異常に有用であろう。 例えば、石油精製工場では、油圧エンジニアやインターンを派遣してセンサーのバッテリーを交換することで異常に対処すべきだろうか? 異常を説明するための並行的な取り組みはいくつかあったが、多くの提案手法は間接的な説明を生み出し、しばしば彼らが説明しようとする異常よりも複雑に見える。 本稿では,各分野のフロントライン実践者が使用する文献・チェックリスト・ユーザ・マニホールドについて概観する。 ほとんどの実践者は、以下の形式で異常を議論し、説明し、報告する。 anomalyは、腐敗bがなければ、通常のデータaのようなものです。 本稿では,時系列の異常を説明するために,ドメインに依存しない反事実的説明手法を提案する。 提案手法は,客観的に正確で直感的かつ多くの状況において直接実行可能な,視覚的な説明とテキストに基づく説明の両方を生成できる。

In recent years there has been significant progress in time series anomaly detection. However, after detecting an (perhaps tentative) anomaly, can we explain it? Such explanations would be useful to triage anomalies. For example, in an oil refinery, should we respond to an anomaly by dispatching a hydraulic engineer, or an intern to replace the battery on a sensor? There have been some parallel efforts to explain anomalies, however many proposed techniques produce explanations that are indirect, and often seem more complex than the anomaly they seek to explain. Our review of the literature/checklists/user-manuals used by frontline practitioners in various domains reveals an interesting near-universal commonality. Most practitioners discuss, explain and report anomalies in the following format: The anomaly would be like normal data A, if not for the corruption B. The reader will appreciate that is a type of counterfactual explanation. In this work we introduce a domain agnostic counterfactual explanation technique to produce explanations for time series anomalies. As we will show, our method can produce both visual and text-based explanations that are objectively correct, intuitive and in many circumstances, directly actionable.
翻訳日:2024-01-19 19:11:11 公開日:2024-01-16
# 認証クレデンシャルとクロスデバイスフローを用いたOpenID接続サインインのためのユニバーサルシステム

A Universal System for OpenID Connect Sign-ins with Verifiable Credentials and Cross-Device Flow ( http://arxiv.org/abs/2401.09488v1 )

ライセンス: Link先を確認
Felix Hoops, Florian Matthes(参考訳) 新たな有望なアイデンティティ管理パラダイムとして、SSI(Self-Sovereign Identity)には、既存のサービスと開発者の段階的な移行を容易にするメカニズムが必要だ。 SSIと確立されたアイデンティティとアクセス管理のギャップを埋めるシステムは提案されているが、まだ採用されていない。 それらはすべて、複雑すぎる、特定のエコシステムに閉じ込められている、ソースコードがない、あるいは十分にドキュメント化されていない組み合わせである、と私たちは主張する。 我々は、OpenID ConnectやOAuth 2.0プロトコルをサポートするサービスに対して、SSIベースのサインインを可能にする比較的単純なシステムを提案する。 請求の処理は、単一のポリシーを通じて非常に構成可能で、スマートフォンのidウォレットを含むデバイス間の認証フロー用に設計されている。 外部インターフェースについては、最近のOpenID for Verifiable Credentials標準のようなオープン標準のみに依存しています。 プロトタイピングと参照を目的としたオープンソースソフトウェアとして実装を行っている。 また、特定のサインインフローに関する詳細な技術的議論にも貢献する。 実現可能性を証明するため、我々は既存のソフトウェアと現実的なハードウェアでテストに成功した。

Self-Sovereign Identity (SSI), as a new and promising identity management paradigm, needs mechanisms that can ease a gradual transition of existing services and developers towards it. Systems that bridge the gap between SSI and established identity and access management have been proposed but still lack adoption. We argue that they are all some combination of too complex, locked into specific ecosystems, have no source code available, or are not sufficiently documented. We propose a comparatively simple system that enables SSI-based sign-ins for services that support the widespread OpenID Connect or OAuth 2.0 protocols. Its handling of claims is highly configurable through a single policy and designed for cross-device authentication flows involving a smartphone identity wallet. For external interfaces, we solely rely on open standards, such as the recent OpenID for Verifiable Credentials standards. We provide our implementation as open-source software intended for prototyping and as a reference. Also, we contribute a detailed technical discussion of our particular sign-in flow. To prove its feasibility, we have successfully tested it with existing software and realistic hardware.
翻訳日:2024-01-19 19:10:54 公開日:2024-01-16
# LoMA: ロスレス圧縮メモリ注意

LoMA: Lossless Compressed Memory Attention ( http://arxiv.org/abs/2401.09486v1 )

ライセンス: Link先を確認
Yumeng Wang, Zhenyang Xiao(参考訳) 長いテキストを扱う能力は、Large Language Models (LLMs) の最も重要な機能のひとつだが、テキストの長さが大きくなるにつれて、リソースの消費も劇的に増加する。 現在、KVキャッシュの圧縮によるリソース消費の削減が一般的である。 既存の圧縮方法は数多く存在するが、共通の欠点を共有している: 圧縮はロスレスではない。 すなわち、圧縮処理中に必然的に情報が失われる。 圧縮率が高ければ、重要な情報を失う確率は劇的に増加する。 本研究では,設定した圧縮比に応じて,特殊メモリトークンkv対への情報のロスレス圧縮を可能にする新しい手法であるロスレス圧縮メモリアテンション(loma)を提案する。 我々の実験は、LoMAを効率的に訓練し、非常に効果的な性能を持つことを実証し、目覚ましい結果を得た。

The ability to handle long texts is one of the most important capabilities of Large Language Models (LLMs), but as the text length increases, the consumption of resources also increases dramatically. At present, reducing resource consumption by compressing the KV cache is a common approach. Although there are many existing compression methods, they share a common drawback: the compression is not lossless. That is, information is inevitably lost during the compression process. If the compression rate is high, the probability of losing important information increases dramatically. We propose a new method, Lossless Compressed Memory Attention (LoMA), which allows for lossless compression of information into special memory token KV pairs according to a set compression ratio. Our experiments have achieved remarkable results, demonstrating that LoMA can be efficiently trained and has very effective performance.
翻訳日:2024-01-19 19:10:36 公開日:2024-01-16
# ガウス過程回帰による熱線式電界計の不確かさの校正

Uncertainty-Aware Calibration of a Hot-Wire Anemometer With Gaussian Process Regression ( http://arxiv.org/abs/2401.09492v1 )

ライセンス: Link先を確認
Rub\'en Antonio Garc\'ia-Ruiz, Jos\'e Luis Blanco-Claraco, Javier L\'opez-Mart\'inez, \'Angel Jes\'us Callej\'on-Ferre(参考訳) 風速を正確に測定するためには、超音波計が必要とされる。 本研究の目的は、ガウス過程回帰を用いた確率的キャリブレーションにより、空気温度の変化による低コストの熱電線計の精度の低下を克服することである。 ガウス過程回帰(英: Gaussian Process Regression)は、1つ以上の既知の入力変数の関数として未知のターゲット変数の予測を行うように設計された非パラメトリック、ベイズ的、教師付き学習法である。 このアプローチは実際のデータセットに対して検証され、実際の風速値を推測する優れた性能が得られる。 現場での実際の使用前に、空気温度を考慮した熱線電離計の校正を行うことにより、風速を各速度測定の接地不確実性推定を含む典型的な環境温度範囲で推定することができる。

Expensive ultrasonic anemometers are usually required to measure wind speed accurately. The aim of this work is to overcome the loss of accuracy of a low cost hot-wire anemometer caused by the changes of air temperature, by means of a probabilistic calibration using Gaussian Process Regression. Gaussian Process Regression is a non-parametric, Bayesian, and supervised learning method designed to make predictions of an unknown target variable as a function of one or more known input variables. Our approach is validated against real datasets, obtaining a good performance in inferring the actual wind speed values. By performing, before its real use in the field, a calibration of the hot-wire anemometer taking into account air temperature, permits that the wind speed can be estimated for the typical range of ambient temperatures, including a grounded uncertainty estimation for each speed measure.
翻訳日:2024-01-19 18:54:55 公開日:2024-01-16
# 記憶,空間,計画:マルチスケール予測表現

Memory, Space, and Planning: Multiscale Predictive Representations ( http://arxiv.org/abs/2401.09491v1 )

ライセンス: Link先を確認
Ida Momennejad(参考訳) 記憶は本質的に予測と計画に絡み合っている。 生物学的および人工エージェントの柔軟な行動は、過去からの学習と、常に変化する環境における未来を予測することに依存する。 この章は計算、行動、神経の証拠をレビューし、これらのプロセスが認知地図として知られる経験の関連構造を学ぶことに依存していることを示唆する。 まず、これらの記憶構造は、海馬および前頭前皮質(PFC、階層)におけるマルチスケールでコンパクトな予測表現として構成される。 第2に、これらの予測記憶構造は海馬とPFCの相補的機能に欠かせないものであり、詳細かつ一貫性のある過去のエピソードのリコールを可能にするとともに、様々なスケールで経験を一般化し、効率的な予測と計画を行う。 これらの洞察は、脳内の記憶と計画機構の理解を促進し、人工知能システムの進歩に重要な意味を持つ。

Memory is inherently entangled with prediction and planning. Flexible behavior in biological and artificial agents depends on the interplay of learning from the past and predicting the future in ever-changing environments. This chapter reviews computational, behavioral, and neural evidence suggesting these processes rely on learning the relational structure of experiences, known as cognitive maps, and draws two key takeaways. First, that these memory structures are organized as multiscale, compact predictive representations in hippocampal and prefrontal cortex, or PFC, hierarchies. Second, we argue that such predictive memory structures are crucial to the complementary functions of the hippocampus and PFC, both for enabling a recall of detailed and coherent past episodes as well as generalizing experiences at varying scales for efficient prediction and planning. These insights advance our understanding of memory and planning mechanisms in the brain and hold significant implications for advancing artificial intelligence systems.
翻訳日:2024-01-19 18:54:37 公開日:2024-01-16
# 自律運転のための重要認識画像セグメンテーションに基づく意味コミュニケーション

Importance-Aware Image Segmentation-based Semantic Communication for Autonomous Driving ( http://arxiv.org/abs/2401.10153v1 )

ライセンス: Link先を確認
Jie Lv, Haonan Tong, Qiang Pan, Zhilong Zhang, Xinxin He, Tao Luo, Changchuan Yin(参考訳) 本稿では,自律運転におけるイメージセグメンテーションに基づくセマンティックコミュニケーションの問題について考察する。 実際の交通現場では、重要な物体(車両、歩行者、障害物など)を検出することが運転安全性を保証するために他の物体よりも重要である。 そこで本研究では,重要物体の画像分割特徴を伝送することで伝送冗長性を低減した車両用画像セグメンテーション指向意味通信システム「vis-semcom」を提案する。 まず,画像のセマンティクスを精度良く抽出するために,知覚場を拡大してセマンティクス精度を向上させるswainトランスフォーマティブアーキテクチャに基づく意味コーデックを開発した。 次に,様々な解像度特徴に対してスウィントランスブロック数を割り当てることで,重要物体の精度を強調するマルチスケール意味抽出手法を提案する。 さらに、重要なオブジェクトを強調するために重要・認識損失を発生させ、データセット内の小さなサンプル問題を扱うためのオンラインハードサンプルマイニング(OHEM)戦略を提案する。 実験の結果,vis-semcomは,約6dbの符号化利得を約60%平均交叉(miou)で達成でき,送信データ量を60%のmiouで最大70%削減し,従来の伝送方式に比べて重要なオブジェクトの結合上の分断交叉(iou)を4%改善できることがわかった。

This article studies the problem of image segmentation-based semantic communication in autonomous driving. In real traffic scenes, detecting the key objects (e.g., vehicles, pedestrians and obstacles) is more crucial than that of other objects to guarantee driving safety. Therefore, we propose a vehicular image segmentation-oriented semantic communication system, termed VIS-SemCom, where image segmentation features of important objects are transmitted to reduce transmission redundancy. First, to accurately extract image semantics, we develop a semantic codec based on Swin Transformer architecture, which expands the perceptual field thus improving the segmentation accuracy. Next, we propose a multi-scale semantic extraction scheme via assigning the number of Swin Transformer blocks for diverse resolution features, thus highlighting the important objects' accuracy. Furthermore, the importance-aware loss is invoked to emphasize the important objects, and an online hard sample mining (OHEM) strategy is proposed to handle small sample issues in the dataset. Experimental results demonstrate that the proposed VIS-SemCom can achieve a coding gain of nearly 6 dB with a 60% mean intersection over union (mIoU), reduce the transmitted data amount by up to 70% with a 60% mIoU, and improve the segmentation intersection over union (IoU) of important objects by 4%, compared to traditional transmission scheme.
翻訳日:2024-01-19 15:50:37 公開日:2024-01-16
# 動的容量スロット注意による文字列からの意味単位の誘導

Inducing Meaningful Units from Character Sequences with Dynamic Capacity Slot Attention ( http://arxiv.org/abs/2102.01223v3 )

ライセンス: Link先を確認
Melika Behjati and James Henderson(参考訳) 文字は意味を伝えないが、文字の配列はそうである。 文字列の抽象的意味単位を学習するための教師なし分布法を提案する。 シーケンスをセグメント化するのではなく、Dynamic Capacity Slot Attentionモデルは、シーケンス内のオブジェクトの連続的な表現を発見し、画像内のオブジェクト発見のためのアーキテクチャを拡張します。 我々は、異なる言語でモデルを訓練し、得られた表現の品質を前方および逆探索分類器で評価する。 これらの実験により,従来提案されていた概念や内容,抽象化レベルと類似した単位の発見に成功し,より高度な抽象化レベルで有意義な情報を取得することを約束することを示す。

Characters do not convey meaning, but sequences of characters do. We propose an unsupervised distributional method to learn the abstract meaningful units in a sequence of characters. Rather than segmenting the sequence, our Dynamic Capacity Slot Attention model discovers continuous representations of the objects in the sequence, extending an architecture for object discovery in images. We train our model on different languages and evaluate the quality of the obtained representations with forward and reverse probing classifiers. These experiments show that our model succeeds in discovering units which are similar to those proposed previously in form, content and level of abstraction, and which show promise for capturing meaningful information at a higher level of abstraction.
翻訳日:2024-01-18 22:39:06 公開日:2024-01-16
# オプションプライスダイナミクスを解くための効率的なハミルトニアンシミュレーション

Efficient Hamiltonian Simulation for Solving Option Price Dynamics ( http://arxiv.org/abs/2101.04023v4 )

ライセンス: Link先を確認
Javier Gonzalez-Conde, \'Angel Rodr\'iguez-Rozas, Enrique Solano, Mikel Sanz(参考訳) 金融デリバティブ(金融デリバティブ、特にヨーロッパ風オプション)の価格設定は、金融における関連する問題である。 一定のボラティリティと金利が仮定されるときのバニラオプションの価格を記述するダイナミクスは、オプション契約の支払いによって与えられる終端値と追加境界条件のない線形放物偏微分方程式であるブラック・スコルズモデルによって制御される。 本稿では,量子コンピュータ上の黒弦方程式をschr\"odinger方程式にマッピングして解くディジタル量子アルゴリズムを提案する。 結果として得られるハミルトニアンの非エルミート的性質は、そのプロパゲータを拡大ヒルベルト空間に埋め込むことによって解く。 さらに、離散化された運動量演算子の定義によって与えられる周期境界条件の選択により、初期条件を重複させ、プロトコルの安定性と性能を大幅に向上させる。 このアルゴリズムは、効率的なハミルトンシミュレーション手法を量子信号処理として利用し、デジタル量子コンピュータ上での金融デリバティブの価格ダイナミクスを解くための実現可能なアプローチを示す。 我々のアプローチはモンテカルロ積分に基づくものと異なり、ダイナミクスが知られていると仮定して解をサンプリングすることに集中している。 本報告では,9量子ビットを用いてフォールトトレラント量子コンピュータ上での力学をシミュレートすることにより,古典的数値アルゴリズムに匹敵する予測精度と,60%以上の埋め込みプロトコルによるポストセレクション手順の成功確率を報告する。

Pricing financial derivatives, in particular European-style options at different time-maturities and strikes, means a relevant problem in finance. The dynamics describing the price of vanilla options when constant volatilities and interest rates are assumed, is governed by the Black-Scholes model, a linear parabolic partial differential equation with terminal value given by the pay-off of the option contract and no additional boundary conditions. Here, we present a digital quantum algorithm to solve Black-Scholes equation on a quantum computer by mapping it to the Schr\"odinger equation. The non-Hermitian nature of the resulting Hamiltonian is solved by embedding its propagator into an enlarged Hilbert space by using only one additional ancillary qubit. Moreover, due to the choice of periodic boundary conditions, given by the definition of the discretized momentum operator, we duplicate the initial condition, which substantially improves the stability and performance of the protocol. The algorithm shows a feasible approach for using efficient Hamiltonian simulation techniques as Quantum Signal Processing to solve the price dynamics of financial derivatives on a digital quantum computer. Our approach differs from those based on Monte Carlo integration, exclusively focused on sampling the solution assuming the dynamics is known. We report expected accuracy levels comparable to classical numerical algorithms by using 9 qubits to simulate its dynamics on a fault-tolerant quantum computer, and an expected success probability of the post-selection procedure due to the embedding protocol above 60%.
翻訳日:2024-01-18 22:38:35 公開日:2024-01-16
# 直交多様性を利用したロバストニューラルネットワーク

Towards Robust Neural Networks via Orthogonal Diversity ( http://arxiv.org/abs/2010.12190v5 )

ライセンス: Link先を確認
Kun Fang, Qinghua Tao, Yingwen Wu, Tao Li, Jia Cai, Feipeng Cai, Xiaolin Huang and Jie Yang(参考訳) ディープニューラルネットワーク(DNN)は、敵対的攻撃によって生成された画像に対する目に見えない摂動に対して脆弱であり、DNNの敵対的堅牢性に関する研究を提起する。 敵の訓練とその変種に代表される一連の手法は、DNNの堅牢性を高める最も効果的な手法の1つとして証明されている。 一般的に、逆行訓練は、摂動データを含むことによりトレーニングデータを強化することに焦点を当てる。 逆行訓練における摂動データのこのようなデータ増大効果は、DNN自体の堅牢性に寄与せず、通常はクリーンな精度低下に悩まされる。 本稿では, DNN自体の堅牢性に向けて, 対戦型事例を含む多様な入力に適応する特徴を学習するために, モデルの拡張を目的とした新しい防衛法を提案する。 より具体的には、モデルを強化するために、複数のパスがネットワークに埋め込まれ、それらのパスに直交性の制約が課され、それらの多様性が保証される。 マージン最大化損失は、直交性(DIO)を介してそのような多様性をさらに高めるよう設計される。 このようにして、提案したDIOは、これらの相互直交経路によって学習された特徴を補正できるため、モデルを強化し、DNN自体の堅牢性を高める。 各種データセット, 構造, 攻撃に対する広範な実験結果から, モデル拡張を用いた提案したDIOの強い対向ロバスト性を検証した。 さらに、DIOは様々なデータ拡張技術(TRADESやDDPMなど)と柔軟に組み合わせて、堅牢性の向上を促進することもできる。

Deep Neural Networks (DNNs) are vulnerable to invisible perturbations on the images generated by adversarial attacks, which raises researches on the adversarial robustness of DNNs. A series of methods represented by the adversarial training and its variants have proven as one of the most effective techniques in enhancing the DNN robustness. Generally, adversarial training focuses on enriching the training data by involving perturbed data. Such data augmentation effect of the involved perturbed data in adversarial training does not contribute to the robustness of DNN itself and usually suffers from clean accuracy drop. Towards the robustness of DNN itself, we in this paper propose a novel defense that aims at augmenting the model in order to learn features that are adaptive to diverse inputs, including adversarial examples. More specifically, to augment the model, multiple paths are embedded into the network, and an orthogonality constraint is imposed on these paths to guarantee the diversity among them. A margin-maximization loss is then designed to further boost such DIversity via Orthogonality (DIO). In this way, the proposed DIO augments the model and enhances the robustness of DNN itself as the learned features can be corrected by these mutually-orthogonal paths. Extensive empirical results on various data sets, structures and attacks verify the stronger adversarial robustness of the proposed DIO utilizing model augmentation. Besides, DIO can also be flexibly combined with different data augmentation techniques (e.g., TRADES and DDPM), further promoting robustness gains.
翻訳日:2024-01-18 22:37:50 公開日:2024-01-16
# 適応クレーター・ホルン・シモニー・ホルトゲームにおける量子理論の相関自己検定に向けて

Towards correlation self-testing of quantum theory in the adaptive Clauser-Horne-Shimony-Holt game ( http://arxiv.org/abs/2009.05069v4 )

ライセンス: Link先を確認
Mirjam Weilenmann and Roger Colbeck(参考訳) 理論の相関自己テストは、特定の情報処理タスクのパフォーマンスから理論で実現可能な相関の集合を特定できるかどうかという問題に対処する。 量子論に適用すると、任意の因果構造における量子理論と同じ相関性を実現する理論によってのみ最適性能が達成される情報処理タスクを特定することが目的である。 125 060406 (2020) [Phys. Rev. Lett. 125 060406 (2020)] では、適応型CHSHゲームとして候補タスクを導入した。 ここでは,このゲームに勝つ最大確率を一般化確率理論で解析する。 基本系が様々な2次元状態空間を持つ理論における他のテンソル積を考える前に、極小あるいは極大テンソル積によって与えられる合同状態空間を持つ理論は量子論より劣っていることを示す。 これらのことから、適応型CHSHゲームにおいて量子理論より優れているという理論は見つからず、様々なケースで量子性能を回復することは不可能である。 これは、成功すれば幅広い結果が得られるという一般的な解への第一歩であり、特に、実現可能な相関の集合が量子集合と一致しないすべての理論を除外できる実験を可能にする。

Correlation self-testing of a theory addresses the question of whether we can identify the set of correlations realisable in a theory from its performance in a particular information processing task. Applied to quantum theory it aims to identify an information processing task whose optimal performance is achieved only by theories realising the same correlations as quantum theory in any causal structure. In [Phys. Rev. Lett. 125 060406 (2020)] we introduced a candidate task for this, the adaptive CHSH game. Here, we analyse the maximum probability of winning this game in different generalised probabilistic theories. We show that theories with a joint state space given by the minimal or the maximal tensor product are inferior to quantum theory, before considering other tensor products in theories whose elementary systems have various two-dimensional state spaces. For these, we find no theories that outperform quantum theory in the adaptive CHSH game and prove that it is impossible to recover the quantum performance in various cases. This is the first step towards a general solution that, if successful, will have wide-ranging consequences, in particular, enabling an experiment that could rule out all theories in which the set of realisable correlations does not coincide with the quantum set.
翻訳日:2024-01-18 22:37:25 公開日:2024-01-16
# 生成ランダムフーリエ特徴を用いたエンドツーエンドカーネル学習

End-to-end Kernel Learning via Generative Random Fourier Features ( http://arxiv.org/abs/2009.04614v5 )

ライセンス: Link先を確認
Kun Fang, Fanghui Liu, Xiaolin Huang and Jie Yang(参考訳) ランダムフーリエ機能(RFF)は、スペクトルケースでのカーネル学習に有望な方法を提供する。 現在のRFFsベースのカーネル学習法は、通常2段階の方法で機能する。 第1段階のプロセスでは、最適特徴写像の学習は、しばしば目標アライメント問題として定式化され、学習されたカーネルを予め定義されたターゲットカーネル(通常は理想のカーネル)と整合させることを目的としている。 第2段階のプロセスでは、マッピングされたランダムな特徴に対して線形学習を行う。 それでも、ターゲットアライメントにおける事前定義されたカーネルは、線形学習者の一般化に必ずしも最適ではない。 本稿では,カーネル学習と線形学習を統一フレームワークに組み込む一段階プロセスについて考察する。 具体的には、RFFによる生成ネットワークはカーネルを暗黙的に学習するように設計され、続いて完全な接続層としてパラメータ化された線形分類器が作られる。 そして、経験的リスク最小化(ERM)問題を解くことにより、生成ネットワークと分類器を共同で訓練し、1段階の解を得る。 このエンド・ツー・エンド方式は、多層構造に対応して、自然により深い特徴を許容し、実世界の分類タスクにおいて古典的な2段階のRFFに基づく手法よりも優れた一般化性能を示す。 さらに,提案手法のランダム化再サンプリング機構に触発され,その拡張された逆ロバスト性が検証され,実験的に検証された。

Random Fourier features (RFFs) provide a promising way for kernel learning in a spectral case. Current RFFs-based kernel learning methods usually work in a two-stage way. In the first-stage process, learning the optimal feature map is often formulated as a target alignment problem, which aims to align the learned kernel with the pre-defined target kernel (usually the ideal kernel). In the second-stage process, a linear learner is conducted with respect to the mapped random features. Nevertheless, the pre-defined kernel in target alignment is not necessarily optimal for the generalization of the linear learner. Instead, in this paper, we consider a one-stage process that incorporates the kernel learning and linear learner into a unifying framework. To be specific, a generative network via RFFs is devised to implicitly learn the kernel, followed by a linear classifier parameterized as a full-connected layer. Then the generative network and the classifier are jointly trained by solving the empirical risk minimization (ERM) problem to reach a one-stage solution. This end-to-end scheme naturally allows deeper features, in correspondence to a multi-layer structure, and shows superior generalization performance over the classical two-stage, RFFs-based methods in real-world classification tasks. Moreover, inspired by the randomized resampling mechanism of the proposed method, its enhanced adversarial robustness is investigated and experimentally verified.
翻訳日:2024-01-18 22:37:04 公開日:2024-01-16
# 物理理論の自己検証、あるいは、量子理論は情報処理タスクに関して最適か?

Self-testing of physical theories, or, is quantum theory optimal with respect to some information-processing task? ( http://arxiv.org/abs/2003.00349v5 )

ライセンス: Link先を確認
Mirjam Weilenmann and Roger Colbeck(参考訳) 自己テスト(英: self-testing)は、通常、量子論によって正確に記述された過程を通じて生じると仮定される観測された相関のセットを、量子状態と測定値の推測を試みるタスクを指す。 言い換えれば、量子ブラックボックスデバイスは入力出力の振る舞いだけを見て何をしているのかを判断できるかどうかという問題であり、いくつかのケースで可能であることが知られている。 ここでは、より一般的な質問を紹介する: 理論、特に量子論を自己テストすることは可能か? より正確には、特定の因果構造の中に、任意のシナリオにおいて量子力学と同じ相関を持つ理論でしか実行できないタスクがあるかどうかを問う。 このような相関自己テストの候補課題を提示し、これを一般化確率論(GPT)の範囲で分析し、いずれも量子理論より優れているものではないことを示す。 我々の結果の一般化により、全ての非量子 GPT は量子力学より厳密に劣っていることが示され、量子論の公理化の新しい方法が示され、同時にそのような GPT を規制する実験を可能にする。

Self-testing usually refers to the task of taking a given set of observed correlations that are assumed to arise via a process that is accurately described by quantum theory, and trying to infer the quantum state and measurements. In other words it is concerned with the question of whether we can tell what quantum black-box devices are doing by looking only at their input-output behaviour and is known to be possible in several cases. Here we introduce a more general question: is it possible to self-test a theory, and, in particular, quantum theory? More precisely, we ask whether within a particular causal structure there are tasks that can only be performed in theories that have the same correlations as quantum mechanics in any scenario. We present a candidate task for such a correlation self-test and analyse it in a range of generalised probabilistic theories (GPTs), showing that none of these perform better than quantum theory. A generalisation of our results showing that all non-quantum GPTs are strictly inferior to quantum mechanics for this task would point to a new way to axiomatise quantum theory, and enable an experimental test that simultaneously rules out such GPTs.
翻訳日:2024-01-18 22:35:11 公開日:2024-01-16
# 独立集合問題を解く中性原子量子コンピューティングの産業応用

Industry applications of neutral-atom quantum computing solving independent set problems ( http://arxiv.org/abs/2205.08500v2 )

ライセンス: Link先を確認
Jonathan Wurtz, Pedro L. S. Lopes, Christoph Gorgulla, Nathan Gemelke, Alexander Keesling, Shengtao Wang(参考訳) 中性原子に基づく量子コンピューティングのアーキテクチャは、短期的および長期的応用の候補として注目を集めている。 これらの装置は独立集合問題を解くのに特に適しており、ライドバーグの封鎖機構により組合せ制約は自然に低エネルギーヒルベルト空間に符号化できる。 本稿では,この関係を,特定のデバイスアーキテクチャに焦点をあてて,実世界のアプリケーションの実例を提供することで,独立した集合問題の有用性と実用性を探る。 関係性に関する基本的なグラフ理論の概念を教育学的に導入した後、Rydberg Hamiltonian の独立集合問題をエンコードする方法を簡潔に議論する。 次に, 独立集合問題の主要なクラスを概説し, 産業的および社会的関連のある関連例を含む。 我々は、電気通信やロジスティクスから金融や戦略的計画に至るまで、独立した課題の効率的な解決策の恩恵を受けることができる幅広い分野を決定し、中立原子プラットフォーム上で効率的な問題のエンコーディングと実装のための一般的な戦略を示します。

Architectures for quantum computing based on neutral atoms have risen to prominence as candidates for both near and long-term applications. These devices are particularly well suited to solve independent set problems, as the combinatorial constraints can be naturally encoded in the low-energy Hilbert space due to the Rydberg blockade mechanism. Here, we approach this connection with a focus on a particular device architecture and explore the ubiquity and utility of independent set problems by providing examples of real-world applications. After a pedagogical introduction of basic graph theory concepts of relevance, we briefly discuss how to encode independent set problems in Rydberg Hamiltonians. We then outline the major classes of independent set problems and include associated example applications with industry and social relevance. We determine a wide range of sectors that could benefit from efficient solutions of independent set problems -- from telecommunications and logistics to finance and strategic planning -- and display some general strategies for efficient problem encoding and implementation on neutral-atom platforms.
翻訳日:2024-01-18 22:28:53 公開日:2024-01-16
# TerrainMesh: 連立2D-3D学習による空中画像からの計量意味的地層再構成

TerrainMesh: Metric-Semantic Terrain Reconstruction from Aerial Images Using Joint 2D-3D Learning ( http://arxiv.org/abs/2204.10993v2 )

ライセンス: Link先を確認
Qiaojun Feng, Nikolay Atanasov(参考訳) 本稿では,航空機から得られたRGB画像を用いた屋外地形図について考察する。 機能ベースのローカライズとマッピング技術がリアルタイム車両のオドメトリとスパースなキーポイント深度再構成をもたらす一方で、環境幾何学とセマンティクス(植生、建物など)の密集したモデルは通常、重要な計算とストレージによってオフラインで復元される。 本稿では,視覚オドメトリーアルゴリズムによって維持される各カメラキーフレームにおける局所的メトリック・セマンティクスメッシュを再構成する2d-3次元学習手法を開発した。 推定カメラ軌道を考えると、ローカルメッシュはグローバル環境モデルに組み立てられ、オンライン操作中の地形のトポロジとセマンティクスをキャプチャすることができる。 局所メッシュは初期化及び改良段階を用いて再構築される。 初期化段階では、頂点バーリ中心座標とスパースキーポイント深さ測定に関する最小二乗問題を解くことでメッシュ頂点標高を推定する。 改良段階において,2次元画像と意味的特徴をカメラプロジェクションを用いて3次元メッシュ頂点に関連付け,グラフ畳み込みを適用してメッシュ頂点空間座標と意味的特徴を2次元と3次元の同時監視に基づいて洗練する。 実空画像を用いた定量的・質的評価は,環境モニタリングおよび監視アプリケーションを支援する手法の可能性を示している。

This paper considers outdoor terrain mapping using RGB images obtained from an aerial vehicle. While feature-based localization and mapping techniques deliver real-time vehicle odometry and sparse keypoint depth reconstruction, a dense model of the environment geometry and semantics (vegetation, buildings, etc.) is usually recovered offline with significant computation and storage. This paper develops a joint 2D-3D learning approach to reconstruct a local metric-semantic mesh at each camera keyframe maintained by a visual odometry algorithm. Given the estimated camera trajectory, the local meshes can be assembled into a global environment model to capture the terrain topology and semantics during online operation. A local mesh is reconstructed using an initialization and refinement stage. In the initialization stage, we estimate the mesh vertex elevation by solving a least squares problem relating the vertex barycentric coordinates to the sparse keypoint depth measurements. In the refinement stage, we associate 2D image and semantic features with the 3D mesh vertices using camera projection and apply graph convolution to refine the mesh vertex spatial coordinates and semantic features based on joint 2D and 3D supervision. Quantitative and qualitative evaluation using real aerial images show the potential of our method to support environmental monitoring and surveillance applications.
翻訳日:2024-01-18 22:28:36 公開日:2024-01-16
# 教師なしビデオオブジェクトセグメンテーションのためのインシシットモーション補償ネットワーク

Implicit Motion-Compensated Network for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2204.02791v2 )

ライセンス: Link先を確認
Lin Xi, Weihai Chen, Xingming Wu, Zhong Liu, and Zhengguo Li(参考訳) 教師なしビデオオブジェクトセグメンテーション(UVOS)は、ビデオシーケンスの背景から一次前景オブジェクトを自動的に分離することを目的としている。 既存のUVOS手法では、視覚的に類似した環境(外観ベース)がある場合や、動的背景と不正確な流れ(フローベース)のために予測品質の劣化に悩まされている場合、堅牢性を欠いている。 この制限を克服するため、光学的フローを推定することなく、隣接するフレームから現在のフレームへの一致した動き情報と相補的キュー(\textit{i.e.}$, appearance and motion)を組み合わせた暗黙的な動き補償ネットワーク(IMCNet)を提案する。 IMCNetはアフィニティ計算モジュール(ACM)、アテンション伝搬モジュール(APM)、動き補償モジュール(MCM)から構成される。 軽量ACMは、外観特徴に基づいて隣接する入力フレーム間の共通性を抽出する。 APMは、グローバルな相関をトップダウンで送信する。 粗大から細い反復インスピレーションによって、APMは複数の解像度からオブジェクト領域を洗練し、詳細を失うのを効率的に回避する。 そして、MCMは、時間的に隣接するフレームから現在フレームまでの動作情報を整列し、特徴レベルで暗黙的な動き補償を実現する。 我々は、$\textit{DAVIS}_{\textit{16}}$と$\textit{YouTube-Objects}$で広範な実験を行います。 本ネットワークは最先端手法に比べて高速で動作しながら良好な性能を実現している。

Unsupervised video object segmentation (UVOS) aims at automatically separating the primary foreground object(s) from the background in a video sequence. Existing UVOS methods either lack robustness when there are visually similar surroundings (appearance-based) or suffer from deterioration in the quality of their predictions because of dynamic background and inaccurate flow (flow-based). To overcome the limitations, we propose an implicit motion-compensated network (IMCNet) combining complementary cues ($\textit{i.e.}$, appearance and motion) with aligned motion information from the adjacent frames to the current frame at the feature level without estimating optical flows. The proposed IMCNet consists of an affinity computing module (ACM), an attention propagation module (APM), and a motion compensation module (MCM). The light-weight ACM extracts commonality between neighboring input frames based on appearance features. The APM then transmits global correlation in a top-down manner. Through coarse-to-fine iterative inspiring, the APM will refine object regions from multiple resolutions so as to efficiently avoid losing details. Finally, the MCM aligns motion information from temporally adjacent frames to the current frame which achieves implicit motion compensation at the feature level. We perform extensive experiments on $\textit{DAVIS}_{\textit{16}}$ and $\textit{YouTube-Objects}$. Our network achieves favorable performance while running at a faster speed compared to the state-of-the-art methods.
翻訳日:2024-01-18 22:28:10 公開日:2024-01-16
# 単一経路の畳み込み層に自己注意を吹き込む

Pruning Self-attentions into Convolutional Layers in Single Path ( http://arxiv.org/abs/2111.11802v4 )

ライセンス: Link先を確認
Haoyu He, Jianfei Cai, Jing Liu, Zizheng Pan, Jing Zhang, Dacheng Tao, Bohan Zhuang(参考訳) 視覚トランスフォーマー (vits) は様々なコンピュータビジョンタスクで素晴らしい性能を達成している。 しかしながら、msa(multi-head self-attention)層とのグローバル相関のモデリングは、大きな計算リソースの消費と、局所的な視覚パターンのモデリングに固有の帰納的バイアスの欠如という、2つの広く認識される問題に繋がる。 両者の問題を解決するために,spvit(single-path vision transformer pruning)という簡易かつ効果的な手法を考案し,事前学習したvitを適切な局所性を加えたコンパクトモデルに効率的かつ自動的に圧縮する。 具体的には、まず、MSAと畳み込み操作の間の新しい重み共有方式を提案し、全ての候補操作を符号化する単一パス空間を提供する。 これにより,各msa層で使用するパラメータのサブセットを探索し,計算コストと最適化の困難さを大幅に低減し,事前学習したmsaパラメータを用いて畳み込みカーネルを適切に初期化することができる。 MSA層における操作選択を符号化する学習可能なバイナリゲートを導入する。 同様に,学習可能なゲートを用いてffn層の細粒度mlp展開比を符号化する。 このように、SPViTは学習可能なゲートを最適化し、広範かつ統一された検索空間から自動的に探索し、個々の密集モデルのMSA-FFNプルーニング比率を柔軟に調整する。 我々は,SPViTが ImageNet-1k 上でプルーニングを行うための新しい SOTA を実現することを示す2つの代表 ViT 実験を行った。 例えば、私たちのSPViTはDeiT-Bで52.0%のFLOPをトリミングでき、同時に0.6%のトップ1の精度を得ることができます。 ソースコードはhttps://github.com/ziplab/spvitで入手できる。

Vision Transformers (ViTs) have achieved impressive performance over various computer vision tasks. However, modeling global correlations with multi-head self-attention (MSA) layers leads to two widely recognized issues: the massive computational resource consumption and the lack of intrinsic inductive bias for modeling local visual patterns. To solve both issues, we devise a simple yet effective method named Single-Path Vision Transformer pruning (SPViT), to efficiently and automatically compress the pre-trained ViTs into compact models with proper locality added. Specifically, we first propose a novel weight-sharing scheme between MSA and convolutional operations, delivering a single-path space to encode all candidate operations. In this way, we cast the operation search problem as finding which subset of parameters to use in each MSA layer, which significantly reduces the computational cost and optimization difficulty, and the convolution kernels can be well initialized using pre-trained MSA parameters. Relying on the single-path space, we introduce learnable binary gates to encode the operation choices in MSA layers. Similarly, we further employ learnable gates to encode the fine-grained MLP expansion ratios of FFN layers. In this way, our SPViT optimizes the learnable gates to automatically explore from a vast and unified search space and flexibly adjust the MSA-FFN pruning proportions for each individual dense model. We conduct extensive experiments on two representative ViTs showing that our SPViT achieves a new SOTA for pruning on ImageNet-1k. For example, our SPViT can trim 52.0% FLOPs for DeiT-B and get an impressive 0.6% top-1 accuracy gain simultaneously. The source code is available at https://github.com/ziplab/SPViT.
翻訳日:2024-01-18 22:26:51 公開日:2024-01-16
# SubseasonalClimateUSA:Subseasonal ForecastingとBenchmarkingのためのデータセット

SubseasonalClimateUSA: A Dataset for Subseasonal Forecasting and Benchmarking ( http://arxiv.org/abs/2109.10399v4 )

ライセンス: Link先を確認
Soukayna Mouatadid, Paulo Orenstein, Genevieve Flaspohler, Miruna Oprescu, Judah Cohen, Franklyn Wang, Sean Knight, Maria Geogdzhayeva, Sam Levang, Ernest Fraenkel and Lester Mackey(参考訳) 前もって2週間から6週間の天気予報は資源配分や災害報知に重要であるが、予報コミュニティには多くの課題がある。 この予測地平線では、物理に基づく力学モデルは限られたスキルを持ち、予測の対象は局所気象変数と地球規模の気候変数の両方に複雑な方法で依存する。 近年、機械学習の手法は、技術の進歩において有望であるが、複雑なデータキュレーションのコスト、専門家の知識と複数の関連するデータソース、ファイルフォーマット、時間的および空間的な解像度を集約する。 このプロセスを合理化し,今後の発展を加速するために,米国におけるサブシーズン予測モデルのトレーニングとベンチマークのためのキュレートデータセットであるSubseasonalClimateUSAを導入する。 このデータセットを用いて,操作力学モデル,古典的気象ベースライン,最先端機械学習10と深層学習に基づく手法など,さまざまなモデルのベンチマークを行う。 全体として、我々のベンチマークは、現在の運用モデルの精度を高めるためのシンプルで効果的な方法を提案する。 SubseasonalClimateUSAは、https://github.com/microsoft/subseasonal_data/ Pythonパッケージを通じて定期的に更新され、アクセスできる。

Subseasonal forecasting of the weather two to six weeks in advance is critical for resource allocation and advance disaster notice but poses many challenges for the forecasting community. At this forecast horizon, physics-based dynamical models have limited skill, and the targets for prediction depend in a complex manner on both local weather variables and global climate variables. Recently, machine learning methods have shown promise in advancing the state of the art but only at the cost of complex data curation, integrating expert knowledge with aggregation across multiple relevant data sources, file formats, and temporal and spatial resolutions. To streamline this process and accelerate future development, we introduce SubseasonalClimateUSA, a curated dataset for training and benchmarking subseasonal forecasting models in the United States. We use this dataset to benchmark a diverse suite of models, including operational dynamical models, classical meteorological baselines, and ten state-of-the-art machine learning and deep learning-based methods from the literature. Overall, our benchmarks suggest simple and effective ways to extend the accuracy of current operational models. SubseasonalClimateUSA is regularly updated and accessible via the https://github.com/microsoft/subseasonal_data/ Python package.
翻訳日:2024-01-18 22:25:37 公開日:2024-01-16
# スパースシナプスバーストによるドメイン伝達の連続学習

Continual learning under domain transfer with sparse synaptic bursting ( http://arxiv.org/abs/2108.12056v9 )

ライセンス: Link先を確認
Shawn L. Beaulieu, Jeff Clune, Nick Cheney(参考訳) 既存のマシンは、予測と制御を簡単にするための機能的に特定のツールである。 明日の機械は、変異性、レジリエンス、自律性において生物学的システムに近いかもしれない。 しかし、まずは、任意の頻度でその情報に触れることなく、新しい情報を学び、保持できなければならない。 このようなシステムを設計しようとする過去には、特定のタスクや入力に独特の感度を持つ重みの非結合セットを使用して、ニューラルネットワークを構築したり、規制したりする試みがあった。 これはまだ、既存の知識を損なうことなく、これまで見つからなかったデータの長いシーケンスを連続的に学習することを可能にしていない。 本稿では,これまで見られなかったデータセット(ImageNet, CIFAR-100)を,時間とともにほとんど忘れずに逐次学習できるシステムを提案する。 これは、第2のフィードフォワードニューラルネットワークによって生成されたトップダウン制御を用いて入力に基づいて畳み込みニューラルネットワークにおける重み付けのアクティビティを制御することによって行われる。 本手法は,タスク固有のモジュールの維持ではなく,タスク間で再利用される重みのスパースバーストを用いて,ドメイン転送下で連続的に学習する。 スパースシナプスバーストは活動と抑制のバランスを保ち、既存の知識を損なうことなく新しい関数を学習できるようにし、カオスの端にある系の秩序と混乱のバランスを反映させる。 この挙動は、制御されたシナプスが予測誤差最小化による一様抑制の初期状態から選択的に阻害または成長される事前訓練(または「メタラーニング」)フェーズ中に現れる。

Existing machines are functionally specific tools that were made for easy prediction and control. Tomorrow's machines may be closer to biological systems in their mutability, resilience, and autonomy. But first they must be capable of learning and retaining new information without being exposed to it arbitrarily often. Past efforts to engineer such systems have sought to build or regulate artificial neural networks using disjoint sets of weights that are uniquely sensitive to specific tasks or inputs. This has not yet enabled continual learning over long sequences of previously unseen data without corrupting existing knowledge: a problem known as catastrophic forgetting. In this paper, we introduce a system that can learn sequentially over previously unseen datasets (ImageNet, CIFAR-100) with little forgetting over time. This is done by controlling the activity of weights in a convolutional neural network on the basis of inputs using top-down regulation generated by a second feed-forward neural network. We find that our method learns continually under domain transfer with sparse bursts of activity in weights that are recycled across tasks, rather than by maintaining task-specific modules. Sparse synaptic bursting is found to balance activity and suppression such that new functions can be learned without corrupting extant knowledge, thus mirroring the balance of order and disorder in systems at the edge of chaos. This behavior emerges during a prior pre-training (or 'meta-learning') phase in which regulated synapses are selectively disinhibited, or grown, from an initial state of uniform suppression through prediction error minimization.
翻訳日:2024-01-18 22:25:15 公開日:2024-01-16
# 不規則Bose-Hubbard鎖の固有状態特性

Eigenstate properties of the disordered Bose-Hubbard chain ( http://arxiv.org/abs/2104.08582v4 )

ライセンス: Link先を確認
Jie Chen, Chun Chen, and Xiaoqun Wang(参考訳) 1次元の無秩序相互作用ボソン系の多体局在(mbl)を充填層で数値的に研究した。 フォン・ノイマンエンタングルメントエントロピー SvN は、通常、MBL相転移を検出するために用いられるが、直接測定することは困難である。 粒子数保存からのU(1)対称性に基づいて、SvNは粒子数エントロピーSNと構成エントロピーSCに分解することができる。 固有状態のscが局所化相でゼロに近い傾向を考えると、理想的な熱化分布からsnの偏差を記述する量を導入する;有限サイズのスケーリング解析は、svnと同じ相転移点を共有するが、より優れた臨界指数を示す。 この観察はmblへの相転移がsnとそのゆらぎによって決定される可能性を示唆している。 特に、最近の実験 (A. Lukin et al., Science 364, 256 (2019), J. Leonard et al., Nat. Phys. 19, 481 (2023)) では、この偏差はSN測定によって測定できることが示されている。 さらに, 熱状態がスペクトルの低エネルギー領域を主に占めていることが, 局在長, ギャップ比, エネルギー密度分布の指標で示される。 このボース模型の低エネルギースペクトルはフェルミ(またはスピンxxz)模型のスペクトル全体によく似ており、熱化された状態から局所状態への遷移を伴っている。 ボソニック統計により、モデルの高エネルギースペクトルは、ランダムポテンシャル背景における異なるボソンのクラスターの形成を可能にする。 得られた固有状態特性を分析し,関連するダイナミクスを簡潔に要約する。 低エネルギーの位相領域と高エネルギーの位相領域を区別するために、SvNの構造に基づく探索量も考案される。

Many-body localization (MBL) of a disordered interacting boson system in one dimension is studied numerically at the filling faction one-half. The von Neumann entanglement entropy SvN is commonly used to detect the MBL phase transition but remains challenging to be directly measured. Based on the U(1) symmetry from the particle number conservation, SvN can be decomposed into the particle number entropy SN and the configuration entropy SC. In light of the tendency that the eigenstate's SC nears zero in the localized phase, we introduce a quantity describing the deviation of SN from the ideal thermalization distribution; finite-size scaling analysis illustrates that it shares the same phase transition point with SvN but displays the better critical exponents. This observation hints that the phase transition to MBL might largely be determined by SN and its fluctuations. Notably, the recent experiments [A. Lukin et al., Science 364, 256 (2019); J. Leonard et al., Nat. Phys. 19, 481 (2023)] demonstrated that this deviation can potentially be measured through the SN measurement. Furthermore, our investigations reveal that the thermalized states primarily occupy the low-energy section of the spectrum, as indicated by measures of localization length, gap ratio, and energy density distribution. This low-energy spectrum of the Bose model closely resembles the entire spectrum of the Fermi (or spin XXZ) model, accommodating a transition from the thermalized to the localized states. While, owing to the bosonic statistics, the high-energy spectrum of the model allows the formation of distinct clusters of bosons in the random potential background. We analyze the resulting eigenstate properties and briefly summarize the associated dynamics. To distinguish between the phase regions at the low and high energies, a probing quantity based on the structure of SvN is also devised.
翻訳日:2024-01-18 22:24:09 公開日:2024-01-16
# ヒルベルト空間の圏に対する公理と線型収縮

Axioms for the category of Hilbert spaces and linear contractions ( http://arxiv.org/abs/2211.02688v3 )

ライセンス: Link先を確認
Chris Heunen, Andre Kornell, Nesta van der Schaaf(参考訳) ヒルベルト空間と線型縮約の圏は、確率、複素数、ノルム、連続性、凸性、次元を言及しない基本的な圏の性質によって特徴づけられる。

The category of Hilbert spaces and linear contractions is characterised by elementary categorical properties that do not refer to probabilities, complex numbers, norm, continuity, convexity, or dimension.
翻訳日:2024-01-18 22:16:24 公開日:2024-01-16
# 量子LDPC符号による絡み合い除去と反復復号

Entanglement Purification with Quantum LDPC Codes and Iterative Decoding ( http://arxiv.org/abs/2210.14143v2 )

ライセンス: Link先を確認
Narayanan Rengaswamy, Nithin Raveendran, Ankur Raina and Bane Vasi\'c(参考訳) 量子低密度パリティチェック(QLDPC)符号の最近の構成は、論理量子ビットの数と最小距離をコード長で最適にスケーリングし、最小のリソースオーバーヘッドでフォールトトレラント量子システムへの扉を開く。 しかし、近接接続ベースのトポロジコードから長距離対話要求QLDPCコードへのハードウェアパスは難しい。 最適なQLDPC符号に基づく量子コンピュータのためのモノリシックなアーキテクチャを構築することの現実的な困難さを考えると、相互接続された量子プロセッサのネットワーク上で、そのようなコードの分散実装を考える価値がある。 このような設定では、全てのシンドローム測定と論理演算は、処理ノード間の高忠実な共有絡み合った状態を使用して行う必要がある。 エンタングルメントを浄化するための確率的多対一蒸留法は非効率であるため,本研究における量子エラー補正に基づくエンタングルメント浄化について検討する。 具体的には,高忠実度論理GHZ状態が分散量子コンピューティング(DQC)に使用されるコード,例えばフォールトトレラントステイン症候群の抽出と直接相互作用できるため,GHZ状態の蒸留にはQLDPC符号を用いる。 このプロトコルは量子ネットワークのクインテシデントなタスクであるため、DQCを超えて適用可能である。 私たちは、min-sumアルゴリズム(msa)ベースの反復デコーダを使用して、持ち上げられた製品qldpc符号の0.118$ファミリのレートを用いて3ドルの量子ビット ghz 状態の蒸留を行い、i.i.d. で約 0.7974$ の入力しきい値を得る。 これは、任意のGHZ浄化プロトコルに対して0.118ドルの収率の最良のしきい値である。 本研究は,大規模GHZ状態にも適用し,拡張性のあるGHZ浄化プロトコルを構築するために,3$-qubit GHZ状態の測定特性に関する技術的結果を拡張した。

Recent constructions of quantum low-density parity-check (QLDPC) codes provide optimal scaling of the number of logical qubits and the minimum distance in terms of the code length, thereby opening the door to fault-tolerant quantum systems with minimal resource overhead. However, the hardware path from nearest-neighbor-connection-based topological codes to long-range-interaction-demanding QLDPC codes is a challenging one. Given the practical difficulty in building a monolithic architecture for quantum computers based on optimal QLDPC codes, it is worth considering a distributed implementation of such codes over a network of interconnected quantum processors. In such a setting, all syndrome measurements and logical operations must be performed using high-fidelity shared entangled states between the processing nodes. Since probabilistic many-to-1 distillation schemes for purifying entanglement are inefficient, we investigate quantum error correction based entanglement purification in this work. Specifically, we employ QLDPC codes to distill GHZ states, as the resulting high-fidelity logical GHZ states can interact directly with the code used to perform distributed quantum computing (DQC), e.g. for fault-tolerant Steane syndrome extraction. This protocol is applicable beyond DQC since entanglement purification is a quintessential task of any quantum network. We use the min-sum algorithm (MSA) based iterative decoder for distilling $3$-qubit GHZ states using a rate $0.118$ family of lifted product QLDPC codes and obtain an input threshold of $\approx 0.7974$ under i.i.d. single-qubit depolarizing noise. This represents the best threshold for a yield of $0.118$ for any GHZ purification protocol. Our results apply to larger size GHZ states as well, where we extend our technical result about a measurement property of $3$-qubit GHZ states to construct a scalable GHZ purification protocol.
翻訳日:2024-01-18 22:16:19 公開日:2024-01-16
# 被覆木を用いた最小分離による安定スパースガウス過程

Numerically Stable Sparse Gaussian Processes via Minimum Separation using Cover Trees ( http://arxiv.org/abs/2210.07893v4 )

ライセンス: Link先を確認
Alexander Terenin, David R. Burt, Artem Artemev, Seth Flaxman, Mark van der Wilk, Carl Edward Rasmussen, and Hong Ge(参考訳) ガウス過程は、地理空間モデリングやベイズ最適化、潜在ガウスモデルなど、より大きな機械学習や意思決定システムの一部として頻繁に展開される。 システム内では、ガウスのプロセスモデルがシステムの他の部分と正しく相互作用するために、安定かつ信頼性の高い方法で実行する必要がある。 本研究では,誘導点に基づくスケーラブルスパース近似の数値安定性について検討する。 そこで本研究では,まず数値安定性を考察し,ガウス過程モデルが不安定な典型例を示す。 補間文献で開発された安定性理論を基礎として, 数値的に安定な計算を行うための誘導点の条件を十分かつ必要条件として導出する。 地理空間モデリングなどの低次元タスクに対しては,これらの条件を満たす点を自動計算する手法を提案する。 これは、独立した関心を持つ被覆木データ構造の変更によって行われる。 さらに,少数の性能をトレードオフして安定性をさらに向上する,ガウス確率を持つ回帰に対する別のスパース近似を提案する。 本研究では,空間タスクにおける誘導点法の安定性と予測性能の関係を示す例を示す。

Gaussian processes are frequently deployed as part of larger machine learning and decision-making systems, for instance in geospatial modeling, Bayesian optimization, or in latent Gaussian models. Within a system, the Gaussian process model needs to perform in a stable and reliable manner to ensure it interacts correctly with other parts of the system. In this work, we study the numerical stability of scalable sparse approximations based on inducing points. To do so, we first review numerical stability, and illustrate typical situations in which Gaussian process models can be unstable. Building on stability theory originally developed in the interpolation literature, we derive sufficient and in certain cases necessary conditions on the inducing points for the computations performed to be numerically stable. For low-dimensional tasks such as geospatial modeling, we propose an automated method for computing inducing points satisfying these conditions. This is done via a modification of the cover tree data structure, which is of independent interest. We additionally propose an alternative sparse approximation for regression with a Gaussian likelihood which trades off a small amount of performance to further improve stability. We provide illustrative examples showing the relationship between stability of calculations and predictive performance of inducing point methods on spatial tasks.
翻訳日:2024-01-18 22:15:21 公開日:2024-01-16
# エンド・ツー・エンド自動運転におけるコンテキスト表現とマルチモーダリティの探索

Exploring Contextual Representation and Multi-Modality for End-to-End Autonomous Driving ( http://arxiv.org/abs/2210.06758v2 )

ライセンス: Link先を確認
Shoaib Azam, Farzeen Munir, Ville Kyrki, Moongu Jeon, and Witold Pedrycz(参考訳) 文脈的および空間的環境表現の学習は、複雑なシナリオにおける自動運転車の危険予測と意思決定を促進する。 最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。 人間は運転時に自然に、歴史的データ、状況の微妙さ、他の道路利用者の行動予測などの様々な要素を統合するニューラルネットワークを使って、周囲の豊かな文脈的理解を形成する。 この神経地図に基づく理解は、道路上の情報的決定に不可欠である。 対照的に、大きな進歩にもかかわらず、自律システムは人間のような文脈理解の深みを完全に活用していない。 当社の研究は、人間の運転パターンから着想を得て、エンドツーエンドの自動運転フレームワークにおけるセンサ融合アプローチの形式化を目指しています。 3つのカメラ(左、右、中央)を統合し、人間の視野をエミュレートし、トップダウンのバード・アイ・ビュー意味データと組み合わせてコンテクスト表現を強化した。 センサデータは自己アテンション機構を用いて融合符号化され、自己回帰型ウェイポイント予測モジュールとなる。 特徴表現を逐次問題として扱い、視覚変換器を用いてセンサモード間のコンテキスト相互作用を抽出する。 提案手法の有効性をオープンループとクローズループの両方で実験的に評価した。 オープンループ設定では変位誤差を0.67mとし,nuscenesデータセットでは現在の手法を6.9%上回った。 CARLAのCown05 Long and Longest6ベンチマークのクローズドループ評価では、提案手法は駆動性能、経路完成性を高め、違反を減らす。

Learning contextual and spatial environmental representations enhances autonomous vehicle's hazard anticipation and decision-making in complex scenarios. Recent perception systems enhance spatial understanding with sensor fusion but often lack full environmental context. Humans, when driving, naturally employ neural maps that integrate various factors such as historical data, situational subtleties, and behavioral predictions of other road users to form a rich contextual understanding of their surroundings. This neural map-based comprehension is integral to making informed decisions on the road. In contrast, even with their significant advancements, autonomous systems have yet to fully harness this depth of human-like contextual understanding. Motivated by this, our work draws inspiration from human driving patterns and seeks to formalize the sensor fusion approach within an end-to-end autonomous driving framework. We introduce a framework that integrates three cameras (left, right, and center) to emulate the human field of view, coupled with top-down bird-eye-view semantic data to enhance contextual representation. The sensor data is fused and encoded using a self-attention mechanism, leading to an auto-regressive waypoint prediction module. We treat feature representation as a sequential problem, employing a vision transformer to distill the contextual interplay between sensor modalities. The efficacy of the proposed method is experimentally evaluated in both open and closed-loop settings. Our method achieves displacement error by 0.67m in open-loop settings, surpassing current methods by 6.9% on the nuScenes dataset. In closed-loop evaluations on CARLA's Town05 Long and Longest6 benchmarks, the proposed method enhances driving performance, route completion, and reduces infractions.
翻訳日:2024-01-18 22:15:00 公開日:2024-01-16
# 固体スピン中心を用いたスピン1/2xyzモデルの量子シミュレーション

Quantum simulation of spin-1/2 XYZ model using solid-state spin centers ( http://arxiv.org/abs/2209.07516v2 )

ライセンス: Link先を確認
Troy Losey, Denis R. Candido, Jin Zhang, Y. Meurice, M. E. Flatt\'e, and S.-W. Tsai(参考訳) 本研究では半導体にスピンセンタを埋め込んだ量子シミュレータを構築するための新しい固体プラットフォームを提案する。 外部磁場の存在下では、磁気双極子-双極子相互作用を介して相互作用するS=1$スピンセンターの配列を、外部磁場におけるXYZモデルと同等の有効スピンハーフ系にマッピングできることを示す。 興味深いことに、この系は幅広い量子位相と臨界挙動を示しており、スピン中心の磁場と配向配置によって制御できる。 相互作用するスピン鎖は等方性ハイゼンベルクモデルと横場イジング普遍性クラスの両方に調整可能であることを示す。 特に、このモデルには、システムがベレジンスキー-コステルリッツ-トゥーレスおよびポクロフスキー-タラポフ遷移点で終わる臨界浮遊状態にある線が含まれている。 本システムは,スピン中心に基づく浮遊相に対する最初の固体量子シミュレータとして提案する。

In this work we propose a novel solid-state platform for creating quantum simulators based on implanted spin centers in semiconductors. We show that under the presence of an external magnetic field, an array of $S=1$ spin centers interacting through magnetic dipole-dipole interaction can be mapped into an effective spin-half system equivalent to the XYZ model in an external magnetic field. Interestingly, this system presents a wide range of quantum phases and critical behaviors that can be controlled via magnetic field and orientational arrangement of the spin centers. We demonstrate our interacting spin chain can be tuned to both isotropic Heisenberg model and transverse-field Ising universality class. Notably, our model contains a line where the system is in a critical floating phase that terminates at Berezinskii-Kosterlitz-Thouless and Pokrovsky-Talapov transition points. We propose this system as the first solid-state quantum simulator for the floating phase based on spin centers.
翻訳日:2024-01-18 22:12:54 公開日:2024-01-16
# 量子確率歩行によるgoogle検索の縮退

Resolving degeneracies in Google search via quantum stochastic walks ( http://arxiv.org/abs/2207.11429v2 )

ライセンス: Link先を確認
Colin Benjamin, Naini Dudhe(参考訳) インターネットは、これまで発明された最も価値のある技術の1つだ。 中でもgoogleは最も広く使われている検索エンジンだ。 PageRankアルゴリズムはGoogle検索のバックボーンであり、関連性と関連性に応じてウェブページをランク付けする。 我々は古典的連続時間ランダムウォークに基づく古典的PageRank(CPR)アルゴリズムを改善するために量子確率ウォーク(QSW)を用いる。 我々は2つのスキームを通じてQSWを実装し、非コヒーレンスと非コヒーレンスを重んじる。 ページランクは、非コヒーレンスまたは非コヒーレンスでのみQSWを使用し、CPRによって解決できない退化を最もよく解決し、一般的には最小のCPRと同等の収束時間で解決する。 いくつかのネットワークでは、2つのqswスキームはcprよりも低い収束時間とほぼ縮退のないランキングを得る。

The Internet is one of the most valuable technologies invented to date. Among them, Google is the most widely used search engine. The PageRank algorithm is the backbone of Google search, ranking web pages according to relevance and recency. We employ quantum stochastic walks (QSWs) to improve the classical PageRank (CPR) algorithm based on classical continuous time random walks. We implement QSW via two schemes: only incoherence and dephasing with incoherence. PageRank using QSW with only incoherence or QSW with dephasing and incoherence best resolves degeneracies that are unresolvable via CPR and with a convergence time comparable to that for CPR, which is generally the minimum. For some networks, the two QSW schemes obtain a convergence time lower than CPR and an almost degeneracy-free ranking compared to CPR.
翻訳日:2024-01-18 22:11:31 公開日:2024-01-16
# 実際にそれを2回見る(yaltai): krakenエンジン内の領域分割の代わりにオブジェクト検出アプローチを使う

You Actually Look Twice At it (YALTAi): using an object detection approach instead of region segmentation within the Kraken engine ( http://arxiv.org/abs/2207.11230v2 )

ライセンス: Link先を確認
Thibault Cl\'erice (ENC, CJM, HiSoMA, UJML, ALMAnaCH)(参考訳) レイアウト分析(ゾーンの識別とその分類)は、光学的文字認識と類似のタスクにおけるラインセグメンテーションに沿った最初のステップである。 テキストの本体を限界テキストやランニングタイトルから識別する能力は、デジタル化された本の全文を抽出することとノイズのある出力を区別する。 多くのセグメンタは画素分類に焦点を当てており、この出力の多角化は2010年代前半の焦点であったにもかかわらず、最新の歴史文書(icdar 2017以降)のターゲットには使われていない。 本稿では,画素分類に基づく多角化から等角形を用いた物体検出へタスクを効率良くシフトする。 krakenとyolov5のアウトプットをセグメンテーションの観点で比較し、後続のアウトプットが小さなデータセット (1110サンプル以下) で最初の値を大きく上回っていることを示した。 歴史的文書のトレーニングと評価のための2つのデータセットと,Kraken 4.1のセグメンテーションパイプラインにYOLOv5を注入する新しいパッケージYALTAiをリリースする。

Layout Analysis (the identification of zones and their classification) is the first step along line segmentation in Optical Character Recognition and similar tasks. The ability of identifying main body of text from marginal text or running titles makes the difference between extracting the work full text of a digitized book and noisy outputs. We show that most segmenters focus on pixel classification and that polygonization of this output has not been used as a target for the latest competition on historical document (ICDAR 2017 and onwards), despite being the focus in the early 2010s. We propose to shift, for efficiency, the task from a pixel classification-based polygonization to an object detection using isothetic rectangles. We compare the output of Kraken and YOLOv5 in terms of segmentation and show that the later severely outperforms the first on small datasets (1110 samples and below). We release two datasets for training and evaluation on historical documents as well as a new package, YALTAi, which injects YOLOv5 in the segmentation pipeline of Kraken 4.1.
翻訳日:2024-01-18 22:11:14 公開日:2024-01-16
# 非ガウス演算による絡み合いのメトロロジカル検出

Metrological detection of entanglement generated by non-Gaussian operations ( http://arxiv.org/abs/2301.03909v2 )

ライセンス: Link先を確認
David Barral, Mathieu Isoard, Giacomo Sorelli, Manuel Gessner, Nicolas Treps, Mattia Walschaers(参考訳) 絡み合いと非ゲージ性は、多くの量子光学プロトコルに不可欠な物理資源である。 非ガウス的絡み合いは量子計算の優位性には不可欠であり、多くの量子情報プロトコルにおいてガウス的よりも優れている。 非ガウス的絡み合いの特性は、一般に資源の観点から非常に要求されるため、重要な問題である。 本稿では,非ガウス的絡み合い状態の重要クラスにおける絡み合いを目撃するためのフィッシャー情報に基づく簡単なプロトコルを提案する。 提案手法は,複数光子サブトラクションによる非ガウス的絡み合いの検出とホモダイン検出により実験的に実現可能であることを示す。

Entanglement and non-Gaussianity are physical resources that are essential for a large number of quantum-optics protocols. Non-Gaussian entanglement is indispensable for quantum-computing advantage and outperforms its Gaussian counterparts in a number of quantum-information protocols. The characterization of non-Gaussian entanglement is a critical matter as it is in general highly demanding in terms of resources. We propose a simple protocol based on the Fisher information for witnessing entanglement in an important class of non-Gaussian entangled states: photon-subtracted states. We demonstrate that our protocol is relevant for the detection of non-Gaussian entanglement generated by multiple photon-subtraction and that it is experimentally feasible through homodyne detection.
翻訳日:2024-01-18 22:02:58 公開日:2024-01-16
# 高次元予測回帰のためのLASSOについて

On LASSO for High Dimensional Predictive Regression ( http://arxiv.org/abs/2212.07052v2 )

ライセンス: Link先を確認
Ziwei Mei and Zhentao Shi(参考訳) 本稿では,L_{1}$-penalized regression法であるLASSOを高次元線形予測回帰法において広く用いられている。 LASSO の整合性は、回帰器の交叉積の偏差境界と誤差項と、グラム行列の制限固有値の2つの重要な成分に基づいて決定される。 これらの成分に対する新しい確率的境界を示し,ラスソの収束率は,断面の場合の通常観測値とは異なることを示唆する。 定常、非定常、および共積分予測器の混合に適用すると、LASSOは予測器がスケール標準化されている場合、その漸近保証を維持する。 機械学習とマクロ経済分野の専門知識を活用して、LASSOはFRED-MDデータベースへの適用によって証明されているように、失業率の予測において高いパフォーマンスを示す。

This paper examines LASSO, a widely-used $L_{1}$-penalized regression method, in high dimensional linear predictive regressions, particularly when the number of potential predictors exceeds the sample size and numerous unit root regressors are present. The consistency of LASSO is contingent upon two key components: the deviation bound of the cross product of the regressors and the error term, and the restricted eigenvalue of the Gram matrix. We present new probabilistic bounds for these components, suggesting that LASSO's rates of convergence are different from those typically observed in cross-sectional cases. When applied to a mixture of stationary, nonstationary, and cointegrated predictors, LASSO maintains its asymptotic guarantee if predictors are scale-standardized. Leveraging machine learning and macroeconomic domain expertise, LASSO demonstrates strong performance in forecasting the unemployment rate, as evidenced by its application to the FRED-MD database.
翻訳日:2024-01-18 22:02:45 公開日:2024-01-16
# PathFusion:パスに一貫性のあるLidar-Camera Deep Feature Fusion

PathFusion: Path-consistent Lidar-Camera Deep Feature Fusion ( http://arxiv.org/abs/2212.06244v3 )

ライセンス: Link先を確認
Lemeng Wu, Dilin Wang, Meng Li, Yunyang Xiong, Raghuraman Krishnamoorthi, Qiang Liu, Vikas Chandra(参考訳) 3D LiDAR機能と2Dカメラ機能を組み合わせることは、3D検出の精度を高めるための有望なテクニックだ。 既存の手法のほとんどは、生のLiDAR点雲や浅層3D機能と直接融合するカメラ機能に重点を置いているが、より深い層に2Dと3Dの機能を直接結合することで、機能障害による精度の低下につながることが観察されている。 このミスアライメントは、大きな受容領域から学んだ特徴の集約に由来するもので、より深い層を掘り下げるにつれて、ますます深刻になる。 本稿では,意味的コヒーレントなLiDARカメラの深い特徴融合を実現するためのソリューションとしてPathFusionを提案する。 PathFusionはネットワーク内の複数の段階におけるパス一貫性の損失を導入し、2Dバックボーンとその融合パスが3Dバックボーンの変換とセマンティックに整合するように2D機能を変換することを奨励する。 これにより、2Dと3Dの機能間のセマンティックな一貫性が保証され、ネットワークの学習能力が向上する。 従来型の核融合ベースラインである Focals Conv の改善に PathFusion を適用し,nuScenes テストでは mAP が 1.6% 以上向上し,テスト時データ拡張を伴わず,かつ,KITTI $\text{AP}_{\text{3D}}$ (R11) も約 0.6% 向上した。

Fusing 3D LiDAR features with 2D camera features is a promising technique for enhancing the accuracy of 3D detection, thanks to their complementary physical properties. While most of the existing methods focus on directly fusing camera features with raw LiDAR point clouds or shallow-level 3D features, it is observed that directly combining 2D and 3D features in deeper layers actually leads to a decrease in accuracy due to feature misalignment. The misalignment, which stems from the aggregation of features learned from large receptive fields, becomes increasingly more severe as we delve into deeper layers. In this paper, we propose PathFusion as a solution to enable the alignment of semantically coherent LiDAR-camera deep feature fusion. PathFusion introduces a path consistency loss at multiple stages within the network, encouraging the 2D backbone and its fusion path to transform 2D features in a way that aligns semantically with the transformation of the 3D backbone. This ensures semantic consistency between 2D and 3D features, even in deeper layers, and amplifies the usage of the network's learning capacity. We apply PathFusion to improve a prior-art fusion baseline, Focals Conv, and observe an improvement of over 1.6% in mAP on the nuScenes test split consistently with and without testing-time data augmentations, and moreover, PathFusion also improves KITTI $\text{AP}_{\text{3D}}$ (R11) by about 0.6% on the moderate level.
翻訳日:2024-01-18 22:02:28 公開日:2024-01-16
# 量子カオスと時間の矢印

Quantum chaos and the arrow of time ( http://arxiv.org/abs/2212.03914v6 )

ライセンス: Link先を確認
Nilakash Sorokhaibam(参考訳) 古典物理学は、熱力学の第2法則の形で時間の矢印を与える。 しかし、時空の矢印の量子的起源の明確な写真は今のところ不足している。 本文では,量子カオス系において時間矢印が発生することを示す。 カオス的でもある孤立量子系では、系が摂動するとエントロピーの変化は非負であることが示されている。 このことは、固有状態熱化仮説(ETH)における対角線外項に新たな深い制約をもたらすことを示す。 可積分系の場合、第二法則は有限摂動の後に一般化されたギブスアンサンブルに熱化しないため、真ではない。

Classical physics provides an arrow of time in the form of the second law of thermodynamics. But a clear picture of the quantum origin of the arrow of time has been lacking so far. In this letter, we show that an arrow of time arises in quantum chaotic systems. We show that, for an isolated quantum system which is also chaotic, the change in entropy is non-negative when the system is perturbed. We show that this gives rise to a new profound constraint on the off-diagonal terms in eigenstate thermalization hypothesis (ETH) statement. In case of an integrable system, second law does not hold true because the system does not thermalize to a generalized Gibbs ensemble after a finite perturbation.
翻訳日:2024-01-18 22:01:22 公開日:2024-01-16
# 言語濃度を用いたモデル推論精度の厳密な評価

Rigorous Assessment of Model Inference Accuracy using Language Cardinality ( http://arxiv.org/abs/2211.16587v3 )

ライセンス: Link先を確認
Donato Clun, Donghwan Shin, Antonio Filieri, Domenico Bianculli(参考訳) 有限状態オートマトンのようなモデルは、実行中に観測可能なイベントのシーケンスをキャプチャすることでソフトウェアシステムの振る舞いを抽象化するために広く使われている。 それでも、モデルが実際に存在することはめったになく、その場合には、容易に時代遅れになり、さらに、手動でモデルを構築し、メンテナンスすることは、コストがかかり、エラーが発生します。 その結果、これらの問題に対処するために、実行トレースからモデルを自動的に構築する様々なモデル推論手法が提案されている。 しかし、推論されたモデルの体系的かつ信頼性の高い精度評価を行うことは、未解決の問題である。 参照モデルが与えられたとしても、既存のモデル精度評価手法のほとんどは、誤解を招く結果や偏った結果を返す可能性がある。 これは主に、有限個のランダムに生成されたトレースに対する統計的推定子に依存しており、推定に関する避けられない不確実性をもたらし、ランダムなトレース生成プロセスのパラメータに敏感である。 本稿では,モデル精度評価におけるバイアスと不確実性を最小限に抑え,統計的推定を決定論的精度尺度に置き換える,解析的組合せに基づく系統的アプローチを提案する。 確立された仕様マイニングベンチマークから参照モデルに対する最先端推論ツールによって推定されるモデルの精度を評価することにより,提案手法の一貫性と妥当性を実験的に実証した。

Models such as finite state automata are widely used to abstract the behavior of software systems by capturing the sequences of events observable during their execution. Nevertheless, models rarely exist in practice and, when they do, get easily outdated; moreover, manually building and maintaining models is costly and error-prone. As a result, a variety of model inference methods that automatically construct models from execution traces have been proposed to address these issues. However, performing a systematic and reliable accuracy assessment of inferred models remains an open problem. Even when a reference model is given, most existing model accuracy assessment methods may return misleading and biased results. This is mainly due to their reliance on statistical estimators over a finite number of randomly generated traces, introducing avoidable uncertainty about the estimation and being sensitive to the parameters of the random trace generative process. This paper addresses this problem by developing a systematic approach based on analytic combinatorics that minimizes bias and uncertainty in model accuracy assessment by replacing statistical estimation with deterministic accuracy measures. We experimentally demonstrate the consistency and applicability of our approach by assessing the accuracy of models inferred by state-of-the-art inference tools against reference models from established specification mining benchmarks.
翻訳日:2024-01-18 22:01:10 公開日:2024-01-16
# 大質量物体の量子性試験のための質量非依存スキーム

Mass-Independent Scheme to Test the Quantumness of a Massive Object ( http://arxiv.org/abs/2211.10318v3 )

ライセンス: Link先を確認
Debarshi Das, Dipankar Home, Hendrik Ulbricht, Sougato Bose(参考訳) 大質量の非古典性を証明するための経験的スキームの探索は、現在の研究の中心的な探求である。 しかし、任意に大きい質量の既約量子性を見るための実践的なスキームはいまだに欠けている。 この目的のために、我々は、マクロリアリズム(MR)の古典的中心概念の量子的違反を探索するための標準ツールに重要な修正を加え、通常の試験では、同じ測定配列を連続的に使用しているが、ここでは2つの異なる測定配列を用いる。 MRの質量非依存な違反は、高調波発振器系に対して可能である。 実際、我々の適応は文字通りあらゆる質量、運動量、周波数に対する量子違反の探索を可能にする。 さらに, 標準量子限界よりも精度の悪い粗粒度位置測定と, この精度にのみ関連するパラメータを知ることで, 調整を必要とせず, 提案に十分である。 これらは、原子イオンからLIGOのマクロミラーまで、巨大な物体の非古典性をテストする実験を劇的に単純化する。

The search for empirical schemes to evidence the nonclassicality of large masses is a central quest of current research. However, practical schemes to witness the irreducible quantumness of an arbitrarily large mass are still lacking. To this end, we incorporate crucial modifications to the standard tools for probing the quantum violation of the pivotal classical notion of macrorealism (MR): while usual tests use the same measurement arrangement at successive times, here we use two different measurement arrangements. This yields a striking result: a mass-independent violation of MR is possible for harmonic oscillator systems. In fact, our adaptation enables probing quantum violations for literally any mass, momentum, and frequency. Moreover, coarse-grained position measurements at an accuracy much worse than the standard quantum limit, as well as knowing the relevant parameters only to this precision, without requiring them to be tuned, suffice for our proposal. These should drastically simplify the experimental effort in testing the nonclassicality of massive objects ranging from atomic ions to macroscopic mirrors in LIGO.
翻訳日:2024-01-18 22:00:33 公開日:2024-01-16
# MLIC:学習画像圧縮のためのマルチ参照エントロピーモデル

MLIC: Multi-Reference Entropy Model for Learned Image Compression ( http://arxiv.org/abs/2211.07273v9 )

ライセンス: Link先を確認
Wei Jiang, Jiayu Yang, Yongqi Zhai, Peirong Ning, Feng Gao, Ronggang Wang(参考訳) 近年,学習画像の圧縮性能は著しく向上している。 潜在表現の分布を推定するエントロピーモデルは、速度分散性能の向上に重要な役割を果たしている。 しかし、ほとんどのエントロピーモデルは1次元の相関のみを捉えるが、潜在表現はチャネル回り、局所空間、大域的な空間相関を含む。 この問題に対処するため、Multi-Reference Entropy Model (MEM) と高度なバージョンMEM$^+$を提案する。 これらのモデルは潜在表現に存在する異なる種類の相関を捉える。 具体的には、まず潜在表現をスライスに分割する。 現在のスライスを復号する際には、予め復号されたスライスをコンテキストとして使用し、それまでのスライスのアテンションマップを用いて、現在のスライスにおける大域的相関を予測する。 ローカルコンテキストをキャプチャするために,性能劣化を回避する2つの拡張チェッカーボードコンテキストキャプチャ技術を導入する。 MEM と MEM$^+$ に基づいて,画像圧縮モデル MLIC と MLIC$^+$ を提案する。 我々のMLICおよびMLIC$^+$モデルは、PSNRで測定されたVTM-17.0と比較して、Kodakデータセット上でのBDレートが8.05\%$と11.39\%$に減少する。 私たちのコードはhttps://github.com/jiangweibeta/mlicで利用可能です。

Recently, learned image compression has achieved remarkable performance. The entropy model, which estimates the distribution of the latent representation, plays a crucial role in boosting rate-distortion performance. However, most entropy models only capture correlations in one dimension, while the latent representation contain channel-wise, local spatial, and global spatial correlations. To tackle this issue, we propose the Multi-Reference Entropy Model (MEM) and the advanced version, MEM$^+$. These models capture the different types of correlations present in latent representation. Specifically, We first divide the latent representation into slices. When decoding the current slice, we use previously decoded slices as context and employ the attention map of the previously decoded slice to predict global correlations in the current slice. To capture local contexts, we introduce two enhanced checkerboard context capturing techniques that avoids performance degradation. Based on MEM and MEM$^+$, we propose image compression models MLIC and MLIC$^+$. Extensive experimental evaluations demonstrate that our MLIC and MLIC$^+$ models achieve state-of-the-art performance, reducing BD-rate by $8.05\%$ and $11.39\%$ on the Kodak dataset compared to VTM-17.0 when measured in PSNR. Our code is available at https://github.com/JiangWeibeta/MLIC.
翻訳日:2024-01-18 22:00:12 公開日:2024-01-16
# Cascade-guided Adversarial Trainingによるよりロバストで正確なシーケンスレコメンデーションを目指して

Towards More Robust and Accurate Sequential Recommendation with Cascade-guided Adversarial Training ( http://arxiv.org/abs/2304.05492v2 )

ライセンス: Link先を確認
Juntao Tan, Shelby Heinecke, Zhiwei Liu, Yongjun Chen, Yongfeng Zhang, Huan Wang(参考訳) 時系列レコメンデーションモデル、時系列ユーザとイテムのインタラクションから学習するモデルは、多くの設定で従来のレコメンデーションモデルを上回っます。 逐次レコメンデーションモデルの成功にもかかわらず、その堅牢性が最近疑問視されている。 シーケンシャルレコメンデーションモデルの性質に特有の2つの特性は、トレーニング中に引き起こされるカスケード効果と、時間的情報に強く依存する傾向という、その堅牢性を損なう可能性がある。 これらの脆弱性に対処するため,我々は逐次レコメンデーションモデル用に特別に設計された新しいアドバーサリートレーニング手順であるカスケードガイドによるアドバーサリートレーニングを提案する。 本手法は, 逐次モデリングにおける内在的カスケード効果を利用して, トレーニング中のアイテム埋め込みに対する戦略的逆転摂動を生成する。 異なる領域の4つのパブリックデータセットにおける最先端シーケンシャルモデルのトレーニング実験では、標準モデルトレーニングと一般逆トレーニングの両方と比較して、トレーニングアプローチにより、実アイテム置換摂動に対して優れたモデルランキング精度と優れたモデルロバスト性が得られた。

Sequential recommendation models, models that learn from chronological user-item interactions, outperform traditional recommendation models in many settings. Despite the success of sequential recommendation models, their robustness has recently come into question. Two properties unique to the nature of sequential recommendation models may impair their robustness - the cascade effects induced during training and the model's tendency to rely too heavily on temporal information. To address these vulnerabilities, we propose Cascade-guided Adversarial training, a new adversarial training procedure that is specifically designed for sequential recommendation models. Our approach harnesses the intrinsic cascade effects present in sequential modeling to produce strategic adversarial perturbations to item embeddings during training. Experiments on training state-of-the-art sequential models on four public datasets from different domains show that our training approach produces superior model ranking accuracy and superior model robustness to real item replacement perturbations when compared to both standard model training and generic adversarial training.
翻訳日:2024-01-18 21:52:33 公開日:2024-01-16
# swissbert: スイスにおける多言語言語モデル

SwissBERT: The Multilingual Language Model for Switzerland ( http://arxiv.org/abs/2303.13310v3 )

ライセンス: Link先を確認
Jannis Vamvas and Johannes Gra\"en and Rico Sennrich(参考訳) スイス関連テキストの処理に特化したマスク付き言語モデルであるSwissBERTを提案する。 SwissBERTは事前訓練されたモデルで、スイス(ドイツ語、フランス語、イタリア語、ロマンシュ語)の国語で書かれたニュース記事に適用しました。 我々はスイスに関連する自然言語理解タスクについてSwissBERTを評価し、特に現代ニュース処理やロマンシュ・グリシュン処理において、これらのタスクにおける過去のモデルを上回る傾向にあることを示した。 SwissBERTは言語アダプターを使用しているため、将来の作業でスイスドイツ語の方言に拡張することができる。 モデルとオープンソースコードはhttps://github.com/ZurichNLP/swissbert.comで公開されています。

We present SwissBERT, a masked language model created specifically for processing Switzerland-related text. SwissBERT is a pre-trained model that we adapted to news articles written in the national languages of Switzerland -- German, French, Italian, and Romansh. We evaluate SwissBERT on natural language understanding tasks related to Switzerland and find that it tends to outperform previous models on these tasks, especially when processing contemporary news and/or Romansh Grischun. Since SwissBERT uses language adapters, it may be extended to Swiss German dialects in future work. The model and our open-source code are publicly released at https://github.com/ZurichNLP/swissbert.
翻訳日:2024-01-18 21:51:09 公開日:2024-01-16
# Ab initio電子格子ダウンフォールディング:電荷密度波材料におけるポテンシャルエネルギー景観、非調和性、分子動力学

Ab initio electron-lattice downfolding: potential energy landscapes, anharmonicity, and molecular dynamics in charge density wave materials ( http://arxiv.org/abs/2303.07261v3 )

ライセンス: Link先を確認
Arne Schobert, Jan Berges, Erik G. C. P. van Loon, Michael A. Sentef, Sergey Brener, Mariana Rossi, and Tim O. Wehling(参考訳) 電子と核の自由度の相互作用は、凝縮物質物理学と化学において際立った問題をもたらす。 計算上の課題は、特に大規模システム、長期スケール、非平衡システム、強い相関を持つシステムにおいて発生する。 本研究では, ダウンフォールディングアプローチが電子的側面における複雑さの低減を促進し, 電子的性質と核運動のシミュレーション, 特に分子動力学 (md) シミュレーションを促進させることを示す。 1H-TaS$_2$, 1T-TiSe$_2$, 1H-NbS$_2$, 1次元炭素鎖を含む選択電荷密度波(CDW)系のフル密度関数計算に対して, 制約, アンスクリーニング, 組み合わせに基づく3つの異なる下降戦略をベンチマークした。 ダウンフォールドモデルはスーパーセル上のポテンシャルエネルギー表面を正確に再現でき、純粋にab initio計算と比較して約5桁のmdシミュレーションで計算速度を上げることができる。 1H-TaS$_2$の場合、古典的なレプリカ交換と量子パス積分MDシミュレーションを報告し、CDW遷移に対する熱的および量子的変動の影響を明らかにした。

The interplay of electronic and nuclear degrees of freedom presents an outstanding problem in condensed matter physics and chemistry. Computational challenges arise especially for large systems, long time scales, in nonequilibrium, or in systems with strong correlations. In this work, we show how downfolding approaches facilitate complexity reduction on the electronic side and thereby boost the simulation of electronic properties and nuclear motion - in particular molecular dynamics (MD) simulations. Three different downfolding strategies based on constraining, unscreening, and combinations thereof are benchmarked against full density functional calculations for selected charge density wave (CDW) systems, namely 1H-TaS$_2$, 1T-TiSe$_2$, 1H-NbS$_2$, and a one-dimensional carbon chain. We find that the downfolded models can reproduce potential energy surfaces on supercells accurately and facilitate computational speedup in MD simulations by about five orders of magnitude in comparison to purely ab initio calculations. For monolayer 1H-TaS$_2$ we report classical replica exchange and quantum path integral MD simulations, revealing the impact of thermal and quantum fluctuations on the CDW transition.
翻訳日:2024-01-18 21:50:59 公開日:2024-01-16
# CAMEL: 曲率強化マニフォールド埋め込みと学習

CAMEL: Curvature-Augmented Manifold Embedding and Learning ( http://arxiv.org/abs/2303.02561v2 )

ライセンス: Link先を確認
Nan Xu, Yongming Liu(参考訳) CAMEL(Curvature-Augmented Manifold Embedding and Learning)と呼ばれる新しい手法が,高次元データ分類,次元縮小,可視化のために提案されている。 CAMEL はリーマン多様体上で定義される位相計量と、その表現性を高めるために距離と曲率の両方に対してユニークなリーマン計量を利用する。 また、リーマン多様体上の一意作用素の滑らかな分割を用いて局所化された直交射影を大域埋め込みに変換し、全体の位相構造と局所的類似性を同時に捉える。 局所直交ベクトルは、クラスターの重要な特性を物理的に解釈する。 したがって、CAMELは低次元埋め込みを提供するだけでなく、この埋め込みの背後にある物理学を解釈する。 CAMELは様々なベンチマークデータセットで評価され、特に高次元データセットにおいて最先端の手法よりも優れていることを示した。 この方法の利点は、高い表現性、解釈可能性、拡張性である。 本稿では,CAMELの総合的な理解のために,リーマン距離と曲率,物理的解釈可能性,ハイパーパラメータ効果,多様体安定性,計算効率について詳細に論じる。 最後に,CAMELの限界と今後の課題について,重要な結論とともに述べる。

A novel method, named Curvature-Augmented Manifold Embedding and Learning (CAMEL), is proposed for high dimensional data classification, dimension reduction, and visualization. CAMEL utilizes a topology metric defined on the Riemannian manifold, and a unique Riemannian metric for both distance and curvature to enhance its expressibility. The method also employs a smooth partition of unity operator on the Riemannian manifold to convert localized orthogonal projection to global embedding, which captures both the overall topological structure and local similarity simultaneously. The local orthogonal vectors provide a physical interpretation of the significant characteristics of clusters. Therefore, CAMEL not only provides a low-dimensional embedding but also interprets the physics behind this embedding. CAMEL has been evaluated on various benchmark datasets and has shown to outperform state-of-the-art methods, especially for high-dimensional datasets. The method's distinct benefits are its high expressibility, interpretability, and scalability. The paper provides a detailed discussion on Riemannian distance and curvature metrics, physical interpretability, hyperparameter effect, manifold stability, and computational efficiency for a holistic understanding of CAMEL. Finally, the paper presents the limitations and future work of CAMEL along with key conclusions.
翻訳日:2024-01-18 21:49:29 公開日:2024-01-16
# 1500万の科学画像テキストペアから事前訓練した多モードバイオメディカル基礎モデルBiomedCLIP

BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs ( http://arxiv.org/abs/2303.00915v2 )

ライセンス: Link先を確認
Sheng Zhang, Yanbo Xu, Naoto Usuyama, Hanwen Xu, Jaspreet Bagga, Robert Tinn, Sam Preston, Rajesh Rao, Mu Wei, Naveen Valluri, Cliff Wong, Andrea Tupini, Yu Wang, Matt Mazzola, Swadheen Shukla, Lars Liden, Jianfeng Gao, Matthew P. Lungren, Tristan Naumann, Sheng Wang, and Hoifung Poon(参考訳) バイオメディカルデータは本質的にマルチモーダルであり、物理的測定と自然言語の物語を含んでいる。 汎用的なバイオメディカルAIモデルは、テキストや画像を含むさまざまなデータモダリティを同時に処理する必要がある。 したがって、効果的な汎用バイオメディカルモデルのトレーニングには、並列画像とテキストのペアのような高品質なマルチモーダルデータが必要である。 本稿では,muse-cxrのような既存の生体医学的マルチモーダルデータセットよりも2桁大きく,多様な生体医学的画像タイプにまたがる新しいデータセットであるpmc-15mを提案する。 PMC-15Mは440万の科学論文から収集された1500万のバイオメディカル画像テキストを含んでいる。 PMC-15Mに基づいて,生物医学的視覚言語処理に適したドメイン固有適応を備えた多モード基盤モデルであるBiomedCLIPを事前訓練した。 検索から分類,視覚質問応答 (VQA) まで, 標準的なバイオメディカルイメージングタスクに関する広範な実験とアブレーション研究を行った。 BiomedCLIPは、幅広い標準データセットで新しい最先端の成果を達成し、以前のアプローチよりも大幅に向上した。 興味深いことに、バイオメディカルイメージの多様なタイプを大規模に事前訓練することで、バイオメディカルCLIPはRSNA肺炎検出などの放射線学固有のタスクにおいて、バイオビロードのような最先端の放射線学固有のモデルよりも優れている。 まとめると、BiomedCLIPは完全にオープンアクセス基盤モデルであり、様々なバイオメディカルタスクにおける最先端のパフォーマンスを実現し、変換型マルチモーダルバイオメディカル発見と応用の道を開く。 われわれのモデルをhttps://aka.ms/biomedclipでリリースし、マルチモーダルバイオメディカルAIの今後の研究を促進する。

Biomedical data is inherently multimodal, comprising physical measurements and natural language narratives. A generalist biomedical AI model needs to simultaneously process different modalities of data, including text and images. Therefore, training an effective generalist biomedical model requires high-quality multimodal data, such as parallel image-text pairs. Here, we present PMC-15M, a novel dataset that is two orders of magnitude larger than existing biomedical multimodal datasets such as MIMIC-CXR, and spans a diverse range of biomedical image types. PMC-15M contains 15 million biomedical image-text pairs collected from 4.4 million scientific articles. Based on PMC-15M, we have pretrained BiomedCLIP, a multimodal foundation model, with domain-specific adaptations tailored to biomedical vision-language processing. We conducted extensive experiments and ablation studies on standard biomedical imaging tasks from retrieval to classification to visual question-answering (VQA). BiomedCLIP achieved new state-of-the-art results in a wide range of standard datasets, substantially outperforming prior approaches. Intriguingly, by large-scale pretraining on diverse biomedical image types, BiomedCLIP even outperforms state-of-the-art radiology-specific models such as BioViL in radiology-specific tasks such as RSNA pneumonia detection. In summary, BiomedCLIP is a fully open-access foundation model that achieves state-of-the-art performance on various biomedical tasks, paving the way for transformative multimodal biomedical discovery and applications. We release our models at https://aka.ms/biomedclip to facilitate future research in multimodal biomedical AI.
翻訳日:2024-01-18 21:49:07 公開日:2024-01-16
# ランダムグラフ上のスピン系の熱力学的極限

The Thermodynamic Limit of Spin Systems on Random Graphs ( http://arxiv.org/abs/2303.00731v2 )

ライセンス: Link先を確認
Amy Searle and Joseph Tindall(参考訳) 本論文は,高密度グラフの収束列の極限を表す連続的な数学的対象,すなわち,平均座標数がシステムサイズで広範囲に増加すると,熱平衡における量子スピン系の一般的な連続的な記述を利用する。 具体的には、システムの特性を支配する結合非線形フレドホルム積分方程式の閉集合を導出する。 グラトンはこれらの方程式の核を形成し、それらの解は熱力学的極限の系における巨視的可観測性を正確に表現する。 量子スピン系と古典スピン系の両方でこれらの方程式を解析し、既知の結果を回収し、より複雑なケースに対して新しい解析解を提供する。 モンテカルロ法とテンソルネットワーク法を用いて,制御された有限サイズの数値計算を行い,システムサイズを増大させる解析結果への収束を示す。

We utilise the graphon--a continuous mathematical object which represents the limit of convergent sequences of dense graphs--to formulate a general, continuous description of quantum spin systems in thermal equilibrium when the average co-ordination number grows extensively in the system size. Specifically, we derive a closed set of coupled non-linear Fredholm integral equations which govern the properties of the system. The graphon forms the kernel of these equations and their solution yields exact expressions for the macroscopic observables in the system in the thermodynamic limit. We analyse these equations for both quantum and classical spin systems, recovering known results and providing novel analytical solutions for a range of more complex cases. We supplement this with controlled, finite-size numerical calculations using Monte-Carlo and Tensor Network methods, showing their convergence towards our analytical results with increasing system size.
翻訳日:2024-01-18 21:48:35 公開日:2024-01-16
# ロバスト統計試験によるカップリングと自己回帰流の比較

Comparative Study of Coupling and Autoregressive Flows through Robust Statistical Tests ( http://arxiv.org/abs/2302.12024v2 )

ライセンス: Link先を確認
Andrea Coccaro and Marco Letizia and Humberto Reyes-Gonzalez and Riccardo Torre(参考訳) 正規化フローは、複雑なターゲット分布の効率的なサンプリングを可能にするだけでなく、構築による密度推定も可能にするため、生成モデルの強力なブランドとして登場した。 本稿では, 実数値非体積保存 (RealNVP), Masked Autoregressive Flow (MAF), Coupling Rational Quadratic Spline (C-RQS), Autoregressive Rational Quadratic Spline (A-RQS) の4つの異なるアーキテクチャを考慮し, アフィン型と有理型2次スプライン型の結合と自己回帰型を詳細に比較する。 本研究は,4~400の次元を拡大する多モーダルターゲット分布の集合に着目した。 スライスド・ワッサーシュタイン距離、次元平均1次元コルモゴロフ・スミルノフ検定、相関行列間の差のフロベニウスノルムなど、既知の距離測度から構築された2つのサンプルテストの異なるテスト統計を用いて性能を比較する。 さらに、メトリクスとトレーニングされたモデルのばらつきの推定も含む。 以上の結果から,A-RQSアルゴリズムは精度とトレーニング速度の両面で際立っていることがわかった。 それにもかかわらず、すべてのアルゴリズムは、過度に微調整することなく、Tesla A40 GPU上で、限られたトレーニングデータと妥当な時間で、複雑なディストリビューションを学習することができる。 唯一の例外はC-RQSであり、訓練にかなり時間がかかるため、必ずしも精度が良くないため、大きな次元で不安定になる。 すべてのアルゴリズムはTensorFlow2とTensorFlow Probabilityを使用して実装され、 \href{https://github.com/NF4HEP/NormalizingFlowsHD}{GitHub}で利用可能になった。

Normalizing Flows have emerged as a powerful brand of generative models, as they not only allow for efficient sampling of complicated target distributions, but also deliver density estimation by construction. We propose here an in-depth comparison of coupling and autoregressive flows, both of the affine and rational quadratic spline type, considering four different architectures: Real-valued Non-Volume Preserving (RealNVP), Masked Autoregressive Flow (MAF), Coupling Rational Quadratic Spline (C-RQS), and Autoregressive Rational Quadratic Spline (A-RQS). We focus on a set of multimodal target distributions of increasing dimensionality ranging from 4 to 400. The performances are compared by means of different test-statistics for two-sample tests, built from known distance measures: the sliced Wasserstein distance, the dimension-averaged one-dimensional Kolmogorov-Smirnov test, and the Frobenius norm of the difference between correlation matrices. Furthermore, we include estimations of the variance of both the metrics and the trained models. Our results indicate that the A-RQS algorithm stands out both in terms of accuracy and training speed. Nonetheless, all the algorithms are generally able, without too much fine-tuning, to learn complicated distributions with limited training data and in a reasonable time, of the order of hours on a Tesla A40 GPU. The only exception is the C-RQS, which takes significantly longer to train, does not always provide good accuracy, and becomes unstable for large dimensionalities. All algorithms have been implemented using TensorFlow2 and TensorFlow Probability and made available on \href{https://github.com/NF4HEP/NormalizingFlowsHD}{GitHub}.
翻訳日:2024-01-18 21:48:20 公開日:2024-01-16
# dowg unleashed:効率的なパラメータフリー勾配降下法

DoWG Unleashed: An Efficient Universal Parameter-Free Gradient Descent Method ( http://arxiv.org/abs/2305.16284v3 )

ライセンス: Link先を確認
Ahmed Khaled and Konstantin Mishchenko and Chi Jin(参考訳) 本稿では,パラメータフリー勾配型最適化器DoWG(Distance over Weighted Gradients)を提案する。 凸最適化における最適調整勾配勾配勾配の収束率をパラメータを調整せずに対数係数に一致させ、スムーズな問題と非滑らかな問題の両方に自動的に適応させることを証明した。 AdaGradフレームワークに続く一般的なアルゴリズムは正規化に使用する2乗勾配のランニング平均を計算するが、DoWGはランニング平均の新しい距離ベース重み付きバージョンを維持しており、所望の特性を達成するのに不可欠である。 また,本理論を補完するために,DoWGが安定性の限界に到達したことを実証的に示し,実践的な機械学習タスクの有効性を検証した。

This paper proposes a new easy-to-implement parameter-free gradient-based optimizer: DoWG (Distance over Weighted Gradients). We prove that DoWG is efficient -- matching the convergence rate of optimally tuned gradient descent in convex optimization up to a logarithmic factor without tuning any parameters, and universal -- automatically adapting to both smooth and nonsmooth problems. While popular algorithms following the AdaGrad framework compute a running average of the squared gradients to use for normalization, DoWG maintains a new distance-based weighted version of the running average, which is crucial to achieve the desired properties. To complement our theory, we also show empirically that DoWG trains at the edge of stability, and validate its effectiveness on practical machine learning tasks.
翻訳日:2024-01-18 21:40:52 公開日:2024-01-16
# クープマンカーネル回帰

Koopman Kernel Regression ( http://arxiv.org/abs/2305.16215v3 )

ライセンス: Link先を確認
Petar Bevanda, Max Beier, Armin Lederer, Stefan Sosnowski, Eyke H\"ullermeier, Sandra Hirche(参考訳) 強化学習のような意思決定のための多くの機械学習アプローチは、エージェントの状態やポリシーの報酬など、興味のある量の時間進化を予測するためのシミュレータや予測モデルに依存している。 このような複雑な現象の予測は、高度に非線形な力学系によって一般的に説明され、最適化に基づく意思決定を困難にしている。 クープマン作用素理論は、線形時間不変(LTI)ODEを用いて予測を特徴づけ、多段階予測をスパース行列乗法に変換することにより、この問題に対処するための有益なパラダイムを提供する。 様々な学習アプローチが存在するが、それらは通常、重要な学習理論的な保証を欠いている。 上記の問題に対して、LTI力学系への変換のみにまたがる普遍的なクープマン不変カーネルヒルベルト空間(RKHS)を導出した。 結果として、Koopman Kernel Regression (KKR) フレームワークは、新しい収束結果の関数近似と、既存の作業よりも弱い仮定の下での一般化誤差境界から統計学習ツールを使用することができる。 本実験は, RKHSにおけるKoopman演算子とシーケンシャルデータ予測器と比較して優れた予測性能を示す。

Many machine learning approaches for decision making, such as reinforcement learning, rely on simulators or predictive models to forecast the time-evolution of quantities of interest, e.g., the state of an agent or the reward of a policy. Forecasts of such complex phenomena are commonly described by highly nonlinear dynamical systems, making their use in optimization-based decision-making challenging. Koopman operator theory offers a beneficial paradigm for addressing this problem by characterizing forecasts via linear time-invariant (LTI) ODEs, turning multi-step forecasts into sparse matrix multiplication. Though there exists a variety of learning approaches, they usually lack crucial learning-theoretic guarantees, making the behavior of the obtained models with increasing data and dimensionality unclear. We address the aforementioned by deriving a universal Koopman-invariant reproducing kernel Hilbert space (RKHS) that solely spans transformations into LTI dynamical systems. The resulting Koopman Kernel Regression (KKR) framework enables the use of statistical learning tools from function approximation for novel convergence results and generalization error bounds under weaker assumptions than existing work. Our experiments demonstrate superior forecasting performance compared to Koopman operator and sequential data predictors in RKHS.
翻訳日:2024-01-18 21:40:37 公開日:2024-01-16
# LoReTTaを用いた過渡・多モード変圧器の訓練

Training Transitive and Commutative Multimodal Transformers with LoReTTa ( http://arxiv.org/abs/2305.14243v5 )

ライセンス: Link先を確認
Manuel Tran, Yashin Dicente Cid, Amal Lahiani, Fabian J. Theis, Tingying Peng, Eldad Klaiman(参考訳) マルチモーダル基礎モデルのトレーニングは、マルチモーダルデータセットの可用性が限られているため、難しい。 多くのパブリックデータセットは画像とテキストを組み合わせるが、音声やテキストと音声を組み合わせたものはほとんどない。 さらに珍しいのは、3つのモードをすべて同時に調整するデータセットです。 医療、インフラ、交通といった重要なドメインは、特に欠落したモダリティによって影響を受ける。 これにより、すべてのモダリティをトレーニング済みの大規模なニューラルネットワークに統合することは困難になる。 本稿では,この課題に対処するため,LoReTTa (mOdalities with a tRansitive and commutativE pre-Training sTrAtegy)を提案する。 我々の自己監督型フレームワークは,因果モデリングとマスキングを可換性と推移性の規則で統一する。 これにより、モダリティ内とモダリティ間の移行が可能になります。 その結果, 事前学習したモデルでは, 真の確率分布を探索する能力が向上した。 特に、LoReTTaで事前学習したトランスフォーマーが、予期せぬペア(A, B, C)と三重項(A, B, C)を含む任意のモダリティの混合を推論時に処理可能であることを示す。 我々は, 総合的, 医療的, 強化的な学習データセットに対する我々のアプローチを広く評価した。 異なるドメインにまたがって、我々のユニバーサルマルチモーダルトランスフォーマーは、gpt、bert、クリップといった、欠けているモダリティタプルを含むタスクの強いベースラインを一貫して上回っています。

Training multimodal foundation models is challenging due to the limited availability of multimodal datasets. While many public datasets pair images with text, few combine images with audio or text with audio. Even rarer are datasets that align all three modalities at once. Critical domains such as healthcare, infrastructure, or transportation are particularly affected by missing modalities. This makes it difficult to integrate all modalities into a large pre-trained neural network that can be used out-of-the-box or fine-tuned for different downstream tasks. We introduce LoReTTa (Linking mOdalities with a tRansitive and commutativE pre-Training sTrAtegy) to address this understudied problem. Our self-supervised framework unifies causal modeling and masked modeling with the rules of commutativity and transitivity. This allows us to transition within and between modalities. As a result, our pre-trained models are better at exploring the true underlying joint probability distribution. Given a dataset containing only the disjoint combinations (A, B) and (B, C), LoReTTa can model the relation A <-> C with A <-> B <-> C. In particular, we show that a transformer pre-trained with LoReTTa can handle any mixture of modalities at inference time, including the never-seen pair (A, C) and the triplet (A, B, C). We extensively evaluate our approach on a synthetic, medical, and reinforcement learning dataset. Across different domains, our universal multimodal transformer consistently outperforms strong baselines such as GPT, BERT, and CLIP on tasks involving the missing modality tuple.
翻訳日:2024-01-18 21:39:47 公開日:2024-01-16
# 可視グラフと移動学習によるPSGの振幅非依存機械学習

Amplitude-Independent Machine Learning for PPG through Visibility Graphs and Transfer Learning ( http://arxiv.org/abs/2305.14062v4 )

ライセンス: Link先を確認
Yuyang Miao, Harry J. Davies, Danilo P. Mandic(参考訳) photoplethysmography (ppg) は、光を用いた血液量の変化の測定であり、ほとんどのウェアラブルデバイスの特徴である。 PPGシグナルは、身体の循環系に関する洞察を与え、心拍数や血管老化などの様々な生体機能を引き出すために用いられる。 この目的のためにいくつかのアルゴリズムが提案されているが、人間のキャリブレーション、高い信号品質要求、一般化の欠如など多くの制限がある。 本稿では,グラフ理論とコンピュータビジョンアルゴリズムを統合したPSG信号処理フレームワークを導入し,振幅非依存かつアフィン変換に不変な解析フレームワークを提案する。 また、最小限の事前処理を必要とし、RGBチャネルを通じて情報を融合し、タスクやデータセットをまたいだ堅牢な一般化を示す。 提案するvgtl-netは血管老化の予測において最先端の性能を達成し,連続血圧波形のロバストな推定を示す。

Photoplethysmography (PPG) refers to the measurement of variations in blood volume using light and is a feature of most wearable devices. The PPG signals provide insight into the body's circulatory system and can be employed to extract various bio-features, such as heart rate and vascular ageing. Although several algorithms have been proposed for this purpose, many exhibit limitations, including heavy reliance on human calibration, high signal quality requirements, and a lack of generalisation. In this paper, we introduce a PPG signal processing framework that integrates graph theory and computer vision algorithms, to provide an analysis framework which is amplitude-independent and invariant to affine transformations. It also requires minimal preprocessing, fuses information through RGB channels and exhibits robust generalisation across tasks and datasets. The proposed VGTL-net achieves state-of-the-art performance in the prediction of vascular ageing and demonstrates robust estimation of continuous blood pressure waveforms.
翻訳日:2024-01-18 21:39:21 公開日:2024-01-16
# 関数同値の観点からみた深層ニューラルネットワークの複雑性

Complexity of Deep Neural Networks from the Perspective of Functional Equivalence ( http://arxiv.org/abs/2305.11417v2 )

ライセンス: Link先を確認
Guohao Shen(参考訳) 本稿では,機能的等価性の概念を考察することにより,フィードフォワードニューラルネットワークの複雑さを考察し,異なるネットワークパラメータ化が同じ機能をもたらすことを示唆する。 この特性を利用してニューラルネットワークの複雑性を低減できることを示すフィードフォワードニューラルネットワークのクラスにバインドされた新しいカバー番号を導出するために、置換不変性を利用する。 本稿では,畳み込みニューラルネットワーク,残留ネットワーク,注意に基づくモデルの拡張について述べる。 ネットワーク幅の増加は有効パラメータ空間の体積の減少につながるため,過パラメータ化ネットワークのトレーニングが容易になるため,関数等価性が最適化に寄与することを示す。 今回の知見は,過剰パラメータ化に対する新たな洞察を提供し,ディープラーニングの一般化と最適化を理解する上で重要な意味を持つ。

In this paper, we investigate the complexity of feed-forward neural networks by examining the concept of functional equivalence, which suggests that different network parameterizations can lead to the same function. We utilize the permutation invariance property to derive a novel covering number bound for the class of feedforward neural networks, which reveals that the complexity of a neural network can be reduced by exploiting this property. We discuss the extensions to convolutional neural networks, residual networks, and attention-based models. We demonstrate that functional equivalence benefits optimization, as overparameterized networks tend to be easier to train since increasing network width leads to a diminishing volume of the effective parameter space. Our findings offer new insights into overparameterization and have significant implications for understanding generalization and optimization in deep learning.
翻訳日:2024-01-18 21:38:39 公開日:2024-01-16
# 大規模オンラインライドシェアリング:配当最適性がシステム性能に及ぼす影響

Large-scale Online Ridesharing: The Effect of Assignment Optimality on System Performance ( http://arxiv.org/abs/2305.02209v2 )

ライセンス: Link先を確認
David Fiedler, Michal \v{C}ertick\'y, Javier Alonso-Mora, Michal P\v{e}chou\v{c}ek and Michal \v{C}\'ap(参考訳) モビリティ・オン・デマンド(mod: mobility-on-demand)システムは、一方向のポイントツーポイント旅行に利用できる共有車両群で構成される。 車両によって駆動される総距離と車両サイズは、ライドシェアリング、すなわち複数の乗客を1台の車両に割り当てることで削減できる。 しかし、MoDシステムにおける最適乗用車配置の発見は難しい組合せ問題である。 本研究では,最近提案されている配車システムの体系的手法であるvga法を,大規模modシステムにおける最適な乗用車割当と対応する車両経路の計算に活用できることを実証する。 既存の作業とは対照的に、何千もの車両や乗客を含む事例を定期的に扱いながら、全ての乗客と車両の割り当て問題を最適に解決する。 さらに、最適な配車代行を用いた場合の影響を検討するために、挿入ヒューリスティックを用いて計算した代入を用いたMoDシステムと、配車しないMoDシステムとの最適代入を用いたMoDシステムの性能を比較した。 その結果,最大走行遅延4分以内の最適配車方式を用いるシステムでは,配車不要のMoDシステムと比較して,車間距離が57パーセント減少することがわかった。 さらに, 車両走行距離を20%削減し, 平均走行遅延率を5%低減させることが, 挿入ヒューリスティックを用いたシステムと比較して得られた。

Mobility-on-demand (MoD) systems consist of a fleet of shared vehicles that can be hailed for one-way point-to-point trips. The total distance driven by the vehicles and the fleet size can be reduced by employing ridesharing, i.e., by assigning multiple passengers to one vehicle. However, finding the optimal passenger-vehicle assignment in an MoD system is a hard combinatorial problem. In this work, we demonstrate how the VGA method, a recently proposed systematic method for ridesharing, can be used to compute the optimal passenger-vehicle assignments and corresponding vehicle routes in a massive-scale MoD system. In contrast to existing works, we solve all passenger-vehicle assignment problems to optimality, regularly dealing with instances containing thousands of vehicles and passengers. Moreover, to examine the impact of using optimal ridesharing assignments, we compare the performance of an MoD system that uses optimal assignments against an MoD system that uses assignments computed using insertion heuristic and against an MoD system that uses no ridesharing. We found that the system that uses optimal ridesharing assignments subject to the maximum travel delay of 4 minutes reduces the vehicle distance driven by 57 % compared to an MoD system without ridesharing. Furthermore, we found that the optimal assignments result in a 20 % reduction in vehicle distance driven and 5 % lower average passenger travel delay compared to a system that uses insertion heuristic.
翻訳日:2024-01-18 21:37:02 公開日:2024-01-16
# CryCeleb:幼児のCry音に基づく話者検証データセット

CryCeleb: A Speaker Verification Dataset Based on Infant Cry Sounds ( http://arxiv.org/abs/2305.00969v6 )

ライセンス: Link先を確認
David Budaghyan, Charles C. Onu, Arsenii Gorin, Cem Subakan, Doina Precup(参考訳) 本稿では,幼児の泣き声をラベル付けしたUbenwa CryCelebデータセットと,それに付随するCryCeleb 2023タスクについて述べる。 乳児の涙分析研究を奨励するために,786人の新生児から手動で発声した6時間以上の涙音を学術的に利用した。 最初の公募では59人が参加し、11人がベースラインのパフォーマンスを改善した。 最高性能のシステムは25.8%の対等なエラー率で大幅な改善を達成したが、これはまだ最先端の成人話者認証システムのパフォーマンスには程遠い。 したがって、このデータセットにはさらなる研究の余地があり、検証タスクを超えて拡張される可能性がある。

This paper describes the Ubenwa CryCeleb dataset - a labeled collection of infant cries - and the accompanying CryCeleb 2023 task, which is a public speaker verification challenge based on cry sounds. We released more than 6 hours of manually segmented cry sounds from 786 newborns for academic use, aiming to encourage research in infant cry analysis. The inaugural public competition attracted 59 participants, 11 of whom improved the baseline performance. The top-performing system achieved a significant improvement scoring 25.8% equal error rate, which is still far from the performance of state-of-the-art adult speaker verification systems. Therefore, we believe there is room for further research on this dataset, potentially extending beyond the verification task.
翻訳日:2024-01-18 21:36:36 公開日:2024-01-16
# 量子ドットデバイスを用いた通信用cバンドにおける識別不能光子のオンデマンド生成

On-Demand Generation of Indistinguishable Photons in the Telecom C-Band using Quantum Dot Devices ( http://arxiv.org/abs/2306.08668v2 )

ライセンス: Link先を確認
Daniel A. Vajner, Pawe{\l} Holewa, Emilia Zi\k{e}ba-Ost\'oj, Maja Wasiluk, Martin von Helversen, Aurimas Sakanas, Alexander Huck, Kresten Yvind, Niels Gregersen, Anna Musia{\l}, Marcin Syperek, Elizaveta Semenova, Tobias Heindel(参考訳) 半導体量子ドット(QD)は、フォトニック量子技術における様々な用途に有用な単一および絡み合った光子の生成を可能にする。 特に光ファイバーネットワークによる量子通信では、1550$\,$nmを中心とした通信cバンドでの動作が理想的である。 しかし、このスペクトル範囲と高い量子光学品質のQD-光子の直接生成は依然として困難であった。 本稿では,InAs/InP QD-mesa構造をシリコンウエハ上の金属リフレクタと不均一に統合した単一QDデバイスから,通信Cバンド中の不明瞭な光子のコヒーレントなオンデマンド生成を実証する。 二励起子-励起子放射カスケードのパルス2光子共鳴励起を用いて、エキシトンおよび二励起子光子に対してそれぞれ$g^{(2)}(0)=0.005(1)$と$0.015(1)$という項で4\pi$のパルス領域までのラビ回転と高い単光子純度を観測する。 放射強度のラビ回転のフィッティングと光子相互相関測定に基づく2つの独立な実験方法を適用することで、80$\%$ を超える$pi$-pulse での合成フィデリティを一貫して得られる。 最後に,Hong-Ou-Mandel型2光子干渉実験を行い,最大35(3)\%の完全光子波パケットの光子独立性を求める。

Semiconductor quantum dots (QDs) enable the generation of single and entangled photons, useful for various applications in photonic quantum technologies. Specifically for quantum communication via fiber-optical networks, operation in the telecom C-band centered around 1550$\,$nm is ideal. The direct generation of QD-photons in this spectral range and with high quantum-optical quality, however, remained challenging. Here, we demonstrate the coherent on-demand generation of indistinguishable photons in the telecom C-band from single QD devices consisting of InAs/InP QD-mesa structures heterogeneously integrated with a metallic reflector on a silicon wafer. Using pulsed two-photon resonant excitation of the biexciton-exciton radiative cascade, we observe Rabi rotations up to pulse areas of $4\pi$ and a high single-photon purity in terms of $g^{(2)}(0)=0.005(1)$ and $0.015(1)$ for exciton and biexciton photons, respectively. Applying two independent experimental methods, based on fitting Rabi rotations in the emission intensity and performing photon cross-correlation measurements, we consistently obtain preparation fidelities at the $\pi$-pulse exceeding 80$\%$. Finally, performing Hong-Ou-Mandel-type two-photon interference experiments we obtain a photon-indistinguishability of the full photon wave packet of up to $35(3)\%$, representing a significant advancement in the photon-indistinguishability of single photons emitted directly in the telecom C-band.
翻訳日:2024-01-18 21:28:42 公開日:2024-01-16
# 拡散の拡散:周期的一方向拡散によるテキストビジョン条件付き生成

Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation ( http://arxiv.org/abs/2306.08247v5 )

ライセンス: Link先を確認
Ruoyu Wang, Yongqi Yang, Zhihao Qian, Ye Zhu, Yu Wu(参考訳) 粒子移動を記述する物理学における拡散現象から派生した拡散生成モデルは、消音軌道に沿ってデータ空間内の確率的ランダムウォークの特性を継承する。 しかし、画像領域間の内在的な相互干渉は、所定の条件付けから低レベル画素情報の保存が望まれる実用的な下流アプリケーションシナリオ(例えば、ユーザ提供の単一画像に基づくパーソナライズ生成や塗り込みといったカスタマイズタスク)の必要性と矛盾する。 本研究では, 拡散(機械学習)特性における拡散(物理)について検討し, コンディショニングの低レベル画素情報を保存する必要がある多目的カスタマイズ応用シナリオにおいて, 事前学習された凍結拡散モデルが与える拡散現象の方向を制御するための循環的一方向拡散(cow)法を提案する。 特に,基礎となるテキスト・画像拡散モデルや学習補助ネットワークを微調整して追加条件を組み込んだ現在の手法とは異なり,本手法はタスクニーズを理解するための新しい視点を提供し,学習自由な方法で幅広いカスタマイズシナリオに適用できる。 広範囲にわたる実験結果から,提案する牛は,異なるアプリケーション環境での厳密な視覚条件に基づいて,より柔軟なカスタマイズが可能となった。

Originating from the diffusion phenomenon in physics that describes particle movement, the diffusion generative models inherit the characteristics of stochastic random walk in the data space along the denoising trajectory. However, the intrinsic mutual interference among image regions contradicts the need for practical downstream application scenarios where the preservation of low-level pixel information from given conditioning is desired (e.g., customization tasks like personalized generation and inpainting based on a user-provided single image). In this work, we investigate the diffusion (physics) in diffusion (machine learning) properties and propose our Cyclic One-Way Diffusion (COW) method to control the direction of diffusion phenomenon given a pre-trained frozen diffusion model for versatile customization application scenarios, where the low-level pixel information from the conditioning needs to be preserved. Notably, unlike most current methods that incorporate additional conditions by fine-tuning the base text-to-image diffusion model or learning auxiliary networks, our method provides a novel perspective to understand the task needs and is applicable to a wider range of customization scenarios in a learning-free manner. Extensive experiment results show that our proposed COW can achieve more flexible customization based on strict visual conditions in different application settings.
翻訳日:2024-01-18 21:28:11 公開日:2024-01-16
# 普遍自己回帰量子状態に対する条件付きモデリングの影響

Impact of conditional modelling for a universal autoregressive quantum state ( http://arxiv.org/abs/2306.05917v2 )

ライセンス: Link先を確認
Massimo Bortone and Yannic Rath and George H. Booth(参考訳) 本稿では,普遍的量子状態近似器を適応させるための一般化された枠組みを提案する。 また,ニューラルネットワークの畳み込み層に対するアナロジーとしてフィルタを導入し,任意の量子状態における変換対称性相関を取り込む。 この枠組みをガウス過程の状態に応用することにより,自己回帰的および/またはフィルター特性を強制し,変動の柔軟性,対称性,保存量に対する帰納的バイアスの影響を分析する。 これにより、マシンラーニングにインスパイアされたans\"atzeの統一フレームワークの下で、さまざまな自己回帰状態が統合されます。 この結果から,自己回帰構造がスピンおよびフェルミオン格子モデルの相関を記述するための変分モデルの能力にどのように影響するか,および表現の選択が精度に影響を及ぼす電子構造問題について考察した。 我々は,効率的な直接サンプリングを可能にしながら,メトロポリスサンプリングにおける自己相関やエルゴディシティの問題の消失を回避しつつ,多くのシステムにおいて,自己回帰的構成はモデルの表現性を物質的に制約していると結論づける。

We present a generalized framework to adapt universal quantum state approximators, enabling them to satisfy rigorous normalization and autoregressive properties. We also introduce filters as analogues to convolutional layers in neural networks to incorporate translationally symmetrized correlations in arbitrary quantum states. By applying this framework to the Gaussian process state, we enforce autoregressive and/or filter properties, analyzing the impact of the resulting inductive biases on variational flexibility, symmetries, and conserved quantities. In doing so we bring together different autoregressive states under a unified framework for machine learning-inspired ans\"atze. Our results provide insights into how the autoregressive construction influences the ability of a variational model to describe correlations in spin and fermionic lattice models, as well as ab initio electronic structure problems where the choice of representation affects accuracy. We conclude that, while enabling efficient and direct sampling, thus avoiding autocorrelation and loss of ergodicity issues in Metropolis sampling, the autoregressive construction materially constrains the expressivity of the model in many systems.
翻訳日:2024-01-18 21:26:43 公開日:2024-01-16
# 曲率とねじりを用いた動きに基づく手話ビデオ要約

Motion-Based Sign Language Video Summarization using Curvature and Torsion ( http://arxiv.org/abs/2305.16801v3 )

ライセンス: Link先を確認
Evangelos G. Sartinas, Emmanouil Z. Psarakis, Dimitrios I. Kosmopoulos(参考訳) 多くのビデオベースアプリケーションにおいて興味深い問題は、最も情報性の高いフレームを選択することでショート・シナプスを生成することである。 手話のビデオでは、2d署名者の手首の軌跡の曲率のt$パラメータの対数を使ってキーフレームを識別する利点が最近文献に報告されている。 本稿では,ビデオの各フレームから抽出した3次元手の動きをモデル化することにより,これらのアイデアを拡張する。 そこで本研究では,3次元軌道の$t$-parameterized曲率とねじれに基づく新しい情報関数を提案する。 ビデオフレームをキーフレームとして特徴付ける方法は、動きが2次元空間か3次元空間かに依存する。 具体的には, 3次元運動の場合, 対象軌跡の曲率とねじれの高調波平均の最大値を求め, 平面運動の場合, 軌道の最大値を求める。 提案する3次元特徴は,(1)表裏キーフレームアノテーションを用いた客観的尺度,(2)理解の人間ベース評価,(3)言語分類とその結果について,手話映像の応用において実験的に評価されている。

An interesting problem in many video-based applications is the generation of short synopses by selecting the most informative frames, a procedure which is known as video summarization. For sign language videos the benefits of using the $t$-parameterized counterpart of the curvature of the 2-D signer's wrist trajectory to identify keyframes, have been recently reported in the literature. In this paper we extend these ideas by modeling the 3-D hand motion that is extracted from each frame of the video. To this end we propose a new informative function based on the $t$-parameterized curvature and torsion of the 3-D trajectory. The method to characterize video frames as keyframes depends on whether the motion occurs in 2-D or 3-D space. Specifically, in the case of 3-D motion we look for the maxima of the harmonic mean of the curvature and torsion of the target's trajectory; in the planar motion case we seek for the maxima of the trajectory's curvature. The proposed 3-D feature is experimentally evaluated in applications of sign language videos on (1) objective measures using ground-truth keyframe annotations, (2) human-based evaluation of understanding, and (3) gloss classification and the results obtained are promising.
翻訳日:2024-01-18 21:24:19 公開日:2024-01-16
# LLMを使ってコード理解を支援する

Using an LLM to Help With Code Understanding ( http://arxiv.org/abs/2307.08177v3 )

ライセンス: Link先を確認
Daye Nam and Andrew Macvean and Vincent Hellendoorn and Bogdan Vasilescu and Brad Myers(参考訳) コードを理解することは、特に新しい複雑な開発環境で働く場合、難しい。 コードコメントとドキュメンテーションは役に立ちますが、通常、ナビゲートがほとんどまたは難しいです。 大規模言語モデル(LLM)は、コードを書くプロセスに革命をもたらしています。 彼らはそれを理解するのに同じようにできるだろうか? 本研究では,LLMをベースとした対話型UIをIDEから直接構築し,コード理解を目的とした最初の調査を行う。 私たちのIDEプラグインは、OpenAIのGPT-3.5-turboモデルに、ユーザが明示的なプロンプトを書く必要なく、4つのハイレベルなリクエストをクエリします。 プラグインはオープンなプロンプトも可能で、プログラムが編集された後自動的にLLMにコンテクスト化される。 このシステムについて,32名を対象に行ったユーザ調査で評価し,web 検索以上の作業完了を支援することができることを確認した。 さらに,開発者の利用方法の徹底的な分析や,システムの有用性の認識などを通じて,使用状況とメリットが学生と専門家によって異なることを発見した。 llmsとのイデアル内プロンプトレスインタラクションは、ツールビルダーにとって将来有望な方向性であると結論付ける。

Understanding code is challenging, especially when working in new and complex development environments. Code comments and documentation can help, but are typically scarce or hard to navigate. Large language models (LLMs) are revolutionizing the process of writing code. Can they do the same for helping understand it? In this study, we provide a first investigation of an LLM-based conversational UI built directly in the IDE that is geared towards code understanding. Our IDE plugin queries OpenAI's GPT-3.5-turbo model with four high-level requests without the user having to write explicit prompts: to explain a highlighted section of code, provide details of API calls used in the code, explain key domain-specific terms, and provide usage examples for an API. The plugin also allows for open-ended prompts, which are automatically contextualized to the LLM with the program being edited. We evaluate this system in a user study with 32 participants, which confirms that using our plugin can aid task completion more than web search. We additionally provide a thorough analysis of the ways developers use, and perceive the usefulness of, our system, among others finding that the usage and benefits differ between students and professionals. We conclude that in-IDE prompt-less interaction with LLMs is a promising future direction for tool builders.
翻訳日:2024-01-18 21:17:00 公開日:2024-01-16
# 駆動1次元準周期モデルにおけるファミリービックス動的スケーリングとKardar-Parisi-Zhang様表面粗さの超拡散成長

Family-Vicsek dynamical scaling and Kardar-Parisi-Zhang-like superdiffusive growth of surface roughness in a driven one-dimensional quasiperiodic model ( http://arxiv.org/abs/2307.03807v2 )

ライセンス: Link先を確認
Sreemayee Aditya, Nilanjan Roy(参考訳) 量子系の力学的普遍性クラスの研究は、非平衡物理学の重要な側面であり、あまり研究されていない。 本研究では,周期駆動を伴う一次元準周期モデルにおけるスピンレスフェルミオンの非平衡ダイナミクスを考慮し,粒子数ゆらぎに伴う「量子表面粗さ」の動的一パラメータ系ファミリービクセック(fv)スケーリングの存在を報告する。 周期駆動がなければ、モデルは2つの部分微分臨界線と他の位相から三重点によって分離された部分微分臨界位相を持つことが興味深い。 相間駆動の存在下での臨界相の運命の解析は、臨界相は極めて脆弱であり、駆動パラメータによって非局在化または局所化状態へ吸収される傾向があることを示している。 さらに、周期駆動は量子カルダー・パリ・チャン(KPZ)のような超拡散的力学挙動を示すことに共謀しうるが、古典的なものは存在しないようである。 さらに実効的なフロケハミルトニアンを構築し、これは駆動モデルで発生する特徴を質的に捉える。

The investigation of the dynamical universality classes of quantum systems is an important, and rather less explored, aspect of non-equilibrium physics. In this work, considering the out-of-equilibrium dynamics of spinless fermions in a one-dimensional quasiperiodic model with and without a periodic driving, we report the existence of the dynamical one-parameter based Family-Vicsek (FV) scaling of the "quantum surface-roughness" associated with the particle-number fluctuations. In absence of periodic driving, the model is interestingly shown to host a subdiffusive critical phase separated by two subdiffusive critical lines and a triple point from other phases. An analysis of the fate of critical phase in the presence of (inter-phase) driving indicates that the critical phase is quite fragile and has a tendency to get absorbed into the delocalized or localized regime depending on the driving parameters. Furthermore, periodic driving can conspire to show quantum Kardar-Parisi-Zhang (KPZ)-like superdiffusive dynamical behavior, which seems to have no classical counterpart. We further construct an effective Floquet Hamiltonian, which qualitatively captures this feature occurring in the driven model
翻訳日:2024-01-18 21:16:00 公開日:2024-01-16
# グラフ学習における大規模言語モデル(LLM)の可能性を探る

Exploring the Potential of Large Language Models (LLMs) in Learning on Graphs ( http://arxiv.org/abs/2307.03393v4 )

ライセンス: Link先を確認
Zhikai Chen, Haitao Mao, Hang Li, Wei Jin, Hongzhi Wen, Xiaochi Wei, Shuaiqiang Wang, Dawei Yin, Wenqi Fan, Hui Liu, Jiliang Tang(参考訳) Graphsでの学習は、その広い現実世界のアプリケーションのために大きな注目を集めている。 テキストノード属性を持つグラフを学習するための最も一般的なパイプラインは、主にグラフニューラルネットワーク(GNN)に依存しており、一般的な知識と深い意味理解に制限がある初期ノード表現として浅いテキスト埋め込みを利用している。 近年、LLM(Large Language Models)は、テキストデータを扱う既存のワークフローに革命をもたらした、広範な共通知識と強力な意味理解能力を持つことが証明されている。 本稿では,グラフ機械学習,特にノード分類タスクにおけるLLMの可能性を探究し,LLMs-as-EnhancersとLLMs-as-Predictorsの2つの可能なパイプラインについて検討する。 前者はLLMを活用して、膨大な知識でノードのテキスト属性を拡張し、GNNを通じて予測を生成する。 後者はLSMをスタンドアロンの予測器として直接利用する。 この2つのパイプラインについて、さまざまな設定で包括的で体系的な研究を行う。 総合的な経験的結果から,新たな可能性を開く新たな洞察と,グラフ上での学習にLLMを活用するための有望な方向性を提案する。 私たちのコードとデータセットはhttps://github.com/currytang/graph-llmで利用可能です。

Learning on Graphs has attracted immense attention due to its wide real-world applications. The most popular pipeline for learning on graphs with textual node attributes primarily relies on Graph Neural Networks (GNNs), and utilizes shallow text embedding as initial node representations, which has limitations in general knowledge and profound semantic understanding. In recent years, Large Language Models (LLMs) have been proven to possess extensive common knowledge and powerful semantic comprehension abilities that have revolutionized existing workflows to handle text data. In this paper, we aim to explore the potential of LLMs in graph machine learning, especially the node classification task, and investigate two possible pipelines: LLMs-as-Enhancers and LLMs-as-Predictors. The former leverages LLMs to enhance nodes' text attributes with their massive knowledge and then generate predictions through GNNs. The latter attempts to directly employ LLMs as standalone predictors. We conduct comprehensive and systematical studies on these two pipelines under various settings. From comprehensive empirical results, we make original observations and find new insights that open new possibilities and suggest promising directions to leverage LLMs for learning on graphs. Our codes and datasets are available at https://github.com/CurryTang/Graph-LLM.
翻訳日:2024-01-18 21:15:37 公開日:2024-01-16
# 量子問題に対するアルゴリズムクラスタ展開

Algorithmic Cluster Expansions for Quantum Problems ( http://arxiv.org/abs/2306.08974v2 )

ライセンス: Link先を確認
Ryan L. Mann, Romy M. Minko(参考訳) 計算問題のクラスに対して近似アルゴリズムを開発するための一般的な枠組みを確立する。 この枠組みは,koteck\'y と preiss の抽象高分子モデルのクラスター展開に基づいている。 本手法は,(1)恒等級に近い量子回路のクラスの確率振幅を近似する効率的なアルゴリズム,(2)恒等級に近い作用素を持つ量子回路のクラスにおける期待値の近似,(3)高温における量子スピン系のクラス分割関数の近似,(4)正半定義作用素を用いた高温における量子スピン系のクラスの熱期待値の近似を行う。 さらに、量子回路の確率振幅と量子スピン系の分割関数を近似するための近似結果の硬さを求める。 これにより、これらの問題に対する計算複雑性遷移が成立し、我々のアルゴリズム条件が複雑性理論的な仮定の下で最適であることを示す。 最後に, このアルゴリズム条件は期待値にほぼ最適であり, ゼロ自由性という意味での熱的期待値に最適であることを示す。

We establish a general framework for developing approximation algorithms for a class of counting problems. Our framework is based on the cluster expansion of abstract polymer models formalism of Koteck\'y and Preiss. We apply our framework to obtain efficient algorithms for (1) approximating probability amplitudes of a class of quantum circuits close to the identity, (2) approximating expectation values of a class of quantum circuits with operators close to the identity, (3) approximating partition functions of a class of quantum spin systems at high temperature, and (4) approximating thermal expectation values of a class of quantum spin systems at high temperature with positive-semidefinite operators. Further, we obtain hardness of approximation results for approximating probability amplitudes of quantum circuits and partition functions of quantum spin systems. This establishes a computational complexity transition for these problems and shows that our algorithmic conditions are optimal under complexity-theoretic assumptions. Finally, we show that our algorithmic condition is almost optimal for expectation values and optimal for thermal expectation values in the sense of zero freeness.
翻訳日:2024-01-18 21:12:32 公開日:2024-01-16
# 私が見るものはどうすれば安全か? 画像制御自律性のための安全確率の校正予測

How Safe Am I Given What I See? Calibrated Prediction of Safety Chances for Image-Controlled Autonomy ( http://arxiv.org/abs/2308.12252v2 )

ライセンス: Link先を確認
Zhenjiang Mao, Carson Sobolewski, Ivan Ruchkin(参考訳) エンドツーエンドの学習は、自律的なシステムを開発するための主要なパラダイムとして登場した。 残念ながら、パフォーマンスと利便性により、安全性の保証がさらに困難になる。 この課題の鍵となる要素は、従来の保証法が発展する低次元かつ解釈可能な動的状態の概念がないことである。 本稿では,オンライン安全性予測問題に着目し,低次元状態を必要としない生成世界モデルに基づく構成可能な学習パイプライン群を提案する。 これらのパイプラインを実装するために,予測誘導分布シフトの下で,安全インフォームト表現と安全性ラベルの欠落を学習する上での課題を克服する。 これらのパイプラインは、共形予測に基づいて安全確率予測の統計的キャリブレーションを保証する。 画像制御システムの2つのケーススタディ(レーシングカーとカートポール)において,提案する学習パイプラインを広範囲に評価した。

End-to-end learning has emerged as a major paradigm for developing autonomous systems. Unfortunately, with its performance and convenience comes an even greater challenge of safety assurance. A key factor of this challenge is the absence of the notion of a low-dimensional and interpretable dynamical state, around which traditional assurance methods revolve. Focusing on the online safety prediction problem, this paper proposes a configurable family of learning pipelines based on generative world models, which do not require low-dimensional states. To implement these pipelines, we overcome the challenges of learning safety-informed latent representations and missing safety labels under prediction-induced distribution shift. These pipelines come with statistical calibration guarantees on their safety chance predictions based on conformal prediction. We perform an extensive evaluation of the proposed learning pipelines on two case studies of image-controlled systems: a racing car and a cartpole.
翻訳日:2024-01-18 21:05:08 公開日:2024-01-16
# 移動光学格子を用いた捕捉イオンの偏光性測定における量子論理に基づく精度の伝達法

A scheme for quantum-logic based transfer of accuracy in polarizability measurement for trapped ions using a moving optical lattice ( http://arxiv.org/abs/2308.07671v2 )

ライセンス: Link先を確認
Fabian Wolf(参考訳) 閉じ込められたイオンに基づく光原子時計は、環境からの黒体放射との相互作用による時計遷移の系統的な周波数シフトに苦しむ。 これらのシフトは、黒体放射スペクトルと微分動的偏光性が十分な精度で知られている場合に補償することができる。 本稿では,ある種から別の種への偏光率測定の精度を直接伝達する量子論理に基づく新しい測定手法を提案する。 この測定は、閉じ込められたイオンにおける最先端の偏光性測定の限界であるパーセントレベル以下のレーザーパワーの校正の必要性を回避する。 さらに, 偏光率を高精度に計算できる水素様イオンへの偏光率移動を参照することが可能である。

Optical atomic clocks based on trapped ions suffer from systematic frequency shifts of the clock transition due to interaction with blackbody radiation from the environment. These shifts can be compensated if the blackbody radiation spectrum and the differential dynamic polarizability is known to a sufficient precision. Here, we present a new measurement scheme, based on quantum logic that allows a direct transfer of precision for polarizability measurements from one species to the other. This measurement circumvents the necessity of calibrating laser power below the percent level, which is the limitation for state-of-the-art polarizability measurements in trapped ions. Furthermore, the presented technique allows to reference the polarizability transfer to hydrogen-like ions for which the polarizability can be calculated with high precision.
翻訳日:2024-01-18 21:03:33 公開日:2024-01-16
# 凸ハルの安全な集合による双曲空間のフェデレーション分類

Federated Classification in Hyperbolic Spaces via Secure Aggregation of Convex Hulls ( http://arxiv.org/abs/2308.06895v2 )

ライセンス: Link先を確認
Saurav Prakash, Jin Sima, Chao Pan, Eli Chien, Olgica Milenkovic(参考訳) 階層的および木のようなデータセットは、言語処理、グラフデータマイニング、系統学、ゲノム学など、多くの応用に現れる。 木のようなデータは、小さな歪みを持つ有限次元のユークリッド空間に埋め込むことはできないことが知られている。 この問題は双曲空間を用いて緩和することができる。 このようなデータを分散および民営化された設定で処理する必要がある場合、双曲空間に合わせた新しい連合学習法に取り組む必要がある。 双曲空間における連邦学習の分野の発展に向けた最初のステップとして、双曲空間における連邦分類への最初の既知のアプローチを提案する。 私たちの貢献は以下の通りです。 まず,Poincar\'eディスク用の凸SVM分類器の分散バージョンを開発する。 この設定では、クライアントからグローバル分類器に伝達される情報は、個々のクライアントデータに存在するクラスタの凸包である。 次に,ラベルスイッチング問題を回避するために,いわゆる整数$b_h$シーケンスに基づくラベルリカバリのための数論的手法を導入する。 第3に,双曲空間における凸包の複雑さを計算し,データの漏洩の程度を評価するとともに,包の通信コストを制限するため,reed-solomon様符号化と組み合わされたpoincar\'eディスクの新しい量子化法を提案する。 第4に、サーバレベルでは、バランスの取れたグラフ分割に基づいてクライアントの凸殻を集約する新しいアプローチを導入する。 本手法は,プライバシの制約が厳しい異なるリポジトリに分散した異なる患者からの階層型単細胞rna-seqデータを含む,多様なデータセットの集合上でテストを行う。 本手法の分類精度はeuclideanよりも最大$\sim 11\%向上し,双曲空間におけるプライバシ保存学習の重要性を実証した。

Hierarchical and tree-like data sets arise in many applications, including language processing, graph data mining, phylogeny and genomics. It is known that tree-like data cannot be embedded into Euclidean spaces of finite dimension with small distortion. This problem can be mitigated through the use of hyperbolic spaces. When such data also has to be processed in a distributed and privatized setting, it becomes necessary to work with new federated learning methods tailored to hyperbolic spaces. As an initial step towards the development of the field of federated learning in hyperbolic spaces, we propose the first known approach to federated classification in hyperbolic spaces. Our contributions are as follows. First, we develop distributed versions of convex SVM classifiers for Poincar\'e discs. In this setting, the information conveyed from clients to the global classifier are convex hulls of clusters present in individual client data. Second, to avoid label switching issues, we introduce a number-theoretic approach for label recovery based on the so-called integer $B_h$ sequences. Third, we compute the complexity of the convex hulls in hyperbolic spaces to assess the extent of data leakage; at the same time, in order to limit communication cost for the hulls, we propose a new quantization method for the Poincar\'e disc coupled with Reed-Solomon-like encoding. Fourth, at the server level, we introduce a new approach for aggregating convex hulls of the clients based on balanced graph partitioning. We test our method on a collection of diverse data sets, including hierarchical single-cell RNA-seq data from different patients distributed across different repositories that have stringent privacy constraints. The classification accuracy of our method is up to $\sim 11\%$ better than its Euclidean counterpart, demonstrating the importance of privacy-preserving learning in hyperbolic spaces.
翻訳日:2024-01-18 21:03:20 公開日:2024-01-16
# 大きな言語モデルは、新しい文学的メタファーを解釈する創発的な能力を示す

Large Language Model Displays Emergent Ability to Interpret Novel Literary Metaphors ( http://arxiv.org/abs/2308.01497v3 )

ライセンス: Link先を確認
Nicholas Ichien, Du\v{s}an Stamenkovi\'c, Keith J. Holyoak(参考訳) 大規模言語モデル(LLM)の性能の最近の進歩は、十分な訓練を受けて、そのような汎用人工知能(AI)にハイレベルな人間の能力が出現するかどうかという議論を引き起こしている。 自然言語処理や推論を含む幅広いタスクにおけるLLMの例外的なパフォーマンスにもかかわらず、それらの能力がより創造的な人間の能力に拡張されるかどうかについては、明確な意見の相違がある。 主な例は、新しいメタファーを解釈する能力である。 LLMのトレーニングに使用される巨大な非キュレートテキストコーパスを考えると、テストの設計における重大な障害は、トレーニングデータに含まれないような、新しくて高品質なメタファを見つけることにある。 ここでは,セルビアの詩から引用され,英語に翻訳された小説のメタファーを自然言語で解釈する技術であるGPT4の評価を行った。 これまでこれらのメタファーに暴露された兆候は示さなかったが、AIシステムは一貫して詳細で切迫した解釈を生み出した。 人間の裁判官は、AIモデルが関与しているという事実に盲目であり、GPT4が生成したメタファ解釈を、大学生のグループによって提供されるものよりも優れていると評価した。 逆メタファーの解釈において、gpt4は人間と同様にグリセアの協調原理に敏感な兆候を示した。 さらに、いくつかの新しい英詩において、GPT4は人間の文芸評論家によって優れた、あるいは良いと評価された解釈を生み出した。 これらの結果から, GPT4などのLPMは, 新たな詩に埋め込まれたような複雑なメタファーを解釈する創発的な能力を得たことが示唆された。

Recent advances in the performance of large language models (LLMs) have sparked debate over whether, given sufficient training, high-level human abilities emerge in such generic forms of artificial intelligence (AI). Despite the exceptional performance of LLMs on a wide range of tasks involving natural language processing and reasoning, there has been sharp disagreement as to whether their abilities extend to more creative human abilities. A core example is the ability to interpret novel metaphors. Given the enormous and non curated text corpora used to train LLMs, a serious obstacle to designing tests is the requirement of finding novel yet high quality metaphors that are unlikely to have been included in the training data. Here we assessed the ability of GPT4, a state of the art large language model, to provide natural-language interpretations of novel literary metaphors drawn from Serbian poetry and translated into English. Despite exhibiting no signs of having been exposed to these metaphors previously, the AI system consistently produced detailed and incisive interpretations. Human judges, blind to the fact that an AI model was involved, rated metaphor interpretations generated by GPT4 as superior to those provided by a group of college students. In interpreting reversed metaphors, GPT4, as well as humans, exhibited signs of sensitivity to the Gricean cooperative principle. In addition, for several novel English poems GPT4 produced interpretations that were rated as excellent or good by a human literary critic. These results indicate that LLMs such as GPT4 have acquired an emergent ability to interpret complex metaphors, including those embedded in novel poems.
翻訳日:2024-01-18 21:02:31 公開日:2024-01-16
# mlic++: 学習画像圧縮のための線形複雑性注意に基づくマルチリファレンスエントロピーモデリング

MLIC++: Linear Complexity Attention-based Multi-Reference Entropy Modeling for Learned Image Compression ( http://arxiv.org/abs/2307.15421v6 )

ライセンス: Link先を確認
Wei Jiang, Jiayu Yang, Yongqi Zhai, Feng Gao, Ronggang Wang(参考訳) 近年,学習画像圧縮の性能が向上している。 潜在表現の分布を推定するエントロピーモデルは、速度分散性能を向上させる上で重要な役割を果たす。 しかし、既存のグローバルコンテキストモジュールは、大域相関を捉えるために計算集約的な二次複雑性計算に依存する。 この二次的な複雑さは高解像度画像符号化の可能性に制限を課す。 さらに、局所的、大域的、チャネル的コンテキストを単一のエントロピーモデル内で許容可能な線形複雑度で効果的に捉えることは課題である。 これらの制約に対処するため,線形複雑度注意に基づくマルチ参照エントロピーモデル(MEM++)を提案する。 MEM++は、潜在表現に固有の様々な相関関係を効果的にキャプチャする。 具体的には、潜在表現をまず複数のスライスに分割する。 特定のスライスを圧縮する場合、以前圧縮されたスライスはそのチャネルワイズコンテキストとして機能する。 性能を犠牲にすることなくローカルコンテキストをキャプチャするために,新しいチェッカーボードアテンションモジュールを導入する。 さらに,グローバルコンテキストを捉えるために,ソフトマックス操作の分解を利用した線形複雑性注意に基づくグローバル相関手法を提案する。 予め復号されたスライスのアテンションマップは暗黙的に計算され、現在のスライスにおけるグローバル相関を予測するために使用される。 MEM++に基づく画像圧縮モデルMLIC++を提案する。 大規模な実験により、我々のMLIC++は最先端のパフォーマンスを実現し、PSNRのVTM-17.0と比較して、KodakデータセットのBDレートを13.39%削減した。 さらに、MLIC++はリニアGPUメモリを解像度で表示し、高解像度の画像符号化に非常に適している。 コードと事前訓練されたモデルはhttps://github.com/JiangWeibeta/MLIC.comで入手できる。

Recently, learned image compression has achieved impressive performance. The entropy model, which estimates the distribution of the latent representation, plays a crucial role in enhancing rate-distortion performance. However, existing global context modules rely on computationally intensive quadratic complexity computations to capture global correlations. This quadratic complexity imposes limitations on the potential of high-resolution image coding. Moreover, effectively capturing local, global, and channel-wise contexts with acceptable even linear complexity within a single entropy model remains a challenge. To address these limitations, we propose the Linear Complexity Attention-based Multi-Reference Entropy Model (MEM++). MEM++ effectively captures the diverse range of correlations inherent in the latent representation. Specifically, the latent representation is first divided into multiple slices. When compressing a particular slice, the previously compressed slices serve as its channel-wise contexts. To capture local contexts without sacrificing performance, we introduce a novel checkerboard attention module. Additionally, to capture global contexts, we propose the linear complexity attention-based global correlations capturing by leveraging the decomposition of the softmax operation. The attention map of the previously decoded slice is implicitly computed and employed to predict global correlations in the current slice. Based on MEM++, we propose image compression model MLIC++. Extensive experimental evaluations demonstrate that our MLIC++ achieves state-of-the-art performance, reducing BD-rate by 13.39% on the Kodak dataset compared to VTM-17.0 in PSNR. Furthermore, MLIC++ exhibits linear GPU memory consumption with resolution, making it highly suitable for high-resolution image coding. Code and pre-trained models are available at https://github.com/JiangWeibeta/MLIC.
翻訳日:2024-01-18 21:01:34 公開日:2024-01-16
# 新しい量子機械学習アルゴリズム:量子条件マスター方程式に触発された分割隠れ量子マルコフモデル

A new quantum machine learning algorithm: split hidden quantum Markov model inspired by quantum conditional master equation ( http://arxiv.org/abs/2307.08640v5 )

ライセンス: Link先を確認
Xiao-Yu Li, Qin-Sheng Zhu, Yong Hu, Hao Wu, Guo-Wu Yang, Lian-Hui Yu, Geng Chen(参考訳) 隠れ量子マルコフモデル(hidden quantum markov model, hqmm)は、時系列データの解析や量子領域の確率過程の研究に重要な可能性を持ち、古典的なマルコフモデルよりも優れている。 本稿では,量子システムの内部状態間の相互接続を実証するために,条件付きマスター方程式を微細なバランス条件で利用し,隠れ量子マルコフ過程を実装するための分割HQMM(SHQMM)を提案する。 実験結果から,本モデルは適用範囲とロバスト性の観点から,従来のモデルよりも優れていることが示唆された。 さらに,量子条件マスター方程式をHQMMに関連付けることで,HQMMのパラメータを解く新しい学習アルゴリズムを構築した。 最後に,本研究では,量子輸送系がHQMMの物理表現とみなすことができることを示す。 shqmmと付随するアルゴリズムは、物理的に実装された量子システムと時系列を分析する新しい手法である。

The Hidden Quantum Markov Model (HQMM) has significant potential for analyzing time-series data and studying stochastic processes in the quantum domain as an upgrading option with potential advantages over classical Markov models. In this paper, we introduced the split HQMM (SHQMM) for implementing the hidden quantum Markov process, utilizing the conditional master equation with a fine balance condition to demonstrate the interconnections among the internal states of the quantum system. The experimental results suggest that our model outperforms previous models in terms of scope of applications and robustness. Additionally, we establish a new learning algorithm to solve parameters in HQMM by relating the quantum conditional master equation to the HQMM. Finally, our study provides clear evidence that the quantum transport system can be considered a physical representation of HQMM. The SHQMM with accompanying algorithms present a novel method to analyze quantum systems and time series grounded in physical implementation.
翻訳日:2024-01-18 21:00:10 公開日:2024-01-16
# 可変最小化を改良したブロックワイド量子化を用いたグラフニューラルネットワークの活性化圧縮

Activation Compression of Graph Neural Networks using Block-wise Quantization with Improved Variance Minimization ( http://arxiv.org/abs/2309.11856v2 )

ライセンス: Link先を確認
Sebastian Eliassen, Raghavendra Selvan(参考訳) 大規模グラフニューラルネットワーク(GNN)の効率的なトレーニングは、メモリ使用量の削減に特化して研究されている。 Liu et al. (2022) によって提案された極端なアクティベーション圧縮(EXACT)は、中間アクティベーションマップをINT2の精度で量子化することでメモリ消費を大幅に削減することを示した。 gpuメモリ消費を大幅に削減しながら、パフォーマンスをほとんど、あるいは全く低下させませんでした。 本研究では、中間活性化マップのブロックワイズ量子化を用いてEXACT戦略の改善を提案する。 異なるブロックサイズを実験的に解析し、従来のEXACTと同様の性能トレードオフで極端に量子化を行う場合であっても、メモリ消費(>15%)とエポックあたりの実行速度(約5%)の低下を示す。 さらに,中間活性化写像の分布に関する仮定を(一様であると仮定して)正確に補正し,量子化および非量子化ステップの分散推定の改善を示す。

Efficient training of large-scale graph neural networks (GNNs) has been studied with a specific focus on reducing their memory consumption. Work by Liu et al. (2022) proposed extreme activation compression (EXACT) which demonstrated drastic reduction in memory consumption by performing quantization of the intermediate activation maps down to using INT2 precision. They showed little to no reduction in performance while achieving large reductions in GPU memory consumption. In this work, we present an improvement to the EXACT strategy by using block-wise quantization of the intermediate activation maps. We experimentally analyze different block sizes and show further reduction in memory consumption (>15%), and runtime speedup per epoch (about 5%) even when performing extreme extents of quantization with similar performance trade-offs as with the original EXACT. Further, we present a correction to the assumptions on the distribution of intermediate activation maps in EXACT (assumed to be uniform) and show improved variance estimations of the quantization and dequantization steps.
翻訳日:2024-01-18 20:53:09 公開日:2024-01-16
# feddcsr: disentangled representation learningによるフェデレーションクロスドメインシーケンシャルレコメンデーション

FedDCSR: Federated Cross-domain Sequential Recommendation via Disentangled Representation Learning ( http://arxiv.org/abs/2309.08420v7 )

ライセンス: Link先を確認
Hongyu Zhang, Dongyi Zheng, Xu Yang, Jiyuan Feng, Qing Liao(参考訳) 近年,複数のドメインからのユーザシーケンスデータを活用するクロスドメインシーケンスレコメンデーション(CSR)が注目されている。 しかし、既存のCSRメソッドは、GDPR(General Data Protection Regulation)に違反しているドメイン間で元のユーザデータを共有する必要がある。 したがって、データプライバシを保ちながら、異なるドメインからの知識を完全に活用するために、連邦学習(FL)とCSRを組み合わせる必要がある。 それでも、異なる領域間での配列の不均一性はFLの全体的な性能に大きな影響を及ぼす。 本稿では,連接表現学習による新しいフェデレーションクロスドメイン逐次推奨フレームワークfederated cross-domainについて述べる。 具体的には、ドメイン間のシーケンス特徴の不均一性に対処するために、ユーザシーケンス機能をドメイン共有機能とドメイン専用機能に分解するinter-intra domain sequence representation disentanglement(srd)というアプローチを導入する。 さらに、ユーザシーケンス上でデータ拡張を行うことで、よりリッチなドメイン排他的特徴を学習するためのドメイン内コントラッシブインフォマックス(CIM)戦略を設計する。 3つの実世界のシナリオに関する大規模な実験は、FedDCSRが既存のベースラインよりも大幅に改善されていることを示している。

Cross-domain Sequential Recommendation (CSR) which leverages user sequence data from multiple domains has received extensive attention in recent years. However, the existing CSR methods require sharing origin user data across domains, which violates the General Data Protection Regulation (GDPR). Thus, it is necessary to combine federated learning (FL) and CSR to fully utilize knowledge from different domains while preserving data privacy. Nonetheless, the sequence feature heterogeneity across different domains significantly impacts the overall performance of FL. In this paper, we propose FedDCSR, a novel federated cross-domain sequential recommendation framework via disentangled representation learning. Specifically, to address the sequence feature heterogeneity across domains, we introduce an approach called inter-intra domain sequence representation disentanglement (SRD) to disentangle the user sequence features into domain-shared and domain-exclusive features. In addition, we design an intra domain contrastive infomax (CIM) strategy to learn richer domain-exclusive features of users by performing data augmentation on user sequences. Extensive experiments on three real-world scenarios demonstrate that FedDCSR achieves significant improvements over existing baselines.
翻訳日:2024-01-18 20:51:17 公開日:2024-01-16
# 一般量子過程における量子非マルコフ性、量子コヒーレンス、抽出可能な仕事

Quantum non-Markovianity, quantum coherence and extractable work in a general quantum process ( http://arxiv.org/abs/2309.04996v2 )

ライセンス: Link先を確認
Amin Mohammadi and Afshin Shafiee(参考訳) 量子熱力学における鍵となる概念は、量子システムから抽出できる最大作業量を指定する抽出可能作業である。 抽出可能な仕事を測定するために異なる量を用いるが、その中で最も多く用いられるのはエルゴトロピーであり、非平衡と平衡量子自由エネルギーの違いである。 前者を用いて、開量子系が完全正のトレース保存力学写像によって記述された一般量子過程を通過するとき、抽出可能な仕事の進化を調べる。 熱力学の第一法則と第二法則が組み合わさった方法で、異なる種類のエネルギー変化の関係として、そのような過程に対する熱力学の基本方程式を導出する。 次に,この方程式における可逆過程と不可逆過程の寄与を同定し,その過程における熱の流れと抽出可能な作業の変化にそれぞれ責任があることを実証する。 さらに、量子効果が抽出可能な作業の進化に与える影響を明確に説明するために、この課題の潜在的な利点について論じる。 具体的には、抽出可能な仕事と量子非マルコフ性および量子コヒーレンスの標準量子化子を直接結びつけることで、これを確立する。 これらの結果を2つの例で示します。

A key concept in quantum thermodynamics is extractable work, which specifies the maximum amount of work that can be extracted from a quantum system. Different quantities are used to measure extractable work, the most prevalent of which are ergotropy and the difference between the non-equilibrium and equilibrium quantum free energy. Using the former, we investigate the evolution of extractable work when an open quantum system goes through a general quantum process described by a completely-positive and trace-preserving dynamical map. We derive a fundamental equation of thermodynamics for such processes as a relation between the distinct sorts of energy change in such a way the first and second laws of thermodynamics are combined. We then identify the contributions made by the reversible and irreversible processes in this equation and demonstrate that they are respectively responsible for the heat flow and change in the extractable work during the process. Furthermore, we discuss the potential benefit of this assignment in favor of a clear explanation of the impact of quantum effects on the evolution of extractable work. Specifically, we establish this by directly connecting the extractable work with standard quantifiers of quantum non-Markovianity and quantum coherence during the process. We illustrate these results with two examples.
翻訳日:2024-01-18 20:50:17 公開日:2024-01-16
# chameleon: アダプティブ中毒によるラベルのみのメンバシップリークの増加

Chameleon: Increasing Label-Only Membership Leakage with Adaptive Poisoning ( http://arxiv.org/abs/2310.03838v2 )

ライセンス: Link先を確認
Harsh Chaudhari, Giorgio Severi, Alina Oprea, Jonathan Ullman(参考訳) 多くの重要なアプリケーションにおける機械学習(ML)の統合は、モデルトレーニングのためにデータセットを提供する個人に対して、さまざまなプライバシー上の懸念をもたらす。 そのようなプライバシリスクの1つは、モデルのトレーニングデータセットに特定のデータサンプルが含まれているかどうかを攻撃者が判断するメンバーシップ推論(MI)である。 現在の最先端のmi攻撃は、モデルが予測した信頼度スコアにアクセスしてメンバーシップ推論を成功させ、データ中毒を利用してその効果をさらに高める。 本研究では,クエリしたサンプルに予測されたラベルのみを提供するという,より探索的で現実的なラベルのみの設定に注目する。 既存のラベルのみのMI攻撃は,低偽陽性率(FPR)体制の加入を推測する上で効果がないことを示す。 この課題に対処するために,新しい適応型データ中毒戦略と効率的なクエリ選択手法を活用し,既存のラベルオンリー攻撃,特に低fpr攻撃よりも高い精度でメンバシップ推定を実現する新しい攻撃用chameleonを提案する。

The integration of machine learning (ML) in numerous critical applications introduces a range of privacy concerns for individuals who provide their datasets for model training. One such privacy risk is Membership Inference (MI), in which an attacker seeks to determine whether a particular data sample was included in the training dataset of a model. Current state-of-the-art MI attacks capitalize on access to the model's predicted confidence scores to successfully perform membership inference, and employ data poisoning to further enhance their effectiveness. In this work, we focus on the less explored and more realistic label-only setting, where the model provides only the predicted label on a queried sample. We show that existing label-only MI attacks are ineffective at inferring membership in the low False Positive Rate (FPR) regime. To address this challenge, we propose a new attack Chameleon that leverages a novel adaptive data poisoning strategy and an efficient query selection method to achieve significantly more accurate membership inference than existing label-only attacks, especially at low FPRs.
翻訳日:2024-01-18 20:39:59 公開日:2024-01-16
# UniPredict: 大規模言語モデルはユニバーサルタブラル分類器である

UniPredict: Large Language Models are Universal Tabular Classifiers ( http://arxiv.org/abs/2310.03266v2 )

ライセンス: Link先を確認
Ruiyu Wang, Zifeng Wang, Jimeng Sun(参考訳) タブラルデータ予測は多くのアプリケーションにとって基本的な機械学習タスクである。 既存の手法では、主に識別モデリングを採用し、固定された目標列の仮定の下で動作し、新しい予測タスクごとに再訓練する必要がある。 大規模言語モデル(LLM)の生成力に触発された本論文は、生成モデル(UniPredict)に基づく普遍的な表型データ予測器を構築するというアイデアを活用する。 ここでは,広範な表型データセットへのllmのスケーラビリティを実証し,多様な表型入力の理解と,与えられた命令に従ってターゲット変数の予測を可能にした。 具体的には、1つのLCMを169個の表付きデータセットのアグリゲーションでトレーニングし、そのパフォーマンスを各データセットで個別にトレーニングされたベースラインと比較する。 この汎用的なUniPredictモデルは、それぞれ最高のツリーブースティングベースラインと最高のニューラルネットワークベースラインと比較して、5.4%から13.4%の範囲で、他のモデルよりも有利であることを示す。 さらに、62のグラフデータセット上で、数ショットの学習設定でUniPredictをテストする。 提案手法は,新しいタスクに迅速に適応することで,高い性能を実現する。 低リソース数ショット設定では、XGBoostと比較して100%以上のパフォーマンスの利点があり、すべてのベースラインに対して大きなマージンがあります。 ユニプレディクトは、大規模データから学習し、幅広い予測タスクをこなすユニバーサルな表型データ予測システムの開発に光を当てることを期待している。

Tabular data prediction is a fundamental machine learning task for many applications. Existing methods predominantly employ discriminative modeling and operate under the assumption of a fixed target column, necessitating re-training for every new predictive task. Inspired by the generative power of large language models (LLMs), this paper exploits the idea of building universal tabular data predictors based on generative modeling, namely UniPredict. Here, we demonstrate the scalability of an LLM to extensive tabular datasets, enabling it to comprehend diverse tabular inputs and predict target variables following the provided instructions. Specifically, we train a single LLM on an aggregation of 169 tabular datasets with diverse targets and compare its performance against baselines that are trained on each dataset separately. We observe this versatile UniPredict model demonstrates an advantage over other models, ranging from 5.4% to 13.4%, when compared with the best tree-boosting baseline and the best neural network baseline, respectively. We further test UniPredict in few-shot learning settings on another 62 tabular datasets. Our method achieves strong performance in quickly adapting to new tasks. In low-resource few-shot setup, we observed a 100%+ performance advantage compared with XGBoost, and significant margin over all baselines. We envision that UniPredict sheds light on developing a universal tabular data prediction system that learns from data at scale and serves a wide range of prediction tasks.
翻訳日:2024-01-18 20:39:40 公開日:2024-01-16
# 言語モデル蒸留による事実検証のための教師なし事前訓練

Unsupervised Pretraining for Fact Verification by Language Model Distillation ( http://arxiv.org/abs/2309.16540v2 )

ライセンス: Link先を確認
Adri\'an Bazaga and Pietro Li\`o and Gos Micklem(参考訳) 事実検証は、信頼できる知識ベースからの証拠を用いてクレームを検証することを目的としている。 この課題に対処するために、アルゴリズムは、意味的に意味があり、ソース情報とセマンティックアライメントを見つけるのに十分コンパクトであるすべての要求に対して、機能を生成する必要がある。 注釈付きコーパスとそのラベルを学習してアライメント問題に取り組む従来の研究とは対照的に,事前学習した言語モデルを利用して,アノテーションを必要とせずに自己管理機能を高品質なクレームファクトアライメントに分解する,新たな教師なし事前学習フレームワークであるSFAVEL(Self-supervised Fact Verification via Language Model Distillation)を提案する。 これは、コーパス間の意味的関係を維持しながら、特徴が高品質なクレームとエビデンスアライメントを達成することを奨励する、新しいコントラスト損失関数によって実現される。 特にFB15k-237(+5.3% Hits@1)とFEVER(+8%精度)を線形評価で新たな最先端化を実現した。

Fact verification aims to verify a claim using evidence from a trustworthy knowledge base. To address this challenge, algorithms must produce features for every claim that are both semantically meaningful, and compact enough to find a semantic alignment with the source information. In contrast to previous work, which tackled the alignment problem by learning over annotated corpora of claims and their corresponding labels, we propose SFAVEL (Self-supervised Fact Verification via Language Model Distillation), a novel unsupervised pretraining framework that leverages pre-trained language models to distil self-supervised features into high-quality claim-fact alignments without the need for annotations. This is enabled by a novel contrastive loss function that encourages features to attain high-quality claim and evidence alignments whilst preserving the semantic relationships across the corpora. Notably, we present results that achieve a new state-of-the-art on FB15k-237 (+5.3% Hits@1) and FEVER (+8% accuracy) with linear evaluation.
翻訳日:2024-01-18 20:38:05 公開日:2024-01-16
# 人間のフィードバックはゴールドスタンダードではない

Human Feedback is not Gold Standard ( http://arxiv.org/abs/2309.16349v2 )

ライセンス: Link先を確認
Tom Hosking, Phil Blunsom, Max Bartolo(参考訳) 人間のフィードバックは、大きな言語モデルのパフォーマンスを評価するためのデファクトスタンダードとなり、トレーニングの目的としてますます使われています。 しかし、生成された出力のどの特性が、この単一の'preference'スコアをキャプチャするかは、はっきりしない。 選好スコアは主観的であり、望ましくない偏見に対して開放的であると仮定する。 我々は、トレーニングと評価の両方に人的フィードバックを使うことを批判的に分析し、それが重要なエラー基準の範囲を完全に捉えているかどうかを検証する。 選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。 さらに、選好スコアとエラーアノテーションの両方が、共同創設者の影響を受け得ると仮定し、命令調整モデルを利用して、2つの可能な相反する次元に沿って変化する出力を生成する。 出力のアサーション性は事実性エラーの認識率を歪め、人間のアノテーションが完全に信頼性のある評価基準や訓練目標ではないことを示す。 最後に,人間のフィードバックをトレーニング対象として用いることで,モデル出力の主張性が不釣り合いに向上することを示す。 選好スコアが望ましい目的と適切に一致しているかどうかを慎重に検討するよう、今後の取り組みを奨励する。

Human feedback has become the de facto standard for evaluating the performance of Large Language Models, and is increasingly being used as a training objective. However, it is not clear which properties of a generated output this single `preference' score captures. We hypothesise that preference scores are subjective and open to undesirable biases. We critically analyse the use of human feedback for both training and evaluation, to verify whether it fully captures a range of crucial error criteria. We find that while preference scores have fairly good coverage, they under-represent important aspects like factuality. We further hypothesise that both preference scores and error annotation may be affected by confounders, and leverage instruction-tuned models to generate outputs that vary along two possible confounding dimensions: assertiveness and complexity. We find that the assertiveness of an output skews the perceived rate of factuality errors, indicating that human annotations are not a fully reliable evaluation metric or training objective. Finally, we offer preliminary evidence that using human feedback as a training objective disproportionately increases the assertiveness of model outputs. We encourage future work to carefully consider whether preference scores are well aligned with the desired objective.
翻訳日:2024-01-18 20:37:42 公開日:2024-01-16
# 列長上の非線形シーケンシャルモデルの並列化

Parallelizing non-linear sequential models over the sequence length ( http://arxiv.org/abs/2309.12252v3 )

ライセンス: Link先を確認
Yi Heng Lim, Qi Zhu, Joshua Selfridge, Muhammad Firmansyah Kasim(参考訳) リカレントニューラルネットワークや神経常微分方程式といったシーケンシャルモデルでは、本質的にシーケンシャルな性質のため、トレーニングが遅かった。 多くの考慮されたシーケンシャルモデルが並列化できないため、長年にわたってこのボトルネックは続いている。 我々は、出力精度を損なうことなく、逐次モデルのGPU評価を最大3桁高速化する並列アルゴリズムによるこの長年の信念に挑戦する。 このアルゴリズムはシーケンシャルモデルのアーキテクチャに特別な構造は必要とせず、幅広いアーキテクチャに適用できる。 本手法では,学習結果に有意な差を生じさせることなく,一般的な逐次法よりも10倍以上高速に学習できる。 この高速化トレーニングを利用して、17k時間サンプルを用いた長期連続分類問題においてGated Recurrent Unitの有効性を発見した。 学習のボトルネックを克服することで、我々の研究は、長い系列問題に対する非線形シーケンシャルモデルのポテンシャルを解き放つための第一歩となる。

Sequential models, such as Recurrent Neural Networks and Neural Ordinary Differential Equations, have long suffered from slow training due to their inherent sequential nature. For many years this bottleneck has persisted, as many thought sequential models could not be parallelized. We challenge this long-held belief with our parallel algorithm that accelerates GPU evaluation of sequential models by up to 3 orders of magnitude faster without compromising output accuracy. The algorithm does not need any special structure in the sequential models' architecture, making it applicable to a wide range of architectures. Using our method, training sequential models can be more than 10 times faster than the common sequential method without any meaningful difference in the training results. Leveraging this accelerated training, we discovered the efficacy of the Gated Recurrent Unit in a long time series classification problem with 17k time samples. By overcoming the training bottleneck, our work serves as the first step to unlock the potential of non-linear sequential models for long sequence problems.
翻訳日:2024-01-18 20:36:10 公開日:2024-01-16
# CHAMMI:顕微鏡画像におけるチャネル適応モデルのベンチマーク

CHAMMI: A benchmark for channel-adaptive models in microscopy imaging ( http://arxiv.org/abs/2310.19224v2 )

ライセンス: Link先を確認
Zitong Chen, Chau Pham, Siqi Wang, Michael Doron, Nikita Moshkov, Bryan A. Plummer, Juan C. Caicedo(参考訳) ほとんどのニューラルネットワークは、入力画像が一定数のチャンネルを持つと仮定している(rgb画像では3つ)。 しかし、機器や実験目標に応じてチャンネルの数が変化する顕微鏡画像など、チャンネルの数が変化する可能性のある設定が多数存在する。 しかし、チャネルの数や種類に不変なニューラルネットワークを作成して評価するシステム的な試みは行われていない。 結果として、訓練されたモデルは個々の研究に固有のままであり、他の顕微鏡設定ではほとんど再利用できない。 本稿では,顕微鏡画像におけるチャネル適応モデルの検討のためのベンチマークを提案する。 1) 可変チャネル単細胞画像のデータセット、及び 2)生物学的に関連する評価枠組み。 さらに,複数の既存手法を用いてチャネル適応モデルを作成し,このベンチマークの性能を固定チャネルベースラインモデルと比較した。 チャネル適応モデルがドメイン外のタスクをより一般化し、計算効率が向上できることが分かりました。 キュレートされたデータセット(https://doi.org/10.5281/zenodo.7988357)と評価API(https://github.com/broadinstitute/MorphEm.git)をコントリビュートして、将来の研究や応用における客観的比較を容易にする。

Most neural networks assume that input images have a fixed number of channels (three for RGB images). However, there are many settings where the number of channels may vary, such as microscopy images where the number of channels changes depending on instruments and experimental goals. Yet, there has not been a systemic attempt to create and evaluate neural networks that are invariant to the number and type of channels. As a result, trained models remain specific to individual studies and are hardly reusable for other microscopy settings. In this paper, we present a benchmark for investigating channel-adaptive models in microscopy imaging, which consists of 1) a dataset of varied-channel single-cell images, and 2) a biologically relevant evaluation framework. In addition, we adapted several existing techniques to create channel-adaptive models and compared their performance on this benchmark to fixed-channel, baseline models. We find that channel-adaptive models can generalize better to out-of-domain tasks and can be computationally efficient. We contribute a curated dataset (https://doi.org/10.5281/zenodo.7988357) and an evaluation API (https://github.com/broadinstitute/MorphEm.git) to facilitate objective comparisons in future research and applications.
翻訳日:2024-01-18 20:28:59 公開日:2024-01-16
# 一次元閉じ込めフェルミオンにおける合成次元誘起擬ヤーン・テラー効果

Synthetic dimension-induced pseudo Jahn-Teller effect in one-dimensional confined fermions ( http://arxiv.org/abs/2310.17995v3 )

ライセンス: Link先を確認
Andr\'e Becker, Georgios M. Koutentakis, Peter Schmelcher(参考訳) 超低温フェルミガス中における量子不純物の基底状態を記述するために, 浴場と不純物種の間にかなりの質量差があるにもかかわらず, 断熱的ボルン・オッペンハイマー近似の失敗を実証した。 反発の増大は、速い浴槽と遅い不純物自由度との間の非断熱カップリングの出現を招き、擬ヤーン・テラー効果に従って後者のパリティ対称性を減少させる。 このメカニズムの存在は、不純物の位置と合成次元として作用する相互作用強度の逆を含む円錐交差と関連している。 ab initio完全相関シミュレーションと実効モデルとの比較を含む詳細な基底状態解析により,これらの効果の存在を解明する。 本研究は複雑な分子現象の強力なエミュレータとして超低温原子アンサンブルを提案する。

We demonstrate the failure of the adiabatic Born-Oppenheimer approximation to describe the ground state of a quantum impurity within an ultracold Fermi gas despite substantial mass differences between the bath and impurity species. Increasing repulsion leads to the appearance of non-adiabatic couplings between the fast bath and slow impurity degrees of freedom which reduce the parity symmetry of the latter according to the pseudo Jahn-Teller effect. The presence of this mechanism is associated to a conical intersection involving the impurity position and the inverse of the interaction strength which acts as a synthetic dimension. We elucidate the presence of these effects via a detailed ground state analysis involving the comparison of ab initio fully-correlated simulations with effective models. Our study suggests ultracold atomic ensembles as potent emulators of complex molecular phenomena.
翻訳日:2024-01-18 20:28:20 公開日:2024-01-16
# DeepFDR:ニューロイメージングデータのための深層学習に基づく偽発見率制御手法

DeepFDR: A Deep Learning-based False Discovery Rate Control Method for Neuroimaging Data ( http://arxiv.org/abs/2310.13349v2 )

ライセンス: Link先を確認
Taehyo Kim, Hai Shu, Qiran Jia, Mony de Leon(参考訳) ボクセルベースの多重テストは神経画像データ解析に広く用いられている。 従来の偽発見率(FDR)制御法は、しばしばボクセルベースのテストの空間的依存を無視し、テストパワーのかなりの損失を被る。 近年の空間的fdr制御法が出現しているが、脳の複雑な空間的依存性を扱う場合、その妥当性と最適性は疑わしいままである。 同時に、深層学習手法は、ボクセルベースの多重テストと密接に関連するタスクであるイメージセグメンテーションに革命をもたらした。 本稿では,教師なしの深層学習に基づく画像分割を利用した空間的FDR制御手法であるDeepFDRを提案する。 総合シミュレーションやアルツハイマー病のFDG-PET画像解析を含む数値的研究は、DeepFDRが既存の方法よりも優れていることを示している。 DeepFDRはFDR制御に優れ、偽の非発見率を効果的に低下させるだけでなく、大規模な神経画像データを扱うのに適した計算効率も高い。

Voxel-based multiple testing is widely used in neuroimaging data analysis. Traditional false discovery rate (FDR) control methods often ignore the spatial dependence among the voxel-based tests and thus suffer from substantial loss of testing power. While recent spatial FDR control methods have emerged, their validity and optimality remain questionable when handling the complex spatial dependencies of the brain. Concurrently, deep learning methods have revolutionized image segmentation, a task closely related to voxel-based multiple testing. In this paper, we propose DeepFDR, a novel spatial FDR control method that leverages unsupervised deep learning-based image segmentation to address the voxel-based multiple testing problem. Numerical studies, including comprehensive simulations and Alzheimer's disease FDG-PET image analysis, demonstrate DeepFDR's superiority over existing methods. DeepFDR not only excels in FDR control and effectively diminishes the false nondiscovery rate, but also boasts exceptional computational efficiency highly suited for tackling large-scale neuroimaging data.
翻訳日:2024-01-18 20:27:28 公開日:2024-01-16
# 画素ワイドグレーディエントクリッピングによる高分解能3次元生成の促進

Enhancing High-Resolution 3D Generation through Pixel-wise Gradient Clipping ( http://arxiv.org/abs/2310.12474v3 )

ライセンス: Link先を確認
Zijie Pan, Jiachen Lu, Xiatian Zhu, Li Zhang(参考訳) 高解像度の3Dオブジェクト生成は、主に包括的な注釈付きトレーニングデータの可用性が限られているため、依然として難しい課題である。 最近の進歩は、Score Distillation Sampling (SDS)のような知識伝達技術を用いて、広範囲のキュレートされたWebデータセットで事前訓練された画像生成モデルを活用することで、この制約を克服することを目的としている。 高分解能レンダリングの要求に効率的に対処するためには、しばしば潜伏拡散モデル(ldm)のような潜伏表現ベースのモデルを採用する必要がある。 このフレームワークでは、個々の画像画素の勾配を計算するには、LCMで使用されるVAEエンコーダのような画像モデルの凍ったコンポーネントを通して、指定された潜在空間から勾配をバックプロパゲートする必要がある。 しかし、この勾配伝播経路は最適化されておらず、訓練中は制御されていない。 画像生成モデルからテクスチャ関連情報を取得する際に,非規制勾配が3次元モデルの能力に悪影響を及ぼすことが判明した。 そこで本研究では,既存の3次元生成モデルへのシームレスな統合を実現するため,画素方向勾配クリッピング (pgc) と呼ばれる革新的な操作を提案する。 具体的には,ピクセル毎の勾配を効率的にクリップし,テクスチャ関連勾配方向を維持しながら,確率的勾配の大きさを制御する。 このシンプルさと最小限の余剰コストにもかかわらず、高解像度オブジェクトレンダリングのための既存の3次元生成モデルの性能向上にPGCの有効性を実証する広範な実験を行った。

High-resolution 3D object generation remains a challenging task primarily due to the limited availability of comprehensive annotated training data. Recent advancements have aimed to overcome this constraint by harnessing image generative models, pretrained on extensive curated web datasets, using knowledge transfer techniques like Score Distillation Sampling (SDS). Efficiently addressing the requirements of high-resolution rendering often necessitates the adoption of latent representation-based models, such as the Latent Diffusion Model (LDM). In this framework, a significant challenge arises: To compute gradients for individual image pixels, it is necessary to backpropagate gradients from the designated latent space through the frozen components of the image model, such as the VAE encoder used within LDM. However, this gradient propagation pathway has never been optimized, remaining uncontrolled during training. We find that the unregulated gradients adversely affect the 3D model's capacity in acquiring texture-related information from the image generative model, leading to poor quality appearance synthesis. To address this overarching challenge, we propose an innovative operation termed Pixel-wise Gradient Clipping (PGC) designed for seamless integration into existing 3D generative models, thereby enhancing their synthesis quality. Specifically, we control the magnitude of stochastic gradients by clipping the pixel-wise gradients efficiently, while preserving crucial texture-related gradient directions. Despite this simplicity and minimal extra cost, extensive experiments demonstrate the efficacy of our PGC in enhancing the performance of existing 3D generative models for high-resolution object rendering.
翻訳日:2024-01-18 20:26:59 公開日:2024-01-16
# VeRA:ベクトルベースランダム行列適応

VeRA: Vector-based Random Matrix Adaptation ( http://arxiv.org/abs/2310.11454v2 )

ライセンス: Link先を確認
Dawid J. Kopiczko, Tijmen Blankevoort, Yuki M. Asano(参考訳) ローランク適応(LoRA)は、大きな言語モデルを微調整する際のトレーニング可能なパラメータの数を減少させる一般的な手法であるが、より大きなモデルへのスケーリングや、ユーザ毎またはタスク毎の適応モデルへのデプロイでは、依然として急激なストレージ上の課題に直面している。 本稿では,Vectorをベースとしたランダム行列適応(Random Matrix Adaptation, VeRA)を提案する。 これは、すべての層で共有される1対の低ランク行列を使用して、代わりに小さなスケーリングベクトルを学習することで実現される。 GLUE と E2E ベンチマーク、画像分類タスクでの有効性を示し、7B と 13B の言語モデルの命令チューニングへの応用を示す。

Low-rank adapation (LoRA) is a popular method that reduces the number of trainable parameters when finetuning large language models, but still faces acute storage challenges when scaling to even larger models or deploying numerous per-user or per-task adapted models. In this work, we present Vector-based Random Matrix Adaptation (VeRA), which significantly reduces the number of trainable parameters compared to LoRA, yet maintains the same performance. It achieves this by using a single pair of low-rank matrices shared across all layers and learning small scaling vectors instead. We demonstrate its effectiveness on the GLUE and E2E benchmarks, image classification tasks, and show its application in instruction-tuning of 7B and 13B language models.
翻訳日:2024-01-18 20:26:05 公開日:2024-01-16
# 離散拡散による自律運転のための教師なし世界モデル学習

Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion ( http://arxiv.org/abs/2311.01017v3 )

ライセンス: Link先を確認
Lunjun Zhang, Yuwen Xiong, Ze Yang, Sergio Casas, Rui Hu, Raquel Urtasun(参考訳) 学習世界モデルはエージェントに、教師なしのやり方で世界がどのように機能するかを教えることができる。 シーケンスモデリングの特殊なケースと見なすことができるが、自律運転のようなロボットアプリケーション上での世界モデルをスケールする進歩は、ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)を用いた言語モデルをスケールするよりもやや速かった。 複雑で構造化されていない観測空間を扱うことと、スケーラブルな生成モデルを持つことである。 そこで本研究では,まずVQVAEを用いてセンサ観測をトークン化し,離散拡散により未来を予測する新しい世界モデリング手法を提案する。 トークンを並列にデコードし、デノーズするために、マスク付き生成画像トランスフォーマーを離散拡散フレームワークに若干の簡単な変更で再キャストし、顕著な改善を行った。 点雲観測の学習の世界モデルに適用した場合、我々のモデルは1s予測で65%以上、NuScenes、KITTI Odometry、Argoverse2データセットで3s予測で50%以上削減する。 本研究は,ロボットエージェントに対するGPTのような教師なし学習のパワーを解き放つことができることを示す。

Learning world models can teach an agent how the world works in an unsupervised manner. Even though it can be viewed as a special case of sequence modeling, progress for scaling world models on robotic applications such as autonomous driving has been somewhat less rapid than scaling language models with Generative Pre-trained Transformers (GPT). We identify two reasons as major bottlenecks: dealing with complex and unstructured observation space, and having a scalable generative model. Consequently, we propose a novel world modeling approach that first tokenizes sensor observations with VQVAE, then predicts the future via discrete diffusion. To efficiently decode and denoise tokens in parallel, we recast Masked Generative Image Transformer into the discrete diffusion framework with a few simple changes, resulting in notable improvement. When applied to learning world models on point cloud observations, our model reduces prior SOTA Chamfer distance by more than 65% for 1s prediction, and more than 50% for 3s prediction, across NuScenes, KITTI Odometry, and Argoverse2 datasets. Our results demonstrate that discrete diffusion on tokenized agent experience can unlock the power of GPT-like unsupervised learning for robotic agents.
翻訳日:2024-01-18 20:12:55 公開日:2024-01-16
# 量子テレポーテーションによる有限温度での量子臨界点の検出:さらなるモデル

Detecting quantum critical points at finite temperature via quantum teleportation: further models ( http://arxiv.org/abs/2311.00105v2 )

ライセンス: Link先を確認
G. A. P. Ribeiro and Gustavo Rigolin(参考訳) A 107, 052420 (2023)] において、系が絶対零温度(T=0)から離れていても、いくつかの異なる量子相転移のクラスに関連する量子臨界点(QCP)を検出するために量子テレポーテーションプロトコルが使用できることを示した。 ここでは、熱力学的極限(無限鎖)において、他のいくつかのスピン-1/2モデルに対する以前の解析を拡張する。 温度が0または0以上の場合、これらのモデルのqcpを検出するための量子テレポーテーションプロトコルの有用性について検討する。 ここで研究するスピン鎖は、xxzモデル、xyモデル、イジングモデルによって説明され、これらはすべて外部磁場を受ける。 具体的には、温度Tの貯水池と熱平衡における無限スピン鎖からの近接量子ビットを資源として使用し、量子テレポーテーションプロトコルを実行する。 この2組の量子ビットが鎖から外部の量子ビットを忠実にテレポートする能力は、上記のモデルに関連するQCPを横断するときに、劇的に影響を受ける。 この結果は、[Phys. Rev. A 107, 052420 (2023)]と合わせて、量子テレポーテーションプロトコルは、絶対零温度から遠く離れた系であってもQCPを検出するための頑健で非常に普遍的なツールであることを示唆している。

In [Phys. Rev. A 107, 052420 (2023)] we showed that the quantum teleportation protocol can be used to detect quantum critical points (QCPs) associated with a couple of different classes of quantum phase transitions, even when the system is away from the absolute zero temperature (T=0). Here, working in the thermodynamic limit (infinite chains), we extend the previous analysis for several other spin-1/2 models. We investigate the usefulness of the quantum teleportation protocol to detect the QCPs of those models when the temperature is either zero or greater than zero. The spin chains we investigate here are described by the XXZ model, the XY model, and the Ising model, all of them subjected to an external magnetic field. Specifically, we use a pair of nearest neighbor qubits from an infinite spin chain at thermal equilibrium with a reservoir at temperature T as the resource to execute the quantum teleportation protocol. We show that the ability of this pair of qubits to faithfully teleport an external qubit from the chain is dramatically affected as we cross the QCPs related to the aforementioned models. The results here presented together with the ones of [Phys. Rev. A 107, 052420 (2023)] suggest that the quantum teleportation protocol is a robust and quite universal tool to detect QCPs even when the system of interest is far from the absolute zero temperature.
翻訳日:2024-01-18 20:12:10 公開日:2024-01-16
# 経験的ウィンドウリングを超えて:自律走行車における信頼予測のための注意に基づくアプローチ

Beyond Empirical Windowing: An Attention-Based Approach for Trust Prediction in Autonomous Vehicles ( http://arxiv.org/abs/2312.10209v2 )

ライセンス: Link先を確認
Minxue Niu, Zhaobo Zheng, Kumar Akash, Teruhisa Misu(参考訳) 人間の内部状態は人間と機械の相互作用において重要な役割を担い、人間の状態推定が顕著な分野として台頭する。 驚きや刺激といった急激な状態の変化と比較して、信頼や満足度といった段階的な状態のモデリングは、ラベルの空間性によってさらに困難になる。 ウィンドウ化は長い時系列データの局所解析を可能にする手法として広く利用されている。 しかし、下流モデルの性能はウィンドウサイズに敏感であり、最適なウィンドウサイズを決定するにはドメインの専門知識と広範囲な検索が必要である。 この課題に対処するために、ウィンドウプロンプトとマスキングアテンション変換を用いたSelective Windowing Attention Network (SWAN)を提案する。 我々は、新しいマルチモーダル運転シミュレーションデータセットにおいて、信頼予測のタスク上でSWANを評価する。 実験の結果、SWANはCNN-LSTMやTransformerなど、既存の経験的ウィンドウ選択ベースラインとニューラルネットワークベースラインを大きく上回ることがわかった。 さらに、従来のウィンドウ化アプローチと比較して、幅広いウィンドウ範囲にわたって堅牢性を示す。

Humans' internal states play a key role in human-machine interaction, leading to the rise of human state estimation as a prominent field. Compared to swift state changes such as surprise and irritation, modeling gradual states like trust and satisfaction are further challenged by label sparsity: long time-series signals are usually associated with a single label, making it difficult to identify the critical span of state shifts. Windowing has been one widely-used technique to enable localized analysis of long time-series data. However, the performance of downstream models can be sensitive to the window size, and determining the optimal window size demands domain expertise and extensive search. To address this challenge, we propose a Selective Windowing Attention Network (SWAN), which employs window prompts and masked attention transformation to enable the selection of attended intervals with flexible lengths. We evaluate SWAN on the task of trust prediction on a new multimodal driving simulation dataset. Experiments show that SWAN significantly outperforms an existing empirical window selection baseline and neural network baselines including CNN-LSTM and Transformer. Furthermore, it shows robustness across a wide span of windowing ranges, compared to the traditional windowing approach.
翻訳日:2024-01-18 20:05:34 公開日:2024-01-16
# 有効エネルギー状態を用いた高次元浴に結合した量子系の力学モデリング

Modeling the dynamics of quantum systems coupled to large dimensional baths using effective energy states ( http://arxiv.org/abs/2312.03460v2 )

ライセンス: Link先を確認
Lo\"ise Attal, Cyril Falvo, Florent Calvo, Pascal Parneix(参考訳) 大きいが有限の高調波浴と接触する低次元系の量子力学は、その浴を還元されたエネルギー状態に粗粒化することによって理論的に研究される。 このモデルでは, 系と浴とのカップリングは, 離散的, 退化的有効状態に対する統計的平均から得られる。 本モデルは,非マルコフ過程と入浴とメインシステム間のエネルギー移動が重要となる中間浴サイズを対象としている。 この方法は40個のハーモニックモードに結合したモース発振器のモデル系に適用される。 結果はブアクラインらによる直接量子力学シミュレーションとよく一致していることがわかった。 J. Phys. Chem. A 116, 11118-11127 (2012)] しかし、計算コストはかなり低い。 時間畳み込み法と比較し, 浴槽の拡張について考察した。 また,本研究を有限初期内部エネルギーを有する微小キャノニカル浴の場合にも拡張する。 また,関連するパラメータに対する有効浴状態モデルの計算効率と収束特性についても考察した。

The quantum dynamics of a low-dimensional system in contact with a large but finite harmonic bath is theoretically investigated by coarse-graining the bath into a reduced set of effective energy states. In this model, the couplings between the system and the bath are obtained from the statistical average over the discrete, degenerate effective states. Our model is aimed at intermediate bath sizes in which non-Markovian processes and energy transfer between the bath and the main system are important. The method is applied to a model system of a Morse oscillator coupled to 40 harmonic modes. The results are found to be in excellent agreement with the direct quantum dynamics simulations of Bouakline et al. [J. Phys. Chem. A 116, 11118-11127 (2012)], but at a much lower computational cost. Extension to larger baths is discussed in comparison to the time-convolutionless method. We also extend this study to the case of a microcanonical bath with finite initial internal energies. The computational efficiency and convergence properties of the effective bath states model with respect to relevant parameters are also discussed.
翻訳日:2024-01-18 20:05:15 公開日:2024-01-16
# ハングベースサンプリングを用いた一致条件とミスマッチ条件の拡散に基づく音声強調

Diffusion-Based Speech Enhancement in Matched and Mismatched Conditions Using a Heun-Based Sampler ( http://arxiv.org/abs/2312.02683v2 )

ライセンス: Link先を確認
Philippe Gonzalez, Zheng-Hua Tan, Jan {\O}stergaard, Jesper Jensen, Tommy Sonne Alstr{\o}m, Tobias May(参考訳) 拡散モデルは、最近音声強調にうまく適用された新しい種類の生成モデルである。 先行研究は、最先端の差別モデルと比較して、不一致条件下での優れた性能を示している。 しかし、これはトレーニング用の1つのデータベースとテスト用のデータベースで検討され、その結果は特定のデータベースに依存します。 また,画像生成文学の最近の展開は,音声強調のための未検討のままである。 これらは、ノイズスケジュールやリバースサンプリングのような拡散モデルのいくつかの設計側面を含む。 本研究では,複数の音声・雑音・バイノーラル室インパルス応答(brir)データベースを用いて拡散型音声強調モデルの一般化性能を体系的に評価し,不整合音響条件のシミュレーションを行った。 また,これまで音声強調に応用されなかった雑音スケジュールとサンプルを用いて実験を行った。 提案システムは,複数のデータベースをトレーニングに使用することにより,一致条件と一致条件の双方において,最先端の識別モデルよりも優れた性能が得られることを示す。 また,Hun-based samplerは,音声強調によく用いられるサンプルに比べて,より少ない計算コストで優れた性能を示すことを示す。

Diffusion models are a new class of generative models that have recently been applied to speech enhancement successfully. Previous works have demonstrated their superior performance in mismatched conditions compared to state-of-the art discriminative models. However, this was investigated with a single database for training and another one for testing, which makes the results highly dependent on the particular databases. Moreover, recent developments from the image generation literature remain largely unexplored for speech enhancement. These include several design aspects of diffusion models, such as the noise schedule or the reverse sampler. In this work, we systematically assess the generalization performance of a diffusion-based speech enhancement model by using multiple speech, noise and binaural room impulse response (BRIR) databases to simulate mismatched acoustic conditions. We also experiment with a noise schedule and a sampler that have not been applied to speech enhancement before. We show that the proposed system substantially benefits from using multiple databases for training, and achieves superior performance compared to state-of-the-art discriminative models in both matched and mismatched conditions. We also show that a Heun-based sampler achieves superior performance at a smaller computational cost compared to a sampler commonly used for speech enhancement.
翻訳日:2024-01-18 20:04:25 公開日:2024-01-16
# IMMA: 悪意適応に対するテキスト・ツー・イメージの免疫

IMMA: Immunizing text-to-image Models against Malicious Adaptation ( http://arxiv.org/abs/2311.18815v2 )

ライセンス: Link先を確認
Amber Yijia Zheng and Raymond A. Yeh(参考訳) テキストから画像へのモデルの進歩と微調整手法は、有害な不正なコンテンツを生成するための微調整といった悪意ある適応のリスクを増大させている。 最近の研究、例えばGlazeやMISTは、データを適応的手法から保護するデータポゾン技術を開発した。 本研究では,保護のための代替パラダイムを検討する。 本稿では,悪意のあるコンテンツを微調整する際の適応法が難しいモデルパラメータを学習し,モデル「免疫」を提案する。 実験の結果, IMMAは, 芸術的スタイルの模倣や不適切・無許可なコンテンツの学習を含む悪意ある適応に対する効果をLoRA, Textual-Inversion, DreamBoothの3つの適応手法で示した。

Advancements in text-to-image models and fine-tuning methods have led to the increasing risk of malicious adaptation, i.e., fine-tuning to generate harmful unauthorized content. Recent works, e.g., Glaze or MIST, have developed data-poisoning techniques which protect the data against adaptation methods. In this work, we consider an alternative paradigm for protection. We propose to ``immunize'' the model by learning model parameters that are difficult for the adaptation methods when fine-tuning malicious content; in short IMMA. Empirical results show IMMA's effectiveness against malicious adaptations, including mimicking the artistic style and learning of inappropriate/unauthorized content, over three adaptation methods: LoRA, Textual-Inversion, and DreamBooth.
翻訳日:2024-01-18 20:02:52 公開日:2024-01-16
# 不変量と同変量と量子グラフニューラルネットワークの比較

A Comparison Between Invariant and Equivariant Classical and Quantum Graph Neural Networks ( http://arxiv.org/abs/2311.18672v2 )

ライセンス: Link先を確認
Roy T. Forestano, Mar\c{c}al Comajoan Cara, Gopal Ramesh Dahale, Zhongtian Dong, Sergei Gleyzer, Daniel Justice, Kyoungchul Kong, Tom Magorsch, Konstantin T. Matchev, Katia Matcheva, Eyup B. Unlu(参考訳) 機械学習アルゴリズムは、CERN Large Hadron Collider (LHC)における高エネルギー粒子衝突による膨大な量のデータを理解するために大きく依存している。 このような衝突イベントからのデータは自然にグラフ構造で表される。 したがって、グラフニューラルネットワーク(GNN)のような深層幾何学的手法は、高エネルギー物理学における様々なデータ解析タスクに活用されている。 典型的なタスクはジェットタグであり、ジェットは異なる特徴とそれらの構成粒子間のエッジ接続を持つ点雲と見なされる。 LHC粒子データセットのサイズと複雑さの増大と、その分析に使用される計算モデルが、量子計算のようなより高速で効率的な計算パラダイムの開発を大いに動機付けている。 さらに、ディープネットワークの有効性とロバスト性を高めるために、不変入力と同変層を用いてデータに存在する基本対称性を利用することができる。 本稿では,古典グラフニューラルネットワーク (GNN) と等変グラフニューラルネットワーク (EGNN) と,量子グラフニューラルネットワーク (QGNN) と等変量子グラフニューラルネットワーク (EQGNN) の相互比較を行った。 4つのアーキテクチャは、ジェットを開始するパルトンレベルの粒子を分類するためにバイナリ分類タスクでベンチマークされた。 AUCのスコアに基づいて、量子ネットワークは古典的ネットワークよりも優れていた。 しかし、実際に量子ネットワークの計算上の利点を見るためには、量子技術とその関連APIのさらなる開発を待つ必要があるかもしれない。

Machine learning algorithms are heavily relied on to understand the vast amounts of data from high-energy particle collisions at the CERN Large Hadron Collider (LHC). The data from such collision events can naturally be represented with graph structures. Therefore, deep geometric methods, such as graph neural networks (GNNs), have been leveraged for various data analysis tasks in high-energy physics. One typical task is jet tagging, where jets are viewed as point clouds with distinct features and edge connections between their constituent particles. The increasing size and complexity of the LHC particle datasets, as well as the computational models used for their analysis, greatly motivate the development of alternative fast and efficient computational paradigms such as quantum computation. In addition, to enhance the validity and robustness of deep networks, one can leverage the fundamental symmetries present in the data through the use of invariant inputs and equivariant layers. In this paper, we perform a fair and comprehensive comparison between classical graph neural networks (GNNs) and equivariant graph neural networks (EGNNs) and their quantum counterparts: quantum graph neural networks (QGNNs) and equivariant quantum graph neural networks (EQGNN). The four architectures were benchmarked on a binary classification task to classify the parton-level particle initiating the jet. Based on their AUC scores, the quantum networks were shown to outperform the classical networks. However, seeing the computational advantage of the quantum networks in practice may have to wait for the further development of quantum technology and its associated APIs.
翻訳日:2024-01-18 20:02:38 公開日:2024-01-16
# まばらなポーリ・リンドブラッド雑音モデル学習手法

Techniques for learning sparse Pauli-Lindblad noise models ( http://arxiv.org/abs/2311.15408v2 )

ライセンス: Link先を確認
Ewout van den Berg, Pawel Wocjan(参考訳) 確率的誤差キャンセルやゼロノイズ外挿のような誤差緩和技術は、正確なノイズモデルから恩恵を受ける。 sparse pauli-lindbladノイズモデルは、これらのアプリケーションでもっとも成功したモデルの1つです。 既存の実装では、モデルは、キュービット位相に従う一項と二項の局所項を持つ一連の単純なパウリチャネルに分解される。 このモデルは、現代の超伝導量子プロセッサの誤差軽減のためのノイズを正確に捉えることが示されているが、最寄りの相互作用を超えた高次項や効果を考慮することが重要である。 しかし、そのような拡張モデルが実用的であり続けるためには、それらが効率的に学習できることを保証する必要がある。 本研究では,これを実現する新しい手法を提案する。 我々は,ポーリ回転に基づくtwirlingを導入することで,単一量子ビットの学習補正シーケンスを自動生成し,学習する必要のある独特なフィデリティの数を減らすことができる。 さらに,学習ベース数を最小化するために,グラフカラー化と一様被覆配列を利用する基底選択戦略を提案する。 これらの手法を組み合わせることで、拡張されたノイズモデルの学習が、複雑さが増しても効率的であることを保証する。

Error-mitigation techniques such as probabilistic error cancellation and zero-noise extrapolation benefit from accurate noise models. The sparse Pauli-Lindblad noise model is one of the most successful models for those applications. In existing implementations, the model decomposes into a series of simple Pauli channels with one- and two-local terms that follow the qubit topology. While the model has been shown to accurately capture the noise in contemporary superconducting quantum processors for error mitigation, it is important to consider higher-weight terms and effects beyond nearest-neighbor interactions. For such extended models to remain practical, however, we need to ensure that they can be learned efficiently. In this work we present new techniques that accomplish exactly this. We introduce twirling based on Pauli rotations, which enables us to automatically generate single-qubit learning correction sequences and reduce the number of unique fidelities that need to be learned. In addition, we propose a basis-selection strategy that leverages graph coloring and uniform covering arrays to minimize the number of learning bases. Taken together, these techniques ensure that the learning of the extended noise models remains efficient, despite their increased complexity.
翻訳日:2024-01-18 20:01:35 公開日:2024-01-16
# 新しい領域のチャート化:マルチモーダルllmの地理的および地理空間的能力の探索

Charting New Territories: Exploring the Geographic and Geospatial Capabilities of Multimodal LLMs ( http://arxiv.org/abs/2311.14656v3 )

ライセンス: Link先を確認
Jonathan Roberts, Timo L\"uddecke, Rehan Sheikh, Kai Han, Samuel Albanie(参考訳) マルチモーダル大規模言語モデル (MLLM) は幅広いタスクにおいて顕著な能力を示してきたが, ナビゲーション, 環境研究, 都市開発, 災害対応に対する幅広いメリットがあるにもかかわらず, 地理的・地理空間領域におけるその知識と能力はまだ検討されていない。 我々は,これらの領域におけるMLLMの様々な視覚能力,特にフロンティアモデル GPT-4V に着目した一連の実験を行い,その性能をオープンソースと比較した。 我々の手法は、視覚的なタスクからなる小さなベンチマークでこれらのモデルに挑戦し、その能力を様々な複雑さでテストする。 この分析は、そのようなモデルが優れている場所だけでなく、人間よりも優れている事例も明らかにし、地理的領域におけるそれらの能力のバランスのとれたビューを提供する。 将来のモデルの比較と評価を可能にするため,我々のベンチマークを公開する。

Multimodal large language models (MLLMs) have shown remarkable capabilities across a broad range of tasks but their knowledge and abilities in the geographic and geospatial domains are yet to be explored, despite potential wide-ranging benefits to navigation, environmental research, urban development, and disaster response. We conduct a series of experiments exploring various vision capabilities of MLLMs within these domains, particularly focusing on the frontier model GPT-4V, and benchmark its performance against open-source counterparts. Our methodology involves challenging these models with a small-scale geographic benchmark consisting of a suite of visual tasks, testing their abilities across a spectrum of complexity. The analysis uncovers not only where such models excel, including instances where they outperform humans, but also where they falter, providing a balanced view of their capabilities in the geographic domain. To enable the comparison and evaluation of future models, our benchmark will be publicly released.
翻訳日:2024-01-18 20:01:17 公開日:2024-01-16
# ドメイン認識バッチ正規化学習によるテスト時間領域適応

Test-Time Domain Adaptation by Learning Domain-Aware Batch Normalization ( http://arxiv.org/abs/2312.10165v2 )

ライセンス: Link先を確認
Yanan Wu, Zhixiang Chi, Yang Wang, Konstantinos N. Plataniotis, Songhe Feng(参考訳) テストタイムドメイン適応は、ソースドメインでトレーニングされたモデルを、ラベルのないいくつかのイメージを使用して、未表示のターゲットドメインに適応することを目的としている。 新興研究では、ラベルとドメイン情報は、重み行列とバッチ正規化(BN)層に別々に埋め込まれていることが示されている。 従来の作業は通常、ラベルとドメイン間の知識を明示的に分離することなく、ネットワーク全体をネイティブに更新する。 結果として、知識の干渉と欠陥のある分布適応につながる。 本研究では,このような学習干渉を低減し,bn層を操作するだけでドメイン知識学習を向上させることを提案する。 しかし、BNの正規化ステップは統計がいくつかのサンプルから再推定されるときに本質的に不安定である。 ソースドメイン統計を保ちながら、BN内の2つのアフィンパラメータを更新するだけで、曖昧さを大幅に低減できることがわかった。 ラベルなしデータからのドメイン知識抽出をさらに強化するため,ラベルに依存しない自己教師付き学習(SSL)を補助的に構築し,監視を行う。 さらに,メタラーニングに基づく二段階最適化を提案し,補助枝と主枝の2つの学習目標のアライメントを強制する。 目標は、補助ブランチを使用してドメインを適応させ、それに続く推論のメインタスクに便益を与えることです。 提案手法は,補助分岐を適応後に完全に破棄できるのと同じ計算コストを推定時に維持する。 大規模な実験により,本手法は5つのWILDS実世界のドメインシフトデータセットにおいて先行研究よりも優れていた。 本手法はラベル依存最適化手法と統合して性能境界をさらに押し上げることもできる。 私たちのコードはhttps://github.com/ynanwu/mabn.comで利用可能です。

Test-time domain adaptation aims to adapt the model trained on source domains to unseen target domains using a few unlabeled images. Emerging research has shown that the label and domain information is separately embedded in the weight matrix and batch normalization (BN) layer. Previous works normally update the whole network naively without explicitly decoupling the knowledge between label and domain. As a result, it leads to knowledge interference and defective distribution adaptation. In this work, we propose to reduce such learning interference and elevate the domain knowledge learning by only manipulating the BN layer. However, the normalization step in BN is intrinsically unstable when the statistics are re-estimated from a few samples. We find that ambiguities can be greatly reduced when only updating the two affine parameters in BN while keeping the source domain statistics. To further enhance the domain knowledge extraction from unlabeled data, we construct an auxiliary branch with label-independent self-supervised learning (SSL) to provide supervision. Moreover, we propose a bi-level optimization based on meta-learning to enforce the alignment of two learning objectives of auxiliary and main branches. The goal is to use the auxiliary branch to adapt the domain and benefit main task for subsequent inference. Our method keeps the same computational cost at inference as the auxiliary branch can be thoroughly discarded after adaptation. Extensive experiments show that our method outperforms the prior works on five WILDS real-world domain shift datasets. Our method can also be integrated with methods with label-dependent optimization to further push the performance boundary. Our code is available at https://github.com/ynanwu/MABN.
翻訳日:2024-01-18 19:51:08 公開日:2024-01-16
# pca, t-sne, umapの可視化と分類による5gネットワークトラフィック侵入の臨界解析

Critical Analysis of 5G Networks Traffic Intrusion using PCA, t-SNE and UMAP Visualization and Classifying Attacks ( http://arxiv.org/abs/2312.04864v2 )

ライセンス: Link先を確認
Humera Ghani, Shahram Salekzamankhani, Bal Virdee(参考訳) ネットワーク、脅威モデル、悪意のあるアクターは急速に進歩している。 5Gネットワークの展開の増加に伴い、接続された5G物理デバイスのセキュリティ問題も増加した。 したがって、ネットワークトラフィックの異常を検出することによって、入ってくる脅威に対処できる人工知能ベースの自律的エンドツーエンドセキュリティ設計が必要である。 そこで本研究では,最近発表された5gトラヒックデータセットである5g-niddを用いて,機械学習とディープラーニングを用いたネットワークトラヒック異常の検出を行った。 まず、t-Distributed Stochastic Neighbor Embedding (t-SNE)、Uniform Manifold Approximation and Projection (UMAP)、Principal Component Analysis (PCA)の3つの可視化手法を用いてデータセットを分析した。 第2に、相互情報とPCA技術を用いてデータ次元を削減した。 第3に,マイノリティクラスの合成レコードを挿入することで,クラス不均衡問題を解決する。 最後に,6種類の分類器を用いて分類を行い,評価指標を提示した。 k-nearest neighbors分類器を用いた場合, 精度 (97.2%), 検出率 (96.7%), 偽陽性率 (2.2%) が最良であった。

Networks, threat models, and malicious actors are advancing quickly. With the increased deployment of the 5G networks, the security issues of the attached 5G physical devices have also increased. Therefore, artificial intelligence based autonomous end-to-end security design is needed that can deal with incoming threats by detecting network traffic anomalies. To address this requirement, in this research, we used a recently published 5G traffic dataset, 5G-NIDD, to detect network traffic anomalies using machine and deep learning approaches. First, we analyzed the dataset using three visualization techniques: t-Distributed Stochastic Neighbor Embedding (t-SNE), Uniform Manifold Approximation and Projection (UMAP), and Principal Component Analysis (PCA). Second, we reduced the data dimensionality using mutual information and PCA techniques. Third, we solve the class imbalance issue by inserting synthetic records of minority classes. Last, we performed classification using six different classifiers and presented the evaluation metrics. We received the best results when K-Nearest Neighbors classifier was used: accuracy (97.2%), detection rate (96.7%), and false positive rate (2.2%).
翻訳日:2024-01-18 19:49:11 公開日:2024-01-16
# COCOおよび雑草データセットにおけるデータ拡張のための安定拡散

Stable Diffusion for Data Augmentation in COCO and Weed Datasets ( http://arxiv.org/abs/2312.03996v3 )

ライセンス: Link先を確認
Boyang Deng(参考訳) 生成モデルはコンピュータビジョンからインテリアデザイン、その他の分野に至るまで、相対的なタスクにますます影響を与えている。 安定拡散は、テキストプロンプトや参照画像からの詳細な詳細で高解像度画像を生成するための優れた拡散モデルである。 イメージスパースカテゴリによる小さなデータセットの改善については、興味深いトピックになるでしょう。 本研究は, 安定拡散モデルの有効性を評価するために, 7つの共通カテゴリと3種の雑草種を用いた。 これらのクラスに属する合成画像の生成には,安定拡散を利用した3つの技術(画像から画像への変換,ドリームブート,コントロールネット)が活用された。 次に,これらの合成画像に基づいて分類・検出作業を行い,その性能を原画像で学習したモデルと比較した。 いくつかのクラスで結果が得られた。 このセミナルな研究は、異なる場への安定拡散モデルの適応を早めるかもしれない。

Generative models have increasingly impacted relative tasks, from computer vision to interior design and other fields. Stable diffusion is an outstanding diffusion model that paves the way for producing high-resolution images with thorough details from text prompts or reference images. It will be an interesting topic about gaining improvements for small datasets with image-sparse categories. This study utilized seven common categories and three widespread weed species to evaluate the efficiency of a stable diffusion model. In detail, Stable diffusion was used to generate synthetic images belonging to these classes; three techniques (i.e., Image-to-image translation, Dreambooth, and ControlNet) based on stable diffusion were leveraged for image generation with different focuses. Then, classification and detection tasks were conducted based on these synthetic images, whose performance was compared to the models trained on original images. Promising results have been achieved in some classes. This seminal study may expedite the adaption of stable diffusion models to different fields.
翻訳日:2024-01-18 19:48:15 公開日:2024-01-16
# beyond extraction: 言語モデルによる効率的な要約のための表データコンテキスト化

Beyond Extraction: Contextualising Tabular Data for Efficient Summarisation by Language Models ( http://arxiv.org/abs/2401.02333v2 )

ライセンス: Link先を確認
Uday Allu, Biddwan Ahmed, Vishesh Tripathi(参考訳) Retrieval-Augmented Generation (RAG) アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。 しかしながら,複雑なテーブルクエリを扱う場合,特に複雑な表構造を含むPDF文書では,RAGベースのシステムにおいて複雑なテーブルクエリの精度を高めるための革新的なアプローチが提案されている。 本手法では,検索データベースにPDFを格納し,タブ状コンテンツを別々に抽出する。 抽出されたテーブルはコンテキストエンリッチメントのプロセスに入り、ヘッダを対応する値に結合する。 強化されたデータの包括的理解を確保するため、ragアーキテクチャ内で要約するためにllama-2-chat言語モデルの微調整バージョンを用いる。 さらに,ChatGPT 3.5 APIをワンショットプロンプトで使用して,文脈感覚で表データを拡張する。 このリッチなデータは、他のPDFと並んで検索データベースに送られる。 提案手法は,複雑なテーブルクエリの精度を大幅に向上し,情報検索における長年の課題に対して有望な解決策を提供することを目的としている。

The conventional use of the Retrieval-Augmented Generation (RAG) architecture has proven effective for retrieving information from diverse documents. However, challenges arise in handling complex table queries, especially within PDF documents containing intricate tabular structures.This research introduces an innovative approach to enhance the accuracy of complex table queries in RAG-based systems. Our methodology involves storing PDFs in the retrieval database and extracting tabular content separately. The extracted tables undergo a process of context enrichment, concatenating headers with corresponding values. To ensure a comprehensive understanding of the enriched data, we employ a fine-tuned version of the Llama-2-chat language model for summarisation within the RAG architecture. Furthermore, we augment the tabular data with contextual sense using the ChatGPT 3.5 API through a one-shot prompt. This enriched data is then fed into the retrieval database alongside other PDFs. Our approach aims to significantly improve the precision of complex table queries, offering a promising solution to a longstanding challenge in information retrieval.
翻訳日:2024-01-18 19:40:28 公開日:2024-01-16
# WoodScape Motion Segmentation for autonomous Driving -- CVPR 2023 OmniCV Workshop Challenge

WoodScape Motion Segmentation for Autonomous Driving -- CVPR 2023 OmniCV Workshop Challenge ( http://arxiv.org/abs/2401.00910v2 )

ライセンス: Link先を確認
Saravanabalagi Ramachandran and Nathaniel Cibik and Ganesh Sistu and John McDonald(参考訳) 運動セグメンテーションは、自律運転において複雑だが不可欠である。 カメラのエゴモーション、魚眼レンズの放射歪み、時間的一貫性の必要性によって、タスクはより複雑になり、従来の畳み込みニューラルネットワーク(CNN)のアプローチはより効果的になる。 面倒なデータラベリング、多様で珍しいシナリオの表現、広範囲なデータキャプチャ要件は、機械学習モデルのパフォーマンスを改善するために合成データが必要となる。 この目的のために,parallel domainが開発したpd-woodscape合成データセットとwoodscape fisheyeデータセットを併用した。 そこで,本研究では, CVPR 2023 Workshop on Omnidirectional Computer Vision (OmniCV) の一環として, 自律走行のためのWoodScape fisheye運動セグメンテーションチャレンジを行う。 魚眼運動分節に着目した最初のコンペティションの1つとして,本領域における合成データ活用の可能性と影響を探求し,評価することを目的とする。 本稿では,グローバルチーム112チームが参加し,合計234人が応募したコンペについて,詳細な分析を行った。 本研究は,移動セグメンテーションの課題に内在する複雑さを詳述し,魚眼データセットの重要性を強調し,合成データセットの必要性と,それらが生み出すドメインギャップを明確にし,ソリューション開発の基礎的青写真の概要を述べる。 その後,基礎実験の詳細と,その質的,定量的な結果を評価する方法について検討し,有用な知見を得た。

Motion segmentation is a complex yet indispensable task in autonomous driving. The challenges introduced by the ego-motion of the cameras, radial distortion in fisheye lenses, and the need for temporal consistency make the task more complicated, rendering traditional and standard Convolutional Neural Network (CNN) approaches less effective. The consequent laborious data labeling, representation of diverse and uncommon scenarios, and extensive data capture requirements underscore the imperative of synthetic data for improving machine learning model performance. To this end, we employ the PD-WoodScape synthetic dataset developed by Parallel Domain, alongside the WoodScape fisheye dataset. Thus, we present the WoodScape fisheye motion segmentation challenge for autonomous driving, held as part of the CVPR 2023 Workshop on Omnidirectional Computer Vision (OmniCV). As one of the first competitions focused on fisheye motion segmentation, we aim to explore and evaluate the potential and impact of utilizing synthetic data in this domain. In this paper, we provide a detailed analysis on the competition which attracted the participation of 112 global teams and a total of 234 submissions. This study delineates the complexities inherent in the task of motion segmentation, emphasizes the significance of fisheye datasets, articulate the necessity for synthetic datasets and the resultant domain gap they engender, outlining the foundational blueprint for devising successful solutions. Subsequently, we delve into the details of the baseline experiments and winning methods evaluating their qualitative and quantitative results, providing with useful insights.
翻訳日:2024-01-18 19:39:25 公開日:2024-01-16
# MosaicBERT: 高速プレトレーニング用に最適化された双方向エンコーダ

MosaicBERT: A Bidirectional Encoder Optimized for Fast Pretraining ( http://arxiv.org/abs/2312.17482v2 )

ライセンス: Link先を確認
Jacob Portes, Alex Trott, Sam Havens, Daniel King, Abhinav Venigalla, Moin Nadeem, Nikhil Sardana, Daya Khudia, Jonathan Frankle(参考訳) BERT型エンコーダモデルはNLP研究で多用されているが、多くの研究者はトレーニングコストが高いため、スクラッチから独自のBERTを事前訓練していない。 BERTが普及してから30年が経ち、BERTに体系的に組み込まれていない他のトランスフォーマーアーキテクチャやトレーニング構成で多くの進歩が見られた。 本稿では,bert形式のエンコーダアーキテクチャとトレーニングレシピであるmosaicbertを紹介する。 この効率的なアーキテクチャは、FlashAttention、Atention with Linear Biases (ALiBi)、Gated Linear Units (GLU)、パッド付きトークンを動的に除去するモジュール、そして低精度のLayerNormを古典的なトランスフォーマーエンコーダブロックに組み込む。 トレーニングレシピには、Masked Language Modeling(MLM)目標の30%のマスキング比率、bfloat16精度、GPUスループットに最適化された語彙サイズ、RoBERTaや他のエンコーダモデルのベストプラクティスが含まれている。 C4データセットのスクラッチから事前トレーニングされた場合、このベースモデルは、約20ドルで8 A100 80 GB GPU上で1.13時間の平均GLUEスコア79.6を達成する。 我々は, 事前学習速度のパレート曲線に対して広範囲の精度をプロットし, モザイクBERTベースと大が競合するBERTベースと大と比べ常にパレートが最適であることを示す。 この事前トレーニングでの実証的なスピードアップにより、研究者やエンジニアは既存のジェネリックモデルの微調整ではなく、BERTスタイルのカスタムモデルを低コストで事前トレーニングすることができる。 私たちはモデル重みとコードをオープンソース化します。

Although BERT-style encoder models are heavily used in NLP research, many researchers do not pretrain their own BERTs from scratch due to the high cost of training. In the past half-decade since BERT first rose to prominence, many advances have been made with other transformer architectures and training configurations that have yet to be systematically incorporated into BERT. Here, we introduce MosaicBERT, a BERT-style encoder architecture and training recipe that is empirically optimized for fast pretraining. This efficient architecture incorporates FlashAttention, Attention with Linear Biases (ALiBi), Gated Linear Units (GLU), a module to dynamically remove padded tokens, and low precision LayerNorm into the classic transformer encoder block. The training recipe includes a 30% masking ratio for the Masked Language Modeling (MLM) objective, bfloat16 precision, and vocabulary size optimized for GPU throughput, in addition to best-practices from RoBERTa and other encoder models. When pretrained from scratch on the C4 dataset, this base model achieves a downstream average GLUE (dev) score of 79.6 in 1.13 hours on 8 A100 80 GB GPUs at a cost of roughly $20. We plot extensive accuracy vs. pretraining speed Pareto curves and show that MosaicBERT base and large are consistently Pareto optimal when compared to a competitive BERT base and large. This empirical speed up in pretraining enables researchers and engineers to pretrain custom BERT-style models at low cost instead of finetune on existing generic models. We open source our model weights and code.
翻訳日:2024-01-18 19:38:28 公開日:2024-01-16
# Few-Shot Bird Sound 分類のための自己教師付き学習

Self-Supervised Learning for Few-Shot Bird Sound Classification ( http://arxiv.org/abs/2312.15824v3 )

ライセンス: Link先を確認
Ilyass Moummad and Romain Serizel and Nicolas Farrugia(参考訳) オーディオにおける自己教師付き学習(SSL)は、特に、豊富なラベルのないデータが無償で容易に利用できる状況において、様々な領域において大きな可能性を秘めている。 これは生物音響学において特に重要であり、生物学者は自然環境から広範囲の音響データセットを定期的に収集する。 本研究では,アノテーションを必要とせずに,音声録音から有意義な鳥の音の表現を抽出できることを実証する。 実験の結果,これらの学習表現は,数発学習(FSL)シナリオで新しい鳥類に一般化する能力を示すことが示された。 さらに,事前学習した音声ニューラルネットワークを用いて,鳥の活性化度の高いウィンドウを選択することで,学習表現の質が著しく向上することを示す。

Self-supervised learning (SSL) in audio holds significant potential across various domains, particularly in situations where abundant, unlabeled data is readily available at no cost. This is particularly pertinent in bioacoustics, where biologists routinely collect extensive sound datasets from the natural environment. In this study, we demonstrate that SSL is capable of acquiring meaningful representations of bird sounds from audio recordings without the need for annotations. Our experiments showcase that these learned representations exhibit the capacity to generalize to new bird species in few-shot learning (FSL) scenarios. Additionally, we show that selecting windows with high bird activation for self-supervised learning, using a pretrained audio neural network, significantly enhances the quality of the learned representations.
翻訳日:2024-01-18 19:37:16 公開日:2024-01-16
# プライベートトランスファー学習のための公開表現の活用

Leveraging Public Representations for Private Transfer Learning ( http://arxiv.org/abs/2312.15551v2 )

ライセンス: Link先を確認
Pratiksha Thaker, Amrith Setlur, Zhiwei Steven Wu, Virginia Smith(参考訳) 公的なデータを差分プライベート学習に取り入れた最近の実証的な成功により、公的なデータから学習した共有表現がプライベート学習をどのように改善するか理論的に検討した。 線形回帰のための転置学習の2つの一般的なシナリオについて検討し,公開タスクとプライベートタスク(回帰ベクトル)が高次元空間における低ランク部分空間を共有することを仮定した。 最初のシングルタスク転送シナリオでは、データセットの行に対応するすべてのユーザ間で共有される単一のモデルを学ぶことが目標だ。 提案手法は,与えられた部分空間推定内で線形モデルを探索する自然アルゴリズムのクラスにおいて,最適過剰リスクを達成することを示す上下界と下界のマッチングを提供する。 マルチタスクモデルパーソナライゼーションの第2のシナリオでは、各サブスペース内の純粋に局所学習が同じ目的を達成するため、十分な公開データがあれば、ユーザーはプライベートコーディネートを避けることができる。 本研究の結果は,私的移動学習の共通体制における公共データのメリットを特徴づける上で有効である。

Motivated by the recent empirical success of incorporating public data into differentially private learning, we theoretically investigate how a shared representation learned from public data can improve private learning. We explore two common scenarios of transfer learning for linear regression, both of which assume the public and private tasks (regression vectors) share a low-rank subspace in a high-dimensional space. In the first single-task transfer scenario, the goal is to learn a single model shared across all users, each corresponding to a row in a dataset. We provide matching upper and lower bounds showing that our algorithm achieves the optimal excess risk within a natural class of algorithms that search for the linear model within the given subspace estimate. In the second scenario of multitask model personalization, we show that with sufficient public data, users can avoid private coordination, as purely local learning within the given subspace achieves the same utility. Taken together, our results help to characterize the benefits of public data across common regimes of private transfer learning.
翻訳日:2024-01-18 19:37:02 公開日:2024-01-16
# カテゴリー同値としての量子化

Quantization as a Categorical Equivalence ( http://arxiv.org/abs/2401.08435v1 )

ライセンス: Link先を確認
Benjamin H. Feintzeig(参考訳) ある種の場合において、量子化と古典的極限は互いに「ほとんど逆」な関手を与えることを示した。 これらの関手は古典物理学と量子物理学の代数構造の圏を写像し、圏同値性を確立する。

We demonstrate that, in certain cases, quantization and the classical limit provide functors that are "almost inverse" to each other. These functors map between categories of algebraic structures for classical and quantum physics, establishing a categorical equivalence.
翻訳日:2024-01-18 19:29:13 公開日:2024-01-16
# 推論ステップ長が大規模言語モデルに及ぼす影響

The Impact of Reasoning Step Length on Large Language Models ( http://arxiv.org/abs/2401.04925v2 )

ライセンス: Link先を確認
Mingyu Jin, Qinkai Yu, Dong shu, Haiyan Zhao, Wenyue Hua, Yanda Meng, Yongfeng Zhang, Mengnan Du(参考訳) 思考の連鎖(CoT)は、大きな言語モデル(LLM)の推論能力を改善する上で重要である。 しかし, プロンプトにおけるCoTの有効性と推論ステップの長さの相関はよく分かっていない。 これを明らかにするため、我々はいくつかの実験を行い、関係を探究した。 具体的には,他のすべての因子を一定に保ちながら,cot実験における合理的推論ステップを拡張し,圧縮する実験をデザインする。 主な発見は以下のとおりである。 まず,プロンプトに新たな情報を追加することなく,プロンプトにおける推論ステップを延長することで,複数のデータセットにわたるllmsの推論能力が大幅に向上することを示す。 あるいは、キー情報を保存しながらも推論ステップを短縮することは、モデルの推論能力を著しく低下させる。 この発見は、CoTプロンプトにおけるステップ数の重要性を強調し、複雑な問題解決シナリオにおけるLLMのポテンシャルをよりよく活用するための実践的なガイダンスを提供する。 次に,CoTの性能と実演における有理性との関係について検討した。 驚くべきことに、不正確な合理性であっても、推論の必要な長さを維持すると良い結果が得られる。 第三に、より単純なタスクはより少ないステップを必要とするのに対して、複雑なタスクはより長い推論シーケンスから著しく向上する。

Chain of Thought (CoT) is significant in improving the reasoning abilities of large language models (LLMs). However, the correlation between the effectiveness of CoT and the length of reasoning steps in prompts remains largely unknown. To shed light on this, we have conducted several empirical experiments to explore the relations. Specifically, we design experiments that expand and compress the rationale reasoning steps within CoT demonstrations, while keeping all other factors constant. We have the following key findings. First, the results indicate that lengthening the reasoning steps in prompts, even without adding new information into the prompt, considerably enhances LLMs' reasoning abilities across multiple datasets. Alternatively, shortening the reasoning steps, even while preserving the key information, significantly diminishes the reasoning abilities of models. This finding highlights the importance of the number of steps in CoT prompts and provides practical guidance to make better use of LLMs' potential in complex problem-solving scenarios. Second, we also investigated the relationship between the performance of CoT and the rationales used in demonstrations. Surprisingly, the result shows that even incorrect rationales can yield favorable outcomes if they maintain the requisite length of inference. Third, we observed that the advantages of increasing reasoning steps are task-dependent: simpler tasks require fewer steps, whereas complex tasks gain significantly from longer inference sequences.
翻訳日:2024-01-18 19:26:32 公開日:2024-01-16
# 準定常位相減衰による安定化符号のコヒーレント誤差

Coherent errors in stabilizer codes caused by quasistatic phase damping ( http://arxiv.org/abs/2401.04530v2 )

ライセンス: Link先を確認
D\'avid Pataki, \'Aron M\'arton, J\'anos K. Asb\'oth, Andr\'as P\'alyi(参考訳) 量子誤差補正は実用的な量子コンピュータの開発にとって重要な課題であり、近年は実験的に大きな進歩を遂げている。 固体量子ビットにおいて、主要な情報損失機構の1つは位相フリップ誤差によってモデル化されるデファスである。 ここでは,1/f雑音によるラーモア周波数変動の影響を記述する,より微妙な誤差モデルである擬似位相減衰を導入する。 多サイクル誤差補正の観点から、このモデルが単純な位相反転誤差モデルとどのように異なるかを示す。 表面符号を考慮すれば,準静的位相減衰と読み出し誤差の存在下で,誤差しきい値に対する数値的証拠が得られる。 スピン量子ビットおよび超伝導量子ビットに対する結果の影響について論じる。

Quantum error correction is a key challenge for the development of practical quantum computers, a direction in which significant experimental progress has been made in recent years. In solid-state qubits, one of the leading information loss mechanisms is dephasing, usually modelled by phase flip errors. Here, we introduce quasistatic phase damping, a more subtle error model which describes the effect of Larmor frequency fluctuations due to 1/f noise. We show how this model is different from a simple phase flip error model, in terms of multi-cycle error correction. Considering the surface code, we provide numerical evidence for an error threshold, in the presence of quasistatic phase damping and readout errors. We discuss the implications of our results for spin qubits and superconducting qubits.
翻訳日:2024-01-18 19:25:56 公開日:2024-01-16
# 大型スピン猫符号を用いたフォールトトレラント量子計算

Fault-tolerant quantum computation using large spin cat-codes ( http://arxiv.org/abs/2401.04271v3 )

ライセンス: Link先を確認
Sivaprasad Omanakuttan, Vikas Buchemmavari, Jonathan A. Gross, Ivan H Deutsch and Milad Marvian(参考訳) 連続変数cat符号化に類似したスピンキャット符号を用いて、大きなスピンquditで符号化された量子ビットに基づくフォールトトレラント量子誤り訂正プロトコルを構築する。 これにより、支配的な誤差源、すなわち角運動量の成分において線型あるいは二次的な誤差演算子として表現できる過程を補正することができる。 このような符号は、非構造ノイズモデルのために設計された符号に比べて、優れたしきい値と低いリソースオーバーヘッドを示す。 ゲート操作中の支配的エラーを保存するため、適切なユニバーサルゲート集合を同定する。 鍵となる要素は球面テンソル作用素のランクを保存するcnotゲートである。 位相誤差を位相誤差と振幅誤差に分類し、量子ビットの位相誤差に類似した位相誤差を効果的に補正できることを示す。 さらに,シンドローム測定に頼らずに振幅誤差に対処する計測自由誤差補正手法を提案する。 論理cnotゲートエラーの詳細な解析により、スピンキャット符号化における誤り訂正のフォールトトレラントしきい値が、標準のqubitベースのエンコーディングのそれを超えることを証明した。 quditsは$^{87}$srの核スピンで符号化され、量子制御とrydbergブロックを用いてランク保存cnotゲートを含むユニバーサルゲート集合を生成する方法を示す。 これらの結果は、量子情報処理においてフォールトトレランス、高いしきい値、リソースオーバーヘッドを低減できる可能性を秘めた、大きなスピンで量子ビットを符号化する方法を示している。

We construct a fault-tolerant quantum error-correcting protocol based on a qubit encoded in a large spin qudit using a spin-cat code, analogous to the continuous variable cat encoding. With this, we can correct the dominant error sources, namely processes that can be expressed as error operators that are linear or quadratic in the components of angular momentum. Such codes tailored to dominant error sources {can} exhibit superior thresholds and lower resource overheads when compared to those designed for unstructured noise models. To preserve the dominant errors during gate operations, we identify a suitable universal gate set. A key component is the CNOT gate that preserves the rank of spherical tensor operators. Categorizing the dominant errors as phase and amplitude errors, we demonstrate how phase errors, analogous to phase-flip errors for qubits, can be effectively corrected. Furthermore, we propose a measurement-free error correction scheme to address amplitude errors without relying on syndrome measurements. Through an in-depth analysis of logical CNOT gate errors, we establish that the fault-tolerant threshold for error correction in the spin-cat encoding surpasses that of standard qubit-based encodings. We consider a specific implementation based on neutral-atom quantum computing, with qudits encoded in the nuclear spin of $^{87}$Sr, and show how to generate the universal gate set, including the rank-preserving CNOT gate, using quantum control and the Rydberg blockade. These findings pave the way for encoding a qubit in a large spin with the potential to achieve fault tolerance, high threshold, and reduced resource overhead in quantum information processing.
翻訳日:2024-01-18 19:25:45 公開日:2024-01-16
# diarizationlm:大規模言語モデルを用いた話者ダイアリゼーション後処理

DiarizationLM: Speaker Diarization Post-Processing with Large Language Models ( http://arxiv.org/abs/2401.03506v2 )

ライセンス: Link先を確認
Quan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao(参考訳) 本稿では,大言語モデル(LLM)を利用して話者ダイアリゼーションシステムから出力を後処理するフレームワークであるダイアリゼーションLMを紹介する。 提案するフレームワークでは,ダイアリゼーション文字の可読性の向上や,単語ダイアリゼーション誤り率(WDER)の低減など,さまざまな目標を達成することができる。 この枠組みでは、自動音声認識(asr)および話者ダイアリゼーションシステムの出力を、任意に微調整されたllmへのプロンプトに含まれるコンパクトテキスト形式として表現する。 LLMの出力は、所望の増強で精製ダイアリゼーション結果として用いることができる。 処理後ステップとして、このフレームワークは既存のコンポーネントを再トレーニングすることなく、任意の既製のasrおよび話者ダイアリゼーションシステムに容易に適用できる。 実験の結果,微調整された PaLM 2-S モデルにより WDER を rel で低減できることがわかった。 Fisher 電話の会話データセットで55.5%、rel。 44.9%であった。

In this paper, we introduce DiarizationLM, a framework to leverage large language models (LLM) to post-process the outputs from a speaker diarization system. Various goals can be achieved with the proposed framework, such as improving the readability of the diarized transcript, or reducing the word diarization error rate (WDER). In this framework, the outputs of the automatic speech recognition (ASR) and speaker diarization systems are represented as a compact textual format, which is included in the prompt to an optionally finetuned LLM. The outputs of the LLM can be used as the refined diarization results with the desired enhancement. As a post-processing step, this framework can be easily applied to any off-the-shelf ASR and speaker diarization systems without retraining existing components. Our experiments show that a finetuned PaLM 2-S model can reduce the WDER by rel. 55.5% on the Fisher telephone conversation dataset, and rel. 44.9% on the Callhome English dataset.
翻訳日:2024-01-18 19:24:43 公開日:2024-01-16
# 3DMIT:シーン理解のための3Dマルチモーダルインストラクションチューニング

3DMIT: 3D Multi-modal Instruction Tuning for Scene Understanding ( http://arxiv.org/abs/2401.03201v2 )

ライセンス: Link先を確認
Zeju Li, Chao Zhang, Xiaoyan Wang, Ruilong Ren, Yifan Xu, Ruifei Ma, Xiangde Liu(参考訳) 視覚情報と言語情報の両方を解釈する多モード大言語モデル(MLLM)の顕著なポテンシャルは広く認識されている。 しかし、LLMによる3Dシーン理解における既存のアプローチの欠如と相まって、3Dシーン言語対の不足が大きな課題となっている。 そこで我々は,3Dシーンに適した75K命令応答対からなる広範囲なデータセットを収集,構築した。 このデータセットは、3D VQA、3Dグラウンド、および3D会話に関連するタスクに対処する。 LLMへの3次元空間情報の統合をさらに促進するために,新しい高速なプロンプトチューニングパラダイムである3DMITを導入する。 このパラダイムは、3Dシーンと言語間のアライメントステージを排除し、シーン全体とセグメント化されたオブジェクトを含む3Dモダリティ情報で命令プロンプトを拡張する。 我々は,3次元シーン領域における多様なタスクにまたがる手法の有効性を評価し,この手法がllmsの3次元世界の理解を深める戦略的手段であることを見出した。 私たちのコードはhttps://github.com/staymylove/3DMITで利用可能です。

The remarkable potential of multi-modal large language models (MLLMs) in comprehending both vision and language information has been widely acknowledged. However, the scarcity of 3D scenes-language pairs in comparison to their 2D counterparts, coupled with the inadequacy of existing approaches in understanding of 3D scenes by LLMs, poses a significant challenge. In response, we collect and construct an extensive dataset comprising 75K instruction-response pairs tailored for 3D scenes. This dataset addresses tasks related to 3D VQA, 3D grounding, and 3D conversation. To further enhance the integration of 3D spatial information into LLMs, we introduce a novel and efficient prompt tuning paradigm, 3DMIT. This paradigm eliminates the alignment stage between 3D scenes and language and extends the instruction prompt with the 3D modality information including the entire scene and segmented objects. We evaluate the effectiveness of our method across diverse tasks in the 3D scene domain and find that our approach serves as a strategic means to enrich LLMs' comprehension of the 3D world. Our code is available at https://github.com/staymylove/3DMIT.
翻訳日:2024-01-18 19:24:26 公開日:2024-01-16
# エンド・ツー・エンド・エンド・トレーニングによる医用画像分割を促す分類器の解説

Explanations of Classifiers Enhance Medical Image Segmentation via End-to-end Pre-training ( http://arxiv.org/abs/2401.08469v1 )

ライセンス: Link先を確認
Jiamin Chen and Xuhong Li and Yanwu Xu and Mengnan Du and Haoyi Xiong(参考訳) 医用画像分割は、深層ニューラルネットワークを使用して、胸部x線写真などの医用画像の異常構造を識別し、同定することを目的としている。 これらのネットワークは、興味のある領域にきめ細かいマスクを持つ多数の注釈付き画像を必要とし、サンプル効率に不可欠な分類データセットに基づいた事前学習戦略を作成する。 大規模な医用画像分類データセットに基づいて、よく訓練された分類器から説明を収集し、セグメンテーションタスクの擬似ラベルを生成する。 具体的には,chexpertデータセット上の胸部x線写真とトレイン画像分類器のケーススタディを行い,14の病理所見を同定した。 次に,統合勾配法を用いて分類器から得られた説明を蒸留し,強化し,大規模診断指向のローカライゼーションラベル(DoLL)を生成する。 これらのDLLアノテーション付き画像は、新型コロナウイルス感染症、肺、心臓、鎖骨など下流のセグメンテーションのタスクを微調整する前に、モデルを事前訓練するために使用される。 本手法は他のベースラインよりも優れており,様々なセグメンテーション設定におけるモデル性能とトレーニング効率の大きな利点を示している。

Medical image segmentation aims to identify and locate abnormal structures in medical images, such as chest radiographs, using deep neural networks. These networks require a large number of annotated images with fine-grained masks for the regions of interest, making pre-training strategies based on classification datasets essential for sample efficiency. Based on a large-scale medical image classification dataset, our work collects explanations from well-trained classifiers to generate pseudo labels of segmentation tasks. Specifically, we offer a case study on chest radiographs and train image classifiers on the CheXpert dataset to identify 14 pathological observations in radiology. We then use Integrated Gradients (IG) method to distill and boost the explanations obtained from the classifiers, generating massive diagnosis-oriented localization labels (DoLL). These DoLL-annotated images are used for pre-training the model before fine-tuning it for downstream segmentation tasks, including COVID-19 infectious areas, lungs, heart, and clavicles. Our method outperforms other baselines, showcasing significant advantages in model performance and training efficiency across various segmentation settings.
翻訳日:2024-01-18 19:15:33 公開日:2024-01-16
# 維持か 投げるか? 雑音ICAの解を評価する非パラメトリックスコア

Keep or toss? A nonparametric score to evaluate solutions for noisy ICA ( http://arxiv.org/abs/2401.08468v1 )

ライセンス: Link先を確認
Syamantak Kumar, Purnamrita Sarkar, Peter Bickel, and Derek Bean(参考訳) 本稿では,任意のガウス雑音を持つ独立成分分析(ica)のための反復アルゴリズムに対する解の質を評価するための非パラメトリックスコアを提案する。 このスコアの目新しさは、データの有限秒のモーメントを仮定し、ノイズ分布のパラメータを知らずに推定混合行列の品質を評価するために特性関数を使用するという事実に起因している。 また,ICAに対する特徴関数に基づく新しいコントラスト関数を提案し,対応する目的関数を最適化するための固定点反復を提案する。 最後に,ICA のコントラスト関数群に対する局所的および大域的最適条件を得るための理論的枠組みを提案する。 本フレームワークは,準直交化を本質的に用い,累積的対象関数の古典的解析をノイズICAに拡張する。 シミュレーションデータを用いた実験により,本アルゴリズムの有効性を実証する。

In this paper, we propose a non-parametric score to evaluate the quality of the solution to an iterative algorithm for Independent Component Analysis (ICA) with arbitrary Gaussian noise. The novelty of this score stems from the fact that it just assumes a finite second moment of the data and uses the characteristic function to evaluate the quality of the estimated mixing matrix without any knowledge of the parameters of the noise distribution. We also provide a new characteristic function-based contrast function for ICA and propose a fixed point iteration to optimize the corresponding objective function. Finally, we propose a theoretical framework to obtain sufficient conditions for the local and global optima of a family of contrast functions for ICA. This framework uses quasi-orthogonalization inherently, and our results extend the classical analysis of cumulant-based objective functions to noisy ICA. We demonstrate the efficacy of our algorithms via experimental results on simulated datasets.
翻訳日:2024-01-18 19:15:10 公開日:2024-01-16
# 動的潜在表現による進化するドメイン一般化の促進

Enhancing Evolving Domain Generalization through Dynamic Latent Representations ( http://arxiv.org/abs/2401.08464v1 )

ライセンス: Link先を確認
Binghui Xie, Yongqiang Chen, Jiaqi Wang, Kaiwen Zhou, Bo Han, Wei Meng, James Cheng(参考訳) ドメインの一般化は、機械学習システムにとって重要な課題である。 事前ドメイン一般化法は、新しいドメインへの一般化を可能にするために、いくつかの定常ドメインにまたがるドメイン不変な特徴を抽出することに焦点を当てている。 しかし、時間のような基礎となる連続構造で新しいドメインが進化する非定常タスクでは、不変な特徴を抽出するだけでは、進化する新しいドメインへの一般化には不十分である。 それでも、その矛盾のため、単一のモデル内で進化と不変の両方の特徴を学ぶのは簡単ではない。 このギャップを埋めるために、我々は2つのパターンに関する分散シフトを特徴付ける因果モデルを構築し、Mutual Information-Based Sequential Autoencoders (MISTS)と呼ばれる新しいフレームワークを用いて動的および不変な特徴を学習することを提案する。 mistはシーケンシャルなオートエンコーダに情報理論的な制約を適用し、動的および不変な特徴を分離し、ドメイン適応分類器を利用して進化と不変の情報の両方に基づいて予測を行う。 合成および実世界の両方のデータセットに対する実験結果から、MISTSは進化した情報と不変な情報の両方を捕捉し、ドメイン一般化タスクを進化させる有望な結果を示す。

Domain generalization is a critical challenge for machine learning systems. Prior domain generalization methods focus on extracting domain-invariant features across several stationary domains to enable generalization to new domains. However, in non-stationary tasks where new domains evolve in an underlying continuous structure, such as time, merely extracting the invariant features is insufficient for generalization to the evolving new domains. Nevertheless, it is non-trivial to learn both evolving and invariant features within a single model due to their conflicts. To bridge this gap, we build causal models to characterize the distribution shifts concerning the two patterns, and propose to learn both dynamic and invariant features via a new framework called Mutual Information-Based Sequential Autoencoders (MISTS). MISTS adopts information theoretic constraints onto sequential autoencoders to disentangle the dynamic and invariant features, and leverage a domain adaptive classifier to make predictions based on both evolving and invariant information. Our experimental results on both synthetic and real-world datasets demonstrate that MISTS succeeds in capturing both evolving and invariant information, and present promising results in evolving domain generalization tasks.
翻訳日:2024-01-18 19:14:55 公開日:2024-01-16
# 双対比較モデルの統計的推論

Statistical inference for pairwise comparison models ( http://arxiv.org/abs/2401.08463v1 )

ライセンス: Link先を確認
Ruijian Han and Wenlu Tang and Yiming Xu(参考訳) ペアワイズ比較モデルは、様々な分野の実用性とランキングを定量的に評価するために用いられる。 現代の問題の増加は、いくつかの特別な事例を除いて、現在文献に欠けている対象の数が分散するときに、これらのモデルにおける統計的推論を理解する必要性を浮き彫りにしている。 本稿では, ペアワイズ比較モデルの広いクラスにおいて, 最大極大推定器に対する漸近正規化結果を確立することにより, このギャップを解消する。 重要なアイデアはフィッシャー情報行列を重み付けグラフラプラシアン行列として同定することであり、これは注意深いスペクトル分析によって研究できる。 本研究は,ブラッドリー・テリーモデルを超えて,幅広い対数比較モデルにおいて統計的推論を行うための最初の統一理論を提供する。 合成データを用いたシミュレーションを行い、漸近正規性結果を検証するとともに、テニス競技データセットを用いた仮説試験を行う。

Pairwise comparison models are used for quantitatively evaluating utility and ranking in various fields. The increasing scale of modern problems underscores the need to understand statistical inference in these models when the number of subjects diverges, which is currently lacking in the literature except in a few special instances. This paper addresses this gap by establishing an asymptotic normality result for the maximum likelihood estimator in a broad class of pairwise comparison models. The key idea lies in identifying the Fisher information matrix as a weighted graph Laplacian matrix which can be studied via a meticulous spectral analysis. Our findings provide the first unified theory for performing statistical inference in a wide range of pairwise comparison models beyond the Bradley--Terry model, benefiting practitioners with a solid theoretical guarantee for their use. Simulations utilizing synthetic data are conducted to validate the asymptotic normality result, followed by a hypothesis test using a tennis competition dataset.
翻訳日:2024-01-18 19:14:30 公開日:2024-01-16
# 連続世界に接地した自律エージェントの集団におけるロバストおよび適応言語条約の分権的創発

Decentralised Emergence of Robust and Adaptive Linguistic Conventions in Populations of Autonomous Agents Grounded in Continuous Worlds ( http://arxiv.org/abs/2401.08461v1 )

ライセンス: Link先を確認
J\'er\^ome Botoko Ekila, Jens Nevens, Lara Verheyen, Katrien Beuls, Paul Van Eecke(参考訳) 本稿では,自律的なエージェントの集団が,自身の環境において観察する任意の実体を参照できる言語規約を確立できる手法を提案する。 言語慣習は、集団から引き出されたエージェントのペア間の局所的なコミュニケーションを通じて、分散的に現れる。 この規約は、連続した特徴空間に根ざした概念表現(単語の意味)に関連する象徴的なラベル(単語形式)で構成されている。 各エージェントの概念表現は、個別に構築されるが、コミュニケーションレベルでは互換性がある。 様々な実験を通して (i)この手法により、集団は、コミュニケーション的に有効で、一貫性があり、人間に解釈可能な言語条約に集結することができる。 (ii)個々のエージェントのセンサー欠陥に対して自然に頑健であること。 (iii)騒音観測、無補聴センサ、異形個体群を効果的に扱うことができること。 (iv)その方法が連続学習に適していること、 (v) 条約は、環境の変化及びエージェントのコミュニケーションニーズに自己適応すること。

This paper introduces a methodology through which a population of autonomous agents can establish a linguistic convention that enables them to refer to arbitrary entities that they observe in their environment. The linguistic convention emerges in a decentralised manner through local communicative interactions between pairs of agents drawn from the population. The convention consists of symbolic labels (word forms) associated to concept representations (word meanings) that are grounded in a continuous feature space. The concept representations of each agent are individually constructed yet compatible on a communicative level. Through a range of experiments, we show (i) that the methodology enables a population to converge on a communicatively effective, coherent and human-interpretable linguistic convention, (ii) that it is naturally robust against sensor defects in individual agents, (iii) that it can effectively deal with noisy observations, uncalibrated sensors and heteromorphic populations, (iv) that the method is adequate for continual learning, and (v) that the convention self-adapts to changes in the environment and communicative needs of the agents.
翻訳日:2024-01-18 19:14:15 公開日:2024-01-16
# 知識グラフを用いた会話質問応答のための強化学習

Reinforcement Learning for Conversational Question Answering over Knowledge Graph ( http://arxiv.org/abs/2401.08460v1 )

ライセンス: Link先を確認
Mi Wu(参考訳) 法知識ベース(KB)に関する会話的質問応答(ConvQA)は、法律に関する多ターンの自然言語質問に答えることと、法知識ベースで答えを見つけることを望んでいる。 多くの方法が提案されている。 既存の法律知識ベースconvqaモデルは、入力質問が明確であり、ユーザの意図を完全に反映できると仮定する。 しかし、現実の世界では、入力の質問は騒がしく、不明瞭です。 これによりモデルは、法律知識ベースで正しい答えを見つけることが困難になる。 本稿では,強化学習を用いてこの問題を解決しようとする。 強化学習エージェントは、入力質問が不正確であっても、入力質問と会話履歴に基づいて、回答の検索方法を自動的に学習することができる。 本研究では,いくつかの実世界データセット上で提案手法をテストし,提案モデルの有効性を示す。

Conversational question answering (ConvQA) over law knowledge bases (KBs) involves answering multi-turn natural language questions about law and hope to find answers in the law knowledge base. Despite many methods have been proposed. Existing law knowledge base ConvQA model assume that the input question is clear and can perfectly reflect user's intention. However, in real world, the input questions are noisy and inexplict. This makes the model hard to find the correct answer in the law knowledge bases. In this paper, we try to use reinforcement learning to solve this problem. The reinforcement learning agent can automatically learn how to find the answer based on the input question and the conversation history, even when the input question is inexplicit. We test the proposed method on several real world datasets and the results show the effectivenss of the proposed model.
翻訳日:2024-01-18 19:14:01 公開日:2024-01-16
# デジタル医療のための連合学習におけるセキュリティとプライバシーの問題と解決策

Security and Privacy Issues and Solutions in Federated Learning for Digital Healthcare ( http://arxiv.org/abs/2401.08458v1 )

ライセンス: Link先を確認
Hyejun Jeong, Tai-Myoung Chung(参考訳) 連合学習の出現により、相当量のデータに基づいて訓練されたかのように、ハイパフォーマンスなモデルが作成できるようになった。 データ開示や収集を必要とせずに、多数の参加者とサーバが協力的にモデルをトレーニングする。 セキュリティとプライバシが最優先の医療業界は、厳格なデータポリシによってデータ収集が不可能になったため、この新しい学習パラダイムから実質的にメリットを享受することができる。 それでも、未解決の課題と攻撃の軽減が採用を妨げる。 攻撃面は、サーバとクライアントがトレーニングの各ラウンド間で通信する従来の集中型学習とは異なる。 そこで本稿では,攻撃面の拡大に基づく脆弱性,攻撃,防御について述べるとともに,より堅牢なFLに向けた新たな研究方向を提案する。

The advent of Federated Learning has enabled the creation of a high-performing model as if it had been trained on a considerable amount of data. A multitude of participants and a server cooperatively train a model without the need for data disclosure or collection. The healthcare industry, where security and privacy are paramount, can substantially benefit from this new learning paradigm, as data collection is no longer feasible due to stringent data policies. Nonetheless, unaddressed challenges and insufficient attack mitigation are hampering its adoption. Attack surfaces differ from traditional centralized learning in that the server and clients communicate between each round of training. In this paper, we thus present vulnerabilities, attacks, and defenses based on the widened attack surfaces, as well as suggest promising new research directions toward a more robust FL.
翻訳日:2024-01-18 19:13:47 公開日:2024-01-16
# デバイス非依存的ランダム性拡張に対するゼロ確率制約の導入

Incorporating Zero-Probability Constraints to Device-Independent Randomness Expansion ( http://arxiv.org/abs/2401.08452v1 )

ライセンス: Link先を確認
Chun-Yu Chen, Kai-Siang Chen, Kai-Min Chung, Min-Hsiu Hsieh, Yeong-Cherng Liang, and Gelo Noel M. Tabia(参考訳) 量子論の際立った特徴の1つは、その測定結果が通常予測不能であるか、あるいは同値なランダムであることである。 さらに、このランダム性は、デバイス非依存(di)パラダイムと呼ばれる、デバイスの振る舞いを前提にするのではなく、生成する統計によって検証できる最小の仮定で証明される。 本研究では,2人のユーザが共有絡み合った状態に対して2つのバイナリアウトカム測定を行うことが可能な,様々なランダム性について検討する。 この場合、Clauser-Horne-Shimony-Holt(CHSH)ベル不等式違反はDI証明ランダム性の生成の前提条件であるが、CHSH値だけでは証明ランダム性に厳密な拘束力を与えない。 ここでは、標準局所および大域ランダム性およびいわゆる「盲」ランダム性に対するDIランダム性拡張のタスクにゼロ確率制約を組み込んだ場合の証明可能なランダム性を決定する。 漸近的に、広範囲のCHSH Bell違反に対する0個の制限数を増やすことにより、DI認定ランダムネスの量(あらゆる種類の)が一貫した改善を観察する。 しかし、許可されたCHSH値をさらに最適化すると、標準CHSHベースのプロトコルに対するこれらの追加制約の利点は、グローバルおよびブラインドランダムネスの場合にのみ見られる。 対照的に、有限データの規則では、これらのゼロ制約は、既存のすべてのプロトコルと比較して局所ランダム性率をわずかに改善するだけである。

One of the distinguishing features of quantum theory is that its measurement outcomes are usually unpredictable or, equivalently, random. Moreover, this randomness is certifiable with minimal assumptions in the so-called device-independent (DI) paradigm, where a device's behavior does not need to be presupposed but can be verified through the statistics it produces. In this work, we explore various forms of randomness that are certifiable in this setting, where two users can perform two binary-outcome measurements on their shared entangled state. In this case, even though the Clauser-Horne-Shimony-Holt (CHSH) Bell-inequality violation is a pre-requisite for the generation of DI certifiable randomness, the CHSH value alone does not generally give a tight bound on the certifiable randomness. Here, we determine the certifiable randomness when zero-probability constraints are incorporated into the task of DI randomness expansion for the standard local and global randomness and the so-called "blind" randomness. Asymptotically, we observe consistent improvements in the amount of DI certifiable randomness (of all kinds) as we increase the number zero constraints for a wide range of given CHSH Bell violations. However, if we further optimize over the allowed CHSH values, then benefits of these additional constraints over the standard CHSH-based protocol are only found in the case of global and blind randomness. In contrast, in the regimes of finite data, these zero constraints only give a slight improvement in the local randomness rate when compared with all existing protocols.
翻訳日:2024-01-18 19:13:34 公開日:2024-01-16
# AboutMe: ウェブページにおける自己記述を用いた英語事前学習データフィルタの効果の文書化

AboutMe: Using Self-Descriptions in Webpages to Document the Effects of English Pretraining Data Filters ( http://arxiv.org/abs/2401.06408v2 )

ライセンス: Link先を確認
Li Lucy, Suchin Gururangan, Luca Soldaini, Emma Strubell, David Bamman, Lauren Klein, Jesse Dodge(参考訳) 大規模言語モデルの能力(llm)は、事前学習データから引き出され、モデル開発はデータのキュレーションから始まる。 しかしながら、この初期段階で保持または削除されるデータに関する決定は、過小評価されている。 本研究では,Web テキストを,その社会的・地理的文脈に関連づけた事前学習データソースとして普及させた。 我々は、ウェブサイト作成者の1030万の自己記述からなる新しいデータセットを作成し、それらが誰であるか、どこから来たのかに関する情報を抽出する。 次に,10個の「品質」および「言語識別」(langID)フィルタが,これらの社会的次元に沿って変化するWebページに与える影響について,最初の研究を行った。 データキュレーションにおける暗黙的な選好を照らし出す実験では、いくつかの品質分類器がトピックのドメインフィルタのように振る舞うことを示し、langIDは世界の一部の地域の英語コンテンツを見渡すことができる。 全体として、我々の研究は、データキュレーションの実践の事前訓練とその社会的意味に関する新しい研究を奨励することを願っている。

Large language models' (LLMs) abilities are drawn from their pretraining data, and model development begins with data curation. However, decisions around what data is retained or removed during this initial stage is under-scrutinized. In our work, we ground web text, which is a popular pretraining data source, to its social and geographic contexts. We create a new dataset of 10.3 million self-descriptions of website creators, and extract information about who they are and where they are from: their topical interests, social roles, and geographic affiliations. Then, we conduct the first study investigating how ten "quality" and English language identification (langID) filters affect webpages that vary along these social dimensions. Our experiments illuminate a range of implicit preferences in data curation: we show that some quality classifiers act like topical domain filters, and langID can overlook English content from some regions of the world. Overall, we hope that our work will encourage a new line of research on pretraining data curation practices and its social implications.
翻訳日:2024-01-18 19:11:41 公開日:2024-01-16
# 2次元ボースハバード格子における量子情報スクランブル

Quantum information scrambling in two-dimensional Bose-Hubbard lattices ( http://arxiv.org/abs/2401.08516v1 )

ライセンス: Link先を確認
Devjyoti Tripathy, Akram Touil, Bart{\l}omiej Gardas, Sebastian Deffner(参考訳) 格子全体の励起の輸送が基礎構造によって密接に制御されていることはよく理解されている事実である。 したがって、情報の分散が格子幾何学に依存する必要があることを認識するのは自然である。 本研究は,Bose-Hubbardモデルで記述された2次元格子が,2つの六角形しか持たないシステムに対して,情報の揺らぎを示すことを示す。 しかし、OTOCが量子カオスの指数的減衰特性を示すのは、局所的な可観測物の司法的選択のみである。 より一般に、otoc はガウス指数畳み込みによってよりよく説明され、情報スクランブルとデコヒーレンス理論の類似性が示唆される。

It is a well-understood fact that the transport of excitations throughout a lattice is intimately governed by the underlying structures. Hence, it is only natural to recognize that also the dispersion of information has to depend on the lattice geometry. In the present work, we demonstrate that two-dimensional lattices described by the Bose-Hubbard model exhibit information scrambling for systems as little as two hexagons. However, we also find that the OTOC shows the exponential decay characteristic for quantum chaos only for a judicious choice of local observables. More generally, the OTOC is better described by Gaussian-exponential convolutions, which alludes to the close similarity of information scrambling and decoherence theory.
翻訳日:2024-01-18 19:05:49 公開日:2024-01-16
# Weisfeiler-Lehman氏: GNN表現性のための定量的フレームワーク

Beyond Weisfeiler-Lehman: A Quantitative Framework for GNN Expressiveness ( http://arxiv.org/abs/2401.08514v1 )

ライセンス: Link先を確認
Bohang Zhang, Jingchu Gai, Yiheng Du, Qiwei Ye, Di He, Liwei Wang(参考訳) 表現型グラフニューラルネットワーク(gnns)の設計は、グラフ学習コミュニティの基本的なトピックである。 これまでのところ、GNN表現性は主にWeisfeiler-Lehman(WL)階層を通して評価されてきた。 しかし、そのような表現度尺度は、本質的に粗く質的であり、実際的な要件(例えば、部分構造をエンコードする能力)を十分に反映していない。 本稿では,GNNアーキテクチャの表現性を定量的に研究するための統一的なフレームワークを提案する。 具体的には、gnnモデルが準同型の下でグラフを数える能力を定量化する基本表現性測度を準同型表現性と呼ぶ。 完全性はGNNモデル間の直接的表現性比較を可能にし、実用性はサブグラフカウントのような具体的なGNN能力を理解することができる。 ケーススタディとして著名なGNNの4つのクラスを調べることで、同型表現の単純で統一的でエレガントな記述を、不変条件と同変条件の両方に対して導き出す。 これまでの一連の研究に新たな洞察を与え,コミュニティ内のさまざまなサブエリアの景観を統一し,いくつかの疑問を解決した。 実証実験により,GNNモデルの実用性能が提案手法とよく一致していることが確認された。

Designing expressive Graph Neural Networks (GNNs) is a fundamental topic in the graph learning community. So far, GNN expressiveness has been primarily assessed via the Weisfeiler-Lehman (WL) hierarchy. However, such an expressivity measure has notable limitations: it is inherently coarse, qualitative, and may not well reflect practical requirements (e.g., the ability to encode substructures). In this paper, we introduce a unified framework for quantitatively studying the expressiveness of GNN architectures, addressing all the above limitations. Specifically, we identify a fundamental expressivity measure termed homomorphism expressivity, which quantifies the ability of GNN models to count graphs under homomorphism. Homomorphism expressivity offers a complete and practical assessment tool: the completeness enables direct expressivity comparisons between GNN models, while the practicality allows for understanding concrete GNN abilities such as subgraph counting. By examining four classes of prominent GNNs as case studies, we derive simple, unified, and elegant descriptions of their homomorphism expressivity for both invariant and equivariant settings. Our results provide novel insights into a series of previous work, unify the landscape of different subareas in the community, and settle several open questions. Empirically, extensive experiments on both synthetic and real-world tasks verify our theory, showing that the practical performance of GNN models aligns well with the proposed metric.
翻訳日:2024-01-18 19:05:25 公開日:2024-01-16
# Xハッキング:「AutoML」の脅威

X Hacking: The Threat of Misguided AutoML ( http://arxiv.org/abs/2401.08513v1 )

ライセンス: Link先を確認
Rahul Sharma, Sergey Redyuk, Sumantrak Mukherjee, Andrea Sipka, Sebastian Vollmer, David Selby(参考訳) 説明可能なAI(XAI)と解釈可能な機械学習手法は、モデル予測と派生した洞察の信頼を構築するのに役立つが、アナリストがXAIメトリクスを操作して事前に特定された結論をサポートするための逆インセンティブも提示する。 本稿では,シャップ値などのxaiメトリクスに適用可能なpハッキングの形式であるx-hackingの概念を紹介する。 自動機械学習パイプラインを用いて、共通のベースラインに優れた予測性能を維持しつつ、望ましい説明を生成する「防御可能な」モデルを探す方法を示す。 我々は、多目的最適化問題として説明と精度のトレードオフを定式化し、実世界のデータセットにXハックの有効性と重大さを実証的に示す。 最後に,xai研究の信頼性と再現性に対する倫理的意義について考察する。

Explainable AI (XAI) and interpretable machine learning methods help to build trust in model predictions and derived insights, yet also present a perverse incentive for analysts to manipulate XAI metrics to support pre-specified conclusions. This paper introduces the concept of X-hacking, a form of p-hacking applied to XAI metrics such as Shap values. We show how an automated machine learning pipeline can be used to search for 'defensible' models that produce a desired explanation while maintaining superior predictive performance to a common baseline. We formulate the trade-off between explanation and accuracy as a multi-objective optimization problem and illustrate the feasibility and severity of X-hacking empirically on familiar real-world datasets. Finally, we suggest possible methods for detection and prevention, and discuss ethical implications for the credibility and reproducibility of XAI research.
翻訳日:2024-01-18 19:04:43 公開日:2024-01-16
# バイアス評価と偏り評価におけるプレトレインと下流設定のギャップ

The Gaps between Pre-train and Downstream Settings in Bias Evaluation and Debiasing ( http://arxiv.org/abs/2401.08511v1 )

ライセンス: Link先を確認
Masahiro Kaneko, Danushka Bollegala, Timothy Baldwin(参考訳) プレトレーニング言語モデル(PLM)の出力傾向は、モデルパラメータの更新により、FT(Fin-Tuning)の前後で顕著に変化する。 これらの出力傾向のばらつきは、PLMの社会的バイアスのギャップをもたらす。 例えば、FT-based debiasing法では、PLMの内在バイアススコアと外在バイアススコアとの相関が低い。 さらに、FTベースのデバイアス法をPLMに適用すると、下流タスクのパフォーマンスが低下する。 一方、大規模なデータセットでトレーニングされたPLMは、プロンプトを使用してICL(In-Context Learning)を介してパラメータ更新なしで学習することができる。 ICLはFT-based debiasing法に比べてPLMの変化が小さい。 そこで本研究では,ICLを用いたデバイアス法において,事前学習モデルとFTモデルで観測されるギャップが正しくないことを仮定する。 本研究では,ICLに基づくデバイアス法が,FT法と比較して内在バイアススコアと外因バイアススコアの相関性が高いことを示した。 また, ICL症例では, FT例に比べ, 脱バイアスによる性能劣化も低い傾向を示した。

The output tendencies of Pre-trained Language Models (PLM) vary markedly before and after Fine-Tuning (FT) due to the updates to the model parameters. These divergences in output tendencies result in a gap in the social biases of PLMs. For example, there exits a low correlation between intrinsic bias scores of a PLM and its extrinsic bias scores under FT-based debiasing methods. Additionally, applying FT-based debiasing methods to a PLM leads to a decline in performance in downstream tasks. On the other hand, PLMs trained on large datasets can learn without parameter updates via In-Context Learning (ICL) using prompts. ICL induces smaller changes to PLMs compared to FT-based debiasing methods. Therefore, we hypothesize that the gap observed in pre-trained and FT models does not hold true for debiasing methods that use ICL. In this study, we demonstrate that ICL-based debiasing methods show a higher correlation between intrinsic and extrinsic bias scores compared to FT-based methods. Moreover, the performance degradation due to debiasing is also lower in the ICL case compared to that in the FT case.
翻訳日:2024-01-18 19:04:16 公開日:2024-01-16
# emollms: 包括的な感情分析のための感情大言語モデルとアノテーションツール

EmoLLMs: A Series of Emotional Large Language Models and Annotation Tools for Comprehensive Affective Analysis ( http://arxiv.org/abs/2401.08508v1 )

ライセンス: Link先を確認
Zhiwei Liu, Kailai Yang, Tianlin Zhang, Qianqian Xie, Zeping Yu, Sophia Ananiadou(参考訳) 感情分析と感情検出は、自然言語処理(nlp)における重要な研究トピックであり、多くの下流タスクに役立つ。 LLMの応用が広まるにつれて、研究者は感情分析の分野でのインストラクションチューニングに基づくLLMの応用を探り始めた。 しかし、これらのモデルは感情的分類タスク(感情の極性やカテゴリーの感情など)の単一側面にのみ焦点を当て、回帰タスク(感情の強さや感情の強さなど)を見落とし、下流タスクのパフォーマンスが低下する。 主な理由は、様々な感情分類と回帰タスクをカバーする総合的な情緒的指導チューニングデータセットと評価ベンチマークの欠如である。 さらに、感情情報は下流タスクには役立つが、既存の下流データセットには高品質で包括的な情緒的アノテーションがない。 In this paper, we propose EmoLLMs, the first series of open-sourced instruction-following LLMs for comprehensive affective analysis based on fine-tuning various LLMs with instruction data, the first multi-task affective analysis instruction dataset (AAID) with 234K data samples based on various classification and regression tasks to support LLM instruction tuning, and a comprehensive affective evaluation benchmark (AEB) with 14 tasks from various sources and domains to test the generalization ability of LLMs. 本稿では,様々な情緒的指導課題を解決するために,AAIDを用いたLLMを微調整した一連のEmoLLMを提案する。 我々は,AEB 上の様々な LLM と比較し,我々のモデルは他のオープンソース LLM よりも優れており,ほとんどのタスクにおいて ChatGPT や GPT-4 を上回り,情緒的分析タスクにおいて EmoLLM のシリーズが ChatGPT レベルおよび GPT-4 レベルの一般化能力を達成していることを示す。

Sentiment analysis and emotion detection are important research topics in natural language processing (NLP) and benefit many downstream tasks. With the widespread application of LLMs, researchers have started exploring the application of LLMs based on instruction-tuning in the field of sentiment analysis. However, these models only focus on single aspects of affective classification tasks (e.g. sentimental polarity or categorical emotions), and overlook the regression tasks (e.g. sentiment strength or emotion intensity), which leads to poor performance in downstream tasks. The main reason is the lack of comprehensive affective instruction tuning datasets and evaluation benchmarks, which cover various affective classification and regression tasks. Moreover, although emotional information is useful for downstream tasks, existing downstream datasets lack high-quality and comprehensive affective annotations. In this paper, we propose EmoLLMs, the first series of open-sourced instruction-following LLMs for comprehensive affective analysis based on fine-tuning various LLMs with instruction data, the first multi-task affective analysis instruction dataset (AAID) with 234K data samples based on various classification and regression tasks to support LLM instruction tuning, and a comprehensive affective evaluation benchmark (AEB) with 14 tasks from various sources and domains to test the generalization ability of LLMs. We propose a series of EmoLLMs by fine-tuning LLMs with AAID to solve various affective instruction tasks. We compare our model with a variety of LLMs on AEB, where our models outperform all other open-sourced LLMs, and surpass ChatGPT and GPT-4 in most tasks, which shows that the series of EmoLLMs achieve the ChatGPT-level and GPT-4-level generalization capabilities on affective analysis tasks, and demonstrates our models can be used as affective annotation tools.
翻訳日:2024-01-18 19:03:23 公開日:2024-01-16
# 低ランクニューラルネットワークの学習におけるハネシング直交性

Harnessing Orthogonality to Train Low-Rank Neural Networks ( http://arxiv.org/abs/2401.08505v1 )

ライセンス: Link先を確認
Daniel Coquelin, Katharina Fl\"ugel, Marie Weiel, Nicholas Kiefer, Charlotte Debus, Achim Streit and Markus G\"otz(参考訳) 本研究は,ニューラルネットワークの学習力学を,トレーニングを通じて重みの特異値分解(SVD)を分析することによって研究する。 本研究は,各多次元重みsvd表現における直交基底がトレーニング中に安定化することを示す。 そこで我々は,ニューラルネットワークの直交性を利用した新しいトレーニング手法であるOrthogonality-Informed Adaptive Low-Rank(OIALR)トレーニングを紹介する。 OIALRは、さまざまなデータセットと確立されたネットワークアーキテクチャのベンチマークで示されているように、既存のトレーニングワークフローを最小限の精度でシームレスに統合する。 適切なハイパーパラメータチューニングによって、OIALRは最先端のモデルを含む従来のトレーニング設定を超えることができる。

This study explores the learning dynamics of neural networks by analyzing the singular value decomposition (SVD) of their weights throughout training. Our investigation reveals that an orthogonal basis within each multidimensional weight's SVD representation stabilizes during training. Building upon this, we introduce Orthogonality-Informed Adaptive Low-Rank (OIALR) training, a novel training method exploiting the intrinsic orthogonality of neural networks. OIALR seamlessly integrates into existing training workflows with minimal accuracy loss, as demonstrated by benchmarking on various datasets and well-established network architectures. With appropriate hyperparameter tuning, OIALR can surpass conventional training setups, including those of state-of-the-art models.
翻訳日:2024-01-18 19:02:17 公開日:2024-01-16
# Real3D-Portrait:ワンショットリアルな3Dトーキング・ポートレート合成

Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis ( http://arxiv.org/abs/2401.08503v1 )

ライセンス: Link先を確認
Zhenhui Ye, Tianyun Zhong, Yi Ren, Jiaqi Yang, Weichuang Li, Jiawei Huang, Ziyue Jiang, Jinzheng He, Rongjie Huang, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun Ma, Zhou Zhao(参考訳) ワンショットの3Dトーキングポートレート生成は、見えない画像から3Dアバターを再構成し、レファレンスビデオまたはオーディオでアニメーション化し、トーキングポートレートビデオを生成する。 既存の手法では、正確な3dアバター再構成と安定した話し顔アニメーションの目標を同時に達成できない。 また、既存の作品は主に頭部の合成に重点を置いているが、自然の胴体や背景部分を生成してリアルな話し声のポートレートビデオを得ることも重要である。 To address these limitations, we present Real3D-Potrait, a framework that (1) improves the one-shot 3D reconstruction power with a large image-to-plane model that distills 3D prior knowledge from a 3D face generative model; (2) facilitates accurate motion-conditioned animation with an efficient motion adapter; (3) synthesizes realistic video with natural torso movement and switchable background using a head-torso-background super-resolution model; and (4) supports one-shot audio-driven talking face generation with a generalizable audio-to-motion model. 広汎な実験により、Real3D-Portraitは未確認の身元を一般化し、従来の方法と比較してよりリアルな音声肖像画を生成する。

One-shot 3D talking portrait generation aims to reconstruct a 3D avatar from an unseen image, and then animate it with a reference video or audio to generate a talking portrait video. The existing methods fail to simultaneously achieve the goals of accurate 3D avatar reconstruction and stable talking face animation. Besides, while the existing works mainly focus on synthesizing the head part, it is also vital to generate natural torso and background segments to obtain a realistic talking portrait video. To address these limitations, we present Real3D-Potrait, a framework that (1) improves the one-shot 3D reconstruction power with a large image-to-plane model that distills 3D prior knowledge from a 3D face generative model; (2) facilitates accurate motion-conditioned animation with an efficient motion adapter; (3) synthesizes realistic video with natural torso movement and switchable background using a head-torso-background super-resolution model; and (4) supports one-shot audio-driven talking face generation with a generalizable audio-to-motion model. Extensive experiments show that Real3D-Portrait generalizes well to unseen identities and generates more realistic talking portrait videos compared to previous methods.
翻訳日:2024-01-18 19:02:02 公開日:2024-01-16
# ValUES:セマンティックセグメンテーションにおける不確実性推定の体系的検証のためのフレームワーク

ValUES: A Framework for Systematic Validation of Uncertainty Estimation in Semantic Segmentation ( http://arxiv.org/abs/2401.08501v1 )

ライセンス: Link先を確認
Kim-Celine Kahl, Carsten T. L\"uth, Maximilian Zenk, Klaus Maier-Hein, Paul F. Jaeger(参考訳) 不確実性推定は,セマンティックセグメンテーション手法の信頼性向上に不可欠な要素である。 一方、方法論の進歩を主張する様々な研究や、その一方では成功した応用が存在しているが、その分野は現在、理論と実践のギャップによって妨げられている。 不確実性メソッドのどのコンポーネントが現実世界のパフォーマンスに不可欠か? どの適用に不確実性があるか? 本研究では,この研究ギャップを,不確実性評価の体系的かつ包括的評価の欠如と結びつける。 具体的には,現在の文献における3つの落とし穴を特定し,研究ギャップを埋めるための評価枠組みを提案する。 1)データのあいまいさや分布変化を研究するための制御環境。 2 関連する方法部品の系統的アブレーション、及び 3) OoD検出, 能動学習, 故障検出, 校正, 曖昧性モデリングの5つの主要な不確実性アプリケーションに対するテストベッド。 シミュレーションおよび実世界のデータに関する実証的な結果は、提案フレームワークが、例えば、この分野における主要な疑問にどのように答えられるかを示している。 1)不確実性型の分離はシミュレーションデータに作用するが、必ずしも現実世界のデータに変換されない。 2) スコアの集計は重要ではあるが, 不確実性の要素として無視されている。 3) アンサンブルは下流のさまざまなタスクや設定で最も堅牢に機能するが、テスト時の拡張は軽量な代替手段となることが多い。 code is at: https://github.com/IML-DKFZ/values

Uncertainty estimation is an essential and heavily-studied component for the reliable application of semantic segmentation methods. While various studies exist claiming methodological advances on the one hand, and successful application on the other hand, the field is currently hampered by a gap between theory and practice leaving fundamental questions unanswered: Can data-related and model-related uncertainty really be separated in practice? Which components of an uncertainty method are essential for real-world performance? Which uncertainty method works well for which application? In this work, we link this research gap to a lack of systematic and comprehensive evaluation of uncertainty methods. Specifically, we identify three key pitfalls in current literature and present an evaluation framework that bridges the research gap by providing 1) a controlled environment for studying data ambiguities as well as distribution shifts, 2) systematic ablations of relevant method components, and 3) test-beds for the five predominant uncertainty applications: OoD-detection, active learning, failure detection, calibration, and ambiguity modeling. Empirical results on simulated as well as real-world data demonstrate how the proposed framework is able to answer the predominant questions in the field revealing for instance that 1) separation of uncertainty types works on simulated data but does not necessarily translate to real-world data, 2) aggregation of scores is a crucial but currently neglected component of uncertainty methods, 3) While ensembles are performing most robustly across the different downstream tasks and settings, test-time augmentation often constitutes a light-weight alternative. Code is at: https://github.com/IML-DKFZ/values
翻訳日:2024-01-18 19:01:38 公開日:2024-01-16
# alphacodiumによるコード生成: プロンプトエンジニアリングからフローエンジニアリングへ

Code Generation with AlphaCodium: From Prompt Engineering to Flow Engineering ( http://arxiv.org/abs/2401.08500v1 )

ライセンス: Link先を確認
Tal Ridnik, Dedy Kredo, Itamar Friedman(参考訳) コード生成問題は、ターゲット言語の正確な構文のマッチング、幸せなパスとエッジケースの特定、問題仕様の小さな詳細への注意、他のコード固有の問題や要件への対処など、一般的な自然言語問題とは異なる。 したがって、自然言語生成で成功した最適化やトリックの多くは、コードタスクに有効ではないかもしれない。 本研究では,LLMによるコード生成に対する新しいアプローチを提案する。これはテストベースで多段階のコード指向反復フローであるAlphaCodiumと呼ばれ,コード問題におけるLLMの性能を改善する。 私たちは、Codeforcesのようなプラットフォームからの競合するプログラミング問題を含む、CodeContestsと呼ばれる挑戦的なコード生成データセットでAlphaCodiumをテストしました。 提案した流れは一貫して,結果を著しく改善する。 例えば、検証セットでは、GPT-4精度(pass@5)が19%まで上昇し、1つの適切に設計されたダイレクトプロンプトがAlphaCodiumフローで44%に増加した。 この作業で獲得した原則やベストプラクティスの多くは、一般的なコード生成タスクに広く適用できると思います。 完全な実装は、https://github.com/Codium-ai/AlphaCodiumで利用可能である。

Code generation problems differ from common natural language problems - they require matching the exact syntax of the target language, identifying happy paths and edge cases, paying attention to numerous small details in the problem spec, and addressing other code-specific issues and requirements. Hence, many of the optimizations and tricks that have been successful in natural language generation may not be effective for code tasks. In this work, we propose a new approach to code generation by LLMs, which we call AlphaCodium - a test-based, multi-stage, code-oriented iterative flow, that improves the performances of LLMs on code problems. We tested AlphaCodium on a challenging code generation dataset called CodeContests, which includes competitive programming problems from platforms such as Codeforces. The proposed flow consistently and significantly improves results. On the validation set, for example, GPT-4 accuracy (pass@5) increased from 19% with a single well-designed direct prompt to 44% with the AlphaCodium flow. Many of the principles and best practices acquired in this work, we believe, are broadly applicable to general code generation tasks. Full implementation is available at: https://github.com/Codium-ai/AlphaCodium
翻訳日:2024-01-18 19:01:15 公開日:2024-01-16
# LLMテキストにおけるグループ表現の可変性に及ぼすグループ状態の影響

The Effect of Group Status on the Variability of Group Representations in LLM-generated Text ( http://arxiv.org/abs/2401.08495v1 )

ライセンス: Link先を確認
Messi H.J. Lee, Jacob M. Montgomery, Calvin K. Lai(参考訳) 大規模言語モデル(llm)は日常生活で広く普及しているが、その内部構造は不透明である。 学術的な取り組みは、llmがトレーニングデータでバイアスを再現する傾向を示してきたが、彼らは主に社会集団とステレオタイプ属性の関連に焦点を当ててきた。 本稿では,社会的な支配的な集団が社会的な従属集団よりも同質でないと認識される社会心理学現象に類する偏見を,LSMによって再現されることにより調査する。 我々は,最先端のLCMであるChatGPTを交叉群の同一性に関するテキストの多様性を生成し,テキストの均一性を比較した。 llmはアフリカ系、アジア系、ヒスパニック系のアメリカ人を白人よりも均質に表現している。 彼らはまた、女性を男性よりも同質であると描写するが、これらの違いは小さい。 最後に、性別の影響は人種や民族によって異なり、性別の影響はアフリカ系アメリカ人とヒスパニック系アメリカ人の間で一貫しているが、アジア系アメリカ人と白人アメリカ人には及ばない。 LLMにおけるこのバイアスの原因を推測し、このバイアスは将来のLCMトレーニングにおけるバイアスを増幅し、ステレオタイプを強化する可能性があると仮定する。

Large Language Models (LLMs) have become pervasive in everyday life, yet their inner workings remain opaque. While scholarly efforts have demonstrated LLMs' propensity to reproduce biases in their training data, they have primarily focused on the association of social groups with stereotypic attributes. In this paper, we extend this line of inquiry to investigate a bias akin to the social-psychological phenomenon where socially dominant groups are perceived to be less homogeneous than socially subordinate groups as it is reproduced by LLMs. We had ChatGPT, a state-of-the-art LLM, generate a diversity of texts about intersectional group identities and compared text homogeneity. We consistently find that LLMs portray African, Asian, and Hispanic Americans as more homogeneous than White Americans. They also portray women as more homogeneous than men, but these differences are small. Finally, we find that the effect of gender differs across racial/ethnic groups such that the effect of gender is consistent within African and Hispanic Americans but not within Asian and White Americans. We speculate possible sources of this bias in LLMs and posit that the bias has the potential to amplify biases in future LLM training and to reinforce stereotypes.
翻訳日:2024-01-18 19:00:56 公開日:2024-01-16
# 制御された生成に対するコントラストパープレクティリティ:大規模言語モデルのデトックス化への応用

Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models ( http://arxiv.org/abs/2401.08491v1 )

ライセンス: Link先を確認
Tassilo Klein, Moin Nabi(参考訳) 大きな言語モデルの望ましくない、事実的に誤ったコンテンツの生成は、重大な課題であり、ほとんど解決されていない問題である。 本稿では,暗黙的な知識編集と制御されたテキスト生成のための微調整LDMのためのコントラスト学習目標の統合について検討する。 学習目標の最適化は、テキストの複雑度を対比的に調整することを伴う。 自己監督型でモデルのトレーニングを容易にするために,市販のllmをデータ生成訓練に活用した。 我々はデトキシフィケーションの領域における適用可能性を示す。 そこで,提案手法は,コモンセンス推論や読み理解といった下流タスクの汎用性を維持しつつ,有毒なコンテンツの生成を著しく減少させる。 提案手法は概念的には単純だが経験的に強力である。

The generation of undesirable and factually incorrect content of large language models poses a significant challenge and remains largely an unsolved issue. This paper studies the integration of a contrastive learning objective for fine-tuning LLMs for implicit knowledge editing and controlled text generation. Optimizing the training objective entails aligning text perplexities in a contrastive fashion. To facilitate training the model in a self-supervised fashion, we leverage an off-the-shelf LLM for training data generation. We showcase applicability in the domain of detoxification. Herein, the proposed approach leads to a significant decrease in the generation of toxic content while preserving general utility for downstream tasks such as commonsense reasoning and reading comprehension. The proposed approach is conceptually simple but empirically powerful.
翻訳日:2024-01-18 19:00:33 公開日:2024-01-16
# 非凸プログラミングによる確率一般化線形回帰の解法

A Novel Approach in Solving Stochastic Generalized Linear Regression via Nonconvex Programming ( http://arxiv.org/abs/2401.08488v1 )

ライセンス: Link先を確認
Vu Duc Anh, Tran Anh Tuan, Tran Ngoc Thang, and Nguyen Thi Ngoc Anh(参考訳) ロジスティック回帰 (logistic regression) やポアソン回帰 (poisson regression) といった一般化線形回帰 (generally linear regressions) は、長期にわたって研究された回帰分析手法であり、それらの応用は様々な分類問題で広く用いられている。 本研究では,確率的一般化線形回帰モデルを確率的制約付き確率的問題とみなし,非凸プログラミング手法を用いてそれに取り組む。 クラスタリング手法と質的推定は、ランダムデータの平均と分散共分散行列の推定にも用いられる。 ロジスティック回帰(logistic regression)のパフォーマンスを測定するためのメトリクスは、f1スコア、精度スコア、リコールスコアなど、モデルの有効性を評価するために使用されます。 提案アルゴリズムの結果は, 上記の評価基準と同一データセット上の通常のロジスティック回帰モデルよりも1~2%以上優れていた。

Generalized linear regressions, such as logistic regressions or Poisson regressions, are long-studied regression analysis approaches, and their applications are widely employed in various classification problems. Our study considers a stochastic generalized linear regression model as a stochastic problem with chance constraints and tackles it using nonconvex programming techniques. Clustering techniques and quantile estimation are also used to estimate random data's mean and variance-covariance matrix. Metrics for measuring the performance of logistic regression are used to assess the model's efficacy, including the F1 score, precision score, and recall score. The results of the proposed algorithm were over 1 to 2 percent better than the ordinary logistic regression model on the same dataset with the above assessment criteria.
翻訳日:2024-01-18 19:00:21 公開日:2024-01-16
# 決定変換器を用いた連続オフライン強化学習の解法

Solving Continual Offline Reinforcement Learning with Decision Transformer ( http://arxiv.org/abs/2401.08478v1 )

ライセンス: Link先を確認
Kaixin Huang, Li Shen, Chen Zhao, Chun Yuan, Dacheng Tao(参考訳) continuous offline reinforcement learning (corl)は、連続およびオフラインの強化学習を組み合わせることで、エージェントは、事前のタスクを忘れずに、静的データセットから複数のタスクを学習できる。 しかし、corlは安定性と可塑性のバランスが困難である。 Actor-Critic構造とエクスペリエンス・リプレイ(ER)を採用した既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。 我々は、この問題を解決するために、別のオフラインRLパラダイムであるDecision Transformer(DT)がより適切なオフライン連続学習者として機能するかどうかを検討することを目的とする。 最初に、corlフレームワークでacベースのオフラインアルゴリズムとdtを比較した。 DTは学習効率、分散シフト緩和、ゼロショット一般化の利点を提供するが、教師付きパラメータ更新時の忘れ問題を悪化させる。 我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。 MH-DTは複数のヘッドを使ってタスク固有の知識を格納し、共通コンポーネントとの知識共有を容易にする。 蒸留と選択的リハーサルを使用して、リプレイバッファが利用可能な場合の現在のタスク学習を強化する。 バッファなしのシナリオでは、LoRA-DTは、現在のタスクに適応するために、影響の少ない重みと微調整のMDP層をマージする。 MoJuCoとMeta-Worldベンチマークの大規模な実験により,本手法はSOTA CORLのベースラインを上回り,学習能力の向上とメモリ効率の向上を実証した。

Continuous offline reinforcement learning (CORL) combines continuous and offline reinforcement learning, enabling agents to learn multiple tasks from static datasets without forgetting prior tasks. However, CORL faces challenges in balancing stability and plasticity. Existing methods, employing Actor-Critic structures and experience replay (ER), suffer from distribution shifts, low efficiency, and weak knowledge-sharing. We aim to investigate whether Decision Transformer (DT), another offline RL paradigm, can serve as a more suitable offline continuous learner to address these issues. We first compare AC-based offline algorithms with DT in the CORL framework. DT offers advantages in learning efficiency, distribution shift mitigation, and zero-shot generalization but exacerbates the forgetting problem during supervised parameter updates. We introduce multi-head DT (MH-DT) and low-rank adaptation DT (LoRA-DT) to mitigate DT's forgetting problem. MH-DT stores task-specific knowledge using multiple heads, facilitating knowledge sharing with common components. It employs distillation and selective rehearsal to enhance current task learning when a replay buffer is available. In buffer-unavailable scenarios, LoRA-DT merges less influential weights and fine-tunes DT's decisive MLP layer to adapt to the current task. Extensive experiments on MoJuCo and Meta-World benchmarks demonstrate that our methods outperform SOTA CORL baselines and showcase enhanced learning capabilities and superior memory efficiency.
翻訳日:2024-01-18 19:00:03 公開日:2024-01-16
# TUMTraf Event: ロードサイドイベントベースおよびRGBカメラのデータセットにおける校正と融合の結果

TUMTraf Event: Calibration and Fusion Resulting in a Dataset for Roadside Event-Based and RGB Cameras ( http://arxiv.org/abs/2401.08474v1 )

ライセンス: Link先を確認
Christian Cre{\ss}, Walter Zimmer, Nils Purschke, Bach Ngoc Doan, Venkatnarayanan Lakshminarasimhan, Leah Strand, Alois C. Knoll(参考訳) イベントベースのカメラは、Intelligent Transportation Systems (ITS) に先行している。 非常に高い時間分解能とダイナミックレンジを提供し、動きのぼやけをなくし、夜間に物体を認識しやすくする。 しかし、イベントベースの画像は従来のrgbカメラの画像と比べて色やテクスチャに欠ける。 それを考えると、イベントベースと従来のカメラ間のデータ融合は、両方のモダリティの強みを組み合わせることができる。 この目的のためには、余分なキャリブレーションが必要である。 我々の知る限り、イベントベースカメラとrgbカメラのターゲットレスキャリブレーションは、複数の移動物体を扱えず、道端の領域に最適化されたデータ融合も存在せず、ITSの分野における同期イベントベースカメラとrgbカメラのデータセットも知られている。 これらの研究ギャップを埋めるために、我々は、複数の移動物体を扱うクラスタリング手法を用いて、ターゲットレスキャリブレーションアプローチを拡張した。 さらに, 初期核融合, 単純後核融合および新しい時空間後核融合法を開発した。 最後に、21.9kラベルの2Dボックスで4k以上の同期イベントベースおよびrgbイメージを含むTUMTraf Event Datasetを公開する。 広範な実験において,複数の移動物体を用いたキャリブレーション手法の有効性を確認した。 さらに, 1台のrgbカメラと比較して, 1日で最大+16%のマップ検出性能, 挑戦的な夜間に最大+12%のマップ検出性能を, イベントベースのセンサ融合法を用いて向上させた。 TUMTraf Event Datasetはhttps://innovation-mobility.com/tumtraf-datasetで公開されている。

Event-based cameras are predestined for Intelligent Transportation Systems (ITS). They provide very high temporal resolution and dynamic range, which can eliminate motion blur and make objects easier to recognize at night. However, event-based images lack color and texture compared to images from a conventional rgb camera. Considering that, data fusion between event-based and conventional cameras can combine the strengths of both modalities. For this purpose, extrinsic calibration is necessary. To the best of our knowledge, no targetless calibration between event-based and rgb cameras can handle multiple moving objects, nor data fusion optimized for the domain of roadside ITS exists, nor synchronized event-based and rgb camera datasets in the field of ITS are known. To fill these research gaps, based on our previous work, we extend our targetless calibration approach with clustering methods to handle multiple moving objects. Furthermore, we develop an early fusion, simple late fusion, and a novel spatiotemporal late fusion method. Lastly, we publish the TUMTraf Event Dataset, which contains more than 4k synchronized event-based and rgb images with 21.9k labeled 2D boxes. During our extensive experiments, we verified the effectiveness of our calibration method with multiple moving objects. Furthermore, compared to a single rgb camera, we increased the detection performance of up to +16% mAP in the day and up to +12% mAP in the challenging night with our presented event-based sensor fusion methods. The TUMTraf Event Dataset is available at https://innovation-mobility.com/tumtraf-dataset.
翻訳日:2024-01-18 18:59:35 公開日:2024-01-16
# テキスト誘導画像生成のためのマルチラウンド思考

Instilling Multi-round Thinking to Text-guided Image Generation ( http://arxiv.org/abs/2401.08472v1 )

ライセンス: Link先を確認
Lidong Zeng, Zhedong Zheng, Yinwei Wei, Tat-seng Chua(参考訳) 本稿では,テキスト誘導画像生成タスクについて検討する。 私たちの焦点は、ユーザのテキストフィードバックを与えられた参照イメージを、特定の望ましいプロパティで埋め合わせることにあります。 この分野での最近の進歩にもかかわらず、特に靴やスリーブのようなきめ細かい変更の領域において、シングルラウンドの最適化が重要な詳細を見過ごすことがしばしばある。 このミスアライメントは相互作用中の複数ラウンドのカスタマイズを著しく妨げている。 この課題に対処するために、我々は既存のフレームワーク、すなわちマルチラウンド正規化に新たな自己監督型正規化を導入する。 修正順序が最終結果に影響を与えないという観察に基づいている。 名前が示すように、マルチラウンドの正規化は、モデルを異なる修正順序間で一貫性を維持することを奨励する。 特に,本提案手法は,従来のワンラウンド学習とは対照的に,難解な細部を捉えることが,複数ラウンド後の相当な相違をもたらす問題に対処する。 質的かつ定量的な実験により,提案手法はテキスト誘導型生成タスク,特に局所的修正よりも高い忠実度生成品質を達成することが示された。 さらに,本手法をFhisonIQなどのテキスト誘導検索データセットに適用することにより,テキストとのセマンティックアライメントに拡張し,競合性能を示す。

In this paper, we study the text-guided image generation task. Our focus lies in the modification of a reference image, given user text feedback, to imbue it with specific desired properties. Despite recent strides in this field, a persistent challenge remains that single-round optimization often overlooks crucial details, particularly in the realm of fine-grained changes like shoes or sleeves. This misalignment accumulation significantly hampers multi-round customization during interaction. In an attempt to address this challenge, we introduce a new self-supervised regularization into the existing framework, i.e., multi-round regularization. It builds upon the observation that the modification order does not affect the final result. As the name suggests, the multi-round regularization encourages the model to maintain consistency across different modification orders. Specifically, our proposed approach addresses the issue where an initial failure to capture fine-grained details leads to substantial discrepancies after multiple rounds, as opposed to traditional one-round learning. Both qualitative and quantitative experiments show the proposed method achieves high-fidelity generation quality over the text-guided generation task, especially the local modification. Furthermore, we extend the evaluation to semantic alignment with text by applying our method to text-guided retrieval datasets, such as FahisonIQ, where it demonstrates competitive performance.
翻訳日:2024-01-18 18:59:04 公開日:2024-01-16
# コントラストと局所スパース摂動による時系列説明

Explaining Time Series via Contrastive and Locally Sparse Perturbations ( http://arxiv.org/abs/2401.08552v1 )

ライセンス: Link先を確認
Zichuan Liu, Yingying Zhang, Tianchun Wang, Zefan Wang, Dongsheng Luo, Mengnan Du, Min Wu, Yi Wang, Chunlin Chen, Lunting Fan, Qingsong Wen(参考訳) 多変量時系列を説明することは複合的な課題であり、時系列の重要な位置を特定し、複雑な時間パターンをマッチングする必要がある。 従来のサリエンシに基づく手法はこの課題に対処したが、その摂動は分布シフトの問題を緩和するものではなく、特に異種サンプルでは避けられない。 ContraLSPは非形式的摂動を構築するために反事実サンプルを導入した局所スパースモデルである。 さらに,サンプル特異的なスパースゲートを組み込んで,よりバイナリスキートでスムースなマスクを生成する。 合成データと実世界のデータセットの両方に関する実証研究は、contralspが最先端のモデルよりも優れており、時系列データの説明品質が大幅に向上していることを示している。 コードは https://anonymous.4open.science/r/ContraLSP-1146/

Explaining multivariate time series is a compound challenge, as it requires identifying important locations in the time series and matching complex temporal patterns. Although previous saliency-based methods addressed the challenges, their perturbation may not alleviate the distribution shift issue, which is inevitable especially in heterogeneous samples. We present ContraLSP, a locally sparse model that introduces counterfactual samples to build uninformative perturbations but keeps distribution using contrastive learning. Furthermore, we incorporate sample-specific sparse gates to generate more binary-skewed and smooth masks, which easily integrate temporal trends and select the salient features parsimoniously. Empirical studies on both synthetic and real-world datasets show that ContraLSP outperforms state-of-the-art models, demonstrating a substantial improvement in explanation quality for time series data. The code is available for review: https://anonymous.4open.science/r/ContraLSP-1146/
翻訳日:2024-01-18 18:51:47 公開日:2024-01-16
# ハミルトニアン埋め込みによるハードウェア効率良く操作可能なヒルベルト空間の拡張

Expanding Hardware-Efficiently Manipulable Hilbert Space via Hamiltonian Embedding ( http://arxiv.org/abs/2401.08550v1 )

ライセンス: Link先を確認
Jiaqi Leng, Joseph Li, Yuxiang Peng, Xiaodi Wu(参考訳) 多くの有望な量子アプリケーションは、指数的に大きなスパースハミルトニアン(スパースハミルトニアンシミュレーションとして知られる)の効率的な量子シミュレーションに依存している。 このタスクには、理論上魅力的な量子アルゴリズムがいくつか提案されているが、通常それらはスパースハミルトンのブラックボックスクエリモデルを必要とし、量子デバイス上での短期実装には実用的でない。 本稿ではハミルトン埋め込みという手法を提案する。 この手法は、より大きくより構造化された量子系の進化に組み込むことで、所望のスパースハミルトニアンをシミュレートし、ハードウェア効率の良い演算によるより効率的なシミュレーションを可能にする。 我々は,この新しい手法を体系的に研究し,著名な量子応用を実現するための計算資源の大幅な節約を実証する。 その結果、複雑なグラフ上の量子ウォーク(二分木、接着木グラフなど)、量子空間探索、および現在の捕捉イオンおよび中性原子プラットフォーム上の実空間シュリンガー方程式のシミュレーションを実験的に実現できるようになった。 量子アルゴリズムの設計におけるハミルトン進化の基本的な役割を考えると、本手法はnisq時代に実装可能な量子優位性の地平を著しく広げる。

Many promising quantum applications depend on the efficient quantum simulation of an exponentially large sparse Hamiltonian, a task known as sparse Hamiltonian simulation, which is fundamentally important in quantum computation. Although several theoretically appealing quantum algorithms have been proposed for this task, they typically require a black-box query model of the sparse Hamiltonian, rendering them impractical for near-term implementation on quantum devices. In this paper, we propose a technique named Hamiltonian embedding. This technique simulates a desired sparse Hamiltonian by embedding it into the evolution of a larger and more structured quantum system, allowing for more efficient simulation through hardware-efficient operations. We conduct a systematic study of this new technique and demonstrate significant savings in computational resources for implementing prominent quantum applications. As a result, we can now experimentally realize quantum walks on complicated graphs (e.g., binary trees, glued-tree graphs), quantum spatial search, and the simulation of real-space Schr\"odinger equations on current trapped-ion and neutral-atom platforms. Given the fundamental role of Hamiltonian evolution in the design of quantum algorithms, our technique markedly expands the horizon of implementable quantum advantages in the NISQ era.
翻訳日:2024-01-18 18:51:29 公開日:2024-01-16
# 超伝導回路の磁束電荷対称理論

Flux-charge symmetric theory of superconducting circuits ( http://arxiv.org/abs/2401.08549v1 )

ライセンス: Link先を確認
Andrew Osborne and Andrew Lucas(参考訳) 超伝導回路の量子力学は、通常容量的および誘導的要素からなる散逸のない回路を記述する古典的ハミルトン力学系から始まったものである。 しかし、回路量子化の標準的なアプローチは磁束と電荷を扱い、相空間上の標準共役自由度として非対称に終わる。 トポロジカルグラフ理論からの直観と最近のシンプレクティック幾何学による回路量子化のアプローチを組み合わせることで、電荷とフラックスを明らかに対称な足場で扱う回路量子化の理論を示す。 平面回路では、既知の回路双対性は古典位相空間上の自然な正準変換である。 このような回路双対性が非平面回路に一般化される範囲について論じる。

The quantum mechanics of superconducting circuits is derived by starting from a classical Hamiltonian dynamical system describing a dissipationless circuit, usually made of capacitive and inductive elements. However, standard approaches to circuit quantization treat fluxes and charges, which end up as the canonically conjugate degrees of freedom on phase space, asymmetrically. By combining intuition from topological graph theory with a recent symplectic geometry approach to circuit quantization, we present a theory of circuit quantization that treats charges and fluxes on a manifestly symmetric footing. For planar circuits, known circuit dualities are a natural canonical transformation on the classical phase space. We discuss the extent to which such circuit dualities generalize to non-planar circuits.
翻訳日:2024-01-18 18:51:06 公開日:2024-01-16
# N-Adaptive Ritz Method: 境界値問題に対するユニティの強化された分割

N-Adaptive Ritz Method: A Neural Network Enriched Partition of Unity for Boundary Value Problems ( http://arxiv.org/abs/2401.08544v1 )

ライセンス: Link先を確認
Jonghyuk Baek and Yanran Wang and J. S. Chen(参考訳) 従来の有限要素法は、その共形正則性要件による適応的改良において退屈であることが知られている。 さらに、適応的な改良のためのエンリッチメント関数は一般には利用できないことが多い。 この研究は、エネルギーベースの損失関数最小化を伴う人工ニューラルネットワークを介して境界値問題を解決するために、新しいニューラルネットワーク強化単位分割(NN-PU)アプローチを導入する。 NN関数空間の柔軟性と適応性を利用して、従来のガラキン法では捉えられなかった複雑な解パターンをキャプチャする。 NNエンリッチメントは、事前訓練された特徴符号化NNブロックと追加の未訓練NNブロックを組み合わせることで構成される。 トレーニング済みのNNブロックはオフライン段階で特定の局所的特徴を学習し、リッツ型エネルギー最小化によりオンライン段階における近似空間の効率的な拡張を可能にする。 NNエンリッチメントはPU(Partition of Unity)フレームワークで導入され,提案手法の収束を保証する。 提案したNN-PU近似と特徴符号化転送学習は、境界値問題の解法としてニューラルリファインメント(n-refinement)と呼ばれる適応近似フレームワークを形成する。 様々な弾性問題の解法として提案手法は,従来のメッシュ法に比べて計算コストを低減しつつ,高精度な解法を提供する。

Conventional finite element methods are known to be tedious in adaptive refinements due to their conformal regularity requirements. Further, the enrichment functions for adaptive refinements are often not readily available in general applications. This work introduces a novel neural network-enriched Partition of Unity (NN-PU) approach for solving boundary value problems via artificial neural networks with a potential energy-based loss function minimization. The flexibility and adaptivity of the NN function space are utilized to capture complex solution patterns that the conventional Galerkin methods fail to capture. The NN enrichment is constructed by combining pre-trained feature-encoded NN blocks with an additional untrained NN block. The pre-trained NN blocks learn specific local features during the offline stage, enabling efficient enrichment of the approximation space during the online stage through the Ritz-type energy minimization. The NN enrichment is introduced under the Partition of Unity (PU) framework, ensuring convergence of the proposed method. The proposed NN-PU approximation and feature-encoded transfer learning forms an adaptive approximation framework, termed the neural-refinement (n-refinement), for solving boundary value problems. Demonstrated by solving various elasticity problems, the proposed method offers accurate solutions while notably reducing the computational cost compared to the conventional adaptive refinement in the mesh-based methods.
翻訳日:2024-01-18 18:50:53 公開日:2024-01-16
# フェルミオンのテンソル再正規化群

Tensor Renormalization Group for fermions ( http://arxiv.org/abs/2401.08542v1 )

ライセンス: Link先を確認
Shinichiro Akiyama, Yannick Meurice, Ryo Sakai(参考訳) テンソル再正規化群法の基本的な考え方を概観し、相対論的フェルミオンとグラスマン変数を含む格子場理論モデルにどのように適用できるかを示す。 本稿では,グラスマンテンソルネットワークにおける絡み合いフィルタリング,ループ最適化,結合重み付け技術,行列積分解の最近の進歩について述べる。 新しい手法は、Wilson--Majorana fermionsとMulti-flavor Gross--Neveuモデルで試験される。 この手法は1+1次元と2+1次元のフェルミオンハバードモデルにも適用可能であることを示す。

We review the basic ideas of the Tensor Renormalization Group method and show how they can be applied for lattice field theory models involving relativistic fermions and Grassmann variables in arbitrary dimensions. We discuss recent progress for entanglement filtering, loop optimization, bond-weighting techniques and matrix product decompositions for Grassmann tensor networks. The new methods are tested with two-dimensional Wilson--Majorana fermions and multi-flavor Gross--Neveu models. We show that the methods can also be applied to the fermionic Hubbard model in 1+1 and 2+1 dimensions.
翻訳日:2024-01-18 18:50:29 公開日:2024-01-16
# 大規模自己回帰画像モデルのスケーラブル事前学習

Scalable Pre-training of Large Autoregressive Image Models ( http://arxiv.org/abs/2401.08541v1 )

ライセンス: Link先を確認
Alaaeldin El-Nouby, Michal Klein, Shuangfei Zhai, Miguel Angel Bautista, Alexander Toshev, Vaishaal Shankar, Joshua M Susskind, Armand Joulin(参考訳) 本稿では,自己回帰目標を事前学習した視覚モデルであるAIMを紹介する。 これらのモデルはテキストモデル、すなわちLarge Language Models (LLM)にインスパイアされ、同様のスケーリング特性を示す。 具体的には,(1)モデルのキャパシティとデータ量の両方にスケールする視覚特徴のパフォーマンス,(2)客観的関数の値は下流タスクにおけるモデルのパフォーマンスと相関する,という2つの重要な知見を強調する。 凍結したトランクを持つImageNet-1k上で84.0%の精度で、70億のパラメータAIMを20億の画像上で事前学習することで、これらの発見の実践的意味を説明する。 興味深いことに、この規模であっても、パフォーマンスの飽和の兆候は見られず、AIMが大規模ビジョンモデルのトレーニングのための新たなフロンティアである可能性が示唆されている。 AIM の事前訓練は LLM の事前訓練と似ており、大規模な訓練を安定させるために画像固有の戦略を必要としない。

This paper introduces AIM, a collection of vision models pre-trained with an autoregressive objective. These models are inspired by their textual counterparts, i.e., Large Language Models (LLMs), and exhibit similar scaling properties. Specifically, we highlight two key findings: (1) the performance of the visual features scale with both the model capacity and the quantity of data, (2) the value of the objective function correlates with the performance of the model on downstream tasks. We illustrate the practical implication of these findings by pre-training a 7 billion parameter AIM on 2 billion images, that achieves 84.0% on ImageNet-1k with a frozen trunk. Interestingly, even at this scale, we observe no sign of saturation in performance, suggesting that AIM potentially represents a new frontier for training large-scale vision models. The pre-training of AIM is similar to the pre-training of LLMs, and does not require any image-specific strategy to stabilize the training at scale.
翻訳日:2024-01-18 18:50:20 公開日:2024-01-16
# 東南アジアにおけるレストラン立地と交通規制の空間的実体化

Spatial Entity Resolution between Restaurant Locations and Transportation Destinations in Southeast Asia ( http://arxiv.org/abs/2401.08537v1 )

ライセンス: Link先を確認
Emily Gao, Dominic Widdows(参考訳) テック企業としてgrabは、輸送から食品配達まで拡大し、東南アジアにハイパーローカライズされたアプリケーションを提供することを目指している。 交通機関としての場所に関する情報は、これらのデータセット間の空間的実体解決の問題が解決できる限り、レストランとしての場所についての知識を改善するのに役立つ。 本研究は,空間的・テキスト的属性(緯度,経度,地名,住所など)を用いて,POI(Points-of-Interest)およびGrabFoodレストランのデータベースから同一の場所エンティティを認識することを試みた。 これらの属性に対して距離指標を算出し,木に基づく分類器に供給した。 POI-restaurant Matchはシンガポール、フィリピン、インドネシア、マレーシアで別々に実施された。 実験により、これらの国のレストランの35%以上で、一致するPOIが見つかることが示されている。 これらの推定の一部として、テストデータセットは手動で作成され、randomforest、adaboost、gradient boosting、xgboostは、最も正確さ、正確さ、リコールスコアが一致した分類と一致しない分類で90%以上である。 著者の知る限り、東南アジア地域の空間的実体のマッチングを専門とする科学論文は、これまでは発表されていない。

As a tech company, Grab has expanded from transportation to food delivery, aiming to serve Southeast Asia with hyperlocalized applications. Information about places as transportation destinations can help to improve our knowledge about places as restaurants, so long as the spatial entity resolution problem between these datasets can be solved. In this project, we attempted to recognize identical place entities from databases of Points-of-Interest (POI) and GrabFood restaurants, using their spatial and textual attributes, i.e., latitude, longitude, place name, and street address. Distance metrics were calculated for these attributes and fed to tree-based classifiers. POI-restaurant matching was conducted separately for Singapore, Philippines, Indonesia, and Malaysia. Experimental estimates demonstrate that a matching POI can be found for over 35% of restaurants in these countries. As part of these estimates, test datasets were manually created, and RandomForest, AdaBoost, Gradient Boosting, and XGBoost perform well, with most accuracy, precision, and recall scores close to or higher than 90% for matched vs. unmatched classification. To the authors' knowledge, there are no previous published scientific papers devoted to matching of spatial entities for the Southeast Asia region.
翻訳日:2024-01-18 18:50:02 公開日:2024-01-16
# DiConStruct:ブラックボックス蒸留による因果概念に基づく説明

DiConStruct: Causal Concept-based Explanations through Black-Box Distillation ( http://arxiv.org/abs/2401.08534v1 )

ライセンス: Link先を確認
Ricardo Moreira, Jacopo Bono, M\'ario Cardoso, Pedro Saleiro, M\'ario A. T. Figueiredo, Pedro Bizarro(参考訳) モデル解釈可能性は人間-AI意思決定システムにおいて中心的な役割を果たす。 理想的には、説明は人間の解釈可能な意味概念を用いて表現されるべきである。 さらに、これらの概念間の因果関係は、説明者によって、説明に関する推論を可能にするために捉えるべきである。 最後に、説明方法は効率的であり、予測タスクのパフォーマンスを損なうべきではない。 近年のai説明能力の急速な進歩にもかかわらず、我々が知る限り、これら3つの特性を満たす方法はない。 実際、局所的な概念説明可能性の主流の手法は因果説明を生み出しず、説明可能性と予測性能の間のトレードオフをもたらす。 提案するDiConStructは,概念ベースと因果関係の両方の手法であり,構造因果モデルと概念属性の形式でより解釈可能な局所的説明を作成することを目的としている。 筆者らは,ブラックボックス機械学習モデルの蒸留モデルとして,その予測を近似し,それぞれの説明を生成する。 このため、DiConStructはブラックボックス予測タスクに影響を与えることなく、効率的に説明を生成する。 本手法を画像データセットと表データデータセット上で検証し,diconstructがブラックボックスモデルを他の概念説明可能性ベースラインよりも高い忠実度で近似することを示すとともに,概念間の因果関係を含む説明を提供する。

Model interpretability plays a central role in human-AI decision-making systems. Ideally, explanations should be expressed using human-interpretable semantic concepts. Moreover, the causal relations between these concepts should be captured by the explainer to allow for reasoning about the explanations. Lastly, explanation methods should be efficient and not compromise the performance of the predictive task. Despite the rapid advances in AI explainability in recent years, as far as we know to date, no method fulfills these three properties. Indeed, mainstream methods for local concept explainability do not produce causal explanations and incur a trade-off between explainability and prediction performance. We present DiConStruct, an explanation method that is both concept-based and causal, with the goal of creating more interpretable local explanations in the form of structural causal models and concept attributions. Our explainer works as a distillation model to any black-box machine learning model by approximating its predictions while producing the respective explanations. Because of this, DiConStruct generates explanations efficiently while not impacting the black-box prediction task. We validate our method on an image dataset and a tabular dataset, showing that DiConStruct approximates the black-box models with higher fidelity than other concept explainability baselines, while providing explanations that include the causal relations between the concepts.
翻訳日:2024-01-18 18:49:38 公開日:2024-01-16
# mica:マルチレベルイメージ・コンセプタアライメントによる皮膚病変の診断に向けて

MICA: Towards Explainable Skin Lesion Diagnosis via Multi-Level Image-Concept Alignment ( http://arxiv.org/abs/2401.08527v1 )

ライセンス: Link先を確認
Yequan Bie, Luyang Luo, Hao Chen(参考訳) ブラックボックスの深層学習アプローチは、医用画像解析の領域において大きな可能性を秘めている。 しかし、医療分野に固有の厳格な信頼性要件は、説明可能な人工知能(XAI)の利用に関する研究を触媒化し、特に概念に基づく手法に焦点をあてている。 既存の概念ベースの手法は、単一の視点(例えばグローバルレベル)から概念アノテーションを主に適用し、サブリージョンと医療画像に埋め込まれた概念の間のニュアンス的な意味関係を無視する。 これにより、貴重な医療情報を過小に活用し、概念ボトルネックのような本質的に解釈可能なアーキテクチャを採用する場合、モデルの解釈可能性と性能の調和が損なわれる可能性がある。 これらの欠点を緩和するため,我々は医療画像と臨床関連概念を,画像レベル,トークンレベル,概念レベルを包含して,複数の階層で意味的に連携させるマルチモーダルな疾患診断フレームワークを提案する。 さらに,本手法はモデル介入を可能にし,人間の解釈可能な概念の観点からテキストと視覚的説明を提供する。 3つのスキン画像データセットを用いた実験の結果, モデル解釈性を維持しつつ, 概念検出と疾患診断において高い性能とラベル効率が得られることがわかった。

Black-box deep learning approaches have showcased significant potential in the realm of medical image analysis. However, the stringent trustworthiness requirements intrinsic to the medical field have catalyzed research into the utilization of Explainable Artificial Intelligence (XAI), with a particular focus on concept-based methods. Existing concept-based methods predominantly apply concept annotations from a single perspective (e.g., global level), neglecting the nuanced semantic relationships between sub-regions and concepts embedded within medical images. This leads to underutilization of the valuable medical information and may cause models to fall short in harmoniously balancing interpretability and performance when employing inherently interpretable architectures such as Concept Bottlenecks. To mitigate these shortcomings, we propose a multi-modal explainable disease diagnosis framework that meticulously aligns medical images and clinical-related concepts semantically at multiple strata, encompassing the image level, token level, and concept level. Moreover, our method allows for model intervention and offers both textual and visual explanations in terms of human-interpretable concepts. Experimental results on three skin image datasets demonstrate that our method, while preserving model interpretability, attains high performance and label efficiency for concept detection and disease diagnosis.
翻訳日:2024-01-18 18:49:16 公開日:2024-01-16
# GATS: Gather-Attend-Scatter

GATS: Gather-Attend-Scatter ( http://arxiv.org/abs/2401.08525v1 )

ライセンス: Link先を確認
Konrad Zolna, Serkan Cabi, Yutian Chen, Eric Lau, Claudio Fantacci, Jurgis Pasukonis, Jost Tobias Springenberg, Sergio Gomez Colmenarejo(参考訳) AIコミュニティは大規模モデルをますます採用しているため、それらを統合するための汎用的で柔軟なツールを開発することが不可欠である。 本稿では,トレーニング可能な基盤モデルと凍結可能な基礎モデルのシームレスな組み合わせを,より大規模なマルチモーダルネットワークに実現したGather-Attend-Scatter(GATS)を紹介する。 GATSはAIシステムに対して、異なるレートで複数のモードで情報を処理し、生成する権限を与える。 従来の微調整とは対照的に、GATSはオリジナルのコンポーネントモデルを凍結し続けることができ、トレーニング前の段階で得られた重要な知識を失うリスクを避けることができる。 ゲーム,ロボット工学,マルチモーダル入力出力システムにおけるGATSの有用性と汎用性を実証する。

As the AI community increasingly adopts large-scale models, it is crucial to develop general and flexible tools to integrate them. We introduce Gather-Attend-Scatter (GATS), a novel module that enables seamless combination of pretrained foundation models, both trainable and frozen, into larger multimodal networks. GATS empowers AI systems to process and generate information across multiple modalities at different rates. In contrast to traditional fine-tuning, GATS allows for the original component models to remain frozen, avoiding the risk of them losing important knowledge acquired during the pretraining phase. We demonstrate the utility and versatility of GATS with a few experiments across games, robotics, and multimodal input-output systems.
翻訳日:2024-01-18 18:48:52 公開日:2024-01-16
# フェルミオン位相空間分布の情報と主要化理論

Information and majorization theory for fermionic phase-space distributions ( http://arxiv.org/abs/2401.08523v1 )

ライセンス: Link先を確認
Nicolas J. Cerf and Tobias Haas(参考訳) 超数理論を用いてフェルミオン相空間分布の不確かさを解析するための情報理論的手法をいくつか提案した。 ボソニックの場合とは対照的に、グラスマン変数の反可換性は、単一のフェルミオンモードの任意の状態のウィグナー$W$and Husimi$Q$-分布に対して単純な式を提供することを可能にする。 すべての物理的状態はガウス的であり、したがって(グラスマン変数上の)正あるいは負の熱分布によって記述できる。 すると、いくつかのフェルミオン不確実性関係を証明でき、特に(証明されていない)位相空間の偏化のフェルミオン類似やボゾンモードのウィグナーエントロピー予想、リーブ・ソロヴェイの定理やヴェール・リーブの不等式も証明できる。 中心的な点は、フェルミオン相空間の分布はグラスマン値であり、直接的な解釈を持たないが、対応する不確実性測度は実値を取るベレジン積分として表され、したがって物理的に関係があるということである。

We put forward several information-theoretic measures for analyzing the uncertainty of fermionic phase-space distributions using the theory of supernumbers. In contrast to the bosonic case, the anti-commuting nature of Grassmann variables allows us to provide simple expressions for the Wigner $W$- and Husimi $Q$-distributions of the arbitrary state of a single fermionic mode. It appears that all physical states are Gaussian and thus can be described by positive or negative thermal distributions (over Grassmann variables). We are then able to prove several fermionic uncertainty relations, including notably the fermionic analogs of the (yet unproven) phase-space majorization and Wigner entropy conjectures for a bosonic mode, as well as the Lieb-Solovej theorem and the Wehrl-Lieb inequality. The central point is that, although fermionic phase-space distributions are Grassmann-valued and do not have a straightforward interpretation, the corresponding uncertainty measures are expressed as Berezin integrals which take on real values, hence are physically relevant.
翻訳日:2024-01-18 18:48:38 公開日:2024-01-16
# Swin TransformerV2に基づく映像品質評価と微視的戦略

Video Quality Assessment Based on Swin TransformerV2 and Coarse to Fine Strategy ( http://arxiv.org/abs/2401.08522v1 )

ライセンス: Link先を確認
Zihao Yu, Fengbin Guan, Yiting Lu, Xin Li, Zhibo Chen(参考訳) 非参照ビデオ品質評価の目的は、参照高精細参照にアクセスせずに歪みビデオの品質を評価することである。 本研究では,複数の画像品質評価データセットを事前学習した空間認識モジュールと,非参照視覚品質評価(NR-VQA)タスクに対処する軽量時間融合モジュールを導入する。 このモデルはSwin Transformer V2を局所的な空間特徴抽出器として実装し、これらの多段階表現を一連の変換器層を通して融合する。 さらに、ビデオ間の時空間的特徴融合に時間変換器を用いる。 異なるビットレートの動画から特徴を識別するモデルの能力を強化するために、様々なビットレートの圧縮ビデオに対応するために、粗いコントラスト戦略を組み込んだ。 これはone-page abstractの拡張版である。

The objective of non-reference video quality assessment is to evaluate the quality of distorted video without access to reference high-definition references. In this study, we introduce an enhanced spatial perception module, pre-trained on multiple image quality assessment datasets, and a lightweight temporal fusion module to address the no-reference visual quality assessment (NR-VQA) task. This model implements Swin Transformer V2 as a local-level spatial feature extractor and fuses these multi-stage representations through a series of transformer layers. Furthermore, a temporal transformer is utilized for spatiotemporal feature fusion across the video. To accommodate compressed videos of varying bitrates, we incorporate a coarse-to-fine contrastive strategy to enrich the model's capability to discriminate features from videos of different bitrates. This is an expanded version of the one-page abstract.
翻訳日:2024-01-18 18:48:19 公開日:2024-01-16
# グラフからハイパーグラフへ:ハイパーグラフ投影とその修復

From Graphs to Hypergraphs: Hypergraph Projection and its Remediation ( http://arxiv.org/abs/2401.08519v1 )

ライセンス: Link先を確認
Yanbang Wang, Jon Kleinberg(参考訳) 本研究では,グラフをハイパーグラフに代えて,構成関係が自然に高次である実世界の相互接続システムを表現することの意味について検討する。 このようなモデリングの選択は、通常、元のハイパーグラフをグラフにマッピングする基礎となるプロジェクションプロセスを含み、グラフベースの分析で一般的である。 ハイパーグラフの投影は高次関係の喪失につながる可能性があるが、そのような結果とその修復に関する研究は非常に限られている。 This work fills this gap by doing two things: (1) we develop analysis based on graph and set theory, showing two ubiquitous patterns of hyperedges that are root to structural information loss in all hypergraph projections; we also quantify the combinatorial impossibility of recovering the lost higher-order structures if no extra help is provided; (2) we still seek to recover the lost higher-order structures in hypergraph projection, and in light of (1)'s findings we propose to relax the problem into a learning-based setting. そこで我々は,ハイパーエッジ分布の重要な統計量に基づく学習に基づくハイパーグラフ再構成手法を開発した。 提案手法は,異なる環境下で8つの実世界のデータセットを用いて評価し,常に良好な性能を示す。 また,タンパク質ランキングとリンク予測のユースケースを通じて,再構成ハイパーグラフの利点を示す。

We study the implications of the modeling choice to use a graph, instead of a hypergraph, to represent real-world interconnected systems whose constituent relationships are of higher order by nature. Such a modeling choice typically involves an underlying projection process that maps the original hypergraph onto a graph, and is common in graph-based analysis. While hypergraph projection can potentially lead to loss of higher-order relations, there exists very limited studies on the consequences of doing so, as well as its remediation. This work fills this gap by doing two things: (1) we develop analysis based on graph and set theory, showing two ubiquitous patterns of hyperedges that are root to structural information loss in all hypergraph projections; we also quantify the combinatorial impossibility of recovering the lost higher-order structures if no extra help is provided; (2) we still seek to recover the lost higher-order structures in hypergraph projection, and in light of (1)'s findings we propose to relax the problem into a learning-based setting. Under this setting, we develop a learning-based hypergraph reconstruction method based on an important statistic of hyperedge distributions that we find. Our reconstruction method is evaluated on 8 real-world datasets under different settings, and exhibits consistently good performance. We also demonstrate benefits of the reconstructed hypergraphs via use cases of protein rankings and link predictions.
翻訳日:2024-01-18 18:48:05 公開日:2024-01-16
# PPSURF:詳細な表面再構成のためのパッチとポイントの畳み込み

PPSURF: Combining Patches and Point Convolutions for Detailed Surface Reconstruction ( http://arxiv.org/abs/2401.08518v1 )

ライセンス: Link先を確認
Philipp Erler and Lizeth Fuentes and Pedro Hermosilla and Paul Guerrero and Renato Pajarola Michael Wimmer(参考訳) ポイントクラウドからの3次元表面再構成は,コンテンツ創造,考古学,デジタル文化遺産,工学といった分野において重要なステップである。 現在のアプローチでは、ポイントに合うようにデータ駆動の表面表現を最適化するか、あるいは一般的に発生する表面の分布と、潜在的にノイズの多い点雲との相関性について、データ駆動の事前学習を試みる。 データ駆動方式は、雑音のロバストな処理を可能にし、通常、グローバルかローカルのプリエントに焦点を合わせ、グローバルエンドの雑音に対するロバスト性とローカルエンドにおける表面ディテールの保存とのトレードオフを可能にする。 本稿では,ポイント畳み込みに基づくグローバル事前処理とローカルクラウドパッチ処理に基づくローカル事前処理を組み合わせた手法としてPSurfを提案する。 この手法は,現在の最先端技術よりも精度の高い表面情報を復元しながら,ノイズに対して頑健であることを示す。 ソースコード、事前トレーニングされたモデル、データセットは、https://github.com/cg-tuwien/ppsurf.comで利用可能です。

3D surface reconstruction from point clouds is a key step in areas such as content creation, archaeology, digital cultural heritage, and engineering. Current approaches either try to optimize a non-data-driven surface representation to fit the points, or learn a data-driven prior over the distribution of commonly occurring surfaces and how they correlate with potentially noisy point clouds. Data-driven methods enable robust handling of noise and typically either focus on a global or a local prior, which trade-off between robustness to noise on the global end and surface detail preservation on the local end. We propose PPSurf as a method that combines a global prior based on point convolutions and a local prior based on processing local point cloud patches. We show that this approach is robust to noise while recovering surface details more accurately than the current state-of-the-art. Our source code, pre-trained model and dataset are available at: https://github.com/cg-tuwien/ppsurf
翻訳日:2024-01-18 18:47:47 公開日:2024-01-16
# 学習勧告に関する学生の判断を支援する:会話説明可能性と指導のための知識グラフ型チャットボット

Supporting Student Decisions on Learning Recommendations: An LLM-Based Chatbot with Knowledge Graph Contextualization for Conversational Explainability and Mentoring ( http://arxiv.org/abs/2401.08517v1 )

ライセンス: Link先を確認
Hasan Abu-Rasheed, Mohamad Hussam Abdulsalam, Christian Weber, Madjid Fathi(参考訳) 学習推薦に対する学生のコミットメントは、それが推奨された理由やその理解に基づいてそれを修正できる能力についての理解とは分離できない。 説明可能性のアプローチの中で、チャットボットは、同僚やメンターとの議論と同様、会話で学生を巻き込む可能性を提供する。 しかし、生成型AI(GenAI)と大規模言語モデル(LLM)の進歩にもかかわらず、チャットボットの能力は人間のメンターを置き換えるには十分ではない。 そこで本稿では,チャットボットを会話の仲介者や限定的かつ制御された説明生成源として利用し,LLMの潜在能力を同時に獲得し,潜在的なリスクを低減させるアプローチを提案する。 提案するLLMベースのチャットボットは,学習パスレコメンデーションの理解を支援する。 我々は、知識グラフ(KG)を人間の情報ソースとして使用し、そのプロンプトのコンテキストを定義してLLMの出力を制御する。 グループチャットアプローチは、必要に応じて、あるいはチャットボットの予め定義されたタスクを超える場合に、学生と人間のメンターを結びつけるために開発された。 チャットボットをユーザ調査により評価し,概念実証を提供し,チャットボットを利用した会話説明可能性の潜在的要件と限界を強調する。

Student commitment towards a learning recommendation is not separable from their understanding of the reasons it was recommended to them; and their ability to modify it based on that understanding. Among explainability approaches, chatbots offer the potential to engage the student in a conversation, similar to a discussion with a peer or a mentor. The capabilities of chatbots, however, are still not sufficient to replace a human mentor, despite the advancements of generative AI (GenAI) and large language models (LLM). Therefore, we propose an approach to utilize chatbots as mediators of the conversation and sources of limited and controlled generation of explanations, to harvest the potential of LLMs while reducing their potential risks at the same time. The proposed LLM-based chatbot supports students in understanding learning-paths recommendations. We use a knowledge graph (KG) as a human-curated source of information, to regulate the LLM's output through defining its prompt's context. A group chat approach is developed to connect students with human mentors, either on demand or in cases that exceed the chatbot's pre-defined tasks. We evaluate the chatbot with a user study, to provide a proof-of-concept and highlight the potential requirements and limitations of utilizing chatbots in conversational explainability.
翻訳日:2024-01-18 18:47:28 公開日:2024-01-16
# MultiPLY:3次元世界における多感覚オブジェクト中心型大規模言語モデル

MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World ( http://arxiv.org/abs/2401.08577v1 )

ライセンス: Link先を確認
Yining Hong, Zishuo Zheng, Peihao Chen, Yian Wang, Junyan Li, Chuang Gan(参考訳) 人間は、積極的に3dの世界を探索し相互作用しながら、多感覚の手がかりのメラネージを乗じる能力を持っている。 しかし、現在のマルチモーダルな大規模言語モデルは、入力として知覚データを受動的に吸収し、3D環境でオブジェクトと活発に相互作用し、動的に多感覚情報を収集する能力に欠ける。 そこで本研究では,視覚・音声・触覚・熱情報を含む多感覚対話型データを大規模言語モデルに組み込んだ多感覚埋め込み型大言語モデルであるMultiPLYを提案する。 この目的のために,LLMを用いたエンボディエージェントを配置し,500kデータからなる大規模マルチセンサインタラクションデータセットであるMultisensory Universeを初めて収集した。 このような生成データ上で事前学習されたllmを用いた命令チューニングを行うために,まず3dシーンを抽象オブジェクト中心表現としてエンコードし,次に,具体化エージェントが環境内で特定のアクションを取ることを示すアクショントークンと,各時間ステップにおけるエージェントの多感覚状態観察を表す状態トークンを導入する。 推論時間において、multiplyはアクショントークンを生成し、エージェントに環境でアクションを取り、次の多感覚状態観察を得るように指示する。 その後、観察はステートトークンを介してLCMに付加され、その後のテキストやアクショントークンを生成する。 我々は,MultiPLYが,オブジェクト検索,ツール使用,マルチ感覚キャプション,タスク分解など,多種多様な具体的タスクを通じて,ベースラインを大幅に上回ることを示す。

Human beings possess the capability to multiply a melange of multisensory cues while actively exploring and interacting with the 3D world. Current multi-modal large language models, however, passively absorb sensory data as inputs, lacking the capacity to actively interact with the objects in the 3D environment and dynamically collect their multisensory information. To usher in the study of this area, we propose MultiPLY, a multisensory embodied large language model that could incorporate multisensory interactive data, including visual, audio, tactile, and thermal information into large language models, thereby establishing the correlation among words, actions, and percepts. To this end, we first collect Multisensory Universe, a large-scale multisensory interaction dataset comprising 500k data by deploying an LLM-powered embodied agent to engage with the 3D environment. To perform instruction tuning with pre-trained LLM on such generated data, we first encode the 3D scene as abstracted object-centric representations and then introduce action tokens denoting that the embodied agent takes certain actions within the environment, as well as state tokens that represent the multisensory state observations of the agent at each time step. In the inference time, MultiPLY could generate action tokens, instructing the agent to take the action in the environment and obtain the next multisensory state observation. The observation is then appended back to the LLM via state tokens to generate subsequent text or action tokens. We demonstrate that MultiPLY outperforms baselines by a large margin through a diverse set of embodied tasks involving object retrieval, tool use, multisensory captioning, and task decomposition.
翻訳日:2024-01-18 18:41:15 公開日:2024-01-16
# コヒーレンス, 正確性, データベース化のための言語モデルの導出的クロージャ訓練

Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability ( http://arxiv.org/abs/2401.08574v1 )

ライセンス: Link先を確認
Afra Feyza Aky\"urek, Ekin Aky\"urek, Leshem Choshen, Derry Wijaya and Jacob Andreas(参考訳) 言語モデル(LM)は、事実的に正しいテキストを生成し、個々のクレームの真理値を推定することもあるが、一般的には世界の一貫性のある操作可能なモデルを反映していない。 その結果、現在のLMは誤りや非意味なコンテンツも生成し、編集や更新が難しくなっている。 提案手法は, LM自体を用いて生成したテキストの意味(および矛盾点)を同定し, LMの事実性を改善するための効率的な自己監督的手順を導出する。 シード文書のコレクションが与えられた後、DCTはLMにこれらの文書によって示唆される追加のテキストを生成するよう促し、この生成されたテキストの正確さを全世界的に推論し、最終的に正しいと推定されるテキストに微調整を行う。 信頼されたソースからのシード文書が与えられると、dctはモデル更新を監督するツールを提供する。もしシード文書がlm自身からサンプリングされた場合、dctはコヒーレンスと精度を改善するために完全に教師なしの微調整を可能にする。 CREAK、MQUaKE、Reversal Curseデータセット全体で、教師付きDCTはLM事実検証とテキスト生成の精度を3~26%改善する。 これらの結果から,推論中のLMの推論能力をトレーニング中に活用し,信頼性を向上させることが示唆された。

While language models (LMs) can sometimes generate factually correct text and estimate truth values of individual claims, these generally do not reflect a globally coherent, manipulable model of the world. As a consequence, current LMs also generate incorrect or nonsensical content, and are difficult to edit and bring up to date. We present a method called Deductive Closure Training (DCT) that uses LMs themselves to identify implications of (and contradictions within) the text that they generate, yielding an efficient self-supervised procedure for improving LM factuality. Given a collection of seed documents, DCT prompts LMs to generate additional text implied by these documents, reason globally about the correctness of this generated text, and finally fine-tune on text inferred to be correct. Given seed documents from a trusted source, DCT provides a tool for supervised model updating; if seed documents are sampled from the LM itself, DCT enables fully unsupervised fine-tuning for improved coherence and accuracy. Across the CREAK, MQUaKE, and Reversal Curse datasets, supervised DCT improves LM fact verification and text generation accuracy by 3-26%; on CREAK fully unsupervised DCT improves verification accuracy by 12%. These results show that LMs' reasoning capabilities during inference can be leveraged during training to improve their reliability.
翻訳日:2024-01-18 18:40:43 公開日:2024-01-16
# 画像透かしのロバストさのベンチマーク

Benchmarking the Robustness of Image Watermarks ( http://arxiv.org/abs/2401.08573v1 )

ライセンス: Link先を確認
Bang An, Mucong Ding, Tahseen Rabbani, Aakriti Agrawal, Yuancheng Xu, Chenghao Deng, Sicheng Zhu, Abdirisak Mohamed, Yuxin Wen, Tom Goldstein, Furong Huang(参考訳) 本稿では,画像透かし技術の弱点について検討する。 本研究では,ウォーターマークのロバスト性を評価するための新しいベンチマークであるwaves(watermark analysis via enhanced stress-testing)を提案し,現在の評価手法の限界を克服する。wavesは検出・識別タスクを統合し,各種のストレステストからなる標準評価プロトコルを確立する。 WAVESの攻撃は、従来の画像歪みから、敵、拡散、埋め込みベースの攻撃の新しいバリエーションまで様々である。 本稿では,多数の画像品質指標を取り入れた攻撃能力の正規化スコアを導入し,攻撃の順序付けを行えるようにした。 いくつかの最新の透かしアルゴリズムの未検出脆弱性を明らかにするための包括的評価を行った。 WAVESは、堅牢な透かしシステムの開発のためのツールキットとして構想されている。

This paper investigates the weaknesses of image watermarking techniques. We present WAVES (Watermark Analysis Via Enhanced Stress-testing), a novel benchmark for assessing watermark robustness, overcoming the limitations of current evaluation methods.WAVES integrates detection and identification tasks, and establishes a standardized evaluation protocol comprised of a diverse range of stress tests. The attacks in WAVES range from traditional image distortions to advanced and novel variations of adversarial, diffusive, and embedding-based attacks. We introduce a normalized score of attack potency which incorporates several widely used image quality metrics and allows us to produce of an ordered ranking of attacks. Our comprehensive evaluation over reveals previously undetected vulnerabilities of several modern watermarking algorithms. WAVES is envisioned as a toolkit for the future development of robust watermarking systems.
翻訳日:2024-01-18 18:40:14 公開日:2024-01-16
# 人工包摂の錯覚

The illusion of artificial inclusion ( http://arxiv.org/abs/2401.08572v1 )

ライセンス: Link先を確認
William Agnew, A. Stevie Bergman, Jennifer Chien, Mark D\'iaz, Seliem El-Sayed, Jaylen Pittman, Shakir Mohamed, Kevin R. McKee(参考訳) 人間の参加者は、現代の人工知能(AI)技術の発展、心理学、ユーザー研究において中心的な役割を果たす。 生成AIの最近の進歩は、これらの領域における人間の参加者をAIサロゲートに置き換える可能性への関心が高まっている。 このような「代替提案」を調査し、近代的な生成AIによる人間の置換者に対する議論をより深く理解する。 調査・開発作業のコスト削減や収集データの多様性向上といった目標を掲げて,これらの提案の近年の波が示唆されている。 しかし、これらの提案は、表現、包含、理解という、人間と作業の基本的な価値を無視して、最終的に衝突する。 本稿では,人間参加の根底にある原則と目標を批判的に検討し,真に参加者を集中し,力づける将来の仕事の道筋を図解する。

Human participants play a central role in the development of modern artificial intelligence (AI) technology, in psychological science, and in user research. Recent advances in generative AI have attracted growing interest to the possibility of replacing human participants in these domains with AI surrogates. We survey several such "substitution proposals" to better understand the arguments for and against substituting human participants with modern generative AI. Our scoping review indicates that the recent wave of these proposals is motivated by goals such as reducing the costs of research and development work and increasing the diversity of collected data. However, these proposals ignore and ultimately conflict with foundational values of work with human participants: representation, inclusion, and understanding. This paper critically examines the principles and goals underlying human participation to help chart out paths for future work that truly centers and empowers participants.
翻訳日:2024-01-18 18:40:01 公開日:2024-01-16
# RoHM: 拡散によるロバストな人間の運動再構成

RoHM: Robust Human Motion Reconstruction via Diffusion ( http://arxiv.org/abs/2401.08570v1 )

ライセンス: Link先を確認
Siwei Zhang, Bharat Lal Bhatnagar, Yuanlu Xu, Alexander Winkler, Petr Kadlecek, Siyu Tang, Federica Bogo(参考訳) 本稿では,モノクラーRGB(-D)ビデオからノイズや閉塞物の存在下での頑健な3次元人間の動作復元手法であるRoHMを提案する。 従来のアプローチでは、ニューラルネットワークをトレーニングして3dで直接動きをリグレッシブするか、データ駆動動作の優先順位を学習し、テスト時の最適化と組み合わせるかのどちらかだった。 前者はグローバルなコヒーレントな動きを回復せず、閉塞状態に陥り、後者は時間がかかり、局所的なミニマに傾向があり、手動のチューニングを必要とする。 これらの欠点を克服するために、拡散モデルの反復的、偏執的性質を利用する。 RoHMは、ノイズと閉塞された入力データに基づいて、一貫した大域座標で完全な可塑性運動を再構成する、新しい拡散に基づく運動モデルである。 異なるソリューション空間(ローカルとグローバルモーション)で異なるタスク(デオライズとインフィルディング)に対処しなければならない問題の複雑さを考えると、私たちはそれを2つのサブタスクに分解し、2つのモデルを学びます。 両者の相関関係を捉えるため,新しい条件付きモジュールを導入し,反復的推論手法と組み合わせた。 動作再構成や聴覚障害から空間的,時間的入力に至るまで,さまざまなタスクにRoHMを適用する。 3つの一般的なデータセットに対する大規模な実験により、我々の手法はテスト時に高速でありながら、定性的かつ定量的に最先端の手法より優れていることが示された。 コードはhttps://sanweiliti.github.io/ROHM/ROHM.htmlで入手できる。

We propose RoHM, an approach for robust 3D human motion reconstruction from monocular RGB(-D) videos in the presence of noise and occlusions. Most previous approaches either train neural networks to directly regress motion in 3D or learn data-driven motion priors and combine them with optimization at test time. The former do not recover globally coherent motion and fail under occlusions; the latter are time-consuming, prone to local minima, and require manual tuning. To overcome these shortcomings, we exploit the iterative, denoising nature of diffusion models. RoHM is a novel diffusion-based motion model that, conditioned on noisy and occluded input data, reconstructs complete, plausible motions in consistent global coordinates. Given the complexity of the problem -- requiring one to address different tasks (denoising and infilling) in different solution spaces (local and global motion) -- we decompose it into two sub-tasks and learn two models, one for global trajectory and one for local motion. To capture the correlations between the two, we then introduce a novel conditioning module, combining it with an iterative inference scheme. We apply RoHM to a variety of tasks -- from motion reconstruction and denoising to spatial and temporal infilling. Extensive experiments on three popular datasets show that our method outperforms state-of-the-art approaches qualitatively and quantitatively, while being faster at test time. The code will be available at https://sanweiliti.github.io/ROHM/ROHM.html.
翻訳日:2024-01-18 18:39:45 公開日:2024-01-16
# SO(3)対称性破れ項によるヤオ・リーモデルの非エルミート一般化

Non-Hermitian generalizations of the Yao-Lee model augmented by SO(3)-symmetry-breaking terms ( http://arxiv.org/abs/2401.08568v1 )

ライセンス: Link先を確認
Ipsita Mandal(参考訳) 種々のso(3)対称性の破れ項を補うyao-leeモデルの非エルミート版について検討し,モデルの可解性について検討した。 親モデルはマヨラナフェルミオンの3つの種を持ち、ハニカム格子上の2次元キタエフモデルの拡張として機能する。 非エルミート結合は、システムが環境に結合され、散逸する際の一般的な状況を表す。 得られた固有値スペクトルと固有モードは、非エルミート皮膚効果と同様に例外点の豊富な構造を示す。 このようなエキゾチックな振舞いを、いくつかの代表的なパラメーターレジームで表します。

We investigate non-Hermitian versions of the Yao-Lee model supplemented by various kinds of SO(3)-symmetry-breaking terms, preserving the solvability of the model. The parent model hosts three species of Majorana fermions and serves as an extension of the two-dimensional Kitaev model on the honeycomb lattice. The non-Hermitian couplings represent generic situations when the system is coupled to the environment and undergoes dissipation. The resulting eigenvalue spectrum and the eigenmodes show a rich structure of exceptional points as well as non-Hermitian skin effects. We chart out such exotic behaviour for some representative parameter regimes.
翻訳日:2024-01-18 18:39:18 公開日:2024-01-16
# Connect, Collapse, Corrupt: ユニモーダルデータによるクロスモーダルタスクの学習

Connect, Collapse, Corrupt: Learning Cross-Modal Tasks with Uni-Modal Data ( http://arxiv.org/abs/2401.08567v1 )

ライセンス: Link先を確認
Yuhui Zhang, Elaine Sui, Serena Yeung-Levy(参考訳) クロスモーダルアプリケーションの構築は、ペアのマルチモーダルデータに制限があるため、難しい。 近年の研究では、事前学習されたマルチモーダルコントラスト表現空間を利用することで、クロスモーダルなタスクをユニモーダルデータから学習できることが示されている。 これは、対照的な最適化が異なるモダリティから埋め込みを交換できるという仮定に基づいている。 しかし、この仮定は、モダリティギャップが存在するマルチモーダルコントラスト空間の理解が不十分な幾何学のため、未熟である。 本研究では,この空間の幾何学を理論的に説明し,モダリティギャップを橋渡しし埋め込みの交換性を高めるために,3段階の手法である$c^3$ (connect, collapse, corruption)を導入する。 今回の$c^3$法は,ユニモーダルデータからのクロスモーダル学習を大幅に改善し,ゼロショット画像,オーディオ/ビデオキャプション,テキスト対画像生成において最先端の結果を得る。

Building cross-modal applications is challenging due to limited paired multi-modal data. Recent works have shown that leveraging a pre-trained multi-modal contrastive representation space enables cross-modal tasks to be learned from uni-modal data. This is based on the assumption that contrastive optimization makes embeddings from different modalities interchangeable. However, this assumption is under-explored due to the poorly understood geometry of the multi-modal contrastive space, where a modality gap exists. In our study, we provide a theoretical explanation of this space's geometry and introduce a three-step method, $C^3$ (Connect, Collapse, Corrupt), to bridge the modality gap, enhancing the interchangeability of embeddings. Our $C^3$ method significantly improves cross-modal learning from uni-modal data, achieving state-of-the-art results on zero-shot image / audio / video captioning and text-to-image generation.
翻訳日:2024-01-18 18:39:07 公開日:2024-01-16
# proxyによる言語モデルのチューニング

Tuning Language Models by Proxy ( http://arxiv.org/abs/2401.08565v1 )

ライセンス: Link先を確認
Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi, Noah A. Smith(参考訳) 大きな事前訓練された言語モデルの一般的な能力にもかかわらず、彼らは常に、望ましい振る舞いを達成するためにさらなる適応の恩恵を受ける。 しかし、モデル重み付けがプライベートな場合には、これらのモデルのチューニングはますますリソース集約的になるか、不可能になっている。 我々は,ブラックボックスlms上で動作し,モデルを直接チューニングすることで得られるが,出力語彙上の予測のみにアクセスする,軽量な復号時間アルゴリズムであるproxy-tuningを導入する。 提案手法は,小型のLMをチューニングする代わりに,小型のLMの予測と未調整のLMの差を適用して,大規模プレトレーニングの利点を維持しつつ,ベースモデルの本来の予測をチューニング方向にシフトさせる。 実験では、7Bサイズのプロキシを使用したプロキシチューニングをLlama2-70Bに適用すると、Llama2-70Bと実際にチューニングされたチャットバージョンとのギャップの88%を、知識、推論、安全性ベンチマークで評価することができる。 興味深いことに、truefulqaでテストされた場合、プロキシチューニングされたモデルは、直接チューニングされたモデルよりも実際には真実である。 次に,コードへのドメイン適応に適用し,質問応答と数学問題に対するタスク固有の微調整を行うことで,プロキシチューニングの汎用性を示す。 我々の研究は、デコード時ガイダンスにより、小さく調整されたLMを用いて、大規模で潜在的にプロプライエタリなLMを効率的にカスタマイズする可能性を実証している。

Despite the general capabilities of large pretrained language models, they consistently benefit from further adaptation to better achieve desired behaviors. However, tuning these models has become increasingly resource-intensive, or impossible when model weights are private. We introduce proxy-tuning, a lightweight decoding-time algorithm that operates on top of black-box LMs to achieve the result of directly tuning the model, but by accessing only its prediction over the output vocabulary. Our method instead tunes a smaller LM, then applies the difference between the predictions of the small tuned and untuned LMs to shift the original predictions of the base model in the direction of tuning, while retaining the benefits of larger scale pretraining. In experiments, when we apply proxy-tuning to Llama2-70B using proxies of only 7B size, we can close 88% of the gap between Llama2-70B and its truly-tuned chat version, when evaluated across knowledge, reasoning, and safety benchmarks. Interestingly, when tested on TruthfulQA, proxy-tuned models are actually more truthful than directly tuned models, possibly because decoding-time guidance better retains the model's factual knowledge. We then demonstrate the generality of proxy-tuning by applying it for domain adaptation on code, and task-specific finetuning on question-answering and math problems. Our work demonstrates the promise of using small tuned LMs to efficiently customize large, potentially proprietary LMs through decoding-time guidance.
翻訳日:2024-01-18 18:38:48 公開日:2024-01-16
# ADVENT: VANETにおける攻撃/異常検出

ADVENT: Attack/Anomaly Detection in VANETs ( http://arxiv.org/abs/2401.08564v1 )

ライセンス: Link先を確認
Hamideh Baharlouei, Adetokunbo Makanju, Nur Zincir-Heywood(参考訳) 車両用アドホックネットワーク(vehicular ad hoc networks, vanets)では,リアルタイムに攻撃を検知し,加害者を顕在化できる実世界の悪意のある検知器を持つことが不可欠である。 このシステムは、悪意のある行為をリアルタイムに検出するために設計されており、まず攻撃の開始とその後に責任あるアクターを識別する必要がある。 この領域での以前の作業では、両方の要件に同時に対処することはありませんでした。 統計的および機械学習技術をシームレスに統合することにより、提案システムは単純さと効率性を優先する。 F1スコアの99.66%で高速に攻撃を検知し、その後、平均で97.85%の悪意のある車両を識別する。 両段階に連合学習を組み込むことで、プライバシーが向上し、悪意のあるノード検出の効率が向上し、偽陰性率が効果的に減少する。

In the domain of Vehicular Ad hoc Networks (VANETs), where the imperative of having a real-world malicious detector capable of detecting attacks in real-time and unveiling their perpetrators is crucial, our study introduces a system with this goal. This system is designed for real-time detection of malicious behavior, addressing the critical need to first identify the onset of attacks and subsequently the responsible actors. Prior work in this area have never addressed both requirements, which we believe are necessary for real world deployment, simultaneously. By seamlessly integrating statistical and machine learning techniques, the proposed system prioritizes simplicity and efficiency. It excels in swiftly detecting attack onsets with a remarkable F1-score of 99.66%, subsequently identifying malicious vehicles with an average F1-score of approximately 97.85%. Incorporating federated learning in both stages enhances privacy and improves the efficiency of malicious node detection, effectively reducing the false negative rate.
翻訳日:2024-01-18 18:38:00 公開日:2024-01-16
# リーマン最適化による代数多様体の登録

Registration of algebraic varieties using Riemannian optimization ( http://arxiv.org/abs/2401.08562v1 )

ライセンス: Link先を確認
Florentin Goyens, Coralia Cartis and St\'ephane Chr\'etien(参考訳) 我々は、同じ対象を表すが異なる座標系で表現される2つの点クラウド間の変換を見つけるタスクである点クラウド登録問題を考える。 我々のアプローチは、ポイント・ツー・ポイント対応に基づいておらず、ソース・ポイント・クラウドのすべてのポイントとターゲット・ポイント・クラウドのポイントとを一致させる。 代わりに、データの低次元非線形幾何構造を仮定し、活用する。 まず、各点雲を代数多様体(有限個の多項式方程式で定義される集合)で近似する。 これは、代数多様体と多項式基底の間の接続を用いて、グラスマン多様体上の最適化問題を解いて行われる。 第二に、直交群上の最適化問題を解くことで、2つの代数多様体が重なり合う変換(回転$+$変換)を求める。 両ステップの解には2階リーマン最適化法を用いる。 実データおよび合成データに関する数値実験を行い、その結果を奨励する。 我々のアプローチは、物体の表面が多項式方程式の集合によってよく近似されるという条件で、2点の雲が物体の異なる部分を記述するときに特に有用である。 最初の手順 -- 近似 -- は独立な興味を持ち、代数多様体に属するデータを定式化するために用いられる。 我々は,stein の unbiased estimator を用いて推定誤差を統計的に保証する。

We consider the point cloud registration problem, the task of finding a transformation between two point clouds that represent the same object but are expressed in different coordinate systems. Our approach is not based on a point-to-point correspondence, matching every point in the source point cloud to a point in the target point cloud. Instead, we assume and leverage a low-dimensional nonlinear geometric structure of the data. Firstly, we approximate each point cloud by an algebraic variety (a set defined by finitely many polynomial equations). This is done by solving an optimization problem on the Grassmann manifold, using a connection between algebraic varieties and polynomial bases. Secondly, we solve an optimization problem on the orthogonal group to find the transformation (rotation $+$ translation) which makes the two algebraic varieties overlap. We use second-order Riemannian optimization methods for the solution of both steps. Numerical experiments on real and synthetic data are provided, with encouraging results. Our approach is particularly useful when the two point clouds describe different parts of an objects (which may not even be overlapping), on the condition that the surface of the object may be well approximated by a set of polynomial equations. The first procedure -- the approximation -- is of independent interest, as it can be used for denoising data that belongs to an algebraic variety. We provide statistical guarantees for the estimation error of the denoising using Stein's unbiased estimator.
翻訳日:2024-01-18 18:37:29 公開日:2024-01-16
# PlayMyData:マルチプラットフォームビデオゲームのキュレートされたデータセット

PlayMyData: a curated dataset of multi-platform video games ( http://arxiv.org/abs/2401.08561v1 )

ライセンス: Link先を確認
Andrea D'Angelo, Claudio Di Sipio, Cristiano Politowsky, and Riccardo Rubei(参考訳) 何十年にもわたってデジタルエンタテインメントで優勢なビデオゲームは、ソフトウェアエンジニアリング(se)コミュニティによって価値あるソフトウェアアーティファクトとして認識されてきた。 このような認識は、経験的研究から分類タスクへのAI技術の適用まで、いくつかの研究機会を明らかにしている。 この点において、収集されたデータは高度なモデルの適用や学際的な研究を可能にするには不十分であるにもかかわらず、研究目的でいくつかのキュレートされたゲームデータセットが開示されている。 さらに、ほとんどのゲームはpcゲームに限られており、playstation、xbox、nintendoなど、悪名高いゲームプラットフォームは除外されている。 本稿では,IGDB ウェブサイトが収集した 99,864 個のマルチプラットフォームゲームからなるキュレートデータセット PlayMyData を提案する。 専用APIを利用することで、説明、ジャンル、評価、ゲームプレイビデオURL、スクリーンショットなど、各ゲームに関連するメタデータを収集する。 さらに,HLTB Webサイトをマイニングすることで,各ゲームを完成させるために必要なタイミングでPlayMyDataを充実させる。 私たちの知る限りでは、これはSEのさまざまな自動化タスクをサポートするために使用できる、ドメインで最も包括的なデータセットです。 さらに重要なことに、playmydataは、提供されるマルチメディアデータの上に構築されたクロスドメインな調査を促進するために使用できる。

Being predominant in digital entertainment for decades, video games have been recognized as valuable software artifacts by the software engineering (SE) community just recently. Such an acknowledgment has unveiled several research opportunities, spanning from empirical studies to the application of AI techniques for classification tasks. In this respect, several curated game datasets have been disclosed for research purposes even though the collected data are insufficient to support the application of advanced models or to enable interdisciplinary studies. Moreover, the majority of those are limited to PC games, thus excluding notorious gaming platforms, e.g., PlayStation, Xbox, and Nintendo. In this paper, we propose PlayMyData, a curated dataset composed of 99,864 multi-platform games gathered by IGDB website. By exploiting a dedicated API, we collect relevant metadata for each game, e.g., description, genre, rating, gameplay video URLs, and screenshots. Furthermore, we enrich PlayMyData with the timing needed to complete each game by mining the HLTB website. To the best of our knowledge, this is the most comprehensive dataset in the domain that can be used to support different automated tasks in SE. More importantly, PlayMyData can be used to foster cross-domain investigations built on top of the provided multimedia data.
翻訳日:2024-01-18 18:36:20 公開日:2024-01-16
# テキスト駆動3次元モーション生成のためのマルチトラック時系列制御

Multi-Track Timeline Control for Text-Driven 3D Human Motion Generation ( http://arxiv.org/abs/2401.08559v1 )

ライセンス: Link先を確認
Mathis Petrovich, Or Litany, Umar Iqbal, Michael J. Black, G\"ul Varol, Xue Bin Peng, Davis Rempe(参考訳) 最近の生成モデリングの進歩は、短いプロンプトと指定された持続時間から文字アニメーションを生成する手法によって、テキストから3d人間の動きを合成する有望な進歩をもたらした。 しかし、入力として単一のテキストプロンプトを使用すると、複数のアクションの作成や動きの一部の正確な時間の定義など、アニメーターが必要とする細かい制御が欠如する。 そこで本研究では,ユーザに対して直感的かつ細かな入力インタフェースを提供するテキスト駆動モーション合成のためのタイムライン制御の新たな問題を提案する。 単一のプロンプトではなく、複数のプロンプトの複数トラックタイムラインを、オーバーラップする可能性のある時間間隔で整理することができる。 これにより、各アクションの正確なタイミングを指定し、シーケンスまたは重なり合う間隔で複数のアクションを構成することができる。 マルチトラックタイムラインから合成アニメーションを生成するために,新しいテスト時間復調法を提案する。 この方法は、任意のトレーニング済みの運動拡散モデルと統合して、タイムラインを正確に反映する現実的な動きを合成することができる。 本手法は,各動作に係わる特定の身体部位を考慮し,各動作の時系列間隔(テキストプロンプト)を個別に処理し,予測を集約する。 実験による比較とアブレーションは,提案手法がテキストプロンプトの意味とタイミングを尊重する現実的な動作を生成することを検証している。 私たちのコードとモデルはhttps://mathis.petrovich.fr/stmcで公開されている。

Recent advances in generative modeling have led to promising progress on synthesizing 3D human motion from text, with methods that can generate character animations from short prompts and specified durations. However, using a single text prompt as input lacks the fine-grained control needed by animators, such as composing multiple actions and defining precise durations for parts of the motion. To address this, we introduce the new problem of timeline control for text-driven motion synthesis, which provides an intuitive, yet fine-grained, input interface for users. Instead of a single prompt, users can specify a multi-track timeline of multiple prompts organized in temporal intervals that may overlap. This enables specifying the exact timings of each action and composing multiple actions in sequence or at overlapping intervals. To generate composite animations from a multi-track timeline, we propose a new test-time denoising method. This method can be integrated with any pre-trained motion diffusion model to synthesize realistic motions that accurately reflect the timeline. At every step of denoising, our method processes each timeline interval (text prompt) individually, subsequently aggregating the predictions with consideration for the specific body parts engaged in each action. Experimental comparisons and ablations validate that our method produces realistic motions that respect the semantics and timing of given text prompts. Our code and models are publicly available at https://mathis.petrovich.fr/stmc.
翻訳日:2024-01-18 18:35:37 公開日:2024-01-16
# 複数背景表現学習を用いた粒子物理のロバスト異常検出

Robust Anomaly Detection for Particle Physics Using Multi-Background Representation Learning ( http://arxiv.org/abs/2401.08777v1 )

ライセンス: Link先を確認
Abhijith Gandrakota, Lily Zhang, Aahlad Puli, Kyle Cranmer, Jennifer Ngadiuba, Rajesh Ranganath, and Nhan Tran(参考訳) 異常(英: Anomaly, out-of-distribution)は、粒子物理学における新しい粒子や過程の発見を支援するツールである。 本研究では,高エネルギー物理学における異常検出を改善するための2つの見落としの機会を特定し,対処する。 まず、最も支配的なバックグラウンドプロセスで生成モデルをトレーニングするのではなく、複数のバックグラウンドタイプから表現学習を使用して検出アルゴリズムを構築することにより、より多くの情報を活用して、検出に関連するものの推定を改善する。 第2に,多重バックグランド設定への非相関を一般化し,異常検出のためのロバスト性の定義をより完全化する。 本研究では,大規模ハドロン衝突型加速器における粒子崩壊の高次元データセットに対するロバストなマルチバックグラウンド異常検出アルゴリズムの利点を示す。

Anomaly, or out-of-distribution, detection is a promising tool for aiding discoveries of new particles or processes in particle physics. In this work, we identify and address two overlooked opportunities to improve anomaly detection for high-energy physics. First, rather than train a generative model on the single most dominant background process, we build detection algorithms using representation learning from multiple background types, thus taking advantage of more information to improve estimation of what is relevant for detection. Second, we generalize decorrelation to the multi-background setting, thus directly enforcing a more complete definition of robustness for anomaly detection. We demonstrate the benefit of the proposed robust multi-background anomaly detection algorithms on a high-dimensional dataset of particle decays at the Large Hadron Collider.
翻訳日:2024-01-18 18:17:15 公開日:2024-01-16
# EgoGen: エゴセントリックな合成データジェネレータ

EgoGen: An Egocentric Synthetic Data Generator ( http://arxiv.org/abs/2401.08739v1 )

ライセンス: Link先を確認
Gen Li, Kaifeng Zhao, Siwei Zhang, Xiaozhong Lyu, Mihai Dusmanu, Yan Zhang, Marc Pollefeys, Siyu Tang(参考訳) 一人称視点で世界を理解することは拡張現実(AR)の基本である。 この没入的な視点は、第三者の視点と比べて劇的な視覚的変化と独特な挑戦をもたらす。 合成データは、第三者の視覚モデルに力を与えてきたが、エゴセントリックな知覚タスクを具現化するためのその応用は、まだほとんど探索されていない。 重要な課題は、自然の人間の動きや行動をシミュレートすることで、3D世界の忠実な自我中心の表現を効果的に捉えている。 この課題に対処するために,エゴセントリックな知覚タスクのための高精度でリッチな地中トレーニングデータを生成する,新しい合成データジェネレータegogenを紹介する。 egogenの心臓部は、仮想人間のエゴセントリックな視覚入力を直接活用して3d環境を感知する、新しい人間の運動合成モデルである。 衝突回避運動プリミティブと2段階強化学習アプローチを組み合わせることで,仮想人間の体感と動きをシームレスに結合した閉ループ解が得られる。 これまでの作業と比較して,このモデルは事前定義されたグローバルパスの必要性をなくし,動的環境に直接適用できる。 使い易くスケーラブルなデータ生成パイプラインと組み合わせることで,頭部カメラのマッピングとローカライズ,エゴセントリックカメラトラッキング,エゴセントリックビューからのヒューマンメッシュリカバリという3つのタスクでegogenの有効性を実証する。 EgoGenは完全にオープンソース化され、現実的なエゴセントリックなトレーニングデータを作成するための実用的なソリューションを提供し、エゴセントリックなコンピュータビジョン研究に有用なツールになることを目指している。 プロジェクトページ(https://ego-gen.github.io/)を参照。

Understanding the world in first-person view is fundamental in Augmented Reality (AR). This immersive perspective brings dramatic visual changes and unique challenges compared to third-person views. Synthetic data has empowered third-person-view vision models, but its application to embodied egocentric perception tasks remains largely unexplored. A critical challenge lies in simulating natural human movements and behaviors that effectively steer the embodied cameras to capture a faithful egocentric representation of the 3D world. To address this challenge, we introduce EgoGen, a new synthetic data generator that can produce accurate and rich ground-truth training data for egocentric perception tasks. At the heart of EgoGen is a novel human motion synthesis model that directly leverages egocentric visual inputs of a virtual human to sense the 3D environment. Combined with collision-avoiding motion primitives and a two-stage reinforcement learning approach, our motion synthesis model offers a closed-loop solution where the embodied perception and movement of the virtual human are seamlessly coupled. Compared to previous works, our model eliminates the need for a pre-defined global path, and is directly applicable to dynamic environments. Combined with our easy-to-use and scalable data generation pipeline, we demonstrate EgoGen's efficacy in three tasks: mapping and localization for head-mounted cameras, egocentric camera tracking, and human mesh recovery from egocentric views. EgoGen will be fully open-sourced, offering a practical solution for creating realistic egocentric training data and aiming to serve as a useful tool for egocentric computer vision research. Refer to our project page: https://ego-gen.github.io/.
翻訳日:2024-01-18 18:17:02 公開日:2024-01-16
# 機械学習による非ヒト霊長類におけるエボラウイルスの遺伝子発現への影響の解析

Machine Learning-Based Analysis of Ebola Virus' Impact on Gene Expression in Nonhuman Primates ( http://arxiv.org/abs/2401.08738v1 )

ライセンス: Link先を確認
Mostafa Rezapour, Muhammad Khalid Khan Niazi, Hao Lu, Aarthi Narayanan, Metin Nafi Gurcan(参考訳) 本研究では,エボラウイルス (EBOV) に感染した非ヒト霊長類 (NHP) から得られた遺伝子発現データを解析するための機械学習手法である Supervised Magnitude-Altitude Scoring (SMAS) 手法を提案する。 我々は,エボラ感染NHPのNanoString遺伝子発現プロファイルの包括的データセットを用いて,宿主-病原体相互作用解析のためのSMASシステムをデプロイした。 SMASは、RT-qPCR陽性と負のNHPサンプルを正確に区別するために、ロジスティック回帰のような線形分類器を用いて、統計的意義と発現変化に基づく遺伝子選択を効果的に組み合わせている。 我々の研究の重要な発見は、重要なバイオマーカーとしてifi6とifi27を同定することであり、エボラ出血熱感染症の様々な段階の分類において、100%精度で異常な予測性能を示す。 IFI6とIFI27の他に、MX1、OAS1、ISG15を含む遺伝子は大幅に制御され、EBOVに対する免疫反応において重要な役割を担った。 EBOV感染時の複雑な遺伝子相互作用と応答機構を明らかにするためのSMAS法の有効性について検討した。 本研究は、EBOVの病原性に関する貴重な知見と、より正確な診断ツールの開発、特にウイルス感染に対処するための治療戦略の開発を支援する。

This study introduces the Supervised Magnitude-Altitude Scoring (SMAS) methodology, a machine learning-based approach, for analyzing gene expression data obtained from nonhuman primates (NHPs) infected with Ebola virus (EBOV). We utilize a comprehensive dataset of NanoString gene expression profiles from Ebola-infected NHPs, deploying the SMAS system for nuanced host-pathogen interaction analysis. SMAS effectively combines gene selection based on statistical significance and expression changes, employing linear classifiers such as logistic regression to accurately differentiate between RT-qPCR positive and negative NHP samples. A key finding of our research is the identification of IFI6 and IFI27 as critical biomarkers, demonstrating exceptional predictive performance with 100% accuracy and Area Under the Curve (AUC) metrics in classifying various stages of Ebola infection. Alongside IFI6 and IFI27, genes, including MX1, OAS1, and ISG15, were significantly upregulated, highlighting their essential roles in the immune response to EBOV. Our results underscore the efficacy of the SMAS method in revealing complex genetic interactions and response mechanisms during EBOV infection. This research provides valuable insights into EBOV pathogenesis and aids in developing more precise diagnostic tools and therapeutic strategies to address EBOV infection in particular and viral infection in general.
翻訳日:2024-01-18 18:16:29 公開日:2024-01-16
# スケーラブル環境大気汚染濃度推定のための枠組み

A Framework for Scalable Ambient Air Pollution Concentration Estimation ( http://arxiv.org/abs/2401.08735v1 )

ライセンス: Link先を確認
Liam J Berrisford, Lucy S Neal, Helen J Buttery, Benjamin R Evans, Ronaldo Menezes(参考訳) 英国では大気汚染が重要な問題であり、大気汚染濃度のデータが大気質の改善を目的とした介入の基礎となっている。 しかし、現在の英国における大気汚染監視局のネットワークは、空間的空間性、不均一な配置、そしてしばしば停電などの問題により、時間的データギャップが特徴的である。 本稿では,時間的および空間的なデータギャップに対処するために,データ駆動型教師付き機械学習モデルフレームワークを提案する。 このアプローチは、2018年を通して1kmx1kmの時間分解能でイングランドに包括的なデータセットを提供する。 分散した監視ステーションからの機械学習技術と実世界のデータを活用することで、研究エリア全体で355,827の総合監視ステーションを生成し、約700億ポンドの価値があるデータを得る。 モデルの性能を予測し, 行方不明地点を推定し, ピーク濃度を推定するための検証を行った。 得られたデータセットは、NO2, O3, PM10, PM2.5, SO2の大気汚染濃度データによって支持される下流アセスメントに関わる様々な利害関係者に特に関心がある。 このリソースにより、利害関係者は以前よりも高い解像度で研究を行うことができる。

Ambient air pollution remains a critical issue in the United Kingdom, where data on air pollution concentrations form the foundation for interventions aimed at improving air quality. However, the current air pollution monitoring station network in the UK is characterized by spatial sparsity, heterogeneous placement, and frequent temporal data gaps, often due to issues such as power outages. We introduce a scalable data-driven supervised machine learning model framework designed to address temporal and spatial data gaps by filling missing measurements. This approach provides a comprehensive dataset for England throughout 2018 at a 1kmx1km hourly resolution. Leveraging machine learning techniques and real-world data from the sparsely distributed monitoring stations, we generate 355,827 synthetic monitoring stations across the study area, yielding data valued at approximately \pounds70 billion. Validation was conducted to assess the model's performance in forecasting, estimating missing locations, and capturing peak concentrations. The resulting dataset is of particular interest to a diverse range of stakeholders engaged in downstream assessments supported by outdoor air pollution concentration data for NO2, O3, PM10, PM2.5, and SO2. This resource empowers stakeholders to conduct studies at a higher resolution than was previously possible.
翻訳日:2024-01-18 18:16:00 公開日:2024-01-16
# 逆転性向上のためのトリックの袋

Bag of Tricks to Boost Adversarial Transferability ( http://arxiv.org/abs/2401.08734v1 )

ライセンス: Link先を確認
Zeliang Zhang, Rongyi Zhu, Wei Yao, Xiaosen Wang, Chenliang Xu(参考訳) ディープニューラルネットワークは敵の例に弱いことが広く知られている。 しかしながら、ホワイトボックス設定の下で生成されたバニラ逆数例は、しばしば異なるモデル間で低い転送可能性を示す。 逆転移性は実用上より深刻な脅威となるため、勾配ベース、入力変換ベース、モデル関連攻撃など、様々なアプローチが提案されている。 この研究で、既存の敵対的攻撃のいくつかの小さな変更は、攻撃性能、例えば、イテレーション数とステップサイズに大きな影響を与えることが分かりました。 既存の敵攻撃の注意深い研究に基づいて,モーメント初期化,スケジュールされたステップサイズ,デュアルサンプル,スペクトルベースの入力変換,いくつかのアンサンブル戦略など,敵の移動性を高めるための技の袋を提案する。 ImageNetデータセットの大規模な実験により,提案手法の有効性を検証し,それらを組み合わせることで,対向移動性をさらに向上させることができることを示す。 本研究は,実世界のアプリケーションにおける攻撃性能を改善するためのガイダンスを提供するとともに,実世界の移動性を高めるための実践的洞察と手法を提供する。

Deep neural networks are widely known to be vulnerable to adversarial examples. However, vanilla adversarial examples generated under the white-box setting often exhibit low transferability across different models. Since adversarial transferability poses more severe threats to practical applications, various approaches have been proposed for better transferability, including gradient-based, input transformation-based, and model-related attacks, \etc. In this work, we find that several tiny changes in the existing adversarial attacks can significantly affect the attack performance, \eg, the number of iterations and step size. Based on careful studies of existing adversarial attacks, we propose a bag of tricks to enhance adversarial transferability, including momentum initialization, scheduled step size, dual example, spectral-based input transformation, and several ensemble strategies. Extensive experiments on the ImageNet dataset validate the high effectiveness of our proposed tricks and show that combining them can further boost adversarial transferability. Our work provides practical insights and techniques to enhance adversarial transferability, and offers guidance to improve the attack performance on the real-world application through simple adjustments.
翻訳日:2024-01-18 18:15:40 公開日:2024-01-16
# 条件付き相互情報に基づく知識蒸留のためのベイズ条件分布推定

Bayes Conditional Distribution Estimation for Knowledge Distillation Based on Conditional Mutual Information ( http://arxiv.org/abs/2401.08732v1 )

ライセンス: Link先を確認
Linfeng Ye, Shayan Mohajer Hamidi, Renhao Tan, En-Hui Yang(参考訳) 知識蒸留 (kd) において, 教師の役割は, 学生の学習過程において使用する未知のベイズ条件確率分布 (bcpd) の推定を提供することであると考えられている。 従来は,最大log-likelihood (mll) 法を用いて教師の訓練を行った。 本稿では,この推定値を改善するために,条件付き相互情報(CMI)の概念をBCPDの推定に導入し,MCMI法と呼ばれる新しい推定手法を提案する。 特に、mcmi推定では、教師のログ様相とcmiの両方が、教師の訓練時に同時に最大化される。 Eigen-CAMを通じて、教師のCMI値の最大化により、教師はイメージクラスタ内でより多くのコンテキスト情報をキャプチャできることを示す。 総合的な実験を行ない,MCMI推定で訓練した教師を,様々な最先端KDフレームワークでMLL推定で訓練した教師ではなく,MCMI推定で訓練した教師を採用することにより,生徒の分類精度は最大3.32倍に向上することを示した。 このことから,MCMI法による教師のBCPD推定はMLL法よりも精度が高いことが示唆された。 さらに,ゼロショット設定や少数ショット設定では,学生の精度が向上することが示唆された。 特筆すべきは、トレーニングサンプルの5\%が学生に提供されると、最大5.72\%のゲインで生徒の精度が向上し(few-shot)、省略されたクラス(zero-shot)では0\%から84\%まで増加することである。 コードは \url{https://github.com/iclr2024mcmi/iclrmcmi} で入手できる。

It is believed that in knowledge distillation (KD), the role of the teacher is to provide an estimate for the unknown Bayes conditional probability distribution (BCPD) to be used in the student training process. Conventionally, this estimate is obtained by training the teacher using maximum log-likelihood (MLL) method. To improve this estimate for KD, in this paper we introduce the concept of conditional mutual information (CMI) into the estimation of BCPD and propose a novel estimator called the maximum CMI (MCMI) method. Specifically, in MCMI estimation, both the log-likelihood and CMI of the teacher are simultaneously maximized when the teacher is trained. Through Eigen-CAM, it is further shown that maximizing the teacher's CMI value allows the teacher to capture more contextual information in an image cluster. Via conducting a thorough set of experiments, we show that by employing a teacher trained via MCMI estimation rather than one trained via MLL estimation in various state-of-the-art KD frameworks, the student's classification accuracy consistently increases, with the gain of up to 3.32\%. This suggests that the teacher's BCPD estimate provided by MCMI method is more accurate than that provided by MLL method. In addition, we show that such improvements in the student's accuracy are more drastic in zero-shot and few-shot settings. Notably, the student's accuracy increases with the gain of up to 5.72\% when 5\% of the training samples are available to the student (few-shot), and increases from 0\% to as high as 84\% for an omitted class (zero-shot). The code is available at \url{https://github.com/iclr2024mcmi/ICLRMCMI}.
翻訳日:2024-01-18 18:15:20 公開日:2024-01-16
# AgentMixer: マルチエージェント関連政策因子化

AgentMixer: Multi-Agent Correlated Policy Factorization ( http://arxiv.org/abs/2401.08728v1 )

ライセンス: Link先を確認
Zhiyuan Li, Wenshuai Zhao, Lijun Wu, Joni Pajarinen(参考訳) 集中型集中訓練(CTDE)は、トレーニング中に集中値関数を利用することで、部分的に観察可能なマルチエージェント強化学習(MARL)を安定化するために広く用いられている。 しかし、既存の手法では、エージェントはローカルな観察に基づいて独立に意思決定を行うと仮定しており、十分な調整を伴う相関した共同政策に繋がることはない。 相関均衡の概念に触発されて、エージェントがポリシーを関連付けるメカニズムを提供するための \textit{strategy modified} を導入することを提案する。 具体的には,個々の部分観測可能なポリシの非線形結合として完全観測可能ポリシを構成する新しいフレームワークであるAgentMixerを提案する。 分散実行を可能にするために、共同ポリシーを模倣して個別のポリシーを導出することができる。 残念ながら、このような模倣学習は、共同政策と個別の政策情報とのミスマッチに起因する「textit{asymmetric learning failure」につながる可能性がある。 この問題を軽減するため,我々は統合政策と個別政策を共同で訓練し,中央集権政策と分散政策のモード一貫性を保証するための \textit{individual-global-consistency} を導入する。 次に、AgentMixerが$\epsilon$-approximate Correlated Equilibriumに収束することを理論的に証明する。 3つのmarlベンチマークにおける強力な実験性能は,本手法の有効性を示している。

Centralized training with decentralized execution (CTDE) is widely employed to stabilize partially observable multi-agent reinforcement learning (MARL) by utilizing a centralized value function during training. However, existing methods typically assume that agents make decisions based on their local observations independently, which may not lead to a correlated joint policy with sufficient coordination. Inspired by the concept of correlated equilibrium, we propose to introduce a \textit{strategy modification} to provide a mechanism for agents to correlate their policies. Specifically, we present a novel framework, AgentMixer, which constructs the joint fully observable policy as a non-linear combination of individual partially observable policies. To enable decentralized execution, one can derive individual policies by imitating the joint policy. Unfortunately, such imitation learning can lead to \textit{asymmetric learning failure} caused by the mismatch between joint policy and individual policy information. To mitigate this issue, we jointly train the joint policy and individual policies and introduce \textit{Individual-Global-Consistency} to guarantee mode consistency between the centralized and decentralized policies. We then theoretically prove that AgentMixer converges to an $\epsilon$-approximate Correlated Equilibrium. The strong experimental performance on three MARL benchmarks demonstrates the effectiveness of our method.
翻訳日:2024-01-18 18:14:47 公開日:2024-01-16
# MA2GCN:トラジェクトリデータを用いた交通予測のための複数隣接関係注意グラフ畳み込みネットワーク

MA2GCN: Multi Adjacency relationship Attention Graph Convolutional Networks for Traffic Prediction using Trajectory data ( http://arxiv.org/abs/2401.08727v1 )

ライセンス: Link先を確認
Zhengke Sun, Yuliang Ma(参考訳) 交通渋滞の問題は、大量の経済的損失を引き起こすだけでなく、都市環境を深刻な危険にさらす。 交通渋滞の予測は重要な実践的重要性を持つ。 これまでのところ、ほとんどの研究は、異なる道路に設置されたセンサーによる過去のデータに基づいて、将来の交通の流れと速度を予測し、特定の道路区間の交通渋滞状況を分析する。 しかし,センサの位置が一定であるため,新たな情報をマイニングすることは困難である。 一方、車両軌道データはより柔軟であり、必要に応じて交通情報を抽出することができる。 そこで我々は,新しい交通渋滞予測モデルであるマルチアジャシエンス関係アテンショングラフ畳み込みネットワーク(MA2GCN)を提案する。 このモデルは、車両の軌道データをグリッド形式でグラフ構造化データに変換し、異なるグリッド間の移動性に基づく車両の進入行列を提案した。 同時に,モデルの性能を向上させるため,適応行列生成法と隣接行列アテンションモジュールを新たに構築した。 このモデルは主に、時間情報と空間情報を抽出するために、ゲート時間畳み込みとグラフ畳み込みを用いた。 複数のベースラインと比較すると,上海タクシーのGPSトラジェクトリデータセットで最高の性能を示した。 コードはhttps://github.com/zachysun/taxi traffic benchmarkで入手できる。

The problem of traffic congestion not only causes a large amount of economic losses, but also seriously endangers the urban environment. Predicting traffic congestion has important practical significance. So far, most studies have been based on historical data from sensors placed on different roads to predict future traffic flow and speed, to analyze the traffic congestion conditions of a certain road segment. However, due to the fixed position of sensors, it is difficult to mine new information. On the other hand, vehicle trajectory data is more flexible and can extract traffic information as needed. Therefore, we proposed a new traffic congestion prediction model - Multi Adjacency relationship Attention Graph Convolutional Networks(MA2GCN). This model transformed vehicle trajectory data into graph structured data in grid form, and proposed a vehicle entry and exit matrix based on the mobility between different grids. At the same time, in order to improve the performance of the model, this paper also built a new adaptive adjacency matrix generation method and adjacency matrix attention module. This model mainly used gated temporal convolution and graph convolution to extract temporal and spatial information, respectively. Compared with multiple baselines, our model achieved the best performance on Shanghai taxi GPS trajectory dataset. The code is available at https://github.com/zachysun/Taxi Traffic Benchmark.
翻訳日:2024-01-18 18:14:25 公開日:2024-01-16
# 標的攻撃による安定拡散の脆弱性を明らかにする

Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks ( http://arxiv.org/abs/2401.08725v1 )

ライセンス: Link先を確認
Chenyu Zhang, Lanjun Wang, Anan Liu(参考訳) 近年のテキストから画像へのモデル、特に安定拡散の発展は、様々な応用において大きな成果をもたらしている。 これらの進歩により、悪意あるエンティティが標的となる有害な画像を生成するために悪用するモデルの脆弱性に対する安全上の懸念が高まっている。 しかし,モデルの既存手法では,プロンプト画像と生成画像のアライメントを主に評価しているが,対象画像生成に関連する脆弱性を明らかにすることは困難である。 本研究では,安定拡散に対する敵意攻撃の問題を定式化し,敵意プロンプトを生成する枠組みを提案する。 具体的には,特定の画像を生成するために,安定拡散を導く信頼できる逆プロンプトを作成するために,勾配に基づく埋め込み最適化手法を設計する。 さらに,攻撃的プロンプトを成功させた後,モデルの脆弱性を引き起こすメカニズムを明らかにする。 2つの攻撃課題に対する広範囲な実験により,本手法の有効性が示された。 コードはhttps://github.com/datar001/Revealing-Vulnerabilities-in-Stable-Diffusion-via-Targeted-Attacksで取得できる。

Recent developments in text-to-image models, particularly Stable Diffusion, have marked significant achievements in various applications. With these advancements, there are growing safety concerns about the vulnerability of the model that malicious entities exploit to generate targeted harmful images. However, the existing methods in the vulnerability of the model mainly evaluate the alignment between the prompt and generated images, but fall short in revealing the vulnerability associated with targeted image generation. In this study, we formulate the problem of targeted adversarial attack on Stable Diffusion and propose a framework to generate adversarial prompts. Specifically, we design a gradient-based embedding optimization method to craft reliable adversarial prompts that guide stable diffusion to generate specific images. Furthermore, after obtaining successful adversarial prompts, we reveal the mechanisms that cause the vulnerability of the model. Extensive experiments on two targeted attack tasks demonstrate the effectiveness of our method in targeted attacks. The code can be obtained in https://github.com/datar001/Revealing-Vulnerabilities-in-Stable-Diffusion-via-Targeted-Attacks.
翻訳日:2024-01-18 18:14:04 公開日:2024-01-16
# hiersfl: モバイルエッジコンピューティングにおける、ローカルディファレンシャルプライバシによる分割フェデレーション学習

HierSFL: Local Differential Privacy-aided Split Federated Learning in Mobile Edge Computing ( http://arxiv.org/abs/2401.08723v1 )

ライセンス: Link先を確認
Minh K. Quan, Dinh C. Nguyen, Van-Dinh Nguyen, Mayuri Wijayasundara, Sujeeva Setunge, Pubudu N. Pathirana(参考訳) フェデレーション学習は、データのプライバシを維持しながら、ユーザデータから学ぶための有望なアプローチである。 しかし、モデルトレーニングプロセスの高要求により、限られたメモリや帯域幅を持つクライアントが参加することが困難になる。 この問題に対処するために、クライアントが中間モデルトレーニング結果をクラウドサーバにアップロードして、協調的なサーバクライアントモデルトレーニングを行う、分割フェデレーション学習が使用される。 この手法は、モデルトレーニングへのリソース制約のあるクライアントの参加を促進すると同時に、トレーニング時間と通信オーバーヘッドを増加させる。 これらの制約を克服するために,エッジとクラウドのフェーズでモデルを融合し,最適な集約時間枠を決定する定性的ディレクティブを示し,計算コストと通信コストを削減する階層的分割フェデレーション学習(hiersfl)という新しいアルゴリズムを提案する。 クライアントおよびエッジサーバレベルでローカルディファレンシャルプライバシを実装することにより、ローカルモデルパラメータ更新時のプライバシを高める。 CIFAR-10とMNISTデータセットを用いた実験により、HierSFLは訓練精度、訓練時間、通信計算トレードオフを向上し、標準FLアプローチより優れていることが示された。 hiersflはモバイルエッジコンピューティングの課題に対して有望なソリューションを提供し、最終的にはコンテンツ配信の高速化とモバイルサービスの品質向上につながる。

Federated Learning is a promising approach for learning from user data while preserving data privacy. However, the high requirements of the model training process make it difficult for clients with limited memory or bandwidth to participate. To tackle this problem, Split Federated Learning is utilized, where clients upload their intermediate model training outcomes to a cloud server for collaborative server-client model training. This methodology facilitates resource-constrained clients' participation in model training but also increases the training time and communication overhead. To overcome these limitations, we propose a novel algorithm, called Hierarchical Split Federated Learning (HierSFL), that amalgamates models at the edge and cloud phases, presenting qualitative directives for determining the best aggregation timeframes to reduce computation and communication expenses. By implementing local differential privacy at the client and edge server levels, we enhance privacy during local model parameter updates. Our experiments using CIFAR-10 and MNIST datasets show that HierSFL outperforms standard FL approaches with better training accuracy, training time, and communication-computing trade-offs. HierSFL offers a promising solution to mobile edge computing's challenges, ultimately leading to faster content delivery and improved mobile service quality.
翻訳日:2024-01-18 18:13:46 公開日:2024-01-16
# 治療選択・評価・遠隔管理のためのテレリハビリテーションシステム

A Telerehabilitation System for the Selection, Evaluation and Remote Management of Therapies ( http://arxiv.org/abs/2401.08721v1 )

ライセンス: Link先を確認
David Anton, Idoia Berges, Jes\'us Berm\'udez, Alfredo Go\~ni, Arantza Illarramendi(参考訳) 理学療法セッションをどこでもサポートするテレリハビリテーションシステムは、医療費の削減とリハビリテーションを必要とするユーザーの生活の質の向上に役立つ。 本論文の主な貢献は、Kinectベースの遠隔リハビリテーションシステム(KiReS)がサポートするすべての機能を示すことである。 現在のシステムが提供する機能に加えて、新しい世代の遠隔リハビリテーションシステムへの一歩を踏み出すために、それらに組み込まれる可能性のある2つの新しいシステムを扱う。 知識抽出機能は、患者の理学療法記録と、TRHONTと呼ばれるオントロジーで記述された治療プロトコルに関する知識を処理し、患者のリハビリテーションに適切なエクササイズを選択する。 遠隔操作機能は、双方向のリアルタイムマルチメディア通信を通じてテレリハビリテーションを行う際に、便利で効果的でユーザフレンドリーなエクスペリエンスを提供する。 オントロジーには約2300のクラスと100のプロパティが含まれており、kinectのビデオ深度、オーディオ、スケルトンデータの信頼できる送信が可能で、様々なネットワーク条件に適応することができる。 さらに,肩関節障害や人工股関節置換術を施行した患者を対象に,本システムについて検討した。

Telerehabilitation systems that support physical therapy sessions anywhere can help save healthcare costs while also improving the quality of life of the users that need rehabilitation. The main contribution of this paper is to present, as a whole, all the features supported by the innovative Kinect-based Telerehabilitation System (KiReS). In addition to the functionalities provided by current systems, it handles two new ones that could be incorporated into them, in order to give a step forward towards a new generation of telerehabilitation systems. The knowledge extraction functionality handles knowledge about the physical therapy record of patients and treatment protocols described in an ontology, named TRHONT, to select the adequate exercises for the rehabilitation of patients. The teleimmersion functionality provides a convenient, effective and user-friendly experience when performing the telerehabilitation, through a two-way real-time multimedia communication. The ontology contains about 2300 classes and 100 properties, and the system allows a reliable transmission of Kinect video depth, audio and skeleton data, being able to adapt to various network conditions. Moreover, the system has been tested with patients who suffered from shoulder disorders or total hip replacement.
翻訳日:2024-01-18 18:13:20 公開日:2024-01-16
# 3次元リーフインスタンスセグメンテーションのための教師なし事前訓練

Unsupervised Pre-Training for 3D Leaf Instance Segmentation ( http://arxiv.org/abs/2401.08720v1 )

ライセンス: Link先を確認
Gianmarco Roggiolani, Federico Magistri, Tiziano Guadagnino, Jens Behley, Cyrill Stachniss(参考訳) 食料、食物、繊維、燃料の作物は、我々の社会にとって重要な天然資源である。 植物をモニタリングし、その特性を測定することは、しばしば植物表現型と呼ばれる農業において重要な課題である。 伝統的に、このタスクは手動で行われ、時間と労力がかかる。 ロボットは再現性および高周波の測定を提供する表現型自動化が可能である。 今日の知覚システムは、ディープラーニングを使ってこれらの測定を解釈するが、十分な量の注釈付きデータを必要とする。 このようなラベルを取得することは、しばしばラベルの側でバックグラウンド知識を必要とするため、難しい。 本稿では,3次元点群におけるリーフ・インスタンス・セグメンテーションの実施に必要なラベル付け作業の削減という課題に対処する。 すべての葉を分けることで、それらを数え、関連する特徴を面積、長さ、幅として計算できます。 リーフインスタンスセグメンテーションのためのネットワークのバックボーンを初期化する,新しい自己教師付きタスク固有の事前学習手法を提案する。 また,各葉のペチオールが重なり合う茎近傍の点を正確に区分けすることの困難さを考慮した,新しい自動後処理を導入する。 本稿では,本手法がすべてのシナリオに対して性能を向上させることを示唆する。 また、完全に教師なしのアプローチの品質を評価するために埋め込みを評価し、ドメイン固有のポストプロセッシングのより高いパフォーマンスを確認します。

Crops for food, feed, fiber, and fuel are key natural resources for our society. Monitoring plants and measuring their traits is an important task in agriculture often referred to as plant phenotyping. Traditionally, this task is done manually, which is time- and labor-intensive. Robots can automate phenotyping providing reproducible and high-frequency measurements. Today's perception systems use deep learning to interpret these measurements, but require a substantial amount of annotated data to work well. Obtaining such labels is challenging as it often requires background knowledge on the side of the labelers. This paper addresses the problem of reducing the labeling effort required to perform leaf instance segmentation on 3D point clouds, which is a first step toward phenotyping in 3D. Separating all leaves allows us to count them and compute relevant traits as their areas, lengths, and widths. We propose a novel self-supervised task-specific pre-training approach to initialize the backbone of a network for leaf instance segmentation. We also introduce a novel automatic postprocessing that considers the difficulty of correctly segmenting the points close to the stem, where all the leaves petiole overlap. The experiments presented in this paper suggest that our approach boosts the performance over all the investigated scenarios. We also evaluate the embeddings to assess the quality of the fully unsupervised approach and see a higher performance of our domain-specific postprocessing.
翻訳日:2024-01-18 18:12:58 公開日:2024-01-16
# CodeComplex: バイリンガルソースコードのための時間複雑データセット

CodeComplex: A Time-Complexity Dataset for Bilingual Source Codes ( http://arxiv.org/abs/2401.08719v1 )

ライセンス: Link先を確認
Seung-Yeop Baik, Mingi Jeon, Joonghyuk Hahn, Jungin Kim, Yo-Sub Han, Sang-Ki Ko(参考訳) コードの最悪の場合の複雑さを分析することは、ソフトウェアシステムの効率、信頼性、堅牢性を確保するために、コンピュータサイエンスとソフトウェアエンジニアリングにおいて重要なタスクである。 しかし、汎用プログラミング言語で書かれた与えられたコードの最悪の時間複雑性を決定する問題は、アラン・チューリングが証明した有名なハルティング問題によって理論的には決定できないことが知られている。 したがって、プログラムのインプットとアウトプットが存在するより現実的なシナリオに移行します。 これにより、与えられたコードの正確性が分かりやすくなり、時間の複雑さを徹底的に分析することが難しくなります。 この課題に対応するために、私たちは、各コードが手動でアノテートされる新しいソースコードデータセットであるCodeComplexを紹介します。 CodeComplexは4,900のJavaコードと同等数のPythonコードで構成されている。 私たちの知る限りでは、CodeComplexは複雑さを予測するための最も広範なコードデータセットである。 その後、CodeBERT、GraphCodeBERT、UniXcoder、PLBART、CodeT5、CodeT5+、ChatGPTといったコード理解における最先端のニューラルモデルを利用して、さまざまなベースラインモデルを用いた実験結果を示す。 我々は、データセットがモデルの学習にどのように影響するかを分析し、時間の複雑さを予測する。

Analyzing the worst-case time complexity of a code is a crucial task in computer science and software engineering for ensuring the efficiency, reliability, and robustness of software systems. However, it is well-known that the problem of determining the worst-case time complexity of a given code written in general-purpose programming language is theoretically undecidable by the famous Halting problem proven by Alan Turing. Thus, we move towards more realistic scenarios where the inputs and outputs of a program exist. This allows us to discern the correctness of given codes, challenging to analyze their time complexity exhaustively. In response to this challenge, we introduce CodeComplex, a novel source code dataset where each code is manually annotated with a corresponding worst-case time complexity. CodeComplex comprises 4,900 Java codes and an equivalent number of Python codes, all sourced from programming competitions and annotated with complexity labels by a panel of algorithmic experts. To the best of our knowledge, CodeComplex stands as the most extensive code dataset tailored for predicting complexity. Subsequently, we present the outcomes of our experiments employing various baseline models, leveraging state-of-the-art neural models in code comprehension like CodeBERT, GraphCodeBERT, UniXcoder, PLBART, CodeT5, CodeT5+, and ChatGPT. We analyze how the dataset impacts the model's learning in predicting time complexity.
翻訳日:2024-01-18 18:12:35 公開日:2024-01-16
# 期待予約(xb)モデルを用いたサッカーのファウリング効率の検討

Investigating Fouling Efficiency in Football Using Expected Booking (xB) Model ( http://arxiv.org/abs/2401.08718v1 )

ライセンス: Link先を確認
Adnan Azmat, Su Su Yi(参考訳) 本稿では,サッカーでイエローカードが発生するファウルの確率を推定するための新しい指標であるexpected booking (xb) modelを紹介する。 このモデルは,アンサンブル手法を用いた3つの反復実験を通じて,追加機能と拡張データセットによるパフォーマンス向上を実証する。 FIFAワールドカップ2022データの分析は、チームとプレーヤーのファウリング戦術に関する洞察を提供する上で、実際の防御性能と一致したモデルの有効性を検証する。 xBモデルは、しばしば見過ごされる防衛戦略を強調する、ファウリング効率試験のギャップに対処する。 包括的データと空間的特徴を取り入れることでさらなる拡張を提案する。

This paper introduces the Expected Booking (xB) model, a novel metric designed to estimate the likelihood of a foul resulting in a yellow card in football. Through three iterative experiments, employing ensemble methods, the model demonstrates improved performance with additional features and an expanded dataset. Analysis of FIFA World Cup 2022 data validates the model's efficacy in providing insights into team and player fouling tactics, aligning with actual defensive performance. The xB model addresses a gap in fouling efficiency examination, emphasizing defensive strategies which often overlooked. Further enhancements are suggested through the incorporation of comprehensive data and spatial features.
翻訳日:2024-01-18 18:12:11 公開日:2024-01-16
# 金属添加物製造におけるトランスファーラーニングのためのソースデータのサブセットの選択

Selecting Subsets of Source Data for Transfer Learning with Applications in Metal Additive Manufacturing ( http://arxiv.org/abs/2401.08715v1 )

ライセンス: Link先を確認
Yifan Tang, M. Rahmani Dehaghani, Pouyan Sajadi, G. Gary Wang(参考訳) 金属添加物製造(AM)におけるデータ不足を考慮すると、転写学習(TL)は、ソースドメイン(例えば、完成した印刷物)から知識を抽出し、ターゲットドメイン(例えば、新しい印刷物)のモデリング性能を改善する。 現在のアプリケーションは、ソースデータとターゲットデータとの類似性に関係なく、TLで直接アクセス可能なすべてのソースデータを使用する。 本稿では,限られた対象領域データの集合に対して,ソースとターゲットデータセットの類似性に基づいて,ソースデータの適切なサブセットを見つけるための体系的手法を提案する。 このような類似性は、空間的およびモデル的距離メトリクスによって特徴づけられる。 2つの類似度距離メトリクスで定義されるパレートフロンティアに位置するソースデータを反復的に選択するパレートフロンティアベースのソースデータ選択方法を開発した。 この方法は、インスタンスベースtl法(decision tree regression model)とモデルベースtl法(fine-tuned artificial neural network)に統合される。 どちらのモデルも金属AMのいくつかの回帰タスクでテストされる。 比較結果は 1) ソースデータ選択法は汎用的であり,様々なTLメソッドや距離メトリクスとの統合をサポートする。 2) すべてのソースデータと比較すると, 異なるプロセスやマシンを含む金属AM回帰タスクにおいて, TL性能が向上した同一領域からのソースデータの小さなサブセットを見つけることができる。 3)複数のソースドメインが存在する場合、ソースデータ選択手法は、ソースドメインからサブセットを見つけ出し、すべてのソースドメインのデータを使用して構築されたモデルよりも同等または優れたTL性能を得る。

Considering data insufficiency in metal additive manufacturing (AM), transfer learning (TL) has been adopted to extract knowledge from source domains (e.g., completed printings) to improve the modeling performance in target domains (e.g., new printings). Current applications use all accessible source data directly in TL with no regard to the similarity between source and target data. This paper proposes a systematic method to find appropriate subsets of source data based on similarities between the source and target datasets for a given set of limited target domain data. Such similarity is characterized by the spatial and model distance metrics. A Pareto frontier-based source data selection method is developed, where the source data located on the Pareto frontier defined by two similarity distance metrics are selected iteratively. The method is integrated into an instance-based TL method (decision tree regression model) and a model-based TL method (fine-tuned artificial neural network). Both models are then tested on several regression tasks in metal AM. Comparison results demonstrate that 1) the source data selection method is general and supports integration with various TL methods and distance metrics, 2) compared with using all source data, the proposed method can find a small subset of source data from the same domain with better TL performance in metal AM regression tasks involving different processes and machines, and 3) when multiple source domains exist, the source data selection method could find the subset from one source domain to obtain comparable or better TL performance than the model constructed using data from all source domains.
翻訳日:2024-01-18 18:11:53 公開日:2024-01-16
# 一般化のための学習ダイナミクスからのサンプル関係

Sample Relationship from Learning Dynamics Matters for Generalisation ( http://arxiv.org/abs/2401.08808v1 )

ライセンス: Link先を確認
Shangmin Guo, Yi Ren, Stefano V.Albrecht, Kenny Smith(参考訳) ニューラルネットワーク(anns)の一般化を改善するために、新しいモデルや損失関数を提案する研究が数多く行われているが、トレーニングデータの一般化への影響にはあまり注目されていない。 この研究では、サンプル間の相互作用、すなわち、あるサンプルの学習が、他のサンプルに対するモデルの予測をどう修正するかを近似することから始めます。 教師付き学習における重み付け更新に関連する用語の分析を通じて,ラベルがサンプル間の相互作用に影響を与えることを見出した。 そこで我々は,サンプル間の相互作用を測定する際に,ラベル情報を考慮に入れたラベル付き擬似ニューラルタンジェントカーネル (lpNTK) を提案する。 まず、ある仮定の下でフロベニウスノルムの観点から、lpNTK が漸近的に経験的ニューラルネットワーク核に収束することを証明した。 第2に,lpNTKが過去の研究で特定された学習現象,特にサンプルの学習困難や学習中の出来事を忘れることの理解にどのように役立つかを説明する。 また,lpNTKを用いた中毒トレーニングサンプルの同定と除去は,ANNの一般化性能を損なうものではないことを示した。

Although much research has been done on proposing new models or loss functions to improve the generalisation of artificial neural networks (ANNs), less attention has been directed to the impact of the training data on generalisation. In this work, we start from approximating the interaction between samples, i.e. how learning one sample would modify the model's prediction on other samples. Through analysing the terms involved in weight updates in supervised learning, we find that labels influence the interaction between samples. Therefore, we propose the labelled pseudo Neural Tangent Kernel (lpNTK) which takes label information into consideration when measuring the interactions between samples. We first prove that lpNTK asymptotically converges to the empirical neural tangent kernel in terms of the Frobenius norm under certain assumptions. Secondly, we illustrate how lpNTK helps to understand learning phenomena identified in previous work, specifically the learning difficulty of samples and forgetting events during learning. Moreover, we also show that using lpNTK to identify and remove poisoning training samples does not hurt the generalisation performance of ANNs.
翻訳日:2024-01-18 18:03:59 公開日:2024-01-16
# SpecGen: 大規模言語モデルによる形式プログラム仕様の自動生成

SpecGen: Automated Generation of Formal Program Specifications via Large Language Models ( http://arxiv.org/abs/2401.08807v1 )

ライセンス: Link先を確認
Lezhi Ma, Shangqing Liu, Yi Li, Xiaofei Xie and Lei Bu(参考訳) ソフトウェア開発では、様々な段階で正式なプログラム仕様が重要な役割を果たす。 しかし、正式なプログラム仕様を手作業で作成するのはかなり難しく、仕事の時間と労力がかかる。 さらに、複雑なプログラムのセマンティクスを正しく包括的に記述した仕様を書くこともさらに困難である。 ソフトウェア開発者の負担を軽減するため、自動仕様生成手法が登場した。 しかし、既存のメソッドは通常事前に定義されたテンプレートや文法に依存しており、複雑な現実世界のプログラムの振る舞いや機能を正確に記述するのに苦労している。 この課題に取り組むために,大型言語モデルに基づく形式的プログラム仕様生成のための新しい手法であるspecgenを紹介する。 我々の重要な洞察は、LLMのコード理解能力を活用することで、既存のメソッドの限界を克服することである。 スペックゲンの過程は2つの段階からなる。 第1フェーズでは、LLMが与えられたプログラムの適切な仕様を生成するための対話的なアプローチを採用している。 LLMが正しい仕様を生成できないように設計された第2フェーズでは、モデル生成仕様に4つの突然変異演算子を適用し、異なる変種重みを効率的に割り当てることで、変異した仕様から検証可能な仕様を選択する。 SpecGenの性能を評価するため、120のテストケースを含むデータセットを手動で構築する。 実験結果から,specgenは120プログラム中100プログラムで検証可能な仕様の作成に成功し,既存の純llmベースの手法や従来の仕様生成ツールよりも優れていた。 生成された仕様の品質に関するさらなる調査は、specgenが入力プログラムの動作を包括的に特定できることを示している。

In software development, formal program specifications play a crucial role in various stages. However, manually crafting formal program specifications is rather difficult, making the job time-consuming and labor-intensive. Moreover, it is even more challenging to write specifications that correctly and comprehensively describe the semantics of complex programs. To reduce the burden on software developers, automated specification generation methods have emerged. However, existing methods usually rely on predefined templates or grammar, making them struggle to accurately describe the behavior and functionality of complex real-world programs. To tackle this challenge, we introduce SpecGen, a novel technique for formal program specification generation based on Large Language Models. Our key insight is to overcome the limitations of existing methods by leveraging the code comprehension capability of LLMs. The process of SpecGen consists of two phases. The first phase employs a conversational approach that guides the LLM to generate appropriate specifications for a given program. The second phase, designed for where the LLM fails to generate correct specifications, applies four mutation operators to the model-generated specifications and selects verifiable specifications from the mutated ones through a novel heuristic selection strategy by assigning different weights of variants in an efficient manner. To evaluate the performance of SpecGen, we manually construct a dataset containing 120 test cases. Our experimental results demonstrate that SpecGen succeeds in generating verifiable specifications for 100 out of 120 programs, outperforming the existing purely LLM-based approaches and conventional specification generation tools. Further investigations on the quality of generated specifications indicate that SpecGen can comprehensively articulate the behaviors of the input program.
翻訳日:2024-01-18 18:03:38 公開日:2024-01-16
# 研究データ出版物と研究ソフトウェア出版物の品質指標を目指して --ヘルムホルツ協会の展望-

Towards a Quality Indicator for Research Data publications and Research Software publications -- A vision from the Helmholtz Association ( http://arxiv.org/abs/2401.08804v1 )

ライセンス: Link先を確認
Wolfgang zu Castell, Doris Dransch, Guido Juckeland, Marcel Meistring, Bernadette Fritzsch, Ronny Gey, Britta H\"opfner, Martin K\"ohler, Christian Mee{\ss}en, Hela Mehrtens, Felix M\"uhlbauer, Sirko Schindler, Thomas Schnicke, Roland Bertelmann(参考訳) 研究データとソフトウェアは科学研究の結果として広く受け入れられている。 しかし、テキストベースの出版と比べ、研究データや研究ソフトウェアの品質を評価・評価するプロセスはまだ確立されていない。 本稿ではこのギャップを埋めようとする試みを示す。 ヘルムホルツ協会のワーキンググループopen scienceによって始められたタスクグループhelmholtz quality indicators for data and software publicationsは現在、協会内で使用される研究データと研究ソフトウェア出版物の品質指標を開発している。 この報告は、すべての人がそのような指標に何に貢献するのかというグループのビジョンをまとめている。 提案手法は,fair principles や cobit maturity model といった品質基準の確立された概念に依存している。 新しい目的のために既存のメトリクスを使用するのを避けるために、意図的に技術的な実装の可能性に限らない。 この論文の意図は、すべてのステークホルダー、特に同様のメトリクスに取り組んでいる他のグループ、そしてメトリクスを使用するエンティティとのさらなる議論のための現在の状態を共有することである。

Research data and software are widely accepted as an outcome of scientific work. However, in comparison to text-based publications, there is not yet an established process to assess and evaluate quality of research data and research software publications. This paper presents an attempt to fill this gap. Initiated by the Working Group Open Science of the Helmholtz Association the Task Group Helmholtz Quality Indicators for Data and Software Publications currently develops a quality indicator for research data and research software publications to be used within the Association. This report summarizes the vision of the group of what all contributes to such an indicator. The proposed approach relies on generic well-established concepts for quality criteria, such as the FAIR Principles and the COBIT Maturity Model. It does - on purpose - not limit itself to technical implementation possibilities to avoid using an existing metric for a new purpose. The intention of this paper is to share the current state for further discussion with all stakeholders, particularly with other groups also working on similar metrics but also with entities that use the metrics.
翻訳日:2024-01-18 18:03:10 公開日:2024-01-16
# 差分特徴がアルゴリズム的公正性に及ぼす影響

The Impact of Differential Feature Under-reporting on Algorithmic Fairness ( http://arxiv.org/abs/2401.08788v1 )

ライセンス: Link先を確認
Nil-Jana Akpinar, Zachary C. Lipton, Alexandra Chouldechova(参考訳) 公共部門における予測リスクモデルは、公共サービスに大きく依存するサブポピュレーションに対してより完全な管理データを使用して一般的に開発される。 例えば、米国では、医療利用に関する情報はメディケイドやメディケアが支援する個人のための政府機関で定期的に利用できるが、民間の保険は受けていない。 公共セクターのアルゴリズムに対する批判は、アルゴリズムの意思決定における不一致の要因として、そのような特徴を過度に報告している。 しかし、この形式のデータバイアスは、技術的な観点からは未検討のままである。 先行研究では, 付加的特徴雑音と, 明らかに欠落を示す特徴の公平性の影響について検討してきたが, データの欠落を示す指標(差分的特徴下記法)の設定は研究の注意を欠いている。 本研究では,このようなデータバイアスがアルゴリズム的公正性に与える影響を特徴付けるために,解析的に抽出可能な特徴量のアンダーレポートモデルを提案する。 標準の欠落データメソッドが、この設定のバイアスを軽減できないことを実証し、差分機能アンパレポート用に特別に調整した新しい手法を提案する。 我々の結果は、実世界のデータ設定では、アンダーレポートが典型的に格差を増大させることを示している。 提案手法は不公平さの軽減に成功している。

Predictive risk models in the public sector are commonly developed using administrative data that is more complete for subpopulations that more greatly rely on public services. In the United States, for instance, information on health care utilization is routinely available to government agencies for individuals supported by Medicaid and Medicare, but not for the privately insured. Critiques of public sector algorithms have identified such differential feature under-reporting as a driver of disparities in algorithmic decision-making. Yet this form of data bias remains understudied from a technical viewpoint. While prior work has examined the fairness impacts of additive feature noise and features that are clearly marked as missing, the setting of data missingness absent indicators (i.e. differential feature under-reporting) has been lacking in research attention. In this work, we present an analytically tractable model of differential feature under-reporting which we then use to characterize the impact of this kind of data bias on algorithmic fairness. We demonstrate how standard missing data methods typically fail to mitigate bias in this setting, and propose a new set of methods specifically tailored to differential feature under-reporting. Our results show that, in real world data settings, under-reporting typically leads to increasing disparities. The proposed solution methods show success in mitigating increases in unfairness.
翻訳日:2024-01-18 18:02:49 公開日:2024-01-16
# segment anything モデルは何でもセグメント化できない:永久凍土マッピングにおけるai基盤モデルの一般化可能性の評価

Segment Anything Model Can Not Segment Anything: Assessing AI Foundation Model's Generalizability in Permafrost Mapping ( http://arxiv.org/abs/2401.08787v1 )

ライセンス: Link先を確認
Wenwen Li, Chia-Yu Hsu, Sizhe Wang, Yezhou Yang, Hyunho Lee, Anna Liljedahl, Chandi Witharana, Yili Yang, Brendan M. Rogers, Samantha T. Arundel, Matthew B. Jones, Kenton McHenry, Patricia Solis(参考訳) 本稿では,ai基盤モデル,特に新しいコンピュータビジョン基盤モデルとその自然景観特徴セグメンテーションにおける性能を評価する。 基礎モデルという用語は地理空間領域から急速に関心を集めてきたが、その定義はあいまいである。 そこで本研究ではまず,AI基盤モデルとその定義特性を紹介する。 大規模言語モデル(llms)が言語タスクの基礎モデルとして達成した膨大な成功を基盤として,地理空間人工知能(geoai)ビジョンタスクの基礎モデル構築の課題について述べる。 大規模AIビジョンモデル,特にMeta's Segment Anything Model(SAM)の性能を評価するために,SAMの変更を最小限に抑え,基盤モデルとしてのそのパワーを活用するために,さまざまなインスタンスセグメンテーションパイプラインを実装した。 予測精度、ゼロショット性能、微調整によるドメイン適応性の理論上の上限に関するsamのパフォーマンスをテストするための一連のプロンプト戦略が開発された。 1) これらの地形特徴は, 複雑な形成機構, 多様な形態, 曖昧な境界により, 人工的特徴よりも分断が困難であること, (2) 北極温暖化, 気候変動の指標として, それらの存在と変化が重要であること, について解析を行った。 結果は、SAMには将来性はあるものの、AIの拡張された地形マッピングをサポートするための改善の余地があることを示している。 この発見の空間的および領域的一般化性は、農業分野マッピングのためのより一般的なデータセットであるEuroCropを用いてさらに検証される。 最後に,地空間領域の挑戦におけるSAMの適用性を高める研究の方向性について論じる。

This paper assesses trending AI foundation models, especially emerging computer vision foundation models and their performance in natural landscape feature segmentation. While the term foundation model has quickly garnered interest from the geospatial domain, its definition remains vague. Hence, this paper will first introduce AI foundation models and their defining characteristics. Built upon the tremendous success achieved by Large Language Models (LLMs) as the foundation models for language tasks, this paper discusses the challenges of building foundation models for geospatial artificial intelligence (GeoAI) vision tasks. To evaluate the performance of large AI vision models, especially Meta's Segment Anything Model (SAM), we implemented different instance segmentation pipelines that minimize the changes to SAM to leverage its power as a foundation model. A series of prompt strategies was developed to test SAM's performance regarding its theoretical upper bound of predictive accuracy, zero-shot performance, and domain adaptability through fine-tuning. The analysis used two permafrost feature datasets, ice-wedge polygons and retrogressive thaw slumps because (1) these landform features are more challenging to segment than manmade features due to their complicated formation mechanisms, diverse forms, and vague boundaries; (2) their presence and changes are important indicators for Arctic warming and climate change. The results show that although promising, SAM still has room for improvement to support AI-augmented terrain mapping. The spatial and domain generalizability of this finding is further validated using a more general dataset EuroCrop for agricultural field mapping. Finally, we discuss future research directions that strengthen SAM's applicability in challenging geospatial domains.
翻訳日:2024-01-18 18:02:26 公開日:2024-01-16
# HuixiangDou: LLMベースの技術支援によるグループチャットシナリオの克服

HuixiangDou: Overcoming Group Chat Scenarios with LLM-based Technical Assistance ( http://arxiv.org/abs/2401.08772v1 )

ライセンス: Link先を確認
Huanjun Kong, Songyang Zhang, Kai Chen(参考訳) 本稿では,Large Language Models (LLM) を利用した技術アシスタントであるHixiangDouを紹介する。 このシステムは,コンピュータビジョンやOpenMMLabのディープラーニングプロジェクトといった,オープンソースのアルゴリズムプロジェクトに関連する質問に対する洞察に富んだ回答を提供することによって,アルゴリズム開発者の支援を目的としている。 WeChatやLarkといったインスタントメッセージング(IM)ツールのグループチャットへのこのアシスタントの統合についても検討する。 反復的な改善と試行を通じて,メッセージの洪水を生じさせることなく,ユーザの技術的質問に効果的に答えることのできる高度な技術チャットアシスタントを開発した。 本論文の貢献は以下のとおりである。 1) グループチャットシナリオに特化したアルゴリズムパイプラインの設計 2) タスク拒否におけるtext2vecの信頼性の検証 3)技術援助的な製品,すなわちスコアリング能力,インコンテキスト学習(ICL),Long Contextの3つの重要な要件を特定する。 我々は、将来の研究と応用を支援するため、ソフトウェアとソースコードをhttps://github.com/internlm/huixiangdouで公開しました。 HuixiangDouはIMツール内の任意のグループチャットに適用できる。

In this work, we present HuixiangDou, a technical assistant powered by Large Language Models (LLM). This system is designed to assist algorithm developers by providing insightful responses to questions related to open-source algorithm projects, such as computer vision and deep learning projects from OpenMMLab. We further explore the integration of this assistant into the group chats of instant messaging (IM) tools such as WeChat and Lark. Through several iterative improvements and trials, we have developed a sophisticated technical chat assistant capable of effectively answering users' technical questions without causing message flooding. This paper's contributions include: 1) Designing an algorithm pipeline specifically for group chat scenarios; 2) Verifying the reliable performance of text2vec in task rejection; 3) Identifying three critical requirements for LLMs in technical-assistant-like products, namely scoring ability, In-Context Learning (ICL), and Long Context. We have made the software and source code available at https://github.com/internlm/huixiangdou to aid in future research and application. HuixiangDou is applicable to any group chat within IM tools.
翻訳日:2024-01-18 18:01:54 公開日:2024-01-16
# $\mathbb{Z}_2$格子ゲージ理論における閉じ込め次数パラメータとしてのパーコレーション

Percolation as a confinement order parameter in $\mathbb{Z}_2$ lattice gauge theories ( http://arxiv.org/abs/2401.08770v1 )

ライセンス: Link先を確認
Simon M. Linsel and Annabelle Bohrdt and Lukas Homeier and Lode Pollet and Fabian Grusdt(参考訳) 格子ゲージ理論(LGTs)は1974年にウィルソンによってクォーク閉じ込めの研究のために導入された。 これらのモデルは (de-)confined phase を示すことが示されているが、実験で利用できる順序パラメータを定義するのは難しい。 ここでは、量子シミュレータにアクセスできる電場基底スナップショットを用いて、$\mathbb{Z}_2$ LGTsにおける動的物質の閉じ込めを探索するパーコレーション誘発秩序パラメータ(POPs)を提案する。 古典的$\mathbb{z}_2$ lgt の研究にpopsを応用し、任意の非零密度 $\mathbb{z}_2$ charge に対して、温度 $t=\infty$ in 2d (critical $t_c$,すなわち有限-$t$ phase transition, in 3d) まで閉じ込めた位相を求める。 さらに、量子モンテカルロを用いて、POPは平方格子フラドキン・シェンカー位相図を$T=0$で再現し、位相図を$T>0$で探索することを示した。 相関長指数は3次元イジング普遍性クラスの1つと一致し、パーコレーションを特徴付けるポップ臨界指数を決定する。 提案するpopsは閉じ込めの幾何学的視点を提供し、量子シミュレータで取得したスナップショットに直接アクセス可能であり、量子スピン液体のプローブとして適している。

Lattice gauge theories (LGTs) were introduced in 1974 by Wilson to study quark confinement. These models have been shown to exhibit (de-)confined phases, yet it remains challenging to define experimentally accessible order parameters. Here we propose percolation-inspired order parameters (POPs) to probe confinement of dynamical matter in $\mathbb{Z}_2$ LGTs using electric field basis snapshots accessible to quantum simulators. We apply the POPs to study a classical $\mathbb{Z}_2$ LGT and find a confining phase up to temperature $T=\infty$ in 2D (critical $T_c$, i.e. finite-$T$ phase transition, in 3D) for any non-zero density of $\mathbb{Z}_2$ charges. Further, using quantum Monte Carlo we demonstrate that the POPs reproduce the square lattice Fradkin-Shenker phase diagram at $T=0$ and explore the phase diagram at $T>0$. The correlation length exponent coincides with the one of the 3D Ising universality class and we determine the POP critical exponent characterizing percolation. Our proposed POPs provide a geometric perspective of confinement and are directly accessible to snapshots obtained in quantum simulators, making them suitable as a probe for quantum spin liquids.
翻訳日:2024-01-18 18:01:35 公開日:2024-01-16
# 太陽系で奇妙な、そして素晴らしい:宇宙と時間のレガシー調査におけるセレンディピティーの探索

The weird and the wonderful in our Solar System: Searching for serendipity in the Legacy Survey of Space and Time ( http://arxiv.org/abs/2401.08763v1 )

ライセンス: Link先を確認
Brian Rogers, Chris J. Lintott, Steve Croft, Megan E. Schwamb, James R. A. Davenport(参考訳) 本稿では,太陽系の天体データにおける異常検出のための新しい手法について述べる。 我々は異常検出のために深いオートエンコーダを訓練し、学習した潜在空間を使って他の興味深い物体を探索する。 本稿では,星間物体などの興味深い例を見つけることで,オートエンコーダアプローチの有効性を実証し,オートエンコーダを用いてさらに興味深いクラスの例を示す。 また、合成異常の発生による異常検出に対する古典的教師なしアプローチの限界について検討し、教師付き学習アプローチの有効性を評価する。 今後は、オートエンコーダを使用して調査中に発見できるさまざまな異常を増大させるために、機能領域の拡大を検討する必要がある。

We present a novel method for anomaly detection in Solar System object data, in preparation for the Legacy Survey of Space and Time. We train a deep autoencoder for anomaly detection and use the learned latent space to search for other interesting objects. We demonstrate the efficacy of the autoencoder approach by finding interesting examples, such as interstellar objects, and show that using the autoencoder, further examples of interesting classes can be found. We also investigate the limits of classic unsupervised approaches to anomaly detection through the generation of synthetic anomalies and evaluate the feasibility of using a supervised learning approach. Future work should consider expanding the feature space to increase the variety of anomalies that can be uncovered during the survey using an autoencoder.
翻訳日:2024-01-18 18:01:09 公開日:2024-01-16
# Floquet Fluxonium Molecule: 結合した超伝導量子ビットの劣化を抑える

The Floquet Fluxonium Molecule: Driving Down Dephasing in Coupled Superconducting Qubits ( http://arxiv.org/abs/2401.08762v1 )

ライセンス: Link先を確認
Matthew Thibodeau, Angela Kou, Bryan K. Clark(参考訳) 量子状態の保存と操作を低エラー率で長時間行うことが可能な高コヒーレンス量子ビットは、量子コンピュータのためのビルディングブロックである。 本研究では,フロッケフラックスドライブを用いて静磁束分子のスペクトルを変化させる超伝導量子ビットアーキテクチャを提案する。 計算固有状態は2つの重要な特性を持つ: ビットフリップを最小化する非結合サポートと、フラックスノイズを強調する一階および二階の不感性である。 3つの主なエラータイプの割合は数値シミュレーションによって推定され、予測コヒーレンス時間は計算部分空間で約50ms、消去寿命は約500ドルである。 約500nsの時間スケールに付加的なフラックス変調による高忠実度シングルキュービット回転ゲートのプロトコルを提供する。 結果から,駆動キュービットは静的キュービットよりも優れることがわかった。

High-coherence qubits, which can store and manipulate quantum states for long times with low error rates, are necessary building blocks for quantum computers. We propose a superconducting qubit architecture that uses a Floquet flux drive to modify the spectrum of a static fluxonium molecule. The computational eigenstates have two key properties: disjoint support to minimize bit flips, along with first- and second-order insensitivity to flux noise dephasing. The rates of the three main error types are estimated through numerical simulations, with predicted coherence times of approximately 50 ms in the computational subspace and erasure lifetimes of about 500 $\mu$s. We give a protocol for high-fidelity single qubit rotation gates via additional flux modulation on timescales of roughly 500 ns. Our results indicate that driven qubits are able to outperform some of their static counterparts.
翻訳日:2024-01-18 18:00:54 公開日:2024-01-16
# 冷原子系におけるフロッケ束の付着

Floquet Flux Attachment in Cold Atomic Systems ( http://arxiv.org/abs/2401.08754v1 )

ライセンス: Link先を確認
Helia Kamal, Jack Kemp, Yin-Chen He, Yohei Fuji, Monika Aidelsburger, Peter Zoller, Norman Y. Yao(参考訳) フラックスアタッチメントは、特に分数量子ホール効果を含むある種の位相秩序を理解するための強力な概念的枠組みを提供する。 理論ツールとして広く使われているが、顕微鏡で直接フラックスアタッチメントを実現することは未解決の課題である。 本稿では,スピンまたはハードコアボソンの周期駆動(フローク)系においてフラックスアタッチメントを実現するための簡易な手法を提案する。 このような系は自然に相関したホッピング相互作用を生じさせ、そのような相互作用とフラックスアタッチメントの間に鋭い接続を与える。 単純な最寄りの自由ボソンモデルから始め、結合ワイヤ解析と大規模密度行列再正規化グループシミュレーションの両方から、フロケ束のアタッチメントはボソン整数量子ホール状態が1/4$(正方格子上)で安定化し、ハルペリン-221分数量子ホール状態が1/6$(ハニカム格子上)で満たされるという証拠が見つかる。 正方格子上の1/2$の充填では、時間反転対称性は自発的に破壊され、反対のホールコンダクタンスを持つボソニック整数量子ホール状態は縮退する。 最後に, 正方格子上の光格子に基づくモデルの実装を提案し, フロッケ加熱の効果と断熱調製の可能性について考察する。

Flux attachment provides a powerful conceptual framework for understanding certain forms of topological order, including most notably the fractional quantum Hall effect. Despite its ubiquitous use as a theoretical tool, directly realizing flux attachment in a microscopic setting remains an open challenge. Here, we propose a simple approach to realizing flux attachment in a periodically-driven (Floquet) system of either spins or hard-core bosons. We demonstrate that such a system naturally realizes correlated hopping interactions and provides a sharp connection between such interactions and flux attachment. Starting with a simple, nearest-neighbor, free boson model, we find evidence -- from both a coupled wire analysis and large-scale density matrix renormalization group simulations -- that Floquet flux attachment stabilizes the bosonic integer quantum Hall state at $1/4$ filling (on a square lattice), and the Halperin-221 fractional quantum Hall state at $1/6$ filling (on a honeycomb lattice). At $1/2$ filling on the square lattice, time-reversal symmetry is instead spontaneously broken and bosonic integer quantum Hall states with opposite Hall conductances are degenerate. Finally, we propose an optical-lattice-based implementation of our model on a square lattice and discuss prospects for adiabatic preparation as well as effects of Floquet heating.
翻訳日:2024-01-18 18:00:37 公開日:2024-01-16
# MMToM-QA:マインド質問回答のマルチモーダル理論

MMToM-QA: Multimodal Theory of Mind Question Answering ( http://arxiv.org/abs/2401.08743v1 )

ライセンス: Link先を確認
Chuanyang Jin, Yutong Wu, Jing Cao, Jiannan Xiang, Yen-Ling Kuo, Zhiting Hu, Tomer Ullman, Antonio Torralba, Joshua B. Tenenbaum, Tianmin Shu(参考訳) 人の心を理解する能力である心の理論(ToM)は、人間レベルの社会知能を持つ機械を開発する上で欠かせない要素である。 最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。 しかし、既存のToMベンチマークでは、ビデオまたはテキストのいずれでも、unimodalデータセットを使用している。 一方、ヒューマンToMはビデオやテキストの理解以上のものです。 人は、視覚的手がかり、言語的物語、またはその両方を含むあらゆる利用可能なデータから抽出された概念的表現(例えば、目標、信念、計画)に基づいて、他人の心について柔軟に推論することができる。 そこで本稿では,Multimodal Theory of Mind Question answering (MMToM-QA)ベンチマークを提案する。 MMToM-QAは、マルチモーダルデータと家庭環境における人の活動に関する様々な種類の単調データに基づいて、機械ToMを包括的に評価する。 マルチモーダルToMキャパシティを構築するために,BIP-ALM(Bayesian Inverse Planning Accelerated by Language Models)を提案する。 BIP-ALMはマルチモーダルデータから統一表現を抽出し、スケーラブルベイズ逆計画に言語モデルを利用する。 我々は,GPT-4を含むヒトのパフォーマンス,BIP-ALM,最先端モデルの体系的比較を行った。 実験では、大きな言語モデルと大きなマルチモーダルモデルには、まだ堅牢なtom能力が欠けていることが示されている。 一方、BIP-ALMは、モデルに基づくメンタル推論と言語モデルの両方のパワーを活用することで、有望な結果を示す。

Theory of Mind (ToM), the ability to understand people's minds, is an essential ingredient for developing machines with human-level social intelligence. Recent machine learning models, particularly large language models, seem to show some aspects of ToM understanding. However, existing ToM benchmarks use unimodal datasets - either video or text. Human ToM, on the other hand, is more than video or text understanding. People can flexibly reason about another person's mind based on conceptual representations (e.g., goals, beliefs, plans) extracted from any available data, which can include visual cues, linguistic narratives, or both. To address this, we introduce a multimodal Theory of Mind question answering (MMToM-QA) benchmark. MMToM-QA comprehensively evaluates machine ToM both on multimodal data and on different kinds of unimodal data about a person's activity in a household environment. To engineer multimodal ToM capacity, we propose a novel method, BIP-ALM (Bayesian Inverse Planning Accelerated by Language Models). BIP-ALM extracts unified representations from multimodal data and utilizes language models for scalable Bayesian inverse planning. We conducted a systematic comparison of human performance, BIP-ALM, and state-of-the-art models, including GPT-4. The experiments demonstrate that large language models and large multimodal models still lack robust ToM capacity. BIP-ALM, on the other hand, shows promising results, by leveraging the power of both model-based mental inference and language models.
翻訳日:2024-01-18 18:00:10 公開日:2024-01-16
# シングルビュービデオからの高速動的3dオブジェクト生成

Fast Dynamic 3D Object Generation from a Single-view Video ( http://arxiv.org/abs/2401.08742v1 )

ライセンス: Link先を確認
Zijie Pan, Zeyu Yang, Xiatian Zhu, Li Zhang(参考訳) 4dラベル付きデータがないため、シングルビュービデオから動的3次元オブジェクトを生成するのは困難である。 既存の方法では、スコア蒸留サンプリングなどのオフ・ザ・シェルフ画像生成モデルを転送することでテキストから3Dパイプラインを拡張するが、大きな事前訓練されたモデルを通して情報制限された監視信号のバックプロパゲートを必要とするため、遅くてコストがかかる(例えば、1オブジェクトあたり150分)。 この制限に対処するため,Efficient4Dと呼ばれる効率的な4Dオブジェクト生成フレームワークを提案する。 異なるカメラビューの下で高品質な時空一貫性画像を生成し、ラベル付きデータとして使用して、明示的なポイントクラウド幾何学を持つ新しい4Dガウススプラッティングモデルをトレーニングし、連続カメラ軌道下でリアルタイムレンダリングを可能にする。 合成ビデオと実写ビデオの広範囲な実験により、efficiant4dは、同じレベルの革新的なビュー合成品質を維持しながら、先行技術よりも10倍の速度向上をもたらすことが示されている。 例えば、Efficient4Dは動的オブジェクトをモデル化するのにわずか14分しかかからない。

Generating dynamic three-dimensional (3D) object from a single-view video is challenging due to the lack of 4D labeled data. Existing methods extend text-to-3D pipelines by transferring off-the-shelf image generation models such as score distillation sampling, but they are slow and expensive to scale (e.g., 150 minutes per object) due to the need for back-propagating the information-limited supervision signals through a large pretrained model. To address this limitation, we propose an efficient video-to-4D object generation framework called Efficient4D. It generates high-quality spacetime-consistent images under different camera views, and then uses them as labeled data to directly train a novel 4D Gaussian splatting model with explicit point cloud geometry, enabling real-time rendering under continuous camera trajectories. Extensive experiments on synthetic and real videos show that Efficient4D offers a remarkable 10-fold increase in speed when compared to prior art alternatives while preserving the same level of innovative view synthesis quality. For example, Efficient4D takes only 14 minutes to model a dynamic object.
翻訳日:2024-01-18 17:59:44 公開日:2024-01-16
# 固定点拡散モデル

Fixed Point Diffusion Models ( http://arxiv.org/abs/2401.08741v1 )

ライセンス: Link先を確認
Xingjian Bai and Luke Melas-Kyriazi(参考訳) 本稿では,不動点解法の概念を拡散に基づく生成モデリングの枠組みに統合した新しい画像生成手法である不動点拡散モデル(fpdm)を提案する。 提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。 新しい確率的トレーニング手法と組み合わせることで、このアプローチはモデルサイズを大幅に削減し、メモリ使用量を減らし、トレーニングを加速する。 さらに、サンプリング効率を向上させる2つの新しい手法の開発を可能にする: 時間ステップ間の計算の再配置と時間ステップ間の不動点解の再使用。 我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルによる広範な実験を行い、性能と効率を大幅に改善した。 最先端のDiTモデルと比較して、FPDMはパラメータを87%減らし、トレーニング中にメモリを60%減らし、サンプリング計算や時間制限のある状況で画像生成品質を向上させる。 私たちのコードと事前訓練されたモデルは、https://lukemelas.github.io/fixed-point-diffusion-modelsで利用可能です。

We introduce the Fixed Point Diffusion Model (FPDM), a novel approach to image generation that integrates the concept of fixed point solving into the framework of diffusion-based generative modeling. Our approach embeds an implicit fixed point solving layer into the denoising network of a diffusion model, transforming the diffusion process into a sequence of closely-related fixed point problems. Combined with a new stochastic training method, this approach significantly reduces model size, reduces memory usage, and accelerates training. Moreover, it enables the development of two new techniques to improve sampling efficiency: reallocating computation across timesteps and reusing fixed point solutions between timesteps. We conduct extensive experiments with state-of-the-art models on ImageNet, FFHQ, CelebA-HQ, and LSUN-Church, demonstrating substantial improvements in performance and efficiency. Compared to the state-of-the-art DiT model, FPDM contains 87% fewer parameters, consumes 60% less memory during training, and improves image generation quality in situations where sampling computation or time is limited. Our code and pretrained models are available at https://lukemelas.github.io/fixed-point-diffusion-models.
翻訳日:2024-01-18 17:59:21 公開日:2024-01-16
# SiT: スケーラブル補間変換器を用いたフローと拡散に基づく生成モデルの探索

SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers ( http://arxiv.org/abs/2401.08740v1 )

ライセンス: Link先を確認
Nanye Ma, Mark Goldstein, Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden, and Saining Xie(参考訳) 本稿では,Diffusion Transformers (DiT) のバックボーン上に構築された生成モデルのファミリーである Scalable Interpolant Transformers (SiT) について述べる。 補間フレームワークは、標準的な拡散モデルよりも柔軟な方法で2つの分布を接続できるが、動的輸送上に構築された生成モデルに影響を与える様々な設計選択のモジュラーな研究を可能にする。 上記の成分を慎重に導入することにより、SiTは、同じバックボーン、パラメータ数、GFLOPを使用して条件付きImageNet 256x256ベンチマークのモデルサイズでDiTを均一に上回る。 学習とは別に調整できる様々な拡散係数を探索することにより、SiTはFID-50Kスコア2.06を達成する。

We present Scalable Interpolant Transformers (SiT), a family of generative models built on the backbone of Diffusion Transformers (DiT). The interpolant framework, which allows for connecting two distributions in a more flexible way than standard diffusion models, makes possible a modular study of various design choices impacting generative models built on dynamical transport: using discrete vs. continuous time learning, deciding the objective for the model to learn, choosing the interpolant connecting the distributions, and deploying a deterministic or stochastic sampler. By carefully introducing the above ingredients, SiT surpasses DiT uniformly across model sizes on the conditional ImageNet 256x256 benchmark using the exact same backbone, number of parameters, and GFLOPs. By exploring various diffusion coefficients, which can be tuned separately from learning, SiT achieves an FID-50K score of 2.06.
翻訳日:2024-01-18 17:58:57 公開日:2024-01-16
# reValueD: 決定可能なマルコフ決定プロセスのための正規化アンサンブル値分解

REValueD: Regularised Ensemble Value-Decomposition for Factorisable Markov Decision Processes ( http://arxiv.org/abs/2401.08850v1 )

ライセンス: Link先を確認
David Ireland and Giovanni Montana(参考訳) 離散アクション強化学習アルゴリズムは、起こりうる多くのアクションのために、高次元の離散アクション空間を持つタスクに干渉することが多い。 最近の進歩は、この課題に取り組むために、マルチエージェント強化学習の概念であるバリュー分解を活用している。 この研究は、q-learningアルゴリズムに固有の過剰推定バイアスを削減しながら、ターゲットの分散を増幅する、この値分解の効果を深く掘り下げる。 これに対抗するために,対象のばらつきを緩和するための批評家のアンサンブルを提案する。 さらに, ある次元における探索行動が他の次元における最適な行動の値に与える影響を軽減するために, 正規化損失を導入する。 新しいアルゴリズムであるrevaluedは、deepmindコントロールスイートタスクの非正規化バージョン上でテストされ、特にヒューマノイドタスクやドッグタスクにおいて優れたパフォーマンスを示します。 さらに,revaluedの性能に影響を与える要因について検討し,レギュライゼーション損失の意義と,次元ごとのサブアクションの増加による再評価のスケーラビリティを評価した。

Discrete-action reinforcement learning algorithms often falter in tasks with high-dimensional discrete action spaces due to the vast number of possible actions. A recent advancement leverages value-decomposition, a concept from multi-agent reinforcement learning, to tackle this challenge. This study delves deep into the effects of this value-decomposition, revealing that whilst it curtails the over-estimation bias inherent to Q-learning algorithms, it amplifies target variance. To counteract this, we present an ensemble of critics to mitigate target variance. Moreover, we introduce a regularisation loss that helps to mitigate the effects that exploratory actions in one dimension can have on the value of optimal actions in other dimensions. Our novel algorithm, REValueD, tested on discretised versions of the DeepMind Control Suite tasks, showcases superior performance, especially in the challenging humanoid and dog tasks. We further dissect the factors influencing REValueD's performance, evaluating the significance of the regularisation loss and the scalability of REValueD with increasing sub-actions per dimension.
翻訳日:2024-01-18 17:51:25 公開日:2024-01-16
# RIDGE:医療画像分割モデルの再現性、統合性、依存性、一般化性および効率評価

RIDGE: Reproducibility, Integrity, Dependability, Generalizability, and Efficiency Assessment of Medical Image Segmentation Models ( http://arxiv.org/abs/2401.08847v1 )

ライセンス: Link先を確認
Farhad Maleki, Linda Moy, Reza Forghani, Tapotosh Ghosh, Katie Ovens, Steve Langer, Pouria Rouzrokh, Bardia Khosravi, Ali Ganjizadeh, Daniel Warren, Roxana Daneshjou, Mana Moassefi, Atlas Haddadi Avval, Susan Sotardi, Neil Tenenholtz, Felipe Kitamura, Timothy Kline(参考訳) 深層学習技術は、その可能性にもかかわらず、しばしば再現性と一般化性の欠如に悩まされ、臨床導入を妨げる。 画像分割は医用画像解析における重要な課題の一つであり、1つまたは複数の領域/ボリュームに注釈を付けるべきである。 本稿では, 深層学習に基づく医用画像セグメンテーションモデルの再現性, 統合性, 依存性, 一般化性, 効率性を評価するためのフレームワークであるRIDGEチェックリストを紹介する。 チェックリストは、研究者が研究の質と透明性を高めるためのガイドとして機能し、セグメンテーションモデルが科学的に健全であるだけでなく、臨床的に関連があることを保証する。

Deep learning techniques, despite their potential, often suffer from a lack of reproducibility and generalizability, impeding their clinical adoption. Image segmentation is one of the critical tasks in medical image analysis, in which one or several regions/volumes of interest should be annotated. This paper introduces the RIDGE checklist, a framework for assessing the Reproducibility, Integrity, Dependability, Generalizability, and Efficiency of deep learning-based medical image segmentation models. The checklist serves as a guide for researchers to enhance the quality and transparency of their work, ensuring that segmentation models are not only scientifically sound but also clinically relevant.
翻訳日:2024-01-18 17:51:07 公開日:2024-01-16
# 座標系ネットワークを用いたボリュームデータの効率的なニューラル表現

Efficient Neural Representation of Volumetric Data using Coordinate-Based Networks ( http://arxiv.org/abs/2401.08840v1 )

ライセンス: Link先を確認
Sudarshan Devkota, Sumanta Pattanaik(参考訳) 本稿では,座標ベースネットワークとマルチ解像度ハッシュ符号化を用いたボリュームデータの圧縮と表現のための効率的な手法を提案する。 ボリュームデータの効率的な圧縮は、医用画像や科学シミュレーションなどの様々な用途に不可欠である。 提案手法は,空間座標と強度値のマッピングを学習することで,効率的な圧縮を実現する。 異なる符号化方式を比較し,圧縮品質とトレーニング効率の観点から,マルチレゾリューションハッシュ符号化の優位性を示す。 さらに、最適化に基づくメタラーニング、特にレプティルアルゴリズムを用いて、ボリュームデータに合わせたニューラルネットワーク表現の重み初期化を学習し、最適化中の収束を高速化する。 さらに,本手法を最先端の手法と比較し,画質と圧縮率の向上を示す。 これらの知見は,大規模データ可視化などの応用において,コーディネートベースネットワークとマルチレゾリューションハッシュエンコーディングが有効かつ正確なボリュームデータの表現を可能にする可能性を強調した。

In this paper, we propose an efficient approach for the compression and representation of volumetric data utilizing coordinate-based networks and multi-resolution hash encoding. Efficient compression of volumetric data is crucial for various applications, such as medical imaging and scientific simulations. Our approach enables effective compression by learning a mapping between spatial coordinates and intensity values. We compare different encoding schemes and demonstrate the superiority of multi-resolution hash encoding in terms of compression quality and training efficiency. Furthermore, we leverage optimization-based meta-learning, specifically using the Reptile algorithm, to learn weight initialization for neural representations tailored to volumetric data, enabling faster convergence during optimization. Additionally, we compare our approach with state-of-the-art methods to showcase improved image quality and compression ratios. These findings highlight the potential of coordinate-based networks and multi-resolution hash encoding for an efficient and accurate representation of volumetric data, paving the way for advancements in large-scale data visualization and other applications.
翻訳日:2024-01-18 17:50:52 公開日:2024-01-16
# リモートセンシングにおける画像融合 : 概観とメタ分析

Image Fusion in Remote Sensing: An Overview and Meta Analysis ( http://arxiv.org/abs/2401.08837v1 )

ライセンス: Link先を確認
Hessah Albanwan, Rongjun Qin, Yang Tang(参考訳) リモートセンシング(RS)における画像融合は、異なる解像度、ソース、モダリティの生画像を正確、完全、時空間的に一貫性のある画像に変換する能力により、一貫した要求であった。 パンシャープ化、変更検出、土地被覆分類などの下流アプリケーションを大幅に促進します。 しかし、画像融合ソリューションは様々なリモートセンシング問題と非常に異なるため、既存のレビューではパンシャーピングや時空間画像融合といったトピック的応用として狭義に定義されていることが多い。 画像融合はピクセルレベルの操作によって任意のグリッド化されたデータに理論的に適用可能であることを考慮し、本論文では、簡単な分類法で関連する作品を包括的に調査することにより、その範囲を広げた。 1) 多対一画像融合 2)多対多画像融合 この単純な分類法は、画像融合を、望まれるコヒーレンス(スペクトル、空間/解像度コヒーレンスなど)に応じて、単一の画像または一組の画像を別の画像または一組のイメージに変換する写像問題として定義する。 この単純な分類法は、それがカバーする大きなモダリティの違いにもかかわらず、概念的に簡単な枠組みで提示できることが示される。 さらに,1980年代から現在に至るまでの様々な種類の画像融合とその応用に関する主要な論文(5,926件の査読論文)について,メタ分析を行った。 最後に,オープンな研究の方向性と今後の課題について論じる。

Image fusion in Remote Sensing (RS) has been a consistent demand due to its ability to turn raw images of different resolutions, sources, and modalities into accurate, complete, and spatio-temporally coherent images. It greatly facilitates downstream applications such as pan-sharpening, change detection, land-cover classification, etc. Yet, image fusion solutions are highly disparate to various remote sensing problems and thus are often narrowly defined in existing reviews as topical applications, such as pan-sharpening, and spatial-temporal image fusion. Considering that image fusion can be theoretically applied to any gridded data through pixel-level operations, in this paper, we expanded its scope by comprehensively surveying relevant works with a simple taxonomy: 1) many-to-one image fusion; 2) many-to-many image fusion. This simple taxonomy defines image fusion as a mapping problem that turns either a single or a set of images into another single or set of images, depending on the desired coherence, e.g., spectral, spatial/resolution coherence, etc. We show that this simple taxonomy, despite the significant modality difference it covers, can be presented by a conceptually easy framework. In addition, we provide a meta-analysis to review the major papers studying the various types of image fusion and their applications over the years (from the 1980s to date), covering 5,926 peer-reviewed papers. Finally, we discuss the main benefits and emerging challenges to provide open research directions and potential future works.
翻訳日:2024-01-18 17:50:36 公開日:2024-01-16
# 誘導注意によるASRコンテキストバイアスの改善

Improving ASR Contextual Biasing with Guided Attention ( http://arxiv.org/abs/2401.08835v1 )

ライセンス: Link先を確認
Jiyang Tang, Kwangyoun Kim, Suwon Shon, Felix Wu, Prashant Sridhar, Shinji Watanabe(参考訳) 本稿では,追加パラメータを導入することなく,自動音声認識(ASR)の文脈バイアスの有効性とロバスト性を向上する,ガイド付き注意(GA)補助訓練損失を提案する。 前回の文献では、文脈バイアスによってもたらされる単語誤り率(wer)の減少は、バイアスフレーズの数が増えるにつれて減少する。 この課題に対処するため,Transducerの損失に加えて,GA損失をトレーニング目標として採用する。 提案したGA損失は、バイアスフレーズをテキストトークンやオーディオフレームに合わせる方法を教えることを目的としている。 同様のモチベーションを持つ研究と比較して、提案された損失はクロスアテンション重みに直接作用し、実装が容易である。 Conformer TransducerとContextual Adapterを併用した広範囲な実験により,提案手法がWERを低下させるだけでなく,バイアスフレーズの増加とともにその有効性も維持できることを示した。 具体的には、GA損失は、文脈バイアスベースラインと比較して、希少語彙のWERを19.2%まで減少させ、バニラトランスデューサと比較して49.3%まで減少させる。

In this paper, we propose a Guided Attention (GA) auxiliary training loss, which improves the effectiveness and robustness of automatic speech recognition (ASR) contextual biasing without introducing additional parameters. A common challenge in previous literature is that the word error rate (WER) reduction brought by contextual biasing diminishes as the number of bias phrases increases. To address this challenge, we employ a GA loss as an additional training objective besides the Transducer loss. The proposed GA loss aims to teach the cross attention how to align bias phrases with text tokens or audio frames. Compared to studies with similar motivations, the proposed loss operates directly on the cross attention weights and is easier to implement. Through extensive experiments based on Conformer Transducer with Contextual Adapter, we demonstrate that the proposed method not only leads to a lower WER but also retains its effectiveness as the number of bias phrases increases. Specifically, the GA loss decreases the WER of rare vocabularies by up to 19.2% on LibriSpeech compared to the contextual biasing baseline, and up to 49.3% compared to a vanilla Transducer.
翻訳日:2024-01-18 17:50:10 公開日:2024-01-16
# 相互情報から見た音声表現の自己指導学習の再検討

Revisiting Self-supervised Learning of Speech Representation from a Mutual Information Perspective ( http://arxiv.org/abs/2401.08833v1 )

ライセンス: Link先を確認
Alexander H. Liu, Sung-Lin Yeh, James Glass(参考訳) 自己教師型音声表現学習の既存の研究は、新しい訓練方法の開発と、異なる用途に事前訓練されたモデルの適用に重点を置いている。 しかしながら、これらのモデルの品質は、しばしば異なる下流タスクのパフォーマンスによって測定される。 興味のある情報にどの程度アクセスできるかは研究されていない。 本稿では,情報理論的な観点から,既存の自己教師あり発話法について考察する。 モデル設計や選択といった実用的な問題を支援するために,相互情報を用いたメトリクスの開発を目指している。 線形プローブを用いて,対象情報と学習表現の相互情報を推定し,音声表現から対象情報へのアクセシビリティに関する別の知見を示す。 さらに,ラベルを使わずにデータの異なる部分間の相互情報を推定する自己教師あり方式による表現評価の可能性について検討する。 最後に,教師付きと教師なしのいずれの尺度も,階層型線形プローブおよび音声認識におけるモデルの性能を反映することを示す。

Existing studies on self-supervised speech representation learning have focused on developing new training methods and applying pre-trained models for different applications. However, the quality of these models is often measured by the performance of different downstream tasks. How well the representations access the information of interest is less studied. In this work, we take a closer look into existing self-supervised methods of speech from an information-theoretic perspective. We aim to develop metrics using mutual information to help practical problems such as model design and selection. We use linear probes to estimate the mutual information between the target information and learned representations, showing another insight into the accessibility to the target information from speech representations. Further, we explore the potential of evaluating representations in a self-supervised fashion, where we estimate the mutual information between different parts of the data without using any labels. Finally, we show that both supervised and unsupervised measures echo the performance of the models on layer-wise linear probing and speech recognition.
翻訳日:2024-01-18 17:49:46 公開日:2024-01-16
# 完備測地における双極子相互作用の操作と協調効果

Manipulating the Dipolar Interactions and Cooperative Effects in Confined Geometries ( http://arxiv.org/abs/2401.08831v1 )

ライセンス: Link先を確認
Hadiseh Alaeian, Artur Skljarow, Stefan Scheel, Tilman Pfau, and Robert L\"ow(参考訳) 制御された実験室環境から実用的な実世界のアプリケーションへの量子効果の遷移を容易にするため、スケーラブルなプラットフォームの必要性が高まっている。 1つの有望な戦略は、原子間相互作用を操作するために設計されたナノ構造と熱蒸気を統合することである。 このチュートリアルでは、ナノキャビティや導波路に閉じ込められ、近共鳴光に曝される熱蒸気の挙動を調べることにより、これに関する深い洞察を得ることを目的としている。 密集した熱蒸気中の原子間の相互作用を探究する。 本研究は,密度依存性のラインシフトや拡張効果など,連続的電気力学モデルの予測からの逸脱を明らかにした。 特に, ナノ構造を用いた単一原子の飽和度と複数原子間の相互作用を慎重に制御し, 原子雲の形状を制御することにより, 原子アンサンブル全体の光非線形性を効果的に操ることができることを示した。 この能力により、ハイブリッド熱原子-ナノフォトニックプラットフォームは、集合効果を操作し、相当な光学非線形性を達成するための、特異で価値のあるものとなる。

To facilitate the transition of quantum effects from the controlled laboratory environment to practical real-world applications, there is a pressing need for scalable platforms. One promising strategy involves integrating thermal vapors with nanostructures designed to manipulate atomic interactions. In this tutorial, we aim to gain deeper insights into this by examining the behavior of thermal vapors that are confined within nanocavities or waveguides and exposed to near-resonant light. We explore the interactions between atoms in confined dense thermal vapors. Our investigation reveals deviations from the predictions of continuous electrodynamics models, including density-dependent line shifts and broadening effects. In particular, our results demonstrate that by carefully controlling the saturation of single atoms and the interactions among multiple atoms using nanostructures, along with controlling the geometry of the atomic cloud, it becomes possible to manipulate the effective optical nonlinearity of the entire atomic ensemble. This capability renders the hybrid thermal atom-nanophotonic platform a distinctive and valuable one for manipulating the collective effect and achieving substantial optical nonlinearities.
翻訳日:2024-01-18 17:49:32 公開日:2024-01-16
# 確率的サブネットワークアニーリング:微調整サブネットワークの正則化手法

Stochastic Subnetwork Annealing: A Regularization Technique for Fine Tuning Pruned Subnetworks ( http://arxiv.org/abs/2401.08830v1 )

ライセンス: Link先を確認
Tim Whitaker, Darrell Whitley(参考訳) プルーニング手法は、ディープニューラルネットワークのサイズと計算複雑性を減らす効果的な方法として最近人気が高まっている。 少数の連続した訓練エポックの後、訓練されたモデルから大量のパラメータを除去できるが、精度の低下はほとんど認められない。 しかし、一度に多くのパラメータをプルーニングすると、コンバージェンスの品質を損なう可能性のある最初の急激な精度が低下する。 反復プルーニングアプローチは、複数のエポック上の少数のパラメータを徐々に取り除き、これを緩和する。 しかし、これは、損失の風景のローカルな領域をオーバーフィットするサブネットワークに繋がる可能性がある。 我々は、Stochastic Subnetwork Annealingと呼ばれる正規化手法により、サブネットのチューニングに新しく効果的なアプローチを導入する。 パラメータを離散的に削除する代わりに、各パラメータが任意のフォワードパスに含まれたり排除されたりする確率的確率を持つ確率的マスクを持つサブネットワークを表現する。 マスクの値がより決定論的になるにつれて、サブネットワーク構造が徐々に進化し、よりスムーズで堅牢なサブネットワークの高レベルな最適化を可能にします。

Pruning methods have recently grown in popularity as an effective way to reduce the size and computational complexity of deep neural networks. Large numbers of parameters can be removed from trained models with little discernible loss in accuracy after a small number of continued training epochs. However, pruning too many parameters at once often causes an initial steep drop in accuracy which can undermine convergence quality. Iterative pruning approaches mitigate this by gradually removing a small number of parameters over multiple epochs. However, this can still lead to subnetworks that overfit local regions of the loss landscape. We introduce a novel and effective approach to tuning subnetworks through a regularization technique we call Stochastic Subnetwork Annealing. Instead of removing parameters in a discrete manner, we instead represent subnetworks with stochastic masks where each parameter has a probabilistic chance of being included or excluded on any given forward pass. We anneal these probabilities over time such that subnetwork structure slowly evolves as mask values become more deterministic, allowing for a smoother and more robust optimization of subnetworks at high levels of sparsity.
翻訳日:2024-01-18 17:49:14 公開日:2024-01-16
# AiGen-FoodReview: ソーシャルメディア上のマシン生成レストランレビューと画像のマルチモーダルデータセット

AiGen-FoodReview: A Multimodal Dataset of Machine-Generated Restaurant Reviews and Images on Social Media ( http://arxiv.org/abs/2401.08825v1 )

ライセンス: Link先を確認
Alessandro Gambetti, Qiwei Han(参考訳) ユーザ生成コンテンツ(UGC)形式のオンラインレビューは、消費者の意思決定に大きな影響を及ぼす。 しかし、人間のフェイクコンテンツだけでなく、マシン生成コンテンツの広範にわたる問題は、uccの信頼性を脅かしている。 近年のLarge Language Models (LLM) の進歩は、識別不能な偽生成コンテンツをはるかに低コストで製造する方法を開拓する可能性がある。 OpenAIのGPT-4-TurboとDALL-E-2モデルを活用して、20,144のレストランレビューイメージペアからなるマルチモーダルデータセットであるAiGen-FoodReviewを、認証とマシン生成に分割した。 FLAVAで99.80%のマルチモーダル精度を達成し,一様・多モーダル検出モデルについて検討する。 我々は,可読性と写真理論の属性を用いてレビューと画像の評価を行い,スケーラブルで解釈可能な検出モデルにおける手作り機能としての有用性を示す。 この論文は、データセットをオープンソース化し、偽レビュー検出器をリリースし、ユニモーダルおよびマルチモーダルな偽レビュー検出タスクでの使用を推奨し、合成データと本物データの言語的および視覚的特徴を評価することによって寄与する。

Online reviews in the form of user-generated content (UGC) significantly impact consumer decision-making. However, the pervasive issue of not only human fake content but also machine-generated content challenges UGC's reliability. Recent advances in Large Language Models (LLMs) may pave the way to fabricate indistinguishable fake generated content at a much lower cost. Leveraging OpenAI's GPT-4-Turbo and DALL-E-2 models, we craft AiGen-FoodReview, a multi-modal dataset of 20,144 restaurant review-image pairs divided into authentic and machine-generated. We explore unimodal and multimodal detection models, achieving 99.80% multimodal accuracy with FLAVA. We use attributes from readability and photographic theories to score reviews and images, respectively, demonstrating their utility as hand-crafted features in scalable and interpretable detection models, with comparable performance. The paper contributes by open-sourcing the dataset and releasing fake review detectors, recommending its use in unimodal and multimodal fake review detection tasks, and evaluating linguistic and visual features in synthetic versus authentic data.
翻訳日:2024-01-18 17:48:55 公開日:2024-01-16
# 幾何学的特異性のない光学系における幾何学的位相制御

Geometrical phase control in an optical system without geometric peculiarities ( http://arxiv.org/abs/2401.08824v1 )

ライセンス: Link先を確認
T. T. Sergeev, A. A. Zyablovsky, E. S. Andrianov, Yu. E. Lozovik(参考訳) 共振器と結合したキャビティ内に置かれた原子の偏光ダイナミクスを考察する。 キャビティとの相互作用は原子分極の励起と、光子の放出によって励起状態から基底状態への原子の遷移につながり、リング共振器を通して伝播して原子に戻る。 このシステムでは、リターン時間の二重化を観測でき、つまり、原子によって放出される波は、リング共振器を2回バイパスして1回ではなく初期状態に戻す必要がある。 その結果、リング共振器のフォトンバイパス後に原子分極が非自明な幾何位相を得るシステムパラメータの範囲が存在することがわかった。 この範囲では、原子の状態はリング共振器に沿って放出された光子の2つのバイパス後にのみ初期状態に戻る。 非自明な幾何学的トポロジーを持つシステムとは異なり、提案システムでは、原子と空洞の結合強度の大きさによって制御される固有状態の密度の変化によって効果が生じることを示した。 提案システムは、ツイストや自己断面積などの幾何学的特異性を必要とせず、チップに集積可能な光学系における非自明な位相を生成するための追加の機会を提供する。

We consider polarization dynamics of an atom placed in a cavity coupled with a ring resonator. The interaction with the cavity leads to the excitation of atomic polarization and the transition of atom from the excited state to the ground one with the emission of a photon, which then propagates through the ring resonator and returns to the atom. We demonstrate that it is possible to observe a doubling of the return time in this system, which means that the wave emitted by the atom should bypass the ring resonator twice to return to its initial state instead of once. We show that there is a range of system parameters at which the atomic polarization acquires nontrivial geometric phase after photon bypass of the ring resonator. In this range, the state of the atom returns to its initial state only after two bypasses of the emitted photon along ring resonator. We demonstrate that unlike systems with nontrivial geometric topology, in the proposed system the effect arises due to a change in the density of eigenstates, which is controlled by the magnitude of the coupling strength between the atom and the cavity. The proposed system does not require geometric peculiarities, such as twisting and self-intersections, and provides additional opportunities for creation the non-trivial topological phase in optical system with possible integration on a chip.
翻訳日:2024-01-18 17:48:30 公開日:2024-01-16
# 外科領域の精密再構成に向けた表面増強ラマン分光と転写学習

Surface-Enhanced Raman Spectroscopy and Transfer Learning Toward Accurate Reconstruction of the Surgical Zone ( http://arxiv.org/abs/2401.08821v1 )

ライセンス: Link先を確認
Ashutosh Raman, Ren A. Odion, Kent K. Yamamoto, Weston Ross, Tuan Vo-Dinh, Patrick J. Codd(参考訳) ラマン分光法(raman spectroscopy)は、コヒーレント光の非弾性後方散乱に基づくフォトニックモダリティであり、術中センシング空間に有用であり、非イオン化電位と高特異な分子指紋様の分光信号を提供し、ダイナミックな外科領域における病理組織の診断に使用できる。 ラマンの強度は弱いが、金属ナノ構造を用いてラマン信号を増幅する表面強化ラマン分光法(sers)は、従来のフォトニックモダリティに匹敵する検出感度を達成することができる。 本研究では, 金ナノスター領域を選択的に注入した組織模倣ファントムとしてモデル化した, 健康な組織に埋め込まれた腫瘍の位置と境界を確実に特定できるロボットramanシステムについて概説する。 さらに,収集された生物SERSやラーマンデータの相対的変形により,制御アガロースと比較してゴールドナノスターの100%の検証精度を達成し,ラマンに基づく深層学習訓練パイプラインの概念実証を行う。 10.2分で30×60mmの外科的部位を再建し,98.2%の精度でファントムの特徴の相対的測定を行った。 また84.3%のクロスオーバー・ユニオンスコアを達成し,基底的真理と予測的再構成の重なりの程度を示した。 最後に、Ramanシステムと分類アルゴリズムはサンプル色に基づいて識別せず、SERSエージェントの存在によって識別することを示した。 本研究は術中腫瘍学空間におけるインテリジェントラマン系の翻訳において重要なステップを提供する。

Raman spectroscopy, a photonic modality based on the inelastic backscattering of coherent light, is a valuable asset to the intraoperative sensing space, offering non-ionizing potential and highly-specific molecular fingerprint-like spectroscopic signatures that can be used for diagnosis of pathological tissue in the dynamic surgical field. Though Raman suffers from weakness in intensity, Surface-Enhanced Raman Spectroscopy (SERS), which uses metal nanostructures to amplify Raman signals, can achieve detection sensitivities that rival traditional photonic modalities. In this study, we outline a robotic Raman system that can reliably pinpoint the location and boundaries of a tumor embedded in healthy tissue, modeled here as a tissue-mimicking phantom with selectively infused Gold Nanostar regions. Further, due to the relative dearth of collected biological SERS or Raman data, we implement transfer learning to achieve 100% validation classification accuracy for Gold Nanostars compared to Control Agarose, thus providing a proof-of-concept for Raman-based deep learning training pipelines. We reconstruct a surgical field of 30x60mm in 10.2 minutes, and achieve 98.2% accuracy, preserving relative measurements between features in the phantom. We also achieve an 84.3% Intersection-over-Union score, which is the extent of overlap between the ground truth and predicted reconstructions. Lastly, we also demonstrate that the Raman system and classification algorithm do not discern based on sample color, but instead on presence of SERS agents. This study provides a crucial step in the translation of intelligent Raman systems in intraoperative oncological spaces.
翻訳日:2024-01-18 17:48:08 公開日:2024-01-16
# 保守密度推定による疎オフラインデータセットからの学習

Learning from Sparse Offline Datasets via Conservative Density Estimation ( http://arxiv.org/abs/2401.08819v1 )

ライセンス: Link先を確認
Zhepeng Cen, Zuxin Liu, Zitong Wang, Yihang Yao, Henry Lam, Ding Zhao(参考訳) オフライン強化学習(RL)は、環境とのさらなるインタラクションを必要とせずに、事前にコンパイルされたデータセットからポリシーを学ぶための有望な方向を提供する。 しかし、既存のメソッドは、特にスパース報酬やデータ設定の不足など、外挿エラー(OOD)を扱うのに苦労している。 本稿では,この課題に対処するために,状態-動作の定常分布に制約を明示的に課すことにより,保守的密度推定(CDE)と呼ばれる新しいトレーニングアルゴリズムを提案する。 CDEは, 限界値サンプリングにおけるサポートミスマッチ問題に対処することで, 定常分布補正法などの既存手法の限界を克服する。 本手法はD4RLベンチマークにおける最先端性能を実現する。 特に、CDEは、低い報酬や不十分なデータを伴う課題タスクにおいて、ベースラインを一貫して上回り、オフラインRLにおける外挿エラー問題に対処する上で、我々のアプローチの利点を示す。

Offline reinforcement learning (RL) offers a promising direction for learning policies from pre-collected datasets without requiring further interactions with the environment. However, existing methods struggle to handle out-of-distribution (OOD) extrapolation errors, especially in sparse reward or scarce data settings. In this paper, we propose a novel training algorithm called Conservative Density Estimation (CDE), which addresses this challenge by explicitly imposing constraints on the state-action occupancy stationary distribution. CDE overcomes the limitations of existing approaches, such as the stationary distribution correction method, by addressing the support mismatch issue in marginal importance sampling. Our method achieves state-of-the-art performance on the D4RL benchmark. Notably, CDE consistently outperforms baselines in challenging tasks with sparse rewards or insufficient data, demonstrating the advantages of our approach in addressing the extrapolation error problem in offline RL.
翻訳日:2024-01-18 17:47:39 公開日:2024-01-16
# 赤ちゃんのリンクをもう1回 - spotifyでのソーシャル音楽発見

Link Me Baby One More Time: Social Music Discovery on Spotify ( http://arxiv.org/abs/2401.08818v1 )

ライセンス: Link先を確認
Shazia'Ayn Babul, Desislava Hristova, Antonio Lima, Renaud Lambiotte, Mariano Beguerisse-D\'iaz(参考訳) 個人間音楽レコメンデーションと発見の結果に影響を与える社会的・文脈的要因について検討する。 具体的には、Spotifyのデータを用いて、あるユーザから別のユーザへのリンクが、共有アーティストの音楽に関わる受信者に与える影響を調べる。 本稿では,このプロセスに影響を及ぼす可能性のある要因として,送受信者関係の強さ,Spotifyソーシャルネットワークにおけるユーザの役割,音楽ソーシャル・コヒージョン,新しいアーティストがレシーバーの好みにいかに似ているか,などについて考察する。 リンクの受信者は,(1)送信者と音楽の好みが似ていて,共有トラックが好みに適している,(2)送信者とより強く親密な関係にある,(3)共有アーティストが受信者のつながりに人気がある,といった場合に,新たなアーティストとの関わりが強いことがわかった。 最後に、これらの知見を用いてランダムフォレスト分類器を構築し、共有音楽トラックがレシーバーが共有アーティストとエンゲージメントするかどうかを予測する。 このモデルでは,多様な特徴が組み込まれている場合にピーク性能が達成されるが,どのような社会的特徴や文脈的特徴が最も予測可能であるかが決定される。 これらの知見は,音楽発見と社会プロセスの相互作用を支える多面的メカニズムに対する新たな洞察を与える。

We explore the social and contextual factors that influence the outcome of person-to-person music recommendations and discovery. Specifically, we use data from Spotify to investigate how a link sent from one user to another results in the receiver engaging with the music of the shared artist. We consider several factors that may influence this process, such as the strength of the sender-receiver relationship, the user's role in the Spotify social network, their music social cohesion, and how similar the new artist is to the receiver's taste. We find that the receiver of a link is more likely to engage with a new artist when (1) they have similar music taste to the sender and the shared track is a good fit for their taste, (2) they have a stronger and more intimate tie with the sender, and (3) the shared artist is popular with the receiver's connections. Finally, we use these findings to build a Random Forest classifier to predict whether a shared music track will result in the receiver's engagement with the shared artist. This model elucidates which type of social and contextual features are most predictive, although peak performance is achieved when a diverse set of features are included. These findings provide new insights into the multifaceted mechanisms underpinning the interplay between music discovery and social processes.
翻訳日:2024-01-18 17:47:23 公開日:2024-01-16
# レイアウト・ツー・イメージ拡散モデルに逆方向のスーパービジョン

Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive ( http://arxiv.org/abs/2401.08815v1 )

ライセンス: Link先を確認
Yumeng Li and Margret Keuper and Dan Zhang and Anna Khoreva(参考訳) 近年の大規模拡散モデルの進歩にもかかわらず、l2i(layout-to-image)合成タスクはほとんど進展していない。 現在のl2iモデルは、テキストによる編集性の低下や、生成された画像と入力レイアウトのアライメントの弱さに苦しんでいる。 これにより、実用性は制限される。 これを軽減するために,従来のL2I拡散モデル(ALDM)のトレーニングパイプラインに,敵の監督を統合することを提案する。 具体的には,画像と入力レイアウトの画素レベルアライメントに基づいて拡散生成器に明示的なフィードバックを与えるセグメンテーションに基づく判別器を用いる。 サンプリングステップ上での入力レイアウトの整合性向上を図るため,マルチステップアンローリング戦略をさらに導入する。 1つのタイムステップを見る代わりに、推論プロセスを模倣するために再帰的にいくつかのステップをアンロールし、識別器に特定の時間ウィンドウ上のレイアウトと識別画像のアライメントを評価するように要求する。 実験の結果,ALDMは生成した画像のレイアウト忠実度を実現し,テキストプロンプトによる編集性の向上を実現している。 さらに,テキスト制御による対象分布サンプルの合成により,意味セグメンテーションモデルのドメイン一般化を大きなマージン(約12miou点)で改善する。

Despite the recent advances in large-scale diffusion models, little progress has been made on the layout-to-image (L2I) synthesis task. Current L2I models either suffer from poor editability via text or weak alignment between the generated image and the input layout. This limits their usability in practice. To mitigate this, we propose to integrate adversarial supervision into the conventional training pipeline of L2I diffusion models (ALDM). Specifically, we employ a segmentation-based discriminator which provides explicit feedback to the diffusion generator on the pixel-level alignment between the denoised image and the input layout. To encourage consistent adherence to the input layout over the sampling steps, we further introduce the multistep unrolling strategy. Instead of looking at a single timestep, we unroll a few steps recursively to imitate the inference process, and ask the discriminator to assess the alignment of denoised images with the layout over a certain time window. Our experiments show that ALDM enables layout faithfulness of the generated images, while allowing broad editability via text prompts. Moreover, we showcase its usefulness for practical applications: by synthesizing target distribution samples via text control, we improve domain generalization of semantic segmentation models by a large margin (~12 mIoU points).
翻訳日:2024-01-18 17:47:00 公開日:2024-01-16
# 人工物再構成のための暗黙表現の学習

Learning Implicit Representation for Reconstructing Articulated Objects ( http://arxiv.org/abs/2401.08809v1 )

ライセンス: Link先を確認
Hao Zhang, Fang Li, Samyak Rawlekar, and Narendra Ahuja(参考訳) 物体構造に関する追加情報のない移動物体の3次元再構成は難しい問題である。 現在の手法では、カテゴリ固有の骨格モデルを用いることでそのような課題を克服している。 したがって、彼らは野生の明瞭な対象に対してうまく一般化しない。 非剛性物質(例えば皮膚)に囲まれた未知の半剛性骨格構造として関節性物体を扱います。 提案手法は,3次元映像の視覚的(明示的な)表現(3次元形状,色,カメラパラメータ)と暗黙的な骨格表現を3次元の監督なしに同時に推定する。 暗黙の表現は4つの部分からなる。 1)半剛性部分の連結の仕方を規定する骨格。 (2) \textcolor{black}{skinning weights} は、各曲面頂点と半剛性部分と確率を関連付ける。 (3)局所表面の明瞭度を指定する剛性係数。 (4) 骨格運動と表面変形パラメータを規定する時間変化変換。 物理制約を正規化用語として用いるアルゴリズムを導入し,暗黙的表現と明示的表現の両方を反復的に推定する。 そこで本手法は,カテゴリ別スケルトンの必要性を排除し,標準ビデオデータセットにおける最先端の手法であることを示す。

3D Reconstruction of moving articulated objects without additional information about object structure is a challenging problem. Current methods overcome such challenges by employing category-specific skeletal models. Consequently, they do not generalize well to articulated objects in the wild. We treat an articulated object as an unknown, semi-rigid skeletal structure surrounded by nonrigid material (e.g., skin). Our method simultaneously estimates the visible (explicit) representation (3D shapes, colors, camera parameters) and the implicit skeletal representation, from motion cues in the object video without 3D supervision. Our implicit representation consists of four parts. (1) Skeleton, which specifies how semi-rigid parts are connected. (2) \textcolor{black}{Skinning Weights}, which associates each surface vertex with semi-rigid parts with probability. (3) Rigidity Coefficients, specifying the articulation of the local surface. (4) Time-Varying Transformations, which specify the skeletal motion and surface deformation parameters. We introduce an algorithm that uses physical constraints as regularization terms and iteratively estimates both implicit and explicit representations. Our method is category-agnostic, thus eliminating the need for category-specific skeletons, we show that our method outperforms state-of-the-art across standard video datasets.
翻訳日:2024-01-18 17:46:38 公開日:2024-01-16
# 量的双極性議論グラフの寄与関数:原理に基づく分析

Contribution Functions for Quantitative Bipolar Argumentation Graphs: A Principle-based Analysis ( http://arxiv.org/abs/2401.08879v1 )

ライセンス: Link先を確認
Timotheus Kampik, Nico Potyka, Xiang Yin, Kristijonas \v{C}yras, Francesca Toni(参考訳) 本稿では,ある論点の他の論点への寄与を定量化する定量的双極性議論グラフに対する貢献関数の原理に基づく解析を行う。 導入された原則は、異なる貢献関数の基礎となる直観を形式化し、貢献関数の振る舞いに関する期待を定式化する。 対象とする貢献関数はすべての原則を満たしていないので、私たちの分析は、与えられたユースケースの要件に基づいた最も適切な関数の選択を可能にするツールとして機能することができます。

We present a principle-based analysis of contribution functions for quantitative bipolar argumentation graphs that quantify the contribution of one argument to another. The introduced principles formalise the intuitions underlying different contribution functions as well as expectations one would have regarding the behaviour of contribution functions in general. As none of the covered contribution functions satisfies all principles, our analysis can serve as a tool that enables the selection of the most suitable function based on the requirements of a given use case.
翻訳日:2024-01-18 17:39:38 公開日:2024-01-16
# AI適応画像ラベリングにおけるコンフォーマル予測セットの有用性の評価

Evaluating the Utility of Conformal Prediction Sets for AI-Advised Image Labeling ( http://arxiv.org/abs/2401.08876v1 )

ライセンス: Link先を確認
Dongping Zhang, Angelos Chatzimparmpas, Negar Kamali, and Jessica Hullman(参考訳) ディープニューラルネットワークは高スループット領域に一般的に展開されるため、その解釈可能性の欠如は不確実性定量化を難しくする。 共形予測セット$\unicode{x2013}$aの分布のない不確実性定量化$\unicode{x2013}$aの方法が、aiが助言する意思決定における不確実性を表現するために有効であることを検証した。 大規模事前登録実験により,aiによる画像ラベリングにおいて,コンフォメーション予測セットの有用性をtop-1およびtop-k予測の表示と比較した。 予測セットの精度は,top-1やtop-kディスプレイと同等かそれ以上の精度で簡単な画像が得られるが,予測セットは,特にサイズが小さければ,out-of-distribution (ood) 画像のラベル付けを支援するのに優れている。 本研究は,共形予測セットの実際的課題を実証的に特定し,実世界の意思決定にどのように組み込むかを示す。

As deep neural networks are more commonly deployed in high-stakes domains, their lack of interpretability makes uncertainty quantification challenging. We investigate the effects of presenting conformal prediction sets$\unicode{x2013}$a method for generating valid confidence sets in distribution-free uncertainty quantification$\unicode{x2013}$to express uncertainty in AI-advised decision-making. Through a large pre-registered experiment, we compare the utility of conformal prediction sets to displays of Top-1 and Top-k predictions for AI-advised image labeling. We find that the utility of prediction sets for accuracy varies with the difficulty of the task: while they result in accuracy on par with or less than Top-1 and Top-k displays for easy images, prediction sets excel at assisting humans in labeling out-of-distribution (OOD) images especially when the set size is small. Our results empirically pinpoint the practical challenges of conformal prediction sets and provide implications on how to incorporate them for real-world decision-making.
翻訳日:2024-01-18 17:39:30 公開日:2024-01-16
# DCRMTA:マルチタッチ属性のための曖昧な因果表現

DCRMTA: Unbiased Causal Representation for Multi-touch Attribution ( http://arxiv.org/abs/2401.08875v1 )

ライセンス: Link先を確認
Jiaming Tang(参考訳) MTA(Multi-touch Attribution)は、現在、各広告タッチポイントの変換行動に対する貢献を公平に評価し、予算配分や広告推薦に深く影響している。 従来のマルチタッチ属性手法は、最初は変換予測モデルを構築し、歴史的データを通して、タッチポイントシーケンスとユーザ購入行動の固有の関係を学習する。 これにより、元のシーケンスサブセットから反事実的なタッチポイントシーケンスを合成し、予測モデルを用いて変換を推定し、広告貢献度を算出する。 これらの手法の隠れた仮定は変換予測モデルのバイアスのない性質である。 しかし,過去の買い物記録から生じる広告レコメンデーションの均質化などのインターネット・リコメンデーション機構とユーザの嗜好から生じる変数要因の相違により,観測データに基づいて学習した変換予測モデルに偏りが生じやすい。 本稿では,ユーザフェースチャーの変換に対する因果関係を再定義し,MTA(DCRMTA)のための新しいエンド・ツー・エンドアプローチであるDeep Causal Representationを提案する。 本モデルでは,ユーザからの変換に因果関係のある特徴を抽出する。 synthet-icとreal-world criteoデータの両方に関する、より広範な実験は、drmtaが様々なデータ分布にまたがる予測を変換する上で優れた性能を示すと同時に、dif-ferent広告チャネルにまたがる価値を効果的に分配する。

Multi-touch attribution (MTA) currently plays a pivotal role in achieving a fair estimation of the contributions of each advertising touchpoint to-wards conversion behavior, deeply influencing budget allocation and advertising recommenda-tion. Traditional multi-touch attribution methods initially build a conversion prediction model, an-ticipating learning the inherent relationship be-tween touchpoint sequences and user purchasing behavior through historical data. Based on this, counterfactual touchpoint sequences are con-structed from the original sequence subset, and conversions are estimated using the prediction model, thus calculating advertising contributions. A covert assumption of these methods is the un-biased nature of conversion prediction models. However, due to confounding variables factors arising from user preferences and internet recom-mendation mechanisms such as homogenization of ad recommendations resulting from past shop-ping records, bias can easily occur in conversion prediction models trained on observational data. This paper redefines the causal effect of user fea-tures on conversions and proposes a novel end-to-end approach, Deep Causal Representation for MTA (DCRMTA). Our model while eliminating confounding variables, extracts features with causal relations to conversions from users. Fur-thermore, Extensive experiments on both synthet-ic and real-world Criteo data demonstrate DCRMTA's superior performance in converting prediction across varying data distributions, while also effectively attributing value across dif-ferent advertising channels
翻訳日:2024-01-18 17:39:11 公開日:2024-01-16
# B-Cosアライメント変換器は人間の解釈可能な特徴を学習する

B-Cos Aligned Transformers Learn Human-Interpretable Features ( http://arxiv.org/abs/2401.08868v1 )

ライセンス: Link先を確認
Manuel Tran and Amal Lahiani and Yashin Dicente Cid and Melanie Boxberg and Peter Lienemann and Christian Matek and Sophia J. Wagner and Fabian J. Theis and Eldad Klaiman and Tingying Peng(参考訳) Vision Transformers (ViT) と Swin Transformers (Swin) は現在、計算病理学の最先端にある。 しかし、ドメインの専門家は解釈可能性の欠如のため、これらのモデルの使用をいまだに控えている。 重要な決定は透明で理解しなくてはならないため、これは驚くべきことではない。 トランスフォーマーを理解する最も一般的なアプローチは、彼らの注意を可視化することだ。 しかし、ViTの注意マップはしばしば断片化され、不満足な説明につながる。 本稿では,B-cos Vision Transformer (BvT) と呼ばれる,より解釈可能なアーキテクチャを提案する。 すべての線形変換をB-cos変換に置き換え、重み-入力アライメントを促進する。 盲目な調査では、医療専門家が明らかにBvTsをViTsより上位にランク付けし、我々のネットワークは生医学的な関連構造を捉えるのに優れていることを示唆している。 これはB-cos Swin Transformer (Bwin)にも当てはまる。 swin transformerと比較して、2つの公開データセットでf1-scoreを最大4.7%改善している。

Vision Transformers (ViTs) and Swin Transformers (Swin) are currently state-of-the-art in computational pathology. However, domain experts are still reluctant to use these models due to their lack of interpretability. This is not surprising, as critical decisions need to be transparent and understandable. The most common approach to understanding transformers is to visualize their attention. However, attention maps of ViTs are often fragmented, leading to unsatisfactory explanations. Here, we introduce a novel architecture called the B-cos Vision Transformer (BvT) that is designed to be more interpretable. It replaces all linear transformations with the B-cos transform to promote weight-input alignment. In a blinded study, medical experts clearly ranked BvTs above ViTs, suggesting that our network is better at capturing biomedically relevant structures. This is also true for the B-cos Swin Transformer (Bwin). Compared to the Swin Transformer, it even improves the F1-score by up to 4.7% on two public datasets.
翻訳日:2024-01-18 17:38:40 公開日:2024-01-16
# MambaTab: タブラルデータを扱うためのシンプルで効果的なアプローチ

MambaTab: A Simple Yet Effective Approach for Handling Tabular Data ( http://arxiv.org/abs/2401.08867v1 )

ライセンス: Link先を確認
Md Atik Ahamed and Qiang Cheng(参考訳) 機械学習には画像やテキストが多用されているにもかかわらず、タブラルデータはドメイン全体に分散している。 畳み込みニューラルネットワークやトランスフォーマーといったディープラーニングモデルは、表データで強力なパフォーマンスを実現する一方で、アクセシビリティとスケーラビリティを制限するために、広範なデータの前処理、チューニング、リソースが必要になる。 本研究は,表データのための構造化状態空間モデル(SSM)であるMambaTabに基づく革新的なアプローチを開発する。 SSMは、長距離依存を持つデータから効率的な表現を効率的に抽出する能力を持つ。 MambaTabは、テーブル上のエンドツーエンドの教師あり学習に、新興のSSM亜種であるMambaを利用している。 最先端のベースラインと比較して、mambatabは、様々なベンチマークデータセットで実証的に検証されるように、パラメータと最小限のプリプロセッシングを必要とするが、優れたパフォーマンスを提供する。 MambaTabの効率性、スケーラビリティ、一般化可能性、予測的ゲインは、より広範な実用的なアプリケーションを実現することを約束する多種多様な表データのための軽量な"アウト・オブ・ボックス"ソリューションであることを示している。

Tabular data remains ubiquitous across domains despite growing use of images and texts for machine learning. While deep learning models like convolutional neural networks and transformers achieve strong performance on tabular data, they require extensive data preprocessing, tuning, and resources, limiting accessibility and scalability. This work develops an innovative approach based on a structured state-space model (SSM), MambaTab, for tabular data. SSMs have strong capabilities for efficiently extracting effective representations from data with long-range dependencies. MambaTab leverages Mamba, an emerging SSM variant, for end-to-end supervised learning on tables. Compared to state-of-the-art baselines, MambaTab delivers superior performance while requiring significantly fewer parameters and minimal preprocessing, as empirically validated on diverse benchmark datasets. MambaTab's efficiency, scalability, generalizability, and predictive gains signify it as a lightweight, "out-of-the-box" solution for diverse tabular data with promise for enabling wider practical applications.
翻訳日:2024-01-18 17:38:24 公開日:2024-01-16
# 拡張的・代替的コミュニケーションの基礎モデル--機会と課題

Foundation Models in Augmentative and Alternative Communication: Opportunities and Challenges ( http://arxiv.org/abs/2401.08866v1 )

ライセンス: Link先を確認
Ambra Di Paola, Serena Muraro, Roberto Marinelli, Christian Pilato(参考訳) AAC(Augmentative and Alternative Communication)は、コミュニケーション障害を持つ人々を支援する重要な技術である。 AACは、音声言語を記号列に置き換えることで変換力を示す。 しかし、その潜在能力を最大限に活用するためには、AACの材料は特定の特性に固執し、教育者に対してカスタムにカスタマイズされた材料やシンボルを作成する。 本稿では,基礎モデルの能力を活用して多くのaac問題に取り組むオープンプラットフォームであるambra (pervasive and personalized augmentedative and alternative communication based on federated learning and generative ai)について紹介する。 そこで我々は,より包括的な社会に向けた説得力のあるビジョンを提示する。 現代の技術の能力を活用することで、私たちはAACを変換するだけでなく、コミュニケーションが境界を知らない世界へと導くことを目指しています。

Augmentative and Alternative Communication (AAC) are essential techniques that help people with communication disabilities. AAC demonstrates its transformative power by replacing spoken language with symbol sequences. However, to unlock its full potential, AAC materials must adhere to specific characteristics, placing the onus on educators to create custom-tailored materials and symbols. This paper introduces AMBRA (Pervasive and Personalized Augmentative and Alternative Communication based on Federated Learning and Generative AI), an open platform that aims to leverage the capabilities of foundation models to tackle many AAC issues, opening new opportunities (but also challenges) for AI-enhanced AAC. We thus present a compelling vision--a roadmap towards a more inclusive society. By leveraging the capabilities of modern technologies, we aspire to not only transform AAC but also guide the way toward a world where communication knows no bounds.
翻訳日:2024-01-18 17:38:04 公開日:2024-01-16
# 固有データセット特性が一般化に及ぼす影響 : 自然画像と医学画像の学習差の解明

The Effect of Intrinsic Dataset Properties on Generalization: Unraveling Learning Differences Between Natural and Medical Images ( http://arxiv.org/abs/2401.08865v1 )

ライセンス: Link先を確認
Nicholas Konz, Maciej A. Mazurowski(参考訳) 本稿では,自然画像領域から医用画像など他の専門領域へコンピュータビジョン技術を適用する際に見過ごされる異なる画像領域からニューラルネットワークがどのように学習するかの相違について検討する。 最近の研究により、トレーニングされたネットワークの一般化誤差は、トレーニングセットの内在次元(d_{data}$)によって増加することが判明した。 しかし、この関係の急激さは医学(放射線学)と自然画像領域の間で大きく異なり、理論的な説明はない。 この知識のギャップを,$d_{data}$に関して一般化スケーリング法を確立し,実証的に検証することで解決し,提案する指標である医療画像データセットの高内在性"ラベルシャープネス"(k_f$)による,少なくとも部分的には2つの領域間のスケーリングの不一致に起因する可能性があることを示唆する。 次に、トレーニングセットのラベルのシャープネスを測定する利点として、トレーニングモデルの逆方向の堅牢性と負の相関が示され、特に、敵方向の攻撃に対する脆弱性が著しく高い医療画像のモデルが導かれる。 最後に、私たちは$d_{data}$を関連する学習表現の内在次元(d_{repr}$)の計量に拡張し、$d_{repr}$に関して一般化スケーリング則を導出し、$d_{data}$が$d_{repr}$の上限となることを示す。 我々の理論的結果は、6つのモデルと11の自然・医療画像データセットによる、様々なトレーニングセットサイズでの徹底的な実験によって支えられている。 本研究は,ニューラルネットワークの一般化,表現学習,堅牢性に対する内在的データセット特性の影響について考察した。

This paper investigates discrepancies in how neural networks learn from different imaging domains, which are commonly overlooked when adopting computer vision techniques from the domain of natural images to other specialized domains such as medical images. Recent works have found that the generalization error of a trained network typically increases with the intrinsic dimension ($d_{data}$) of its training set. Yet, the steepness of this relationship varies significantly between medical (radiological) and natural imaging domains, with no existing theoretical explanation. We address this gap in knowledge by establishing and empirically validating a generalization scaling law with respect to $d_{data}$, and propose that the substantial scaling discrepancy between the two considered domains may be at least partially attributed to the higher intrinsic "label sharpness" ($K_F$) of medical imaging datasets, a metric which we propose. Next, we demonstrate an additional benefit of measuring the label sharpness of a training set: it is negatively correlated with the trained model's adversarial robustness, which notably leads to models for medical images having a substantially higher vulnerability to adversarial attack. Finally, we extend our $d_{data}$ formalism to the related metric of learned representation intrinsic dimension ($d_{repr}$), derive a generalization scaling law with respect to $d_{repr}$, and show that $d_{data}$ serves as an upper bound for $d_{repr}$. Our theoretical results are supported by thorough experiments with six models and eleven natural and medical imaging datasets over a range of training set sizes. Our findings offer insights into the influence of intrinsic dataset properties on generalization, representation learning, and robustness in deep neural networks.
翻訳日:2024-01-18 17:37:47 公開日:2024-01-16
# バイノーラル角分離ネットワーク

Binaural Angular Separation Network ( http://arxiv.org/abs/2401.08864v1 )

ライセンス: Link先を確認
Yang Yang, George Sung, Shao-Fu Shih, Hakan Erdogan, Chehung Lee, Matthias Grundmann(参考訳) 2つのマイクを用いて,異なる角度領域の音源間干渉からターゲット音声源を分離できるニューラルネットワークモデルを提案する。 モデルは、実RIRを収集する必要がない全方位マイクを用いて、模擬室インパルス応答(RIR)を用いて訓練される。 特定の角度領域と複数の部屋シミュレーションを頼りにすることで、様々な残響環境において頑健でありながらターゲットと干渉源を分離するために、TDOA(Content Time difference of arrival)キュー(遅延コントラスト)を利用する。 我々は、このモデルは、わずかに異なるマイクロフォン形状を持つ市販デバイスに一般化できるだけでなく、同じデバイスで1つの追加マイクを使用する以前の仕事よりも優れています。 このモデルはデバイス上でリアルタイムに動作し、電話やビデオ会議などの低遅延ストリーミングアプリケーションに適している。

We propose a neural network model that can separate target speech sources from interfering sources at different angular regions using two microphones. The model is trained with simulated room impulse responses (RIRs) using omni-directional microphones without needing to collect real RIRs. By relying on specific angular regions and multiple room simulations, the model utilizes consistent time difference of arrival (TDOA) cues, or what we call delay contrast, to separate target and interference sources while remaining robust in various reverberation environments. We demonstrate the model is not only generalizable to a commercially available device with a slightly different microphone geometry, but also outperforms our previous work which uses one additional microphone on the same device. The model runs in real-time on-device and is suitable for low-latency streaming applications such as telephony and video conferencing.
翻訳日:2024-01-18 17:37:16 公開日:2024-01-16
# キーレス入力系のための超広帯域センサのチャネルインパルス応答を用いたキーフォブのロバスト定位

Robust Localization of Key Fob Using Channel Impulse Response of Ultra Wide Band Sensors for Keyless Entry Systems ( http://arxiv.org/abs/2401.08863v1 )

ライセンス: Link先を確認
Abhiram Kolli, Filippo Casamassima, Horst Possegger, Horst Bischof(参考訳) キーレス入力のセキュリティ機能として、車内および周囲のキーフォブのローカライズにニューラルネットワークを使用することは、急速に進んでいる。 本稿では,その研究について述べる。 1) ニューラルネットワークを用いたUWB(ウルトラワイドバンド)の局所化分類における事前計算特性の性能は,実験のベースラインを形成する。 2)様々なニューラルネットワークの固有ロバスト性について検討するため,本研究では,敵対的トレーニングを伴わない敵例のロバスト性について検討する。 3) 対向訓練を行わずにベースラインニューラルネットワークを上回るマルチヘッド自己教師付きニューラルネットワークアーキテクチャを提案する。 モデルの性能は, 高速勾配法では, 一定の範囲で67%向上し, 基本反復法では37%, 投射勾配法では37%向上した。

Using neural networks for localization of key fob within and surrounding a car as a security feature for keyless entry is fast emerging. In this paper we study: 1) the performance of pre-computed features of neural networks based UWB (ultra wide band) localization classification forming the baseline of our experiments. 2) Investigate the inherent robustness of various neural networks; therefore, we include the study of robustness of the adversarial examples without any adversarial training in this work. 3) Propose a multi-head self-supervised neural network architecture which outperforms the baseline neural networks without any adversarial training. The model's performance improved by 67% at certain ranges of adversarial magnitude for fast gradient sign method and 37% each for basic iterative method and projected gradient descent method.
翻訳日:2024-01-18 17:37:00 公開日:2024-01-16
# o-ranにおけるネットワークスライシングによる資源割当の半教師付き学習手法

Semi-Supervised Learning Approach for Efficient Resource Allocation with Network Slicing in O-RAN ( http://arxiv.org/abs/2401.08861v1 )

ライセンス: Link先を確認
Salar Nouri, Mojdeh Karbalaee Motalleb, Vahid Shah-Mansouri, Seyed Pooya Shariatpanahi(参考訳) open radio access network (o-ran)技術は、ネットワークオペレーターにとって有望なソリューションとして登場し、オープンで好ましい環境を提供する。 x-アプリケーション(xAPP)の効果的なコーディネーションの確保は、柔軟性を高め、O-RAN内のネットワーク性能を最適化するために重要である。 本稿では,O-RANにおけるネットワークスライシングとリソースアロケーションのための複数の独立したxAPPを協調することを目的とした,リソースアロケーション問題に対する革新的なアプローチを提案する。 提案手法は,ユーザ機器(UE)のスループットの最大化と,物理リソースブロック(PRB)の割り当てに重点を置いている。 我々は,Mobile BroadbandとUltra Reliable Low Latency Communicationの2種類のサービスタイプを優先する。 そこで我々は,各UEに対する電力制御xAPPとPRB割り当てxAPPの2つのxAPPを設計した。 提案手法は,2つの部分からなる学習フェーズからなる。第1部は,電力伝達の抑制とユーザアソシエーションとprb割り当て決定を訓練した変分オートエンコーダを用いた教師付き学習であり,第2部は,モデルの一般化と堅牢性を改善するために,教師なし学習を用いている。 提案手法は, 徹底探索アルゴリズム, ディープqネットワークアルゴリズムから得られた結果と比較し, 回帰タスクの性能指標を報告することにより, 提案手法の性能を評価する。 また,提案モデルの性能をサービスタイプ間で異なるシナリオで評価する。 その結果,提案手法は最先端手法と比較してネットワークスライシング問題に対して効率的かつ効果的な解であることがわかった。

The Open Radio Access Network (O-RAN) technology has emerged as a promising solution for network operators, providing them with an open and favorable environment. Ensuring effective coordination of x-applications (xAPPs) is crucial to enhance flexibility and optimize network performance within the O-RAN. In this paper, we introduce an innovative approach to the resource allocation problem, aiming to coordinate multiple independent xAPPs for network slicing and resource allocation in O-RAN. Our proposed method focuses on maximizing the weighted throughput among user equipments (UE), as well as allocating physical resource blocks (PRBs). We prioritize two service types, namely enhanced Mobile Broadband and Ultra Reliable Low Latency Communication. To achieve this, we have designed two xAPPs: a power control xAPP for each UE and a PRB allocation xAPP. The proposed method consists of a two-part training phase, where the first part uses supervised learning with a Variational Autoencoder trained to regress the power transmission as well as the user association and PRB allocation decisions, and the second part uses unsupervised learning with a contrastive loss approach to improve the generalization and robustness of the model. We evaluate the performance of our proposed method by comparing its results to those obtained from an exhaustive search algorithm, deep Q-network algorithm, and by reporting performance metrics for the regression task. We also evaluate the proposed model's performance in different scenarios among the service types. The results show that the proposed method is a more efficient and effective solution for network slicing problems compared to state-of-the-art methods.
翻訳日:2024-01-18 17:36:46 公開日:2024-01-16
# 自己教師付き細粒度視覚分類のためのクロスレベルマルチインスタンス蒸留

Cross-Level Multi-Instance Distillation for Self-Supervised Fine-Grained Visual Categorization ( http://arxiv.org/abs/2401.08860v1 )

ライセンス: Link先を確認
Qi Bi and Wei Ji and Jingjun Yi and Haolan Zhan and Gui-Song Xia(参考訳) きめ細かい視覚カテゴリーの高品質なアノテーションは、税制と時間のかかる専門家の知識を必要とする。 あるいは、自己教師付き学習によって、巨大なラベルのない画像(種、ブランドなど)からきめ細かい視覚表現を学習することが、実現可能な解決策となる。 しかし,近年の研究では,従来の自己指導型学習手法では,細かなカテゴリを表現できないことが判明している。 ボトルネックは、プリテキスト表現がすべてのパッチ単位の埋め込みから構築されるのに対して、きめ細かいカテゴリはイメージのキーパッチによってのみ決定される点にある。 本稿では,この課題に対処するクロスレベルマルチインスタンス蒸留(CMD)フレームワークを提案する。 私たちの重要なアイデアは、複数のインスタンス学習によるきめ細かい事前テキスト表現を決定する上で、各イメージパッチの重要性を検討することです。 インフォメーションパッチと細粒度意味論の関係を包括的に学習するために、教師と学生ネットの地域/画像作物対と、教師/学生ネット内の地域画像作物の両方にマルチインテンス知識蒸留を行い、我々はインフォメーションレベルマルチインテンス蒸留及びインターレベルマルチインテンス蒸留を行う。 CUB-200-2011、スタンフォード・カーズ、FGVCエアクラフトの大規模な実験により、提案手法は現代の手法を最大10.14%上回り、既存の最先端の自己教師あり学習手法を最大19.78%上回った。

High-quality annotation of fine-grained visual categories demands great expert knowledge, which is taxing and time consuming. Alternatively, learning fine-grained visual representation from enormous unlabeled images (e.g., species, brands) by self-supervised learning becomes a feasible solution. However, recent researches find that existing self-supervised learning methods are less qualified to represent fine-grained categories. The bottleneck lies in that the pre-text representation is built from every patch-wise embedding, while fine-grained categories are only determined by several key patches of an image. In this paper, we propose a Cross-level Multi-instance Distillation (CMD) framework to tackle the challenge. Our key idea is to consider the importance of each image patch in determining the fine-grained pre-text representation by multiple instance learning. To comprehensively learn the relation between informative patches and fine-grained semantics, the multi-instance knowledge distillation is implemented on both the region/image crop pairs from the teacher and student net, and the region-image crops inside the teacher / student net, which we term as intra-level multi-instance distillation and inter-level multi-instance distillation. Extensive experiments on CUB-200-2011, Stanford Cars and FGVC Aircraft show that the proposed method outperforms the contemporary method by upto 10.14% and existing state-of-the-art self-supervised learning approaches by upto 19.78% on both top-1 accuracy and Rank-1 retrieval metric.
翻訳日:2024-01-18 17:36:18 公開日:2024-01-16
# Shabari: 高速で効率的なサーバレス機能のための遅延決定処理

Shabari: Delayed Decision-Making for Faster and Efficient Serverless Function ( http://arxiv.org/abs/2401.08859v1 )

ライセンス: Link先を確認
Prasoon Sinha and Kostis Kaffes and Neeraja J. Yadwadkar(参考訳) サーバレスコンピューティングは、開発者がリソース管理の負担を軽減し、ユーザへの使いやすさと、プロバイダのリソース利用を最適化する機会を提供する。 しかしながら、今日のサーバレスシステムは、関数呼び出しのパフォーマンス保証が欠如しているため、パフォーマンスクリティカルなアプリケーションのサポートが制限されている。 プロバイダはユーザ機能の可視性を欠いているため、適切なサイズにすることは困難である。 性能変動と不使用の原因を理解するため,一般に展開されているサーバレス機能の測定を行い,機能性能と資源利用が機能意味と入力に大きく依存していることを学んだ。 私たちの重要な洞察は、関数入力が利用可能になるまでリソース割り当ての決定を遅らせることです。 サーバーレスシステムのためのリソース管理フレームワークであるShabariを導入し、各呼び出しを適切なサイズにすることで、機能のパフォーマンス目標(SLO)を満たし、リソース利用を改善する。 Shabariはオンライン学習エージェントを使用して、関数入力の特徴に基づいて各関数呼び出しを右サイズ化し、コールドスタート対応のスケジューリング決定を行う。 さまざまなサーバレス機能とインプットに対して、Shabariは、Aquatope、Parrotfish、Cypressといった最先端システムと比較して、SLO違反を11~73%削減し、vCPUを無駄にせず、時間の無駄なメモリを64~94%削減する。

Serverless computing relieves developers from the burden of resource management, thus providing ease-of-use to the users and the opportunity to optimize resource utilization for the providers. However, today's serverless systems lack performance guarantees for function invocations, thus limiting support for performance-critical applications: we observed severe performance variability (up to 6x). Providers lack visibility into user functions and hence find it challenging to right-size them: we observed heavy resource underutilization (up to 80%). To understand the causes behind the performance variability and underutilization, we conducted a measurement study of commonly deployed serverless functions and learned that the function performance and resource utilization depend crucially on function semantics and inputs. Our key insight is to delay making resource allocation decisions until after the function inputs are available. We introduce Shabari, a resource management framework for serverless systems that makes decisions as late as possible to right-size each invocation to meet functions' performance objectives (SLOs) and improve resource utilization. Shabari uses an online learning agent to right-size each function invocation based on the features of the function input and makes cold-start-aware scheduling decisions. For a range of serverless functions and inputs, Shabari reduces SLO violations by 11-73% while not wasting any vCPUs and reducing wasted memory by 64-94% in the median case, compared to state-of-the-art systems, including Aquatope, Parrotfish, and Cypress.
翻訳日:2024-01-18 17:35:47 公開日:2024-01-16
# フラックス可変マイクロ波空洞を用いた浮遊超電導体のリモートセンシング

Remote sensing of a levitated superconductor with a flux-tunable microwave cavity ( http://arxiv.org/abs/2401.08854v1 )

ライセンス: Link先を確認
Philip Schmidt, Remi Claessen, Gerard Higgings, Joachim Hofer, Jannek J. Hansen, Peter Asenbaum, Kevin Uhl, Reinhold Kleiner, Rudolf Gross, Hans Huebl, Michael Trupke, Markus Aspelmeyer(参考訳) 本稿では,マイクロ波共振器に埋め込まれた超伝導量子干渉装置からなる空洞-電界系について,6$\mu$gの磁気浮上型超伝導球にピックアップループで結合する。 磁気トラップにおける球の運動は、SQUIDキャビティ系の周波数シフトを誘導する。 我々はマイクロ波分光法を用いてシステムを特徴づけ、電気機械相互作用がチューニング可能であることを示す。 10^{-7} \, \mathrm{m} / \sqrt{\mathrm{hz}}$ の変位感度の測定は、ミリケルビン環境温度でプランクスケールの質量を持つ浮遊粒子の地上冷却への道を定義する。

We present a cavity-electromechanical system comprising a superconducting quantum interference device which is embedded in a microwave resonator and coupled via a pick-up loop to a 6 $\mu$g magnetically-levitated superconducting sphere. The motion of the sphere in the magnetic trap induces a frequency shift in the SQUID-cavity system. We use microwave spectroscopy to characterize the system, and we demonstrate that the electromechanical interaction is tunable. The measured displacement sensitivity of $10^{-7} \, \mathrm{m} / \sqrt{\mathrm{Hz}}$, defines a path towards ground-state cooling of levitated particles with Planck-scale masses at millikelvin environment temperatures.
翻訳日:2024-01-18 17:35:19 公開日:2024-01-16
# 単層構造に基づく浮遊粒子の波長可変オンチップ光トラップ

Tunable on-chip optical traps for levitating particles based on single-layer metasurface ( http://arxiv.org/abs/2401.08852v1 )

ライセンス: Link先を確認
Chuang Sun, Hailong Pi, Kian Shen Kiang, Tiberius S. Georgescu, Jun-Yu Ou, Hendrik Ulbricht, and Jize Yan(参考訳) 光レビテーションされた複数のナノ粒子は、非平衡現象、量子絡み合い、光-物質相互作用などの複雑な基礎物理学を研究するための基盤として現れており、これは弱い力やトルクを高い感度と精度で感知するために応用できる。 単一高調波トラップを超える浮遊粒子間の相互作用を設計するには、複雑化の光学的トラップランドスケープが必要である。 しかしながら、浮遊粒子間の相互作用を研究するための空間光変調器に基づく既存のプラットフォームは、低効率、焦点の不安定性、光学系の複雑さ、センシングアプリケーションのスケーラビリティに苦しんだ。 ここでは,2点の回折制限焦点(0.9),高効率(31%)を形成する準曲面が,強度変動のない可変光電位井戸を生成可能であることを実験的に実証した。 実験では、焦点距離を変えて双安定電位と二重ポテンシャル井戸が観測され、2つのナノ粒子が何時間も二重ポテンシャル井戸に浮き彫りにされ、浮き彫り粒子の非線形力学、熱力学、光結合の研究に利用された。 これにより、浮揚光機械装置の数を増加させ、平行浮揚センサを実現する方法が整うことになる。

Optically levitated multiple nanoparticles has emerged as a platform for studying complex fundamental physics such as non-equilibrium phenomena, quantum entanglement, and light-matter interaction, which could be applied for sensing weak forces and torques with high sensitivity and accuracy. An optical trapping landscape of increased complexity is needed to engineer the interaction between levitated particles beyond the single harmonic trap. However, existing platforms based on spatial light modulators for studying interactions between levitated particles suffered from low efficiency, instability at focal points, the complexity of optical systems, and the scalability for sensing applications. Here, we experimentally demonstrated that a metasurface which forms two diffraction-limited focal points with a high numerical aperture (0.9) and high efficiency (31%) can generate tunable optical potential wells without any intensity fluctuations. A bistable potential and double potential wells were observed in the experiment by varying the focal points distance, and two nanoparticles were levitated in double potential wells for hours, which could be used for investigating the levitated particles nonlinear dynamics, thermal dynamics, and optical binding. This would pave the way for scaling the number of levitated optomechanical devices or realizing paralleled levitated sensors.
翻訳日:2024-01-18 17:35:04 公開日:2024-01-16
# 被験者非依存型脳波伝達学習におけるi-vectorsの利用

Using i-vectors for subject-independent cross-session EEG transfer learning ( http://arxiv.org/abs/2401.08851v1 )

ライセンス: Link先を確認
Jonathan Lasko, Jeff Ma, Mike Nicoletti, Jonathan Sussman-Fort, Sooyoung Jeong, William Hartmann(参考訳) 認知的負荷分類は、脳波(EEG)などの生理学的指標に基づいて、作業中の記憶資源の活用を自動的に判定するタスクである。 本稿では,この問題に対処するために,音声処理のツールや方法論を用いる分野横断的なアプローチに従う。 我々が使用しているコーパスは2021年に、クロスセッションのワークロード推定に関する最初の受動的脳-コンピュータインターフェースコンペティションの一部として公開された。 我々は,i-vector-based Neural Network Classifiers を用いて,物体間EEG伝達学習を実現し,等価対象依存モデルよりも18%の相対的改善を実現した。 また, 被験者非依存モデルが保持対象に対して競争的に機能し, 追加対象データで改善する実験を報告し, 効果的な認知負荷判定には, 被験者非依存トレーニングは必要ないことを示唆した。

Cognitive load classification is the task of automatically determining an individual's utilization of working memory resources during performance of a task based on physiologic measures such as electroencephalography (EEG). In this paper, we follow a cross-disciplinary approach, where tools and methodologies from speech processing are used to tackle this problem. The corpus we use was released publicly in 2021 as part of the first passive brain-computer interface competition on cross-session workload estimation. We present our approach which used i-vector-based neural network classifiers to accomplish inter-subject cross-session EEG transfer learning, achieving 18% relative improvement over equivalent subject-dependent models. We also report experiments showing how our subject-independent models perform competitively on held-out subjects and improve with additional subject data, suggesting that subject-dependent training is not required for effective cognitive load determination.
翻訳日:2024-01-18 17:34:39 公開日:2024-01-16
# NOTSOFAR-1 チャレンジ: 遠隔会議記録のための新しいデータセット、ベースライン、タスク

NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant Meeting Transcription ( http://arxiv.org/abs/2401.08887v1 )

ライセンス: Link先を確認
Alon Vinnikov, Amir Ivry, Aviv Hurvitz, Igor Abramovski, Sharon Koubi, Ilya Gurvich, Shai Pe`er, Xiong Xiao, Benjamin Martinez Elizalde, Naoyuki Kanda, Xiaofei Wang, Shalev Shaer, Stav Yagev, Yossi Asher, Sunit Sivasankaran, Yifan Gong, Min Tang, Huaming Wang, Eyal Krupka(参考訳) 遠隔地音声録音(`notsofar-1'')の課題設定において、データセットとベースラインシステムと並行して、最初の自然オフィストーキーを導入する。 この課題は,単一チャネルと既知のジオメトリのマルチチャネルトラックを備えた遠距離話者ダイアリゼーションとDASR(Automatic Speech Recognition)による,遠距離話者ダイアリゼーションと自動音声認識(DASR)に焦点を当て,2つの新しいデータセットのローンチプラットフォームとして機能する。 30の会議室で録音され、4-8人の参加者と35人のユニークなスピーカーが参加している。 第二に、1000時間のシミュレートトレーニングデータセットを合成し、実世界の一般化のための信頼性を高め、15,000の実際の音響伝達機能を組み込んだ。 タスクは、マルチチャネルデバイスが常に同じ既知の幾何学を共有する単一デバイスDASRにフォーカスする。 これは実際の会議室で一般的な設定と一致し、マルチデバイスタスクに関連する技術的な複雑さを避ける。 また、幾何学的特有な解の開発も可能である。 NOTSOFAR-1 Challengeは、遠隔会話音声認識の分野での研究を進め、データ駆動方式の可能性を解き放つための重要なリソースを提供することを目的としている。

We introduce the first Natural Office Talkers in Settings of Far-field Audio Recordings (``NOTSOFAR-1'') Challenge alongside datasets and baseline system. The challenge focuses on distant speaker diarization and automatic speech recognition (DASR) in far-field meeting scenarios, with single-channel and known-geometry multi-channel tracks, and serves as a launch platform for two new datasets: First, a benchmarking dataset of 315 meetings, averaging 6 minutes each, capturing a broad spectrum of real-world acoustic conditions and conversational dynamics. It is recorded across 30 conference rooms, featuring 4-8 attendees and a total of 35 unique speakers. Second, a 1000-hour simulated training dataset, synthesized with enhanced authenticity for real-world generalization, incorporating 15,000 real acoustic transfer functions. The tasks focus on single-device DASR, where multi-channel devices always share the same known geometry. This is aligned with common setups in actual conference rooms, and avoids technical complexities associated with multi-device tasks. It also allows for the development of geometry-specific solutions. The NOTSOFAR-1 Challenge aims to advance research in the field of distant conversational speech recognition, providing key resources to unlock the potential of data-driven methods, which we believe are currently constrained by the absence of comprehensive high-quality training and benchmarking datasets.
翻訳日:2024-01-18 17:23:30 公開日:2024-01-16
# RiemannONets: Riemann問題に対する解釈可能なニューラル演算子

RiemannONets: Interpretable Neural Operators for Riemann Problems ( http://arxiv.org/abs/2401.08886v1 )

ライセンス: Link先を確認
Ahmad Peyvan, Vivek Oommen, Ameya D. Jagtap, George Em Karniadakis(参考訳) 強い衝撃波、レアファクト、接触不連続を伴う高速流れをシミュレートするための適切な表現を開発することは、数値解析において長年の疑問である。 ここでは, 圧縮性流れに遭遇するリーマン問題を解くために, ニューラルネットワークを用いて極端な圧力上昇(最大10^{10}$圧力比)を行う。 特に、リー・シンの最近の研究に続いて、2段階のプロセスで訓練するディープネットをまず考慮し、第1段階において幹網から基底を抽出し、正規化し、次いで第2段階において分岐網の訓練に使用する。 このDeepONetの単純な修正は、その正確さ、効率、堅牢性に大きな影響を与え、バニラ版と比較してリーマン問題に対する非常に正確な解決をもたらす。 また、階層的なデータ駆動生成ベースが、アドホックな機能拡張層を使って導入されるであろうすべてのフロー特徴を反映しているとして、結果を物理的に解釈することができる。 また、u-netに基づく他のニューラルネットワークと、リーマン問題、特に大きな圧力比において非常に正確である低・中・超高圧比について比較する。 本研究は,ニューラルネットワークアーキテクチャが適切に事前訓練された場合,実時間予測のためのリーマン問題の極めて正確な解が得られることを示す。

Developing the proper representations for simulating high-speed flows with strong shock waves, rarefactions, and contact discontinuities has been a long-standing question in numerical analysis. Herein, we employ neural operators to solve Riemann problems encountered in compressible flows for extreme pressure jumps (up to $10^{10}$ pressure ratio). In particular, we first consider the DeepONet that we train in a two-stage process, following the recent work of Lee and Shin, wherein the first stage, a basis is extracted from the trunk net, which is orthonormalized and subsequently is used in the second stage in training the branch net. This simple modification of DeepONet has a profound effect on its accuracy, efficiency, and robustness and leads to very accurate solutions to Riemann problems compared to the vanilla version. It also enables us to interpret the results physically as the hierarchical data-driven produced basis reflects all the flow features that would otherwise be introduced using ad hoc feature expansion layers. We also compare the results with another neural operator based on the U-Net for low, intermediate, and very high-pressure ratios that are very accurate for Riemann problems, especially for large pressure ratios, due to their multiscale nature but computationally more expensive. Overall, our study demonstrates that simple neural network architectures, if properly pre-trained, can achieve very accurate solutions of Riemann problems for real-time forecasting.
翻訳日:2024-01-18 17:23:05 公開日:2024-01-16
# 強い逆指数としての次数 1/2 から 1 へのサンドイッチ r\'enyi の発散の操作解釈

Operational Interpretation of the Sandwiched R\'enyi Divergence of Order 1/2 to 1 as Strong Converse Exponents ( http://arxiv.org/abs/2209.00554v3 )

ライセンス: Link先を確認
Ke Li, Yongsheng Yao(参考訳) 量子タスクの厳密な逆指数のキャラクタリゼーションにおける操作的解釈とともに、その誘導量子情報量と同様に、次数 $\alpha\in(\frac{1}{2},1)$ のサンドウィッチされた r\'enyi 分岐を与える。 特に私たちは (a)最大関係エントロピーの平滑化。 (b) 量子プライバシーの増幅及び (c) 量子情報の分離。 これら3つのタスクの正確な逆指数を決定する問題は、その性能を忠実度または浄化距離で測定することで解決する。 結果は、次数 $\alpha\in(\frac{1}{2},1)$ のサンドイッチ付き R'enyi 分岐と、その誘導量子 R'enyi 条件エントロピーと量子 R'enyi 相互情報によって与えられる。 R'enyi を R'enyi パラメータで挟んだサンドイッチの正確な操作意味を $\alpha\in(\frac{1}{2},1)$ で見つけるのはこれが初めてである。

We provide the sandwiched R\'enyi divergence of order $\alpha\in(\frac{1}{2},1)$, as well as its induced quantum information quantities, with an operational interpretation in the characterization of the exact strong converse exponents of quantum tasks. Specifically, we consider (a) smoothing of the max-relative entropy, (b) quantum privacy amplification, and (c) quantum information decoupling. We solve the problem of determining the exact strong converse exponents for these three tasks, with the performance being measured by the fidelity or purified distance. The results are given in terms of the sandwiched R\'enyi divergence of order $\alpha\in(\frac{1}{2},1)$, and its induced quantum R\'enyi conditional entropy and quantum R\'enyi mutual information. This is the first time to find the precise operational meaning for the sandwiched R\'enyi divergence with R\'enyi parameter in the interval $\alpha\in(\frac{1}{2},1)$.
翻訳日:2024-01-18 11:29:53 公開日:2024-01-16
# BUOL:1枚の画像からパノプティカル3Dシーンを再現するボトムアップフレームワーク

BUOL: A Bottom-Up Framework with Occupancy-aware Lifting for Panoptic 3D Scene Reconstruction From A Single Image ( http://arxiv.org/abs/2306.00965v2 )

ライセンス: Link先を確認
Tao Chu, Pan Zhang, Qiong Liu, Jiaqi Wang(参考訳) 一つの画像から3dシーンを理解・モデル化することは現実的な問題である。 近年,1枚の画像から3次元の立体再構成と3次元の立体分割を行うパノプティカル3Dシーン再構築タスクが提案されている。 かなり進歩したが、最近の研究は、2Dインスタンスを推定深度に応じて3Dボクセルに詰め込むトップダウンアプローチにのみ焦点を当てている。 1) インスタンスチャネルの曖昧さ: 各シーンのインスタンスの可変IDは, ボクセルチャネルを2次元情報で埋める際の曖昧さを引き起こし, 以下の3次元改善を混乱させる。 2) ボクセル・リコンストラクションの曖昧さ: 単一視深度を推定した2D-to-3Dリフトは3次元領域の表面にのみ2D情報を伝播させ, 前方視面後方の領域の再構築において曖昧性をもたらす。 本稿では,1枚の画像からパノプティカル3Dシーンを再現する2つの問題に対処する,Occupancy-aware Lifting を用いたボトムアップフレームワーク BUOL を提案する。 ボトムアップフレームワークは、任意のインスタンスid代入ではなく、決定論的意味的代入に基づく3dボクセルに2d情報を持ち上げる。 予測された2Dインスタンスセンターによると、3Dボクセルは洗練され、3Dインスタンスにグループ化される。 voxel-restruction ambiguityでは、推定されたマルチプレーン占有率と深さを併用して、物や物の領域全体を埋める。 提案手法は,3D-Frontおよび実世界のデータセットMatterport3Dにおける最先端の手法よりも優れた性能を示す。 コードとモデルはhttps://github.com/chtsy/buolで入手できる。

Understanding and modeling the 3D scene from a single image is a practical problem. A recent advance proposes a panoptic 3D scene reconstruction task that performs both 3D reconstruction and 3D panoptic segmentation from a single image. Although having made substantial progress, recent works only focus on top-down approaches that fill 2D instances into 3D voxels according to estimated depth, which hinders their performance by two ambiguities. (1) instance-channel ambiguity: The variable ids of instances in each scene lead to ambiguity during filling voxel channels with 2D information, confusing the following 3D refinement. (2) voxel-reconstruction ambiguity: 2D-to-3D lifting with estimated single view depth only propagates 2D information onto the surface of 3D regions, leading to ambiguity during the reconstruction of regions behind the frontal view surface. In this paper, we propose BUOL, a Bottom-Up framework with Occupancy-aware Lifting to address the two issues for panoptic 3D scene reconstruction from a single image. For instance-channel ambiguity, a bottom-up framework lifts 2D information to 3D voxels based on deterministic semantic assignments rather than arbitrary instance id assignments. The 3D voxels are then refined and grouped into 3D instances according to the predicted 2D instance centers. For voxel-reconstruction ambiguity, the estimated multi-plane occupancy is leveraged together with depth to fill the whole regions of things and stuff. Our method shows a tremendous performance advantage over state-of-the-art methods on synthetic dataset 3D-Front and real-world dataset Matterport3D. Code and models are available in https://github.com/chtsy/buol.
翻訳日:2024-01-18 09:29:53 公開日:2024-01-16
# 大きな言語モデルによる機械翻訳:ペルシア語、英語、ロシア語の指示のための即応的工学

Machine Translation with Large Language Models: Prompt Engineering for Persian, English, and Russian Directions ( http://arxiv.org/abs/2401.08429v1 )

ライセンス: Link先を確認
Nooshin Pourkamali, Shler Ebrahim Sharifi(参考訳) 生成型大言語モデル(llm)は、機械翻訳、質問応答、テキスト要約、自然言語理解など、様々な自然言語処理(nlp)タスクにおいて非常に熟練している。 機械翻訳におけるLLMの性能向上を目的として,ペルシャ語,英語,ロシア語の言語間組み合わせに着目した2つの普及促進手法とその組み合わせの検討を行った。 私たちはnショット給餌とカスタマイズしたプロンプトフレームワークを採用しました。 以上の結果から,PALMのような多言語LLMは人為的な機械翻訳の出力を示し,スタイルガイドラインや言語学的考察に応じて,所望の翻訳ニュアンスを優良に微調整できることがわかった。 これらのモデルはプロンプトの処理や適用にも優れている。 しかし、言語モデル、機械翻訳タスク、および特定のソースおよびターゲット言語の選択は、プロンプトフレームワークを採用し、n-shot in-context学習を利用する場合の考慮を必要とする。 さらに,LLMに固有の誤りや制限を機械翻訳ツールとして同定し,様々な言語指標に基づいて分類した。 このエラーのタイプは、LLMを効果的に活用するための貴重な洞察を与え、文脈内学習のためのプロンプトを設計する方法を提供する。 本報告は,評価指標の精度と信頼性を両立させることで,LLMによる機械翻訳の進歩に寄与することを目的とする。

Generative large language models (LLMs) have demonstrated exceptional proficiency in various natural language processing (NLP) tasks, including machine translation, question answering, text summarization, and natural language understanding. To further enhance the performance of LLMs in machine translation, we conducted an investigation into two popular prompting methods and their combination, focusing on cross-language combinations of Persian, English, and Russian. We employed n-shot feeding and tailored prompting frameworks. Our findings indicate that multilingual LLMs like PaLM exhibit human-like machine translation outputs, enabling superior fine-tuning of desired translation nuances in accordance with style guidelines and linguistic considerations. These models also excel in processing and applying prompts. However, the choice of language model, machine translation task, and the specific source and target languages necessitate certain considerations when adopting prompting frameworks and utilizing n-shot in-context learning. Furthermore, we identified errors and limitations inherent in popular LLMs as machine translation tools and categorized them based on various linguistic metrics. This typology of errors provides valuable insights for utilizing LLMs effectively and offers methods for designing prompts for in-context learning. Our report aims to contribute to the advancement of machine translation with LLMs by improving both the accuracy and reliability of evaluation metrics.
翻訳日:2024-01-18 09:26:30 公開日:2024-01-16
# 非分化性がニューラルネットワークトレーニングに影響を及ぼす3つの方法

Three ways that non-differentiability affects neural network training ( http://arxiv.org/abs/2401.08426v1 )

ライセンス: Link先を確認
Siddharth Krishna Kumar(参考訳) 本稿では,ニューラルネットワークの学習過程の3つの異なる側面に非微分性がどのように影響するかについて検討する。 まず,完全連結型ニューラルネットワークをreluアクティベーションで解析し,連続微分可能なニューラルネットワークが非微分型ニューラルネットワークよりも高速に収束することを示す。 次に、$L_{1}$正規化の問題を分析し、深層学習解法が生み出す解が、$L_{1}$ペナル化線形モデルであっても誤りで直観的でないことを示す。 最後に、すべての凸、非滑らか、リプシッツ連続函数が不安定収束を示すことを示す安定性のエッジを解析し、一度微分可能条件で失敗する2つの微分可能関数を用いて導出した結果の例を示す。 より一般的には、トレーニングプロセスにおけるニューラルネットワークの非線形性を考慮することは、より良いアルゴリズムを開発し、トレーニングプロセス全般をよりよく理解するためには不可欠であることが示唆される。

This paper investigates how non-differentiability affects three different aspects of the neural network training process. We first analyze fully connected neural networks with ReLU activations, for which we show that the continuously differentiable neural networks converge faster than non-differentiable neural networks. Next, we analyze the problem of $L_{1}$ regularization and show that the solutions produced by deep learning solvers are incorrect and counter-intuitive even for the $L_{1}$ penalized linear model. Finally, we analyze the Edge of Stability problem, where we show that all convex, non-smooth, Lipschitz continuous functions display unstable convergence, and provide an example of a result derived using twice differentiable functions which fails in the once differentiable setting. More generally, our results suggest that accounting for the non-linearity of neural networks in the training process is essential for us to develop better algorithms, and to get a better understanding of the training process in general.
翻訳日:2024-01-18 09:26:05 公開日:2024-01-16
# u-diads-bib:古写本の文書レイアウト分析のためのフル・マイ・ショット・ピクセル・プリシズデータセット

U-DIADS-Bib: a full and few-shot pixel-precise dataset for document layout analysis of ancient manuscripts ( http://arxiv.org/abs/2401.08425v1 )

ライセンス: Link先を確認
Silvia Zottin, Axel De Nardin, Emanuela Colombi, Claudio Piciarelli, Filippo Pavan, Gian Luca Foresti(参考訳) 文書レイアウト分析は、文書ページ内の異なる意味領域を識別するタスクであり、コンピュータ科学者と人文科学研究者の両方にとって大きな関心事であり、前者のさらなる分析タスクに向けた基本的なステップであり、後者のための文書の研究を改善・促進するための強力なツールである。 しかし、現在文献に存在している作品の多くは、特に利用可能なデータセットに関しては、両方の世界のニーズを満たすことができず、特にコンピュータ科学の分野におけるニーズと共通の実践に傾倒し、人文科学の真のニーズを代表していないリソースに繋がる傾向にある。 そこで本稿では,コンピュータビジョンと人文科学のスペシャリストとの密接なコラボレーションにより開発された,新しい,画素精度,非重複,ノイズのない文書レイアウト分析データセット u-diads-bib を紹介する。 さらに, 基礎的真理セグメンテーションマップの作成に必要な, 手動アノテーションの時間的消費過程で表される負担を軽減するために, 新たなコンピュータ支援セグメンテーションパイプラインを提案する。 最後に、この課題に可能な限り少ないサンプルで対処できるモデルやソリューションの開発を促進することを目的として、データセットの標準化された数ショットバージョン(U-DIADS-BibFS)を提案する。

Document Layout Analysis, which is the task of identifying different semantic regions inside of a document page, is a subject of great interest for both computer scientists and humanities scholars as it represents a fundamental step towards further analysis tasks for the former and a powerful tool to improve and facilitate the study of the documents for the latter. However, many of the works currently present in the literature, especially when it comes to the available datasets, fail to meet the needs of both worlds and, in particular, tend to lean towards the needs and common practices of the computer science side, leading to resources that are not representative of the humanities real needs. For this reason, the present paper introduces U-DIADS-Bib, a novel, pixel-precise, non-overlapping and noiseless document layout analysis dataset developed in close collaboration between specialists in the fields of computer vision and humanities. Furthermore, we propose a novel, computer-aided, segmentation pipeline in order to alleviate the burden represented by the time-consuming process of manual annotation, necessary for the generation of the ground truth segmentation maps. Finally, we present a standardized few-shot version of the dataset (U-DIADS-BibFS), with the aim of encouraging the development of models and solutions able to address this task with as few samples as possible, which would allow for more effective use in a real-world scenario, where collecting a large number of segmentations is not always feasible.
翻訳日:2024-01-18 09:25:49 公開日:2024-01-16
# クロスドメイン増強を用いた限定教師付き足部潰瘍セグメンテーションの改善

Improving Limited Supervised Foot Ulcer Segmentation Using Cross-Domain Augmentation ( http://arxiv.org/abs/2401.08422v1 )

ライセンス: Link先を確認
Shang-Jui Kuo, Po-Han Huang, Chia-Ching Lin, Jeng-Lin Li, Ming-Ching Chang(参考訳) 糖尿病性足潰瘍は、死亡率、死亡率、切断率などの健康リスクを引き起こす。 創傷部位のモニタリングは適切なケアには不可欠であるが, 複雑な創傷の特徴と背景変化により手指分割が主観的である。 エキスパートアノテーションはコストが高く、時間を要するため、大規模なデータセット生成を妨げる。 大規模なアノテーションに依存する既存のセグメンテーションモデルは、注釈データに制限のある現実のシナリオでは実用的ではない。 本稿では,Augmented Global Pre-training AGPとLocalized CutMix Fine-tuning LCFを組み合わせたTransMixというクロスドメイン拡張手法を提案する。 TransMixは、潰瘍の皮膚や傷ではなく、他の皮膚科学データセットを活用することにより、足部潰瘍セグメンテーションモデルのトレーニングを効果的に改善することができる。 AGPは画像全体のばらつきを効果的に増加させ、LCFは傷領域の多様性を増大させる。 実験結果から,transmixは創傷領域の変動性を増加させ,40個のアノテート画像で訓練したモデルのサイススコアを,様々な割合で実質的に向上させた。

Diabetic foot ulcers pose health risks, including higher morbidity, mortality, and amputation rates. Monitoring wound areas is crucial for proper care, but manual segmentation is subjective due to complex wound features and background variation. Expert annotations are costly and time-intensive, thus hampering large dataset creation. Existing segmentation models relying on extensive annotations are impractical in real-world scenarios with limited annotated data. In this paper, we propose a cross-domain augmentation method named TransMix that combines Augmented Global Pre-training AGP and Localized CutMix Fine-tuning LCF to enrich wound segmentation data for model learning. TransMix can effectively improve the foot ulcer segmentation model training by leveraging other dermatology datasets not on ulcer skins or wounds. AGP effectively increases the overall image variability, while LCF increases the diversity of wound regions. Experimental results show that TransMix increases the variability of wound regions and substantially improves the Dice score for models trained with only 40 annotated images under various proportions.
翻訳日:2024-01-18 09:25:22 公開日:2024-01-16
# Ask the Expert:Human-AIコラボレーションによる栄養カウンセリングのための高品質データセットのソーシング

Ask the experts: sourcing high-quality datasets for nutritional counselling through Human-AI collaboration ( http://arxiv.org/abs/2401.08420v1 )

ライセンス: Link先を確認
Simone Balloccu, Ehud Reiter, Vivek Kumar, Diego Reforgiato Recupero and Daniele Riboni(参考訳) 柔軟性のある生成能力を持つ大規模言語モデル(LLM)は、利用可能なコーパスがほとんどあるいは全くないドメインの強力なデータソースとなる。 しかし、幻覚や偏見といった問題はそのような応用を制限する。 本研究では,公共資源を欠く領域である栄養カウンセリングを選択し,LLM,クラウドワーカー,栄養専門家を組み合わせて高品質なデータセットを収集できることを示す。 われわれはまず、食生活に関する新しいデータセットをクラウドソースしてクラスタ化し、その後専門家と協力してChatGPTに関連スポンサードテキストの作成を促す。 最後に,生成したテキストの安全性を専門家に評価させる。 HAI-coachingは,ChatGPTが生成した約2.4Kの食事障害と約97Kの関連サポートテキストを含む,最初の専門家による栄養カウンセリングデータセットである。 広範囲な分析によると、ChatGPTは高度に流動的で人間らしいテキストを生成する一方で、有害な行動、特にメンタルヘルスのようなセンシティブなトピックに現れ、教師なしの使用には適さない。

Large Language Models (LLMs), with their flexible generation abilities, can be powerful data sources in domains with few or no available corpora. However, problems like hallucinations and biases limit such applications. In this case study, we pick nutrition counselling, a domain lacking any public resource, and show that high-quality datasets can be gathered by combining LLMs, crowd-workers and nutrition experts. We first crowd-source and cluster a novel dataset of diet-related issues, then work with experts to prompt ChatGPT into producing related supportive text. Finally, we let the experts evaluate the safety of the generated text. We release HAI-coaching, the first expert-annotated nutrition counselling dataset containing ~2.4K dietary struggles from crowd workers, and ~97K related supportive texts generated by ChatGPT. Extensive analysis shows that ChatGPT while producing highly fluent and human-like text, also manifests harmful behaviours, especially in sensitive topics like mental health, making it unsuitable for unsupervised use.
翻訳日:2024-01-18 09:25:03 公開日:2024-01-16
# 脱調・弱測定・反転による散逸キャビティ中の2つのV型原子の絡み合いのダイナミクス

Modulating Entanglement Dynamics of Two V-type Atoms in Dissipative Cavity by Detuning, Weak Measurement and Reversal ( http://arxiv.org/abs/2401.08418v1 )

ライセンス: Link先を確認
Fuhua Li, Jia Wang, Hong-Mei Zou, Qiying Pan, Chenya Liu, and Zhuang Qu(参考訳) 本稿では, 脱調, 弱い測定, 弱い測定反転により, 散逸性空洞内の2つのV型原子の絡み合いのダイナミクスを変調する方法について検討する。 このモデルの解析解は、散逸キャビティのハミルトニアンを対角化した後、シュロディンガー方程式を解いて得られる。 本研究は, キャビティ-環境結合, 自然発生干渉 (sgi) パラメータ, キャビティと環境の相互作用, 弱い測定反転によって, エンタングルメントダイナミクスがどのように影響を受けるかを詳細に論じた。 その結果, 異なる初期状態の絡み合いのダイナミクスは, 結合, SGIパラメータ, 変形, 逆測定強度に依存することが明らかとなった。 より強い結合性、より小さいSGIパラメータ、より大きい変形性、大きな反転性測定強度は、すべて保護できるだけでなく、絡み合いを発生させることができ、この変形性は、SGIパラメータよりもより効果的である弱い測定性逆転よりも、引張性強い結合状態においてより効果的である。 また、物理的な解釈も行う。

In this paper, how to modulate entanglement dynamics of two V-type atoms in dissipative cavity by detuning, weak measurement and weak measurement reversal is studied. The analytical solution of this model is obtained by solving Schrodinger Equation after diagonalizing Hamiltonian of dissipative cavity. It is discussed in detail how the entanglement dynamics is influenced by cavity--environment coupling, spontaneously generated interference (SGI) parameter, detuning between cavity with environment and weak measurement reversal. The results show that the entanglement dynamics of different initial states obviously depends on coupling, SGI parameter, detuning and reversing measurement strength. The stronger coupling, the smaller SGI parameter, the larger detuning and the bigger reversing measurement strength can all not only protect but also generate the entanglement, and the detuning is more effectively in tne strong coupling regime than the weak measurement reversal, which is more effectively than the SGI parameter. We also give corresponding physical interpretations.
翻訳日:2024-01-18 09:24:42 公開日:2024-01-16
# コントラスト優先最適化:機械翻訳におけるLLM性能の境界を押し上げる

Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation ( http://arxiv.org/abs/2401.08417v1 )

ライセンス: Link先を確認
Haoran Xu, Amr Sharaf, Yunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton Murray, Young Jin Kim(参考訳) 7Bまたは13Bパラメータを持つモデレートサイズの大規模言語モデル(LLM)は、有望な機械翻訳(MT)性能を示す。 しかし、ALMAのようなトップパフォーマンスの13B LLMベースの翻訳モデルでさえ、最先端のエンコーダ・デコーダ翻訳モデルや、GPT-4のような大規模LLMの性能とは一致しない。 本研究では,この性能ギャップを橋渡しする。 MTタスクにおけるLLMの教師付き微調整の欠点をまず評価し,人為的に生成されているにもかかわらず,参照データに存在する品質問題を強調した。 そして、参照翻訳を模倣するsftとは対照的に、適切なが完全ではない翻訳を生成するのを避けるためにモデルを訓練する新しいアプローチであるコントラスト優先最適化(cpo)を導入する。 22Kパラレル文と12Mパラメータしか持たないALMAモデルへのCPOの適用は、大幅な改善をもたらす。 ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者と、WMT'21、WMT'22、WMT'23テストデータセットのGPT-4のパフォーマンスを一致または超過することができる。

Moderate-sized large language models (LLMs) -- those with 7B or 13B parameters -- exhibit promising machine translation (MT) performance. However, even the top-performing 13B LLM-based translation models, like ALMA, does not match the performance of state-of-the-art conventional encoder-decoder translation models or larger-scale LLMs such as GPT-4. In this study, we bridge this performance gap. We first assess the shortcomings of supervised fine-tuning for LLMs in the MT task, emphasizing the quality issues present in the reference data, despite being human-generated. Then, in contrast to SFT which mimics reference translations, we introduce Contrastive Preference Optimization (CPO), a novel approach that trains models to avoid generating adequate but not perfect translations. Applying CPO to ALMA models with only 22K parallel sentences and 12M parameters yields significant improvements. The resulting model, called ALMA-R, can match or exceed the performance of the WMT competition winners and GPT-4 on WMT'21, WMT'22 and WMT'23 test datasets.
翻訳日:2024-01-18 09:23:29 公開日:2024-01-16
# 粗い音から細かい音へ:音声スペクトログラム変換器の効率的な訓練

From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers ( http://arxiv.org/abs/2401.08415v1 )

ライセンス: Link先を確認
Jiu Feng, Mehmet Hamza Erol, Joon Son Chung, Arda Senocak(参考訳) トランスフォーマーは、オーディオ分類の最近の進歩の中心となっている。 しかし、ASTなどのオーディオスペクトログラム変換器をスクラッチからトレーニングすることは、リソースと時間を要する可能性がある。 さらに、変換器の複雑さは入力オーディオスペクトログラムのサイズに大きく依存する。 本研究では,時間軸の解像度にリンクすることでASTトレーニングを最適化することを目的とする。 本稿では,粗面から細部までをトランスフォーマモデルと結びつけることで,音声スペクトログラムトランスフォーマの多相訓練を提案する。 そこで本研究では,時間圧縮の一手法を提案する。 これらの方法の1つを用いることで、トランスフォーマーモデルは、初期段階の低分解能(コア)データから学び、その後、カリキュラム学習戦略において高分解能データで微調整される。 実験結果から,ASTのトレーニング機構は,より高速な収束,すなわち計算資源の削減と時間短縮による性能向上(あるいはオンパー)につながることが示された。 このアプローチは、学習パラダイムに関係なく、他のASTベースのメソッドにも一般化可能である。

Transformers have become central to recent advances in audio classification. However, training an audio spectrogram transformer, e.g. AST, from scratch can be resource and time-intensive. Furthermore, the complexity of transformers heavily depends on the input audio spectrogram size. In this work, we aim to optimize AST training by linking to the resolution in the time-axis. We introduce multi-phase training of audio spectrogram transformers by connecting the seminal idea of coarse-to-fine with transformer models. To achieve this, we propose a set of methods for temporal compression. By employing one of these methods, the transformer model learns from lower-resolution (coarse) data in the initial phases, and then is fine-tuned with high-resolution data later in a curriculum learning strategy. Experimental results demonstrate that the proposed training mechanism for AST leads to improved (or on-par) performance with faster convergence, i.e. requiring fewer computational resources and less time. This approach is also generalizable to other AST-based methods regardless of their learning paradigms.
翻訳日:2024-01-18 09:22:51 公開日:2024-01-16
# 解釈可能な機械学習拡張による動的システムモデリングの強化:カソード電気泳動堆積を事例として

Enhancing Dynamical System Modeling through Interpretable Machine Learning Augmentations: A Case Study in Cathodic Electrophoretic Deposition ( http://arxiv.org/abs/2401.08414v1 )

ライセンス: Link先を確認
Christian Jacobsen, Jiayuan Dong, Mehdi Khalloufi, Xun Huan, Karthik Duraisamy, Maryam Akram, Wanjiao Liu(参考訳) 本稿では,物理システムのモデリング,推論技術の導入,機械学習の強化を目的とした包括的データ駆動フレームワークを提案する。 実証的応用として,eコーティングとして知られる電気泳動沈着 (epd) のモデル化を行った。 提案手法は,実験データに対する推論による制約を同定し,これらの欠点に対処するために適応可能なモデル拡張を導入することで,物理モデルを強化するための体系的な手順を示す。 まず、モデルパラメータ識別可能性の問題に対処し、改善を必要とするモデルの側面を明らかにする。 一般化可能性に対処するために,識別性を高める修正を導入する。 しかし、これらの修正は基本的な実験行動を完全には捉えていない。 この制限を克服するため、ベースラインモデルに解釈可能で柔軟な拡張を組み込む。 これらの拡張は、単純な完全連結ニューラルネットワーク(FNN)によってパラメータ化され、機械学習ツール、特にニューラル正規微分方程式(Neural Ordinary Differential Equations、Neural ODE)を活用して、これらの拡張を学ぶ。 シミュレーションにより,機械学習モデルが観察した行動をより正確に捉え,予測精度を向上させることを示す。 それにもかかわらず、モデル更新は優れた性能を提供し、関連する物理を捉えるが、特に膜厚予測などの下流の予測において、精度や解釈性を損なうことなく、ある種のダイナミクスを排除し、オフラインの計算コストを削減することができる。 ここで概説するプロセス全体は、データ駆動手法を活用するための構造化されたアプローチを提供する。 第一に、モデル不正確な根本原因を理解するのに役立ち、第二に、モデル性能を向上させるための原則的な方法を提供する。

We introduce a comprehensive data-driven framework aimed at enhancing the modeling of physical systems, employing inference techniques and machine learning enhancements. As a demonstrative application, we pursue the modeling of cathodic electrophoretic deposition (EPD), commonly known as e-coating. Our approach illustrates a systematic procedure for enhancing physical models by identifying their limitations through inference on experimental data and introducing adaptable model enhancements to address these shortcomings. We begin by tackling the issue of model parameter identifiability, which reveals aspects of the model that require improvement. To address generalizability , we introduce modifications which also enhance identifiability. However, these modifications do not fully capture essential experimental behaviors. To overcome this limitation, we incorporate interpretable yet flexible augmentations into the baseline model. These augmentations are parameterized by simple fully-connected neural networks (FNNs), and we leverage machine learning tools, particularly Neural Ordinary Differential Equations (Neural ODEs), to learn these augmentations. Our simulations demonstrate that the machine learning-augmented model more accurately captures observed behaviors and improves predictive accuracy. Nevertheless, we contend that while the model updates offer superior performance and capture the relevant physics, we can reduce off-line computational costs by eliminating certain dynamics without compromising accuracy or interpretability in downstream predictions of quantities of interest, particularly film thickness predictions. The entire process outlined here provides a structured approach to leverage data-driven methods. Firstly, it helps us comprehend the root causes of model inaccuracies, and secondly, it offers a principled method for enhancing model performance.
翻訳日:2024-01-18 09:22:08 公開日:2024-01-16
# 光の量子ガス中の次元交叉

Dimensional Crossover in a Quantum Gas of Light ( http://arxiv.org/abs/2311.10485v2 )

ライセンス: Link先を確認
Kirankumar Karkihalli Umesh, Julian Schulz, Julian Schmitt, Martin Weitz, Georg von Freymann, Frank Vewinger(参考訳) 系の次元性はその物理的挙動に大きく影響を与え、多体量子系における物質の異なる状態が出現する。 低次元では、揺らぎが増加し、長距離秩序の抑制につながる。 例えば、ボゾン気体では、1次元のボース=アインシュタイン凝縮(BEC)は2次元よりも強い閉じ込めを必要とする。 ボース・アインシュタイン凝縮を受ける光子気体の1次元から2次元の交叉特性を実験的に検討した。 光子は、高分子ナノ構造が光子ガスのトラップ電位を与える染料微小キャビティに閉じ込められる。 調和トラップのアスペクト比を変化させることで、等方性2次元閉じ込めから、異方性、高度に細長い1次元トラップ電位までチューニングする。 この遷移に沿って、我々は光子ガスの温度特性を決定し、2次元で観測された2次ボース・アインシュタイン凝縮相転移の軟化を1次元のクロスオーバー挙動に導く。

The dimensionality of a system profoundly influences its physical behaviour, leading to the emergence of different states of matter in many-body quantum systems. In lower dimensions, fluctuations increase and lead to the suppression of long-range order. For example, in bosonic gases, Bose-Einstein condensation (BEC) in one dimension requires stronger confinement than in two dimensions. We experimentally study the properties of a harmonically trapped photon gas undergoing Bose-Einstein condensation along the dimensional crossover from one to two dimensions. The photons are trapped in a dye microcavity where polymer nanostructures provide the trapping potential for the photon gas. By varying the aspect ratio of the harmonic trap, we tune from an isotropic two-dimensional confinement to an anisotropic, highly elongated one-dimensional trapping potential. Along this transition we determine the caloric properties of the photon gas and find a softening of the second-order Bose-Einstein condensation phase transition observed in two dimensions to a crossover behaviour in one dimension.
翻訳日:2024-01-18 09:21:39 公開日:2024-01-16
# 正確性を超えて: Identity Chainを用いたコード大言語モデルの自己整合性を評価する

Beyond Accuracy: Evaluating Self-Consistency of Code Large Language Models with IdentityChain ( http://arxiv.org/abs/2310.14053v2 )

ライセンス: Link先を確認
Marcus J. Min, Yangruibo Ding, Luca Buratti, Saurabh Pujar, Gail Kaiser, Suman Jana, Baishakhi Ray(参考訳) Code Large Language Models (Code LLMs)は、現実のアプリケーションにますます採用されているため、それらを評価することが重要である。 従来の精度は、個々のタスク群におけるコードllmの性能を評価するが、異なるタスク間での自己一貫性は見過ごされる。 直感的には、信頼できるモデルは、自身のコードで自然言語仕様を生成し、自身の仕様のためにコードを生成する場合に自己一貫性を持つべきである。 自己整合性を維持することの失敗は、自然言語とプログラミング言語の基礎となる共有意味論の理解の欠如を示し、したがってモデルの信頼性を損なう。 本稿では、まず、コードLLMの自己整合性を正式に定義し、その上で、モデルの自己整合性と従来の精度を効果的かつ効率的に評価するフレームワーク、IdentityChainを設計する。 我々は,11個のコードLLMを研究し,従来の精度とは明らかに異なる自己整合性を維持することができないことを示す。 さらに、IdentityChainをモデルデバッギングツールとして使用して、IdentityChainを使用して現在のモデルで認識されている3つの大きな弱点を示すことで、コードLLMの弱点を明らかにすることができることを示す。 私たちのコードはhttps://github.com/marcusm117/identitychainで利用可能です。

Code Large Language Models (Code LLMs) are being increasingly employed in real-life applications, so evaluating them is critical. While the conventional accuracy evaluates the performance of Code LLMs on a set of individual tasks, their self-consistency across different tasks is overlooked. Intuitively, a trustworthy model should be self-consistent when generating natural language specifications for its own code and generating code for its own specifications. Failure to preserve self-consistency reveals a lack of understanding of the shared semantics underlying natural language and programming language, and therefore undermines the trustworthiness of a model. In this paper, we first formally define the self-consistency of Code LLMs and then design a framework, IdentityChain, which effectively and efficiently evaluates the self-consistency and conventional accuracy of a model at the same time. We study eleven Code LLMs and show that they fail to preserve self-consistency, which is indeed a distinct aspect from conventional accuracy. Furthermore, we show that IdentityChain can be used as a model debugging tool to expose weaknesses of Code LLMs by demonstrating three major weaknesses that we identify in current models using IdentityChain. Our code is available at https://github.com/marcusm117/IdentityChain.
翻訳日:2024-01-18 09:21:23 公開日:2024-01-16
# コンピュータサイエンスのカリキュラムを横断するクロスカット概念としてのサイバーセキュリティ:経験報告

Cybersecurity as a Crosscutting Concept Across an Undergrad Computer Science Curriculum: An Experience Report ( http://arxiv.org/abs/2310.07625v2 )

ライセンス: Link先を確認
Azqa Nadeem(参考訳) 多くのコンピュータサイエンス(CS)プログラムはサイバーセキュリティコースを提供しているが、通常はオプションでプログラムの周辺に配置される。 私たちは、サイバーセキュリティをcs curriculaの横断的な概念として統合することを提唱しています。 本稿は,2018年から2023年の間,ヨーロッパの主要技術系大学で3つのコアcsコースを横断的に実施し,合計2200名以上の学生を教育した経験について述べる。 セキュリティ教育は、責任あるコースインストラクターとセキュリティ専門家、すなわち(コースインストラクターとの相談を経て)セキュリティ専門家とのパートナーシップを利用して、CSコースに組み込まれ、複数のCSEC2017知識領域をカバーする講義を指導した。 これは、コースインストラクター、セキュリティ専門家、学生の3人の利害関係者の間に複雑なダイナミクスを生み出しました。 我々は,3つのステークホルダーの観点から,学生の認知度を収集するための講習後調査,責任あるコースインストラクターとセキュリティ専門家との半監督インタビューを実施し,その経験を計測した。 その結果,学生はセキュリティ内容に非常に熱心であり,数年後にはその影響を保ちつつも,インストラクターやセキュリティ専門家に対する不一致のインセンティブは,組織的な支援なしにこの介入を維持するのを困難にしていた。 介入の限界を特定することで、それを維持するためのアイデアを提案する。

Although many Computer Science (CS) programs offer cybersecurity courses, they are typically optional and placed at the periphery of the program. We advocate to integrate cybersecurity as a crosscutting concept in CS curricula, which is also consistent with latest cybersecurity curricular guidelines, e.g., CSEC2017. We describe our experience of implementing this crosscutting intervention across three undergraduate core CS courses at a leading technical university in Europe between 2018 and 2023, collectively educating over 2200 students. The security education was incorporated within CS courses using a partnership between the responsible course instructor and a security expert, i.e., the security expert (after consultation with course instructors) developed and taught lectures covering multiple CSEC2017 knowledge areas. This created a complex dynamic between three stakeholders: the course instructor, the security expert, and the students. We reflect on our intervention from the perspective of the three stakeholders -- we conducted a post-course survey to collect student perceptions, and semi-supervised interviews with responsible course instructors and the security expert to gauge their experience. We found that while the students were extremely enthusiastic about the security content and retained its impact several years later, the misaligned incentives for the instructors and the security expert made it difficult to sustain this intervention without organizational support. By identifying limitations in our intervention, we suggest ideas for sustaining it.
翻訳日:2024-01-18 09:20:58 公開日:2024-01-16
# GlitterかGoldか? 大規模言語モデルによるサステナビリティレポートからの構造化された洞察の導出

Glitter or Gold? Deriving Structured Insights from Sustainability Reports via Large Language Models ( http://arxiv.org/abs/2310.05628v3 )

ライセンス: Link先を確認
Marco Bronzini, Carlo Nicolini, Bruno Lepri, Andrea Passerini, Jacopo Staiano(参考訳) 過去10年間で、いくつかの規制機関が、環境・社会・ガバナンス(esg)問題に対する投資家の関心の高まりを踏まえて、上場企業からの非金融情報の開示を要求し始めている。 サステナビリティのプラクティスに関する公開情報は、多様で非構造化、マルチモーダルなドキュメントでしばしば公開されています。 これは、コーポレート・ソーシャル・レスポンシビリティ(CSR)に関する洞察を導き出すために、データを統合されたフレームワークに効率よく集め、整列させることに挑戦する。 したがって、情報抽出(IE)手法は、ステークホルダーに洞察豊かで行動可能なデータを提供するための直感的な選択となります。 本研究では,企業サステナビリティレポートからESGの側面に関する構造化された洞察を抽出するために,Large Language Models(LLM),In-Context Learning,Retrieval-Augmented Generation(RAG)パラダイムを用いる。 次に,グラフ表現を活用し,抽出された洞察に関する統計的分析を行う。 これらの分析の結果,ESGの基準は500以上のトピックをカバーしており,既存の分類を超越したものが多く,様々なイニシアティブを通じて企業によって対処されていることが明らかとなった。 さらに、同じ地域やセクターの企業の間で開示の類似性が出現し、esg文献で進行中の仮説が検証された。 最後に、分析に企業属性を付加することにより、ESG評価に最も影響を与える要因を調査し、ESG開示が他の財務データや企業データよりも評価に影響を及ぼすことを示す。

Over the last decade, several regulatory bodies have started requiring the disclosure of non-financial information from publicly listed companies, in light of the investors' increasing attention to Environmental, Social, and Governance (ESG) issues. Publicly released information on sustainability practices is often disclosed in diverse, unstructured, and multi-modal documentation. This poses a challenge in efficiently gathering and aligning the data into a unified framework to derive insights related to Corporate Social Responsibility (CSR). Thus, using Information Extraction (IE) methods becomes an intuitive choice for delivering insightful and actionable data to stakeholders. In this study, we employ Large Language Models (LLMs), In-Context Learning, and the Retrieval-Augmented Generation (RAG) paradigm to extract structured insights related to ESG aspects from companies' sustainability reports. We then leverage graph-based representations to conduct statistical analyses concerning the extracted insights. These analyses revealed that ESG criteria cover a wide range of topics, exceeding 500, often beyond those considered in existing categorizations, and are addressed by companies through a variety of initiatives. Moreover, disclosure similarities emerged among companies from the same region or sector, validating ongoing hypotheses in the ESG literature. Lastly, by incorporating additional company attributes into our analyses, we investigated which factors impact the most on companies' ESG ratings, showing that ESG disclosure affects the obtained ratings more than other financial or company data.
翻訳日:2024-01-18 09:20:32 公開日:2024-01-16
# 汎用テキスト指示音声変換に向けて

Towards General-Purpose Text-Instruction-Guided Voice Conversion ( http://arxiv.org/abs/2309.14324v2 )

ライセンス: Link先を確認
Chun-Yi Kuan, Chen An Li, Tsu-Yuan Hsu, Tse-Yang Lin, Ho-Lam Chung, Kai-Wei Chang, Shuo-yiin Chang, Hung-yi Lee(参考訳) 本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換(VC)モデルを提案する。 変換音声の属性を決定するために参照発話に依存する従来の手法とは異なり、我々のモデルは音声変換に汎用性と特異性を加える。 提案したVCモデルは、離散コード列を処理するニューラルコーデック言語モデルであり、変換された音声のコード列を生成する。 テキスト命令をスタイルプロンプトとして使用し、与えられた音声の韻律と感情情報を修飾する。 プロソディやコンテントエンコーダといった個別のエンコーダを用いてソース音声のさまざまな側面を処理する従来の手法とは対照的に,我々のモデルはエンドツーエンドで様々な音声情報を処理している。 実験は、理解可能な指示と合理的な結果を提供することで、私たちのモデルの印象的な能力を実証しました。

This paper introduces a novel voice conversion (VC) model, guided by text instructions such as "articulate slowly with a deep tone" or "speak in a cheerful boyish voice". Unlike traditional methods that rely on reference utterances to determine the attributes of the converted speech, our model adds versatility and specificity to voice conversion. The proposed VC model is a neural codec language model which processes a sequence of discrete codes, resulting in the code sequence of converted speech. It utilizes text instructions as style prompts to modify the prosody and emotional information of the given speech. In contrast to previous approaches, which often rely on employing separate encoders like prosody and content encoders to handle different aspects of the source speech, our model handles various information of speech in an end-to-end manner. Experiments have demonstrated the impressive capabilities of our model in comprehending instructions and delivering reasonable results.
翻訳日:2024-01-18 09:20:05 公開日:2024-01-16
# Distill-SODA:ソースフリーなオープンセットドメイン適応のための自己監督型視覚変換器

Distill-SODA: Distilling Self-Supervised Vision Transformer for Source-Free Open-Set Domain Adaptation in Computational Pathology ( http://arxiv.org/abs/2307.04596v3 )

ライセンス: Link先を確認
Guillaume Vray, Devavrat Tomar, Jean-Philippe Thiran, Behzad Bozorgtabar(参考訳) コンピュータ病理モデルの開発は、スライド画像全体から手動の組織タイピングを減らし、ソースドメインからラベルのないシフト対象ドメインに知識を伝達し、未知のカテゴリを特定するために不可欠である。 本稿では,上記の課題に対処して,オープンソースフリーなオープンセットドメイン適応という現実的な設定を提案する。 本手法は,未ラベルのターゲットデータセットに事前学習したソースモデルを適用することに焦点を当て,クローズドセットとオープンセットの両方を包含する。 未知のクラスのセマンティクスシフトに対処するだけでなく、我々のフレームワークでは、ソースとターゲットの組織サンプル間の色の変化として現れる共変量シフトも扱っています。 本手法は, 自己教師型視覚変換器(ViT)から知識を抽出し, 強靭に事前学習したトランスフォーマーモデルや, 対象領域からの知識を含む組織学的データセットからのガイダンスを抽出する。 そこで本研究では,ViTを自己学習する上でのハードポジティクスとして機能する,新しいスタイルに基づく逆データ拡張手法を提案する。 これに続いて、我々は、疑似ラベルが弱いソースモデルで、セマンティックに類似したターゲット画像をクラスタリングする。 このプロセスを強化するために、擬似ラベルの信頼度を補正し、文脈化された埋め込み空間内で重み付けされたクラスプロトタイプを計算することを目的とした閉集合親和性スコア(CSAS)を提案する。 本手法は,大腸癌評価のための3つの病理組織学的データセットの最先端として確立されている。 特に、我々の自己学習手法はオープンセット検出手法とシームレスに統合され、クローズドセットおよびオープンセット認識タスクの性能が向上する。

Developing computational pathology models is essential for reducing manual tissue typing from whole slide images, transferring knowledge from the source domain to an unlabeled, shifted target domain, and identifying unseen categories. We propose a practical setting by addressing the above-mentioned challenges in one fell swoop, i.e., source-free open-set domain adaptation. Our methodology focuses on adapting a pre-trained source model to an unlabeled target dataset and encompasses both closed-set and open-set classes. Beyond addressing the semantic shift of unknown classes, our framework also deals with a covariate shift, which manifests as variations in color appearance between source and target tissue samples. Our method hinges on distilling knowledge from a self-supervised vision transformer (ViT), drawing guidance from either robustly pre-trained transformer models or histopathology datasets, including those from the target domain. In pursuit of this, we introduce a novel style-based adversarial data augmentation, serving as hard positives for self-training a ViT, resulting in highly contextualized embeddings. Following this, we cluster semantically akin target images, with the source model offering weak pseudo-labels, albeit with uncertain confidence. To enhance this process, we present the closed-set affinity score (CSAS), aiming to correct the confidence levels of these pseudo-labels and to calculate weighted class prototypes within the contextualized embedding space. Our approach establishes itself as state-of-the-art across three public histopathological datasets for colorectal cancer assessment. Notably, our self-training method seamlessly integrates with open-set detection methods, resulting in enhanced performance in both closed-set and open-set recognition tasks.
翻訳日:2024-01-18 09:19:47 公開日:2024-01-16
# 励起からCNNを理解する

Understanding CNNs from excitations ( http://arxiv.org/abs/2205.00932v3 )

ライセンス: Link先を確認
Zijian Ying, Qianmu Li, Zhichao Lian, Jun Hou, Tong Lin, Tao Wang(参考訳) 塩分マップは畳み込みニューラルネットワークの決定を解明するための非常に効果的なアプローチであることが証明されている。 しかし、現存する方法論は主に勾配に依存しており、複雑なモデルを説明する能力を制限する。 さらに、このようなアプローチは、解釈的検証性を改善するために負の勾配情報を活用することに完全には適していない。 本研究では,各層に対する正負の励起を直接抽出し,全層毎の情報利用をsans勾配にすることで,正負の励起という新しい概念を提案する。 これらの励起を最終的なサリエンシマップに整理するために、二重鎖バックプロパゲーション手順を導入する。 提案手法の有効性を評価するため,二分分類タスクと多分分類タスクの両方を含む総合的な実験評価を行った。 その結果,本手法は高精細度画素除去法,小画素除去法,不明瞭な対向摂動生成誘導法において,最先端の手法よりも大幅に改善されていることがわかった。 さらに,正の励起と負の励起の相関性を検証する。

Saliency maps have proven to be a highly efficacious approach for explicating the decisions of Convolutional Neural Networks. However, extant methodologies predominantly rely on gradients, which constrain their ability to explicate complex models. Furthermore, such approaches are not fully adept at leveraging negative gradient information to improve interpretive veracity. In this study, we present a novel concept, termed positive and negative excitation, which enables the direct extraction of positive and negative excitation for each layer, thus enabling complete layer-by-layer information utilization sans gradients. To organize these excitations into final saliency maps, we introduce a double-chain backpropagation procedure. A comprehensive experimental evaluation, encompassing both binary classification and multi-classification tasks, was conducted to gauge the effectiveness of our proposed method. Encouragingly, the results evince that our approach offers a significant improvement over the state-of-the-art methods in terms of salient pixel removal, minor pixel removal, and inconspicuous adversarial perturbation generation guidance. Additionally, we verify the correlation between positive and negative excitations.
翻訳日:2024-01-18 04:12:17 公開日:2024-01-16
# コンテキストPandoraのボックス

Contextual Pandora's Box ( http://arxiv.org/abs/2205.13114v3 )

ライセンス: Link先を確認
Alexia Atsidakou, Constantine Caramanis, Evangelia Gergatsouli, Orestis Papadigenopoulos, Christos Tzamos(参考訳) pandoraのボックスは基本的な確率的最適化問題であり、意思決定者は、各選択肢の価値を探求する検索コストを最小化しながら、優れた選択肢を見つけなければならない。 オリジナルの定式化では、全ての代替品の値に正確な分布が与えられていると推定され、最近の研究では、分布が不明なPandoraのBoxのオンライン版が研究されている。 本研究では,PandoraのBoxをオンライン環境で研究し,コンテキストを取り入れた。 各ラウンドで、各ラウンドで変化する可能性のある未知の分布から引き出されたコンテキスト、探索コスト、未知の値を持つ、いくつかの代替案が提示されます。 我々の主な成果は、全ての事前分布を正確に知る最適アルゴリズムと相反する非回帰アルゴリズムである。 我々のアルゴリズムはバンディット設定でも動作し、アルゴリズムは探索されなかった代替品の値を決して学習しない。 結果を可能にするキーテクニックは,コンテキストバンディットにおける実現可能性条件の新規な修正であり,その平均ではなく,各選択肢の分布の十分な統計値(保存値)とを接続するものである。

Pandora's Box is a fundamental stochastic optimization problem, where the decision-maker must find a good alternative while minimizing the search cost of exploring the value of each alternative. In the original formulation, it is assumed that accurate distributions are given for the values of all the alternatives, while recent work studies the online variant of Pandora's Box where the distributions are originally unknown. In this work, we study Pandora's Box in the online setting, while incorporating context. At every round, we are presented with a number of alternatives each having a context, an exploration cost and an unknown value drawn from an unknown distribution that may change at every round. Our main result is a no-regret algorithm that performs comparably well to the optimal algorithm which knows all prior distributions exactly. Our algorithm works even in the bandit setting where the algorithm never learns the values of the alternatives that were not explored. The key technique that enables our result is a novel modification of the realizability condition in contextual bandits that connects a context to a sufficient statistic of each alternative's distribution (its "reservation value") rather than its mean.
翻訳日:2024-01-18 03:56:23 公開日:2024-01-16
# 連続価値推定における時間分解能管理--基本トレードオフ

Managing Temporal Resolution in Continuous Value Estimation: A Fundamental Trade-off ( http://arxiv.org/abs/2212.08949v3 )

ライセンス: Link先を確認
Zichen Zhang, Johannes Kirschner, Junxi Zhang, Francesco Zanini, Alex Ayoub, Masood Dehghan, Dale Schuurmans(参考訳) 強化学習(RL)と最適制御におけるデフォルトの仮定は、観測が固定クロックサイクルの離散時間点に到達することである。 しかし、多くのアプリケーションは、時間離散化を原則として管理できる連続時間システムを含んでいる。 時間離散化がRL法に与える影響は、既存の理論では十分に評価されていないが、その効果をより詳細に分析することで、データ効率を向上させることができる。 我々は,LQRシステムのモンテカルロ政策評価を分析し,近似と統計的誤差の基本的なトレードオフを明らかにすることで,このギャップに対処する。 重要なことに、これらの2つのエラーは時間離散化と異なる振る舞いをするので、与えられたデータ予算に対する時間分解能の最適選択に繋がる。 これらの結果から, 時間分解能の管理は, 有限データを用いたLQRシステムにおいて, 政策評価効率を向上する可能性が示唆された。 実験的に、LQRインスタンスの数値シミュレーションと非線形連続制御のための標準RLベンチマークのトレードオフを実証する。

A default assumption in reinforcement learning (RL) and optimal control is that observations arrive at discrete time points on a fixed clock cycle. Yet, many applications involve continuous-time systems where the time discretization, in principle, can be managed. The impact of time discretization on RL methods has not been fully characterized in existing theory, but a more detailed analysis of its effect could reveal opportunities for improving data-efficiency. We address this gap by analyzing Monte-Carlo policy evaluation for LQR systems and uncover a fundamental trade-off between approximation and statistical error in value estimation. Importantly, these two errors behave differently to time discretization, leading to an optimal choice of temporal resolution for a given data budget. These findings show that managing the temporal resolution can provably improve policy evaluation efficiency in LQR systems with finite data. Empirically, we demonstrate the trade-off in numerical simulations of LQR instances and standard RL benchmarks for non-linear continuous control.
翻訳日:2024-01-18 03:34:44 公開日:2024-01-16
# APPT:微調整事前学習モデルによる自動パッチ精度予測の高速化

APPT: Boosting Automated Patch Correctness Prediction via Fine-tuning Pre-trained Models ( http://arxiv.org/abs/2301.12453v2 )

ライセンス: Link先を確認
Quanjun Zhang, Chunrong Fang, Weisong Sun, Yan Liu, Tieke He, Xiaodong Hao, Zhenyu Chen(参考訳) 自動プログラム修復(APR)は、人間のデバッグ作業なしにソフトウェアバグを自動修正することを目的としており、ソフトウェア開発とメンテナンスにおいて重要な役割を果たす。 有望であるにもかかわらず、APRは長年のオーバーフィッティング問題(つまり、生成されたパッチは信頼性が高いがオーバーフィッティングである)に悩まされている。 このため、オーバーフィッティング問題に対処する様々な手法が提案されている。 最近、研究者はBERTを使ってコードの特徴を抽出し、パッチの正確性予測のために分類器を訓練している。 しかしBERTは、トレーニングプロセスの恩恵を受けずに、分類器トレーニングのための機能抽出に制限されており、パッチされたコードスニペットに対して、潜在的に最適なベクトル表現を生成する。 本稿では,事前学習と微調整によるモデルベース自動パッチ正当性評価手法であるAPPTを提案する。 APPTはエンコーダスタックとして事前学習モデルを採用し、LSTMスタックとディープラーニング分類器が続く。 さらに重要なのは、事前トレーニングされたモデルは、パイプライン全体として他のコンポーネントと連携して微調整され、パッチの正確性に関する推論に特化しています。 我々は1,183個のDefects4Jパッチについて広範な実験を行い、APPTが予測精度79.7%、リコール83.2%を達成し、CACHEの4.3%と6.7%を上回った。 実世界のパッチ49,694点についてさらに調査した結果,apptは既存の表現学習技術と比較して最適性能を達成していることがわかった。 さらに,各コンポーネントがapptに与える影響についても検討し,それぞれ10.22%,4.11%,微調整プロセスやlstmスタックがそれぞれf1-scoreを増加させた。 また,高度な事前学習モデルを採用することで,apptの一般化性がさらに向上することが証明された。

Automated program repair (APR) aims to fix software bugs automatically without human debugging efforts and plays a crucial role in software development and maintenance. Despite promising, APR is still challenged by a long-standing overfitting problem (i.e., the generated patch is plausible but overfitting). Various techniques have thus been proposed to address the overfitting problem. Recently, researchers have employed BERT to extract code features, which are then used to train a classifier for patch correctness prediction. However, BERT is restricted to feature extraction for classifier training without benefiting from the training process, potentially generating sub-optimal vector representations for patched code snippets. In this paper, we propose APPT, a pre-trained model-based automated patch correctness assessment technique by both pre-training and fine-tuning. APPT adopts a pre-trained model as the encoder stack, followed by an LSTM stack and a deep learning classifier. More importantly, the pre-trained model is fine-tuned in conjunction with other components as a whole pipeline to fully adapt it specifically for reasoning about patch correctness. We conduct an extensive experiment on 1,183 Defects4J patches and the experimental results show that APPT achieves prediction accuracy of 79.7% and recall of 83.2%, outperforming CACHE by 4.3% and 6.7%. Our additional investigation on 49,694 real-world patches shows that APPT achieves the optimum performance compared with existing representation learning techniques. We further investigate the impact of each component and find that they all positively contribute to APPT, e.g., the fine-tuning process and the LSTM stack increase F1-score by 10.22% and 4.11%, respectively. We also prove that adopting advanced pre-trained models can further provide substantial advancement, highlighting the generalizability of APPT.
翻訳日:2024-01-18 03:22:19 公開日:2024-01-16
# ランダム純粋状態におけるサブシステムの平均r\'{e}nyiエントロピー

Average R\'{e}nyi Entropy of a Subsystem in Random Pure State ( http://arxiv.org/abs/2301.09074v2 )

ライセンス: Link先を確認
MuSeong Kim, Mi-Ra Hwang, Eylee Jung, and DaeKil Park(参考訳) 本稿では、合成システム全体の$AB$がランダムな純粋状態である場合、サブシステム$A$の平均R\'{e}nyi entropy $S_{\alpha}$を検討する。 ヒルベルト空間の次元が$A$と$AB$はそれぞれ$m$と$mn$であると仮定する。 まず、平均 R\'{e}nyi エントロピーを$m = \alpha = 2$ で解析的に計算する。 この解析結果と近似平均 R\'{e}nyi エントロピーを比較すると、非常に近いことが分かる。 一般の場合、近似 r\'{e}nyiエントロピー $\widetilde{s}_{\alpha} (m,n)$ の平均を解析的に計算する。 $1 \ll n$, $\widetilde{S}_{\alpha} (m,n)$ が $\ln m - \frac{\alpha}{2n} (mm^{-1})$ に還元されるとき、平均フォン・ノイマンエントロピーの漸近表現と一致する。 $\widetilde{S}_{\alpha} (m,n)$の分析結果に基づいて、$\widetilde{S}_{\alpha} (m,n)$から導かれる量子情報の$\ln m$-dependenceをプロットする。 情報のほぼ消失する領域が$\alpha$の増加とともに短くなり、最終的に$\alpha \rightarrow \infty$の限界でなくなることに注目すべきである。 結果の物理的意味を簡潔に論じる。

In this paper we examine the average R\'{e}nyi entropy $S_{\alpha}$ of a subsystem $A$ when the whole composite system $AB$ is a random pure state. We assume that the Hilbert space dimensions of $A$ and $AB$ are $m$ and $m n$ respectively. First, we compute the average R\'{e}nyi entropy analytically for $m = \alpha = 2$. We compare this analytical result with the approximate average R\'{e}nyi entropy, which is shown to be very close. For general case we compute the average of the approximate R\'{e}nyi entropy $\widetilde{S}_{\alpha} (m,n)$ analytically. When $1 \ll n$, $\widetilde{S}_{\alpha} (m,n)$ reduces to $\ln m - \frac{\alpha}{2 n} (m - m^{-1})$, which is in agreement with the asymptotic expression of the average von Neumann entropy. Based on the analytic result of $\widetilde{S}_{\alpha} (m,n)$ we plot the $\ln m$-dependence of the quantum information derived from $\widetilde{S}_{\alpha} (m,n)$. It is remarkable to note that the nearly vanishing region of the information becomes shorten with increasing $\alpha$, and eventually disappears in the limit of $\alpha \rightarrow \infty$. The physical implication of the result is briefly discussed.
翻訳日:2024-01-18 03:20:51 公開日:2024-01-16
# 階層型連合学習のための2段階インセンティブ機構の設計

Design of Two-Level Incentive Mechanisms for Hierarchical Federated Learning ( http://arxiv.org/abs/2304.04162v2 )

ライセンス: Link先を確認
Shunfeng Chu, Jun Li, Kang Wei, Yuwen Qian, Kunlun Wang, Feng Shu and Wen Chen(参考訳) layered federated learning (hfl) は、多層計算アーキテクチャ向けに設計された分散機械学習パラダイムであり、デバイスのモデルへの大規模アクセスをサポートする。 効率的なHFLを実現するためには、デバイスがローカルトレーニングに積極的に参加するように適切なインセンティブメカニズムを設計することが不可欠である。 しかし,HFLのインセンティブ機構設計に関する研究はほとんどない。 本稿では,HFLトレーニングにおける各階層におけるエンティティの参加を促すために,階層計算構造を持つHFLの2段階インセンティブ機構を設計する。 低レベルゲームでは,エッジアソシエーションと帯域割り当ての問題を共同で最適化し,提案する選好則により効率的な連立分割を実現する連立形成ゲームを提案する。 上位レベルゲームでは,エッジサーバの最適なエッジアグリゲーション数を決定するだけでなく,エッジアグリゲーション性能に対して提供されるユニットアグリゲーションを最適化してクラウドサーバの利益を確保する,stackelbergゲームアルゴリズムを設計した。 さらに,提案アルゴリズムはベンチマーク方式よりも優れた性能が得られることを示す。

Hierarchical Federated Learning (HFL) is a distributed machine learning paradigm tailored for multi-tiered computation architectures, which supports massive access of devices' models simultaneously. To enable efficient HFL, it is crucial to design suitable incentive mechanisms to ensure that devices actively participate in local training. However, there are few studies on incentive mechanism design for HFL. In this paper, we design two-level incentive mechanisms for the HFL with a two-tiered computing structure to encourage the participation of entities in each tier in the HFL training. In the lower-level game, we propose a coalition formation game to joint optimize the edge association and bandwidth allocation problem, and obtain efficient coalition partitions by the proposed preference rule, which can be proven to be stable by exact potential game. In the upper-level game, we design the Stackelberg game algorithm, which not only determines the optimal number of edge aggregations for edge servers to maximize their utility, but also optimize the unit reward provided for the edge aggregation performance to ensure the interests of cloud servers. Furthermore, numerical results indicate that the proposed algorithms can achieve better performance than the benchmark schemes.
翻訳日:2024-01-18 03:10:56 公開日:2024-01-16
# マクロ低損失フォノンキャビティを用いた最小長モデルの制約の改善

Improved constraints on minimum length models with a macroscopic low loss phonon cavity ( http://arxiv.org/abs/2304.00688v2 )

ライセンス: Link先を確認
William M. Campbell and Michael E. Tobar and Serge Galliou and Maxim Goryachev(参考訳) 重力の量子的記述を定式化しようとする多くの理論は、基本的な最小長スケールの存在を示唆している。 この最小長を組み込む一般的な方法は、一般化不確実性原理(generalized uncertainty principle, gup)として知られるハイゼンベルクの不確実性原理の修正である。 複合システムに適用されたGUPの実験実験は、機械共振器モードの誘導周波数摂動を探索することにより、特定のシナリオにおける最小長の度合いを制限できる。 本研究は, 従来の機械式共振器による制約を, 極低温クォーツバルク波共振器を用いて3桁の精度で改善するものである。 純粋な機械的共振モードだけでなく、ハイブリッド電気機械的反共振モードも検討し、同じGUP誘発効果に敏感であることを示した。

Many theories that attempt to formulate a quantum description of gravity suggest the existence of a fundamental minimum length scale. A popular method for incorporating this minimum length is through a modification of the Heisenberg uncertainty principle known as the generalised uncertainty principle (GUP). Experimental tests of the GUP applied to composite systems can be performed by searching for the induced frequency perturbations of the modes of mechanical resonators, thus constraining the degree of minimum length in certain scenarios. In this work previous constraints made with mechanical resonators are improved upon by three orders of magnitude, via the utilisation of a cryogenic quartz bulk acoustic wave resonator. As well as purely mechanical resonant modes; hybrid electromechanical anti-resonant modes are investigated, and shown to be sensitive to the same GUP induced effects.
翻訳日:2024-01-18 03:10:21 公開日:2024-01-16
# MGTBench: ベンチマークマシン生成テキスト検出

MGTBench: Benchmarking Machine-Generated Text Detection ( http://arxiv.org/abs/2303.14822v3 )

ライセンス: Link先を確認
Xinlei He and Xinyue Shen and Zeyuan Chen and Michael Backes and Yang Zhang(参考訳) 現在、ChatGPTのような強力な大規模言語モデル(LLM)は、様々なタスクにおいて革命的なパワーを誇示している。 その結果,LLMの高度化と普及に伴い,機械生成テキスト(MGT)の検出がますます重要になっている。 これらのモデルには、人間のような言語を生成する能力があり、テキストが人間か機械によって書かれたかどうかを理解するのが困難である。 これにより、信頼性、説明責任、潜在的なバイアスに関する懸念が持ち上がる。 しかし、既存のMGTの検出方法は、異なるモデルアーキテクチャ、データセット、実験的な設定を用いて評価され、様々な方法論を含む包括的な評価フレームワークが欠如している。 さらに、既存の検出手法が強力なLLMに対してどのように機能するかは、まだ不明である。 本稿では,MGTBench という強力な LLM に対するMGT 検出のためのベンチマークフレームワークを提案することで,このギャップを埋める。 ChatGPT-turbo や Claude など,様々な強力な LLM が生成するキュレートテキストを用いた公開データセットの大規模な評価は,検出方法の有効性を示す。 我々のアブレーション研究は、一般的に多くの単語が優れた性能をもたらすことを示し、ほとんどの検出方法は、トレーニングサンプルをはるかに少なくして同様のパフォーマンスを達成できることを示した。 さらに、より難しいタスク、すなわちテキストの属性を掘り下げます。 本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。 異なる検出手法のロバスト性を検討するために,3つの対向攻撃,すなわちパラフレージング,ランダムスペーシング,対向的摂動について検討する。 これらの攻撃は検出効率を著しく低下させ、より堅牢な検出方法の開発の必要性を強調する。

Nowadays, powerful large language models (LLMs) such as ChatGPT have demonstrated revolutionary power in a variety of tasks. Consequently, the detection of machine-generated texts (MGTs) is becoming increasingly crucial as LLMs become more advanced and prevalent. These models have the ability to generate human-like language, making it challenging to discern whether a text is authored by a human or a machine. This raises concerns regarding authenticity, accountability, and potential bias. However, existing methods for detecting MGTs are evaluated using different model architectures, datasets, and experimental settings, resulting in a lack of a comprehensive evaluation framework that encompasses various methodologies. Furthermore, it remains unclear how existing detection methods would perform against powerful LLMs. In this paper, we fill this gap by proposing the first benchmark framework for MGT detection against powerful LLMs, named MGTBench. Extensive evaluations on public datasets with curated texts generated by various powerful LLMs such as ChatGPT-turbo and Claude demonstrate the effectiveness of different detection methods. Our ablation study shows that a larger number of words in general leads to better performance and most detection methods can achieve similar performance with much fewer training samples. Moreover, we delve into a more challenging task: text attribution. Our findings indicate that the model-based detection methods still perform well in the text attribution task. To investigate the robustness of different detection methods, we consider three adversarial attacks, namely paraphrasing, random spacing, and adversarial perturbations. We discover that these attacks can significantly diminish detection effectiveness, underscoring the critical need for the development of more robust detection methods.
翻訳日:2024-01-18 03:09:51 公開日:2024-01-16
# DinoSR:自己教師型音声表現学習のための自己拡張とオンラインクラスタリング

DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning ( http://arxiv.org/abs/2305.10005v2 )

ライセンス: Link先を確認
Alexander H. Liu, Heng-Jui Chang, Michael Auli, Wei-Ning Hsu, James R. Glass(参考訳) 本稿では,マスク付き言語モデリング,自己蒸留,オンラインクラスタリングを組み合わせた自己教師型音声表現学習(DinoSR)のための自己蒸留とオンラインクラスタリングを提案する。 これらの概念が互いに補完しあうことを示し,音声表現学習モデルを構築した。 DinoSRはまず、入力されたオーディオから教師ネットワークにコンテキスト化された埋め込みを抽出し、埋め込み上にオンラインクラスタリングシステムを実行して、マシンが発見した電話の在庫を出力し、最後に識別トークンを使用して学生ネットワークを誘導する。 本稿では,DinoSRが複数の下流タスクにおいて過去の最先端性能を上回ることを示し,モデルと学習した離散単位の詳細な解析を行う。

In this paper, we introduce self-distillation and online clustering for self-supervised speech representation learning (DinoSR) which combines masked language modeling, self-distillation, and online clustering. We show that these concepts complement each other and result in a strong representation learning model for speech. DinoSR first extracts contextualized embeddings from the input audio with a teacher network, then runs an online clustering system on the embeddings to yield a machine-discovered phone inventory, and finally uses the discretized tokens to guide a student network. We show that DinoSR surpasses previous state-of-the-art performance in several downstream tasks, and provide a detailed analysis of the model and the learned discrete units.
翻訳日:2024-01-18 03:00:23 公開日:2024-01-16
# 正規化8点アルゴリズムと自己教師付き深解の再検討

A Revisit of the Normalized Eight-Point Algorithm and A Self-Supervised Deep Solution ( http://arxiv.org/abs/2304.10771v3 )

ライセンス: Link先を確認
Bin Fan, Yuchao Dai, Yongduek Seo, Mingyi He(参考訳) 正規化8点アルゴリズムは、2次元幾何計算の基盤として広く見なされ、そこではセミナルハートレーの正規化が直接線形変換アルゴリズムの性能を大幅に向上させた。 自然な疑問は、入力サンプルごとにさらに性能を向上させるであろう他の正規化方法が存在するかどうかである。 本稿では,新しい視点を提供し,この根本的な問題に対する2つの貢献を提案する。 1) 正規化された8点アルゴリズムを再検討し, より優れた正規化アルゴリズムの存在を提示することにより理論的貢献を行う。 2)正規化のための自己教師付き学習戦略を持つ深層畳み込みニューラルネットワークを提案する。 8対の対応が与えられると、ネットワークは正規化行列を直接予測し、各入力サンプルの正規化を学習する。 私たちの学習ベースの正規化モジュールは、従来の(例えば、RANSAC)とディープラーニングフレームワークの両方と、最小限の労力で統合することができます。 合成画像と実画像の両方について広範な実験を行い,提案手法の有効性を示した。

The normalized eight-point algorithm has been widely viewed as the cornerstone in two-view geometry computation, where the seminal Hartley's normalization has greatly improved the performance of the direct linear transformation algorithm. A natural question is, whether there exists and how to find other normalization methods that may further improve the performance as per each input sample. In this paper, we provide a novel perspective and propose two contributions to this fundamental problem: 1) we revisit the normalized eight-point algorithm and make a theoretical contribution by presenting the existence of different and better normalization algorithms; 2) we introduce a deep convolutional neural network with a self-supervised learning strategy for normalization. Given eight pairs of correspondences, our network directly predicts the normalization matrices, thus learning to normalize each input sample. Our learning-based normalization module can be integrated with both traditional (e.g., RANSAC) and deep learning frameworks (affording good interpretability) with minimal effort. Extensive experiments on both synthetic and real images demonstrate the effectiveness of our proposed approach.
翻訳日:2024-01-18 02:56:50 公開日:2024-01-16
# 平均的リワードを伴うレストレスバンド:一様グローバルアトラクタの推計を破る

Restless Bandits with Average Reward: Breaking the Uniform Global Attractor Assumption ( http://arxiv.org/abs/2306.00196v3 )

ライセンス: Link先を確認
Yige Hong, Qiaomin Xie, Yudong Chen, Weina Wang(参考訳) 離散時間と連続時間の両方の設定において、平均報酬基準を用いた無限水平レスバンドイット問題について検討する。 基本的な目標は、腕の数($n$)が大きくなるにつれて最適なギャップを減少させるポリシーを効率的に計算することである。 漸近的最適性に関する既存の結果は、すべて一様大域的誘引特性(UGAP)に依存している。 本稿では,単腕のポリシを元のn$-armed問題に対するポリシに変換する,汎用的なシミュレーションベースのフレームワークであるnext-the-virtual-adviceを提案する。 これは、各腕に単一武装のポリシーをシミュレートし、実状態をシミュレートされた状態に向けて慎重に操ることによって行われる。 我々のフレームワークは、$O(1/\sqrt{N})$Optimity gapでポリシーを生成するためにインスタンス化することができる。 離散時間設定では、結果はより単純な同期仮定の下で保持され、これはugapに違反する問題インスタンスをカバーする。 より顕著なことに、連続時間設定では、標準的なユニチェーン条件を超える追加の仮定は不要である。 どちらの設定でも、我々の研究はUGAPを必要としない最初の漸近的最適性の結果である。

We study the infinite-horizon restless bandit problem with the average reward criterion, in both discrete-time and continuous-time settings. A fundamental goal is to efficiently compute policies that achieve a diminishing optimality gap as the number of arms, $N$, grows large. Existing results on asymptotic optimality all rely on the uniform global attractor property (UGAP), a complex and challenging-to-verify assumption. In this paper, we propose a general, simulation-based framework, Follow-the-Virtual-Advice, that converts any single-armed policy into a policy for the original $N$-armed problem. This is done by simulating the single-armed policy on each arm and carefully steering the real state towards the simulated state. Our framework can be instantiated to produce a policy with an $O(1/\sqrt{N})$ optimality gap. In the discrete-time setting, our result holds under a simpler synchronization assumption, which covers some problem instances that violate UGAP. More notably, in the continuous-time setting, we do not require \emph{any} additional assumptions beyond the standard unichain condition. In both settings, our work is the first asymptotic optimality result that does not require UGAP.
翻訳日:2024-01-18 02:48:04 公開日:2024-01-16
# 単眼画像からの手持ち物体の入射再構成のための明示的接触学習

Learning Explicit Contact for Implicit Reconstruction of Hand-held Objects from Monocular Images ( http://arxiv.org/abs/2305.20089v2 )

ライセンス: Link先を確認
Junxing Hu, Hongwen Zhang, Zerui Chen, Mengcheng Li, Yunlong Wang, Yebin Liu, Zhenan Sun(参考訳) モノクロのRGB画像から手持ちのオブジェクトを再構築することは、魅力的だが難しい作業だ。 この課題では,手と物体の接触が,手持ち物体の3次元形状を復元するための重要な手がかりとなる。 最近の研究では、目覚ましい進歩を達成するために暗黙の関数が採用されているが、フレームワーク内の接触は無視されている。 本研究では,手持ちの物体を暗黙的に再構築する上で,接触を明示的にモデル化する方法を検討する。 本手法は, 明示的な接触予測と暗黙的な形状再構成の2成分からなる。 まず,1つの画像から3次元手オブジェクトの接触を直接推定するサブタスクを提案する。 部分レベルおよび頂点レベルグラフベースの変換器は、より正確な接触確率を得るために粗い方法で共用学習される。 第2部では,ハンドメッシュ表面から近接3次元空間への推定接触状態を拡散させ,拡散接触確率を利用して操作対象の暗黙的神経表現を構築する新しい手法を提案する。 手と物体の相互作用パターンを推定することで、よりリアルな物体メッシュ、特に手と接触している物体を再構築することができる。 挑戦的なベンチマークに関する広範囲な実験は、提案手法が現在の芸術の水準を大きく上回っていることを示している。 私たちのコードはhttps://junxinghu.github.io/projects/hoi.htmlで公開されています。

Reconstructing hand-held objects from monocular RGB images is an appealing yet challenging task. In this task, contacts between hands and objects provide important cues for recovering the 3D geometry of the hand-held objects. Though recent works have employed implicit functions to achieve impressive progress, they ignore formulating contacts in their frameworks, which results in producing less realistic object meshes. In this work, we explore how to model contacts in an explicit way to benefit the implicit reconstruction of hand-held objects. Our method consists of two components: explicit contact prediction and implicit shape reconstruction. In the first part, we propose a new subtask of directly estimating 3D hand-object contacts from a single image. The part-level and vertex-level graph-based transformers are cascaded and jointly learned in a coarse-to-fine manner for more accurate contact probabilities. In the second part, we introduce a novel method to diffuse estimated contact states from the hand mesh surface to nearby 3D space and leverage diffused contact probabilities to construct the implicit neural representation for the manipulated object. Benefiting from estimating the interaction patterns between the hand and the object, our method can reconstruct more realistic object meshes, especially for object parts that are in contact with hands. Extensive experiments on challenging benchmarks show that the proposed method outperforms the current state of the arts by a great margin. Our code is publicly available at https://junxinghu.github.io/projects/hoi.html.
翻訳日:2024-01-18 02:47:42 公開日:2024-01-16
# ベイズ逆問題を解くための学習:ガウスとフローガイドを用いた不定形変分推論アプローチ

Learning to solve Bayesian inverse problems: An amortized variational inference approach using Gaussian and Flow guides ( http://arxiv.org/abs/2305.20004v2 )

ライセンス: Link先を確認
Sharmila Karumuri and Ilias Bilionis(参考訳) 逆問題、すなわち実験データから物理モデルのパラメータを推定することは、科学や工学においてユビキタスである。 ベイズ式は不適切な問題を緩和し、認識の不確実性を定量化するため、金本位制である。 分析後部は一般には利用できないので、マルコフ連鎖モンテカルロサンプリングや近似変分推論に頼っている。 しかし、新しいデータセットごとに推論をスクラッチから再実行する必要がある。 この欠点は、ベイズ式の適用性が、例えば、工学系のヘルスモニタリングや医療診断など、リアルタイムな設定に制限されている。 本研究の目的は,ベイズ逆写像,すなわちデータから後方への写像を学習することにより,リアルタイム推論を可能にする手法を開発することである。 私たちのアプローチは以下の通りです。 後方分布をデータ関数としてパラメータ化する。 この研究は2つの異なるアプローチを概説している。 第1の方法は、ニューラルネットワークを介して実装された償却フルランクガウスガイドを用いて後部をパラメータ化することである。 第2の方法は、条件付き正規化フローガイドを使用し、ターゲット後部が任意に複雑である場合に条件付き非可逆ニューラルネットワークを用いる。 いずれのアプローチでも,モデルと互換性のあるすべての可能なデータセットに対して,エビデンスの下限を最大化することを含む,不定形変分推論によってネットワークパラメータを学習する。 我々は,科学と工学のベンチマーク問題を解くことにより,このアプローチを実証する。 この結果は,マルコフ連鎖モンテカルロによって得られた基底的真理と,我々のアプローチの後方推定値が一致することを示す。 トレーニングが完了すると、ニューラルネットワークの前方通過のコストを犠牲にして、与えられた観測のための後方分布を提供する。

Inverse problems, i.e., estimating parameters of physical models from experimental data, are ubiquitous in science and engineering. The Bayesian formulation is the gold standard because it alleviates ill-posedness issues and quantifies epistemic uncertainty. Since analytical posteriors are not typically available, one resorts to Markov chain Monte Carlo sampling or approximate variational inference. However, inference needs to be rerun from scratch for each new set of data. This drawback limits the applicability of the Bayesian formulation to real-time settings, e.g., health monitoring of engineered systems, and medical diagnosis. The objective of this paper is to develop a methodology that enables real-time inference by learning the Bayesian inverse map, i.e., the map from data to posteriors. Our approach is as follows. We parameterize the posterior distribution as a function of data. This work outlines two distinct approaches to do this. The first method involves parameterizing the posterior using an amortized full-rank Gaussian guide, implemented through neural networks. The second method utilizes a Conditional Normalizing Flow guide, employing conditional invertible neural networks for cases where the target posterior is arbitrarily complex. In both approaches, we learn the network parameters by amortized variational inference which involves maximizing the expectation of evidence lower bound over all possible datasets compatible with the model. We demonstrate our approach by solving a set of benchmark problems from science and engineering. Our results show that the posterior estimates of our approach are in agreement with the corresponding ground truth obtained by Markov chain Monte Carlo. Once trained, our approach provides the posterior distribution for a given observation just at the cost of a forward pass of the neural network.
翻訳日:2024-01-18 02:47:16 公開日:2024-01-16
# 顔生成のための音声文脈対応リップシンクの探索

Exploring Phonetic Context-Aware Lip-Sync For Talking Face Generation ( http://arxiv.org/abs/2305.19556v2 )

ライセンス: Link先を確認
Se Jin Park, Minsu Kim, Jeongsoo Choi, Yong Man Ro(参考訳) 音声と正確な同期を必要とする自然でリアルな顔を合成する上で、顔生成は難しい課題である。 孤立した電話が先行または後続の電話に影響される共音声化のため、電話の明瞭度は音韻的文脈によって異なる。 したがって、音韻文脈による唇の動きをモデル化することで、時空間的な唇の動きをより高めることができる。 そこで本研究では,話し顔生成のための唇の動き生成における音韻文脈について検討する。 対象の顔の唇の動きを生成するために音声コンテキストを明示的に活用する文脈対応リップシンクフレームワーク(CALS)を提案する。 CALSはAudio-to-LipモジュールとLip-to-Faceモジュールで構成されている。 前者はマスク学習に基づいて事前学習され、各携帯電話をコンテキスト化された唇運動ユニットにマップする。 次に、コンテキスト化された唇の動きユニットは、コンテキスト認識された唇の動きでターゲットのアイデンティティを合成して、後者を導く。 広範な実験から,提案するcalsフレームワークにおける音韻文脈の活用が,時空間的アライメントを効果的に向上することを確認した。 また,音声的文脈がリップ同期を補助する程度を示し,リップ生成の有効なウィンドウサイズは約1.2秒であることを示す。

Talking face generation is the challenging task of synthesizing a natural and realistic face that requires accurate synchronization with a given audio. Due to co-articulation, where an isolated phone is influenced by the preceding or following phones, the articulation of a phone varies upon the phonetic context. Therefore, modeling lip motion with the phonetic context can generate more spatio-temporally aligned lip movement. In this respect, we investigate the phonetic context in generating lip motion for talking face generation. We propose Context-Aware Lip-Sync framework (CALS), which explicitly leverages phonetic context to generate lip movement of the target face. CALS is comprised of an Audio-to-Lip module and a Lip-to-Face module. The former is pretrained based on masked learning to map each phone to a contextualized lip motion unit. The contextualized lip motion unit then guides the latter in synthesizing a target identity with context-aware lip motion. From extensive experiments, we verify that simply exploiting the phonetic context in the proposed CALS framework effectively enhances spatio-temporal alignment. We also demonstrate the extent to which the phonetic context assists in lip synchronization and find the effective window size for lip generation to be approximately 1.2 seconds.
翻訳日:2024-01-18 02:46:36 公開日:2024-01-16
# 会話における直観推論のための構造因果モデル学習

Learning a Structural Causal Model for Intuition Reasoning in Conversation ( http://arxiv.org/abs/2305.17727v2 )

ライセンス: Link先を確認
Hang Chen, Bingyu Liao, Jing Luo, Wenjing Zhu, Xinyu Yang(参考訳) NLP研究の重要な側面である推論は、大規模言語モデルを含む一般的なモデルでは適切に対処されていない。 会話推論は、その重要な要素として、よく設計された認知モデルがないため、ほとんど未解明のままである。 本稿では,会話認知に関する直観理論に触発された会話認知モデル(ccm)を開発し,各発話が情報チャネルをどのように受信し,再帰的に活性化するかを説明する。 さらに, 代数的にCCMを構造因果モデル (Strucical causal model, SCM) に変換し, 様々な因果発見法と互換性を持たせた。 さらに、発話レベルの関係推論のためのSCMの確率的実装を提案する。 変分推論を利用することで、暗黙的原因の代用品を探索し、観測不能の問題に対処し、エビデンスの下限を通じて発話の因果表現を再構築する。 さらに,すべての利用可能なデータセットが暗黙的原因非依存である現状を緩和し,暗黙的原因と完全原因ラベルを組み込んだ合成およびシミュレーションデータセットを構築した。 広範な実験により,提案手法は,合成,シミュレーション,実世界のデータセットにおいて,既存の手法を大幅に上回ることを示した。 最後に,潜在共同設立者の下でのccmの性能を分析し,現在解決されていない問題に対処するための理論的アイデアを提案する。

Reasoning, a crucial aspect of NLP research, has not been adequately addressed by prevailing models including Large Language Model. Conversation reasoning, as a critical component of it, remains largely unexplored due to the absence of a well-designed cognitive model. In this paper, inspired by intuition theory on conversation cognition, we develop a conversation cognitive model (CCM) that explains how each utterance receives and activates channels of information recursively. Besides, we algebraically transformed CCM into a structural causal model (SCM) under some mild assumptions, rendering it compatible with various causal discovery methods. We further propose a probabilistic implementation of the SCM for utterance-level relation reasoning. By leveraging variational inference, it explores substitutes for implicit causes, addresses the issue of their unobservability, and reconstructs the causal representations of utterances through the evidence lower bounds. Moreover, we constructed synthetic and simulated datasets incorporating implicit causes and complete cause labels, alleviating the current situation where all available datasets are implicit-causes-agnostic. Extensive experiments demonstrate that our proposed method significantly outperforms existing methods on synthetic, simulated, and real-world datasets. Finally, we analyze the performance of CCM under latent confounders and propose theoretical ideas for addressing this currently unresolved issue.
翻訳日:2024-01-18 02:45:44 公開日:2024-01-16
# Translatotron 3:モノリンガルデータを用いた音声から音声への翻訳

Translatotron 3: Speech to Speech Translation with Monolingual Data ( http://arxiv.org/abs/2305.17547v3 )

ライセンス: Link先を確認
Eliya Nachmani, Alon Levkovitch, Yifan Ding, Chulayuth Asawaroengchai, Heiga Zen, Michelle Tadmor Ramanovich(参考訳) 本稿では,マスク付きオートエンコーダ,教師なし埋め込みマッピング,バックトランスレーションを組み合わせることで,単言語音声テキストから教師なし音声へ直接翻訳する新しい手法であるtranslatotron 3について述べる。 スペイン語と英語の音声音声翻訳タスクの実験結果から、Translatotron 3はベースラインのカスケードシステムよりも優れており、合成されたUnpaired-Conversationalデータセットの18.14ドルBLEUポイントの改善が報告されている。 実際のペアデータを必要とする教師付きアプローチや、ポーズ、発話率、話者識別などのパラ言語/非言語情報を複製する特殊なモデリングとは対照的に、Translatotron 3はそれを保持する能力を示している。 オーディオサンプルはhttp://google-research.github.io/lingvo-lab/translatotron3で見ることができる。

This paper presents Translatotron 3, a novel approach to unsupervised direct speech-to-speech translation from monolingual speech-text datasets by combining masked autoencoder, unsupervised embedding mapping, and back-translation. Experimental results in speech-to-speech translation tasks between Spanish and English show that Translatotron 3 outperforms a baseline cascade system, reporting $18.14$ BLEU points improvement on the synthesized Unpaired-Conversational dataset. In contrast to supervised approaches that necessitate real paired data, or specialized modeling to replicate para-/non-linguistic information such as pauses, speaking rates, and speaker identity, Translatotron 3 showcases its capability to retain it. Audio samples can be found at http://google-research.github.io/lingvo-lab/translatotron3
翻訳日:2024-01-18 02:45:23 公開日:2024-01-16
# 知識グラフの埋め込みを生成モデルに変換する方法

How to Turn Your Knowledge Graph Embeddings into Generative Models ( http://arxiv.org/abs/2305.15944v3 )

ライセンス: Link先を確認
Lorenzo Loconte, Nicola Di Mauro, Robert Peharz, Antonio Vergari(参考訳) リンク予測のための最も成功した知識グラフ埋め込み(KGE)モデル(CP、RESCAL、TuckER、ComplEx)は、エネルギーベースのモデルとして解釈できる。 この観点からは、mle(maximum-likelihood estimation)やサンプリング、論理的な制約の統合に苦慮している。 この研究は、これらのKGEのスコア関数を回路として再解釈する。 次に,その活性化を非負に制限するか,出力を絞り込むかして,効率的な生成回路モデルを得るための2つのレシピを設計する。 我々の解釈では、リンク予測の性能がほとんどあるいは全く失われていないのに対し、回路フレームワークは、MLEによる正確な学習を解放し、新しいトリプルの効率的なサンプリングを行い、論理的制約が設計によって満たされることを保証する。 さらに、私たちのモデルは、数百万のエンティティを持つグラフ上の元のKGEよりも優雅にスケールします。

Some of the most successful knowledge graph embedding (KGE) models for link prediction -- CP, RESCAL, TuckER, ComplEx -- can be interpreted as energy-based models. Under this perspective they are not amenable for exact maximum-likelihood estimation (MLE), sampling and struggle to integrate logical constraints. This work re-interprets the score functions of these KGEs as circuits -- constrained computational graphs allowing efficient marginalisation. Then, we design two recipes to obtain efficient generative circuit models by either restricting their activations to be non-negative or squaring their outputs. Our interpretation comes with little or no loss of performance for link prediction, while the circuits framework unlocks exact learning by MLE, efficient sampling of new triples, and guarantee that logical constraints are satisfied by design. Furthermore, our models scale more gracefully than the original KGEs on graphs with millions of entities.
翻訳日:2024-01-18 02:44:07 公開日:2024-01-16
# 拡散言語モデルの生成は早期に停止できる

Diffusion Language Models Generation Can Be Halted Early ( http://arxiv.org/abs/2305.10818v2 )

ライセンス: Link先を確認
Sofia Maria Lo Cicero Vaina, Nikita Balagansky, Daniil Gavrilov(参考訳) 拡散言語モデル (DLMs) は, トラクタブル制御可能生成における実用性から, テキスト生成に期待できる道である。 また、テキストを自己回帰的に予測する必要がないという利点もある。 しかし、これらの特徴にもかかわらず、DLMはまだAutoregressiveのパフォーマンスレベルに達していない。 これら2種類の言語モデルのパフォーマンスギャップを減らす方法の1つは、DLMの生成を高速化することである。 そこで本研究では,この問題に対処する先駆的手法を提案する。 これにより、与えられた時間枠内でより多くの生成ステップの実行が可能になる。 具体的には,テキスト生成のdlms完全性を推定し,生成プロセスの適応停止を可能にする。 我々はPlaid, SSD, CDCD DLMの手法を検証・洗練し, 生成ワークフローに関する密集的な視点を創出する。 最後に,本手法により,Plaid,SSD,CDCDモデルを停止し,モデルサンプルの品質を低下させることなく生成時間を10-40$%削減できることを確認した。

Diffusion Language models (DLMs) are a promising avenue for text generation due to their practical properties on tractable controllable generation. They also have the advantage of not having to predict text autoregressively. However, despite these notable features, DLMs have not yet reached the performance levels of their Autoregressive counterparts. One of the ways to reduce the performance gap between these two types of language models is to speed up the generation of DLMs. Therefore, we propose a pioneering methodology to address this issue in this work. It enables the execution of more generation steps within a given time frame, potentially leading to higher-quality outputs. Specifically, our methods estimate DLMs completeness of text generation and allow adaptive halting of the generation process. We test and refine our methods on Plaid, SSD, and CDCD DLMs and create a cohesive perspective on their generation workflows. Finally, we confirm that our methods allow halting Plaid, SSD, and CDCD models and decrease the generation time by $10$-$40$% without a drop in the quality of model samples.
翻訳日:2024-01-18 02:42:47 公開日:2024-01-16
# AQuA:ラベル品質評価のためのベンチマークツール

AQuA: A Benchmarking Tool for Label Quality Assessment ( http://arxiv.org/abs/2306.09467v2 )

ライセンス: Link先を確認
Mononito Goswami, Vedant Sanil, Arjun Choudhry, Arvind Srinivasan, Chalisa Udompanyawit, Artur Dubrawski(参考訳) 機械学習(ML)モデルは、トレーニングされているデータに匹敵するものではない。 しかし、最近の研究では、例えばImageNetのようなMLモデルのトレーニングと評価に広く使用されているデータセットが、広範囲なラベリングエラーを持つことがわかった。 電車のラベルが誤ってMLモデルの一般化能力が損なわれ、テストセットによる評価とモデル選択に影響を及ぼした。 したがって、ラベリングエラーの存在下での学習は活発な研究領域であるが、この分野にはこれらの手法を評価するための包括的なベンチマークが欠けている。 これらの手法の多くは、実験プロトコルにかなりのばらつきがある少数のコンピュータビジョンデータセットで評価される。 このような大規模なメソッドプールと一貫性のない評価により、ML実践者がデータ内のラベル品質を評価する適切なモデルをどのように選択できるかは明らかでない。 そこで本稿では,ラベルノイズの存在下での機械学習を可能にする手法を厳格に評価するベンチマーク環境AQuAを提案する。 また,ラベル誤り検出モデルの具体的設計選択を記述可能な設計空間を提案する。 提案する設計スペースとベンチマークによって,ラベル品質向上のための適切なツールの選択が可能になり,誤ラベルデータに直面する機械学習ツールの客観的かつ厳格な評価が可能になることを願っています。

Machine learning (ML) models are only as good as the data they are trained on. But recent studies have found datasets widely used to train and evaluate ML models, e.g. ImageNet, to have pervasive labeling errors. Erroneous labels on the train set hurt ML models' ability to generalize, and they impact evaluation and model selection using the test set. Consequently, learning in the presence of labeling errors is an active area of research, yet this field lacks a comprehensive benchmark to evaluate these methods. Most of these methods are evaluated on a few computer vision datasets with significant variance in the experimental protocols. With such a large pool of methods and inconsistent evaluation, it is also unclear how ML practitioners can choose the right models to assess label quality in their data. To this end, we propose a benchmarking environment AQuA to rigorously evaluate methods that enable machine learning in the presence of label noise. We also introduce a design space to delineate concrete design choices of label error detection models. We hope that our proposed design space and benchmark enable practitioners to choose the right tools to improve their label quality and that our benchmark enables objective and rigorous evaluation of machine learning tools facing mislabeled data.
翻訳日:2024-01-18 02:34:35 公開日:2024-01-16
# 低地球軌道における平衡ホモジン検出による量子超解像

Quantum Super-Resolution with Balanced Homodyne Detection in Low-Earth-Orbit ( http://arxiv.org/abs/2306.06541v2 )

ライセンス: Link先を確認
Ronakraj K Gosalia, Robert Malaney, Ryan Aguinaldo and Jonathan Green(参考訳) 量子超解像は、レイリー限界以下の2つの源を量子光学を用いて解くことを含む。 このような手法は、高精度の衛星間測位と通信と航海星座の追跡を可能にする。 低軌道(LEO)衛星に典型的な大きさ、重量、電力制約のため、単純な解決策が好まれる。 ここでは, 単モード局所発振器を用いた平衡ホモダイン検出(BHD)が, 典型的なフォトニック損失にもかかわらず超高分解能を実現することを示す。 さらに,衛星ポインティング問題による変動性および固定型遠心性不一致の影響を解析し,固定型不一致がbhd設定の性能に比較的有害であることを確認した。 そこで本研究では,最新のLEO衛星プラットフォームで超高分解能を実現するために,BHDの実用的な評価を行う。 最後に、天文学的な応用のために、我々の分析を恒星源にまで拡張する方法について論じる。

Quantum super-resolution involves resolving two sources below the Rayleigh limit using quantum optics. Such a technique would allow high-precision inter-satellite positioning and tracking on communication and navigation constellations. Due to the size, weight and power constraints typical of low-earth-orbit (LEO) satellites, a simple solution is often preferred. Here, we show that a balanced homodyne detection (BHD) setup using a shaped single-mode local oscillator can achieve super-resolution despite typical photonic losses. We further analyze the impact of a fluctuating and fixed centroid misalignment due to satellite pointing issues, and find that fixed misalignment is comparatively more detrimental to the performance of a BHD setup. Thus, our study provides a practical assessment of BHD to achieve super-resolution on a modern LEO satellite platform. Finally, we discuss how our analysis can be extended to stellar sources for astronomical applications.
翻訳日:2024-01-18 02:33:41 公開日:2024-01-16
# ENN: DCT適応活性化機能を持つニューラルネットワーク

ENN: A Neural Network with DCT Adaptive Activation Functions ( http://arxiv.org/abs/2307.00673v2 )

ライセンス: Link先を確認
Marc Martinez-Gost, Ana P\'erez-Neira, Miguel \'Angel Lagunas(参考訳) ニューラルネットワークの表現性はアクティベーション関数の性質に大きく依存するが、トレーニング段階では事前に定義され固定されることが多い。 本稿では、信号処理の観点から、非線形活性化関数を離散コサイン変換(DCT)を用いてモデル化し、トレーニング中にバックプロパゲーションを用いて適応する新しいモデルであるExpressive Neural Network(ENN)を提案する。 このパラメータ化は、トレーニング可能なパラメータの数を低く抑え、勾配ベースのスキームに適し、異なる学習タスクに適応する。 これは、信号処理の観点から、ネットワークに高い柔軟性と表現性を提供する、アクティベーション関数のための最初の非線形モデルである。 我々は,バンプの概念,すなわち出力空間における各アクティベーション関数の応答を回復することにより,収束時のネットワークの説明可能性に関する知見を提供する。 最後に、徹底的な実験を通して、モデルが分類および回帰タスクに適応できることを示します。 ENNのパフォーマンスは、いくつかのシナリオにおいて40%以上の精度のギャップを提供する、アートベンチマークの状態を上回ります。

The expressiveness of neural networks highly depends on the nature of the activation function, although these are usually assumed predefined and fixed during the training stage. Under a signal processing perspective, in this paper we present Expressive Neural Network (ENN), a novel model in which the non-linear activation functions are modeled using the Discrete Cosine Transform (DCT) and adapted using backpropagation during training. This parametrization keeps the number of trainable parameters low, is appropriate for gradient-based schemes, and adapts to different learning tasks. This is the first non-linear model for activation functions that relies on a signal processing perspective, providing high flexibility and expressiveness to the network. We contribute with insights in the explainability of the network at convergence by recovering the concept of bump, this is, the response of each activation function in the output space. Finally, through exhaustive experiments we show that the model can adapt to classification and regression tasks. The performance of ENN outperforms state of the art benchmarks, providing above a 40% gap in accuracy in some scenarios.
翻訳日:2024-01-18 02:24:14 公開日:2024-01-16
# 天文光学望遠鏡のインテリジェンス:現状と今後の展望

Intelligence of Astronomical Optical Telescope: Present Status and Future Perspectives ( http://arxiv.org/abs/2306.16834v2 )

ライセンス: Link先を確認
Kang Huang, Tianzhu Hu, Jingyi Cai, Xiushan Pang, Yonghui Hou, Yong Zhang, Huaiqing Wang, Xiangqun Cui(参考訳) 人工知能技術は天文学で広く使われており、新しい人工知能技術や応用シナリオが常に出現している。 天文学における人工知能技術の応用について、多くの論文がレビューされている。 しかし、関連する記事は望遠鏡の知能を別々に言及することがほとんどなく、これらの論文から望遠鏡の知性の現状と研究のホットスポットを理解することは困難である。 本稿では、人工知能技術の発展史と望遠鏡の重要技術の難しさを融合し、望遠鏡インテリジェンスの開発と研究のホットスポットを包括的に紹介するとともに、望遠鏡インテリジェンスの様々な研究方向に関する統計的分析を行い、研究方向のメリットを定義した。 様々な研究方向が評価され、各望遠鏡の知能の研究動向が指摘されている。 最後に、人工知能技術の利点と望遠鏡の開発動向により、将来の望遠鏡インテリジェンスの研究ホットスポットが与えられる。

Artificial intelligence technology has been widely used in astronomy, and new artificial intelligence technologies and application scenarios are constantly emerging. There have been a large number of papers reviewing the application of artificial intelligence technology in astronomy. However, relevant articles seldom mention telescope intelligence separately, and it is difficult to understand the current development status and research hotspots of telescope intelligence from these papers. This paper combines the development history of artificial intelligence technology and the difficulties of critical technologies of telescopes, comprehensively introduces the development and research hotspots of telescope intelligence, then conducts statistical analysis on various research directions of telescope intelligence and defines the research directions' merits. All kinds of research directions are evaluated, and the research trend of each telescope's intelligence is pointed out. Finally, according to the advantages of artificial intelligence technology and the development trend of telescopes, future research hotspots of telescope intelligence are given.
翻訳日:2024-01-18 02:22:39 公開日:2024-01-16
# domaintudio:限定データを用いたドメイン駆動画像生成のための微調整拡散モデル

DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image Generation using Limited Data ( http://arxiv.org/abs/2306.14153v4 )

ライセンス: Link先を確認
Jingyuan Zhu, Huimin Ma, Jiansheng Chen, Jian Yuan(参考訳) denoising diffusion probabilistic models (ddpms) は、大量のデータでトレーニングされた場合、非常に多様な高品質な画像を合成できることが証明されている。 典型的拡散モデルとテキスト・ツー・イメージ生成モデルのような現代の大規模条件生成モデルは、極端に限られたデータに微調整された場合、過度な適合に弱い。 既存の研究は、いくつかの画像を含む参照セットを用いて主題駆動生成を調査してきた。 しかし、DDPMベースのドメイン駆動生成は、多様性を維持しながらターゲットドメインの共通の特徴を学習することを目的としている。 本稿では,大規模ソースデータセット上で事前学習したDDPMを限定データを用いて対象ドメインに適応する新しいDomainStudioアプローチを提案する。 ソースドメインが提供する対象の多様性を維持し、ターゲットドメインで高品質で多様な適応サンプルを取得するように設計されている。 本稿では,適応試料間の相対的距離を保ち,相当な世代多様性を達成することを提案する。 さらに,高頻度ディテールの学習をさらに強化し,高次品質を実現する。 我々のアプローチは無条件拡散モデルと条件拡散モデルの両方と互換性がある。 この研究は、拡散モデルを用いて無条件の少数ショット画像生成を実現し、現在最先端のGANベースのアプローチよりも優れた品質と多様性を実現する最初の試みである。 さらに、条件付き生成の過剰適合を著しく軽減し、高品質なドメイン駆動生成を実現し、現代の大規模テキスト・画像モデルに適用可能なシナリオをさらに拡大する。

Denoising diffusion probabilistic models (DDPMs) have been proven capable of synthesizing high-quality images with remarkable diversity when trained on large amounts of data. Typical diffusion models and modern large-scale conditional generative models like text-to-image generative models are vulnerable to overfitting when fine-tuned on extremely limited data. Existing works have explored subject-driven generation using a reference set containing a few images. However, few prior works explore DDPM-based domain-driven generation, which aims to learn the common features of target domains while maintaining diversity. This paper proposes a novel DomainStudio approach to adapt DDPMs pre-trained on large-scale source datasets to target domains using limited data. It is designed to keep the diversity of subjects provided by source domains and get high-quality and diverse adapted samples in target domains. We propose to keep the relative distances between adapted samples to achieve considerable generation diversity. In addition, we further enhance the learning of high-frequency details for better generation quality. Our approach is compatible with both unconditional and conditional diffusion models. This work makes the first attempt to realize unconditional few-shot image generation with diffusion models, achieving better quality and greater diversity than current state-of-the-art GAN-based approaches. Moreover, this work also significantly relieves overfitting for conditional generation and realizes high-quality domain-driven generation, further expanding the applicable scenarios of modern large-scale text-to-image models.
翻訳日:2024-01-18 02:21:27 公開日:2024-01-16
# コントラストモーションクラスタリングによるオンライン教師なしビデオオブジェクトセグメンテーション

Online Unsupervised Video Object Segmentation via Contrastive Motion Clustering ( http://arxiv.org/abs/2306.12048v2 )

ライセンス: Link先を確認
Lin Xi, Weihai Chen, Xingming Wu, Zhong Liu, Zhengguo Li(参考訳) オンライン教師なしビデオオブジェクトセグメンテーション(UVOS)は、以前のフレームを入力として使用し、さらに手動のアノテーションを使わずに、一次オブジェクトをストリーミングビデオから自動的に分離する。 主要な課題は、モデルに未来へのアクセスがなく、歴史のみに頼らなければならないこと、すなわち、セグメント化マスクがキャプチャされた直後に現在のフレームから予測されることである。 本研究では、オンラインUVOSに対して、同じ動きパターンを持つ場合、視覚的要素が群として認識されるという共通の運命原理を利用して、光学的フローを入力として持つ新しいコントラスト型モーションクラスタリングアルゴリズムを提案する。 移動パターンの非学習可能な原型的ベースを反復的に要約するために,単純かつ効果的なオートエンコーダを構築し,そのベースが組込みネットワークの表現を学ぶのに役立つ。 さらに、境界事前に基づくコントラスト学習戦略を開発し、表現学習段階における前景と背景特徴の識別を改善する。 提案アルゴリズムは任意のスケールのデータ、すなわちフレーム、クリップ、データセットに最適化され、オンライン形式で実行される。 $\textit{DAVIS}_{\textit{16}}$, $\textit{FBMS}$, $\textit{SegTrackV2}$データセットでの実験では、我々のメソッドの精度が、それぞれ0.8%、2.9%、および1.1%の差で、以前の最先端(SoTA)オンラインUVOSメソッドを上回っていることが示されている。 さらに,オンラインの深層空間クラスタリングを用いてモーショングルーピングに取り組み,SoTAのオンラインUVOS法と比較して3/times$高速な推定時間を実現し,有効性と効率の良好なトレードオフを実現する。

Online unsupervised video object segmentation (UVOS) uses the previous frames as its input to automatically separate the primary object(s) from a streaming video without using any further manual annotation. A major challenge is that the model has no access to the future and must rely solely on the history, i.e., the segmentation mask is predicted from the current frame as soon as it is captured. In this work, a novel contrastive motion clustering algorithm with an optical flow as its input is proposed for the online UVOS by exploiting the common fate principle that visual elements tend to be perceived as a group if they possess the same motion pattern. We build a simple and effective auto-encoder to iteratively summarize non-learnable prototypical bases for the motion pattern, while the bases in turn help learn the representation of the embedding network. Further, a contrastive learning strategy based on a boundary prior is developed to improve foreground and background feature discrimination in the representation learning stage. The proposed algorithm can be optimized on arbitrarily-scale data i.e., frame, clip, dataset) and performed in an online fashion. Experiments on $\textit{DAVIS}_{\textit{16}}$, $\textit{FBMS}$, and $\textit{SegTrackV2}$ datasets show that the accuracy of our method surpasses the previous state-of-the-art (SoTA) online UVOS method by a margin of 0.8%, 2.9%, and 1.1%, respectively. Furthermore, by using an online deep subspace clustering to tackle the motion grouping, our method is able to achieve higher accuracy at $3\times$ faster inference time compared to SoTA online UVOS method, and making a good trade-off between effectiveness and efficiency.
翻訳日:2024-01-18 02:20:13 公開日:2024-01-16
# 確率勾配Descence を用いたガウスプロセス後部からのサンプリング

Sampling from Gaussian Process Posteriors using Stochastic Gradient Descent ( http://arxiv.org/abs/2306.11589v3 )

ライセンス: Link先を確認
Jihao Andreas Lin and Javier Antor\'an and Shreyas Padhy and David Janz and Jos\'e Miguel Hern\'andez-Lobato and Alexander Terenin(参考訳) ガウス過程は不確実性の定量化とシーケンシャルな意思決定のための強力なフレームワークであるが、線形システムを解く必要性によって制限されている。 一般に、これはデータセットのサイズが立方体コストであり、条件付けに敏感である。 確率勾配アルゴリズムを線形系を近似的に解くための計算効率の良い手法として検討し, 後方からサンプリングする低分散最適化目標を開発し, 誘導点まで拡張する。 反対に、確率勾配勾配は、最適値に急速に収束しない場合でも、しばしば正確な予測をもたらす。 非収束性からの暗黙バイアスのスペクトル的評価によりこれを説明できる。 確率勾配降下は、十分なデータカバレッジを持つ領域と、データから十分に離れた領域の両方において、真の後部に近い予測分布を生成する。 実験的に、確率勾配降下は十分に大規模または不条件の回帰タスクにおいて最先端の性能を達成する。 その不確実性推定は、大規模なベイズ最適化タスクにおいて、はるかに高価なベースラインの性能と一致する。

Gaussian processes are a powerful framework for quantifying uncertainty and for sequential decision-making but are limited by the requirement of solving linear systems. In general, this has a cubic cost in dataset size and is sensitive to conditioning. We explore stochastic gradient algorithms as a computationally efficient method of approximately solving these linear systems: we develop low-variance optimization objectives for sampling from the posterior and extend these to inducing points. Counterintuitively, stochastic gradient descent often produces accurate predictions, even in cases where it does not converge quickly to the optimum. We explain this through a spectral characterization of the implicit bias from non-convergence. We show that stochastic gradient descent produces predictive distributions close to the true posterior both in regions with sufficient data coverage, and in regions sufficiently far away from the data. Experimentally, stochastic gradient descent achieves state-of-the-art performance on sufficiently large-scale or ill-conditioned regression tasks. Its uncertainty estimates match the performance of significantly more expensive baselines on a large-scale Bayesian optimization task.
翻訳日:2024-01-18 02:19:16 公開日:2024-01-16
# 一般化固有値方程式におけるユークリッド時間法

Euclidean time method in Generalized Eigenvalue Equation ( http://arxiv.org/abs/2307.14640v2 )

ライセンス: Link先を確認
Mi-Ra Hwang, Eylee Jung, Museong Kim, DaeKil Park(参考訳) 一般化固有値方程式 $a \ket{\phi_n} = \lambda_n b \ket{\phi_n}$ を解くための変分量子固有ソルバのユークリッド時間法を開発し、ここでは$a$ と $b$ がエルミート作用素であり、$\ket{\phi_n}$ と $\lambda_n$ はそれぞれ固有ベクトルと対応する固有値である。 目的のために、時間に依存しないシュルンディンガー方程式を解くために開発された通常のユークリッド時間形式を修正する。 テストの3つの数値例に形式を適用する。 我々の形式主義は、すべての数値的な例において非常にうまく機能する。 また、水素原子に形式を応用し、電気偏光率を計算する。 この結果は摂動法よりもわずかに小さいことが判明した。

We develop the Euclidean time method of the variational quantum eigensolver for solving the generalized eigenvalue equation $A \ket{\phi_n} = \lambda_n B \ket{\phi_n}$, where $A$ and $B$ are hermitian operators, and $\ket{\phi_n}$ and $\lambda_n$ are called the eigenvector and the corresponding eigenvalue of this equation respectively. For the purpose we modify the usual Euclidean time formalism, which was developed for solving the time-independent Schr\"{o}dinger equation. We apply our formalism to three numerical examples for test. It is shown that our formalism works very well in all numerical examples. We also apply our formalism to the hydrogen atom and compute the electric polarizability. It turns out that our result is slightly less than that of the perturbation method.
翻訳日:2024-01-18 02:12:22 公開日:2024-01-16
# feddrl:段階的強化学習に基づく信頼度の高いフェデレーション学習モデル融合法

FedDRL: A Trustworthy Federated Learning Model Fusion Method Based on Staged Reinforcement Learning ( http://arxiv.org/abs/2307.13716v2 )

ライセンス: Link先を確認
Leiming Chen, Cihao Dong, Sibo Qiao, Ziling Huang, Kai Wang, Yuming Nie, Zhaoxiang Hou, Cheewei Tan(参考訳) 従来の連合学習では、各クライアントモデルの重みを計算するためにサンプル数を使用し、この固定重み値を使ってグローバルモデルを融合する。 しかし、現実的なシナリオでは、各クライアントのデバイスとデータの均一性は、各クライアントのモデルの品質に違いをもたらす。 したがって、グローバルモデルへの貢献は、サンプルサイズによって完全には決定されない。 さらに、クライアントが意図的に低品質または悪意のあるモデルをアップロードした場合、集約にこれらのモデルを使用することで、グローバルモデルの精度が大幅に低下する。 従来のフェデレーション学習アルゴリズムはこれらの問題に対処しない。 本稿では,2段階のアプローチに基づく強化学習を用いたモデル融合手法であるFedDRLを提案する。 最初の段階では、悪意あるモデルをフィルタリングし、信頼されたクライアントモデルを選択してモデル融合に参加する。 第2段階では、FedDRLアルゴリズムは信頼されたクライアントモデルの重みを適応的に調整し、最適なグローバルモデルを集約する。 また,5つのモデル融合シナリオを定義し,それらのシナリオにおける2つのベースラインアルゴリズムとの比較を行った。 実験結果から,本アルゴリズムは精度を維持しつつ,他のアルゴリズムよりも信頼性が高いことがわかった。

Traditional federated learning uses the number of samples to calculate the weights of each client model and uses this fixed weight value to fusion the global model. However, in practical scenarios, each client's device and data heterogeneity leads to differences in the quality of each client's model. Thus the contribution to the global model is not wholly determined by the sample size. In addition, if clients intentionally upload low-quality or malicious models, using these models for aggregation will lead to a severe decrease in global model accuracy. Traditional federated learning algorithms do not address these issues. To solve this probelm, we propose FedDRL, a model fusion approach using reinforcement learning based on a two staged approach. In the first stage, Our method could filter out malicious models and selects trusted client models to participate in the model fusion. In the second stage, the FedDRL algorithm adaptively adjusts the weights of the trusted client models and aggregates the optimal global model. We also define five model fusion scenarios and compare our method with two baseline algorithms in those scenarios. The experimental results show that our algorithm has higher reliability than other algorithms while maintaining accuracy.
翻訳日:2024-01-18 02:12:05 公開日:2024-01-16
# ソフトウェアコードの品質測定: メトリクス分布からの影響

Software Code Quality Measurement: Implications from Metric Distributions ( http://arxiv.org/abs/2307.12082v4 )

ライセンス: Link先を確認
Siyuan Jin, Mianmian Zhang, Yekai Guo, Yuejiang He, Ziyuan Li, Bichao Chen, Bing Zhu, and Yong Xia(参考訳) ソフトウェアコードの品質は、保守性、信頼性、機能という3次元の構成要素である。 多くの企業はコード品質メトリクスを運用に組み込んでいるが、これらのメトリクスの評価には一貫性のある基準が欠けている。 それぞれの指標を2つのタイプに分類した。 1) コード品質に一貫して影響を及ぼす単調なメトリクス 2) コード品質と一貫した関係を持たないモノトニックなメトリクス。 連続的に評価するために,分布に基づく評価法を提案した。 私たちの実証分析には、36,460の高品質なオープンソースソフトウェア(OSS)リポジトリと、SonarQubeとCKの生メトリクスが含まれています。 評価されたスコアは、ソフトウェア導入に関する大きな説明可能性を示しています。 本研究は, コード品質の多次元的構成とその測定結果に寄与し, モノトニックおよび非モノトニックの両測定値に対する一貫した測定の実践的意味を提供する。

Software code quality is a construct with three dimensions: maintainability, reliability, and functionality. Although many firms have incorporated code quality metrics in their operations, evaluating these metrics still lacks consistent standards. We categorized distinct metrics into two types: 1) monotonic metrics that consistently influence code quality; and 2) non-monotonic metrics that lack a consistent relationship with code quality. To consistently evaluate them, we proposed a distribution-based method to get metric scores. Our empirical analysis includes 36,460 high-quality open-source software (OSS) repositories and their raw metrics from SonarQube and CK. The evaluated scores demonstrate great explainability on software adoption. Our work contributes to the multi-dimensional construct of code quality and its metric measurements, which provides practical implications for consistent measurements on both monotonic and non-monotonic metrics.
翻訳日:2024-01-18 02:10:42 公開日:2024-01-16
# soqcs:確率的光量子回路シミュレータ

SOQCS: A Stochastic Optical Quantum Circuit Simulator ( http://arxiv.org/abs/2307.06965v2 )

ライセンス: Link先を確認
Javier Osca and Jiri Vala(参考訳) 本稿では,量子光学回路シミュレーションのための確率光学量子回路シミュレータ(SOQCS)C++/Pythonライブラリについて述べる。 SOQCSは、様々な欠陥の存在下で量子線形光回路を定義し、シミュレーションし、研究するためのフレームワークを提供する。 これらは光子の部分的な識別性、損失のある伝搬媒体、不平衡ビームスプリッター、非理想のエミッタ、検出器などに由来する。 SOQCSは、量子回路、異なるシミュレーターコアおよび出力を分析するツールを提供する一連の異なるモジュールとして開発されている。 量子回路は、エミッタ、線形光学素子、遅延、検出器を含む基本成分から定義することができる。 ポストセレクションは検出器定義の一部として簡単に設定できる。 SOQCSの重要な属性は、将来さらなる開発を可能にするモジュール性である。

We present Stochastic Optical Quantum Circuit Simulator (SOQCS) C++/Python library for the simulation of quantum optical circuits, and we provide its implementation details. SOQCS offers a framework to define, simulate and study quantum linear optical circuits in the presence of various imperfections. These come from partial distinguishability of photons, lossy propagation media, unbalanced beamsplitters and non-ideal emitters and detectors for example. SOQCS is developed as a series of different modules which provide quantum circuits, different simulator cores and tools to analyze the output. Quantum circuits can be defined from basic components, including emitters, linear optical elements, delays and detectors. Post-selection can be configured straightforwardly as part of detector definitions. An important attribute of SOQCS is its modularity which allows for its further development in the future.
翻訳日:2024-01-18 02:09:22 公開日:2024-01-16
# リニア量子レギュレータの高速化最適化景観

Accelerated Optimization Landscape of Linear-Quadratic Regulator ( http://arxiv.org/abs/2307.03590v2 )

ライセンス: Link先を確認
Lechen Feng and Yuan-Hua Ni(参考訳) 線形量子レギュレータ(lqr)は最適制御の分野における画期的な問題であり,本稿の関心事である。 一般に、LQRは、全状態が得られるかどうかに基づいて、状態フィードバックLQR(SLQR)と出力フィードバックLQR(OLQR)に分類される。 既存の文献では、SLQR と OLQR の両方を \textit{constrained nonconvex matrix optimization} 問題と見なすことができ、最適化すべき変数はフィードバックゲイン行列のみである。 本稿では,lqr問題に対処するための一階加速最適化フレームワークを提案し,slqrとolqrのそれぞれについてその収束解析を行う。 具体的には、LQR性能基準のリプシッツ・ヘッセン性を示し、現代の最適化手法の適用において重要な性質であることが判明した。 slqr問題では、解の軌跡がネステロフ-オプティカルオーダー 1-\frac{1}{\sqrt{\kappa}}$ (\kappa$ the condition number) で最適フィードバックゲインに指数関数的に収束することが示される連続時間ハイブリッド力学系が導入された。 次に、シンプレクティックなオイラースキームを用いてハイブリッド力学系を離散化し、連続時間収束率、すなわち、離散化されたアルゴリズムはネステロフ-最適収束順序を許容する再起動規則を持つネステロフ型手法を提案する。 OLQR問題に対して,半凸関数最適化と負曲率利用からなる2元法であるヘッセンフリー加速フレームワークを提案する。 a time $\mathcal{O}(\epsilon^{-7/4}\log(1/\epsilon))$, the method can find a $\epsilon$-stationary point of the performance criterion; これは、このメソッドがバニラ勾配勾配の複雑さを$\mathcal{O}(\epsilon^{-2})$で改善することを意味する。 さらに,本手法は静止点の2次保証を提供する。

Linear-quadratic regulator (LQR) is a landmark problem in the field of optimal control, which is the concern of this paper. Generally, LQR is classified into state-feedback LQR (SLQR) and output-feedback LQR (OLQR) based on whether the full state is obtained. It has been suggested in existing literature that both SLQR and OLQR could be viewed as \textit{constrained nonconvex matrix optimization} problems in which the only variable to be optimized is the feedback gain matrix. In this paper, we introduce a first-order accelerated optimization framework of handling the LQR problem, and give its convergence analysis for the cases of SLQR and OLQR, respectively. Specifically, a Lipschiz Hessian property of LQR performance criterion is presented, which turns out to be a crucial property for the application of modern optimization techniques. For the SLQR problem, a continuous-time hybrid dynamic system is introduced, whose solution trajectory is shown to converge exponentially to the optimal feedback gain with Nesterov-optimal order $1-\frac{1}{\sqrt{\kappa}}$ ($\kappa$ the condition number). Then, the symplectic Euler scheme is utilized to discretize the hybrid dynamic system, and a Nesterov-type method with a restarting rule is proposed that preserves the continuous-time convergence rate, i.e., the discretized algorithm admits the Nesterov-optimal convergence order. For the OLQR problem, a Hessian-free accelerated framework is proposed, which is a two-procedure method consisting of semiconvex function optimization and negative curvature exploitation. In a time $\mathcal{O}(\epsilon^{-7/4}\log(1/\epsilon))$, the method can find an $\epsilon$-stationary point of the performance criterion; this entails that the method improves upon the $\mathcal{O}(\epsilon^{-2})$ complexity of vanilla gradient descent. Moreover, our method provides the second-order guarantee of stationary point.
翻訳日:2024-01-18 02:08:45 公開日:2024-01-16
# RanPAC:継続的学習のためのランダム投影と事前学習モデル

RanPAC: Random Projections and Pre-trained Models for Continual Learning ( http://arxiv.org/abs/2307.02251v3 )

ライセンス: Link先を確認
Mark D. McDonnell, Dong Gong, Amin Parveneh, Ehsan Abbasnejad, Anton van den Hengel(参考訳) 継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を段階的に学習することを目的としている。 ほとんどのCLは、スクラッチから学習するパラダイムの下で破滅的な忘れに対処することに重点を置いています。 しかし、基礎モデルの普及に伴い、様々な下流要求に対して情報表現を備えた事前学習モデルが利用できるようになった。 事前訓練されたモデルに基づくいくつかのCL手法が検討され、事前抽出された特徴を直接利用(ブリッジング分布ギャップを困難にしている)するか、あるいは適応子(忘れられる可能性がある)を取り入れている。 本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。 パラメータ更新中に忘れが生じることを考慮し、トレーニング不要なランダムプロジェクタとクラスプロトタイプの蓄積を利用した代替アプローチを考え、この問題を回避した。 具体的には、事前学習したモデルの特徴表現と出力ヘッドの間に非線形に活性化された凍結ランダム投影層を注入し、拡張次元を持つ特徴間の相互作用をキャプチャし、クラスプロトタイプに基づくclの線形分離性を高める。 また,事前学習した表現を用いた場合の分布差を低減するために,クラスプロトタイプのデコレーションの重要性を示す。 これらの手法は効果的なことを示し、クラス・インクリメンタル・ラーニングとドメイン・インクリメンタル・ラーニングの両方で忘れてしまう問題を回避している。 事前学習したViT-B/16モデルと比較して、7つのクラスインクリメンタルベンチマークにおいて、リハーサルメモリを使用しないにもかかわらず、最終エラー率を20%から62%削減する。 我々は、単純で効果的で高速なCLのための事前学習モデルの完全なポテンシャルは、完全にタップされていないと結論付けた。 コードはgithub.com/RanPAC/RanPACにある。

Continual learning (CL) aims to incrementally learn different tasks (such as classification) in a non-stationary data stream without forgetting old ones. Most CL works focus on tackling catastrophic forgetting under a learning-from-scratch paradigm. However, with the increasing prominence of foundation models, pre-trained models equipped with informative representations have become available for various downstream requirements. Several CL methods based on pre-trained models have been explored, either utilizing pre-extracted features directly (which makes bridging distribution gaps challenging) or incorporating adaptors (which may be subject to forgetting). In this paper, we propose a concise and effective approach for CL with pre-trained models. Given that forgetting occurs during parameter updating, we contemplate an alternative approach that exploits training-free random projectors and class-prototype accumulation, which thus bypasses the issue. Specifically, we inject a frozen Random Projection layer with nonlinear activation between the pre-trained model's feature representations and output head, which captures interactions between features with expanded dimensionality, providing enhanced linear separability for class-prototype-based CL. We also demonstrate the importance of decorrelating the class-prototypes to reduce the distribution disparity when using pre-trained representations. These techniques prove to be effective and circumvent the problem of forgetting for both class- and domain-incremental continual learning. Compared to previous methods applied to pre-trained ViT-B/16 models, we reduce final error rates by between 20% and 62% on seven class-incremental benchmarks, despite not using any rehearsal memory. We conclude that the full potential of pre-trained models for simple, effective, and fast CL has not hitherto been fully tapped. Code is at github.com/RanPAC/RanPAC.
翻訳日:2024-01-18 02:07:44 公開日:2024-01-16
# プロンプトのための対話: ファウショット学習のためのポリシーグラディエントに基づく離散プロンプト生成

Dialogue for Prompting: a Policy-Gradient-Based Discrete Prompt Generation for Few-shot Learning ( http://arxiv.org/abs/2308.07272v2 )

ライセンス: Link先を確認
Chengzhengxu Li, Xiaoming Liu, Yichen Wang, Duyi Li, Yu Lan, Chao Shen(参考訳) プロンプトベースの事前学習言語モデル(PLM)パラダイムは、NLPタスクにおいて大きく成功している。 しかし、事前の離散的なプロンプト最適化手法は、基本プロンプトセットを設計し、高品質なプロンプトを識別する専門家の知識を必要とする。 一方,従来の連続的プロンプト最適化手法は,計算コストが高く,可読性や一般化性が低いPLMの勾配情報から理想的プロンプトを学習することで,性能を向上させる。 本研究のギャップに対処するため,対話型政策段階型離散プロンプト最適化法(DP_2O$)を提案する。 まず,GPT-4に基づく可読性プロンプトセット生成のための多ラウンド対話アライメント戦略を設計する。 さらに,線形複雑度の高い高品質なプロンプトを同定するための効率的なプロンプトスクリーニング指標を提案する。 最後に、ポリシー勾配に基づく強化学習(RL)フレームワークを構築し、入力のプロンプトを最適に一致させる。 PLMパラメータサイズのわずか0.67%のポリシネットワークを数ショット設定でトレーニングすることで、$DP_2O$は4つのオープンソースデータセットで平均1.52%の精度で最先端(SOTA)メソッドを上回ります。 さらに、その後の実験では、$DP_2O$ が優れた普遍性、堅牢性、一般化能力を持つことも示されている。

Prompt-based pre-trained language models (PLMs) paradigm have succeeded substantially in few-shot natural language processing (NLP) tasks. However, prior discrete prompt optimization methods require expert knowledge to design the base prompt set and identify high-quality prompts, which is costly, inefficient, and subjective. Meanwhile, existing continuous prompt optimization methods improve the performance by learning the ideal prompts through the gradient information of PLMs, whose high computational cost, and low readability and generalizability are often concerning. To address the research gap, we propose a Dialogue-comprised Policy-gradient-based Discrete Prompt Optimization ($DP_2O$) method. We first design a multi-round dialogue alignment strategy for readability prompt set generation based on GPT-4. Furthermore, we propose an efficient prompt screening metric to identify high-quality prompts with linear complexity. Finally, we construct a reinforcement learning (RL) framework based on policy gradients to match the prompts to inputs optimally. By training a policy network with only 0.67% of the PLM parameter size on the tasks in the few-shot setting, $DP_2O$ outperforms the state-of-the-art (SOTA) method by 1.52% in accuracy on average on four open-source datasets. Moreover, subsequent experiments also demonstrate that $DP_2O$ has good universality, robustness, and generalization ability.
翻訳日:2024-01-18 01:59:05 公開日:2024-01-16
# lost in translation: コード翻訳中に大規模言語モデルによって導入されたバグの研究

Lost in Translation: A Study of Bugs Introduced by Large Language Models while Translating Code ( http://arxiv.org/abs/2308.03109v3 )

ライセンス: Link先を確認
Rangeet Pan, Ali Reza Ibrahimzada, Rahul Krishna, Divya Sankar, Lambert Pouguem Wassi, Michele Merler, Boris Sobolev, Raju Pavuluri, Saurabh Sinha, Reyhaneh Jabbarvand(参考訳) コード翻訳は、ソースコードをあるプログラミング言語(PL)から別のプログラミング言語に変換することを目的としている。 コード合成における大きな言語モデル(LLM)の有望な能力を考えると、研究者はコード翻訳を自動化する可能性を探っている。 LLMベースのコード翻訳の進歩の前提は、既存の技術に対する彼らの約束と限界を理解することである。 そこで本研究では,C言語,C++言語,Go言語,Java言語,Python言語など,多言語間のコード翻訳における一般的なLLMとコードLLMの能力について,大規模な実証的研究を行った。 3つのベンチマークと2つの実世界のプロジェクトからの1,700のコードサンプルの翻訳を含む我々の研究は、LLMがまだコードの翻訳を自動化するために確実に使われていないことを明らかにしている。 翻訳失敗のさらなる手作業による調査では、翻訳バグの15のカテゴリが特定されている。 LLMベースのコード翻訳と従来の非LLMベースのアプローチを比較した。 分析の結果,これら2つの手法はそれぞれの強みと弱みを有することがわかった。 最後に、我々の研究から得た知見は、翻訳中にLLMにより多くのコンテキストを提供することで、より良い結果が得られることを示唆している。 そこで本研究では,誤訳の症状に基づくプロンプト作成手法を提案し,LLMに基づくコード翻訳の性能を平均5.5%向上させる。 私たちの研究は、コード翻訳におけるllmの現在の制限と改善の機会に関する洞察を提供する、スケールと幅という観点で最初のものです。 私たちのデータセットは,5つのPLに1,700のコードサンプルと10K以上のテスト,43K以上の翻訳コード,1748の手作業によるラベル付きバグ,1365のバグフィックスペアで構成されています。

Code translation aims to convert source code from one programming language (PL) to another. Given the promising abilities of large language models (LLMs) in code synthesis, researchers are exploring their potential to automate code translation. The prerequisite for advancing the state of LLM-based code translation is to understand their promises and limitations over existing techniques. To that end, we present a large-scale empirical study to investigate the ability of general LLMs and code LLMs for code translation across pairs of different languages, including C, C++, Go, Java, and Python. Our study, which involves the translation of 1,700 code samples from three benchmarks and two real-world projects, reveals that LLMs are yet to be reliably used to automate code translation -- with correct translations ranging from 2.1% to 47.3% for the studied LLMs. Further manual investigation of unsuccessful translations identifies 15 categories of translation bugs. We also compare LLM-based code translation with traditional non-LLM-based approaches. Our analysis shows that these two classes of techniques have their own strengths and weaknesses. Finally, insights from our study suggest that providing more context to LLMs during translation can help them produce better results. To that end, we propose a prompt-crafting approach based on the symptoms of erroneous translations; this improves the performance of LLM-based code translation by 5.5% on average. Our study is the first of its kind, in terms of scale and breadth, that provides insights into the current limitations of LLMs in code translation and opportunities for improving them. Our dataset -- consisting of 1,700 code samples in five PLs with 10K+ tests, 43K+ translated code, 1,748 manually labeled bugs, and 1,365 bug-fix pairs -- can help drive research in this area.
翻訳日:2024-01-18 01:57:25 公開日:2024-01-16
# VoiceFlow: 正規化フローマッチングによるテキスト音声合成の効率化

VoiceFlow: Efficient Text-to-Speech with Rectified Flow Matching ( http://arxiv.org/abs/2309.05027v2 )

ライセンス: Link先を確認
Yiwei Guo, Chenpeng Du, Ziyang Ma, Xie Chen, Kai Yu(参考訳) テキストから音声への拡散モデルは、その強力な生成能力から人気があるが、拡散モデルからのサンプリングの本質的な複雑さは、その効率を損なう。 また, サンプリングステップ数を限定して高い合成品質を実現するために, 整流フローマッチングアルゴリズムを用いた音響モデルであるvoiceflowを提案する。 VoiceFlowは、ベクトル場を推定するテキスト入力に基づいて通常の微分方程式にメルスペクトルを生成する過程を定式化する。 整流流法は効率的な合成のためにサンプリング軌道を効果的に整列する。 単話者コーパスと多話者コーパスの主観的および客観的評価の結果,VoiceFlowの合成品質は拡散コーパスに比べて優れていた。 さらに,VoiceFlowにおける正流法の妥当性を検証した。

Although diffusion models in text-to-speech have become a popular choice due to their strong generative ability, the intrinsic complexity of sampling from diffusion models harms their efficiency. Alternatively, we propose VoiceFlow, an acoustic model that utilizes a rectified flow matching algorithm to achieve high synthesis quality with a limited number of sampling steps. VoiceFlow formulates the process of generating mel-spectrograms into an ordinary differential equation conditional on text inputs, whose vector field is then estimated. The rectified flow technique then effectively straightens its sampling trajectory for efficient synthesis. Subjective and objective evaluations on both single and multi-speaker corpora showed the superior synthesis quality of VoiceFlow compared to the diffusion counterpart. Ablation studies further verified the validity of the rectified flow technique in VoiceFlow.
翻訳日:2024-01-18 01:49:59 公開日:2024-01-16
# 高次元における非エルミートスキンモードのエッジ理論

Edge theory of the non-Hermitian skin modes in higher dimensions ( http://arxiv.org/abs/2309.03950v2 )

ライセンス: Link先を確認
Kai Zhang, Zhesen Yang, Kai Sun(参考訳) 本書では,非エルミートエッジスキンモードを高次元で特徴付けるための有効なエッジ理論を定式化する。 まず,皮膚モードの局所的なエッジを容易に識別するためのバルク投影基準を提案する。 厳密なマッピングにより, エルミート半金属における非エルミート半金属とエルミート半金属とのギャップを埋めることにより, エッジスキンモードはゼロエネルギーエッジ状態と同じバルクバウンダリ対応と局所化特性を持つことを示した。 もうひとつの重要な発見は、局所化エッジからバルクへのスキンモードの特徴的な減衰方向を記述するために提案したスキューネスの導入である。 注目すべきことに,スキューネスはスキンモードの固有量であり,境界詳細を必要とせず,局所エッジに沿って実数値モーメントを持つ非ブローチバルクハミルトニアンを用いて解析的に決定可能である。 さらに、エッジ・スキン効果において、スペクトルは弱局所障害に対する異常なスペクトル感度を示しており、コーナー・スキン効果と著しく区別する特徴である。

In this Letter, we establish an effective edge theory to characterize non-Hermitian edge-skin modes in higher dimensions. We begin by proposing a bulk projection criterion to straightforwardly identify the localized edges of skin modes. Through an exact mapping, we show that the edge-skin mode shares the same bulk-boundary correspondence and localization characteristics as the zero-energy edge states in a Hermitian semimetal under open-boundary conditions, bridging the gap between non-Hermitian edge-skin effect and Hermitian semimetals. Another key finding is the introduction of skewness, a term we proposed to describe the characteristic decay direction of skin mode from the localized edge into the bulk. Remarkably, we demonstrate that skewness is an intrinsic quantity of the skin mode and can be analytically determined using the non-Bloch bulk Hamiltonian with real-valued momenta along the localized edge, without requiring any boundary details. Furthermore, we reveal that in the edge-skin effect, the spectrum exhibits anomalous spectral sensitivity to weak local disturbances, a feature that crucially distinguishes it from the corner-skin effect.
翻訳日:2024-01-18 01:47:36 公開日:2024-01-16
# eecs学生のための量子プログラミングラボ

Hands-on Quantum Programming Labs for EECS Students ( http://arxiv.org/abs/2308.14002v4 )

ライセンス: Link先を確認
Janche Sang and Chansu Yu(参考訳) 本報告は,電子工学・計算機科学(eecs)学生に専用ハンズオンプログラミングラボを通して量子コンピューティングを教える実践的アプローチを提案する。 研究所は、エンタングルメント、量子ゲート、回路などの基本的な要素、量子鍵分布、deutschおよびdeutsch-jozsaアルゴリズム、simonのアルゴリズム、groverのアルゴリズムといった高度なアルゴリズムを含む、さまざまなトピックをカバーしている。 教育者として、私たちはこの分野の仲間のインストラクターと教えの洞察とリソースを共有することを目標としています。 興味のあるインストラクターには、完全なラボハンドアウトとプログラムテンプレートが提供される。 さらに、報告書は各実験の設計の背後にある理論的根拠を解明し、量子コンピューティングのより深い理解を可能にした。

This report presents a practical approach to teaching quantum computing to Electrical Engineering & Computer Science (EECS) students through dedicated hands-on programming labs. The labs cover a diverse range of topics, encompassing fundamental elements, such as entanglement, quantum gates and circuits, as well as advanced algorithms including Quantum Key Distribution, Deutsch and Deutsch-Jozsa Algorithms, Simon's algorithm, and Grover's algorithm. As educators, we aim to share our teaching insights and resources with fellow instructors in the field. The full lab handouts and program templates are provided for interested instructors. Furthermore, the report elucidates the rationale behind the design of each experiment, enabling a deeper understanding of quantum computing.
翻訳日:2024-01-18 01:45:23 公開日:2024-01-16
# 機械学習による山の天気予報の補間

Interpolation of mountain weather forecasts by machine learning ( http://arxiv.org/abs/2308.13983v2 )

ライセンス: Link先を確認
Kazuma Iwase and Tomoyuki Takenawa(参考訳) 物理モデルに基づく数値シミュレーション手法の最近の進歩と機械学習との併用により、天気予報の精度が向上した。 しかし、これらの手法は通常、数km四方の格子と単純な機械学習モデルを用いるため、山岳地帯のような複雑な地形では精度が低下する。 近年、ディープラーニングも大きな進歩を遂げているが、その直接的な応用はシミュレーションで使われる物理知識を利用するのが困難である。 本研究では,山間地域の天気予報データと過去の観測データを用いて,機械学習を用いて山間地域の天気予報を補間する手法を提案する。 本稿では,日本の山岳地域に着目し,主に光GBMを機械学習モデルとして,気温と降水量を予測する。 少数のデータセットを用いても,機能工学やモデルチューニングを通じて,RMSEの改良を部分的に達成し,トレーニング時間を大幅に短縮する。

Recent advances in numerical simulation methods based on physical models and their combination with machine learning have improved the accuracy of weather forecasts. However, the accuracy decreases in complex terrains such as mountainous regions because these methods usually use grids of several kilometers square and simple machine learning models. While deep learning has also made significant progress in recent years, its direct application is difficult to utilize the physical knowledge used in the simulation. This paper proposes a method that uses machine learning to interpolate future weather in mountainous regions using forecast data from surrounding plains and past observed data to improve weather forecasts in mountainous regions. We focus on mountainous regions in Japan and predict temperature and precipitation mainly using LightGBM as a machine learning model. Despite the use of a small dataset, through feature engineering and model tuning, our method partially achieves improvements in the RMSE with significantly less training time.
翻訳日:2024-01-18 01:45:09 公開日:2024-01-16
# 効率的な計算可能なランダムネス測定における量子ランダムネスと擬ランダムネスの区別可能性

Indistinguishability between quantum randomness and pseudo-randomness under efficiently calculable randomness measures ( http://arxiv.org/abs/2309.11117v4 )

ライセンス: Link先を確認
Toyohiro Tsurumaru, Tsubasa Ichikawa, Yosuke Takubo, Toshihiko Sasaki, Jaeha Lee, Izumi Tsutsui(参考訳) 量子乱数(量子力学的に生成した乱数)と疑似乱数(アルゴリズムによって生成される乱数)の区別性に対するno-go定理を提案する。 この定理は、量子乱数は古典的に効率的にシミュレート可能であり、区別に使用されるランダムネス測度が効率的に計算可能であれば、これらの2種類の乱数を区別することはできないと述べる。 この定理は,暗号分野に存在すると考えられる暗号擬似乱数生成器の特性を用いて導出する。 この定理は、IBM量子が生成する量子乱数の実データの解析と、ベル試験のInnsbruck実験で得られたデータと一致し、これらの2組の量子乱数のランダム性の度合いは、対応する擬似ランダム数と本質的に区別できないことが判明した。 また, 量子乱数のアルゴリズム的ランダム性についても, 定理やデータ解析の観点から考察し, 再解釈を行った。

We present a no-go theorem for the distinguishability between quantum random numbers (i.e., random numbers generated quantum mechanically) and pseudo-random numbers (i.e., random numbers generated algorithmically). The theorem states that one cannot distinguish these two types of random numbers if the quantum random numbers are efficiently classically simulatable and the randomness measure used for the distinction is efficiently computable. We derive this theorem by using the properties of cryptographic pseudo-random number generators, which are believed to exist in the field of cryptography. Our theorem is found to be consistent with the analyses on the actual data of quantum random numbers generated by the IBM Quantum and also those obtained in the Innsbruck experiment for the Bell test, where the degrees of randomness of these two set of quantum random numbers turn out to be essentially indistinguishable from those of the corresponding pseudo-random numbers. Previous observations on the algorithmic randomness of quantum random numbers are also discussed and reinterpreted in terms of our theorems and data analyses.
翻訳日:2024-01-18 01:35:12 公開日:2024-01-16
# 一次元における動的キラリティ生成

Dynamical chirality production in one dimension ( http://arxiv.org/abs/2309.08820v2 )

ライセンス: Link先を確認
Tomoya Hayata, Katsumasa Nakayama, Arata Yamamoto(参考訳) 格子ゲージ理論における動的キラリティ生成の量子計算について論じる。 格子フェルミオンのキラリティは一般次元では複雑であるが、単に一次元格子上で定式化することができる。 キラルフェルミオン形式論は、連続理論におけるキラル異常と解釈されるキラル生成の物理的部分を抽出することができる。 古典的エミュレータ上でのZ_2$格子ゲージ理論の計算を実演する。

We discuss the quantum computation of dynamical chirality production in lattice gauge theory. Although the chirality of a lattice fermion is complicated in general dimensions, it can be simply formulated on a one-dimensional lattice. The chiral fermion formalism enables us to extract the physical part of the chirality production that would be interpreted as the chiral anomaly in the continuous theory. We demonstrate the computation of the $Z_2$ lattice gauge theory on a classical emulator.
翻訳日:2024-01-18 01:33:44 公開日:2024-01-16
# 3次元クラスター絡み合い状態の生成

Generation of three-dimensional cluster entangled state ( http://arxiv.org/abs/2309.05437v2 )

ライセンス: Link先を確認
Chan Roh, Geunhee Gwak, Young-Do Yoon and Young-Sik Ra(参考訳) 測定ベースの量子コンピューティングは量子計算の有望なパラダイムであり、普遍的な計算は局所的な測定によって達成される。 このアプローチのバックボーンは、クラスタ状態として知られるマルチパーティの絡み合いの準備である。 普遍性には2次元(2D)接続のクラスタ状態が必要であるが、フォールトトレランスをさらに達成するには3次元(3D)クラスタ状態が必要である。 しかし、3D接続の課題は、クラスタ状態の生成を最大2Dに制限することにある。 ここでは、フォトニック連続可変プラットフォームに基づく3次元クラスタ状態の決定論的生成を示す。 3次元コネクティビティを実現するために、超高速量子光の時間周波数モードの重要な利点を利用する:任意の複雑なモードベースを直接アクセスでき、必要に応じてコネクティビティを実現する。 1D, 2D, 3Dの連接性を持つクラスター状態を生成することによって, 本手法の汎用性を示す。 そこで本研究では,マルチモードガウス状態に対する量子状態トモグラフィー法を開発した。 さらに,Nullifier測定によるクラスタ状態生成と完全不分離性テストの検証を行った。 我々の研究は、フォールトトレラントで普遍的な測定に基づく量子コンピューティングへの道を開いた。

Measurement-based quantum computing is a promising paradigm of quantum computation, where universal computing is achieved through a sequence of local measurements. The backbone of this approach is the preparation of multipartite entanglement, known as cluster states. While a cluster state with two-dimensional (2D) connectivity is required for universality, a three-dimensional (3D) cluster state is necessary for additionally achieving fault tolerance. However, the challenge of making 3D connectivity has limited cluster state generation up to 2D. Here we demonstrate deterministic generation of a 3D cluster state based on the photonic continuous-variable platform. To realize 3D connectivity, we harness a crucial advantage of time-frequency modes of ultrafast quantum light: an arbitrary complex mode basis can be accessed directly, enabling connectivity as desired. We demonstrate the versatility of our method by generating cluster states with 1D, 2D, and 3D connectivities. For their complete characterization, we develop a quantum state tomography method for multimode Gaussian states. Moreover, we verify the cluster state generation by nullifier measurements as well as full inseparability tests. Our work paves the way toward fault-tolerant and universal measurement-based quantum computing.
翻訳日:2024-01-18 01:32:27 公開日:2024-01-16
# あなたはどうしたの? ロボット学習のための視覚表現アライメントに向けて

What Matters to You? Towards Visual Representation Alignment for Robot Learning ( http://arxiv.org/abs/2310.07932v2 )

ライセンス: Link先を確認
Ran Tian, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy(参考訳) 人々のサービスを利用する場合、ロボットはエンドユーザーの好みに合わせて報酬を最適化する必要がある。 ロボットはRGB画像のような生の知覚入力に頼るので、報酬は必然的に視覚表現を使用する。 近年、事前訓練された視覚モデルからの表現を使うことに興奮している。しかし、ロボット工学におけるこれらの作業の鍵となるのは微調整であり、一般的には動的予測や時間的サイクル一貫性の強制といったプロキシタスクを通じて行われる。 しかし、これらすべてのプロキシタスクは、人間にとって重要なものに対する入力をバイパスし、スプリアス相関を悪化させ、最終的にユーザーの好みに合致しないロボットの行動に繋がる。 本研究は,ロボットが視覚表現をエンドユーザーと整合させ,タスクの重要事項を分断するために,人間のフィードバックを活用することを提案する。 本稿では、優先型学習と最適輸送のレンズを用いて、視覚的表現アライメント問題と視覚的報酬学習問題を解決するためのRAPL(Representation-Aligned Preference-based Learning)を提案する。 X-磁気学およびロボット操作の実験において、RAPLの報酬は、高いサンプル効率で、常に好ましいロボット行動を生成し、ロボットとは異なる実施形態から視覚表現が学習された場合に、強いゼロショットの一般化を示す。

When operating in service of people, robots need to optimize rewards aligned with end-user preferences. Since robots will rely on raw perceptual inputs like RGB images, their rewards will inevitably use visual representations. Recently there has been excitement in using representations from pre-trained visual models, but key to making these work in robotics is fine-tuning, which is typically done via proxy tasks like dynamics prediction or enforcing temporal cycle-consistency. However, all these proxy tasks bypass the human's input on what matters to them, exacerbating spurious correlations and ultimately leading to robot behaviors that are misaligned with user preferences. In this work, we propose that robots should leverage human feedback to align their visual representations with the end-user and disentangle what matters for the task. We propose Representation-Aligned Preference-based Learning (RAPL), a method for solving the visual representation alignment problem and visual reward learning problem through the lens of preference-based learning and optimal transport. Across experiments in X-MAGICAL and in robotic manipulation, we find that RAPL's reward consistently generates preferred robot behaviors with high sample efficiency, and shows strong zero-shot generalization when the visual representation is learned from a different embodiment than the robot's.
翻訳日:2024-01-18 01:25:43 公開日:2024-01-16
# スパース回帰、Lp規則化、および自動モデル発見について

On sparse regression, Lp-regularization, and automated model discovery ( http://arxiv.org/abs/2310.06872v2 )

ライセンス: Link先を確認
Jeremy A. McCulloch, Skyler R. St. Pierre, Kevin Linka, Ellen Kuhl(参考訳) スパース回帰と特徴抽出は、大量のデータから知識発見の基盤となる。 彼らの目標は、科学変数間の単純な関係を提供する解釈可能で予測可能なモデルを見つけることである。 モデル発見のための統計ツールは線形回帰の文脈で十分に確立されているが、物質モデリングにおける非線形回帰への一般化は問題固有であり、十分に理解されていない。 ここでは、モデルの自動発見のためのニューラルネットワークの可能性を探り、正規化と物理的制約という2つの戦略を組み合わせたハイブリッドアプローチによりスパーシリティを誘導する。 我々は,Lp正則化の概念を,運動学と熱力学の分野知識を活用する構成的ニューラルネットワークと統合する。 L2正則化またはリッジ回帰はモデル発見には適さない; L1正則化またはラッソは疎性を促進するが、強いバイアスを引き起こす; L0正則化だけが、解釈可能性と予測可能性、単純性、正確性、偏見と偏見のトレードオフを透過的に微調整することができる。 これらの知見により、Lp正規化構成型ニューラルネットワークは、解釈可能なモデルと物理的に有意なパラメータの両方を同時に検出できることを示した。 我々の発見はスパースやシンボリックレグレッションといった代替発見技術や、生物学、化学、医学といった他の分野に一般化することを期待している。 データから物質モデルを自動的に発見する能力は、生成材料設計や、物質を操作する新たな機会、既存の材料の性質の変更、ユーザー定義プロパティによる新しい材料発見に多大な応用をもたらす可能性がある。

Sparse regression and feature extraction are the cornerstones of knowledge discovery from massive data. Their goal is to discover interpretable and predictive models that provide simple relationships among scientific variables. While the statistical tools for model discovery are well established in the context of linear regression, their generalization to nonlinear regression in material modeling is highly problem-specific and insufficiently understood. Here we explore the potential of neural networks for automatic model discovery and induce sparsity by a hybrid approach that combines two strategies: regularization and physical constraints. We integrate the concept of Lp regularization for subset selection with constitutive neural networks that leverage our domain knowledge in kinematics and thermodynamics. We train our networks with both, synthetic and real data, and perform several thousand discovery runs to infer common guidelines and trends: L2 regularization or ridge regression is unsuitable for model discovery; L1 regularization or lasso promotes sparsity, but induces strong bias; only L0 regularization allows us to transparently fine-tune the trade-off between interpretability and predictability, simplicity and accuracy, and bias and variance. With these insights, we demonstrate that Lp regularized constitutive neural networks can simultaneously discover both, interpretable models and physically meaningful parameters. We anticipate that our findings will generalize to alternative discovery techniques such as sparse and symbolic regression, and to other domains such as biology, chemistry, or medicine. Our ability to automatically discover material models from data could have tremendous applications in generative material design and open new opportunities to manipulate matter, alter properties of existing materials, and discover new materials with user-defined properties.
翻訳日:2024-01-18 01:24:57 公開日:2024-01-16
# ジョセフソン共鳴レベルによるフラックスンのトンネル化

Tunneling of fluxons via a Josephson resonant level ( http://arxiv.org/abs/2310.03102v2 )

ライセンス: Link先を確認
T. Vakhtel, P. D. Kurilovich, M. Pita-Vidal, A. Bargerbos, V. Fatemi, B. van Heck(参考訳) 超伝導ループ内のフラクソンはジョセフソン接合のような弱いリンクで起こる量子位相スリップによってコヒーレントに結合することができる。 接合点でのクーパー対トンネルが共振レベルを通り抜けると、2\pi$の量子位相スリップが抑制され、フラックスンは4\pi$の量子位相スリップでおおむね結合される。 このシナリオは, 超伝導凝縮体との共鳴によってフラクトン間のカップリングを計算して解析する。 この結果から,4\pi$-dominated regimeはフラックスニウム量子ビットの典型的な回路パラメータの遷移スペクトルで直接観測できることがわかった。 また、ループの誘導エネルギーが接合部のプラズマ周波数よりはるかに小さい場合、回路の低エネルギーハミルトニアンは位相的超伝導島と双対であることが示されている。 これらの結果は、バイフラクソン量子ビットの実験や、新しいタイプの保護量子ビットの設計に影響を及ぼす。

Fluxons in a superconducting loop can be coherently coupled by quantum phase slips occurring at a weak link such as a Josephson junction. If Cooper pair tunneling at the junction occurs through a resonant level, $2\pi$ quantum phase slips are suppressed, and fluxons are predominantly coupled by $4\pi$ quantum phase slips. We analyze this scenario by computing the coupling between fluxons as the level is brought into resonance with the superconducting condensate. The results indicate that the $4\pi$-dominated regime can be observed directly in the transition spectrum for circuit parameters typical of a fluxonium qubit. We also show that, if the inductive energy of the loop is much smaller than the plasma frequency of the junction, the low-energy Hamiltonian of the circuit is dual to that of a topological superconducting island. These findings can inform experiments on bifluxon qubits as well as the design of novel types of protected qubits.
翻訳日:2024-01-18 01:22:00 公開日:2024-01-16
# FUSC:深層自己教師型学習を用いた第2トリメスタースカンの胎児超音波シーマンティッククラスタリング

FUSC: Fetal Ultrasound Semantic Clustering of Second Trimester Scans Using Deep Self-supervised Learning ( http://arxiv.org/abs/2310.12600v2 )

ライセンス: Link先を確認
Hussain Alasmawi, Leanne Bricker, Mohammad Yaqub(参考訳) 超音波は妊娠中の臨床実践における主要な画像モダリティである。 年間140万以上の胎児が産まれ、多くのスキャンが行われる。 大量の胎児超音波スキャンが利用可能であることは、堅牢な機械学習モデルをトレーニングする機会を与える。 しかし、監視されたメソッドには各画像の手動ラベリングが必要であるため、スキャンの豊富さも課題となっている。 ラベル付けは通常、労働集約的で、画像に正確に注釈をつける専門知識を必要とする。 そこで本研究では,超音波画像の自動クラスタリングによる胎児の観察を行い,手動ラベリングの必要性を低減・排除する手法を提案する。 フータル超音波セマンティッククラスタリング (FUSC) 法は88,063枚の画像の大規模なデータセットを用いて開発され、さらに8,187枚の画像が92%以上のクラスタリング純度を達成した。 以上の結果から,胎児超音波画像の領域に大きな影響を与える可能性があり,より高度な自動ラベリングソリューションの道を開いた。 最後に、フィールドを前進させるために、コードと実験的なセットアップを公開します。

Ultrasound is the primary imaging modality in clinical practice during pregnancy. More than 140M fetuses are born yearly, resulting in numerous scans. The availability of a large volume of fetal ultrasound scans presents the opportunity to train robust machine learning models. However, the abundance of scans also has its challenges, as manual labeling of each image is needed for supervised methods. Labeling is typically labor-intensive and requires expertise to annotate the images accurately. This study presents an unsupervised approach for automatically clustering ultrasound images into a large range of fetal views, reducing or eliminating the need for manual labeling. Our Fetal Ultrasound Semantic Clustering (FUSC) method is developed using a large dataset of 88,063 images and further evaluated on an additional unseen dataset of 8,187 images achieving over 92% clustering purity. The result of our investigation hold the potential to significantly impact the field of fetal ultrasound imaging and pave the way for more advanced automated labeling solutions. Finally, we make the code and the experimental setup publicly available to help advance the field.
翻訳日:2024-01-18 01:11:40 公開日:2024-01-16
# 分布の制約付き再重み付け:最適輸送アプローチ

Constrained Reweighting of Distributions: an Optimal Transport Approach ( http://arxiv.org/abs/2310.12447v2 )

ライセンス: Link先を確認
Abhisek Chakraborty, Anirban Bhattacharya, Debdeep Pati(参考訳) 我々は,観測データの経験的分布の最適重み調整バージョンを同定する問題に遭遇し,重みに関する事前の制約に固執する。 このような制約はしばしば、重み調整された経験的分布のモーメント、テールの振る舞い、形状、モードの数などの制限として現れる。 本稿では,重みに対する非パラメトリックな分布制約を導入し,最適移動から最大エントロピー原理とツールを活用する汎用フレームワークを開発することにより,その柔軟性を大幅に向上させる。 重要なアイデアは、観測データの最大エントロピー重み調整された経験的分布が、微妙な離脱を許容しながら、最適な輸送計量の観点で予め定められた確率分布に近いことを保証することである。 このフレームワークの汎用性は、統計タスクの中心にある最適化問題であるポートフォリオ割り当て、複雑な調査のためのセミパラメトリック推論、機械学習アルゴリズムのアルゴリズム的公平性を保証するために、データの重み付けがサイド制約を満たす3つの異なるアプリケーションで実証される。

We commonly encounter the problem of identifying an optimally weight adjusted version of the empirical distribution of observed data, adhering to predefined constraints on the weights. Such constraints often manifest as restrictions on the moments, tail behaviour, shapes, number of modes, etc., of the resulting weight adjusted empirical distribution. In this article, we substantially enhance the flexibility of such methodology by introducing a nonparametrically imbued distributional constraints on the weights, and developing a general framework leveraging the maximum entropy principle and tools from optimal transport. The key idea is to ensure that the maximum entropy weight adjusted empirical distribution of the observed data is close to a pre-specified probability distribution in terms of the optimal transport metric while allowing for subtle departures. The versatility of the framework is demonstrated in the context of three disparate applications where data re-weighting is warranted to satisfy side constraints on the optimization problem at the heart of the statistical task: namely, portfolio allocation, semi-parametric inference for complex surveys, and ensuring algorithmic fairness in machine learning algorithms.
翻訳日:2024-01-18 01:11:21 公開日:2024-01-16
# SD-HuBERT:HuBERTのSyllabic Organizationを誘導するSentence-Level自己蒸留

SD-HuBERT: Sentence-Level Self-Distillation Induces Syllabic Organization in HuBERT ( http://arxiv.org/abs/2310.10803v2 )

ライセンス: Link先を確認
Cheol Jun Cho, Abdelrahman Mohamed, Shang-Wen Li, Alan W Black and Gopala K. Anumanchipalli(参考訳) 音声の自己教師付き学習(SSL)におけるデータ駆動単位探索は,音声処理の新たな時代を幕開けた。 しかし、発見された単位はしばしば音素空間に残され、音素以外の単位はほとんど未調査である。 ここでは,音声の文レベル表現の学習において,音節的組織が出現することを示す。 特に,前訓練されたヒューバートを,文全体を要約するアグリゲータトークンで微調整する「自己蒸留」の目的を採用する。 いかなる監督もなしに、結果として得られたモデルは明確な境界を音声で描き、フレーム間の表現は有意義な音節構造を示す。 この創発的構造は、主に真理音節に対応することを実証する。 さらに,音声の文レベル表現を評価するための新しいベンチマークタスクであるSpken Speech ABXを提案する。 従来のモデルと比較すると,教師なし音節探索と文レベル表現の双方において,モデルの性能は優れていた。 共に,hubertの自己蒸留は,外部のラベルやモダリティに頼らずに音節構造を生じさせ,音声言語モデリングのための新しいデータ駆動単位を提供する。

Data-driven unit discovery in self-supervised learning (SSL) of speech has embarked on a new era of spoken language processing. Yet, the discovered units often remain in phonetic space and the units beyond phonemes are largely underexplored. Here, we demonstrate that a syllabic organization emerges in learning sentence-level representation of speech. In particular, we adopt "self-distillation" objective to fine-tune the pretrained HuBERT with an aggregator token that summarizes the entire sentence. Without any supervision, the resulting model draws definite boundaries in speech, and the representations across frames exhibit salient syllabic structures. We demonstrate that this emergent structure largely corresponds to the ground truth syllables. Furthermore, we propose a new benchmark task, Spoken Speech ABX, for evaluating sentence-level representation of speech. When compared to previous models, our model outperforms in both unsupervised syllable discovery and learning sentence-level representation. Together, we demonstrate that the self-distillation of HuBERT gives rise to syllabic organization without relying on external labels or modalities, and potentially provides novel data-driven units for spoken language modeling.
翻訳日:2024-01-18 01:10:22 公開日:2024-01-16
# 普遍的調音運動を推定する音声の自己監督モデル

Self-Supervised Models of Speech Infer Universal Articulatory Kinematics ( http://arxiv.org/abs/2310.10788v2 )

ライセンス: Link先を確認
Cheol Jun Cho, Abdelrahman Mohamed, Alan W Black and Gopala K. Anumanchipalli(参考訳) 音声の自己教師付き学習(SSL)に基づくモデルは、下流タスクで顕著なパフォーマンスを示している。 これらの最先端のモデルはブラックボックスのままだが、最近の多くの研究は、内部表現を音声の異なる側面に関連付けるために、HuBERTのような「探索」モデルを開始した。 本稿では、これらのモデルが音響を音声信号の根底にある因果的調音力学に変換する能力であるSSLモデルの基本的な特性として「調音キネマティクスの推論」を示す。 また,この抽象化がモデルの学習に使用されるデータの言語に重なり合っており,類似した音韻体系を持つ言語に好意的であることも示している。 さらに,単純なアフィン変換では,aai(a acoustic-to-articulatory inversion)が話者間,性別,言語,方言間でも転送可能であり,この性質の一般化性を示す。 これらの結果は、それらの優れた性能にとって重要なsslモデルの内部に新しい光を当て、言語に依存しない音声工学の普遍的モデルへの新しい道を開き、それらは音声科学において解釈可能で基礎となっている。

Self-Supervised Learning (SSL) based models of speech have shown remarkable performance on a range of downstream tasks. These state-of-the-art models have remained blackboxes, but many recent studies have begun "probing" models like HuBERT, to correlate their internal representations to different aspects of speech. In this paper, we show "inference of articulatory kinematics" as fundamental property of SSL models, i.e., the ability of these models to transform acoustics into the causal articulatory dynamics underlying the speech signal. We also show that this abstraction is largely overlapping across the language of the data used to train the model, with preference to the language with similar phonological system. Furthermore, we show that with simple affine transformations, Acoustic-to-Articulatory inversion (AAI) is transferrable across speakers, even across genders, languages, and dialects, showing the generalizability of this property. Together, these results shed new light on the internals of SSL models that are critical to their superior performance, and open up new avenues into language-agnostic universal models for speech engineering, that are interpretable and grounded in speech science.
翻訳日:2024-01-18 01:10:04 公開日:2024-01-16
# テストタイムフリーランチ付き省エネルギーvae

Energy-Calibrated VAE with Test Time Free Lunch ( http://arxiv.org/abs/2311.04071v3 )

ライセンス: Link先を確認
Yihong Luo, Siya Qiu, Xingjian Tao, Yujun Cai, Jing Tang(参考訳) 本稿では,Energy-Calibrated VAE(EC-VAE)と呼ばれる可変オートエンコーダ(VAE)の強化に条件付きエネルギーベースモデル(EBM)を利用する新しい生成モデルを提案する。 特に、VAEは、生成方向に生成されたサンプルの調整されたトレーニングが欠如しているため、ぼやけたサンプルに悩まされることが多い。 一方、ESMは高品質なサンプルを生成することができるが、高価なマルコフ連鎖モンテカルロ(MCMC)サンプリングが必要である。 これらの課題に対処するために,テスト時の生成に必要とせず,トレーニング中のVAE生成方向を調整するための条件付きEMMを導入する。 特に,ec-vaeを入力データとキャリブレーション試料の両方に適応重みで訓練し,mcmcサンプリングを回避しつつ有効性を高める。 さらに,ec-vaeのキャリブレーションアイデアを変分学習と正規化に拡張し,神経伝達前と範囲ヌル理論によるゼロショット画像復元の新たな応用にec-vaeを適用する。 提案手法は, 画像生成とゼロショット画像復元の2つの応用により評価し, 実験により, 単段非敵生成よりも最先端の性能が得られることを示した。 私たちのコードはhttps://github.com/dj-lyh/ec-vaeで利用可能です。

In this paper, we propose a novel generative model that utilizes a conditional Energy-Based Model (EBM) for enhancing Variational Autoencoder (VAE), termed Energy-Calibrated VAE (EC-VAE). Specifically, VAEs often suffer from blurry generated samples due to the lack of a tailored training on the samples generated in the generative direction. On the other hand, EBMs can generate high-quality samples but require expensive Markov Chain Monte Carlo (MCMC) sampling. To address these issues, we introduce a conditional EBM for calibrating the generative direction of VAE during training, without requiring it for the generation at test time. In particular, we train EC-VAE upon both the input data and the calibrated samples with adaptive weight to enhance efficacy while avoiding MCMC sampling at test time. Furthermore, we extend the calibration idea of EC-VAE to variational learning and normalizing flows, and apply EC-VAE to an additional application of zero-shot image restoration via neural transport prior and range-null theory. We evaluate the proposed method with two applications, including image generation and zero-shot image restoration, and the experimental results show that our method achieves the state-of-the-art performance over single-step non-adversarial generation. Our code is available at https://github.com/DJ-LYH/EC-VAE.
翻訳日:2024-01-18 01:01:52 公開日:2024-01-16
# alympics: llmエージェントがゲーム理論を満たす - aiエージェントによる戦略的意思決定の探求

ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic Decision-Making with AI Agents ( http://arxiv.org/abs/2311.03220v4 )

ライセンス: Link先を確認
Shaoguang Mao, Yuzhe Cai, Yan Xia, Wenshan Wu, Xun Wang, Fengyi Wang, Tao Ge, Furu Wei(参考訳) 本稿では,ゲーム理論研究にLarge Language Model (LLM) エージェントを用いたシステムシミュレーションフレームワークであるAlympics(Olympics for Agents)を紹介する。 alympicsは、複雑なゲーム理論の問題を研究するための汎用プラットフォームを作成し、llmエージェントとの人間のような戦略的相互作用をシミュレートするための制御環境を提供することで、理論ゲーム理論と経験的調査の間のギャップを橋渡しする。 パイロットケーススタディ“Water Allocation Challenge”では,少ない生存資源の多ラウンドオークションに焦点を当てた,Alympicsの挑戦的な戦略ゲームを通じて,Alympicsを探索する。 本研究は,ゲーム決定要因,戦略,成果を質的かつ定量的に分析するフレームワークの能力を示す。 さらに,戦略的意思決定シナリオにおいて,総合的な人間評価とllmエージェントの深い評価を行う。 ヒトの戦略行動のエミュレートにおけるLSMエージェントの能力の理解を深めるだけでなく、ゲーム理論の知識を進化させる可能性も浮き彫りにし、ゲーム理論の理解を深め、LSMエージェントによる戦略的意思決定領域のさらなる研究に力を入れている。 コード、プロンプト、関連するすべてのリソースはhttps://github.com/microsoft/Alympics.comで入手できる。

This paper introduces Alympics (Olympics for Agents), a systematic simulation framework utilizing Large Language Model (LLM) agents for game theory research. Alympics creates a versatile platform for studying complex game theory problems, bridging the gap between theoretical game theory and empirical investigations by providing a controlled environment for simulating human-like strategic interactions with LLM agents. In our pilot case study, the "Water Allocation Challenge," we explore Alympics through a challenging strategic game focused on the multi-round auction on scarce survival resources. This study demonstrates the framework's ability to qualitatively and quantitatively analyze game determinants, strategies, and outcomes. Additionally, we conduct a comprehensive human assessment and an in-depth evaluation of LLM agents in strategic decision-making scenarios. Our findings not only expand the understanding of LLM agents' proficiency in emulating human strategic behavior but also highlight their potential in advancing game theory knowledge, thereby enriching our understanding of both game theory and empowering further research into strategic decision-making domains with LLM agents. Codes, prompts, and all related resources are available at https://github.com/microsoft/Alympics.
翻訳日:2024-01-18 01:00:11 公開日:2024-01-16
# 深層学習による顕微鏡画像の圧縮 : 実証的研究

Deep learning based Image Compression for Microscopy Images: An Empirical Study ( http://arxiv.org/abs/2311.01352v2 )

ライセンス: Link先を確認
Yu Zhou, Jan Sollmann, Jianxu Chen(参考訳) 現代の顕微鏡やバイオイメージング技術が急速に発展し、これまでになく膨大な画像データが生成され、保存され、分析され、ネットワークを介して共有されている。 データのサイズは、現在のデータインフラストラクチャに大きな課題をもたらします。 データサイズを減らす一般的な方法は画像圧縮である。 本研究では,古典的および深層学習に基づく画像圧縮手法とその深層学習に基づく画像処理モデルへの影響について分析する。 深層学習に基づくラベルフリー予測モデル(すなわち、明るいフィールド画像からの蛍光画像の予測)は、比較と分析の例として用いられる。 効果的な画像圧縮手法は、必要な情報を失うことなくデータサイズを大幅に削減し、データ管理インフラの負担を軽減し、データ共有やクラウドコンピューティングのためのネットワークを介した高速伝送を可能にする。 このような所望の方法で画像を圧縮するために、複数の古典的損失画像圧縮技術と、Pythonを使用してCompressAIツールボックスによって提供、訓練されたAIベースの圧縮モデルを比較した。 これらの圧縮技術は圧縮比、複数の画像類似度尺度、そして最も重要なのは、圧縮画像上のラベルなしモデルによる予測精度を比較する。 その結果、AIベースの圧縮技術は従来の圧縮技術よりも優れており、2Dケースでは下流のラベルなしタスクに最小限の影響を及ぼすことがわかった。 最終的に,本研究では,深層学習に基づく画像圧縮の可能性と,下流の深層学習に基づく画像解析モデルに対する画像圧縮の影響を明らかにすることを期待する。

With the fast development of modern microscopes and bioimaging techniques, an unprecedentedly large amount of imaging data are being generated, stored, analyzed, and even shared through networks. The size of the data poses great challenges for current data infrastructure. One common way to reduce the data size is by image compression. This present study analyzes classic and deep learning based image compression methods, and their impact on deep learning based image processing models. Deep learning based label-free prediction models (i.e., predicting fluorescent images from bright field images) are used as an example application for comparison and analysis. Effective image compression methods could help reduce the data size significantly without losing necessary information, and therefore reduce the burden on data management infrastructure and permit fast transmission through the network for data sharing or cloud computing. To compress images in such a wanted way, multiple classical lossy image compression techniques are compared to several AI-based compression models provided by and trained with the CompressAI toolbox using python. These different compression techniques are compared in compression ratio, multiple image similarity measures and, most importantly, the prediction accuracy from label-free models on compressed images. We found that AI-based compression techniques largely outperform the classic ones and will minimally affect the downstream label-free task in 2D cases. In the end, we hope the present study could shed light on the potential of deep learning based image compression and the impact of image compression on downstream deep learning based image analysis models.
翻訳日:2024-01-18 00:58:22 公開日:2024-01-16
# 大規模言語モデルによるスマートコントラクトの自動コメント生成と文脈内学習

Automatic Smart Contract Comment Generation via Large Language Models and In-Context Learning ( http://arxiv.org/abs/2311.10388v2 )

ライセンス: Link先を確認
Junjie Zhao and Xiang Chen and Guang Yang and Yiheng Shen(参考訳) これまでのスマートコントラクトコードコメント(SCC)生成アプローチは、微調整パラダイムベースのアプローチと情報検索ベースのアプローチの2つのカテゴリに分けられる。 しかしながら、微調整パラダイムに基づくアプローチでは、ダウンストリームタスクのために収集されたデータセットの品質によってパフォーマンスが制限される可能性がある。 情報検索に基づくアプローチでは、履歴リポジトリに類似のコードが存在しない場合、高品質なコメントを生成することは困難である。 そこで我々は,大規模言語モデル(LLM)におけるSCC生成に関するドメイン知識を活用して,これらの2種類のアプローチの欠点を軽減する。 本研究では,LLMと文脈内学習に基づくSCCLLMのアプローチを提案する。 具体的には、デモ選択フェーズにおいて、scllmは構文、意味論、語彙情報を考慮して履歴コーパスからトップkコードスニペットを取得する。 コンテキスト内学習の段階では、SCCLLMは検索したコードスニペットをデモとして利用し、このタスクに関連する知識を活用するのに役立つ。 スマートコントラクトコミュニティであるEtherscan.ioの大規模なコーパスを実験対象として選択する。 SCCLLMは, 自動評価および人的評価において, ベースラインと比較して有効であった。

The previous smart contract code comment (SCC) generation approaches can be divided into two categories: fine-tuning paradigm-based approaches and information retrieval-based approaches. However, for the fine-tuning paradigm-based approaches, the performance may be limited by the quality of the gathered dataset for the downstream task and they may have knowledge-forgetting issues. While for the information retrieval-based approaches, it is difficult for them to generate high-quality comments if similar code does not exist in the historical repository. Therefore we want to utilize the domain knowledge related to SCC generation in large language models (LLMs) to alleviate the disadvantages of these two types of approaches. In this study, we propose an approach SCCLLM based on LLMs and in-context learning. Specifically, in the demonstration selection phase, SCCLLM retrieves the top-k code snippets from the historical corpus by considering syntax, semantics, and lexical information. In the in-context learning phase, SCCLLM utilizes the retrieved code snippets as demonstrations, which can help to utilize the related knowledge for this task. We select a large corpus from a smart contract community Etherscan.io as our experimental subject. Extensive experimental results show the effectiveness of SCCLLM when compared with baselines in automatic evaluation and human evaluation.
翻訳日:2024-01-18 00:49:00 公開日:2024-01-16
# gaia:out-of-distribution detectionのための勾配に基づく帰属異常の検討

GAIA: Delving into Gradient-based Attribution Abnormality for Out-of-distribution Detection ( http://arxiv.org/abs/2311.09620v2 )

ライセンス: Link先を確認
Jinggang Chen, Junjie Li, Xiaoyang Qu, Jianzong Wang, Jiguang Wan, Jing Xiao(参考訳) 実際の環境でのディープニューラルネットワークの信頼性と安全性を保証するためには、アウト・オブ・ディストリビューション(OOD)の例を検出することが不可欠である。 本稿では,モデルが予測決定を下そうとする際の不確実性を分析するため,IDとODデータの格差を定量化するための革新的な視点を提供する。 この視点は、勾配に基づく帰属法がOODデータに特徴的重要度を割り当てる際の課題に遭遇し、異なる説明パターンをもたらすという我々の観察に動機づけられている。 その結果, 帰属勾配が不確実な説明結果にどのように寄与するかを考察し, ゼロデフレ異常とチャネルワイド平均異常の2種類のOOD検出異常を導入した。 そこで我々は,グラディエント異常検査とアグリゲーションを組み込んだ簡易かつ効果的なGAIAを提案する。 GAIAの有効性は、一般的に使用されるCIFARと大規模(ImageNet-1k)ベンチマークの両方で検証される。 具体的には、GAIAはCIFAR10では平均FPR95を23.10%、CIFAR100では45.41%削減する。

Detecting out-of-distribution (OOD) examples is crucial to guarantee the reliability and safety of deep neural networks in real-world settings. In this paper, we offer an innovative perspective on quantifying the disparities between in-distribution (ID) and OOD data -- analyzing the uncertainty that arises when models attempt to explain their predictive decisions. This perspective is motivated by our observation that gradient-based attribution methods encounter challenges in assigning feature importance to OOD data, thereby yielding divergent explanation patterns. Consequently, we investigate how attribution gradients lead to uncertain explanation outcomes and introduce two forms of abnormalities for OOD detection: the zero-deflation abnormality and the channel-wise average abnormality. We then propose GAIA, a simple and effective approach that incorporates Gradient Abnormality Inspection and Aggregation. The effectiveness of GAIA is validated on both commonly utilized (CIFAR) and large-scale (ImageNet-1k) benchmarks. Specifically, GAIA reduces the average FPR95 by 23.10% on CIFAR10 and by 45.41% on CIFAR100 compared to advanced post-hoc methods.
翻訳日:2024-01-18 00:48:26 公開日:2024-01-16
# 大規模言語モデルを用いた学習可能なサイバー物理システムのテスト:形式的アプローチ

Testing learning-enabled cyber-physical systems with Large-Language Models: A Formal Approach ( http://arxiv.org/abs/2311.07377v2 )

ライセンス: Link先を確認
Xi Zheng, Aloysius K. Mok, Ruzica Piskac, Yong Jae Lee, Bhaskar Krishnamachari, Dakai Zhu, Oleg Sokolsky, Insup Lee(参考訳) 機械学習(ML)をサイバー物理システム(CPS)に統合することは、効率の向上、予測能力、リアルタイム応答性、自律的な操作の実現など、大きなメリットを提供する。 この収束により、自動運転車、配達ドローン、サービスロボット、遠隔医療手順など、さまざまな現実世界のアプリケーションの開発と展開が加速された。 しかし、AIを注入したCPSのためのソフトウェア開発ライフサイクル(SDLC)は、データと学習を2つの重要なコンポーネントとして特徴付ける従来のアプローチとは大きく異なる。 既存の検証と検証技術はしばしばこれらの新しいパラダイムには不十分である。 本研究は,学習可能なcpsの形式的安全性を確保する上での課題を指摘し,検証と検証のための最も実践的な手法としてテストを検討し,現状の方法論を要約する。 正式な安全保証を提供するための現在のテストアプローチの制限を認識し、我々は、基礎的な確率的テストからより厳密なアプローチに移行するためのロードマップを提案します。

The integration of machine learning (ML) into cyber-physical systems (CPS) offers significant benefits, including enhanced efficiency, predictive capabilities, real-time responsiveness, and the enabling of autonomous operations. This convergence has accelerated the development and deployment of a range of real-world applications, such as autonomous vehicles, delivery drones, service robots, and telemedicine procedures. However, the software development life cycle (SDLC) for AI-infused CPS diverges significantly from traditional approaches, featuring data and learning as two critical components. Existing verification and validation techniques are often inadequate for these new paradigms. In this study, we pinpoint the main challenges in ensuring formal safety for learningenabled CPS.We begin by examining testing as the most pragmatic method for verification and validation, summarizing the current state-of-the-art methodologies. Recognizing the limitations in current testing approaches to provide formal safety guarantees, we propose a roadmap to transition from foundational probabilistic testing to a more rigorous approach capable of delivering formal assurance.
翻訳日:2024-01-18 00:47:06 公開日:2024-01-16
# ミニマル・ノーム・シャロー・デノイザは関数空間でどのように見えるか?

How do Minimum-Norm Shallow Denoisers Look in Function Space? ( http://arxiv.org/abs/2311.06748v2 )

ライセンス: Link先を確認
Chen Zeno, Greg Ongie, Yaniv Blumenfeld, Nir Weinberger, Daniel Soudry(参考訳) ニューラルネットワーク(NN)デノイザは、画像再構成から画像生成まで、多くの共通タスクにおいて必須のビルディングブロックである。 しかし、これらのモデルの成功は理論的観点からはよく理解されていない。 本稿では,浅いReLU NNデノイザによって実現される関数を,最小表現コスト(最小の$\ell^2$標準重み)で補間(ゼロトレーニング損失)の一般的な理論的設定で特徴付けることを目的とする。 まず、単変量データに対して、NNデノイザ関数の閉形式を導出し、クリーンなデータ点に対して収縮的であることを確認し、低雑音レベルにおける経験的MMSE推定器よりも優れた一般化を証明した。 次に,低次元部分空間に含まれるデータ,片側線合体に含まれるデータ,あるいはいくつかの種類の単純なデータといった,トレーニングデータ上の幾何的仮定の下で,NNデノイザ関数を閉じた形で発見する。 これらの関数は、エッジや/またはトレーニングサンプルを接続する面と整列した単純なランクワンの線形補間の和に分解される。 我々はこのアライメント現象を合成データと実画像で実証的に検証する。

Neural network (NN) denoisers are an essential building block in many common tasks, ranging from image reconstruction to image generation. However, the success of these models is not well understood from a theoretical perspective. In this paper, we aim to characterize the functions realized by shallow ReLU NN denoisers -- in the common theoretical setting of interpolation (i.e., zero training loss) with a minimal representation cost (i.e., minimal $\ell^2$ norm weights). First, for univariate data, we derive a closed form for the NN denoiser function, find it is contractive toward the clean data points, and prove it generalizes better than the empirical MMSE estimator at a low noise level. Next, for multivariate data, we find the NN denoiser functions in a closed form under various geometric assumptions on the training data: data contained in a low-dimensional subspace, data contained in a union of one-sided rays, or several types of simplexes. These functions decompose into a sum of simple rank-one piecewise linear interpolations aligned with edges and/or faces connecting training samples. We empirically verify this alignment phenomenon on synthetic data and real images.
翻訳日:2024-01-18 00:46:48 公開日:2024-01-16
# ビンゴ摂食障害とブリミアとデジタル食品の相互作用の理解

Understanding How People with Binge Eating Disorder and Bulimia Interact with Digital Food Content ( http://arxiv.org/abs/2311.05920v2 )

ライセンス: Link先を確認
Ryuhaerang Choi, Subin Park, Sujin Han, Sung-Ju Lee(参考訳) 多くの研究は、オンラインコンテンツと無秩序な食事行動がどのように関連しているかを理解することに焦点を当てている。 しかし、食障害のある個人に対するデジタル食品コンテンツの影響を総合的に調査する研究は乏しい。 バンジ食障害 (BED) とブリム・ナーボサ (BN) の2つの研究 (N=23, 22) を行い, デジタル食品を消費する動機と実践について検討した。 以上の結果から,BEDおよびBNの患者は,その症状を克服するために食品メディアからの陽性効果を期待しているが,実際には障害を悪化させることが多い。 また、多くの個人が、デジタル食品の消費を辞めて戻るサイクルを経験していることも分かりました。 これらの結果に基づき,デジタル食品コンテンツとマルチメディアプラットフォームが,日々のオンラインプラットフォームインタラクションにおいて脆弱な個人をサポートするための設計上の意味を明らかにする。

A large body of research has focused on understanding how online content and disordered eating behaviors are associated. However, there is a lack of comprehensive studies investigating digital food content's influence on individuals with eating disorders. We conducted two rounds of studies (N=23 and 22, respectively) with individuals with binge eating disorder (BED) or bulimia nervosa (BN) to understand their motivations and practices of consuming digital food content. Our study reveals that individuals with BED and BN anticipate positive effects from food media to overcome their condition, but in practice, it often exacerbates their disorder. We also discovered that many individuals have experienced a cycle of quitting and returning to digital food content consumption. Based on these findings, we articulate design implications for digital food content and multimedia platforms to support vulnerable individuals in everyday online platform interactions.
翻訳日:2024-01-18 00:46:25 公開日:2024-01-16
# 2次元漸近一般化ブリルアンゾーン理論

Two-dimensional Asymptotic Generalized Brillouin Zone Theory ( http://arxiv.org/abs/2311.16868v2 )

ライセンス: Link先を確認
Zeqi Xu, Bo Pang, Kai Zhang, and Zhesen Yang(参考訳) 本研究では,2つの代表的極小モデルを解くことによって,2次元非エルミート皮膚効果の理論を提案する。 具体的には、任意の非エルミート的ハミルトニアンに対して、 (i)複素エネルギー平面上の開境界スペクトルで被覆された対応する領域は、開境界幾何学とは独立でなければならない。 (ii)任意の開境界固有値 $e_0$ に対して、対応する2次元漸近一般化ブリルアンゾーンは、幾何独立なブロッホ/非ブロッホフェルミ点とそれらを結ぶ幾何独立な非ブロッホ等周波数パターンによって決定される。 我々の理論のまとめは、ほとんどの対称性で保護された例外的半金属はOBC幾何学の変動に対して堅牢であるべきであるということである。 我々の理論は、高次元非ブロッホバンド理論と対応する非エルミートバルクバウンダリー対応に関する議論への道を開く。

In this work, we propose a theory on the two-dimensional non-Hermitian skin effect by resolving two representative minimal models. Specifically, we show that for any given non-Hermitian Hamiltonian, (i) the corresponding region covered by its open boundary spectrum on the complex energy plane should be independent of the open boundary geometry; and (ii) for any given open boundary eigenvalue $E_0$ , its corresponding two-dimensional asymptotic generalized Brillouin zone is determined by a series of geometry-independent Bloch/non-Bloch Fermi points and geometry-dependent non-Bloch equal frequency contours that connect them. A corollary of our theory is that most symmetry-protected exceptional semimetals should be robust to variations in OBC geometry. Our theory paves the way to the discussion on the higher dimensional non-Bloch band theory and the corresponding non-Hermitian bulk-boundary correspondence.
翻訳日:2024-01-18 00:38:10 公開日:2024-01-16
# Tiny-VBF:超音波単一角波イメージングのための資源効率の高いビジョントランスを用いた軽量ビームフォーマ

Tiny-VBF: Resource-Efficient Vision Transformer based Lightweight Beamformer for Ultrasound Single-Angle Plane Wave Imaging ( http://arxiv.org/abs/2311.12082v2 )

ライセンス: Link先を確認
Abdul Rahoof, Vivek Chaturvedi, Mahesh Raveendranatha Panicker, and Muhammad Shafique(参考訳) 近年,ディープラーニングアーキテクチャを用いた超音波画像における計算集約非リアルタイムビーム生成アルゴリズムの高速化が活発化している。 それでも、最先端のディープラーニング技術の複雑さは、リソース制約のあるエッジデバイスへのデプロイに課題をもたらす。 本研究では,単角平面波のインソニゼーションにより取得した生の高周波チャネルデータに基づいて,新しい視覚トランスフォーマ(tiny-vbf)を提案する。 Tiny-VBFの出力は、最先端のディープラーニングモデルと比較して、フレームサイズが368 x 128の0.34 GOPs/Frameを必要とする高速エンベロープ検出を提供する。 また, in-vitroデータセットのtiny-cnnと比較して, コントラストが8%上昇し, 軸および横分解能が5%, 33%上昇した。 また, 従来のdasビームフォーマーと比較して, コントラストが4.2%増加し, 軸方向および横方向の分解能が4%, 20%向上した。 さらに,Zynq UltraScale+MPSoC ZCU104 FPGA上でのTiny-VBFモデルを実装し,画像品質を保ちながら,フローティングポイントの実装に比べて50%少ない資源消費のハイブリッド量子化方式を提案する。

Accelerating compute intensive non-real-time beam-forming algorithms in ultrasound imaging using deep learning architectures has been gaining momentum in the recent past. Nonetheless, the complexity of the state-of-the-art deep learning techniques poses challenges for deployment on resource-constrained edge devices. In this work, we propose a novel vision transformer based tiny beamformer (Tiny-VBF), which works on the raw radio-frequency channel data acquired through single-angle plane wave insonification. The output of our Tiny-VBF provides fast envelope detection requiring very low frame rate, i.e. 0.34 GOPs/Frame for a frame size of 368 x 128 in comparison to the state-of-the-art deep learning models. It also exhibited an 8% increase in contrast and gains of 5% and 33% in axial and lateral resolution respectively when compared to Tiny-CNN on in-vitro dataset. Additionally, our model showed a 4.2% increase in contrast and gains of 4% and 20% in axial and lateral resolution respectively when compared against conventional Delay-and-Sum (DAS) beamformer. We further propose an accelerator architecture and implement our Tiny-VBF model on a Zynq UltraScale+ MPSoC ZCU104 FPGA using a hybrid quantization scheme with 50% less resource consumption compared to the floating-point implementation, while preserving the image quality.
翻訳日:2024-01-18 00:33:08 公開日:2024-01-16
# freqfed: フェデレーション学習における中毒攻撃軽減のための周波数分析に基づくアプローチ

FreqFed: A Frequency Analysis-Based Approach for Mitigating Poisoning Attacks in Federated Learning ( http://arxiv.org/abs/2312.04432v2 )

ライセンス: Link先を確認
Hossein Fereidooni, Alessandro Pegoraro, Phillip Rieger, Alexandra Dmitrienko, Ahmad-Reza Sadeghi(参考訳) Federated Learning(FL)は、複数のクライアントがトレーニングデータを共有せずにモデルを共同でトレーニングできる、協調学習パラダイムである。 しかしflは、敵が操作されたモデル更新をフェデレートされたモデル集約プロセスに注入し、予測(ターゲット不明の毒)や隠れた機能(標的の毒またはバックドア)を破壊または破壊する、毒攻撃の影響を受けやすい。 flにおける中毒攻撃に対する既存の防御には、攻撃の種類や戦略やデータ分布に関する特定の仮定に依存するか、高度な注入技術や戦略に対して十分に堅牢でないか、集約モデルの有用性を同時に維持するなど、いくつかの制限がある。 既存の防衛の欠陥に対処するため、我々は、汎用的で全く異なるアプローチで、毒(標的と標的の無い)攻撃を検出する。 本稿では,モデル更新(重み)を周波数領域に変換する新しい集約機構であるfreqfedを提案し,重みに関する十分な情報を継承するコア周波数成分を同定する。 これにより、攻撃タイプ、戦略、クライアントのデータ配布に関係なく、クライアントのローカルトレーニング中に悪意のある更新を効果的にフィルタリングできます。 本稿では、画像分類、単語予測、IoT侵入検出、音声認識など、さまざまなアプリケーション領域におけるFreqFedの有効性と効果を広く評価する。 FreqFedは, 凝集モデルの有用性に悪影響を及ぼすことなく, 毒性攻撃を効果的に軽減できることを示す。

Federated learning (FL) is a collaborative learning paradigm allowing multiple clients to jointly train a model without sharing their training data. However, FL is susceptible to poisoning attacks, in which the adversary injects manipulated model updates into the federated model aggregation process to corrupt or destroy predictions (untargeted poisoning) or implant hidden functionalities (targeted poisoning or backdoors). Existing defenses against poisoning attacks in FL have several limitations, such as relying on specific assumptions about attack types and strategies or data distributions or not sufficiently robust against advanced injection techniques and strategies and simultaneously maintaining the utility of the aggregated model. To address the deficiencies of existing defenses, we take a generic and completely different approach to detect poisoning (targeted and untargeted) attacks. We present FreqFed, a novel aggregation mechanism that transforms the model updates (i.e., weights) into the frequency domain, where we can identify the core frequency components that inherit sufficient information about weights. This allows us to effectively filter out malicious updates during local training on the clients, regardless of attack types, strategies, and clients' data distributions. We extensively evaluate the efficiency and effectiveness of FreqFed in different application domains, including image classification, word prediction, IoT intrusion detection, and speech recognition. We demonstrate that FreqFed can mitigate poisoning attacks effectively with a negligible impact on the utility of the aggregated model.
翻訳日:2024-01-18 00:25:37 公開日:2024-01-16
# 住宅の暖房に対する需要応答:物理インフォームドニューラルネットワークに基づく効率的なモンテカルロ木探索制御

Demand response for residential building heating: Effective Monte Carlo Tree Search control based on physics-informed neural networks ( http://arxiv.org/abs/2312.03365v2 )

ライセンス: Link先を確認
Fabio Pavirani, Gargya Gokhale, Bert Claessens, Chris Develder(参考訳) 需要応答(DR)による建物内のエネルギー消費の制御は、世界的な二酸化炭素排出量の削減と気候変動の抑制のためにますます重要になっている。 本稿では,利用者の快適さを尊重しつつ,エネルギー消費を最適化するために,住宅の暖房システムの制御に特に焦点をあてる。 この分野の最近の研究は、モデルベース制御(例えば、モデル予測制御(MPC)や、実用的なDRアルゴリズムを実装するためのモデルフリー強化学習(RL)に重点を置いている。 最近、ボードゲーム(ゴー、チェス)のようなドメインで顕著な成功を収めた特定のRLメソッドは、Monte Carlo Tree Search (MCTS)である。 しかし、建物の管理については未調査のままである。 そこで,本研究では,建築需要応答のためのMCTSについて検討する。 その自然な構造は、(例えば従来のRLソリューションとは対照的に)外因性制約を暗黙的に統合する柔軟な最適化を可能にし、MCTSはDR制御問題の候補となる。 従来の純粋データ駆動型Black-Boxアプローチとは対照的に,物理インフォームドニューラルネットワーク(PiNN)モデルを基礎となる熱状態予測に組み込むことで,MCTS制御性能を向上させる方法を示す。 pinnモデルに適合したmcts実装では、得られた報酬の3%増分をルールベースのコントローラと比較して得ることができ、人工価格プロファイルに適用すると10%のコスト削減と35%の温度差の削減が可能となる。 我々はさらに、より最適なノードを通る木探索を導くニューラルネットワークを用いて、モンテカルロ木探索手法にディープラーニング層を実装した。 次に、この追加をVanillaバージョンと比較し、計算コストの改善を示しました。

Controlling energy consumption in buildings through demand response (DR) has become increasingly important to reduce global carbon emissions and limit climate change. In this paper, we specifically focus on controlling the heating system of a residential building to optimize its energy consumption while respecting user's thermal comfort. Recent works in this area have mainly focused on either model-based control, e.g., model predictive control (MPC), or model-free reinforcement learning (RL) to implement practical DR algorithms. A specific RL method that recently has achieved impressive success in domains such as board games (go, chess) is Monte Carlo Tree Search (MCTS). Yet, for building control it has remained largely unexplored. Thus, we study MCTS specifically for building demand response. Its natural structure allows a flexible optimization that implicitly integrate exogenous constraints (as opposed, for example, to conventional RL solutions), making MCTS a promising candidate for DR control problems. We demonstrate how to improve MCTS control performance by incorporating a Physics-informed Neural Network (PiNN) model for its underlying thermal state prediction, as opposed to traditional purely data-driven Black-Box approaches. Our MCTS implementation aligned with a PiNN model is able to obtain a 3% increment of the obtained reward compared to a rule-based controller; leading to a 10% cost reduction and 35% reduction on temperature difference with the desired one when applied to an artificial price profile. We further implemented a Deep Learning layer into the Monte Carlo Tree Search technique using a neural network that leads the tree search through more optimal nodes. We then compared this addition with its Vanilla version, showing the improvement in computational cost required.
翻訳日:2024-01-18 00:24:55 公開日:2024-01-16
# 多変量機能回帰における係数形状アライメント

Coefficient Shape Alignment in Multivariate Functional Regression ( http://arxiv.org/abs/2312.01925v3 )

ライセンス: Link先を確認
Shuhao Jiao and Ngai-Hang Chan(参考訳) 多変量関数データ解析では、異なる機能的共変量は均質である。 隠された均質構造は、異なる共変体の接続や関連について情報を与える。 顕著な均一性を持つ共変量は同じ群内で共同で解析することができ、多変量関数データのパロニカルなモデリング方法が生まれる。 本稿では、「係数形状アライメント」と呼ばれる新しい正則化アプローチを用いた群付き多変量関数回帰モデルを開発し、異なる機能共変量のポテンシャル均質性に取り組む。 モデリング手順は、2つの主要なステップを含む: まず、未知のグループ構造を新しい正規化アプローチで検出し、その検出されたグループ構造に基づいて、共変数を解離群に集約し、グループ化された多変量関数回帰モデルを確立する。 この新しい群モデルでは、同じ等質群における共変量の係数関数は、スケーリングに不変な形状を持つ。 新しい正規化アプローチは係数形状の相違を罰することに基づいている。 検出されたグループ構造の一貫性を徹底的に検討し、基礎となる真のグループ構造を明らかにする条件を開発する。 モデル推定の漸近特性も開発されている。 本手法の有限サンプル特性を調べるために, 詳細なシミュレーションを行った。 提案手法の実用性について,糖質評価の実データ分析で概説した。 本研究は,機能的共変量の根底相同性を解析し,多変量関数データのための並列モデル構造を開発するための新しい手段を提供する。

In multivariate functional data analysis, different functional covariates can be homogeneous. The hidden homogeneity structure is informative about the connectivity or association of different covariates. The covariates with pronounced homogeneity can be analyzed jointly within the same group, which gives rise to a way of parsimoniously modeling multivariate functional data. In this paper, a novel grouped multivariate functional regression model with a new regularization approach termed "coefficient shape alignment" is developed to tackle the potential homogeneity of different functional covariates. The modeling procedure includes two main steps: first detect the unknown grouping structure with the new regularization approach to aggregate covariates into disjoint groups; and then the grouped multivariate functional regression model is established based on the detected grouping structure. In this new grouped model, the coefficient functions of covariates in the same homogeneous group share the same shape invariant to scaling. The new regularization approach builds on penalizing the discrepancy of coefficient shape. The consistency property of the detected grouping structure is thoroughly investigated, and the conditions that guarantee uncovering the underlying true grouping structure are developed. The asymptotic properties of the model estimates are also developed. Extensive simulation studies are conducted to investigate the finite-sample properties of the developed methods. The practical utility of the proposed methods is illustrated in the real data analysis on sugar quality evaluation. This work provides a novel means for analyzing the underlying homogeneity of functional covariates and developing parsimonious model structures for multivariate functional data.
翻訳日:2024-01-18 00:22:56 公開日:2024-01-16
# 最高の開発者エンゲージメントを提供するGreat Humor

With Great Humor Comes Great Developer Engagement ( http://arxiv.org/abs/2312.01680v2 )

ライセンス: Link先を確認
Deepika Tiwari, Tim Toady, Martin Monperrus, Benoit Baudry(参考訳) ソフトウェア作成のための世界的な共同作業は技術的、社会的に要求されている。 より熱心な開発者は、彼らが作るソフトウェアにより多くの価値を与える。 マーガレット・ハミルトン・プログラムアポロ11のような熱心な開発者は、最も難しいエンジニアリングタスクに取り組むことができる。 本稿では、本来のエンゲージメント(ユーモア)のベクトルを深く掘り下げ、それが開発者のエンゲージメントにどのように影響するかを研究する。 まず,3つの重要な実世界のソフトウェアプロジェクトに含まれるユーモラスな要素に関する質的,定量的なデータを収集する。開発者がテスト内でユーモラスを導入するのに役立つフェイカー,開発者による各コントリビューションの後に写真を撮影するlolcommits,風刺のエクササイズであるVolkswagen,そして誤ってインパクトのあるソフトウェアツールの発明につながった。 第2に、開発者調査を通じて、125人の開発者からユニークな洞察を得ました。 この3つのケーススタディの分析は、ソフトウェアにおけるユーモアの流行を強調し、ソフトウェアとユーモアの両方に熱心である世界中の開発者のコミュニティを明らかにする。 私たちはまた、調査回答者が共有した貴重な洞察を通じて、ソフトウェアのユーモアの欠点について学びます。 責任を持って実践すると、ユーモアは開発者のエンゲージメントを増加させ、ハードエンジニアリングや認知的タスクに対処できるという明確な証拠を報告します。 私たちの仕事の最も効果的なハイライトは、ソフトウェアテストとドキュメントがユーモアを実践するのに最適な場所であることです。

The worldwide collaborative effort for the creation of software is technically and socially demanding. The more engaged developers are, the more value they impart to the software they create. Engaged developers, such as Margaret Hamilton programming Apollo 11, can succeed in tackling the most difficult engineering tasks. In this paper, we dive deep into an original vector of engagement - humor - and study how it fuels developer engagement. First, we collect qualitative and quantitative data about the humorous elements present within three significant, real-world software projects: faker, which helps developers introduce humor within their tests; lolcommits, which captures a photograph after each contribution made by a developer; and volkswagen, an exercise in satire, which accidentally led to the invention of an impactful software tool. Second, through a developer survey, we receive unique insights from 125 developers, who share their real-life experiences with humor in software. Our analysis of the three case studies highlights the prevalence of humor in software, and unveils the worldwide community of developers who are enthusiastic about both software and humor. We also learn about the caveats of humor in software through the valuable insights shared by our survey respondents. We report clear evidence that, when practiced responsibly, humor increases developer engagement and supports them in addressing hard engineering and cognitive tasks. The most actionable highlight of our work is that software tests and documentation are the best locations in code to practice humor.
翻訳日:2024-01-18 00:22:33 公開日:2024-01-16
# 協調的データ実践の調査:医療研究のための人工知能の事例研究

Investigating Collaborative Data Practices: a Case Study on Artificial Intelligence for Healthcare Research ( http://arxiv.org/abs/2311.18424v2 )

ライセンス: Link先を確認
Rafael Henkin, Elizabeth Remfry, Duncan J. Reynolds, Megan Clinch, Michael R. Barnes(参考訳) 医療のための人工知能(AI)ツールの開発は協力的な取り組みであり、データサイエンティスト、臨床医、患者、その他の分野をまとめる。 本稿では、英国における複数の長期的条件を理解し管理するためにAIツールを適用する研究コンソーシアムの協調データ実践について検討する。 本研究は,13の半構造化面接の帰納的テーマ分析を通じて,使用ツールやコミュニケーションプロセスや設定,コラボレーション作業の条件や障害に基づいて,コラボレーションがどのように行われるのかを理解することを目的とした。 以上の結果から,知識の共有やオーディエンス,特に臨床や患者の観点からの情報の調整に使用されるツールの適応が明らかになった。 これを行う能力に関する制限は、電子医療記録の使用やデータセットへのアクセスによっても課されている。 我々は、ミーティングを規律間の交流を円滑にし、知識のブレンドと創造を可能にするための重要な舞台と捉えた。 最後に、コラボレーションを促進するために必要な条件を明らかにし、今後の作業において課題のいくつかをどのようにナビゲートするかを議論します。

Developing artificial intelligence (AI) tools for healthcare is a collaborative effort, bringing data scientists, clinicians, patients and other disciplines together. In this paper, we explore the collaborative data practices of research consortia tasked with applying AI tools to understand and manage multiple long-term conditions in the UK. Through an inductive thematic analysis of 13 semi-structured interviews with participants of these consortia, we aimed to understand how collaboration happens based on the tools used, communication processes and settings, as well as the conditions and obstacles for collaborative work. Our findings reveal the adaptation of tools that are used for sharing knowledge and the tailoring of information based on the audience, particularly those from a clinical or patient perspective. Limitations on the ability to do this were also found to be imposed by the use of electronic healthcare records and access to datasets. We identified meetings as the key setting for facilitating exchanges between disciplines and allowing for the blending and creation of knowledge. Finally, we bring to light the conditions needed to facilitate collaboration and discuss how some of the challenges may be navigated in future work.
翻訳日:2024-01-18 00:21:31 公開日:2024-01-16
# エピソディックテストシナリオにおける持続的なテスト時間適応

Persistent Test-time Adaptation in Episodic Testing Scenarios ( http://arxiv.org/abs/2311.18193v2 )

ライセンス: Link先を確認
Trung-Hieu Hoang, Duc Minh Vo, Minh N. Do(参考訳) 現在のテスト時間適応(TTA)アプローチは、継続的に変化する環境に適応することを目指している。 しかし, 日中監視カメラなどの環境の変化だけでなく, 時間とともに相互に相関して再帰する場合は, 長期にわたる適用性が維持されるかどうかは不明である。 本研究では,従来のテスト環境に繰り返し曝露した場合のTTAモデルの誤差蓄積について検討し,エピソードTTAと呼ばれる新しいテスト環境を提案する。 この現象を解析するために, 単純だが代表的な$\epsilon$-perturbed Gaussian Mixture Model Classifierに基づくTTAプロセスのシミュレーションを設計し, TTA手法の時間的劣化に寄与するデータセットおよびアルゴリズムに依存した要因を理論的に明らかにした。 そこで本研究では,持続性TTA(PeTTA)という手法を提案する。 pettaはモデルの崩壊を検知し、ttaの適応戦略を調整し、2つの主要な目的(適応とモデル崩壊の防止)のバランスをとる。 エピソードTTAシナリオの面におけるPeTTAの安定性は、様々なベンチマークの包括的な実験を通じて実証されている。

Current test-time adaptation (TTA) approaches aim to adapt to environments that change continuously. Yet, when the environments not only change but also recur in a correlated manner over time, such as in the case of day-night surveillance cameras, it is unclear whether the adaptability of these methods is sustained after a long run. This study aims to examine the error accumulation of TTA models when they are repeatedly exposed to previous testing environments, proposing a novel testing setting called episodic TTA. To study this phenomenon, we design a simulation of TTA process on a simple yet representative $\epsilon$-perturbed Gaussian Mixture Model Classifier and derive the theoretical findings revealing the dataset- and algorithm-dependent factors that contribute to the gradual degeneration of TTA methods through time. Our investigation has led us to propose a method, named persistent TTA (PeTTA). PeTTA senses the model divergence towards a collapsing and adjusts the adaptation strategy of TTA, striking a balance between two primary objectives: adaptation and preventing model collapse. The stability of PeTTA in the face of episodic TTA scenarios has been demonstrated through a set of comprehensive experiments on various benchmarks.
翻訳日:2024-01-18 00:21:12 公開日:2024-01-16
# 原文のパラフレーズ化」による高精度長文QA

"Paraphrasing The Original Text" Makes High Accuracy Long-Context QA ( http://arxiv.org/abs/2312.11193v7 )

ライセンス: Link先を確認
Yijiong Yu(参考訳) ほとんどのオープンソース生成言語モデルは、現在、コンテキストウィンドウが4k未満で、長いテキストに直面する際の能力を制限する。 これまでの多くの試みは、モデルのコンテキストウィンドウを拡張しようとしたが、実際の効果は非常に限られていることが判明した。 この問題に対処するために、理論的に長文学習データの有効性を分析し、長文学習には単に「長い」データではなく「効果的な」データが必要であることを発見した。 そこで本研究では,データの有効性を高めるために,"オリジナルテキストパラフレーズ"を追加することを提案する。 再構成データセットでトレーニングしたモデルは、優れた長文能力を得、マルチドキュメント検索における最先端の精度と、同等スケールのモデル間のQAタスクを実現する。 モデルとトレーニングデータは huggingface(https://huggingface.co/yuyijiong/qwen-14b-chat-yarn-32k)と wisemodel(https://wisemodel.cn/models/yuyijiong/qwen-14b-chat-yarn-32k)で利用可能である。

Most open-source generative language models currently have a context window of no more than 4k, limiting their ability when facing long text. Many previous efforts have tried to extend the context window of models, but their actual effects have been found to be very limited. To address this issue, we theoretically analyze the effectiveness of the long-context training data and find that long-context training requires "effective" data rather than simply "long" data, which is rarely noticed in previous studies. Thus, we propose adding "original text paraphrasing" to enhance the effectiveness of the data. The model trained on our re-fined dataset obtains excellent long-context capabilities and achieves state-of-the-art accuracy on multi-document retrieval and QA tasks among models of comparable scales. The model and training data have been made available on HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k) and WiseModel(https://wisemodel.cn/models/yuyijiong/Qwen-14b-chat-yarn-32k).
翻訳日:2024-01-18 00:14:03 公開日:2024-01-16
# StemGen:聴く音楽生成モデル

StemGen: A music generation model that listens ( http://arxiv.org/abs/2312.08723v2 )

ライセンス: Link先を確認
Julian D. Parker, Janne Spijkervet, Katerina Kosta, Furkan Yesiler, Boris Kuznetsov, Ju-Chiang Wang, Matt Avent, Jitong Chen, Duc Le(参考訳) 近年,ディープラーニング技術を用いた音楽音声のエンドツーエンド生成が活発化している。 しかし、ほとんどのモデルは抽象コンディショニング情報に反応して完全に混合した音楽を生成することに集中している。 本研究では,音楽の文脈に耳を傾け,反応できる音楽生成モデルを作成するための代替パラダイムを提案する。 本稿では,非自己回帰型トランスフォーマーモデルアーキテクチャを用いて,そのようなモデルを構築する方法について述べる。 記述したアーキテクチャは、オープンソースとプロプライエタリなデータセットの両方でトレーニングします。 標準品質指標と音楽情報検索記述子に基づく新しい手法を用いて生成したモデルを評価する。 得られたモデルは、最先端のテキスト条件付きモデルの音質に到達し、その文脈と強い音楽的コヒーレンスを示す。

End-to-end generation of musical audio using deep learning techniques has seen an explosion of activity recently. However, most models concentrate on generating fully mixed music in response to abstract conditioning information. In this work, we present an alternative paradigm for producing music generation models that can listen and respond to musical context. We describe how such a model can be constructed using a non-autoregressive, transformer-based model architecture and present a number of novel architectural and sampling improvements. We train the described architecture on both an open-source and a proprietary dataset. We evaluate the produced models using standard quality metrics and a new approach based on music information retrieval descriptors. The resulting model reaches the audio quality of state-of-the-art text-conditioned models, as well as exhibiting strong musical coherence with its context.
翻訳日:2024-01-18 00:11:46 公開日:2024-01-16
# マルチメディア検索のための適応信頼度マルチビューハッシュ

Adaptive Confidence Multi-View Hashing for Multimedia Retrieval ( http://arxiv.org/abs/2312.07327v2 )

ライセンス: Link先を確認
Jian Zhu, Yu Cui, Zhangmin Huang, Xingyu Li, Lei Liu, Lingfang Zeng, Li-Rong Dai(参考訳) マルチビューハッシュ法は,複数ビューからの異種データをバイナリハッシュコードに変換し,マルチメディア検索において重要な技術である。 しかし,本手法は主に信頼学習と融合を欠きながら,複数の視点の相補性を検討する。 さらに、現実的なアプリケーションシナリオでは、単一ビューデータは冗長ノイズを含む。 信頼度学習を行い、不要なノイズを除去するために、新しい適応信頼度マルチビューハッシュ(acmvh)法を提案する。 まず、様々な単一視点特徴から有用な情報を抽出し、ノイズ情報を除去する信頼ネットワークを開発する。 さらに、各ビューの信頼度を測定し、重み付けされた和を通じてマルチビュー特徴を融合させる適応型信頼度マルチビューネットワークを用いる。 最後に、拡張ネットワークは、融合した機能の特徴表現をさらに強化するように設計されている。 我々の知識を最大限に活用するために,マルチメディア検索分野への信頼度学習の適用を開拓した。 2つの公開データセットに関する広範囲な実験により、提案されたacmvhは最先端の手法よりも優れた性能を示す(最大で3.24%の増加)。 ソースコードはhttps://github.com/HackerHyper/ACMVHで入手できる。

The multi-view hash method converts heterogeneous data from multiple views into binary hash codes, which is one of the critical technologies in multimedia retrieval. However, the current methods mainly explore the complementarity among multiple views while lacking confidence learning and fusion. Moreover, in practical application scenarios, the single-view data contain redundant noise. To conduct the confidence learning and eliminate unnecessary noise, we propose a novel Adaptive Confidence Multi-View Hashing (ACMVH) method. First, a confidence network is developed to extract useful information from various single-view features and remove noise information. Furthermore, an adaptive confidence multi-view network is employed to measure the confidence of each view and then fuse multi-view features through a weighted summation. Lastly, a dilation network is designed to further enhance the feature representation of the fused features. To the best of our knowledge, we pioneer the application of confidence learning into the field of multimedia retrieval. Extensive experiments on two public datasets show that the proposed ACMVH performs better than state-of-the-art methods (maximum increase of 3.24%). The source code is available at https://github.com/HackerHyper/ACMVH.
翻訳日:2024-01-18 00:10:56 公開日:2024-01-16
# 工学設計知識の言語的・構造的基礎

Linguistic and Structural Basis of Engineering Design Knowledge ( http://arxiv.org/abs/2312.06355v2 )

ライセンス: Link先を確認
L. Siddharth, Jianxi Luo(参考訳) アーティファクト記述(Artefact descriptions)は、設計プロセスの成果とドライバの両方であるエンジニアリング設計知識の主要なキャリアである。 アーティファクトは異なる意味で記述できるが、設計プロセスは、エンティティと関係の複雑な配置を通じてテキストで表現されるエンジニアリング設計の知識を具現化する記述を必要とする。 大言語モデルは、文字/文字のシーケンスとしてのみ、あらゆる種類のテキストから学習するので、これらはまだ明示的なエンジニアリングデザインの事実を具現化するテキストを生成していない。 既存の存在論的設計理論は、アイデアや学習目的に制限されている大規模言語モデルを導く可能性が低い。 本稿では,33,881件の特許文書から工学的設計知識を知識グラフとして解説する。 工学設計知識の言語的・構造的基礎を理解するために,これらの知識グラフの構成式を検討する。 言語基盤の観点からは、実体と関係を64と24の言語構文に一般化することができる。 主に属性('in'、'with')、構造('in'、'with')、目的('to'、'for')、階層('include')、例示(' such')、行動('to'、'from')をキャプチャするが、階層的な関係は75のユニークな構文を用いて明確に識別できる。 構造的基盤を理解するため,生物・生態ネットワークの研究からインスピレーションを得て,特許知識グラフからモチーフを発見する。 4つの3ノードパターンと4つの4ノードパターンを、さらに収束して、シーケンス [->...->]、アグリゲーション [->...<-]、階層 [<-...->] に単純化することができる。 大規模言語モデルに基づく設計ツールの指針として,階層構造を解明しつつ,抽象エンティティやサブグラフ内の関係を拡大するための規制規範をほとんど提案しない。

Artefact descriptions are the primary carriers of engineering design knowledge that is both an outcome and a driver of the design process. While an artefact could be described in different connotations, the design process requires a description to embody engineering design knowledge, which is expressed in the text through intricate placement of entities and relationships. As large-language models learn from all kinds of text merely as a sequence of characters/tokens, these are yet to generate text that embodies explicit engineering design facts. Existing ontological design theories are less likely to guide the large-language models whose applications are currently limited to ideation and learning purposes. In this article, we explicate engineering design knowledge as knowledge graphs from a large sample of 33,881 patent documents. We examine the constituents of these knowledge graphs to understand the linguistic and structural basis of engineering design knowledge. In terms of linguistic basis, we observe that entities and relationships could be generalised to 64 and 24 linguistic syntaxes. While relationships mainly capture attributes ('of'), structure ('in', 'with'), purpose ('to', 'for'), hierarchy ('include'), exemplification ('such as'), and behaviour ('to', 'from'), the hierarchical relationships could specifically be identified using 75 unique syntaxes. To understand the structural basis, we draw inspiration from various studies on biological/ecological networks and discover motifs from patent knowledge graphs. We identify four 3-node and four 4-node patterns that could further be converged and simplified into sequence [->...->], aggregation [->...<-], and hierarchy [<-...->]. Expected to guide large-language model based design tools, we propose few regulatory precepts for concretising abstract entities and relationships within subgraphs, while explicating hierarchical structures.
翻訳日:2024-01-18 00:10:07 公開日:2024-01-16
# guardians of trust: ベンダーパートナーシップによるaiopsのデータセキュリティのナビゲート

Guardians of Trust: Navigating Data Security in AIOps through Vendor Partnerships ( http://arxiv.org/abs/2312.06008v2 )

ライセンス: Link先を確認
Subhadip Kumar(参考訳) AIOps(AI AI for IT Operations)は、ITオペレーションの自動化と最適化に人工知能と機械学習を適用する、急速に成長する分野である。 AIOpsベンダは、エンドツーエンドのログ、トレース、メトリクスを取り込み、ITシステムの完全なスタック可観測性を提供するサービスを提供している。 しかし、これらのデータソースは、内部ipアドレス、ホスト名、httpヘッダ、sql、メソッド/パラメータの戻り値、url、個人識別情報(pii)、機密ビジネスデータなどの機密情報を含む可能性がある。 したがって、aiopsベンダーと作業する場合、データセキュリティは重要な関心事である。 この記事では、異なるベンダーが提供するセキュリティ機能と、データ保護とプライバシを確保するためにベストプラクティスをどのように適用できるかについて論じます。

Artificial Intelligence for IT Operations (AIOps) is a rapidly growing field that applies artificial intelligence and machine learning to automate and optimize IT operations. AIOps vendors provide services that ingest end-to-end logs, traces, and metrics to offer a full stack observability of IT systems. However, these data sources may contain sensitive information such as internal IP addresses, hostnames, HTTP headers, SQLs, method/argument return values, URLs, personal identifiable information (PII), or confidential business data. Therefore, data security is a crucial concern when working with AIOps vendors. In this article, we will discuss the security features offered by different vendors and how we can adopt best practices to ensure data protection and privacy.
翻訳日:2024-01-18 00:09:28 公開日:2024-01-16
# RLPlanner:高速熱分析によるチップレットの強化学習に基づくフロアプランニング

RLPlanner: Reinforcement Learning based Floorplanning for Chiplets with Fast Thermal Analysis ( http://arxiv.org/abs/2312.16895v2 )

ライセンス: Link先を確認
Yuanyuan Duan, Xingchen Liu, Zhiping Yu, Hanming Wu, Leilai Shao and Xiaolei Zhu(参考訳) チップレットベースのシステムは、コストの低さと競争力の面から近年大きな注目を集めている。 チップレットベースのシステムの複雑さとコンパクト性が増すにつれて、床計画段階でのマイクロポンプの割り当て、インターコネクト遅延、熱限界について慎重に検討する必要がある。 本稿では,新しい高速熱評価法により,チップレット系システムのための効率的な初期フロアプランニングツール RLPlanner を紹介する。 RLPlannerは、全線長と温度を共同で最小化するために高度な強化学習を採用している。 時間を要する熱計算を緩和するため、RLPlannerは開発した高速熱評価手法を採用し、イテレーションと最適化を高速化する。 総合実験により,提案した高速熱評価法は0.25Kの平均絶対誤差(MAE)を達成し,オープンソースの熱分解器HotSpotと比較して120倍以上のスピードアップを実現することが示された。 RLPlannerは, 高速熱評価法と一体化した場合, 目標目標(線長と温度の組み合わせ)を, 従来の模擬熱処理法とHotSpotとの比較で比較し, 平均20.28\%向上する。

Chiplet-based systems have gained significant attention in recent years due to their low cost and competitive performance. As the complexity and compactness of a chiplet-based system increase, careful consideration must be given to microbump assignments, interconnect delays, and thermal limitations during the floorplanning stage. This paper introduces RLPlanner, an efficient early-stage floorplanning tool for chiplet-based systems with a novel fast thermal evaluation method. RLPlanner employs advanced reinforcement learning to jointly minimize total wirelength and temperature. To alleviate the time-consuming thermal calculations, RLPlanner incorporates the developed fast thermal evaluation method to expedite the iterations and optimizations. Comprehensive experiments demonstrate that our proposed fast thermal evaluation method achieves a mean absolute error (MAE) of 0.25 K and delivers over 120x speed-up compared to the open-source thermal solver HotSpot. When integrated with our fast thermal evaluation method, RLPlanner achieves an average improvement of 20.28\% in minimizing the target objective (a combination of wirelength and temperature), within a similar running time, compared to the classic simulated annealing method with HotSpot.
翻訳日:2024-01-18 00:00:34 公開日:2024-01-16
# ZeroShape: 回帰に基づくゼロショット形状再構成

ZeroShape: Regression-based Zero-shot Shape Reconstruction ( http://arxiv.org/abs/2312.14198v2 )

ライセンス: Link先を確認
Zixuan Huang, Stefan Stojanov, Anh Thai, Varun Jampani, James M. Rehg(参考訳) 単一画像ゼロショット3次元形状再構成の問題点について検討する。 近年の研究では、3Dアセットの生成モデルを用いてゼロショット形状の再構成を学習しているが、これらのモデルは電車や推論時に計算コストが高い。 対照的に、この問題に対する従来のアプローチは回帰ベースであり、決定論的モデルは直接オブジェクト形状を後退させるように訓練される。 このような回帰法は生成法よりも計算効率が高い。 生成モデリングはハイパフォーマンスに必要なのか、それとも逆にレグレッションベースのアプローチはまだ競争力があるのか? そこで我々は,この領域における収束する発見と新たな洞察に基づいて,ZeroShapeと呼ばれる強力な回帰モデルを構築した。 また、3つの異なる実世界の3Dデータセットのオブジェクトで、大規模な実世界の評価ベンチマークをキュレートします。 この評価ベンチマークは,従来よりも多種多様であり,各分野における評価のばらつきを低減し,定量的評価に用いたものよりも桁違いに大きい。 その結果,ゼロシェイプは最先端の手法よりも優れた性能を実現するだけでなく,計算能力やデータ効率も著しく向上することが示された。

We study the problem of single-image zero-shot 3D shape reconstruction. Recent works learn zero-shot shape reconstruction through generative modeling of 3D assets, but these models are computationally expensive at train and inference time. In contrast, the traditional approach to this problem is regression-based, where deterministic models are trained to directly regress the object shape. Such regression methods possess much higher computational efficiency than generative methods. This raises a natural question: is generative modeling necessary for high performance, or conversely, are regression-based approaches still competitive? To answer this, we design a strong regression-based model, called ZeroShape, based on the converging findings in this field and a novel insight. We also curate a large real-world evaluation benchmark, with objects from three different real-world 3D datasets. This evaluation benchmark is more diverse and an order of magnitude larger than what prior works use to quantitatively evaluate their models, aiming at reducing the evaluation variance in our field. We show that ZeroShape not only achieves superior performance over state-of-the-art methods, but also demonstrates significantly higher computational and data efficiency.
翻訳日:2024-01-17 23:58:22 公開日:2024-01-16
# コントラスト信頼適応による知識グラフ誤り検出

Knowledge Graph Error Detection with Contrastive Confidence Adaption ( http://arxiv.org/abs/2312.12108v2 )

ライセンス: Link先を確認
Xiangyu Liu and Yang Liu and Wei Hu(参考訳) 知識グラフ(KG)は、しばしば様々な誤りを含む。 KGの誤り検出に関するこれまでの研究は主にグラフ構造からの三重項埋め込みに依存していた。 我々は経験的な研究を行い、これらの作品が、意味的に類似した正しい三重項からノイズを区別するのに苦労していることを発見した。 本稿では,テキストとグラフの構造情報を三重項再構成から統合し,セマンティクスをよりよく区別するKG誤り検出モデルCCAを提案する。 テキストと構造パターンの違いを捉えるために,対話型コントラスト学習を設計する。 さらに,意味的に類似する雑音や逆雑音を伴う現実的なデータセットを構築する。 実験結果から,CCAは最先端のベースライン,特に意味的相似ノイズや対向ノイズの検出に優れていた。

Knowledge graphs (KGs) often contain various errors. Previous works on detecting errors in KGs mainly rely on triplet embedding from graph structure. We conduct an empirical study and find that these works struggle to discriminate noise from semantically-similar correct triplets. In this paper, we propose a KG error detection model CCA to integrate both textual and graph structural information from triplet reconstruction for better distinguishing semantics. We design interactive contrastive learning to capture the differences between textual and structural patterns. Furthermore, we construct realistic datasets with semantically-similar noise and adversarial noise. Experimental results demonstrate that CCA outperforms state-of-the-art baselines, especially in detecting semantically-similar noise and adversarial noise.
翻訳日:2024-01-17 23:56:59 公開日:2024-01-16
# Diff-PCR:点クラウド登録のための二重確率行列空間での拡散対応検索

Diff-PCR: Diffusion-Based Correspondence Searching in Doubly Stochastic Matrix Space for Point Cloud Registration ( http://arxiv.org/abs/2401.00436v3 )

ライセンス: Link先を確認
Qianliang Wu, Haobo Jiang, Yaqing Ding, Lei Luo, Jin Xie, Jian Yang(参考訳) 点雲間の最適な対応を効果的に見つけることは、剛性および非剛性の両方の点雲登録問題を解決するために重要である。 既存の手法はしばしば幾何学的あるいは意味的な特徴の埋め込みに依存して対応を確立し、変換や流れ場を推定する。 近年、最先端の手法ではRAFTライクな反復的更新を用いてソリューションを洗練している。 しかし、これらの方法には一定の制限がある。 第一に、反復的な改善設計は透明性を欠き、反復的な更新は改良プロセス中に固定された経路を辿り、最適以下の結果をもたらす可能性がある。 第二に、これらの手法は変換や流れ場を解く前駆体として対応(あるいはマッチング行列)の精製や最適化の重要性を見落としている。 それらは通常、点特徴空間内の距離に基づいて候補対応を計算する。 しかし、彼らは候補マッチング行列をシンクホーン演算またはデュアルソフトマックス演算で一度だけある行列空間に射影し、最終的な対応を得る。 このワンショット射影マッチング行列はグローバル最適行列とは程遠い可能性があり、これらのアプローチは対象マッチング行列の分布を考慮しない。 本稿では,2次確率行列空間内の最適マッチング行列の探索勾配を予測するために,デノイング拡散モデルを用いた新しい手法を提案する。 逆復調過程において,本手法は,この復調勾配に沿った解を反復的に探索し,ターゲットマッチング行列の最大極性方向を指し示す。 提案手法は,オンラインバックボーンやホワイトノイズによって提供される任意の初期マッチング行列から検索を開始できるようにする。 3DMatch/3DLoMatchと4DMatch/4DLoMatchデータセットの実験的評価により,新たに設計されたフレームワークの有効性が示された。

Efficiently finding optimal correspondences between point clouds is crucial for solving both rigid and non-rigid point cloud registration problems. Existing methods often rely on geometric or semantic feature embedding to establish correspondences and estimate transformations or flow fields. Recently, state-of-the-art methods have employed RAFT-like iterative updates to refine the solution. However, these methods have certain limitations. Firstly, their iterative refinement design lacks transparency, and their iterative updates follow a fixed path during the refinement process, which can lead to suboptimal results. Secondly, these methods overlook the importance of refining or optimizing correspondences (or matching matrices) as a precursor to solving transformations or flow fields. They typically compute candidate correspondences based on distances in the point feature space. However, they only project the candidate matching matrix into some matrix space once with Sinkhorn or dual softmax operations to obtain final correspondences. This one-shot projected matching matrix may be far from the globally optimal one, and these approaches do not consider the distribution of the target matching matrix. In this paper, we propose a novel approach that exploits the Denoising Diffusion Model to predict a searching gradient for the optimal matching matrix within the Doubly Stochastic Matrix Space. During the reverse denoising process, our method iteratively searches for better solutions along this denoising gradient, which points towards the maximum likelihood direction of the target matching matrix. Our method offers flexibility by allowing the search to start from any initial matching matrix provided by the online backbone or white noise. Experimental evaluations on the 3DMatch/3DLoMatch and 4DMatch/4DLoMatch datasets demonstrate the effectiveness of our newly designed framework.
翻訳日:2024-01-17 23:45:39 公開日:2024-01-16
# 局所的グローバル特徴の交互アグリゲーションによる拡張スウィントランスに基づく画像超解像再構成ネットワーク

Image Super-resolution Reconstruction Network based on Enhanced Swin Transformer via Alternating Aggregation of Local-Global Features ( http://arxiv.org/abs/2401.00241v2 )

ライセンス: Link先を確認
Yuming Huang, Yingpin Chen, Changhui Wu, Hanrong Xie, Binhui Song, Hui Wang(参考訳) Swin Transformer画像の超分解能再構成ネットワークは、ウィンドウアテンションとウィンドウアテンションの長距離関係にのみ依存し、特徴を探索する。 この機構には2つの制限がある。 一方、ローカル機能を無視しながら、グローバルな機能のみに焦点を当てている。 一方で、チャネル特徴やチャネル相互作用を無視しながら、空間的特徴の相互作用のみに関心を持ち、非線形マッピング能力を制限する。 上記の制約に対処するため,本稿では,局所的グローバル特徴の交互集約によるスウィントランスモジュールの拡張を提案する。 局所的特徴集約段階において,局所的空間情報とチャネル情報との相互作用を実現するためにシフト畳み込みを導入する。 そして、グローバル特徴集約段階において、ブロックスパースグローバル認識モジュールを導入する。 本モジュールでは,まず空間情報を再構成し,その組換え情報を多層パーセプトロンユニットに送信し,グローバルな知覚を実現する。 その後、複数のスケールのセルフアテンションモジュールと低パラメータの残留チャネルアテンションモジュールを導入し、異なるスケールで情報アグリゲーションを実現する。 最後に、提案されたネットワークは5つの公開データセットで検証される。 実験の結果,提案ネットワークは他の最先端スーパーレゾリューションネットワークよりも優れていた。

The Swin Transformer image super-resolution reconstruction network only relies on the long-range relationship of window attention and shifted window attention to explore features. This mechanism has two limitations. On the one hand, it only focuses on global features while ignoring local features. On the other hand, it is only concerned with spatial feature interactions while ignoring channel features and channel interactions, thus limiting its non-linear mapping ability. To address the above limitations, this paper proposes enhanced Swin Transformer modules via alternating aggregation of local-global features. In the local feature aggregation stage, we introduce a shift convolution to realize the interaction between local spatial information and channel information. Then, a block sparse global perception module is introduced in the global feature aggregation stage. In this module, we reorganize the spatial information first, then send the recombination information into a multi-layer perceptron unit to implement the global perception. After that, a multi-scale self-attention module and a low-parameter residual channel attention module are introduced to realize information aggregation at different scales. Finally, the proposed network is validated on five publicly available datasets. The experimental results show that the proposed network outperforms the other state-of-the-art super-resolution networks.
翻訳日:2024-01-17 23:45:11 公開日:2024-01-16
# mobileagent: ヒューマンマシンインタラクションとsop統合によるモバイル制御の強化

MobileAgent: enhancing mobile control via human-machine interaction and SOP integration ( http://arxiv.org/abs/2401.04124v2 )

ライセンス: Link先を確認
Tinghe Ding(参考訳) 大規模言語モデル(LLM)を中心としたエージェントは、ユーザのためのモバイルデバイス操作を自動化することができる。 ユーザのモバイル操作を微調整した後、これらのエージェントはオンラインで高レベルのユーザ指示に従うことができる。 最終目的を達成するまで、目標分解、サブゴールのシークエンシング、インタラクティブな環境探索といったタスクを実行する。 しかし、パーソナライズされたユーザデータに関するプライバシーの懸念は、モバイル操作中に発生し、ユーザ確認を必要とする。 さらに、ユーザの実世界の操作は探索的であり、アクションデータは複雑で冗長であり、エージェント学習の課題となる。 これらの問題に対処するために,我々は,エージェントと人間間の対話的なタスクを設計し,機密情報を識別し,パーソナライズされたユーザニーズに対応する。 さらに,モデルのコンテキスト内学習に標準運用手順(sop)情報を統合し,エージェントの複雑なタスク実行に対する理解を深めた。 提案手法は,アプリケーション操作,Web検索,Webショッピングなど多段階のタスクにまたがる,30万のユニークな命令を含む新しいデバイス制御ベンチマークであるAitWを用いて評価した。 実験の結果, SOPをベースとしたエージェントは, 追加の推論コストを発生させることなく, 動作成功率66.92%を達成できることがわかった。

Agents centered around Large Language Models (LLMs) are now capable of automating mobile device operations for users. After fine-tuning to learn a user's mobile operations, these agents can adhere to high-level user instructions online. They execute tasks such as goal decomposition, sequencing of sub-goals, and interactive environmental exploration, until the final objective is achieved. However, privacy concerns related to personalized user data arise during mobile operations, requiring user confirmation. Moreover, users' real-world operations are exploratory, with action data being complex and redundant, posing challenges for agent learning. To address these issues, in our practical application, we have designed interactive tasks between agents and humans to identify sensitive information and align with personalized user needs. Additionally, we integrated Standard Operating Procedure (SOP) information within the model's in-context learning to enhance the agent's comprehension of complex task execution. Our approach is evaluated on the new device control benchmark AitW, which encompasses 30K unique instructions across multi-step tasks, including application operation, web searching, and web shopping. Experimental results show that the SOP-based agent achieves state-of-the-art performance without incurring additional inference costs, boasting an overall action success rate of 66.92%.
翻訳日:2024-01-17 23:35:42 公開日:2024-01-16
# 真の多光子量子相関に対する光子融合の定量化

Quantification of Photon Fusion for Genuine Multiphoton Quantum Correlations ( http://arxiv.org/abs/2401.03860v2 )

ライセンス: Link先を確認
Sheng-Yan Sun, Yu-Cheng Li, Shih-Hsuan Chen, Kuan-Jou Wang, Ching-Jui Huang, Tung-Ju Tsai, Wei-Ting Kao, Tzu-Liang Hsu, Che-Ming Li(参考訳) 融合光子対は、2つの2光子振幅が同じ結合光検出イベントに寄与する不明瞭性が存在するアリーナを生成する。 この2光子干渉は、受動的からスケーラブルな生成から、バルク光学からチップスケールの実装まで、多光子絡み込みの生成に広く利用されている。 重要ではあるが、光子融合の完全な能力が量子実体のように完全に量子化できるという実験的な証拠は存在しない。 ここでは、実験光子融合の最初の完全能力定量化を示す。 実験における光子融合の全能力を忠実に測定し, 絡み合った光子対を創り, 保存する。 自発パラメトリックダウンコンバージョンエンタングルメント源を用いた4光および6光子エンタングルド状態により、実光子エンタングルメントとアインシュタイン・ポドルスキー・ローゼンステアリングを生成するための干渉計を忠実に評価できることを示す。 これらの結果は、一般的な量子フォトニクスデバイスやネットワークにおけるプリミティブ操作の根底にある光子融合をベンチマークする実用的な診断方法を明らかにする。

Fusing photon pairs creates an arena where indistinguishability can exist between two two-photon amplitudes contributing to the same joint photodetection event. This two-photon interference has been extensively utilized in creating multiphoton entanglement, from passive to scalable generation, from bulk-optical to chip-scale implementations. While significant, no experimental evidence exists that the full capability of photon fusion can be utterly quantified like a quantum entity. Herein, we demonstrate the first complete capability quantification of experimental photon fusion. Our characterization faithfully measures the whole abilities of photon fusion in the experiment to create and preserve entangled photon pairs. With the created four- and six-photon entangled states using spontaneous parametric down-conversion entanglement sources, we show that capability quantification provides a faithful assessment of interferometry for generating genuine multiphoton entanglement and Einstein-Podolsky-Rosen steering. These results reveal a practical diagnostic method to benchmark photon fusion underlying the primitive operations in general quantum photonics devices and networks.
翻訳日:2024-01-17 23:35:17 公開日:2024-01-16
# 学術出版物のコンテンツに基づく新規性尺度:概念実証

A Content-Based Novelty Measure for Scholarly Publications: A Proof of Concept ( http://arxiv.org/abs/2401.03642v2 )

ライセンス: Link先を確認
Haining Wang(参考訳) 進化における遺伝子変異に似た新規性は、学術的な進歩の可能性を開く。 ピアレビューは学術的コミュニケーションと資源配分のノベルティを評価するためのゴールドスタンダードであり続けているが、大量の投稿は学術的ノベルティの自動測定を必要としている。 既存の知識の非典型的組み合わせとしてノベルティを捉える視点を取り入れ,学術出版物にノベルティの情報理論尺度を導入する。 この尺度は、学術的談話の単語分布を表す言語モデルによって認識される「サーピゼーション」の程度を定量化する。 前者は科学的常識に対応することを示し、後者はドメイン専門家の選抜パネルによる斬新な評価と一致して支持される。 さらに、その解釈可能性、粒度、アクセシビリティによって特徴づけられるこの測定は、既存の手法でよく見られるギャップに対処する。 我々は、この尺度が編集者、利害関係者、政策立案者にとって大きな利益をもたらすと信じており、創造性、学際性、科学的進歩といった学問的ダイナミクスと新規性との関係を調べるための信頼できるレンズを提供する。

Novelty, akin to gene mutation in evolution, opens possibilities for scholarly advancement. Although peer review remains the gold standard for evaluating novelty in scholarly communication and resource allocation, the vast volume of submissions necessitates an automated measure of scholarly novelty. Adopting a perspective that views novelty as the atypical combination of existing knowledge, we introduce an information-theoretic measure of novelty in scholarly publications. This measure quantifies the degree of 'surprise' perceived by a language model that represents the word distribution of scholarly discourse. The proposed measure is accompanied by face and construct validity evidence; the former demonstrates correspondence to scientific common sense, and the latter is endorsed through alignment with novelty evaluations from a select panel of domain experts. Additionally, characterized by its interpretability, fine granularity, and accessibility, this measure addresses gaps prevalent in existing methods. We believe this measure holds great potential to benefit editors, stakeholders, and policymakers, and it provides a reliable lens for examining the relationship between novelty and academic dynamics such as creativity, interdisciplinarity, and scientific advances.
翻訳日:2024-01-17 23:34:12 公開日:2024-01-16
# MiniScope: 2相反復ハイブリッド分析によるUI探索の自動化とMiniAppのプライバシー不整合検出

MiniScope: Automated UI Exploration and Privacy Inconsistency Detection of MiniApps via Two-phase Iterative Hybrid Analysis ( http://arxiv.org/abs/2401.03218v2 )

ライセンス: Link先を確認
Shenao Wang, Yuekang Li, Kailong Wang, Yi Liu, Hui Li, Yang Liu, Haoyu Wang(参考訳) より大きなSuperApps内で運用されるMiniAppsの出現は、個々のアプリのダウンロードを必要とせずに幅広いサービスを提供することによって、ユーザエクスペリエンスに革命をもたらした。 しかし、これらのMiniAppsは機密データへのアクセスを必要とすることが多く、プライバシー侵害につながる可能性があるため、この利便性は重大なプライバシー上の懸念を引き起こしている。 私たちの研究は,MiniAppsのプライバシプラクティスの解析における重要なギャップ,特にAndroidエコシステムにおけるWeChat MiniAppsに注目しています。 既存のプライバシー規制とプラットフォームガイドラインにもかかわらず、ユーザーのプライバシーを完全に保護するための効果的なメカニズムが欠如している。 我々は,MiniApp環境向けに設計された新しい2相ハイブリッド分析手法であるMiniScopeを紹介する。 このアプローチは、コードカバレッジと正確なプライバシプラクティスの識別のために動的なui探索を組み込むことで、既存の静的解析技術の制限を克服する。 我々の手法には、UI遷移状態のモデリング、パッケージ間コールバック制御フローの解決、自動反復UI探索が含まれる。 これにより、MiniAppsのプライバシプラクティスの包括的な理解が可能になり、サブパッケージローディングとイベント駆動のコールバックというユニークな課題に対処できる。 MiniScopeを用いた120K以上のMiniAppの実証評価は、プライバシーの不整合を識別する効果を示す。 その結果、miniappsの5.7%がプライベートデータを過剰に収集し、33.4%がデータ収集を過大評価している。 これらの発見は、より正確なプライバシー監視システムの必要性を強調し、より厳格なプライバシー対策を強制するスーパーアプリオペレーターの責任を強調している。

The advent of MiniApps, operating within larger SuperApps, has revolutionized user experiences by offering a wide range of services without the need for individual app downloads. However, this convenience has raised significant privacy concerns, as these MiniApps often require access to sensitive data, potentially leading to privacy violations. Our research addresses the critical gaps in the analysis of MiniApps' privacy practices, especially focusing on WeChat MiniApps in the Android ecosystem. Despite existing privacy regulations and platform guidelines, there is a lack of effective mechanisms to safeguard user privacy fully. We introduce MiniScope, a novel two-phase hybrid analysis approach, specifically designed for the MiniApp environment. This approach overcomes the limitations of existing static analysis techniques by incorporating dynamic UI exploration for complete code coverage and accurate privacy practice identification. Our methodology includes modeling UI transition states, resolving cross-package callback control flows, and automated iterative UI exploration. This allows for a comprehensive understanding of MiniApps' privacy practices, addressing the unique challenges of sub-package loading and event-driven callbacks. Our empirical evaluation of over 120K MiniApps using MiniScope demonstrates its effectiveness in identifying privacy inconsistencies. The results reveal significant issues, with 5.7% of MiniApps over-collecting private data and 33.4% overclaiming data collection. These findings emphasize the urgent need for more precise privacy monitoring systems and highlight the responsibility of SuperApp operators to enforce stricter privacy measures.
翻訳日:2024-01-17 23:33:51 公開日:2024-01-16
# 注意・蒸留・語彙化:ニューラルネットワークによる実践的前処理に向けて

Attention, Distillation, and Tabularization: Towards Practical Neural Network-Based Prefetching ( http://arxiv.org/abs/2401.06362v2 )

ライセンス: Link先を確認
Pengmiao Zhang, Neelesh Gupta, Rajgopal Kannan, Viktor K. Prasanna(参考訳) Attention-based Neural Networks (NN)は、データプリフェッチにおける重要なステップである正確なメモリアクセス予測において、その効果を実証している。 しかし、これらのモデルに関連する計算オーバーヘッドは高い推論遅延をもたらし、実用的なプリフェッチとしての可能性を制限する。 このギャップを埋めるため,予測精度を犠牲にすることなく,モデル複雑性と推論遅延を大幅に低減するタブライゼーションに基づく新しい手法を提案する。 提案手法は,メモリアクセス予測のための蒸留・高精度・高精細な注意ベースモデルを入力とし,その高価な行列乗算を高速テーブルルックアップの階層に効率的に変換する。 上記のアプローチの例として、テーブルの単純な階層から構成されるプレフィッシャーであるDARTを開発する。 F1スコアのわずか0.09ドロップで、DARTは大きな注意ベースモデルから算術演算の99.99%を減らし、蒸留モデルから91.83%を減らした。 DARTは大きなモデル推論を170倍、蒸留モデルを9.4倍加速する。 DARTのレイテンシとストレージコストは、最先端のルールベースのプレフィッシャーBOと同等だが、IPCの改善の6.1%を上回っている。 DARTは、最先端のNNベースのPrefetchers TransFetchを33.1%、Voyagerを37.2%上回っている。

Attention-based Neural Networks (NN) have demonstrated their effectiveness in accurate memory access prediction, an essential step in data prefetching. However, the substantial computational overheads associated with these models result in high inference latency, limiting their feasibility as practical prefetchers. To close the gap, we propose a new approach based on tabularization that significantly reduces model complexity and inference latency without sacrificing prediction accuracy. Our novel tabularization methodology takes as input a distilled, yet highly accurate attention-based model for memory access prediction and efficiently converts its expensive matrix multiplications into a hierarchy of fast table lookups. As an exemplar of the above approach, we develop DART, a prefetcher comprised of a simple hierarchy of tables. With a modest 0.09 drop in F1-score, DART reduces 99.99% of arithmetic operations from the large attention-based model and 91.83% from the distilled model. DART accelerates the large model inference by 170x and the distilled model by 9.4x. DART has comparable latency and storage costs as state-of-the-art rule-based prefetcher BO but surpasses it by 6.1% in IPC improvement. DART outperforms state-of-the-art NN-based prefetchers TransFetch by 33.1% and Voyager by 37.2% in terms of IPC improvement, primarily due to its low prefetching latency.
翻訳日:2024-01-17 23:27:05 公開日:2024-01-16
# 超高速二階非線形フォトニクス-古典物理学から非ガウス量子力学へ

Ultrafast second-order nonlinear photonics -- from classical physics to non-Gaussian quantum dynamics ( http://arxiv.org/abs/2401.06265v2 )

ライセンス: Link先を確認
Marc Jankowski, Ryotatsu Yanagimoto, Edwin Ng, Ryan Hamerly, Timothy P. McKenna, Hideo Mabuchi, and M. M. Fejer(参考訳) 2階(\chi^{(2)}$)の非線形性を持つフォトニック集積回路は急速に低電力に拡大している。 このとき、最先端のデバイスは連続波レーザーによって駆動される際に数千個の光子と飽和な非線形相互作用を達成し、超高速パルスによって実現されるこれらのエネルギー要求のさらなる削減は、すぐに非線形光学を単光子非線形性の領域に押し込むかもしれない。 本稿では、超高速非線形フォトニクスにおける最近の展開を概観し、極小光子非線形相互作用を実現するための設計戦略を論じ、古典的振る舞いから極小光子スケールまでスムーズに補間する枠組みを用いて超高速量子非線形光学を統一的に扱うことを提案する。 これらの量子光学用プラットフォームは、多数の結合光学モードのために空洞量子力学の典型的な実現と根本的に異なる。 古典的には、多重モードの挙動は非線形光学においてよく研究されており、ソリトン形成や超連続生成などの有名な例がある。 対照的に、マルチモード量子系はより多様な振る舞いを示すが、閉形式解は古典的解よりもさらにスパースである。 超高速量子光学の枠組みを開発する際には、古典的から量子的デバイスへどのような行動が受け継がれるのか、どんな直観を捨てるべきなのか、超高速および量子非線形光学の交点に新しい機会が存在するのかを識別する。 この記事では、$\chi^{(2)}$ の非線形性を持つデバイスの古典的および量子的挙動の接続を確立することに焦点を当てるが、ここで開発されたフレームワークは一般に、第三次($\chi^{(3)}$)非線形性に基づく動的過程の記述に容易に拡張できる。

Photonic integrated circuits with second-order ($\chi^{(2)}$) nonlinearities are rapidly scaling to remarkably low powers. At this time, state-of-the-art devices achieve saturated nonlinear interactions with thousands of photons when driven by continuous-wave lasers, and further reductions in these energy requirements enabled by the use of ultrafast pulses may soon push nonlinear optics into the realm of single-photon nonlinearities. This tutorial reviews these recent developments in ultrafast nonlinear photonics, discusses design strategies for realizing few-photon nonlinear interactions, and presents a unified treatment of ultrafast quantum nonlinear optics using a framework that smoothly interpolates from classical behaviors to the few-photon scale. These emerging platforms for quantum optics fundamentally differ from typical realizations in cavity quantum electrodynamics due to the large number of coupled optical modes. Classically, multimode behaviors have been well studied in nonlinear optics, with famous examples including soliton formation and supercontinuum generation. In contrast, multimode quantum systems exhibit a far greater variety of behaviors, and yet closed-form solutions are even sparser than their classical counterparts. In developing a framework for ultrafast quantum optics, we will identify what behaviors carry over from classical to quantum devices, what intuition must be abandoned, and what new opportunities exist at the intersection of ultrafast and quantum nonlinear optics. While this article focuses on establishing connections between the classical and quantum behaviors of devices with $\chi^{(2)}$ nonlinearities, the frameworks developed here are general and are readily extended to the description of dynamical processes based on third-order ($\chi^{(3)}$) nonlinearities.
翻訳日:2024-01-17 23:26:37 公開日:2024-01-16
# POMP:低リソース非教師型ニューラルネットワーク翻訳におけるLCMのための確率駆動型メタグラフプロンプタ

POMP: Probability-driven Meta-graph Prompter for LLMs in Low-resource Unsupervised Neural Machine Translation ( http://arxiv.org/abs/2401.05596v2 )

ライセンス: Link先を確認
Shilong Pan, Zhiliang Tian, Liang Ding, Zhen Huang, Zhihua Wen, Dongsheng Li(参考訳) 低リソース言語(LRL)は、限られた並列データによる教師ありニューラルマシン翻訳の課題に直面し、教師なしの手法の研究を促す。 バックトランスレーション、トランスファーラーニング、ピボットベースの翻訳を含むunsupervised neural machine translation (UNMT)メソッドは、LRL翻訳の実用的なソリューションを提供するが、これらは合成データノイズ、言語バイアス、エラー伝播といった問題によって妨げられ、大きな言語モデル(LLM)によって緩和される可能性がある。 LLMは、ICL(in-context learning)と教師付き微調整法により高度なNMTを実現しているが、LRLの性能は低下する。 LLMは言語ノイズを補助言語で軽減し、LRLの翻訳を改善することができる。 本稿では,複数の補助言語からなる動的サンプリングベースグラフを用いて,LRLのLLM翻訳能力を向上する,確率駆動型メタグラフプロンプタ(POMP)を提案する。 POMPは、各ソース言語に対して有向非巡回メタグラフを構築し、複数の経路を動的にサンプリングし、言語ノイズを緩和し、訓練中に翻訳を改善する。 BLEURT測定値を用いて、スコアによって推定される翻訳とバックプロパゲート報酬を評価し、パス内の補助言語の確率を更新する。 本実験は3つのLRLの翻訳品質を大幅に改善し,本手法の有効性を示した。

Low-resource languages (LRLs) face challenges in supervised neural machine translation due to limited parallel data, prompting research into unsupervised methods. Unsupervised neural machine translation (UNMT) methods, including back-translation, transfer learning, and pivot-based translation, offer practical solutions for LRL translation, but they are hindered by issues like synthetic data noise, language bias, and error propagation, which can potentially be mitigated by Large Language Models (LLMs). LLMs have advanced NMT with in-context learning (ICL) and supervised fine-tuning methods, but insufficient training data results in poor performance in LRLs. We argue that LLMs can mitigate the linguistic noise with auxiliary languages to improve translations in LRLs. In this paper, we propose Probability-driven Meta-graph Prompter (POMP), a novel approach employing a dynamic, sampling-based graph of multiple auxiliary languages to enhance LLMs' translation capabilities for LRLs. POMP involves constructing a directed acyclic meta-graph for each source language, from which we dynamically sample multiple paths to prompt LLMs to mitigate the linguistic noise and improve translations during training. We use the BLEURT metric to evaluate the translations and back-propagate rewards, estimated by scores, to update the probabilities of auxiliary languages in the paths. Our experiments show significant improvements in the translation quality of three LRLs, demonstrating the effectiveness of our approach.
翻訳日:2024-01-17 23:25:31 公開日:2024-01-16
# k-support normによる反復正規化:スパース回復の重要な補完

Iterative Regularization with k-support Norm: An Important Complement to Sparse Recovery ( http://arxiv.org/abs/2401.05394v2 )

ライセンス: Link先を確認
William de Vazelhes, Bhaskar Mukhoty, Xiao-Tong Yuan, Bin Gu(参考訳) スパースリカバリは機械学習と信号処理においてユビキタスである。 スパースリカバリのNPハードの性質のため、既存の手法は制限的(あるいは未知の)適用条件や高い計算コストに悩まされていることが知られている。 近年, 反復正規化手法は, 従来手法で用いられてきた面倒なグリッド探索よりも, 早い停止時間でスパースリカバリを達成できるため, 有望な高速手法として出現している。 しかし、これらの反復的メソッドのほとんどは、制限的な適用性条件を必要とする$\ell_1$ノルムに基づいており、多くの場合失敗する可能性がある。 そのため、より広い条件下で反復正則化法を用いてスパースリカバリを実現することは、まだ研究されていない。 この問題に対処するために、$\ell_1$標準ではなく$k$サポート標準正規化器に基づく新しい反復正規化アルゴリズムIRKSNを提案する。 IRKSNを用いてスパースリカバリ条件を提供し、従来のリカバリ条件と$\ell_1$標準正規化器を比較した。 さらに,irksnのモデル誤差に対する初期停止条件を明示定数で与え,スパース回復のための標準線形率を達成する。 最後に,提案手法をいくつかの実験に適用し,関連する設計行列を用いた支援リカバリ実験を行った。

Sparse recovery is ubiquitous in machine learning and signal processing. Due to the NP-hard nature of sparse recovery, existing methods are known to suffer either from restrictive (or even unknown) applicability conditions, or high computational cost. Recently, iterative regularization methods have emerged as a promising fast approach because they can achieve sparse recovery in one pass through early stopping, rather than the tedious grid-search used in the traditional methods. However, most of those iterative methods are based on the $\ell_1$ norm which requires restrictive applicability conditions and could fail in many cases. Therefore, achieving sparse recovery with iterative regularization methods under a wider range of conditions has yet to be further explored. To address this issue, we propose a novel iterative regularization algorithm, IRKSN, based on the $k$-support norm regularizer rather than the $\ell_1$ norm. We provide conditions for sparse recovery with IRKSN, and compare them with traditional conditions for recovery with $\ell_1$ norm regularizers. Additionally, we give an early stopping bound on the model error of IRKSN with explicit constants, achieving the standard linear rate for sparse recovery. Finally, we illustrate the applicability of our algorithm on several experiments, including a support recovery experiment with a correlated design matrix.
翻訳日:2024-01-17 23:24:17 公開日:2024-01-16
# スパース付加機構シフト可変オートエンコーダによる細胞摂動のモデル化

Modelling Cellular Perturbations with the Sparse Additive Mechanism Shift Variational Autoencoder ( http://arxiv.org/abs/2311.02794v2 )

ライセンス: Link先を確認
Michael Bereket, Theofanis Karaletsos(参考訳) 介入による観察の生成モデルは、近年、機械学習と科学の間で活発な関心事となっている。 例えば、薬物発見では、未知の生物学的作用のメカニズムを特徴付けるために、細胞に対する多様な介入の効果をモデル化する必要がある。 摂動モデルに対する合成性, 絡み合い, 解釈性を組み合わせたスパース加算機構シフト変分自動符号化器SAMS-VAEを提案する。 sams-vaeは、摂動したサンプルの潜在状態を、サンプル固有の変動をキャプチャする局所潜在変数と、潜在介入効果のスパースグローバル変数の和としてモデル化する。 重要なことに、SAMS-VAEは個々の摂動に対してこれらのグローバル潜伏変数を分散させ、柔軟に構成可能な摂動特異的潜伏部分空間を識別する。 2つの一般的な単一セルシークエンシングデータセットを用いて,SAMS-VAEを定量的および定性的に評価した。 また,摂動特異的モデルプロペラティを測定するために,後発予測チェックと関連づけた平均治療効果に基づく摂動モデル評価の枠組みを提案する。 SAMS-VAEは、資源疎結合性の下での組合せ推論タスクを含む、分布内および分布外タスクの一般化という観点で比較モデルより優れ、既知の生物学的機構と強く相関する解釈可能な潜在構造が得られる。 この結果から,SAMS-VAEは機械学習による科学的発見のためのモデリングツールキットとして興味深いものとなった。

Generative models of observations under interventions have been a vibrant topic of interest across machine learning and the sciences in recent years. For example, in drug discovery, there is a need to model the effects of diverse interventions on cells in order to characterize unknown biological mechanisms of action. We propose the Sparse Additive Mechanism Shift Variational Autoencoder, SAMS-VAE, to combine compositionality, disentanglement, and interpretability for perturbation models. SAMS-VAE models the latent state of a perturbed sample as the sum of a local latent variable capturing sample-specific variation and sparse global variables of latent intervention effects. Crucially, SAMS-VAE sparsifies these global latent variables for individual perturbations to identify disentangled, perturbation-specific latent subspaces that are flexibly composable. We evaluate SAMS-VAE both quantitatively and qualitatively on a range of tasks using two popular single cell sequencing datasets. In order to measure perturbation-specific model-properties, we also introduce a framework for evaluation of perturbation models based on average treatment effects with links to posterior predictive checks. SAMS-VAE outperforms comparable models in terms of generalization across in-distribution and out-of-distribution tasks, including a combinatorial reasoning task under resource paucity, and yields interpretable latent structures which correlate strongly to known biological mechanisms. Our results suggest SAMS-VAE is an interesting addition to the modeling toolkit for machine learning-driven scientific discovery.
翻訳日:2024-01-17 21:35:25 公開日:2024-01-16
# 学生ネットワークをコピーするか, 平均教師の体重を測るべきか?

Should Under-parameterized Student Networks Copy or Average Teacher Weights? ( http://arxiv.org/abs/2311.01644v2 )

ライセンス: Link先を確認
Berfin \c{S}im\c{s}ek, Amire Bendjeddou, Wulfram Gerstner, Johanni Brea(参考訳) 任意の連続関数 $f^*$ は、十分に多くのニューロンを持つニューラルネットワークによって任意に近似することができる。 私たちは、$f^*$が1つの隠れ層と$k$ニューロンを持つニューラルネットワークである場合を考える。 したがって、$f^*$を$n<k$ニューロンのニューラルネットワークで近似することは、$k$ニューロンの"Teacher"ネットワークに$n$ニューロンのパラメータ以下の"student"ネットワークを適合させると見なすことができる。 生徒は教師よりニューロンが少ないため、n$の学生ニューロンのそれぞれが教師ニューロンの1つをコピーするか、あるいは教師ニューロンのグループを平均するべきかは不明である。 erfアクティベーション関数と標準ガウス入力分布を持つ浅層ニューラルネットワークでは,教師の入力ベクトルが正規直交し,出力重みがユニタリであれば,"コピー平均"構成が重要なポイントであることが証明される。 さらに、n-1$の学生ニューロンが1つの教師ニューロンをコピーし、n-$の学生ニューロンが残りの$k-n+1$の教師ニューロンを平均すると、そのような構成の最適値に達する。 n=1$のニューロンを持つ学生ネットワークに対して、等価な制約付き最適化問題を解くことによって、一般的に使用される活性化関数に対する非自明な臨界点のクローズドフォームソリューションを提供する。 経験的に、勾配流が最適なコピー平均臨界点に収束するか、あるいは各生徒ニューロンがおよそ異なる教師ニューロンを複製する他の点に収束するerf活性化関数を見いだす。 最後に,reluアクティベーション関数についても同様の結果が得られ,低パラメータネットワークの最適解は普遍的な構造を持つことが示唆された。

Any continuous function $f^*$ can be approximated arbitrarily well by a neural network with sufficiently many neurons $k$. We consider the case when $f^*$ itself is a neural network with one hidden layer and $k$ neurons. Approximating $f^*$ with a neural network with $n< k$ neurons can thus be seen as fitting an under-parameterized "student" network with $n$ neurons to a "teacher" network with $k$ neurons. As the student has fewer neurons than the teacher, it is unclear, whether each of the $n$ student neurons should copy one of the teacher neurons or rather average a group of teacher neurons. For shallow neural networks with erf activation function and for the standard Gaussian input distribution, we prove that "copy-average" configurations are critical points if the teacher's incoming vectors are orthonormal and its outgoing weights are unitary. Moreover, the optimum among such configurations is reached when $n-1$ student neurons each copy one teacher neuron and the $n$-th student neuron averages the remaining $k-n+1$ teacher neurons. For the student network with $n=1$ neuron, we provide additionally a closed-form solution of the non-trivial critical point(s) for commonly used activation functions through solving an equivalent constrained optimization problem. Empirically, we find for the erf activation function that gradient flow converges either to the optimal copy-average critical point or to another point where each student neuron approximately copies a different teacher neuron. Finally, we find similar results for the ReLU activation function, suggesting that the optimal solution of underparameterized networks has a universal structure.
翻訳日:2024-01-17 21:34:57 公開日:2024-01-16
# メモリ摂動方程式:データに対するモデルの感度を理解する

The Memory Perturbation Equation: Understanding Model's Sensitivity to Data ( http://arxiv.org/abs/2310.19273v2 )

ライセンス: Link先を確認
Peter Nickl, Lu Xu, Dharmesh Tailor, Thomas M\"ollenhoff, Mohammad Emtiyaz Khan(参考訳) モデルのトレーニングデータに対する感度を理解することは重要であるが、特にトレーニング中は困難でコストもかかる。 このような問題を単純化するために,モデルの摂動に対する感度をトレーニングデータに関連付けるメモリ・摂動方程式(MPE)を提案する。 ベイズ原理を用いて導かれた MPE は、既存の感度測定を統一し、モデルやアルゴリズムの多種多様に一般化し、感度に関する有用な特性を明らかにする。 実験の結果, 訓練中に得られた感度推定は, テストデータの一般化を忠実に予測できることがわかった。 提案方程式は,ロバスト・適応学習の今後の研究に有用であると考えられる。

Understanding model's sensitivity to its training data is crucial but can also be challenging and costly, especially during training. To simplify such issues, we present the Memory-Perturbation Equation (MPE) which relates model's sensitivity to perturbation in its training data. Derived using Bayesian principles, the MPE unifies existing sensitivity measures, generalizes them to a wide-variety of models and algorithms, and unravels useful properties regarding sensitivities. Our empirical results show that sensitivity estimates obtained during training can be used to faithfully predict generalization on unseen test data. The proposed equation is expected to be useful for future research on robust and adaptive learning.
翻訳日:2024-01-17 21:33:41 公開日:2024-01-16
# 特徴ガイダンス:大規模誘導スケールでの拡散モデルに対する非線形補正

Characteristic Guidance: Non-linear Correction for Diffusion Model at Large Guidance Scale ( http://arxiv.org/abs/2312.07586v3 )

ライセンス: Link先を確認
Candi Zheng, Yuan Lan(参考訳) 拡散確率モデル(ddpm, denoising diffusion probabilistic model)は、異なる条件モデルを線形に組み合わせ、サンプルに対する制御を強化する。 しかし,本手法は誘導スケールが大きいと重要になる非線形効果を無視する。 そこで本研究では, 分類器を含まないddpmsに対して, 第一原理非線形補正を行うサンプリング手法である characteristic guidance を提案する。 このような補正により、DDPMは基礎となる拡散過程のフォッカー・プランク方程式を、訓練のない、誘導体のない、既存のサンプリング法と互換性のある方法で尊重せざるを得なくなる。 実験により、特性誘導は制御を強化し、画像生成における色と露出の問題を低減し、潜時空間サンプリングから磁気位相遷移のような物理問題の解決まで様々な応用に有効であることが示されている。

Popular guidance for denoising diffusion probabilistic model (DDPM) linearly combines distinct conditional models together to provide enhanced control over samples. However, this approach overlooks nonlinear effects that become significant when guidance scale is large. To address this issue, we propose characteristic guidance, a sampling method that provides first-principle non-linear correction for classifier-free guided DDPMs. Such correction forces the guided DDPMs to respect the Fokker-Planck equation of their underlying diffusion process, in a way that is training-free, derivative-free, and compatible with existing sampling methods. Experiments show that characteristic guidance enhances control and reduces color and exposure issues in image generation, proving effective in diverse applications ranging from latent space sampling to solving physics problems like magnet phase transitions.
翻訳日:2024-01-17 21:17:59 公開日:2024-01-16
# CLadder: 言語モデルの因果推論能力を評価するベンチマーク

CLadder: A Benchmark to Assess Causal Reasoning Capabilities of Language Models ( http://arxiv.org/abs/2312.04350v2 )

ライセンス: Link先を確認
Zhijing Jin, Yuen Chen, Felix Leeb, Luigi Gresele, Ojasv Kamal, Zhiheng Lyu, Kevin Blin, Fernando Gonzalez Adauto, Max Kleiman-Weiner, Mrinmaya Sachan, Bernhard Sch\"olkopf(参考訳) 因果推論を行う能力は、インテリジェンスの中核的な特徴であると考えられている。 本研究では,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。 自然言語処理(nlp)における既存の研究の多くは、llmにおける共通意味因果推論の評価に焦点を当てているため、モデルが明確に定義された形式規則のセットに従って因果推論を行うことができるかどうかの評価に失敗している。 そこで我々は,judea pearlらによって提唱された"causal inference engine"に触発された自然言語における因果推論という新しいnlpタスクを提案する。 因果グラフとクエリ(連想グラフ、介入グラフ、反事実グラフ)のコレクションに基づいて、10Kのサンプルを用いて大規模なデータセットCLadderを構成する。 これらは自然言語に翻訳される。 我々はデータセット上で複数のLCMを評価し,提案手法であるCausalCoTの導入と評価を行った。 LLMの因果推論能力についてより深い知見を得るため,本研究の課題は LLM にとって極めて困難であることを示す。 私たちのデータはhttps://huggingface.co/datasets/causalNLP/cladderでオープンソース化されています。

The ability to perform causal reasoning is widely considered a core feature of intelligence. In this work, we investigate whether large language models (LLMs) can coherently reason about causality. Much of the existing work in natural language processing (NLP) focuses on evaluating commonsense causal reasoning in LLMs, thus failing to assess whether a model can perform causal inference in accordance with a set of well-defined formal rules. To address this, we propose a new NLP task, causal inference in natural language, inspired by the "causal inference engine" postulated by Judea Pearl et al. We compose a large dataset, CLadder, with 10K samples: based on a collection of causal graphs and queries (associational, interventional, and counterfactual), we obtain symbolic questions and ground-truth answers, through an oracle causal inference engine. These are then translated into natural language. We evaluate multiple LLMs on our dataset, and we introduce and evaluate a bespoke chain-of-thought prompting strategy, CausalCoT. We show that our task is highly challenging for LLMs, and we conduct an in-depth analysis to gain deeper insights into the causal reasoning abilities of LLMs. Our data is open-sourced at https://huggingface.co/datasets/causalNLP/cladder, and our code can be found at https://github.com/causalNLP/cladder.
翻訳日:2024-01-17 21:17:44 公開日:2024-01-16
# 情報拡張と適応的特徴融合によるDETRによる小物体検出

Small Object Detection by DETR via Information Augmentation and Adaptive Feature Fusion ( http://arxiv.org/abs/2401.08017v1 )

ライセンス: Link先を確認
Ji Huang, Hui Wang(参考訳) 小型オブジェクト検出アルゴリズムの主な課題は、リアルタイム性能を追求しながら精度を確保することである。 RT-DETRモデルはリアルタイムオブジェクト検出では良好に動作するが、小さなオブジェクト検出精度では不十分である。 小物体検出におけるRT-DETRモデルの欠点を補うために,本研究では2つの重要な改良点を提案する。 まず、RT-DETRは、Backboneの機能の最終層からのみ入力を受け取るTransformerを利用する。 これは、トランスフォーマの入力が、ディープネットワークの最も抽象度の高いレベルからのみ意味情報を受け取り、抽象度の低い小さなオブジェクトの位置に不可欠なエッジ、テクスチャ、色勾配などの詳細な情報を無視していることを意味する。 深い機能のみを含むと、追加のバックグラウンドノイズが発生する。 これは小さな物体検出の精度に悪影響を及ぼす可能性がある。 この問題に対処するため,細粒度パス拡張法を提案する。 この方法は、ディープネットワークに詳細な情報を提供することで、より正確に小さなオブジェクトを見つけるのに役立つ。 したがって、変換器への入力は意味情報と詳細情報の両方を含む。 第2に、RT-DETRでは、デコーダは異なるレベルの特徴写像を等重量で連結した後、入力として取り込む。 しかし、この操作は、異なるサイズの特徴マップによってキャプチャされた多スケール情報の複雑な関係を扱うには有効ではない。 そこで本研究では,各特徴マップに学習可能なパラメータを割り当てる適応型特徴融合アルゴリズムを提案する。 これにより、異なるレベルのフィーチャーマップを適応的に融合し、異なるスケールの機能情報を効果的に統合することができる。 これにより、異なるスケールでオブジェクトの特徴をキャプチャするモデルの能力が向上し、小さなオブジェクトの検出精度が向上する。

The main challenge for small object detection algorithms is to ensure accuracy while pursuing real-time performance. The RT-DETR model performs well in real-time object detection, but performs poorly in small object detection accuracy. In order to compensate for the shortcomings of the RT-DETR model in small object detection, two key improvements are proposed in this study. Firstly, The RT-DETR utilises a Transformer that receives input solely from the final layer of Backbone features. This means that the Transformer's input only receives semantic information from the highest level of abstraction in the Deep Network, and ignores detailed information such as edges, texture or color gradients that are critical to the location of small objects at lower levels of abstraction. Including only deep features can introduce additional background noise. This can have a negative impact on the accuracy of small object detection. To address this issue, we propose the fine-grained path augmentation method. This method helps to locate small objects more accurately by providing detailed information to the deep network. So, the input to the transformer contains both semantic and detailed information. Secondly, In RT-DETR, the decoder takes feature maps of different levels as input after concatenating them with equal weight. However, this operation is not effective in dealing with the complex relationship of multi-scale information captured by feature maps of different sizes. Therefore, we propose an adaptive feature fusion algorithm that assigns learnable parameters to each feature map from different levels. This allows the model to adaptively fuse feature maps from different levels and effectively integrate feature information from different scales. This enhances the model's ability to capture object features at different scales, thereby improving the accuracy of detecting small objects.
翻訳日:2024-01-17 15:51:45 公開日:2024-01-16
# banglanet:畳み込みニューラルネットワークを用いたバングラ手書き文字認識

BanglaNet: Bangla Handwritten Character Recognition using Ensembling of Convolutional Neural Network ( http://arxiv.org/abs/2401.08035v1 )

ライセンス: Link先を確認
Chandrika Saha, Md. Mostafijur Rahman(参考訳) 手書き文字認識は、その豊富な応用のために重要な課題である。 バングラ手書き文字の認識課題は、バングラ文字のカーソル的性質と複数の書き方を持つ複合文字の存在から特に困難である。 本稿では,いくつかの畳み込みニューラルネットワーク(CNN)のアンサンブルに基づく分類モデル,すなわちBanglaNetを提案し,Banglaの基本文字,複合文字,数値,修飾子を分類する。 inception, resnet, densenetといった最先端cnnモデルのアイデアに基づいた3つの異なるモデルが、拡張入力と非指定入力の両方でトレーニングされている。 最後に、これらのモデルはすべて、完成モデルを得るために平均化またはアンサンブル化されます。 cmaterdb、banglalekha-isolated、ekushの3つのベンチマークバングラ手書き文字データセットに関する厳密な実験は、最近のcnnベースの研究と比べてかなりの認識精度を示している。 上位1位は98.40%、97.65%、97.32%、上位3位は99.79%、99.74%、CMATERdb、BanglaLekha-Isolated、Ekushの99.56%である。

Handwritten character recognition is a crucial task because of its abundant applications. The recognition task of Bangla handwritten characters is especially challenging because of the cursive nature of Bangla characters and the presence of compound characters with more than one way of writing. In this paper, a classification model based on the ensembling of several Convolutional Neural Networks (CNN), namely, BanglaNet is proposed to classify Bangla basic characters, compound characters, numerals, and modifiers. Three different models based on the idea of state-of-the-art CNN models like Inception, ResNet, and DenseNet have been trained with both augmented and non-augmented inputs. Finally, all these models are averaged or ensembled to get the finishing model. Rigorous experimentation on three benchmark Bangla handwritten characters datasets, namely, CMATERdb, BanglaLekha-Isolated, and Ekush has exhibited significant recognition accuracies compared to some recent CNN-based research. The top-1 recognition accuracies obtained are 98.40%, 97.65%, and 97.32%, and the top-3 accuracies are 99.79%, 99.74%, and 99.56% for CMATERdb, BanglaLekha-Isolated, and Ekush datasets respectively.
翻訳日:2024-01-17 15:41:34 公開日:2024-01-16
# 量子ネットワークにおける最適絡み合いの浄化

Optimistic Entanglement Purification in Quantum Networks ( http://arxiv.org/abs/2401.08034v1 )

ライセンス: Link先を確認
Mohammad Mobayenjarihani, Gayane Vardoyan, Don Towsley(参考訳) 量子チャネルで発生するノイズと光子損失は、量子ネットワークにおける信頼性の高い絡み合い生成において大きな課題となる。 短期的ネットワークでは、エンタングルメントをうまく生成したエンドポイントに知らせるためには、ヘラルドが必要である。 エンタングルメント忠実度が低すぎると、エンタングルメント精製を利用して忠実度を確率的に向上させることができる。 伝統的に、浄化プロトコルは次のようになる: ヘラルドepr対を生成し、2つのノード間で2つ以上のペアで一連の量子演算を実行し、古典的に結果を伝達して成功を確認する。 清浄にはいくつかのラウンドが必要であり、キュービットはメモリに格納され、非一貫性に弱い。 本研究は, 単一リンク設定における楽観的な浄化の概念を探求するものであり, 階層化と浄化に必要な古典的コミュニケーションは, 恐らくプロセスの終わりまで遅れる。 最適化は、EPRペアがメモリに格納される全体の時間を削減する。 これは忠実性には有益であるが、スパルサーのヘラルドと浄化結果の更新を伴うプロトコルの継続実行により、レートが低下する可能性がある。 我々は, 絡み込みポンプ方式, 地上および衛星ベースのEPR発生源, 最先端の浄化回路に最適化を適用した。 本研究では,リンク長,EPRソースレート,忠実度,メモリコヒーレンス時間などのパラメータに対する感度特性を評価する。 我々の楽観的なプロトコルは忠実度を高めることができる一方で、従来のアプローチは長距離にわたってそれに対して有害になる。 エンタングルメントに基づくQKDの下での速度と忠実度の間のトレードオフについて検討し、楽観的なスキームが非最適手法よりも高いレートが得られることを見出した。

Noise and photon loss encountered on quantum channels pose a major challenge for reliable entanglement generation in quantum networks. In near-term networks, heralding is required to inform endpoints of successfully generated entanglement. If after heralding, entanglement fidelity is too low, entanglement purification can be utilized to probabilistically increase fidelity. Traditionally, purification protocols proceed as follows: generate heralded EPR pairs, execute a series of quantum operations on two or more pairs between two nodes, and classically communicate results to check for success. Purification may require several rounds while qubits are stored in memories, vulnerable to decoherence. In this work, we explore the notion of optimistic purification in a single link setup, wherein classical communication required for heralding and purification is delayed, possibly to the end of the process. Optimism reduces the overall time EPR pairs are stored in memory. While this is beneficial for fidelity, it can result in lower rates due to the continued execution of protocols with sparser heralding and purification outcome updates. We apply optimism to the entanglement pumping scheme, ground- and satellite-based EPR generation sources, and current state-of-the-art purification circuits. We evaluate sensitivity performance to a number of parameters including link length, EPR source rate and fidelity, and memory coherence time. We observe that our optimistic protocols are able to increase fidelity, while the traditional approach becomes detrimental to it for long distances. We study the trade-off between rate and fidelity under entanglement-based QKD, and find that optimistic schemes can yield higher rates compared to non-optimistic counterparts, with most advantages seen in scenarios with low initial fidelity and short coherence times.
翻訳日:2024-01-17 15:41:11 公開日:2024-01-16
# 構造ベースアウト・オブ・ディストリビューション(OOD)材料特性予測:ベンチマーク研究

Structure-based out-of-distribution (OOD) materials property prediction: a benchmark study ( http://arxiv.org/abs/2401.08032v1 )

ライセンス: Link先を確認
Sadman Sadeed Omee and Nihang Fu and Rongzhi Dong and Ming Hu and Jianjun Hu(参考訳) 実世界の材料研究では、機械学習(ml)モデルは通常、既知の材料から逸脱する新しい例外的な素材を予測し発見することが期待されている。 したがって、トレーニングセット分布とは異なるアウト・オブ・ディストリビューション(ood)材料の特性予測において、mlモデルの性能を客観的に評価することが課題となる。 データセットのランダム分割による材料特性予測モデルの従来の性能評価は、典型的な材料データセットの固有冗長性に起因する人工的に高い性能評価をもたらす。 本稿では,構造ベースグラフニューラルネットワーク(GNN)の総合的なベンチマークを行い,OOD材料特性の予測を行う。 MatBenchによる3つのベンチマークデータセットに対して,OOD ML問題の5つのカテゴリを定式化する。 広範な実験により,現状のgnnアルゴリズムは,matbench研究のベースラインと比較して,ood特性予測タスクを平均で有意に過小評価し,実物予測タスクにおいて重要な一般化ギャップを示した。 さらに、これらのGNNモデルの潜在物理空間を調べ、CGCNN、ALIGNN、DeeperGATGNNのOOD性能を、現在のMateBench研究(coGNおよびcoNGN)の最良のモデルよりも大幅に高め、その性能を改善するための洞察を提供する。

In real-world material research, machine learning (ML) models are usually expected to predict and discover novel exceptional materials that deviate from the known materials. It is thus a pressing question to provide an objective evaluation of ML model performances in property prediction of out-of-distribution (OOD) materials that are different from the training set distribution. Traditional performance evaluation of materials property prediction models through random splitting of the dataset frequently results in artificially high performance assessments due to the inherent redundancy of typical material datasets. Here we present a comprehensive benchmark study of structure-based graph neural networks (GNNs) for extrapolative OOD materials property prediction. We formulate five different categories of OOD ML problems for three benchmark datasets from the MatBench study. Our extensive experiments show that current state-of-the-art GNN algorithms significantly underperform for the OOD property prediction tasks on average compared to their baselines in the MatBench study, demonstrating a crucial generalization gap in realistic material prediction tasks. We further examine the latent physical spaces of these GNN models and identify the sources of CGCNN, ALIGNN, and DeeperGATGNN's significantly more robust OOD performance than those of the current best models in the MatBench study (coGN and coNGN), and provide insights to improve their performance.
翻訳日:2024-01-17 15:40:44 公開日:2024-01-16
# オペレータのスプレッドと多体局在

Operator Spreading and Many-Body Localization ( http://arxiv.org/abs/2401.08031v1 )

ライセンス: Link先を確認
A. Weisse, R. Gerstner, J. Sirker(参考訳) 一次元多体系のユークリッド時間における局所作用素$A$の拡散は、ハミルトニアン$H$を$k$折り畳み演算子$[H,[H,[...,[H,A]]]$を計算して考える。 我々は、自由かつ相互作用するフェルミオン系におけるこの可換作用素の作用素ノルムに対する一般境界を導出する。 特に局所化系において、ノルムは最も指数関数的に増大し、全ノルムに対する作用素の寄与はその長さで指数関数的に抑制されることを示す。 ランダム磁場を持つXXZ鎖の具体例を1つ検討することにより、一般結果を支援する。 XXの場合の演算子は、正確には障害なく拡散する。 Anderson と Aubry-Andr\e モデルに対して、厳密な上限を与える。 我々は,コンピュテータの記号計算を最高注文数まで行うことで,結果を支援する。 ランダム磁場を持つ xxx の場合、これらの記号的計算は指数関数よりも早く作用素ノルムの成長を示し、非局所化系の一般境界と一致する。 また、作用素の長さの関数としての寄与の指数的減衰は存在しない。 我々は多体局在遷移の兆候がないと結論づけた。 最後に、連続するシュリーファー・ウルフ変換による局所保存電荷の有効ハミルトニアンへの微視的変換を試みる場合の相互作用と非相互作用のケースの違いについても論じる。 このようなアプローチは相互作用の場合において十分に定義されていないのは、変換がサイトを接続する$\sim 4^\ell$項を生成するためであり、各項の振幅の$\ell$で指数減衰を圧倒することができるからである。

We consider the spreading of a local operator $A$ in Euclidean time in one-dimensional many-body systems with Hamiltonian $H$ by calculating the $k$-fold commutator $[H,[H,[...,[H,A]]]]$. We derive general bounds for the operator norm of this commutator in free and interacting fermionic systems with and without disorder. We show, in particular, that in a localized system the norm does grow at most exponentially and that the contributions of operators to the total norm are exponentially suppressed with their length. We support our general results by considering one specific example, the XXZ chain with random magnetic fields. We solve the operator spreading in the XX case without disorder exactly. For the Anderson and Aubry-Andr\'e models we provide strict upper bounds. We support our results by symbolic calculations of the commutator up to high orders. For the XXX case with random magnetic fields, these symbolic calculations show a growth of the operator norm faster than exponential and consistent with the general bound for a non-localized system. Also, there is no exponential decay of the contribution of operators as function of their length. We conclude that there is no indication for a many-body localization transition. Finally, we also discuss the differences between the interacting and non-interacting cases when trying to transform the microscopic to an effective Hamiltonian of local conserved charges by consecutive Schrieffer-Wolff transformations. We find that such an approach is not well-defined in the interacting case because the transformation generates $\sim 4^\ell$ terms connecting sites a distance $\ell$ apart which can overwhelm the exponential decay with $\ell$ of the amplitude of each individual term.
翻訳日:2024-01-17 15:40:04 公開日:2024-01-16
# JustiLM: 実世界のクレームを記述可能なFact-CheckingのためのFew-shot Justification Generation

JustiLM: Few-shot Justification Generation for Explainable Fact-Checking of Real-world Claims ( http://arxiv.org/abs/2401.08026v1 )

ライセンス: Link先を確認
Fengzhu Zeng, Wei Gao(参考訳) 正当化とは,事実確認においてクレームに割り当てられた正確性を支持する説明である。 しかし, 以前はファクトチェッカーによるファクトチェック記事の要約として過度に単純化されていた。 そこで本研究では, 得られた証拠に基づいて正当性を生成する現実的な手法を提案する。 本稿では,実世界の \underline{claim} を記述可能なファクトチェックするための exclaim という新しいベンチマークデータセットを提案し,学習中のみのファクトチェック項目を補助リソースとして使用することにより,検索可能な \underline{l}anguage \underline{m}odel に基づいた,新たなマイナショット \underline{justi}fication 生成法である justilm を紹介する。 実験により、justilmは、強力なベースラインと比較して正当化生成において有望な性能を達成できることが示され、また、簡単な拡張でveracity分類も強化できる。

Justification is an explanation that supports the veracity assigned to a claim in fact-checking. However, the task of justification generation is previously oversimplified as summarization of fact-check article authored by fact-checkers. Therefore, we propose a realistic approach to generate justification based on retrieved evidence. We present a new benchmark dataset called ExClaim for \underline{Ex}plainable fact-checking of real-world \underline{Claim}s, and introduce JustiLM, a novel few-shot \underline{Justi}fication generation based on retrieval-augmented \underline{L}anguage \underline{M}odel by using fact-check articles as auxiliary resource during training only. Experiments show that JustiLM achieves promising performance in justification generation compared to strong baselines, and can also enhance veracity classification with a straightforward extension.
翻訳日:2024-01-17 15:39:15 公開日:2024-01-16
# 自己イメージを用いたマルチモーダルモデルを用いた実効的ユニモーダル推論

Self-Imagine: Effective Unimodal Reasoning with Multimodal Models using Self-Imagination ( http://arxiv.org/abs/2401.08025v1 )

ライセンス: Link先を確認
Syeda Nahida Akter, Aman Madaan, Sangwu Lee, Yiming Yang, Eric Nyberg(参考訳) Vision-Language Models (\textsc{vlm}s) のポテンシャルは、複雑なテキストベースの問題、特にこれらの問題が視覚表現の恩恵を受ける場合、しばしば未利用のままである。 1) 問題から視覚図を作成し,(2) 解決に要するステップを導出することにより, 複雑なテキストベースの問題を解く人間の能力と調和して, その解決方法を提案する。 我々は、単一のVision-Language Model(\textsc{vlm})を利用して、HTMLを用いて質問の構造化表現を生成し、次にHTMLを画像として描画し、最後に同じ \vlm を使って質問と画像の両方を使って質問に答える。 当社のアプローチでは、追加のトレーニングデータやトレーニングは必要ありません。 我々は3つの数学タスクと9つの汎用推論タスクにおいて、最先端の \textsc{vlm} を用いてアプローチを評価する。 我々のアプローチは、すべての数学タスク (\gsm: +4.62\%; \asdiv: +4.49\%; \svamp: +9.30\%) における \textsc{vlm} のパフォーマンスを高め、汎用推論タスクの大部分を 0.4\% から 13.20\% に引き上げ、他のタスクで同等のパフォーマンスを達成する。 コードとデータはhttps://github.com/snat1505027/self-imagine。

The potential of Vision-Language Models (\textsc{vlm}s) often remains underutilized in handling complex text-based problems, particularly when these problems could benefit from visual representation. Resonating with humans' ability to solve complex text-based problems by (1) creating a visual diagram from the problem and (2) deducing what steps they need to take to solve it, we propose \textsc{Self-Imagine}. We leverage a single Vision-Language Model (\textsc{vlm}) to generate a structured representation of the question using HTML, then render the HTML as an image, and finally use the same \vlm to answer the question using both the question and the image. Our approach does not require any additional training data or training. We evaluate our approach in three mathematics tasks and nine general-purpose reasoning tasks using state-of-the-art \textsc{vlm}. Our approach boosts the performance of \textsc{vlm} on all math tasks (\gsm: +4.62\%; \asdiv: +4.49\%; \svamp: +9.30\%) and the majority of the general-purpose reasoning tasks by 0.4\% to 13.20\% while achieving comparable performance in other tasks. Code and data at https://github.com/snat1505027/self-imagine .
翻訳日:2024-01-17 15:38:49 公開日:2024-01-16
# 生成AIを用いた空間チャネル状態情報予測 : ホログラフィ通信とディジタルラジオツインを目指して

Spatial Channel State Information Prediction with Generative AI: Towards Holographic Communication and Digital Radio Twin ( http://arxiv.org/abs/2401.08023v1 )

ライセンス: Link先を確認
Lihao Zhang, Haijian Sun, Yong Zeng, Rose Qingyang Hu(参考訳) 5G技術が定着するにつれて、最先端の無線技術を通じてより高速で信頼性の高い無線接続を提供する6Gの期待が高まっている。 しかし、これらの無線技術が展開する大規模アンテナアレイの効率的な管理方法が重要である。 従来の管理手法は主にリアクティブで、ユーザからのフィードバックに基づいて動的無線チャネルに適応する。 しかし、より有望なアプローチは空間チャネル状態情報(spatial-CSI)の予測であり、これは全包括的なチャネル特性であり、送信機(Tx)と受信機(Rx)の間の全可視線(LoS)と非可視線(NLoS)の経路で構成され、各経路の3次元軌道、減衰、位相シフト、遅延、偏光である。 ハードウェアやニューラルネットワークの進歩により、正確な環境情報を用いてそのような空間CSIを予測することができ、また、放射される電波のあらゆる側面を完全に制御するホログラフィック通信の可能性についても検討することができる。 ホログラフィック通信とデジタルツインの統合に基づき,デジタルワールドと電波に対する決定論的制御の両方の利点を生かし,広範囲の高レベルアプリケーションをサポートする新たな枠組みであるディジタルラジオツインを提案した。 このビジョン指向に向けた予備的な試みとして、本稿では、生成人工知能(AI)を用いて、所定の環境における有効な経路を特定し、有望な結果を示すとともに、6G無線通信技術の進化を推し進める上でのこのアプローチの可能性を明らかにする。

As 5G technology becomes increasingly established, the anticipation for 6G is growing, which promises to deliver faster and more reliable wireless connections via cutting-edge radio technologies. However, efficient management method of the large-scale antenna arrays deployed by those radio technologies is crucial. Traditional management methods are mainly reactive, usually based on feedback from users to adapt to the dynamic wireless channel. However, a more promising approach lies in the prediction of spatial channel state information (spatial-CSI), which is an all-inclusive channel characterization and consists of all the feasible line-of-sight (LoS) and non-line-of-sight (NLoS) paths between the transmitter (Tx) and receiver (Rx), with the three-dimension (3D) trajectory, attenuation, phase shift, delay, and polarization of each path. Advances in hardware and neural networks make it possible to predict such spatial-CSI using precise environmental information, and further look into the possibility of holographic communication, which implies complete control over every aspect of the radio waves emitted. Based on the integration of holographic communication and digital twin, we proposed a new framework, digital radio twin, which takes advantages from both the digital world and deterministic control over radio waves, supporting a wide range of high-level applications. As a preliminary attempt towards this visionary direction, in this paper, we explore the use of generative artificial intelligence (AI) to pinpoint the valid paths in a given environment, demonstrating promising results, and highlighting the potential of this approach in driving forward the evolution of 6G wireless communication technologies.
翻訳日:2024-01-17 15:37:40 公開日:2024-01-16
# 皮膚疾患診断のためのデモグラフィーなしのフェアネス

Achieve Fairness without Demographics for Dermatological Disease Diagnosis ( http://arxiv.org/abs/2401.08066v1 )

ライセンス: Link先を確認
Ching-Hao Chiu, Yu-Jen Chen, Yawen Wu, Yiyu Shi, Tsung-Yi Ho(参考訳) 医用画像診断では,公平性がますます重要になっている。 偏見の緩和がなければ、不公平なAIを展開すれば、未成年者の利益を損なうことになる。 近年の研究では、学習中の人口統計情報を利用して、人口統計群(性別、年齢、人種など)に関する深層学習モデルの予測バイアスに対処している。 しかし、皮膚疾患の画像には多くの感度特性が自然に存在する。 トレーニングされたモデルが特定の属性に対する公平性のみを目標とする場合、他の属性に対しては不公平である。 さらに、複数の機密属性に対応可能なモデルをトレーニングすることは、プライバシの懸念による現実的ではない。 そこで本研究では,これらの情報を用いずに,テスト段階での感度の高い属性を公平に予測する手法を提案する。 特徴絡みが公正性に与える影響を強調した先行研究から着想を得たモデル特徴は、感度と目標属性に関連する特徴を捕捉し、対応するクラス間の特徴絡みを規則化する。 これにより、モデルが機密属性に関連する機能に頼ることなく、ターゲット属性に関連する機能に基づいてのみ分類できることが保証され、公正性と精度が向上する。 さらに,Segment Anything Model (SAM) の病マスクを用いて,学習した特徴の質を高める。 実験結果から,本手法は2つの皮膚疾患データセットの最先端手法と比較して,分類の公平性を向上できることが示された。

In medical image diagnosis, fairness has become increasingly crucial. Without bias mitigation, deploying unfair AI would harm the interests of the underprivileged population and potentially tear society apart. Recent research addresses prediction biases in deep learning models concerning demographic groups (e.g., gender, age, and race) by utilizing demographic (sensitive attribute) information during training. However, many sensitive attributes naturally exist in dermatological disease images. If the trained model only targets fairness for a specific attribute, it remains unfair for other attributes. Moreover, training a model that can accommodate multiple sensitive attributes is impractical due to privacy concerns. To overcome this, we propose a method enabling fair predictions for sensitive attributes during the testing phase without using such information during training. Inspired by prior work highlighting the impact of feature entanglement on fairness, we enhance the model features by capturing the features related to the sensitive and target attributes and regularizing the feature entanglement between corresponding classes. This ensures that the model can only classify based on the features related to the target attribute without relying on features associated with sensitive attributes, thereby improving fairness and accuracy. Additionally, we use disease masks from the Segment Anything Model (SAM) to enhance the quality of the learned feature. Experimental results demonstrate that the proposed method can improve fairness in classification compared to state-of-the-art methods in two dermatological disease datasets.
翻訳日:2024-01-17 15:27:52 公開日:2024-01-16
# 多部交絡量子化のための局所的測定方法

Local measurement strategies for multipartite entanglement quantification ( http://arxiv.org/abs/2401.08065v1 )

ライセンス: Link先を確認
Luke Coffman, Akshay Seshadri, Graeme Smith, and Jacob L. Beckey(参考訳) 多成分の絡み合いは量子状態の大域的性質であるにもかかわらず、最近の多くの研究は局所的な測定だけで定量化できることを明確にしている。 これは、現在の量子ハードウェアで実装するのが最も容易なローカル測定であるため、魅力的である。 しかし、局所的な測定だけでマルチパーティの絡みを推定するために必要なリソースを最小限に抑えるために、どのようなプロトコルを使うべきかは未解決のままである。 本研究では,局所的な測定データのみに基づいて,複数粒子の絡み合いの推定器を構築し,比較する。 まず、局所ランダム化測定(LRM)データを用いた幅広い絡み合い測定のための統計的推定器を構築し、予測2-設計の観点からそのような推定器を構築するための一般的な基準を提供する。 重要なことは、LRMに基づくマルチパーティイト推定プロトコルの非ランダム化を可能にすることである。 特に、局所対称情報完全 povm が単一の測定設定だけでマルチパーティショニングエンタングルメントの定量化を可能にしていることを示す。 すべての推定器に対して, 従来の後処理コストと厳密な性能保証の両方を, 所望の精度で測定するために必要な測定値に関する分析上界の形で提供する。

Despite multipartite entanglement being a global property of a quantum state, a number of recent works have made it clear that it can be quantified using only local measurements. This is appealing because local measurements are the easiest to implement on current quantum hardware. However, it remains an open question what protocol one should use in order to minimize the resources required to estimate multipartite entanglement from local measurements alone. In this work, we construct and compare several estimators of multipartite entanglement based solely on the data from local measurements. We first construct statistical estimators for a broad family of entanglement measures using local randomized measurement (LRM) data before providing a general criterion for the construction of such estimators in terms of projective 2-designs. Importantly, this allows us to de-randomize the multipartite estimation protocol based on LRMs. In particular, we show how local symmetric informationally complete POVMs enable multipartite entanglement quantification with only a single measurement setting. For all estimators, we provide both the classical post-processing cost and rigorous performance guarantees in the form of analytical upper bounds on the number of measurements needed to estimate the measures to any desired precision.
翻訳日:2024-01-17 15:27:28 公開日:2024-01-16
# グラウンドレベルPM2.5予測のクリグベース擬似ラベル生成による拡張

Augmenting Ground-Level PM2.5 Prediction via Kriging-Based Pseudo-Label Generation ( http://arxiv.org/abs/2401.08061v1 )

ライセンス: Link先を確認
Lei Duan, Ziyang Jiang, David Carlson(参考訳) 豊富な衛星データと少ない地上測定を組み合わせることは、気候モデリングにおいて大きな課題となっている。 そこで本研究では,通常のクリグと呼ばれる空間補間技術によって生成された擬似ラベルと組み合わせた未ラベルの衛星画像を導入し,利用可能な衛星データ資源をフル活用することで,トレーニングデータセットを増強する戦略を提案する。 提案したデータ拡張戦略は,最先端の畳み込みニューラルネットワークランダムフォレスト(CNN-RF)モデルの性能を合理的な量で向上させ,空間相関の顕著な改善と予測誤差の低減をもたらすことを示す。

Fusing abundant satellite data with sparse ground measurements constitutes a major challenge in climate modeling. To address this, we propose a strategy to augment the training dataset by introducing unlabeled satellite images paired with pseudo-labels generated through a spatial interpolation technique known as ordinary kriging, thereby making full use of the available satellite data resources. We show that the proposed data augmentation strategy helps enhance the performance of the state-of-the-art convolutional neural network-random forest (CNN-RF) model by a reasonable amount, resulting in a noteworthy improvement in spatial correlation and a reduction in prediction error.
翻訳日:2024-01-17 15:27:07 公開日:2024-01-16
# 誤り訂正可能な効率的な量子同相暗号

Error correctable efficient quantum homomorphic encryption ( http://arxiv.org/abs/2401.08059v1 )

ライセンス: Link先を確認
IlKwon Sohn, Boseon Kim, Kwangil Bae, Wonhyuk Lee(参考訳) フォールトトレラントでセキュアなクラウド量子コンピューティングを実現するためには、量子エラー訂正符号と量子同型暗号方式を統合することが不可欠である。 しかしながら、両方のスキームは、効率の重要性を強調しながら、重大なオーバーヘッドに直面している。 我々はこの特性を利用して、量子誤り訂正符号に基づく効率的な量子同型暗号を確立した。 この量子同型暗号方式は、単一の符号化プロセスを通じて暗号化と符号化の両方を達成する。 長い量子エラー訂正コードを使用することで、セキュリティとエラー訂正機能の両方を同時に改善することができる。 さらに、置換キーの観点から見ると、組み合わせの数は従来の2^n$に比べて指数関数的な成長、特に$n^n$を示す。

To achieve fault-tolerant and secure cloud quantum computing, it is essential to integrate the quantum error correction codes and the quantum homomorphic encryption schemes. However, both schemes face significant overhead challenges, emphasizing the importance of efficiency. We have utilized this characteristic to establish an efficient quantum homomorphic encryption based on quantum error correction codes. This quantum homomorphic encryption scheme accomplishes both encryption and encoding through a single encoding process. Using a longer quantum error correcting code, this scheme allows for the simultaneous improvement of both security and error correction capabilities. Moreover, looking at it from the perspective of the permutation key, the number of combinations can exhibit exponential growth, specifically $n^n$, compared to the conventional $2^n$.
翻訳日:2024-01-17 15:26:54 公開日:2024-01-16
# 臨床に信頼できる深層学習に向けて:脳内出血検出へのコンフォーマル予測の適用

Toward Clinically Trustworthy Deep Learning: Applying Conformal Prediction to Intracranial Hemorrhage Detection ( http://arxiv.org/abs/2401.08058v1 )

ライセンス: Link先を確認
Cooper Gamble, Shahriar Faghani, Bradley J. Erickson(参考訳) 深層学習(DL)は放射線学的な課題においてその能力を実証し続けているため,臨床用DLソリューションの安全性を最適化することが重要である。 DLツールの臨床的採用における主な関心事は信頼である。 本研究は,放射線学におけるDLの信頼性へのステップとして,共形予測を適用することを目的とする。 これは、CQ500データセットから得られた491個の非造影頭部CTの回顧調査で、3人の放射線学者が頭蓋内出血を含むスライスを注視した。 データセットは定型的で挑戦的なサブセットに分割され、読者の間で意見の相違があった部分に対して、挑戦的なイメージが定義された。 定値データ(訓練データセット)から146名の患者(10,815スライス)にdlモデルを訓練し,5種類のicの分類を行った。 不確実性を考慮したDLモデルを開発するために,モンドリアン整合予測(MCP)に定値データ(校正データセット)の1,546ケースを使用した。 不確実性を認識したdlモデルは、8,401事例でテストされ、困難な症例を特定する能力が評価された。 MCP処理後、テストデータセット上のICH分類において、F1スコアが0.920に達した。 さらに、6,856件の難問のうち6,837件を困難(99.7%の精度)と正しく識別した。 明確な事例を困難と誤記したわけではない。 不確実性検知器は最先端のモデルと同等の性能を発揮する。 難治性症例の検出におけるMPPの性能は、自動ICH検出に有用であり、放射線DLの信頼性に有望であることを示している。

As deep learning (DL) continues to demonstrate its ability in radiological tasks, it is critical that we optimize clinical DL solutions to include safety. One of the principal concerns in the clinical adoption of DL tools is trust. This study aims to apply conformal prediction as a step toward trustworthiness for DL in radiology. This is a retrospective study of 491 non-contrast head CTs from the CQ500 dataset, in which three senior radiologists annotated slices containing intracranial hemorrhage (ICH). The dataset was split into definite and challenging subsets, where challenging images were defined to those in which there was disagreement among readers. A DL model was trained on 146 patients (10,815 slices) from the definite data (training dataset) to perform ICH localization and classification for five classes of ICH. To develop an uncertainty-aware DL model, 1,546 cases of the definite data (calibration dataset) was used for Mondrian conformal prediction (MCP). The uncertainty-aware DL model was tested on 8,401 definite and challenging cases to assess its ability to identify challenging cases. After the MCP procedure, the model achieved an F1 score of 0.920 for ICH classification on the test dataset. Additionally, it correctly identified 6,837 of the 6,856 total challenging cases as challenging (99.7% accuracy). It did not incorrectly label any definite cases as challenging. The uncertainty-aware ICH detector performs on par with state-of-the-art models. MCP's performance in detecting challenging cases demonstrates that it is useful in automated ICH detection and promising for trustworthiness in radiological DL.
翻訳日:2024-01-17 15:26:43 公開日:2024-01-16
# ラベル雑音下での空中画像におけるロバストティニー物体検出

Robust Tiny Object Detection in Aerial Images amidst Label Noise ( http://arxiv.org/abs/2401.08056v1 )

ライセンス: Link先を確認
Haoran Zhu, Chang Xu, Wen Yang, Ruixiang Zhang, Yan Zhang, Gui-Song Xia(参考訳) リモートセンシング画像における微小物体の正確な検出は、視覚情報に制限があり、シーン内で頻繁に発生するため、依然として重要な課題である。 この課題は、手動のアノテーションに関連する実践的な負担と固有のエラーによってさらに悪化し、小さなオブジェクトの注釈付けは面倒であり、エラー(ラベルノイズ)を起こしやすい。 ノイズラベルを用いた物体のトレーニングは、しばしば準最適性能をもたらすが、ネットワークはノイズラベルに過度に適合する傾向がある。 本研究では,ノイズラベル管理下での微小物体検出の複雑な問題に対処する。 各種ノイズがネットワークトレーニングに与える影響を系統的に検討し,小物体に対するクラスシフトや不正確な境界ボックスに対する物体検出の脆弱性を明らかにする。 これらの課題を軽減するために,クラスシフトに対応するためのクラス認識ラベル補正(CLC)スキームと,境界ボックスノイズに対処するトレンド誘導学習戦略(TLS)を組み込んだDN-TOD(DeNoising Tiny Object Detector)を提案する。 CLCは、クラスシフトされた陽性サンプルを識別・フィルタリングし、TLSはサンプルの重み付けとバウンディングボックスの再生を通じてノイズボックスが引き起こした誤った監督を減じる。 さらに,本手法は1段と2段の両方のオブジェクト検出パイプラインにシームレスに統合できる。 合成(AI-TOD-v2.0およびDOTA-v2.0)および実世界(AI-TOD)における総合的な実験は、様々な種類のラベルノイズ下でのDN-TODの堅牢性を示す。 特に、強いベースラインRFLAに適用すると、DN-TODは40%混合雑音下で4.9ポイントの注目すべき性能向上を示す。 データセット、コード、モデルは公開される予定だ。

Precise detection of tiny objects in remote sensing imagery remains a significant challenge due to their limited visual information and frequent occurrence within scenes. This challenge is further exacerbated by the practical burden and inherent errors associated with manual annotation: annotating tiny objects is laborious and prone to errors (i.e., label noise). Training detectors for such objects using noisy labels often leads to suboptimal performance, with networks tending to overfit on noisy labels. In this study, we address the intricate issue of tiny object detection under noisy label supervision. We systematically investigate the impact of various types of noise on network training, revealing the vulnerability of object detectors to class shifts and inaccurate bounding boxes for tiny objects. To mitigate these challenges, we propose a DeNoising Tiny Object Detector (DN-TOD), which incorporates a Class-aware Label Correction (CLC) scheme to address class shifts and a Trend-guided Learning Strategy (TLS) to handle bounding box noise. CLC mitigates inaccurate class supervision by identifying and filtering out class-shifted positive samples, while TLS reduces noisy box-induced erroneous supervision through sample reweighting and bounding box regeneration. Additionally, Our method can be seamlessly integrated into both one-stage and two-stage object detection pipelines. Comprehensive experiments conducted on synthetic (i.e., noisy AI-TOD-v2.0 and DOTA-v2.0) and real-world (i.e., AI-TOD) noisy datasets demonstrate the robustness of DN-TOD under various types of label noise. Notably, when applied to the strong baseline RFLA, DN-TOD exhibits a noteworthy performance improvement of 4.9 points under 40% mixed noise. Datasets, codes, and models will be made publicly available.
翻訳日:2024-01-17 15:26:15 公開日:2024-01-16
# SCoFT: 等価画像生成のための自己コントラストファインチューニング

SCoFT: Self-Contrastive Fine-Tuning for Equitable Image Generation ( http://arxiv.org/abs/2401.08053v1 )

ライセンス: Link先を確認
Zhixuan Liu, Peter Schaldenbrand, Beverley-Claire Okogwu, Wenxuan Peng, Youngsik Yun, Andrew Hundt, Jihie Kim, Jean Oh(参考訳) メディアにおける正確な表現は、それを消費する人々の幸福を改善することが知られている。 LAIONのような大規模なウェブクローリングデータセットで訓練された生成画像モデルは、有害なステレオタイプと文化の誤表現を持つ画像を生成することが知られている。 本研究は,(1)地域コミュニティと連携して,文化に代表されるデータセットを収集し,(2)モデルが既知のバイアスを活用して自己改善を行う,新しい自己矛盾的微調整(scoft)手法を提案することにより,生成画像の包括的表現を改善する。 SCoFTは、小さなデータセットのオーバーフィッティングを防止し、データから高レベルの情報のみをエンコードし、事前訓練されたモデルでエンコードされた誤った表現から生成されたディストリビューションをシフトするように設計されている。 自国の文化的アフィリエイトに基づく51カ国の参加者を対象に実施したユーザスタディでは, CCUBの微調整は, SCoFT技術によりさらに改善された安定拡散ベースラインと比較して, 文化的関連性が高く, ステレオタイプが少ないイメージを連続的に生成することが示された。

Accurate representation in media is known to improve the well-being of the people who consume it. Generative image models trained on large web-crawled datasets such as LAION are known to produce images with harmful stereotypes and misrepresentations of cultures. We improve inclusive representation in generated images by (1) engaging with communities to collect a culturally representative dataset that we call the Cross-Cultural Understanding Benchmark (CCUB) and (2) proposing a novel Self-Contrastive Fine-Tuning (SCoFT) method that leverages the model's known biases to self-improve. SCoFT is designed to prevent overfitting on small datasets, encode only high-level information from the data, and shift the generated distribution away from misrepresentations encoded in a pretrained model. Our user study conducted on 51 participants from 5 different countries based on their self-selected national cultural affiliation shows that fine-tuning on CCUB consistently generates images with higher cultural relevance and fewer stereotypes when compared to the Stable Diffusion baseline, which is further improved with our SCoFT technique.
翻訳日:2024-01-17 15:25:43 公開日:2024-01-16
# EmoTalker: 拡散モデルによる感情編集可能な顔生成

EmoTalker: Emotionally Editable Talking Face Generation via Diffusion Model ( http://arxiv.org/abs/2401.08049v1 )

ライセンス: Link先を確認
Bingyuan Zhang, Xulong Zhang, Ning Cheng, Jun Yu, Jing Xiao, Jianzong Wang(参考訳) 近年では、人間の表情を説得力よく模倣する仮想顔を生成する手法が開発され、話し手生成の分野が注目されている。 しかし、既存の手法は限定的な一般化、特に挑戦的なアイデンティティを扱う場合に関連する課題に直面している。 さらに、表現の編集方法は、しばしば特定の感情に限られ、複雑な感情に適応できない。 これらの課題を克服するため,本稿では,拡散モデルに基づく感情編集可能なポートレートアニメーションアプローチであるemotalkerを提案する。 EmoTalkerは、推論中に元のポートレートのアイデンティティを確実に保持するために、デノナイズプロセスを変更する。 テキスト入力からの感情理解を高めるために、感情インテンシティブロックを導入し、プロンプトからのきめ細かい感情や強みを分析する。 さらに、プロンプト内の感情理解を高めるために、クラフトデータセットを利用する。 EmoTalkerは、高品質で感情的にカスタマイズ可能な表情を生成できる。

In recent years, the field of talking faces generation has attracted considerable attention, with certain methods adept at generating virtual faces that convincingly imitate human expressions. However, existing methods face challenges related to limited generalization, particularly when dealing with challenging identities. Furthermore, methods for editing expressions are often confined to a singular emotion, failing to adapt to intricate emotions. To overcome these challenges, this paper proposes EmoTalker, an emotionally editable portraits animation approach based on the diffusion model. EmoTalker modifies the denoising process to ensure preservation of the original portrait's identity during inference. To enhance emotion comprehension from text input, Emotion Intensity Block is introduced to analyze fine-grained emotions and strengths derived from prompts. Additionally, a crafted dataset is harnessed to enhance emotion comprehension within prompts. Experiments show the effectiveness of EmoTalker in generating high-quality, emotionally customizable facial expressions.
翻訳日:2024-01-17 15:25:17 公開日:2024-01-16
# 被覆木を用いた逐次抽出的意見要約

Incremental Extractive Opinion Summarization Using Cover Trees ( http://arxiv.org/abs/2401.08047v1 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury, Nicholas Monath, Avinava Dubey, Manzil Zaheer, Andrew McCallum, Amr Ahmed, Snigdha Chaturvedi(参考訳) 抽出的意見要約(英: exctractive opinion summarization)は、エンティティ(例えば製品レビュー)に関するテキストの要約を自動的に生成し、レビューセットで一般的な意見をキャプチャする代表文を抽出する。 通常、オンラインマーケットプレースでは、ユーザーレビューが時間とともに拡大し、意見要約を定期的に更新して最新の情報を提供する必要がある。 本研究では,基礎となるレビューセットが時間とともに進化する段階的な構成において,意見抽出要約のタスクについて検討する。 最先端の抽出的意見要約アプローチの多くは、CentroidRankのような中心性に基づくものである。 centroidrankは、表現空間のcentroidに最も近いレビュー文のサブセットを要約として選択して抽出要約を行う。 しかし、これらの手法は、レビューが1回に1回到着するインクリメンタルな設定で効率的に動作できない。 本稿では,CentroidRankの要約をインクリメンタルな設定で正確に計算するアルゴリズムを提案する。 提案手法であるCoverSummは,表木におけるレビュー表現の索引付けと,候補レビュー文の保存に頼っている。 CoverSummの有効性は、実行時間の理論的かつ実証的な分析によって支持される。 実験的に、さまざまなデータコレクション(スケーリングの考慮点を示すために、実と合成の両方で作成された)において、CoverSummがベースライン法よりも最大25倍高速で、データ分布の変化に適応できることを実証する。 また,生成された要約の人的評価を行い,基礎となるレビューセットに準拠した情報的要約を作成できることを見出した。

Extractive opinion summarization involves automatically producing a summary of text about an entity (e.g., a product's reviews) by extracting representative sentences that capture prevalent opinions in the review set. Typically, in online marketplaces user reviews accrue over time, and opinion summaries need to be updated periodically to provide customers with up-to-date information. In this work, we study the task of extractive opinion summarization in an incremental setting, where the underlying review set evolves over time. Many of the state-of-the-art extractive opinion summarization approaches are centrality-based, such as CentroidRank. CentroidRank performs extractive summarization by selecting a subset of review sentences closest to the centroid in the representation space as the summary. However, these methods are not capable of operating efficiently in an incremental setting, where reviews arrive one at a time. In this paper, we present an efficient algorithm for accurately computing the CentroidRank summaries in an incremental setting. Our approach, CoverSumm, relies on indexing review representations in a cover tree and maintaining a reservoir of candidate summary review sentences. CoverSumm's efficacy is supported by a theoretical and empirical analysis of running time. Empirically, on a diverse collection of data (both real and synthetically created to illustrate scaling considerations), we demonstrate that CoverSumm is up to 25x faster than baseline methods, and capable of adapting to nuanced changes in data distribution. We also conduct human evaluations of the generated summaries and find that CoverSumm is capable of producing informative summaries consistent with the underlying review set.
翻訳日:2024-01-17 15:25:02 公開日:2024-01-16
# 学術書記用LLM合成テキスト検出器のロバスト性向上:包括的解析

Enhancing Robustness of LLM-Synthetic Text Detectors for Academic Writing: A Comprehensive Analysis ( http://arxiv.org/abs/2401.08046v1 )

ライセンス: Link先を確認
Zhicheng Dou, Yuchen Guo, Ching-Chun Chang, Huy H. Nguyen, Isao Echizen(参考訳) ChatGPTが使用するGPT-4(Generative Pre-trained Transformer 4)のような大規模言語モデル(LLM)の出現は、学術的、より広範なコミュニティに大きな影響を与えている。 これらのモデルは、仕事や研究方法に革命をもたらす多くの利点があるが、その潜在的な否定的な結果から、大きな注目を集めている。 1つの例は、人的貢献の少ない学術報告書や論文を作成することである。 その結果、研究者はLSMの誤用に対処する検出器の開発に注力した。 しかし、既存のほとんどの手法は制限されたデータセットの精度の向上を優先し、一般化可能性の重要な側面を無視している。 この制限は、信頼性が最重要である現実のシナリオで実用的応用を妨げる。 本稿では,LLMが生成するテキストに対するプロンプトの影響を包括的に分析し,現在最先端のGPT検出器の1つであるロバスト性の潜在的な欠如を明らかにする。 そこで本稿では,文献中のllmの誤用に関する問題点を解消するため,synthetic-siameseというリファレンスベースのシアーム検出器を提案する。 本手法は,従来の検出器 (openai detector と detectgpt) のロバスト性の欠如を効果的に解決し, リアルなアカデミックライティングシナリオにおけるベースライン性能を約67%から95%向上させる。

The emergence of large language models (LLMs), such as Generative Pre-trained Transformer 4 (GPT-4) used by ChatGPT, has profoundly impacted the academic and broader community. While these models offer numerous advantages in terms of revolutionizing work and study methods, they have also garnered significant attention due to their potential negative consequences. One example is generating academic reports or papers with little to no human contribution. Consequently, researchers have focused on developing detectors to address the misuse of LLMs. However, most existing methods prioritize achieving higher accuracy on restricted datasets, neglecting the crucial aspect of generalizability. This limitation hinders their practical application in real-life scenarios where reliability is paramount. In this paper, we present a comprehensive analysis of the impact of prompts on the text generated by LLMs and highlight the potential lack of robustness in one of the current state-of-the-art GPT detectors. To mitigate these issues concerning the misuse of LLMs in academic writing, we propose a reference-based Siamese detector named Synthetic-Siamese which takes a pair of texts, one as the inquiry and the other as the reference. Our method effectively addresses the lack of robustness of previous detectors (OpenAI detector and DetectGPT) and significantly improves the baseline performances in realistic academic writing scenarios by approximately 67% to 95%.
翻訳日:2024-01-17 15:24:33 公開日:2024-01-16
# 自律運転のためのビジョンファウンデーションモデル:挑戦、方法論、機会

Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities ( http://arxiv.org/abs/2401.08045v1 )

ライセンス: Link先を確認
Xu Yan, Haiming Zhang, Yingjie Cai, Jingming Guo, Weichao Qiu, Bin Gao, Kaiqiang Zhou, Yue Zhao, Huan Jin, Jiantao Gao, Zhen Li, Lihui Jiang, Wei Zhang, Hongbo Zhang, Dengxin Dai, Bingbing Liu(参考訳) 広範なデータセットに基づいてトレーニングされた大規模な基盤モデルの台頭は、AIの分野に革命をもたらしている。 SAM、DALL-E2、GPT-4といったモデルでは、複雑なパターンを抽出し、さまざまなタスクを効果的に実行することにより、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。 AIアプリケーションにおける活発な前線である自律運転は、専用のビジョン基盤モデル(VFM)の欠如によって、依然として挑戦されている。 総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、この分野におけるVFMの発展に大きな障害をもたらす。 本稿では,自動運転に特化したvfmの鍛造と今後の方向性について概説する。 250以上の論文を体系的に分析し,データ準備,事前学習戦略,ダウンストリームタスク適応など,vfm開発に不可欠な技術を分析した。 さらに,NeRF,拡散モデル,3次元ガウススプラッティング,世界モデルなどの重要な進歩を探求し,今後の研究の包括的なロードマップを示す。 研究者を力づけるために、我々は、自動運転のためのVFMの鍛造の最新技術とともに常に更新されるオープンアクセスリポジトリであるhttps://github.com/zhanghm 1995/Forge_VFM4ADを構築し、維持した。

The rise of large foundation models, trained on extensive datasets, is revolutionizing the field of AI. Models such as SAM, DALL-E2, and GPT-4 showcase their adaptability by extracting intricate patterns and performing effectively across diverse tasks, thereby serving as potent building blocks for a wide range of AI applications. Autonomous driving, a vibrant front in AI applications, remains challenged by the lack of dedicated vision foundation models (VFMs). The scarcity of comprehensive training data, the need for multi-sensor integration, and the diverse task-specific architectures pose significant obstacles to the development of VFMs in this field. This paper delves into the critical challenge of forging VFMs tailored specifically for autonomous driving, while also outlining future directions. Through a systematic analysis of over 250 papers, we dissect essential techniques for VFM development, including data preparation, pre-training strategies, and downstream task adaptation. Moreover, we explore key advancements such as NeRF, diffusion models, 3D Gaussian Splatting, and world models, presenting a comprehensive roadmap for future research. To empower researchers, we have built and maintained https://github.com/zhanghm1995/Forge_VFM4AD, an open-access repository constantly updated with the latest advancements in forging VFMs for autonomous driving.
翻訳日:2024-01-17 15:24:08 公開日:2024-01-16
# 112量子ビットを用いたシュウィンガーモデルにおけるハドロンダイナミクスの量子シミュレーション

Quantum Simulations of Hadron Dynamics in the Schwinger Model using 112 Qubits ( http://arxiv.org/abs/2401.08044v1 )

ライセンス: Link先を確認
Roland C. Farrell, Marc Illa, Anthony N. Ciavarella, and Martin J. Savage(参考訳) ハドロン波束は、IBMの133量子ビットHeron量子コンピュータibm_torinoの112キュービットを使用して、Schwingerモデルで準備され、時間進化する。 ハドロンウェーブパレットの初期化は2つのステップで行われる。 まず、最近開発されたSC-ADAPT-VQEアルゴリズムとワークフローを用いて、格子全体に真空を発生させる。 その後、SC-ADAPT-VQEは局所状態の準備に拡張され、真空上にハドロン波束を確立するために使用される。 これは、断熱的に作製されたハドロン波束との重なりを最大化する低深さ回路を適応的に構築する。 ウェーブパケットの局所的な性質のため、これらの回路は古典的コンピュータを用いて小さな格子の列上で決定され、量子コンピュータを用いてシミュレーションを行うために大きな格子上にウェーブパケットを作成するために頑強にスケールされる。 時間進化は2次トロッター化によって実現される。 必要な量子ビット接続と回路深度の両方を低減するために、近似準局所相互作用を導入する。 この近似は、遠距離における閉じ込めの出現によって可能となり、相互作用の増大する距離と指数関数的に収束する。 複数のエラー軽減戦略を用いて、13,858個の2ビットゲート(CNOT深さ370)を用いて、最大14個の時間進化のトロッターステップを実行する。 ハドロンの伝播は明らかであり, マトリックス製品状態シミュレーションと比較した結果が得られた。 ハドロン散乱シミュレーションにおける短期量子優位性の可能性について論じる。

Hadron wavepackets are prepared and time evolved in the Schwinger model using 112 qubits of IBM's 133-qubit Heron quantum computer ibm_torino. The initialization of the hadron wavepacket is performed in two steps. First, the vacuum is prepared across the whole lattice using the recently developed SC-ADAPT-VQE algorithm and workflow. SC-ADAPT-VQE is then extended to the preparation of localized states, and used to establish a hadron wavepacket on top of the vacuum. This is done by adaptively constructing low-depth circuits that maximize the overlap with an adiabatically prepared hadron wavepacket. Due to the localized nature of the wavepacket, these circuits can be determined on a sequence of small lattices using classical computers, and then robustly scaled to prepare wavepackets on large lattices for simulations using quantum computers. Time evolution is implemented with a second-order Trotterization. To reduce both the required qubit connectivity and circuit depth, an approximate quasi-local interaction is introduced. This approximation is made possible by the emergence of confinement at long distances, and converges exponentially with increasing distance of the interactions. Using multiple error-mitigation strategies, up to 14 Trotter steps of time evolution are performed, employing 13,858 two-qubit gates (with a CNOT depth of 370). The propagation of hadrons is clearly identified, with results that compare favorably with Matrix Product State simulations. Prospects for a near-term quantum advantage in simulations of hadron scattering are discussed.
翻訳日:2024-01-17 15:23:43 公開日:2024-01-16
# 混在状態におけるイベントカメラのクロスモーダルセミディエンス6-DoF追跡

Cross-Modal Semi-Dense 6-DoF Tracking of an Event Camera in Challenging Conditions ( http://arxiv.org/abs/2401.08043v1 )

ライセンス: Link先を確認
Yi-Fan Zuo, Wanting Xu, Xia Wang, Yifu Wang, Laurent Kneip(参考訳) 視覚ベースのローカライゼーションは多くのインテリジェントなモバイルプラットフォームにとってコスト効率が高く魅力的なソリューションである。 しかし、その正確さと特に頑健さは依然として低い照明条件、照明の変化、攻撃的な動きに苦しむ。 イベントベースのカメラは、HDR条件下でよく機能し、時間分解能が高いバイオインスパイアされた視覚センサであり、このような困難なシナリオにおいて興味深い代替手段を提供する。 純粋にイベントベースのソリューションは、現在まだマッピングの結果を満足できないが、本研究では、代替センサーがマッピングに許可されている場合、純粋にイベントベースのトラッキングが実現可能であることを実証する。 この手法は、半密度マップとイベントの幾何学的3D-2D登録に依存し、信頼性が高く正確なクロスモーダル追跡結果が得られる。 実際に関連するシナリオは、デプスカメラが支援するトラッキングや、通常の画像ベースの視覚SLAMや構造移動システムによって以前に作成された半深度マップによるマップベースのローカライゼーションによって与えられる。 従来のエッジベースの3D-2Dアライメントは、イベントストリームから得られる符号付き時間面マップ(STSM)を利用する新しい極性認識登録によって拡張される。 さらに,隠蔽点に対する新たなカリング戦略を導入する。 どちらの修正も、トラッカーの速度と、オクルージョンや大きな視点の変化に対する堅牢性を高める。 このアプローチは、上記の課題条件をカバーする多くの実際のデータセットで検証され、通常のカメラで実現した同様のソリューションと比較される。

Vision-based localization is a cost-effective and thus attractive solution for many intelligent mobile platforms. However, its accuracy and especially robustness still suffer from low illumination conditions, illumination changes, and aggressive motion. Event-based cameras are bio-inspired visual sensors that perform well in HDR conditions and have high temporal resolution, and thus provide an interesting alternative in such challenging scenarios. While purely event-based solutions currently do not yet produce satisfying mapping results, the present work demonstrates the feasibility of purely event-based tracking if an alternative sensor is permitted for mapping. The method relies on geometric 3D-2D registration of semi-dense maps and events, and achieves highly reliable and accurate cross-modal tracking results. Practically relevant scenarios are given by depth camera-supported tracking or map-based localization with a semi-dense map prior created by a regular image-based visual SLAM or structure-from-motion system. Conventional edge-based 3D-2D alignment is extended by a novel polarity-aware registration that makes use of signed time-surface maps (STSM) obtained from event streams. We furthermore introduce a novel culling strategy for occluded points. Both modifications increase the speed of the tracker and its robustness against occlusions or large view-point variations. The approach is validated on many real datasets covering the above-mentioned challenging conditions, and compared against similar solutions realised with regular cameras.
翻訳日:2024-01-17 15:23:16 公開日:2024-01-16
# Calpric: クラウドソーシングとアクティブラーニングによるプライバシポリシの包括的かつ詳細なラベル付け

Calpric: Inclusive and Fine-grain Labeling of Privacy Policies with Crowdsourcing and Active Learning ( http://arxiv.org/abs/2401.08038v1 )

ライセンス: Link先を確認
Wenjun Qiu, David Lie, and Lisa Austin(参考訳) プライバシーポリシーに関する正確なディープラーニングモデルをトレーニングするための重要な課題は、大規模で包括的なトレーニングデータを取得するコストと困難さである。 このような課題に対処するために、calpricは自動テキスト選択とセグメンテーション、アクティブラーニング、クラウドソースアノテータを使用して、プライバシポリシのための大規模でバランスのとれたトレーニングセットを低コストで生成する。 自動テキスト選択とセグメンテーションはラベリングタスクを単純化し、amazonのmechanical turkのようなクラウドソーシングプラットフォームから、法律学生のような訓練済みのアノテータとの競合を可能にするとともに、ラベリングコストを削減したアノテーション間契約を削減している。 トレーニングのための信頼性の高いラベルを持つことで、トレーニングサンプルを少なくして入力スペースを効率的にカバーし、コストをさらに削減し、データセットのクラスとデータカテゴリのバランスを改善することができる。 これらの技術を組み合わせることで、Calpricはより広い範囲のデータカテゴリで正確なモデルを作成し、より詳細な細粒度ラベルを提供することができる。 我々のクラウドソーシングプロセスにより、Calpricはラベル付きテキストセグメント当たり約0.92~1.71ドルで信頼性の高いラベル付きデータを取得できる。 Calpricのトレーニングプロセスは、9つのデータカテゴリにまたがる16Kのプライバシポリシテキストセグメントのラベル付きデータセットも生成する。

A significant challenge to training accurate deep learning models on privacy policies is the cost and difficulty of obtaining a large and comprehensive set of training data. To address these challenges, we present Calpric , which combines automatic text selection and segmentation, active learning and the use of crowdsourced annotators to generate a large, balanced training set for privacy policies at low cost. Automated text selection and segmentation simplifies the labeling task, enabling untrained annotators from crowdsourcing platforms, like Amazon's Mechanical Turk, to be competitive with trained annotators, such as law students, and also reduces inter-annotator agreement, which decreases labeling cost. Having reliable labels for training enables the use of active learning, which uses fewer training samples to efficiently cover the input space, further reducing cost and improving class and data category balance in the data set. The combination of these techniques allows Calpric to produce models that are accurate over a wider range of data categories, and provide more detailed, fine-grain labels than previous work. Our crowdsourcing process enables Calpric to attain reliable labeled data at a cost of roughly $0.92-$1.71 per labeled text segment. Calpric 's training process also generates a labeled data set of 16K privacy policy text segments across 9 Data categories with balanced positive and negative samples.
翻訳日:2024-01-17 15:22:51 公開日:2024-01-16
# 共同モデリングとマッチングによる前方・周囲からの3次元車線検出

3D Lane Detection from Front or Surround-View using Joint-Modeling & Matching ( http://arxiv.org/abs/2401.08036v1 )

ライセンス: Link先を確認
Haibin Zhou, Jun Chang, Tao Lu, Huabing Zhou(参考訳) 3Dレーンは2Dレーンよりも道路表面の幾何学をより包括的に理解し、運転決定と軌道計画の重要な基準を提供する。 多くの取り組みは予測精度の向上を目指しているが、効率的なネットワークは結果を車線モデリングに近づけることができると認識している。 しかし、モデリングデータが不正確であれば、実際のシナリオを正確に捉えることはできないかもしれない。 したがって、予測結果を環境と密接に連携させるためには、正確なレーンモデリングが不可欠である。 本研究では,ベジエ曲線と補間法を組み合わせたジョイントモデリング手法を提案する。 さらに,このレーンモデリング手法を用いて,ベジエ制御点とキーポイントを用いたGlobal2Local Lane Matching法を開発した。 また、3次元サラウンドビューレーン検出研究の探索を表現した新しい3次元空間コンストラクタを提案する。 このフレームワークは、フロントビューまたはサラウンドビュー3dレーン検出に適している。 3次元空間においてレーンのキーポイントを直接出力することにより、アンカーベースの手法の限界を克服し、閉ループやU字形のレーンの正確な予測と複雑な道路条件への効果的な適応を可能にする。 このイノベーティブな方法は、openlaneデータセットにおけるフロントビュー3dレーン検出における新しいベンチマークを確立し、argoverse2データセットにおけるサラウンドビュー2dレーン検出における競合性能を達成する。

3D lanes offer a more comprehensive understanding of the road surface geometry than 2D lanes, thereby providing crucial references for driving decisions and trajectory planning. While many efforts aim to improve prediction accuracy, we recognize that an efficient network can bring results closer to lane modeling. However, if the modeling data is imprecise, the results might not accurately capture the real-world scenario. Therefore, accurate lane modeling is essential to align prediction results closely with the environment. This study centers on efficient and accurate lane modeling, proposing a joint modeling approach that combines Bezier curves and interpolation methods. Furthermore, based on this lane modeling approach, we developed a Global2Local Lane Matching method with Bezier Control-Point and Key-Point, which serve as a comprehensive solution that leverages hierarchical features with two mathematical models to ensure a precise match. We also introduce a novel 3D Spatial Constructor, representing an exploration of 3D surround-view lane detection research. The framework is suitable for front-view or surround-view 3D lane detection. By directly outputting the key points of lanes in 3D space, it overcomes the limitations of anchor-based methods, enabling accurate prediction of closed-loop or U-shaped lanes and effective adaptation to complex road conditions. This innovative method establishes a new benchmark in front-view 3D lane detection on the Openlane dataset and achieves competitive performance in surround-view 2D lane detection on the Argoverse2 dataset.
翻訳日:2024-01-17 15:22:20 公開日:2024-01-16
# 責任あるAIを実装するための倫理的トレードオフの解決

Resolving Ethics Trade-offs in Implementing Responsible AI ( http://arxiv.org/abs/2401.08103v1 )

ライセンス: Link先を確認
Conrad Sanderson, Emma Schleiger, David Douglas, Petra Kuhnert, Qinghua Lu(参考訳) 高レベルのAI倫理原則を実践的なAI/MLシステムに運用することは、まだ進展しているが、基礎となるAI倫理の側面間の緊張を管理するための理論と実践のギャップがある。 我々は、ルーディメンタリーからコンプレックスまで、トレードオフを通じて緊張に対処するための5つのアプローチを取り上げます。 アプローチは、考慮された文脈、スコープ、文脈を測定する方法、正当化の度合いのタイプによって異なる。 いずれのアプローチも,すべての組織やシステム,あるいはアプリケーションに適用可能なものではありません。 これに対処するために,我々は以下のフレームワークを提案する。 (i)緊張の積極的な識別 (ii)倫理面の優先順位付け及び重み付け (iii)トレードオフ決定の正当化及び文書化。 提案するフレームワークは,潜在的な規制要件に適合する,十分に包括されたAI/MLシステムの実装を容易にすることを目的としている。

While the operationalisation of high-level AI ethics principles into practical AI/ML systems has made progress, there is still a theory-practice gap in managing tensions between the underlying AI ethics aspects. We cover five approaches for addressing the tensions via trade-offs, ranging from rudimentary to complex. The approaches differ in the types of considered context, scope, methods for measuring contexts, and degree of justification. None of the approaches is likely to be appropriate for all organisations, systems, or applications. To address this, we propose a framework which consists of: (i) proactive identification of tensions, (ii) prioritisation and weighting of ethics aspects, (iii) justification and documentation of trade-off decisions. The proposed framework aims to facilitate the implementation of well-rounded AI/ML systems that are appropriate for potential regulatory requirements.
翻訳日:2024-01-17 15:17:10 公開日:2024-01-16
# KTVIC:ベトナムのライフドメイン上の画像キャプチャーデータセット

KTVIC: A Vietnamese Image Captioning Dataset on the Life Domain ( http://arxiv.org/abs/2401.08100v1 )

ライセンス: Link先を確認
Anh-Cuong Pham, Van-Quang Nguyen, Thi-Hong Vuong, Quang-Thuy Ha(参考訳) 画像キャプションは、医療や教育を含む幅広い分野のアプリケーションにとって重要なタスクである。 英語の画像キャプションデータセットに関する広範な研究にもかかわらず、ベトナム語で利用可能なデータセットは限られており、既存のデータセットは2つしかない。 本研究では,生活領域に着目した包括的ベトナム画像キャプチャーデータセットであるKTVICを紹介する。 このデータセットは4,327枚の画像と21,635個のベトナム語キャプションで構成され、ベトナム語で画像キャプションを推進するための貴重な資料となっている。 データセットのベースラインとして、さまざまなディープニューラルネットワークを使用して実験を行い、bleu、meteor、cider、rougeなどの標準画像キャプションメトリクスを用いて評価します。 本研究は,提案するデータセットの有効性と,ベトナムの文脈における画像キャプションの分野への潜在的貢献を裏付けるものである。

Image captioning is a crucial task with applications in a wide range of domains, including healthcare and education. Despite extensive research on English image captioning datasets, the availability of such datasets for Vietnamese remains limited, with only two existing datasets. In this study, we introduce KTVIC, a comprehensive Vietnamese Image Captioning dataset focused on the life domain, covering a wide range of daily activities. This dataset comprises 4,327 images and 21,635 Vietnamese captions, serving as a valuable resource for advancing image captioning in the Vietnamese language. We conduct experiments using various deep neural networks as the baselines on our dataset, evaluating them using the standard image captioning metrics, including BLEU, METEOR, CIDEr, and ROUGE. Our findings underscore the effectiveness of the proposed dataset and its potential contributions to the field of image captioning in the Vietnamese context.
翻訳日:2024-01-17 15:16:56 公開日:2024-01-16
# 光ステージデータのための正規マップのインペインティング

Inpainting Normal Maps for Lightstage data ( http://arxiv.org/abs/2401.08099v1 )

ライセンス: Link先を確認
Hancheng Zuo and Bernard Tiddeman(参考訳) 本研究では,GAN (Generative Adversarial Network) を用いた正規地図の塗装手法を提案する。 通常の地図は、しばしばライトステージから派生したもので、パフォーマンスキャプチャーにおいて重要であるが、動き(例えば腕、髪、小道具など)によって曖昧な領域を持つことがある。 塗装は、これらの欠落した部分を可算データで埋める。 提案手法は,弓ネクタイ型ジェネレータネットワークと識別器ネットワークを併用し,トレーニングフェーズを交互に行うことによって,従来の一般的な画像塗装技術を拡張した。 生成器は、基底真理に一致する画像を合成し、実際の画像と処理された画像とを区別する判別器を欺くことを目的としている。 周期的に、判別器は再訓練を行い、その処理された画像の識別能力を高める。 重要なことに,本手法は通常の地図データの特徴に適応し,損失関数の変更を必要とする。 ジェネレータトレーニングでは,平均二乗誤差損失の代わりにコサイン損失を利用する。 限られたトレーニングデータ可用性、たとえ合成データセットであっても、入力データの特定の性質を考慮して、大幅な拡張が要求される。 これには適切な画像反転と通常のベクトルを正確に変更するための平面内回転が含まれる。 トレーニングを通じて, 発電機における平均損失, 構造類似度指標(SSIM), ピーク信号対雑音比(PSNR), 判別器の平均損失, 精度などの重要な指標を監視した。 提案手法は,高性能でリアルな塗布された正規地図を効果的に生成し,性能評価に適していることが示唆された。 これらの結果は将来の研究の基盤を確立し、より高度なネットワークと、通常の地図を作成するために使用されるソースイメージのインペイントと比較する可能性がある。

This study introduces a novel method for inpainting normal maps using a generative adversarial network (GAN). Normal maps, often derived from a lightstage, are crucial in performance capture but can have obscured areas due to movement (e.g., by arms, hair, or props). Inpainting fills these missing areas with plausible data. Our approach extends previous general image inpainting techniques, employing a bow tie-like generator network and a discriminator network, with alternating training phases. The generator aims to synthesize images aligning with the ground truth and deceive the discriminator, which differentiates between real and processed images. Periodically, the discriminator undergoes retraining to enhance its ability to identify processed images. Importantly, our method adapts to the unique characteristics of normal map data, necessitating modifications to the loss function. We utilize a cosine loss instead of mean squared error loss for generator training. Limited training data availability, even with synthetic datasets, demands significant augmentation, considering the specific nature of the input data. This includes appropriate image flipping and in-plane rotations to accurately alter normal vectors. Throughout training, we monitored key metrics such as average loss, Structural Similarity Index Measure (SSIM), and Peak Signal-to-Noise Ratio (PSNR) for the generator, along with average loss and accuracy for the discriminator. Our findings suggest that the proposed model effectively generates high-quality, realistic inpainted normal maps, suitable for performance capture applications. These results establish a foundation for future research, potentially involving more advanced networks and comparisons with inpainting of source images used to create the normal maps.
翻訳日:2024-01-17 15:16:41 公開日:2024-01-16
# AIに基づくモバイルアプリレビューにおける公平性に関する考察

A Study of Fairness Concerns in AI-based Mobile App Reviews ( http://arxiv.org/abs/2401.08097v1 )

ライセンス: Link先を確認
Ali Rezaei Nasab, Maedeh Dashti, Mojtaba Shahin, Mansooreh Zahedi, Hourieh Khalajzadeh, Chetan Arora, Peng Liang(参考訳) AIベースのシステムが私たちの生活や社会に浸透するにつれ、AIベースのシステムが開発され、責任ある方法で使用されることを保証する必要性が高まっています。 フェアネスは、この目的のためにAIベースのシステムで対処しなければならない社会技術的懸念の1つである。 不正なAIベースのシステム、特に不公平なAIベースのモバイルアプリは、世界の人口のかなりの割合で困難を引き起こす可能性がある。 本稿では,AIベースのアプリレビューにおける公平性の懸念を深く分析することを目的とする。 まず,フェアネスと非フェアネス評価の統計的サンプルを含む地上データセットを手作業で構築した。 そこで,本研究では,Fairnessレビューと非Fairnessレビューを区別する機械学習およびディープラーニング分類器の開発と評価を行った。 実験の結果,最善の分類器は94%の精度で公平性評価を検出できることがわかった。 次に、AIベースの108のアプリから収集された約950万のレビューに対して、最高のパフォーマンスの分類器を適用し、92万のフェアネスレビューを特定した。 フェアネスレビューは23のアプリカテゴリに表示されるが、"コミュニケーション"と"ソーシャル"アプリカテゴリはフェアネスレビューの比率が最も高いことがわかった。 次に,92kのフェアネス評価にk-meansクラスタリング手法を適用し,手作業による分析を行い,6種類のフェアネス問題(「異なるプラットフォームやデバイスにおける機能やサービスの異なる品質の認識」や「ユーザ生成コンテンツを扱う際の透明性とフェアネスの欠如」など)を特定した。 最後に、フェアネスレビューに対する2,248人のアプリオーナーの回答を手動で分析した結果、6つの根本原因(例えば、"copyright issues"、"external factors"、"development cost")が判明した。

With the growing application of AI-based systems in our lives and society, there is a rising need to ensure that AI-based systems are developed and used in a responsible way. Fairness is one of the socio-technical concerns that must be addressed in AI-based systems for this purpose. Unfair AI-based systems, particularly, unfair AI-based mobile apps, can pose difficulties for a significant proportion of the global populace. This paper aims to deeply analyze fairness concerns in AI-based app reviews. We first manually constructed a ground-truth dataset including a statistical sample of fairness and non-fairness reviews. Leveraging the ground-truth dataset, we then developed and evaluated a set of machine learning and deep learning classifiers that distinguish fairness reviews from non-fairness reviews. Our experiments show that our best-performing classifier can detect fairness reviews with a precision of 94%. We then applied the best-performing classifier on approximately 9.5M reviews collected from 108 AI-based apps and identified around 92K fairness reviews. While the fairness reviews appear in 23 app categories, we found that the 'communication' and 'social' app categories have the highest percentage of fairness reviews. Next, applying the K-means clustering technique to the 92K fairness reviews, followed by manual analysis, led to the identification of six distinct types of fairness concerns (e.g., 'receiving different quality of features and services in different platforms and devices' and 'lack of transparency and fairness in dealing with user-generated content'). Finally, the manual analysis of 2,248 app owners' responses to the fairness reviews identified six root causes (e.g., 'copyright issues', 'external factors', 'development cost') that app owners report to justify fairness concerns.
翻訳日:2024-01-17 15:16:12 公開日:2024-01-16
# DurFlex-EVC:並列生成による持続的フレキシブル感情音声変換

DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel Generation ( http://arxiv.org/abs/2401.08095v1 )

ライセンス: Link先を確認
Hyoung-Seok Oh, Sang-Hoon Lee, Deok-Hyun Cho, Seong-Whan Lee(参考訳) 感情音声変換(EVC)は、元の言語内容と話者の独特の声質を保ちながら、話者の声の感情的トーンを変更しようとするものである。 EVCの最近の進歩は、Sequence-to-Sequence(seq2seq)モデルのポテンシャルを利用して、ピッチと持続時間の同時モデリングに関わっている。 変換の信頼性と効率を高めるため,本研究は並列音声生成に焦点を移す。 本研究では,Duration-Flexible EVC (DurFlex-EVC) について紹介する。 従来のモデルは、言語情報とパラ言語情報の両方を含む自己教師付き学習(SSL)表現を取り入れているが、この二重性を無視しており、制御性が低下している。 この問題に対処するため、これらの表現を様々な感情と同期させるクロスアテンションを実装した。 さらに、スタイル要素の切り離しと操作のためのスタイルオートエンコーダも開発されている。 このアプローチの有効性は主観的評価と客観的評価の両方を通して検証され、この分野の既存モデルに対する優位性が確立される。

Emotional voice conversion (EVC) seeks to modify the emotional tone of a speaker's voice while preserving the original linguistic content and the speaker's unique vocal characteristics. Recent advancements in EVC have involved the simultaneous modeling of pitch and duration, utilizing the potential of sequence-to-sequence (seq2seq) models. To enhance reliability and efficiency in conversion, this study shifts focus towards parallel speech generation. We introduce Duration-Flexible EVC (DurFlex-EVC), which integrates a style autoencoder and unit aligner. Traditional models, while incorporating self-supervised learning (SSL) representations that contain both linguistic and paralinguistic information, have neglected this dual nature, leading to reduced controllability. Addressing this issue, we implement cross-attention to synchronize these representations with various emotions. Additionally, a style autoencoder is developed for the disentanglement and manipulation of style elements. The efficacy of our approach is validated through both subjective and objective evaluations, establishing its superiority over existing models in the field.
翻訳日:2024-01-17 15:15:38 公開日:2024-01-16
# 資源効率LLMとマルチモーダルファンデーションモデルに関する調査

A Survey of Resource-efficient LLM and Multimodal Foundation Models ( http://arxiv.org/abs/2401.08092v1 )

ライセンス: Link先を確認
Mengwei Xu, Wangsong Yin, Dongqi Cai, Rongjie Yi, Daliang Xu, Qipeng Wang, Bingyang Wu, Yihao Zhao, Chen Yang, Shihe Wang, Qiyang Zhang, Zhenyan Lu, Li Zhang, Shangguang Wang, Yuanchun Li, Yunxin Liu, Xin Jin, Xuanzhe Liu(参考訳) 大規模言語モデル(LLM)、ビジョントランスフォーマー(ViT)、拡散、LLMベースのマルチモーダルモデルを含む大規模な基盤モデルは、トレーニングからデプロイメントまで、機械学習ライフサイクル全体に革命をもたらしている。 しかしながら、これらのモデルが提供する汎用性と性能の大幅な進歩は、ハードウェアリソースの面でかなりのコストがかかる。 これらの大規模モデルの成長をスケーラブルで環境に優しい方法で支援するため、資源効率の高い戦略の開発にかなりの焦点が当てられている。 この調査は、アルゴリズム的側面とシステム的側面の両方を調べることで、そのような研究の重要さを掘り下げるものである。 既存の文献から得られた包括的な分析と貴重な洞察を提供し、最先端のモデルアーキテクチャからトレーニング/保存アルゴリズム、実用的なシステム設計と実装まで、幅広いトピックを包含している。 この調査の目的は、現在のアプローチが大規模な基盤モデルによって引き起こされるリソースの課題にどのように対処しているかを網羅的に理解し、この分野における将来的なブレークスルーを刺激することである。

Large foundation models, including large language models (LLMs), vision transformers (ViTs), diffusion, and LLM-based multimodal models, are revolutionizing the entire machine learning lifecycle, from training to deployment. However, the substantial advancements in versatility and performance these models offer come at a significant cost in terms of hardware resources. To support the growth of these large models in a scalable and environmentally sustainable way, there has been a considerable focus on developing resource-efficient strategies. This survey delves into the critical importance of such research, examining both algorithmic and systemic aspects. It offers a comprehensive analysis and valuable insights gleaned from existing literature, encompassing a broad array of topics from cutting-edge model architectures and training/serving algorithms to practical system designs and implementations. The goal of this survey is to provide an overarching understanding of how current approaches are tackling the resource challenges posed by large foundation models and to potentially inspire future breakthroughs in this field.
翻訳日:2024-01-17 15:15:20 公開日:2024-01-16
# 行動木生成のための大規模言語モデルの訓練と開発に関する研究

A Study on Training and Developing Large Language Models for Behavior Tree Generation ( http://arxiv.org/abs/2401.08089v1 )

ライセンス: Link先を確認
Fu Li, Xueying Wang, Bin Li, Yunlong Wu, Yanzhen Wang and Xiaodong Yi(参考訳) 本稿では,複雑なタスクに対する動作木(bts)の自動生成という課題を解決するため,大規模言語モデル(llm)の応用可能性の革新的探究を行う。 従来の手動BT生成法は非効率であり、ドメインの専門知識に大きく依存している。 一方、既存の自動bt生成技術は、タスクの複雑さ、モデル適応性、信頼性に関するボトルネックに遭遇する。 これらの課題を克服するために,LLMの頑健な表現と推論能力を活用する新しい方法論を提案する。 本論文の中心的な貢献は,データ合成やモデルトレーニングからアプリケーション開発やデータ検証に至るまで,プロセス全体を包含するllmに基づくbt生成フレームワークの設計にある。 BT生成モデルを訓練するために合成データを導入し、その理解と様々な複雑なタスクへの適応性を高め、全体的な性能を大幅に向上させる。 生成したBTの有効性と実行性を確保するため,データ検証の重要性を強調し,マルチレベル検証戦略を導入する。 さらに, LLMを中心要素とするエージェント設計・開発手法についても検討する。 本論文は, LLM に基づくBT 生成に関心のある研究者への参考として, 本研究の成果を期待する。

This paper presents an innovative exploration of the application potential of large language models (LLM) in addressing the challenging task of automatically generating behavior trees (BTs) for complex tasks. The conventional manual BT generation method is inefficient and heavily reliant on domain expertise. On the other hand, existing automatic BT generation technologies encounter bottlenecks related to task complexity, model adaptability, and reliability. In order to overcome these challenges, we propose a novel methodology that leverages the robust representation and reasoning abilities of LLMs. The core contribution of this paper lies in the design of a BT generation framework based on LLM, which encompasses the entire process, from data synthesis and model training to application developing and data verification. Synthetic data is introduced to train the BT generation model (BTGen model), enhancing its understanding and adaptability to various complex tasks, thereby significantly improving its overall performance. In order to ensure the effectiveness and executability of the generated BTs, we emphasize the importance of data verification and introduce a multilevel verification strategy. Additionally, we explore a range of agent design and development schemes with LLM as the central element. We hope that the work in this paper may provide a reference for the researchers who are interested in BT generation based on LLMs.
翻訳日:2024-01-17 15:15:01 公開日:2024-01-16
# 翻訳混合命令による大規模言語モデルの文書レベル翻訳の強化

Enhancing Document-level Translation of Large Language Model via Translation Mixed-instructions ( http://arxiv.org/abs/2401.08088v1 )

ライセンス: Link先を確認
Yachao Li, Junhui Li, Jing Jiang and Min Zhang(参考訳) 機械翻訳のための既存の大言語モデル(llm)は、通常、文レベルの翻訳命令で微調整され、文レベルで十分な性能を達成する。 しかし、文書レベルの翻訳に適用する場合、特に512以上のトークンを含む文書を扱う場合、これらのモデルは重大な課題に直面します。 この課題は、文書中の後続の文が未翻訳のままである文レベルのカバレッジの問題から生じる。 その結果、文レベルの翻訳命令を微調整したLLMの文書レベルの翻訳能力は著しく制限されている。 LLMの弱い文書レベルの翻訳性能の主な原因は文書間マッピング能力の欠如にあると推測する。 この問題に対処するために,様々な長さの文レベルと文書レベルの翻訳命令を組み合わせ,微調整 LLM を提案する。 提案手法により,LLM(Llama-2~7B,13B)は文レベルから最大2048個のトークンを含む文書への一貫した翻訳性能を維持することができる。 実験結果から,提案手法は10言語対におけるLLMの文書レベルの翻訳能力を大幅に向上させ,文書レベルの翻訳における文レベルのカバレッジ問題を効果的に軽減することを示した。 談話現象の実験により,文書レベルの翻訳アプローチは,bleuスコアと談話コヒーレンスの両方の観点から,翻訳品質が著しく向上することが示された。

Existing large language models (LLMs) for machine translation are typically fine-tuned on sentence-level translation instructions and achieve satisfactory performance at the sentence level. However, when applied to document-level translation, these models face a significant challenge, particularly when dealing with documents containing over 512 tokens. This challenge arises from the issue of sentence-level coverage, where subsequent sentences in the document remain untranslated. As a result, the document-level translation capability of LLMs fine-tuned on sentence-level translation instructions is significantly limited. We conjecture that the primary cause of LLMs' weak document-level translation performance is the absence of document-to-document mapping ability. To address the issue, we propose an approach that combines sentence-level and document-level translation instructions of varying lengths to fine-tune LLMs. Our proposed translation mixed-instructions enable LLMs (Llama-2~7B and 13B) to maintain consistent translation performance from the sentence level to documents containing as many as 2048 tokens. Extensive experimental results show that the proposed approach significantly enhances the document-level translation capabilities of LLMs on 10 language pairs, effectively mitigating the sentence-level coverage issue in document-level translation. Experimentation on discourse phenomena has demonstrated that our document-level translation approach significantly improves translation quality, both in terms of BLEU score and discourse coherence.
翻訳日:2024-01-17 15:14:43 公開日:2024-01-16
# Rydberg原子配列における量子浮遊相の探索

Probing quantum floating phases in Rydberg atom arrays ( http://arxiv.org/abs/2401.08087v1 )

ライセンス: Link先を確認
Jin Zhang, Sergio H. Cant\'u, Fangli Liu, Alexei Bylinskii, Boris Braverman, Florian Huber, Jesse Amato-Grill, Alexander Lukin, Nathan Gemelke, Alexander Keesling, Sheng-Tao Wang, Y. Meurice, and S.-W. Tsai(参考訳) 臨界不規則相である浮遊相は、結晶秩序と不規則相の間の潜在的中間相として理論的に予測されている。 本研究では,92個の中性原子量子ビットからなるラダーアレイで発生する異なる量子位相を調査し,量子浮遊相の出現を実験的に観察する。 現場で解決したRydberg状態密度と状態発生の分布を解析した。 地層分解された測定結果から, 複合秩序相内におけるドメイン壁の形成が明らかとなり, その後, 半長距離秩序が成立して浮遊相が形成される。 Rydberg密度密度相関のフーリエスペクトルを解析することにより、浮遊相の不規則波列の明確なシグネチャを観察する。 さらに,実験系のサイズが大きくなるにつれて,波動ベクトルが格子と相反する値の連続体に近づくことを示す。 本研究は, 相転移の性質と非平衡物理学をさらに探究するために, 今後の研究を動機付けるものである。

The floating phase, a critical incommensurate phase, has been theoretically predicted as a potential intermediate phase between crystalline ordered and disordered phases. In this study, we investigate the different quantum phases that arise in ladder arrays comprising up to 92 neutral-atom qubits and experimentally observe the emergence of the quantum floating phase. We analyze the site-resolved Rydberg state densities and the distribution of state occurrences. The site-resolved measurement reveals the formation of domain walls within the commensurate ordered phase, which subsequently proliferate and give rise to the floating phase with incommensurate quasi-long-range order. By analyzing the Fourier spectra of the Rydberg density-density correlations, we observe clear signatures of the incommensurate wave order of the floating phase. Furthermore, as the experimental system sizes increase, we show that the wave vectors approach a continuum of values incommensurate with the lattice. Our work motivates future studies to further explore the nature of commensurate-incommensurate phase transitions and their non-equilibrium physics.
翻訳日:2024-01-17 15:14:20 公開日:2024-01-16
# ユーザ生成コンテンツのための空間意味的協調的クロップ

Spatial-Semantic Collaborative Cropping for User Generated Content ( http://arxiv.org/abs/2401.08086v1 )

ライセンス: Link先を確認
Yukun Su, Yiwen Cao, Jingliang Deng, Fengyun Rao, Qingyao Wu(参考訳) 大量のユーザ生成コンテンツ(UGC)が毎日インターネットにアップロードされ、クライアント側(モバイルやPCなど)で世界中に表示される。 これは、異なるデバイス上で特定のアスペクト比で美的サムネイルを作成するためにトリッピングアルゴリズムを必要とする。 しかし、既存の画像トリミングは主にランドマークやランドスケープイメージに焦点を当てており、UGCの複雑な背景とマルチオブジェクト間の関係をモデル化できない。 さらに,従来の手法では,コンテントの完全性を無視しつつ,クロップ画像の美的性質のみを考慮し,uccクロップには不可欠である。 本稿では,任意のユーザ生成コンテンツを対象とした空間意味協調型収穫ネットワーク(S2CNet)を提案する。 具体的には、まず潜在的なオブジェクトの視覚遺伝子をマイニングします。 次に,提案するアダプティブアテンショングラフは,視覚ノード上での情報関連付けの手順として,このタスクを再キャストする。 基礎となる空間的・意味的関係は最終的に、微分可能なメッセージパッシングを通じて作物候補に集中し、ネットワークが美学とコンテンツの完全性の両方を維持するのを効率的に支援します。 提案されたugcrop5kや他の公開データセットに関する広範な実験は、最先端のデータセットよりも、我々のアプローチが優れていることを示している。 私たちのプロジェクトはhttps://github.com/suyukun666/S2CNetで利用可能です。

A large amount of User Generated Content (UGC) is uploaded to the Internet daily and displayed to people world-widely through the client side (e.g., mobile and PC). This requires the cropping algorithms to produce the aesthetic thumbnail within a specific aspect ratio on different devices. However, existing image cropping works mainly focus on landmark or landscape images, which fail to model the relations among the multi-objects with the complex background in UGC. Besides, previous methods merely consider the aesthetics of the cropped images while ignoring the content integrity, which is crucial for UGC cropping. In this paper, we propose a Spatial-Semantic Collaborative cropping network (S2CNet) for arbitrary user generated content accompanied by a new cropping benchmark. Specifically, we first mine the visual genes of the potential objects. Then, the suggested adaptive attention graph recasts this task as a procedure of information association over visual nodes. The underlying spatial and semantic relations are ultimately centralized to the crop candidate through differentiable message passing, which helps our network efficiently to preserve both the aesthetics and the content integrity. Extensive experiments on the proposed UGCrop5K and other public datasets demonstrate the superiority of our approach over state-of-the-art counterparts. Our project is available at https://github.com/suyukun666/S2CNet.
翻訳日:2024-01-17 15:14:03 公開日:2024-01-16
# UV-SAM: 都市識別のためのセグメントモデル

UV-SAM: Adapting Segment Anything Model for Urban Village Identification ( http://arxiv.org/abs/2401.08083v1 )

ライセンス: Link先を確認
Xin Zhang, Yu Liu, Yuming Lin, Qingming Liao, Yong Li(参考訳) 都市中心部や周辺の非公式住宅地として定義される都市村は、貧困、適切な住宅、持続可能な都市に関する持続可能な開発目標(sdgs)と密接に関連した、不十分なインフラと貧弱な生活条件によって特徴づけられる。 伝統的に、政府は都市村を監視するための現地調査手法に大きく依存しており、それは時間がかかり、労働集約的であり、おそらく遅れている。 衛星画像の広範かつタイムリーな更新により、近年の研究では、都市村を効率的に検出するためのコンピュータビジョン技術が開発されている。 しかし、既存の研究は単純な都市村のイメージ分類にフォーカスするか、正確な境界情報の提供に失敗している。 衛星画像から都市境界を正確に同定するために,視覚基盤モデルのパワーを活用し,Segment Anything Model(SAM)をUV-SAMという都市分割に適用する。 具体的には、UV-SAMは、まず小さなセマンティックセグメンテーションモデルを利用して、マスク、バウンディングボックス、画像表現を含む都市村の混合プロンプトを生成し、それをSAMに供給し、きめ細かい境界識別を行う。 中国における2つのデータセットに関する広範な実験の結果は、uv-samが既存のベースラインよりも優れており、何年にもわたっての識別結果から、都市村の数と面積は時間とともに減少しており、都市村の発展トレンドに関する深い洞察を与え、持続可能な都市のビジョン基盤モデルに光を当てている。 この研究のデータセットとコードはhttps://github.com/tsinghua-fib-lab/UV-SAMで公開されている。

Urban villages, defined as informal residential areas in or around urban centers, are characterized by inadequate infrastructures and poor living conditions, closely related to the Sustainable Development Goals (SDGs) on poverty, adequate housing, and sustainable cities. Traditionally, governments heavily depend on field survey methods to monitor the urban villages, which however are time-consuming, labor-intensive, and possibly delayed. Thanks to widely available and timely updated satellite images, recent studies develop computer vision techniques to detect urban villages efficiently. However, existing studies either focus on simple urban village image classification or fail to provide accurate boundary information. To accurately identify urban village boundaries from satellite images, we harness the power of the vision foundation model and adapt the Segment Anything Model (SAM) to urban village segmentation, named UV-SAM. Specifically, UV-SAM first leverages a small-sized semantic segmentation model to produce mixed prompts for urban villages, including mask, bounding box, and image representations, which are then fed into SAM for fine-grained boundary identification. Extensive experimental results on two datasets in China demonstrate that UV-SAM outperforms existing baselines, and identification results over multiple years show that both the number and area of urban villages are decreasing over time, providing deeper insights into the development trends of urban villages and sheds light on the vision foundation models for sustainable cities. The dataset and codes of this study are available at https://github.com/tsinghua-fib-lab/UV-SAM.
翻訳日:2024-01-17 15:13:42 公開日:2024-01-16
# コンテキスト認識による次なる有用な場所の予測:最新技術

Predicting Next Useful Location With Context-Awareness: The State-Of-The-Art ( http://arxiv.org/abs/2401.08081v1 )

ライセンス: Link先を確認
Alireza Nezhadettehad, Arkady Zaslavsky, Rakib Abdur, Siraj Ahmed Shaikh, Seng W. Loke, Guang-Li Huang, Alireza Hassani(参考訳) モバイルオブジェクトの将来の位置を予測することは、積極的なインテリジェンスによって位置認識サービスを強化し、交通渋滞制御や位置認識広告、公衆衛生や福祉の監視など、さまざまなアプリケーションにおける計画とほぼリアルタイムなスケジューリングを支援する。 スマートフォンと位置情報センサー技術の最近の進歩と、人工知能と機械学習技術の改善とともに、位置情報ベースのソーシャルネットワークの利用の普及は、大量の歴史的およびリアルタイムのコンテキスト情報を活用し、モビリティパターンを認識し、より正確でインテリジェントな予測を実現する素晴らしい機会を提供する。 本調査は,コンテキスト認識を伴う次の有用な位置予測問題の包括的概要を提供する。 まず,コンテキストとコンテキスト認識の概念を説明し,次の位置予測問題を定義する。 次に,予測手法,対処課題,モデルのトレーニングと評価に使用されるデータセットとメトリクス,組み込まれたコンテキストの種類について,この分野で約30の研究結果を分析した。 最後に,様々なアプローチの利点とデメリットについて論じ,予測位置の有用性に着目し,自動車産業における次の位置予測の2つの潜在的なユースケースを導入することにより,課題と今後の課題を明らかにする。

Predicting the future location of mobile objects reinforces location-aware services with proactive intelligence and helps businesses and decision-makers with better planning and near real-time scheduling in different applications such as traffic congestion control, location-aware advertisements, and monitoring public health and well-being. The recent developments in the smartphone and location sensors technology and the prevalence of using location-based social networks alongside the improvements in artificial intelligence and machine learning techniques provide an excellent opportunity to exploit massive amounts of historical and real-time contextual information to recognise mobility patterns and achieve more accurate and intelligent predictions. This survey provides a comprehensive overview of the next useful location prediction problem with context-awareness. First, we explain the concepts of context and context-awareness and define the next location prediction problem. Then we analyse nearly thirty studies in this field concerning the prediction method, the challenges addressed, the datasets and metrics used for training and evaluating the model, and the types of context incorporated. Finally, we discuss the advantages and disadvantages of different approaches, focusing on the usefulness of the predicted location and identifying the open challenges and future work on this subject by introducing two potential use cases of next location prediction in the automotive industry.
翻訳日:2024-01-17 15:13:01 公開日:2024-01-16
# 血管認識のための対人マスキングコントラスト学習

Adversarial Masking Contrastive Learning for vein recognition ( http://arxiv.org/abs/2401.08079v1 )

ライセンス: Link先を確認
Huafeng Qin, Yiquan Wu, Mounim A. El-Yacoubi, Jun Wang, Guangxiang Yang(参考訳) ベイン認識は、セキュリティとプライバシーの高さから注目を集めている。 近年,畳み込みニューラルネットワーク(cnn)やトランスフォーマーなどの深層ニューラルネットワークが静脈認識に導入され,最先端のパフォーマンスを実現している。 しかし,近年の進歩にもかかわらず,画像サンプルが不足しているため,既存の指先特徴抽出法はまだ最適ではない。 この問題を解決するために,本論文では,コントラスト学習モデルと潜伏変数の集合にエンコーダを最適化することにより,より堅牢なコントラスト学習モデルを下流のパームベイン認識タスク向けに訓練するための挑戦的なサンプルを生成する,逆マスキング・コントラスト学習(AMCL)アプローチを提案する。 第一に、堅牢な生成的対向ネットワーク(GAN)をトレーニングするために、大量のマスクが生成される。 訓練されたジェネレータは、潜在変数を潜在変数空間からマスク空間に変換する。 そして、訓練されたジェネレータをコントラスト学習モデルと組み合わせてAMCLを得る。そこでジェネレータは、コントラスト損失を増加させるために挑戦的なマスキング画像を生成し、コントラスト学習モデルは、より頑健な特徴表現を学習するために、より難しい画像に基づいて訓練する。 訓練後、コントラスト学習モデルの訓練されたエンコーダと分類層とを結合して分類器を構築し、さらに静脈認識のためのラベル付きトレーニングデータに微調整する。 3つのデータベースを用いた実験結果から,静脈分類器の識別精度の向上や最先端の認識結果の達成において,既存のコントラスト学習手法よりも優れることが示された。

Vein recognition has received increasing attention due to its high security and privacy. Recently, deep neural networks such as Convolutional neural networks (CNN) and Transformers have been introduced for vein recognition and achieved state-of-the-art performance. Despite the recent advances, however, existing solutions for finger-vein feature extraction are still not optimal due to scarce training image samples. To overcome this problem, in this paper, we propose an adversarial masking contrastive learning (AMCL) approach, that generates challenging samples to train a more robust contrastive learning model for the downstream palm-vein recognition task, by alternatively optimizing the encoder in the contrastive learning model and a set of latent variables. First, a huge number of masks are generated to train a robust generative adversarial network (GAN). The trained generator transforms a latent variable from the latent variable space into a mask space. Then, we combine the trained generator with a contrastive learning model to obtain our AMCL, where the generator produces challenging masking images to increase the contrastive loss and the contrastive learning model is trained based on the harder images to learn a more robust feature representation. After training, the trained encoder in the contrastive learning model is combined with a classification layer to build a classifier, which is further fine-tuned on labeled training data for vein recognition. The experimental results on three databases demonstrate that our approach outperforms existing contrastive learning approaches in terms of improving identification accuracy of vein classifiers and achieves state-of-the-art recognition results.
翻訳日:2024-01-17 15:12:22 公開日:2024-01-16
# クロスカレンシー相関と感情分析を用いたethereum価格予測のためのトランスフォーマ・アプローチ

Transformer-based approach for Ethereum Price Prediction Using Crosscurrency correlation and Sentiment Analysis ( http://arxiv.org/abs/2401.08077v1 )

ライセンス: Link先を確認
Shubham Singh, Mayur Bhat(参考訳) この研究は、ethereum暗号通貨価格予測のためのトランスフォーマーベースのニューラルネットワークの能力を探っている。 この実験は、暗号通貨の価格が他の暗号通貨や暗号通貨に関する感情と強く相関しているという仮説に基づいている。 このモデルは、単一機能シナリオからボリューム、センチメント、関連する暗号通貨価格を含む複雑な構成まで、いくつかの設定にトランスフォーマーアーキテクチャを使用している。 より小さなデータセットとより複雑なアーキテクチャにもかかわらず、トランスフォーマーモデルはいくつかのパラメータで ann と mlp に匹敵する。 この結論は、感情によって引き起こされる暗号通貨価格運動における因果関係の錯覚に関する仮説を提示する。

The research delves into the capabilities of a transformer-based neural network for Ethereum cryptocurrency price forecasting. The experiment runs around the hypothesis that cryptocurrency prices are strongly correlated with other cryptocurrencies and the sentiments around the cryptocurrency. The model employs a transformer architecture for several setups from single-feature scenarios to complex configurations incorporating volume, sentiment, and correlated cryptocurrency prices. Despite a smaller dataset and less complex architecture, the transformer model surpasses ANN and MLP counterparts on some parameters. The conclusion presents a hypothesis on the illusion of causality in cryptocurrency price movements driven by sentiments.
翻訳日:2024-01-17 15:11:33 公開日:2024-01-16
# 弾性ネット型テンソルネットワークによるイベントストリームの表現学習

Representation Learning on Event Stream via an Elastic Net-incorporated Tensor Network ( http://arxiv.org/abs/2401.08068v1 )

ライセンス: Link先を確認
Beibei Yang, Weiling Li, Yan Fang(参考訳) イベントカメラは、ピクセル毎の明るさ変化時に非同期でスパースなイベントストリームをキャプチャするニューロモルフィックセンサーである。 イベント信号の最先端処理方法は通常、イベントをフレームやグリッドに集約する。 しかし、イベントは時間的に密集しており、これらの作品は積み重ねによるイベントのローカル情報に限定されている。 本稿では,テンソル分解によりイベントストリーム中のすべての事象のグローバルな相関を同時に捉えることのできる,新しい時空間表現学習法を提案する。 さらに,イベントが空間的に疎結合である場合,イベントストリームのより空間的,時間的詳細を求めるために,Elastic Net-Incorporated Tenor Network (ENTN)モデルを提案する。 実験により, 提案手法は高品質な事象の時空間相関を表現でき, フィルタノイズなどの応用において, 最先端の手法と比較して有効であることを示す。

Event cameras are neuromorphic sensors that capture asynchronous and sparse event stream when per-pixel brightness changes. The state-of-the-art processing methods for event signals typically aggregate events into a frame or a grid. However, events are dense in time, these works are limited to local information of events due to the stacking. In this paper, we present a novel spatiotemporal representation learning method which can capture the global correlations of all events in the event stream simultaneously by tensor decomposition. In addition, with the events are sparse in space, we propose an Elastic Net-incorporated tensor network (ENTN) model to obtain more spatial and temporal details about event stream. Empirically, the results indicate that our method can represent the spatiotemporal correlation of events with high quality, and can achieve effective results in applications like filtering noise compared with the state-of-the-art methods.
翻訳日:2024-01-17 15:10:44 公開日:2024-01-16
# ProvNeRF: 確率過程としてのNeRFにおける点間隔のモデリング

ProvNeRF: Modeling per Point Provenance in NeRFs as a Stochastic Process ( http://arxiv.org/abs/2401.08140v1 )

ライセンス: Link先を確認
Kiyohiro Nakayama, Mikaela Angelina Uy, Yang You, Ke Li, Leonidas Guibas(参考訳) neural radiance field (nerfs) は様々なアプリケーションで人気を集めている。 しかし、ボリュームレンダリングの十分な制約を欠いたスパースビュー設定では課題に直面している。 スパースカメラと非拘束カメラから3Dシーンを再構成し、理解することは、様々な応用の古典的コンピュータビジョンにおける長年の問題である。 最近の研究は、疎密で制約のないビューシナリオでNeRFを探索しているが、その焦点は主に再構築と新規ビュー合成の強化である。 私たちのアプローチは,“各ポイントがどこにあるのか?”という疑問を提起することで,より広い視点で捉えています。 言い換えれば、各3次元点の起源や証明とその関連情報を、スパースで制約のない視点の下で決定することを目指している。 ProvNeRF(ProvNeRF)は,各点のソース位置をモデル化し,点ごとの証明を組み込むことで従来のNeRF表現を強化するモデルである。 確率過程に対する暗黙的最大推定(IMLE)を拡張することでこれを実現できる。 特に,本手法は,トレーニング済みのNeRFモデルと関連するトレーニングカメラのポーズと互換性がある。 本研究では,不確実性推定,基準に基づくビュー選択,新しいビュー合成の改善など,ポイント前処理のモデリングにいくつかの利点があることを実証する。

Neural radiance fields (NeRFs) have gained popularity across various applications. However, they face challenges in the sparse view setting, lacking sufficient constraints from volume rendering. Reconstructing and understanding a 3D scene from sparse and unconstrained cameras is a long-standing problem in classical computer vision with diverse applications. While recent works have explored NeRFs in sparse, unconstrained view scenarios, their focus has been primarily on enhancing reconstruction and novel view synthesis. Our approach takes a broader perspective by posing the question: "from where has each point been seen?" -- which gates how well we can understand and reconstruct it. In other words, we aim to determine the origin or provenance of each 3D point and its associated information under sparse, unconstrained views. We introduce ProvNeRF, a model that enriches a traditional NeRF representation by incorporating per-point provenance, modeling likely source locations for each point. We achieve this by extending implicit maximum likelihood estimation (IMLE) for stochastic processes. Notably, our method is compatible with any pre-trained NeRF model and the associated training camera poses. We demonstrate that modeling per-point provenance offers several advantages, including uncertainty estimation, criteria-based view selection, and improved novel view synthesis, compared to state-of-the-art methods.
翻訳日:2024-01-17 15:04:42 公開日:2024-01-16
# 学習遺伝子によるコア知識の伝達

Transferring Core Knowledge via Learngenes ( http://arxiv.org/abs/2401.08139v1 )

ライセンス: Link先を確認
Fu Feng, Jing Wang and Xin Geng(参考訳) 事前トレーニングパラダイムは、大規模データセットでトレーニングされたモデルを、パフォーマンスを向上した下流タスクに微調整する。 すべての知識を下流のタスクに転送するが、どの部分が必要か、不要かを区別せず、負の転送につながる可能性がある。 対照的に、自然界における知識伝達はより効率的である。 遺伝情報を子孫に渡すとき、祖先は本質的な知識のみを遺伝子にエンコードし、それが媒質として機能する。 そこで我々は'learngene'という新しい概念を採用し、自然遺伝子の構造を模倣してその構造を洗練させる。 本稿では,生物の進化過程をニューラルネットワークにコピーするGTL(Genematic Transfer Learning)を提案する。 GTLはネットワークの集団を訓練し、トーナメントによって優れた学習遺伝子を選択し、学習遺伝子変異を実行し、学習遺伝子を次の世代に渡す。 最後に,VGG11とResNet12の学習遺伝子を抽出した。 20%のパラメータを持つ学習遺伝子は、cifar-fsとminiimagenetの精度を12%、16%向上させる。 さらに、学習遺伝子は、ネットワークとデータセットの下流構造にスケーラビリティと適応性を持っている。 全体として、学習遺伝子を介してコア知識を伝達することは、ニューラルネットワークにとって十分かつ効率的である、という新たな洞察を提供する。

The pre-training paradigm fine-tunes the models trained on large-scale datasets to downstream tasks with enhanced performance. It transfers all knowledge to downstream tasks without discriminating which part is necessary or unnecessary, which may lead to negative transfer. In comparison, knowledge transfer in nature is much more efficient. When passing genetic information to descendants, ancestors encode only the essential knowledge into genes, which act as the medium. Inspired by that, we adopt a recent concept called ``learngene'' and refine its structures by mimicking the structures of natural genes. We propose the Genetic Transfer Learning (GTL) -- a framework to copy the evolutionary process of organisms into neural networks. GTL trains a population of networks, selects superior learngenes by tournaments, performs learngene mutations, and passes the learngenes to next generations. Finally, we successfully extract the learngenes of VGG11 and ResNet12. We show that the learngenes bring the descendant networks instincts and strong learning ability: with 20% parameters, the learngenes bring 12% and 16% improvements of accuracy on CIFAR-FS and miniImageNet. Besides, the learngenes have the scalability and adaptability on the downstream structure of networks and datasets. Overall, we offer a novel insight that transferring core knowledge via learngenes may be sufficient and efficient for neural networks.
翻訳日:2024-01-17 15:04:17 公開日:2024-01-16
# セマンティックキャッシュのためのテスト入力生成用LCM

LLMs for Test Input Generation for Semantic Caches ( http://arxiv.org/abs/2401.08138v1 )

ライセンス: Link先を確認
Zafaryab Rasool, Scott Barnett, David Willie, Stefanus Kurniawan, Sherwin Balugo, Srikanth Thudumu, Mohamed Abdelrazek(参考訳) 大規模言語モデル(LLM)は、構造化されていない文書のセマンティック検索やテキスト生成など、最先端のセマンティック機能をソフトウェアシステムに追加することを可能にする。 しかし、これらのモデルは計算コストが高い。 大規模な場合、何千ものユーザをサービスするコストは、ユーザエクスペリエンスにも大きな影響を与えます。 この問題に対処するために、セマンティックキャッシュを使用して、LLMサービスにぶつかることなく、類似したクエリ(異なるフレーズで呼ばれた可能性がある)の回答をチェックする。 クエリ埋め込みに依存するこれらのセマンティックキャッシュ技術の性質から、システムに対するユーザの信頼度に影響を与えるエラーの確率が高い。 セマンティックキャッシュ技術を採用する場合、通常、セマンティックキャッシュ(正確なキャッシュヒットとミス)の有効性をテストする必要がある。 本稿では、構造化されていない文書から類似した質問を生成するテスト入力生成にLLMを使用する方法であるVaryGenを提案する。 我々の新しいアプローチは llmsの推論能力を使って 1)クエリをドメインに適応させる。 2)クエリの微妙なバリエーションを合成し、 3) 合成テストデータセットを評価する。 我々は,100のクエリと結果ペアを定性的に分析し,オープンソースセマンティックキャッシュを用いた経験的ケーススタディを行うことにより,学生問合せシステムの領域における我々のアプローチを評価した。 結果から,クエリペアは類似性に対する人間の期待を満足し,生成したデータはセマンティックキャッシュの障害ケースを示す。 さらに、Qasperデータセットに対する我々のアプローチを評価します。 この作業はセマンティクスアプリケーションのテスト入力生成への重要な第一歩であり、セマンティクスキャッシュのキャリブレーションにおいて実践者のために考慮すべき事項である。

Large language models (LLMs) enable state-of-the-art semantic capabilities to be added to software systems such as semantic search of unstructured documents and text generation. However, these models are computationally expensive. At scale, the cost of serving thousands of users increases massively affecting also user experience. To address this problem, semantic caches are used to check for answers to similar queries (that may have been phrased differently) without hitting the LLM service. Due to the nature of these semantic cache techniques that rely on query embeddings, there is a high chance of errors impacting user confidence in the system. Adopting semantic cache techniques usually requires testing the effectiveness of a semantic cache (accurate cache hits and misses) which requires a labelled test set of similar queries and responses which is often unavailable. In this paper, we present VaryGen, an approach for using LLMs for test input generation that produces similar questions from unstructured text documents. Our novel approach uses the reasoning capabilities of LLMs to 1) adapt queries to the domain, 2) synthesise subtle variations to queries, and 3) evaluate the synthesised test dataset. We evaluated our approach in the domain of a student question and answer system by qualitatively analysing 100 generated queries and result pairs, and conducting an empirical case study with an open source semantic cache. Our results show that query pairs satisfy human expectations of similarity and our generated data demonstrates failure cases of a semantic cache. Additionally, we also evaluate our approach on Qasper dataset. This work is an important first step into test input generation for semantic applications and presents considerations for practitioners when calibrating a semantic cache.
翻訳日:2024-01-17 15:03:57 公開日:2024-01-16
# 車両アドホックネットワーク(VANET)通信におけるセキュリティ脅威と攻撃に対する機械学習による悪意車両検出

Machine Learning-Based Malicious Vehicle Detection for Security Threats and Attacks in Vehicle Ad-hoc Network (VANET) Communications ( http://arxiv.org/abs/2401.08135v1 )

ライセンス: Link先を確認
Thanh Nguyen Canh and Xiem HoangVan(参考訳) 車両とインフラ間の効率的で信頼性の高い通信技術としての車両アドホックネットワーク(vanet)の急速な成長に伴い、バネット通信のセキュリティと完全性が重要な関心事となっている。 VANETの重大な脅威の1つは、悪意のあるノードがネットワークの機能を破壊し、データの機密性、完全性、可用性を損なう、ブラックホール攻撃の存在である。 本稿では,VANETにおけるブラックホール検出のための機械学習手法を提案する。 この課題を達成するために、我々はまず、正常かつ悪意のあるトラフィックフローからなる包括的データセットを作成する。 その後,ブラックホール攻撃を識別するための有望な特徴セットを研究・定義する。 最後に,勾配ブースティング,ランダムフォレスト,サポートベクターマシン,k-ネアレスト近傍,ガウスのナイーブベイ,ロジスティック回帰など,さまざまな機械学習アルゴリズムを評価する。 実験により,正常ノードと悪意ノードを区別するアルゴリズムの有効性が示された。 我々の研究は、ブラックホール攻撃の検出と緩和によってVANETのセキュリティを高める機械学習アプローチの可能性を強調した。

With the rapid growth of Vehicle Ad-hoc Network (VANET) as a promising technology for efficient and reliable communication among vehicles and infrastructure, the security and integrity of VANET communications has become a critical concern. One of the significant threats to VANET is the presence of blackhole attacks, where malicious nodes disrupt the network's functionality and compromise data confidentiality, integrity, and availability. In this paper, we propose a machine learning-based approach for blackhole detection in VANET. To achieve this task, we first create a comprehensive dataset comprising normal and malicious traffic flows. Afterward, we study and define a promising set of features to discriminate the blackhole attacks. Finally, we evaluate various machine learning algorithms, including Gradient Boosting, Random Forest, Support Vector Machines, k-Nearest Neighbors, Gaussian Naive Bayes, and Logistic Regression. Experimental results demonstrate the effectiveness of these algorithms in distinguishing between normal and malicious nodes. Our findings also highlight the potential of machine learning based approach in enhancing the security of VANET by detecting and mitigating blackhole attacks.
翻訳日:2024-01-17 15:03:28 公開日:2024-01-16
# ゲーム報酬脆弱性:ゼロサムゲームとプロトタイプ学習によるソフトウェア脆弱性検出

Game Rewards Vulnerabilities: Software Vulnerability Detection with Zero-Sum Game and Prototype Learning ( http://arxiv.org/abs/2401.08131v1 )

ライセンス: Link先を確認
Xin-Cheng Wen, Cuiyun Gao, Xinchen Wang, Ruiqi Wang, Tao Zhang, and Qing Liao(参考訳) 近年,ソフトウェア脆弱性の自動検出に注目が集まっている。 特に、脆弱性パターンの暗黙的な取得にソースコードを使用するディープラーニング(DL)ベースの手法は、他の手法と比較して優れたパフォーマンスを示している。 しかし、DLベースのアプローチは、脆弱性に関連する情報をコードスニペット全体から取得するのは難しい。 我々の実験で証明されたように、アプローチは意味情報を過度に強調する傾向にあり、実用的なシナリオでは脆弱性検出性能が制限される可能性がある。 まず、コードスニペット(つまり、脆弱なコード)と、最小限のコード変更で修正された後(つまり、破壊不能なコード)を区別することはできません。 さらに、ユーザー定義識別子をプレースホルダー(例えば「VAR1」や「FUN1」など)に置換することで、F1スコアに対して最大14.53%のパフォーマンス低下が明らかとなる。 これらの問題を緩和するため、脆弱性検出のためのセマンティックな機能に関するヒントを最小限の変更で提供できる、脆弱で対応する固定コードスニペットを活用することを提案する。 本稿では,zerO-sumゲームとプロトタイプLearNingを用いたソフトウェアvulneRability dEteCtionフレームワークRECONを提案する。 ReCONではゼロサムゲーム構築モジュールを提案する。 脆弱性検出はゼロサムゲームにおいて別のプレイヤー(つまりディテクター)であるのに対し、対応する固定コードから脆弱性コードを切り離すことは一つのプレイヤー(キャリブレータ)と見なされる。 目標は、脆弱性検出のための第2のプレイヤーのパフォーマンスを向上させるために、第1のプレイヤーのセマンティックな特徴を捉えることである。 公開ベンチマークデータセットの実験によると、RECONは最先端のベースラインを6.29%上回っている。

Recent years have witnessed a growing focus on automated software vulnerability detection. Notably, deep learning (DL)-based methods, which employ source code for the implicit acquisition of vulnerability patterns, have demonstrated superior performance compared to other approaches. However, the DL-based approaches are still hard to capture the vulnerability-related information from the whole code snippet, since the vulnerable parts usually account for only a small proportion. As evidenced by our experiments, the approaches tend to excessively emphasize semantic information, potentially leading to limited vulnerability detection performance in practical scenarios. First, they cannot well distinguish between the code snippets before (i.e., vulnerable code) and after (i.e., non-vulnerable code) developers' fixes due to the minimal code changes. Besides, substituting user-defined identifiers with placeholders (e.g., "VAR1" and "FUN1") in obvious performance degradation at up to 14.53% with respect to the F1 score. To mitigate these issues, we propose to leverage the vulnerable and corresponding fixed code snippets, in which the minimal changes can provide hints about semantic-agnostic features for vulnerability detection. In this paper, we propose a software vulneRability dEteCtion framework with zerO-sum game and prototype learNing, named RECON. In RECON, we propose a zero-sum game construction module. Distinguishing the vulnerable code from the corresponding fixed code is regarded as one player (i.e. Calibrator), while the conventional vulnerability detection is another player (i.e. Detector) in the zero-sum game. The goal is to capture the semantic-agnostic features of the first player for enhancing the second player's performance for vulnerability detection. Experiments on the public benchmark dataset show that RECON outperforms the state-of-the-art baseline by 6.29% in F1 score.
翻訳日:2024-01-17 15:03:07 公開日:2024-01-16
# 物理攻撃のための妥協指標の枠組みと分類

Framework and Classification of Indicator of Compromise for physics-based attacks ( http://arxiv.org/abs/2401.08127v1 )

ライセンス: Link先を確認
Vincent Tan(参考訳) 量子通信は、情報セキュリティのための物理法則に基づいており、量子科学によって実現されるこの形態の将来の情報セキュリティへの示唆を研究する必要がある。 物理ベースの脆弱性は、量子鍵分布(QKD)のような量子技術固有の物理特性と振る舞いのために存在し、結果として攻撃者が物理ベースの脆弱性を利用すると新たな脅威が発生する可能性がある。 量子リンクに対する物理学に基づく攻撃の脅威を示す多くの研究と実験が行われた。 しかし、物理ベースの攻撃で対処される脅威や敵の種類についてコミュニケーションするための共通言語を提供するフレームワークが欠如している。 本稿では,攻撃対象と方法論に基づくフレームワークの初期化を試み,その概念を確立したMITRE ATT&CKから参照し,物理に基づく攻撃に対するIoC(Indicator of Compromises)の分類の先駆けとなった物理ベースの攻撃について述べる。 そこで,本研究では,iocの異なる分類のための法医学的ツールの開発において,証拠収集法と分析のための抽出点についてさらに検討する。

Quantum communications are based on the law of physics for information security and the implications for this form of future information security enabled by quantum science has to be studied. Physics-based vulnerabilities may exist due to the inherent physics properties and behavior of quantum technologies such as Quantum Key Distribution (QKD), thus resulting in new threats that may emerge with attackers exploiting the physics-based vulnerabilities. There were many studies and experiments done to demonstrate the threat of physics-based attacks on quantum links. However, there is a lack of a framework that provides a common language to communicate about the threats and type of adversaries being dealt with for physics-based attacks. This paper is a review of physics-based attacks that were being investigated and attempt to initialize a framework based on the attack objectives and methodologies, referencing the concept from the well-established MITRE ATT&CK, therefore pioneering the classification of Indicator of Compromises (IoCs) for physics-based attacks. This paper will then pave the way for future work in the development of a forensic tool for the different classification of IoCs, with the methods of evidence collections and possible points of extractions for analysis being further investigated.
翻訳日:2024-01-17 15:02:34 公開日:2024-01-16
# The Devil is in the details: Boosting Guided Depth Super-Resolution through Rethinking Cross-Modal Alignment and Aggregation

The Devil is in the Details: Boosting Guided Depth Super-Resolution via Rethinking Cross-Modal Alignment and Aggregation ( http://arxiv.org/abs/2401.08123v1 )

ライセンス: Link先を確認
Xinni Jiang, Zengsheng Kuang, Chunle Guo, Ruixun Zhang, Lei Cai, Xiao Fan, Chongyi Li(参考訳) 誘導深度超解像(GDSR)は、同じシーンの高解像度のRGB画像を用いて、行方不明の深度の詳細を復元する。 それまでのアプローチは、マルチモーダル入力の不均一性と相補性に苦慮し、モダルミスアライメント、幾何学的ミスアライメント、特徴選択の問題を無視してきた。 本研究では,GDSRネットワークの基本要素を再考し,シンプルで効果的な動的デュアルアライメント・アグリゲーションネットワーク(D2A2)を提案する。 D2A2は主に 1)学習可能なドメインアライメントブロックを介してモーダルアライメントを緩和し、オフセットを学習して幾何学的にクロスモーダル特徴を整列する動的双対アライメントモジュール 2) マスク・ツー・ピクセル特徴集約モジュールは,rgb特徴から無関係なテクスチャノイズを除去し,有用な特徴を奥行き特徴と組み合わせるために,ゲート機構と画素注意を使用する。 RGB画像による障害を最小限に抑えつつ,RGBの強度と深度特性を組み合わせることで,基本部品の再利用と再設計により,複数のベンチマークデータセット上での最先端性能を実現する。 コードはhttps://github.com/jiangxinni/d2a2で入手できる。

Guided depth super-resolution (GDSR) involves restoring missing depth details using the high-resolution RGB image of the same scene. Previous approaches have struggled with the heterogeneity and complementarity of the multi-modal inputs, and neglected the issues of modal misalignment, geometrical misalignment, and feature selection. In this study, we rethink some essential components in GDSR networks and propose a simple yet effective Dynamic Dual Alignment and Aggregation network (D2A2). D2A2 mainly consists of 1) a dynamic dual alignment module that adapts to alleviate the modal misalignment via a learnable domain alignment block and geometrically align cross-modal features by learning the offset; and 2) a mask-to-pixel feature aggregate module that uses the gated mechanism and pixel attention to filter out irrelevant texture noise from RGB features and combine the useful features with depth features. By combining the strengths of RGB and depth features while minimizing disturbance introduced by the RGB image, our method with simple reuse and redesign of basic components achieves state-of-the-art performance on multiple benchmark datasets. The code is available at https://github.com/JiangXinni/D2A2.
翻訳日:2024-01-17 15:02:11 公開日:2024-01-16
# CycLight: サイクルレベルの戦略による交通信号の協調学習

CycLight: learning traffic signal cooperation with a cycle-level strategy ( http://arxiv.org/abs/2401.08121v1 )

ライセンス: Link先を確認
Gengyue Han, Xiaohan Liu, Xianyue Peng, Hao Wang, Yu Han(参考訳) 本研究では,ネットワークレベル適応交通信号制御(NATSC)システムのための新しいサイクルレベル深部強化学習(RL)手法であるCycLightを紹介する。 ステップバイステップの決定に重点を置く従来のRLベースのトラヒックコントローラとは異なり、CycLightはサイクルレベルの戦略を採用し、サイクル長を最適化し、パラメータ化されたディープ・ネットワークワークス(PDQN)アルゴリズムを使用して同時に分割する。 このサイクルレベルのアプローチは、実世界のアプリケーションの実用性と安全性を高めつつ、頻繁なデータ通信に関連する計算負荷を効果的に低減する。 マルチエージェント協調のために分散フレームワークを定式化し、現在の交差点における周囲の影響を正確に評価するために注意機構を統合する。 CycLightは、顕微鏡トラフィックシミュレーションツールSUMOを用いて、大規模な合成トラフィックグリッドでテストされる。 実験結果は,CycLightが他の最先端アプローチよりも優れていることを示すだけでなく,情報伝送遅延に対する堅牢性を示す。

This study introduces CycLight, a novel cycle-level deep reinforcement learning (RL) approach for network-level adaptive traffic signal control (NATSC) systems. Unlike most traditional RL-based traffic controllers that focus on step-by-step decision making, CycLight adopts a cycle-level strategy, optimizing cycle length and splits simultaneously using Parameterized Deep Q-Networks (PDQN) algorithm. This cycle-level approach effectively reduces the computational burden associated with frequent data communication, meanwhile enhancing the practicality and safety of real-world applications. A decentralized framework is formulated for multi-agent cooperation, while attention mechanism is integrated to accurately assess the impact of the surroundings on the current intersection. CycLight is tested in a large synthetic traffic grid using the microscopic traffic simulation tool, SUMO. Experimental results not only demonstrate the superiority of CycLight over other state-of-the-art approaches but also showcase its robustness against information transmission delays.
翻訳日:2024-01-17 15:01:44 公開日:2024-01-16
# SpecSTG:確率的時空間トラフィック予測のための高速スペクトル拡散フレームワーク

SpecSTG: A Fast Spectral Diffusion Framework for Probabilistic Spatio-Temporal Traffic Forecasting ( http://arxiv.org/abs/2401.08119v1 )

ライセンス: Link先を確認
Lequan Lin, Dai Shi, Andi Han, Junbin Gao(参考訳) 時空間グラフ(STG)学習の重要な応用である交通予測は、伝統的に正確な点推定のための決定論的モデルに依存してきた。 しかし、これらのモデルは将来の観測で予期せぬボラティリティの潜在的なリスクを特定するのに不足している。 このギャップに対処するため、確率的手法、特に拡散モデルの変種は不確実性を考慮した解として現れた。 しかし,既存の拡散手法では,トラヒックネットワーク内の個々のセンサに対して,将来的な時系列生成に重点を置いているため,確率的学習過程における空間ネットワーク特性の関与が不十分である。 交通データに固有の空間的依存関係と体系的パターンをよりよく活用するために,新しいスペクトル拡散フレームワークSpecSTGを提案する。 本手法は,将来の時系列のフーリエ表現を生成し,空間情報に富むスペクトル領域へ学習過程を変換する。 さらに,フーリエ入力用に設計された高速スペクトルグラフ畳み込みを取り入れ,既存モデルに関連する計算負荷を軽減する。 数値実験によりspecstgは、最先端のベースラインと比較して、トラフィックフローとトラヒックスピードデータセットで優れた性能を達成していることが示された。 SpecSTGのソースコードはhttps://anonymous.4open.science/r/SpecSTGで入手できる。

Traffic forecasting, a crucial application of spatio-temporal graph (STG) learning, has traditionally relied on deterministic models for accurate point estimations. Yet, these models fall short of identifying latent risks of unexpected volatility in future observations. To address this gap, probabilistic methods, especially variants of diffusion models, have emerged as uncertainty-aware solutions. However, existing diffusion methods typically focus on generating separate future time series for individual sensors in the traffic network, resulting in insufficient involvement of spatial network characteristics in the probabilistic learning process. To better leverage spatial dependencies and systematic patterns inherent in traffic data, we propose SpecSTG, a novel spectral diffusion framework. Our method generates the Fourier representation of future time series, transforming the learning process into the spectral domain enriched with spatial information. Additionally, our approach incorporates a fast spectral graph convolution designed for Fourier input, alleviating the computational burden associated with existing models. Numerical experiments show that SpecSTG achieves outstanding performance with traffic flow and traffic speed datasets compared to state-of-the-art baselines. The source code for SpecSTG is available at https://anonymous.4open.science/r/SpecSTG.
翻訳日:2024-01-17 15:01:27 公開日:2024-01-16
# E2HQV:理論に基づくモデル支援ディープラーニングによるイベントカメラからの高品質ビデオ生成

E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning ( http://arxiv.org/abs/2401.08117v1 )

ライセンス: Link先を確認
Qiang Qu, Yiran Shen, Xiaoming Chen, Yuk Ying Chung, and Tongliang Liu(参考訳) バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセル毎の明るさ変化(イベントストリームと呼ばれる)を非同期に捉えることができる。 しかし、非構造的時空間イベントストリームは、人間の視覚に対する豊かな意味情報による直感的な可視化を提供することが困難である。 イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する。 しかし、現在のソリューションは、イベントストリームとビデオフレームに関する基礎となる統計の事前知識を考慮せずに、データ駆動型である。 ディープニューラルネットワークの非線形性と一般化能力に大きく依存しており、シーンが複雑である場合の詳細なテクスチャの再構築に苦労している。 本稿では,イベントから高品質のビデオフレームを生成するための新しいe2vパラダイムである \textbf{e2hqv}を提案する。 このアプローチは、モデル支援のディープラーニングフレームワークを活用し、理論にインスパイアされたE2Vモデルによって支えられている。 E2HQVのリカレントコンポーネントにおける状態リセットの問題に対処するために、ビデオフレームの品質をさらに向上させるために、時間シフト埋め込みモジュールを設計する。 実世界のイベントカメラデータセットに関する包括的な評価は、E2HQVによる我々のアプローチを検証する。

The bio-inspired event cameras or dynamic vision sensors are capable of asynchronously capturing per-pixel brightness changes (called event-streams) in high temporal resolution and high dynamic range. However, the non-structural spatial-temporal event-streams make it challenging for providing intuitive visualization with rich semantic information for human vision. It calls for events-to-video (E2V) solutions which take event-streams as input and generate high quality video frames for intuitive visualization. However, current solutions are predominantly data-driven without considering the prior knowledge of the underlying statistics relating event-streams and video frames. It highly relies on the non-linearity and generalization capability of the deep neural networks, thus, is struggling on reconstructing detailed textures when the scenes are complex. In this work, we propose \textbf{E2HQV}, a novel E2V paradigm designed to produce high-quality video frames from events. This approach leverages a model-aided deep learning framework, underpinned by a theory-inspired E2V model, which is meticulously derived from the fundamental imaging principles of event cameras. To deal with the issue of state-reset in the recurrent components of E2HQV, we also design a temporal shift embedding module to further improve the quality of the video frames. Comprehensive evaluations on the real world event camera datasets validate our approach, with E2HQV, notably outperforming state-of-the-art approaches, e.g., surpassing the second best by over 40\% for some evaluation metrics.
翻訳日:2024-01-17 15:01:07 公開日:2024-01-16
# No-Clean-Reference Image Super-Resolution: 電子顕微鏡への応用

No-Clean-Reference Image Super-Resolution: Application to Electron Microscopy ( http://arxiv.org/abs/2401.08115v1 )

ライセンス: Link先を確認
Mohammad Khateri, Morteza Ghahremani, Alejandra Sierra, and Jussi Tohka(参考訳) きれいな高分解能電子顕微鏡(EM)画像が大きな脳組織の体積で取得できないことは、多くの神経科学研究を妨げている。 この課題に対処するために,広視野(FoV)でクリーンなHR 3D-EMを,ノイズの多い低分解能(LR)取得から再構成する,深層学習に基づく画像超解像(SR)手法を提案する。 Our contributions are I) Investigating training with no-clean references for $\ell_2$ and $\ell_1$ loss functions; II) Introducing a novel network architecture, named EMSR, for enhancing the resolution of LR EM images while reducing inherent noise; and, III) Comparing different training strategies including using acquired LR and HR image pairs, i.e., real pairs with no-clean references contaminated with real corruptions, the pairs of synthetic LR and acquired HR, as well as acquired LR and denoised HR pairs. 9つの脳データセットを用いた実験により、実際のペアによるトレーニングは高品質な超解決結果を生み出すことができ、両方の損失関数に対する非クリーン参照によるトレーニングの可能性が示された。 さらに, 視覚的, 数値的にも, 聴覚的, 雑音的に比較した結果が得られた。 さらに,HR画像から生成したLR画像を用いてトレーニングしたネットワークを利用することで,実対よりも良好なSR結果が得られることがわかった。 提案するSRネットワークは,いくつかの確立されたSR手法と定量的・定性的に比較し,ノイズ低減において提案手法の優位性と競合性を示す。

The inability to acquire clean high-resolution (HR) electron microscopy (EM) images over a large brain tissue volume hampers many neuroscience studies. To address this challenge, we propose a deep-learning-based image super-resolution (SR) approach to computationally reconstruct clean HR 3D-EM with a large field of view (FoV) from noisy low-resolution (LR) acquisition. Our contributions are I) Investigating training with no-clean references for $\ell_2$ and $\ell_1$ loss functions; II) Introducing a novel network architecture, named EMSR, for enhancing the resolution of LR EM images while reducing inherent noise; and, III) Comparing different training strategies including using acquired LR and HR image pairs, i.e., real pairs with no-clean references contaminated with real corruptions, the pairs of synthetic LR and acquired HR, as well as acquired LR and denoised HR pairs. Experiments with nine brain datasets showed that training with real pairs can produce high-quality super-resolved results, demonstrating the feasibility of training with non-clean references for both loss functions. Additionally, comparable results were observed, both visually and numerically, when employing denoised and noisy references for training. Moreover, utilizing the network trained with synthetically generated LR images from HR counterparts proved effective in yielding satisfactory SR results, even in certain cases, outperforming training with real pairs. The proposed SR network was compared quantitatively and qualitatively with several established SR techniques, showcasing either the superiority or competitiveness of the proposed method in mitigating noise while recovering fine details.
翻訳日:2024-01-17 15:00:39 公開日:2024-01-16
# 移動型非接触型パームプリント認識:マルチスケールマルチモデル埋め込みの利用

Mobile Contactless Palmprint Recognition: Use of Multiscale, Multimodel Embeddings ( http://arxiv.org/abs/2401.08111v1 )

ライセンス: Link先を確認
Steven A. Grosz, Akash Godbole and Anil K. Jain(参考訳) 接触のないヤシプリントは、グローバルとローカルの両方の差別的特徴から成り立っている。 本研究は, パームプリントマッチングのためのグローバルな特徴や局所的な特徴の抽出に焦点をあてる一方で, パームプリントマッチングの精度を高めるために, グローバルな特徴と局所的な特徴を組み合わせた新しい枠組みを導入する。 近年のディープラーニングの進歩を活かし,視覚トランスフォーマ(vit)と畳み込みニューラルネットワーク(cnn)を統合し,局所的およびグローバル的な特徴を補完的に抽出した。 次に、Palm-IDと呼ばれる、モバイルベースのエンドツーエンドのパームプリント認識システムを開発する。 ViTとCNNの機能に加えて、Palm-IDはパームプリント拡張モジュールと効率的な次元削減(高速マッチング)を備えている。 Palm-IDは精度とレイテンシのトレードオフをバランスさせ、サイズ516バイトのテンプレートを抽出するのに18msしか必要とせず、128スレッドを使用したAMD EPYC 7543 32-Core CPU上の0.33msのパームプリントギャラリーに対して効率よく検索できる。 大規模運用データセットのクロスデータベースマッチングプロトコルと評価は、提案手法の堅牢性を示し、新たに収集された時間分離データセット上で、FAR=0.01%で98.06%のTARを達成する。 エンド・ツー・エンドシステムの実用的展開を示すため、認識パイプライン全体がモバイルデバイスに埋め込まれ、ユーザのプライバシとセキュリティが向上する。

Contactless palmprints are comprised of both global and local discriminative features. Most prior work focuses on extracting global features or local features alone for palmprint matching, whereas this research introduces a novel framework that combines global and local features for enhanced palmprint matching accuracy. Leveraging recent advancements in deep learning, this study integrates a vision transformer (ViT) and a convolutional neural network (CNN) to extract complementary local and global features. Next, a mobile-based, end-to-end palmprint recognition system is developed, referred to as Palm-ID. On top of the ViT and CNN features, Palm-ID incorporates a palmprint enhancement module and efficient dimensionality reduction (for faster matching). Palm-ID balances the trade-off between accuracy and latency, requiring just 18ms to extract a template of size 516 bytes, which can be efficiently searched against a 10,000 palmprint gallery in 0.33ms on an AMD EPYC 7543 32-Core CPU utilizing 128-threads. Cross-database matching protocols and evaluations on large-scale operational datasets demonstrate the robustness of the proposed method, achieving a TAR of 98.06% at FAR=0.01% on a newly collected, time-separated dataset. To show a practical deployment of the end-to-end system, the entire recognition pipeline is embedded within a mobile device for enhanced user privacy and security.
翻訳日:2024-01-17 15:00:02 公開日:2024-01-16
# 時間反転型ハイブリッド量子状態転移における成功確率

Success probabilities in time reversal based hybrid quantum state transfer ( http://arxiv.org/abs/2401.08110v1 )

ライセンス: Link先を確認
Kevin J. Randles, S. J. van Enk(参考訳) 量子ネットワークの2つのメモリノードを空飛ぶ量子ビットで接続する。 特に、ひとつのノードが生成するフライングキュービットを、次のノードと効率的にインターフェースできる前に変換する必要がある場合に興味があります。 このような変換は、量子状態の分布の重要な部分として利用することができ、したがって異なる量子技術を結合するハイブリッド量子ネットワークのノード間の絡み合いとなる。 実際の飛行キュービットのスペクトル形状と理想形状の重なりによって, 界面の接触が成功する確率が決定される方法と理由を示す。 これにより,実際の誤差が成功の確率に与える影響を解析的および数値的に解析し,量子ネットワークのハイブリッドノードを接続する手法(既知の誤り訂正法と一致して)の有用性を示すことができる。 ここでは、メモリノードがキャビティ内の3レベル原子とフライングキュービットが光子である具体的な実装に焦点を当てる。

We consider two memory nodes of a quantum network connected by flying qubits. We are particularly interested in the case where a flying qubit produced by one node has to be transformed before it can interface efficiently with the next node. Such transformations can be utilized as a key part of the distribution of quantum states and hence entanglement between the nodes of a hybrid quantum network linking together different quantum technologies. We show how and why the probability of interfacing successfully is determined by the overlap of the spectral shape of the actual flying qubit and the ideal shape. This allows us to analytically and numerically analyze how the probability of success is impacted by realistic errors, and show the utility of our scheme (in consonance with known error correction methods) in connecting hybrid nodes of a quantum network. We focus here on a concrete implementation in which the memory nodes consist of three-level atoms in cavities and the flying qubits are photons.
翻訳日:2024-01-17 14:59:36 公開日:2024-01-16
# ブラインド画像品質評価のための深部形状テクスチャ統計

Deep Shape-Texture Statistics for Completely Blind Image Quality Evaluation ( http://arxiv.org/abs/2401.08107v1 )

ライセンス: Link先を確認
Yixuan Li, Peilin Chen, Hanwei Zhu, Keyan Ding, Leida Li, and Shiqi Wang(参考訳) 評価モデル(ou-biqa)は、基準画像や主観的品質スコアを訓練することなく、画像品質を予測することを目的としている。 画像の統計的比較は古典的なパラダイムであり、視覚ディスクリプタの表現能力によって性能が制限される。 視覚ディスクリプタとしての深い特徴は、最近の研究でIQAを進化させたが、それらはテクスチャバイアスが高く、形状バイアスが欠如していることが判明した。 この結果から,画像形状やテクスチャの手がかりが歪みに対して異なる反応を示し,両者の欠如が不完全な画像表現をもたらすことがわかった。 そこで,画像の詳細な統計的記述を定式化するために,深層ニューラルネットワーク(dnn)が生成する形状バイアスとテクスチャバイアスの深い特徴を同時に利用する。 具体的には, 形状情報とテクスチャ情報を融合する形状適応融合 (STAF) モジュールを設計し, 品質関連画像統計を定式化する。 内面と外面の形状・テクスチュア統計(DSTS)の変種Mahalanobis Distanceにより知覚品質を定量化し、内面と外面の統計では、歪んだ画像と自然画像の良質な指紋をそれぞれ記述する。 提案したDSTSは,深部領域における異なるデータスケール間の形状・テクスチャの統計的関係を微妙に利用し,人工歪みのある画像に対して,最先端(SOTA)品質予測性能を実現する。

Opinion-Unaware Blind Image Quality Assessment (OU-BIQA) models aim to predict image quality without training on reference images and subjective quality scores. Thereinto, image statistical comparison is a classic paradigm, while the performance is limited by the representation ability of visual descriptors. Deep features as visual descriptors have advanced IQA in recent research, but they are discovered to be highly texture-biased and lack of shape-bias. On this basis, we find out that image shape and texture cues respond differently towards distortions, and the absence of either one results in an incomplete image representation. Therefore, to formulate a well-round statistical description for images, we utilize the shapebiased and texture-biased deep features produced by Deep Neural Networks (DNNs) simultaneously. More specifically, we design a Shape-Texture Adaptive Fusion (STAF) module to merge shape and texture information, based on which we formulate qualityrelevant image statistics. The perceptual quality is quantified by the variant Mahalanobis Distance between the inner and outer Shape-Texture Statistics (DSTS), wherein the inner and outer statistics respectively describe the quality fingerprints of the distorted image and natural images. The proposed DSTS delicately utilizes shape-texture statistical relations between different data scales in the deep domain, and achieves state-of-the-art (SOTA) quality prediction performance on images with artificial and authentic distortions.
翻訳日:2024-01-17 14:59:20 公開日:2024-01-16
# ドローンネットワーク上でのリアルタイムワイルドファイア検出のためのハードウェアアクセラレーション

Hardware Acceleration for Real-Time Wildfire Detection Onboard Drone Networks ( http://arxiv.org/abs/2401.08105v1 )

ライセンス: Link先を確認
Austin Briley, Fatemeh Afghah(参考訳) 遠隔地や森林地帯における早期の山火事検出は、破壊の最小化と生態系の保全に不可欠である。 自律ドローンは、リモートで困難な地形へのアジャイルアクセスを提供し、高時間解像度と詳細な空間解像度の両方を提供する高度な撮像技術を備えており、山火事の早期発見と監視に貴重な資産となっている。 しかし、無人航空機(UAV)の限られた計算量とバッテリー資源は、堅牢で効率的な画像分類モデルを実装する上で大きな課題を生んでいる。 この領域の現在の動作はしばしばオフラインで動作し、UAVの制約を考慮して、リアルタイムで推論できるソリューションの必要性を強調している。 これらの課題に対処するため,本稿はリアルタイム画像分類と火災分断モデルの構築を目的とする。 Jetson Nano P3450を用いたハードウェアアクセラレーションに関する包括的な調査と、NVIDIAの高性能ディープラーニング推論ライブラリであるTensorRTが、火災分類精度と速度に与える影響について述べる。 この研究には、QAT(Quantization Aware Training)、AMP(Automatic Mixed Precision)、およびポストトレーニングメカニズムの実装が含まれており、ファイアセグメンテーションと分類のための最新のベースラインと比較されている。 すべての実験では、所定の森林火災時に低高度ドローンが収集したFLAMEデータセットを使用している。 この研究は、UAVのリアルタイム・オンボードの山火事検出機能の実現、速度とこれらの重要な監視システムの計算とエネルギーの制約への取り組みに貢献する。 その結果,ハードウェア最適化のない類似モデルと比較して分類速度が13%向上した。 比較すると、損失と精度は元の値の1.225%以内である。

Early wildfire detection in remote and forest areas is crucial for minimizing devastation and preserving ecosystems. Autonomous drones offer agile access to remote, challenging terrains, equipped with advanced imaging technology that delivers both high-temporal and detailed spatial resolution, making them valuable assets in the early detection and monitoring of wildfires. However, the limited computation and battery resources of Unmanned Aerial Vehicles (UAVs) pose significant challenges in implementing robust and efficient image classification models. Current works in this domain often operate offline, emphasizing the need for solutions that can perform inference in real time, given the constraints of UAVs. To address these challenges, this paper aims to develop a real-time image classification and fire segmentation model. It presents a comprehensive investigation into hardware acceleration using the Jetson Nano P3450 and the implications of TensorRT, NVIDIA's high-performance deep-learning inference library, on fire classification accuracy and speed. The study includes implementations of Quantization Aware Training (QAT), Automatic Mixed Precision (AMP), and post-training mechanisms, comparing them against the latest baselines for fire segmentation and classification. All experiments utilize the FLAME dataset - an image dataset collected by low-altitude drones during a prescribed forest fire. This work contributes to the ongoing efforts to enable real-time, on-board wildfire detection capabilities for UAVs, addressing speed and the computational and energy constraints of these crucial monitoring systems. The results show a 13% increase in classification speed compared to similar models without hardware optimization. Comparatively, loss and accuracy are within 1.225% of the original values.
翻訳日:2024-01-17 14:58:50 公開日:2024-01-16
# 適応実験におけるCATEの個人差分推定

Differentially Private Estimation of CATE in Adaptive Experiment ( http://arxiv.org/abs/2401.08224v1 )

ライセンス: Link先を確認
Jiachun Li, David Simchi-Levi and Kaining Shi(参考訳) 適応実験は、臨床試験やその他の多くのシナリオで条件付き平均治療効果(cate)を推定するために広く採用されている。 実験の主目的は,社会的福祉の必須性から,推定精度を最大化することであるが,文脈的バンディットフレームワークにおける後悔によって測定される患者に優れた結果をもたらす治療を行うことも重要である。 これらの2つの目的はしばしばコントラスト最適割当機構に繋がる。 さらに、患者の健康記録のような機密データを含む臨床シナリオにプライバシー上の懸念が生じる。 したがって, 堅牢なプライバシー保護対策を組み込むためには, 治療割当機構が不可欠である。 本稿では,社会福祉の喪失と統計力とのトレードオフを文脈的バンディット実験で検討する。 多目的最適化問題に対して一致した上界と下界を提案し、次いでパレート最適性の概念を採用して最適条件を数学的に特徴づける。 さらに,プライバシが「ほぼ自由」であることを示す,下限にまだ一致する微分プライベートアルゴリズムを提案する。 さらに,統計的推論や仮説検定に必須な推定器の漸近正規性も導出する。

Adaptive experiment is widely adopted to estimate conditional average treatment effect (CATE) in clinical trials and many other scenarios. While the primary goal in experiment is to maximize estimation accuracy, due to the imperative of social welfare, it's also crucial to provide treatment with superior outcomes to patients, which is measured by regret in contextual bandit framework. These two objectives often lead to contrast optimal allocation mechanism. Furthermore, privacy concerns arise in clinical scenarios containing sensitive data like patients health records. Therefore, it's essential for the treatment allocation mechanism to incorporate robust privacy protection measures. In this paper, we investigate the tradeoff between loss of social welfare and statistical power in contextual bandit experiment. We propose a matched upper and lower bound for the multi-objective optimization problem, and then adopt the concept of Pareto optimality to mathematically characterize the optimality condition. Furthermore, we propose differentially private algorithms which still matches the lower bound, showing that privacy is "almost free". Additionally, we derive the asymptotic normality of the estimator, which is essential in statistical inference and hypothesis testing.
翻訳日:2024-01-17 14:51:27 公開日:2024-01-16
# MARIO: MAth Reasoning with Code Interpreter Output -- 再現可能なパイプライン

MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline ( http://arxiv.org/abs/2401.08190v1 )

ライセンス: Link先を確認
Minpeng Liao, Wei Luo, Chengxi Li, Jing Wu, Kai Fan(参考訳) 大規模言語モデル(llm)は自然言語理解タスクにおいてかなりの進歩を遂げてきたが、真の人工知能に到達する前には、特に数学的推論能力の欠点に関して橋渡しのギャップが残っている。 我々は、次のトークンの確率を予測することに焦点を当てたLLMトレーニングの本質的な性質が、データ駆動と理論の両方の観点から正確な計算を必要とする数学的推論を効果的にモデル化する上での課題を提起する。 本稿では,データランドスケープを豊かにし,pythonコードインタプリタを活用した新しい数学データセットを導入することで,この課題に対処する。 このデータセットはGSM8KとMATHから派生したもので、オリジナルのGSM8Kトレーニングセットのエラーが修正されたGPT-4アノテーション、ヒューマンレビュー、自己学習プロセスの組み合わせによってさらに洗練されている。 さらに,GSM8KおよびMATHデータセット上での 7B パラメータ LLM の性能向上に寄与する,数学固有の LLM の微調整のための仮的かつ容易に複製可能なプロトコルを提案する。 LLMにおける数学的推論の分野を推し進めることにコミットしており、そのためにモデルチェックポイントを作成し、データセットを公開します。 これがコミュニティ内のさらなる研究と開発を促進することを願っています。

Large language models (LLMs) have seen considerable advancements in natural language understanding tasks, yet there remains a gap to bridge before attaining true artificial general intelligence, especially concerning shortcomings in mathematical reasoning capabilities. We postulate that the inherent nature of LLM training, which focuses on predicting probabilities of next token, presents challenges in effectively modeling mathematical reasoning that demands exact calculations, both from data-driven and theoretical standpoints. In this paper, we address this challenge by enriching the data landscape and introducing a novel math dataset, enhanced with a capability to utilize a Python code interpreter. This dataset is derived from GSM8K and MATH and has been further refined through a combination of GPT-4 annotations, human review, and self-training processes, where the errors in the original GSM8K training set have been fixed. Additionally, we propose a tentative, easily replicable protocol for the fine-tuning of math-specific LLMs, which has led to a significant improvement in the performance of a 7B-parameter LLM on the GSM8K and MATH datasets. We are committed to advancing the field of mathematical reasoning in LLMs and, to that end, we have made the model checkpoints and will make the dataset publicly available. We hope this will facilitate further research and development within the community.
翻訳日:2024-01-17 14:51:10 公開日:2024-01-16
# Prewrite: 強化学習によるプロンプト書き換え

PRewrite: Prompt Rewriting with Reinforcement Learning ( http://arxiv.org/abs/2401.08189v1 )

ライセンス: Link先を確認
Weize Kong and Spurthi Amba Hombaiah and Mingyang Zhang and Qiaozhu Mei and Michael Bendersky(参考訳) プロンプトエンジニアリングはLLMベースのアプリケーションの開発に不可欠である。 しかし、通常は手動で "trial and error" 形式で行われる。 この手動手順は、時間消費、非効率であり、生成されたプロンプトは、多くの場合、副最適化である。 たとえプロンプトがうまく機能しているように見えるとしても、常に疑問が残る。 これらの問題に対処するため,本稿では,迅速なエンジニアリング自動化について検討する。 開発者やユーザが初期プロンプトをドラフトしたものの、最適化する時間や専門知識がない、特定のユースケースシナリオを検討します。 我々はこれらのドラフトを書き換え、非常に効果的な新しいプロンプトを生成する自動化ツールであるPRewriteを提案する。 PRewriteは、エンドツーエンドの最適化を可能にするReinforcement Learning (RL)フレームワークをベースにしています。 自動ツールは、手作業によるプロンプトを出発点として活用し、書き直し手順をより指導的かつ効率的にする。 生成されたプロンプトは人間の読みやすいものであり、以前の作品と異なり自己説明的である。 多様なデータセットについて広範な実験を行い,この手法で生成されたプロンプトがプロのプロのプロンプトを上回るだけでなく,他の提案手法で生成されたプロンプトよりも優れていることを発見した。

Prompt engineering is critical for the development of LLM-based applications. However, it is usually done manually in a "trial and error" fashion. This manual procedure can be time consuming, ineffective, and the generated prompts are, in a lot of cases, sub-optimal. Even for the prompts which seemingly work well, there is always a lingering question: can the prompts be made better with further modifications? To address these questions, in this paper, we investigate prompt engineering automation. We consider a specific use case scenario in which developers/users have drafted initial prompts, but lack the time/expertise to optimize them. We propose PRewrite, an automated tool to rewrite these drafts and to generate highly effective new prompts. PRewrite is based on the Reinforcement Learning (RL) framework which allows for end-to-end optimization and our design allows the RL search to happen in a large action space. The automated tool leverages manually crafted prompts as starting points which makes the rewriting procedure more guided and efficient. The generated prompts are human readable, and self-explanatory, unlike some of those in previous works. We conducted extensive experiments on diverse datasets and found that the prompts generated with this new method not only outperform professionally crafted prompts, but also prompts generated with other previously proposed methods.
翻訳日:2024-01-17 14:50:47 公開日:2024-01-16
# 効率良く計算可能な量子回路のための統一フレームワーク

Unified framework for efficiently computable quantum circuits ( http://arxiv.org/abs/2401.08187v1 )

ライセンス: Link先を確認
Igor Ermakov, Oleg Lychkovskiy, Tim Byrnes(参考訳) クリフォードとマッチゲートからなる量子回路は、古典的コンピュータ上で効率的にシミュレートできる2種類の回路である。 我々は,これらの回路を効率的にシミュラブルできる特殊構造を透過的に示す統一フレームワークを提案する。 このアプローチは、量子回路の進化中に基底演算子のネットワーク内に広がる演算子の解析に依存する。 しきい値以上の振幅を持つ演算子の数で計算の複雑性を定量化することにより、初期指数関数的成長、飽和、そしてデコヒーレンスの存在下で指数的崩壊を含む複雑性曲線の一般形式が存在することを示す。 我々の手法は自然に数値的な手順に適応し、シミュレーションの複雑さの関数としてエラーを一貫して制御できる。

Quantum circuits consisting of Clifford and matchgates are two classes of circuits that are known to be efficiently simulatable on a classical computer. We introduce a unified framework that shows in a transparent way the special structure that allows these circuits can be efficiently simulatable. The approach relies on analyzing the operator spread within a network of basis operators during the evolution of quantum circuit. Quantifying the complexity of a calculation by the number of operators with amplitude above a threshold value, we show that there is a generic form of the complexity curve involving an initial exponential growth, saturation, then exponential decay in the presence of decoherence. Our approach is naturally adaptable into a numerical procedure, where errors can be consistently controlled as a function of the complexity of the simulation.
翻訳日:2024-01-17 14:50:25 公開日:2024-01-16
# DPAFNet:Dual Path Attention Fusion Network for Single Image Deraining

DPAFNet:Dual Path Attention Fusion Network for Single Image Deraining ( http://arxiv.org/abs/2401.08185v1 )

ライセンス: Link先を確認
Bingcai Wei(参考訳) 雨天は、画像システムの定期的な運用に重大な影響を及ぼすだろう。 この前提に基づいて、画像雨の除去は、低レベルの視覚タスク、特にディープニューラルネットワークを使った手法の一般的なブランチである。 しかし、ほとんどのニューラルネットワークは、畳み込みニューラルネットワークやトランスフォーマーのみを使用するなど、画像特徴の多次元融合には不適当である。 本稿では,この問題を解決するために,二重分岐型注意融合ネットワークを提案する。 まず,二分岐ネットワーク構造を提案する。 次に,2つの枝から抽出した特徴を単に加えるのではなく選択的に融合させるために,注意融合モジュールを提案する。 最後に,完全アブレーション実験と十分な比較実験により,提案手法の合理性と有効性を示す。

Rainy weather will have a significant impact on the regular operation of the imaging system. Based on this premise, image rain removal has always been a popular branch of low-level visual tasks, especially methods using deep neural networks. However, most neural networks are but-branched, such as only using convolutional neural networks or Transformers, which is unfavourable for the multidimensional fusion of image features. In order to solve this problem, this paper proposes a dual-branch attention fusion network. Firstly, a two-branch network structure is proposed. Secondly, an attention fusion module is proposed to selectively fuse the features extracted by the two branches rather than simply adding them. Finally, complete ablation experiments and sufficient comparison experiments prove the rationality and effectiveness of the proposed method.
翻訳日:2024-01-17 14:50:11 公開日:2024-01-16
# 拡散モデルを用いたキーポイント誘導変形画像マニピュレーション

Key-point Guided Deformable Image Manipulation Using Diffusion Model ( http://arxiv.org/abs/2401.08178v1 )

ライセンス: Link先を確認
Seok-Hwan Oh, Guil Jung, Myeong-Gee Kim, Sang-Yun Kim, Young-Min Kim, Hyeon-Jik Lee, Hyuk-Sool Kwon, Hyeon-Min Bae(参考訳) 本稿では,キーポイント制御による拡散確率モデル(kdm,key-point-guided diffusion probabilistic model)を提案する。 中間出力として光フローマップを組み込んだ2段階生成モデルを提案する。 これにより、画像とスパースキーポイントのセマンティクス関係の高密度な画素ワイズ理解が構成され、より現実的な画像生成につながる。 さらに、光学フローの統合は、シーケンシャルな画像のフレーム間分散を制御し、真にシーケンシャルな画像生成を示す。 KDMは、顔画像生成、ヒトのポーズ合成、心エコー画像予測など、さまざまなキーポイント条件付き画像合成タスクを用いて評価され、KDMは、最先端のモデルと比較して一貫性とフォトリアリスティックなイメージを実証している。

In this paper, we introduce a Key-point-guided Diffusion probabilistic Model (KDM) that gains precise control over images by manipulating the object's key-point. We propose a two-stage generative model incorporating an optical flow map as an intermediate output. By doing so, a dense pixel-wise understanding of the semantic relation between the image and sparse key point is configured, leading to more realistic image generation. Additionally, the integration of optical flow helps regulate the inter-frame variance of sequential images, demonstrating an authentic sequential image generation. The KDM is evaluated with diverse key-point conditioned image synthesis tasks, including facial image generation, human pose synthesis, and echocardiography video prediction, demonstrating the KDM is proving consistency enhanced and photo-realistic images compared with state-of-the-art models.
翻訳日:2024-01-17 14:49:57 公開日:2024-01-16
# Box Prompt-based Segmentation Foundation Model を用いたオブジェクトインスタンスの完全付加・拡張

Completely Occluded and Dense Object Instance Segmentation Using Box Prompt-Based Segmentation Foundation Models ( http://arxiv.org/abs/2401.08174v1 )

ライセンス: Link先を確認
Zhen Zhou, Junfeng Fan, Yunkai Ma, Sihan Zhao, Fengshui Jing, Min Tan(参考訳) 完全に隠蔽され、密集したオブジェクトインスタンスセグメンテーション(IS)は重要かつ困難なタスクである。 現在のアモーダルIS法は、隠蔽対象の見えない領域を予測できるが、完全に隠蔽対象を直接予測することは困難である。 密度の高いオブジェクトの場合、既存のboxベースのメソッドは、バウンディングボックス検出の性能に過度に依存する。 本稿では,箱型プロンプトベースセグメンテーション基盤モデル(bsms)に基づく,完全にオクルードで密接なオブジェクトのための粗いisフレームワークであるcfnetを提案する。 具体的には、cfnetは最初に向き付けられた境界ボックス(obbs)を検出してインスタンスを識別し、粗いローカライゼーション情報を提供する。 次に,OBBプロンプト関連マスクの微細セグメンテーションを予測する。 完全に隠蔽されたオブジェクトインスタンスを予測するため、CFNetはOccluder上でISを実行し、それ以前の幾何学的特性を利用する。 さらに、BSMに基づいて、CFNetはバウンディングボックス検出性能への依存を低減し、高密度オブジェクトIS性能を向上させる。 さらに,BSMのための新しいOBBプロンプトエンコーダを提案する。 CFNetをより軽量にするために,知識蒸留を行い,教師対象に対するガウス的平滑化手法を導入する。 実験の結果,CFNetは産業用および公用両方のデータセット上で最高の性能を発揮することがわかった。

Completely occluded and dense object instance segmentation (IS) is an important and challenging task. Although current amodal IS methods can predict invisible regions of occluded objects, they are difficult to directly predict completely occluded objects. For dense object IS, existing box-based methods are overly dependent on the performance of bounding box detection. In this paper, we propose CFNet, a coarse-to-fine IS framework for completely occluded and dense objects, which is based on box prompt-based segmentation foundation models (BSMs). Specifically, CFNet first detects oriented bounding boxes (OBBs) to distinguish instances and provide coarse localization information. Then, it predicts OBB prompt-related masks for fine segmentation. To predict completely occluded object instances, CFNet performs IS on occluders and utilizes prior geometric properties, which overcomes the difficulty of directly predicting completely occluded object instances. Furthermore, based on BSMs, CFNet reduces the dependence on bounding box detection performance, improving dense object IS performance. Moreover, we propose a novel OBB prompt encoder for BSMs. To make CFNet more lightweight, we perform knowledge distillation on it and introduce a Gaussian smoothing method for teacher targets. Experimental results demonstrate that CFNet achieves the best performance on both industrial and publicly available datasets.
翻訳日:2024-01-17 14:49:42 公開日:2024-01-16
# ディープリニアアレイプッブルーム画像復元 : 劣化パイプラインとジッタアウェア復元ネットワーク

Deep Linear Array Pushbroom Image Restoration: A Degradation Pipeline and Jitter-Aware Restoration Network ( http://arxiv.org/abs/2401.08171v1 )

ライセンス: Link先を確認
Zida Chen, Ziran Zhang, Haoying Li, Menghao Li, Yueting Chen, Qi Li, Huajun Feng, Zhihai Xu, Shiqi Chen(参考訳) リニアアレイプッシュブルーム(LAP)イメージング技術はリモートセンシングの領域で広く利用されている。 しかし、LAPで取得した画像は、常にカメラジッタのために歪みやぼやけに悩まされる。 点拡散関数(PSF)を推定するアルゴリズムなど、従来のLAP画像の復元手法は、限られた性能を示す。 この問題に対処するため,二段階の歪みとぼかしを除去するjitter-Aware Restoration Network (JARNet)を提案する。 第1段階では,光学的流れ補正(OFC)ブロックを定式化し,劣化したLAP画像の光学的流れを改良し,歪みの大部分を緩和した補正画像を生成する。 第2段階では、補正済み画像のさらなる向上のために、空間及び周波数残差(SFRe)ブロックに2つのジッタ認識技術を統合する。 1) 直交方向のジッタ状態を取得するために,SFRブロックにコーディネート注意(CoA)を導入する。 2)局所的および大域的優先順位を活用するために,空間領域と周波数領域の両方で画像特徴を操作する。 さらに,LAP画像の現実的な劣化をシミュレートするために,連続動的撮影モデル(CDSM)を適用したデータ合成パイプラインを開発した。 提案されたjarnetとlapイメージ合成パイプラインは、この複雑な課題に対処するための基盤を確立する。 広汎な実験により,提案手法は最先端画像復元モデルより優れていることが示された。 コードはhttps://github.com/JHW2000/JARNetで入手できる。

Linear Array Pushbroom (LAP) imaging technology is widely used in the realm of remote sensing. However, images acquired through LAP always suffer from distortion and blur because of camera jitter. Traditional methods for restoring LAP images, such as algorithms estimating the point spread function (PSF), exhibit limited performance. To tackle this issue, we propose a Jitter-Aware Restoration Network (JARNet), to remove the distortion and blur in two stages. In the first stage, we formulate an Optical Flow Correction (OFC) block to refine the optical flow of the degraded LAP images, resulting in pre-corrected images where most of the distortions are alleviated. In the second stage, for further enhancement of the pre-corrected images, we integrate two jitter-aware techniques within the Spatial and Frequency Residual (SFRes) block: 1) introducing Coordinate Attention (CoA) to the SFRes block in order to capture the jitter state in orthogonal direction; 2) manipulating image features in both spatial and frequency domains to leverage local and global priors. Additionally, we develop a data synthesis pipeline, which applies Continue Dynamic Shooting Model (CDSM) to simulate realistic degradation in LAP images. Both the proposed JARNet and LAP image synthesis pipeline establish a foundation for addressing this intricate challenge. Extensive experiments demonstrate that the proposed two-stage method outperforms state-of-the-art image restoration models. Code is available at https://github.com/JHW2000/JARNet.
翻訳日:2024-01-17 14:49:18 公開日:2024-01-16
# ビジョントランスにおけるアテンションマップの統計的テスト

Statistical Test for Attention Map in Vision Transformer ( http://arxiv.org/abs/2401.08169v1 )

ライセンス: Link先を確認
Tomohiro Shiraishi, Daiki Miwa, Teruyuki Katsuoka, Vo Nguyen Le Duy, Koichi Taji, Ichiro Takeuchi(参考訳) Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて例外的な性能を示す。 ViTは、画像パッチ間の複雑な広範関係をキャプチャし、画像パッチの重要性を考慮し、意思決定プロセスの理解を支援することが重要である。 しかし,ViTの注意を医療診断などの高い意思決定課題の証拠として活用する場合,非関連領域に誤って注目する注意機構の可能性から課題が生じる。 本研究では,ViTの注意度を統計的に評価し,その注意度を精度の高い定量的な指標として,厳密に制御された誤り率を用いて評価する。 選択推論と呼ばれるフレームワークを用いて,p-値の形で注意の統計的意義を定量化し,注意の偽陽性検出確率を理論的に定量化する。 脳画像診断への数値実験と応用を通して,提案手法の有効性と有効性を示す。

The Vision Transformer (ViT) demonstrates exceptional performance in various computer vision tasks. Attention is crucial for ViT to capture complex wide-ranging relationships among image patches, allowing the model to weigh the importance of image patches and aiding our understanding of the decision-making process. However, when utilizing the attention of ViT as evidence in high-stakes decision-making tasks such as medical diagnostics, a challenge arises due to the potential of attention mechanisms erroneously focusing on irrelevant regions. In this study, we propose a statistical test for ViT's attentions, enabling us to use the attentions as reliable quantitative evidence indicators for ViT's decision-making with a rigorously controlled error rate. Using the framework called selective inference, we quantify the statistical significance of attentions in the form of p-values, which enables the theoretically grounded quantification of the false positive detection probability of attentions. We demonstrate the validity and the effectiveness of the proposed method through numerical experiments and applications to brain image diagnoses.
翻訳日:2024-01-17 14:48:52 公開日:2024-01-16
# 多視点データからのコミュニティ検出の基本限界:多層,動的,部分ラベル付きブロックモデル

Fundamental limits of community detection from multi-view data: multi-layer, dynamic and partially labeled block models ( http://arxiv.org/abs/2401.08167v1 )

ライセンス: Link先を確認
Xiaodong Yang, Buyu Lin, Subhabrata Sen(参考訳) 例えば、社会ネットワーク分析における個人間の複数タイプの関係、観察単位間の相互作用の経時的測定、雑音を伴う頂点の部分的ラベル付けを含む注釈付きネットワークなどである。 これらの異なる環境におけるコミュニティ検出を統一的な理論的枠組みを用いて検討し,コミュニティ回復のための基礎的しきい値について検討した。 次数が十分大きい場合,データと潜在パラメータ間の相互情報を特徴付ける。 この一般的な結果に基づいて i) 不均一多層ブロックモデル \citep{chen2022global} におけるコミュニティ検出のための鋭い閾値を導出する。 (ii)動的確率ブロックモデル \citep{matias2017statistical} における弱回復のための鋭い閾値の特徴と, (iii)不均衡部分ラベルブロックモデルにおける制限された相互情報を特定する。 最初の2つの結果は、特定の関数に対するモジュラー座標的凸性仮定から導かれる。 最後に,これらの問題に対するコミュニティ検出のための近似メッセージパッシングに基づく反復アルゴリズムを提案する。

Multi-view data arises frequently in modern network analysis e.g. relations of multiple types among individuals in social network analysis, longitudinal measurements of interactions among observational units, annotated networks with noisy partial labeling of vertices etc. We study community detection in these disparate settings via a unified theoretical framework, and investigate the fundamental thresholds for community recovery. We characterize the mutual information between the data and the latent parameters, provided the degrees are sufficiently large. Based on this general result, (i) we derive a sharp threshold for community detection in an inhomogeneous multilayer block model \citep{chen2022global}, (ii) characterize a sharp threshold for weak recovery in a dynamic stochastic block model \citep{matias2017statistical}, and (iii) identify the limiting mutual information in an unbalanced partially labeled block model. Our first two results are derived modulo coordinate-wise convexity assumptions on specific functions -- we provide extensive numerical evidence for their correctness. Finally, we introduce iterative algorithms based on Approximate Message Passing for community detection in these problems.
翻訳日:2024-01-17 14:48:35 公開日:2024-01-16
# ROI重み付き歪みとビットアロケーションによる学習画像圧縮

Learned Image Compression with ROI-Weighted Distortion and Bit Allocation ( http://arxiv.org/abs/2401.08154v1 )

ライセンス: Link先を確認
Wei Jiang, Yongqi Zhai, Hangyu Li, Ronggang Wang(参考訳) 本稿では,画像圧縮の追跡方法について述べる。 より優れた知覚品質を実現するために,現実的なテクスチャを生成するために対向損失を用い,関心領域(ROI)マスクを用いて異なる領域のビット割り当てを誘導する。 私たちのチーム名はTLICです。

This one page paper describes our method for the track of image compression. To achieve better perceptual quality, we use the adversarial loss to generate realistic textures, use region of interest (ROI) mask to guide the bit allocation for different regions. Our Team name is TLIC.
翻訳日:2024-01-17 14:48:19 公開日:2024-01-16
# agile meets quantum: 量子ソフトウェア開発プロジェクトの成功を予測するための新しい遺伝的アルゴリズムモデル

Agile Meets Quantum: A Novel Genetic Algorithm Model for Predicting the Success of Quantum Software Development Project ( http://arxiv.org/abs/2401.08151v1 )

ライセンス: Link先を確認
Arif Ali Khan, Muhammad Azeem Akbar, Valtteri Lahtinen, Marko Paavola(参考訳) コンテキスト: 量子ソフトウェアシステムは、量子ビット(量子ビット)と量子ゲート(qgate)を利用して、複雑な問題を解決するソフトウェア工学における新しい領域を表している。 この研究は、量子ソフトウェアプロジェクトにおける伝統的なアジャイルアプローチの採用を阻害し、アジャイルな量子ソフトウェアプロジェクトの成功予測モデル(aqsspm)を開発する上での課題の重要な原因を調査します。 方法論: まず、weは、前回の研究では議論された挑戦的な要因の19の要因を特定しました。 第二に、これらの原因について専門家の意見を集めるために調査が行われ、NAi ve Bayes Classifier (NBC) と Logistic Regression (LR) を応用してAQSSPM結果を開発した: GAをNBCで利用することで、プロジェクトの成功確率は53.17%から99.68%に改善され、コストは0.463%から0.403%に削減された。 同様に、LRのGAは成功率を55.52%から98.99%に引き上げ、コストは100回のイテラティオンで0.496%から0.409%に減少した。 その結果, 両者の相関は強い(rs=0.955)が, 有意差は認められなかった(t=1.195, p=0.240>0.05)。 結論: AQSSPMは、特定のプロジェクトのコスト要因を考慮して、アジャイル量子プロジェクトを効率的かつうまく実装するための重要な焦点領域を強調している。

Context: Quantum software systems represent a new realm in software engineering, utilizing quantum bits (Qubits) and quantum gates (Qgates) to solve the complex problems more efficiently than classical counterparts . Agile software development approaches are considered to address many inherent challenges in quantum software development, but their effective integration remains unexplored Objective: This study investigates key causes of challenges that could hinders the adoption of traditional agile approaches in quantum software projects and develop an Agile Quantum Software Project Success Prediction Model (AQSSPM). Methodology: Firstly, w e identified 19 causes of challenging factors discussed in our previous study, which are potentially impacting agile quantum project success. Secondly, a survey was conducted to collect expert opinions on these causes and applied Genetic Algorithm (GA) with Na i ve Bayes Classifier (NBC) and Logistic Regression (LR) to develop the AQSSPM Results: Utilizing GA with NBC, project success probability improved from 53.17% to 99.68%, with cost reductions from 0.463% to 0.403%. Similarly, GA with LR increased success rates from 55.52% to 98.99%, and costs decreased from 0.496% to 0.409% after 100 iterati ons. Both methods result showed a strong positive correlation (rs=0.955) in causes ranking, with no significant difference between them (t=1.195, p=0.240>0.05). Conclusion: The AQSSPM highlights critical focus areas for efficiently and successfully implementing agile quantum projects considering the cost factor of a particular project
翻訳日:2024-01-17 14:48:13 公開日:2024-01-16
# 微分プライベートスライス逆回帰:ミニマックス最適性とアルゴリズム

Differentially Private Sliced Inverse Regression: Minimax Optimality and Algorithm ( http://arxiv.org/abs/2401.08150v1 )

ライセンス: Link先を確認
Xintao Xia, Linjun Zhang, Zhanrui Cai(参考訳) プライバシー保護は、データ駆動アプリケーションの普及により、高次元データ分析において重要な関心事となっている。 Li (1991) が提唱した逆回帰は、十分な統計情報を維持しながら共変量次元を減少させるために広く利用される統計手法として登場した。 本稿では,十分な次元削減の文脈において,プライバシー問題に対処するために特別に設計された最適微分プライベートアルゴリズムを提案する。 低次元と高次元の両方において、微分プライベートな逆回帰のための下界を確立する。 さらに,最小限の最小境界を対数因子まで達成する差分プライベートアルゴリズムを開発した。 シミュレーションと実データ解析を組み合わせることで,プライバシを保護しつつ,次元空間内の重要な情報を保存しながら,これらの差分プライベートアルゴリズムの有効性を示す。 自然拡張として、統計的および機械学習コミュニティにとって潜在的に興味を持つ可能性のある、微分的スパース主成分分析のための類似の下限および上限を提供することができる。

Privacy preservation has become a critical concern in high-dimensional data analysis due to the growing prevalence of data-driven applications. Proposed by Li (1991), sliced inverse regression has emerged as a widely utilized statistical technique for reducing covariate dimensionality while maintaining sufficient statistical information. In this paper, we propose optimally differentially private algorithms specifically designed to address privacy concerns in the context of sufficient dimension reduction. We proceed to establish lower bounds for differentially private sliced inverse regression in both the low and high-dimensional settings. Moreover, we develop differentially private algorithms that achieve the minimax lower bounds up to logarithmic factors. Through a combination of simulations and real data analysis, we illustrate the efficacy of these differentially private algorithms in safeguarding privacy while preserving vital information within the reduced dimension space. As a natural extension, we can readily offer analogous lower and upper bounds for differentially private sparse principal component analysis, a topic that may also be of potential interest to the statistical and machine learning community.
翻訳日:2024-01-17 14:47:42 公開日:2024-01-16
# 動的グラフによる機械学習: アプリケーションに関する調査

Machine Learning on Dynamic Graphs: A Survey on Applications ( http://arxiv.org/abs/2401.08147v1 )

ライセンス: Link先を確認
Sanaz Hasanzadeh Fard(参考訳) 動的グラフ学習は、様々な実世界および科学領域にわたるエンティティ間の複雑なインタラクションをモデル化する強力な手段を提供するため、大きな注目を集めている。 特に、グラフは輸送、脳、社会、インターネットネットワークといった多様なネットワークの効果的な表現として機能する。 さらに、機械学習の急速な進歩は、前述の領域を越えて動的グラフアプリケーションの範囲を広げた。 本稿では,動的グラフ学習のより探索の少ない応用について概説する。 本研究は,様々な領域にまたがる課題に対する動的グラフ上での機械学習の可能性を明らかにするものである。

Dynamic graph learning has gained significant attention as it offers a powerful means to model intricate interactions among entities across various real-world and scientific domains. Notably, graphs serve as effective representations for diverse networks such as transportation, brain, social, and internet networks. Furthermore, the rapid advancements in machine learning have expanded the scope of dynamic graph applications beyond the aforementioned domains. In this paper, we present a review of lesser-explored applications of dynamic graph learning. This study revealed the potential of machine learning on dynamic graphs in addressing challenges across diverse domains, including those with limited levels of association with the field.
翻訳日:2024-01-17 14:47:26 公開日:2024-01-16
# 二次近似最適化アルゴリズムの最適パラメータのインスタンス依存性について:インスタンス空間解析による考察

On the Instance Dependence of Optimal Parameters for the Quadratic Approximate Optimisation Algorithm: Insights via Instance Space Analysis ( http://arxiv.org/abs/2401.08142v1 )

ライセンス: Link先を確認
Vivek Katial, Kate Smith-Miles, Charles Hill(参考訳) 量子近似最適化アルゴリズム(QAOA)の性能は、回路の各層における最適パラメータの設定に依存する。 これは簡単な作業ではなく、風景が「不毛の高原」のような問題に悩まされているときに最適なパラメータを見つけるという課題に多くの文献が焦点を当てている。 最適なパラメータを探索するのに利用できる最適化ヒューリスティックには多くの選択肢があり、それぞれに独自のパラメータとパフォーマンスに影響を与える初期化選択がある。 近年では、このような最適パラメータ探索が必要かどうかという疑問が提起され、特定のタイプの問題インスタンスに対して、最適なパラメータが特定の値に集中する傾向が示されている。 しかし、これらの既存の研究はMaxCutの特定のインスタンスクラスのみを調べており、インスタンス独立性の主張が様々なインスタンスに適用されるかどうかは不明である。 本稿では,インスタンス空間解析を用いて,QAOAの性能に対するインスタンス特性の依存性について検討する。 最大カット問題に着目し,パラメータ初期化戦略の有効性を評価し,量子インスタンスベースパラメータ初期化(qibpi)と呼ばれるインスタンス特性に基づく新しい初期化手法を提案する。 本研究は,初期化パラメータの選択におけるインスタンス特性の洞察を用いることで,QAOA性能が向上することを明らかにする。 また、特定のインスタンスクラス内では、より小さなインスタンスのパラメータがより大きなインスタンスに転送可能であることも示しています。 この研究は、量子アルゴリズムのさらなるインスタンス空間解析の基礎を提供し、より広範なインスタンスのクラスが、特定のよく研究されたテスト問題やクラスに限らないよう検討することを奨励する。

The performance of the Quantum Approximate Optimisation Algorithm (QAOA) relies on the setting of optimal parameters in each layer of the circuit. This is no trivial task, and much literature has focused on the challenge of finding optimal parameters when the landscape is plagued with problems such as "barren plateaus". There are many choices of optimisation heuristics that can be used to search for optimal parameters, each with its own parameters and initialisation choices that affect performance. More recently, the question of whether such optimal parameter search is even necessary has been posed, with some studies showing that optimal parameters tend to be concentrated on certain values for specific types of problem instances. However, these existing studies have only examined specific instance classes of MaxCut, so it is uncertain if the claims of instance independence apply to a diverse range of instances. In this paper, we use Instance Space Analysis to study the dependence of instance characteristics on the performance of QAOA. Focusing on the MaxCut problem, we assess the effectiveness of parameter initialisation strategies and introduce a new initialisation approach based on instance characteristics called Quantum Instance-Based Parameter Initialisation (QIBPI). This study reveals that using insights about instance characteristics in choosing initialisation parameters can improve QAOA performance. We also show that, within certain instance classes, parameters from smaller instances can be transferred to larger ones. This research provides a foundation for further instance space analysis for quantum algorithms and encourages a broader class of instances to be considered to ensure conclusions are not limited to particular well-studied test problems or classes.
翻訳日:2024-01-17 14:47:17 公開日:2024-01-16
# セルオートマトンオントロジー、ビット、量子ビットおよびディラック方程式

Cellular automaton ontology, bits, qubits, and the Dirac equation ( http://arxiv.org/abs/2401.08253v1 )

ライセンス: Link先を確認
Hans-Thomas Elze(参考訳) 量子力学のセルオートマトン解釈のコーナーストーンは、置換によって進化する存在論的状態である。 我々はこれを古典的なイジングスピンチェーンでレビューし、説明する。 連続体極限におけるワイル方程式と関係があることが示されている。 しかし、離散スピンやビットのモデルは、わずかに変形しただけでは、重ね合わせを生成して量子ビットのモデルになることは避けられない。 本研究では, 質量項に関連しない信号速度の変化について検討する。 後者を組み込むために、ディラック方程式を 1+1 次元で考慮し、その基礎となる独立決定論的「ネックレスのネックレス」オートマトンを、オントロジ的とみなす。

Cornerstones of the Cellular Automaton Interpretation of Quantum Mechanics are its ontological states that evolve by permutations, in this way never creating would-be quantum mechanical superposition states. We review and illustrate this with a classical Ising spin chain. It is shown that it can be related to the Weyl equation in the continuum limit. Yet, the model of discrete spins or bits unavoidably becomes a model of qubits by generating superpositions, if only slightly deformed. We study modifications of its signal velocity which, however, do not relate to mass terms. To incorporate the latter, we consider the Dirac equation in 1+1 dimensions and sketch an underlying discrete deterministic "necklace of necklaces" automaton that qualifies as ontological.
翻訳日:2024-01-17 14:38:41 公開日:2024-01-16
# グラフ学習の視点からの$k$ in $k$NNグラフの最適化

Optimizing $k$ in $k$NN Graphs with Graph Learning Perspective ( http://arxiv.org/abs/2401.08245v1 )

ライセンス: Link先を確認
Asuka Tamaru, Junya Hara, Hiroshi Higashi, Yuichi Tanaka, Antonio Ortega(参考訳) 本稿では,グラフ信号処理に基づいて,隣接するグラフ (k$NNGs) に対して$k$ in $k$-nearest の選択を最適化する手法を提案する。 $k$NNは最も一般的なアプローチの1つで、機械学習や信号処理で広く使われている。 パラメータ$k$は、ターゲットノードに接続されている隣人の数を表すが、その適切な選択は依然として難しい問題である。 したがって、ほとんどの$k$NNGは$k$のアドホックセレクションメソッドを使用する。 提案手法では,各ノードに対して異なる$k$が選択可能であると仮定する。 離散最適化問題を定式化し、連結ノード間の距離の和に制約のある最良の$k$を求める。 最適な$k$値は、複雑な最適化を解かずに効率的に得られる。 さらに,提案手法は既存のグラフ学習手法と密接に関連していることを明らかにした。 本手法を用いて得られた$k$NNGsは,実データセットで実験した結果,各ノードあたりのエッジの適切な変数数を決定することができることがわかった。 提案手法の有効性を検証し,典型的な点群(数千個のノードなど)にスケール可能な達成可能なグラフ構築法と比較した。

In this paper, we propose a method, based on graph signal processing, to optimize the choice of $k$ in $k$-nearest neighbor graphs ($k$NNGs). $k$NN is one of the most popular approaches and is widely used in machine learning and signal processing. The parameter $k$ represents the number of neighbors that are connected to the target node; however, its appropriate selection is still a challenging problem. Therefore, most $k$NNGs use ad hoc selection methods for $k$. In the proposed method, we assume that a different $k$ can be chosen for each node. We formulate a discrete optimization problem to seek the best $k$ with a constraint on the sum of distances of the connected nodes. The optimal $k$ values are efficiently obtained without solving a complex optimization. Furthermore, we reveal that the proposed method is closely related to existing graph learning methods. In experiments on real datasets, we demonstrate that the $k$NNGs obtained with our method are sparse and can determine an appropriate variable number of edges per node. We validate the effectiveness of the proposed method for point cloud denoising, comparing our denoising performance with achievable graph construction methods that can be scaled to typical point cloud sizes (e.g., thousands of nodes).
翻訳日:2024-01-17 14:38:25 公開日:2024-01-16
# 形状特徴工学による風速と風力予測能力の向上:精度とロバスト性の向上のための新しいアプローチ

Enhancing Wind Speed and Wind Power Forecasting Using Shape-Wise Feature Engineering: A Novel Approach for Improved Accuracy and Robustness ( http://arxiv.org/abs/2401.08233v1 )

ライセンス: Link先を確認
Mulomba Mukendi Christian, Yun Seon Kim, Hyebong Choi, Jaeyoung Lee, SongHee You(参考訳) 風速と電力の正確な予測は、風力エネルギーシステムの効率を高めるために不可欠である。 これまでに多くのソリューションが実装され、予測を改善する可能性を示している。 これらのうち、深層学習はこの分野における革命的なアプローチとみなされている。 しかし、その効果にもかかわらず、収集されたデータに存在するノイズは依然として大きな課題である。 このノイズはこれらのアルゴリズムの性能を低下させ、不正確な予測をもたらす可能性がある。 これに対し,本研究では,新しい特徴工学的アプローチを探求する。 このアプローチでは、様々な予測地平線に対する畳み込みニューラルネットワーク-Long Short-Term Memory (CNN-LSTM)とAutoregressiveモデルの両方でデータ入力形状を変更する。 その結果、ステップ増加によるノイズに対するモデルレジリエンスの大幅な向上が明らかになった。 このアプローチは、24番目のステップまで見えないデータを予測することで、83%の正確さを達成できます。 さらに, この手法は, 短時間, 中期, 長期の予測に対して常に高い精度を提供し, 個々のモデルの性能を向上する。 これらの知見は,形状的特徴工学による予測方向の異なるノイズ低減戦略のさらなる研究の道を開いた。

Accurate prediction of wind speed and power is vital for enhancing the efficiency of wind energy systems. Numerous solutions have been implemented to date, demonstrating their potential to improve forecasting. Among these, deep learning is perceived as a revolutionary approach in the field. However, despite their effectiveness, the noise present in the collected data remains a significant challenge. This noise has the potential to diminish the performance of these algorithms, leading to inaccurate predictions. In response to this, this study explores a novel feature engineering approach. This approach involves altering the data input shape in both Convolutional Neural Network-Long Short-Term Memory (CNN-LSTM) and Autoregressive models for various forecasting horizons. The results reveal substantial enhancements in model resilience against noise resulting from step increases in data. The approach could achieve an impressive 83% accuracy in predicting unseen data up to the 24th steps. Furthermore, this method consistently provides high accuracy for short, mid, and long-term forecasts, outperforming the performance of individual models. These findings pave the way for further research on noise reduction strategies at different forecasting horizons through shape-wise feature engineering.
翻訳日:2024-01-17 14:38:04 公開日:2024-01-16
# 自然言語ビデオローカライズのためのマルチスケール2次元時間地図拡散モデル

Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video Localization ( http://arxiv.org/abs/2401.08232v1 )

ライセンス: Link先を確認
Chongzhi Zhang, Mingyuan Zhang, Zhiyang Teng, Jiayi Li, Xizhou Zhu, Lewei Lu, Ziwei Liu, Aixin Sun(参考訳) 自然言語ビデオローカライゼーション(英語版)(nlvl)は、自然言語記述から対応するビデオセグメントへのフレーズの接地であり、ビデオ理解において複雑だが重要なタスクである。 進行中の進歩にもかかわらず、既存の多くのソリューションには、ビデオデータの時間的ダイナミクスをグローバルにキャプチャする能力がない。 本研究では,NLVLに対して,この問題に対処するための新しいアプローチを提案する。 提案手法では,入力ビデオと言語クエリに基づいて,条件付きデノナイズ拡散プロセスによるグローバル2次元時間マップの直接生成を行う。 主な課題は拡散デコーダを考案する際の2次元時間マップの空間性と不連続性である。 これらの課題に対処するために,マルチスケール手法を導入し,革新的な拡散デコーダを開発した。 提案手法は,クエリとビデオデータの相互作用を様々な時間スケールで効果的にカプセル化する。 CharadesとDiDeMoデータセットの実験は、私たちのデザインの有効性を強調します。

Natural Language Video Localization (NLVL), grounding phrases from natural language descriptions to corresponding video segments, is a complex yet critical task in video understanding. Despite ongoing advancements, many existing solutions lack the capability to globally capture temporal dynamics of the video data. In this study, we present a novel approach to NLVL that aims to address this issue. Our method involves the direct generation of a global 2D temporal map via a conditional denoising diffusion process, based on the input video and language query. The main challenges are the inherent sparsity and discontinuity of a 2D temporal map in devising the diffusion decoder. To address these challenges, we introduce a multi-scale technique and develop an innovative diffusion decoder. Our approach effectively encapsulates the interaction between the query and video data across various time scales. Experiments on the Charades and DiDeMo datasets underscore the potency of our design.
翻訳日:2024-01-17 14:37:46 公開日:2024-01-16
# 認証ニューラルネットワーク推論のための効率的かつ数学的ロバストな演算

Efficient and Mathematically Robust Operations for Certified Neural Networks Inference ( http://arxiv.org/abs/2401.08225v1 )

ライセンス: Link先を確認
Fabien Geyer, Johannes Freitag, Tobias Schulz, Sascha Uhrig(参考訳) 近年、機械学習(ml)とニューラルネットワーク(nns)は、特に都市空力用空飛ぶタクシー(uam)の出現を含む自律性を達成するための輸送において、さまざまなドメインで広く使われ、注目されている。 しかし、認証に関する懸念が浮上し、MLとNNパイプライン全体を含む標準化プロセスの開発が促進された。 本稿では,ieee 754浮動小数点演算に関する課題に注目し,代替数表現を提案する。 多様な要約とドット製品アルゴリズムを評価することで,非結合性に関わる問題を緩和することを目指している。 さらに,固定点演算の探索により,浮動小数点法に対する利点が明らかになり,ハードウェア効率が著しく向上した。 経験的アプローチを用いて、ビット幅最適化の固有の複雑さを考慮して、許容される精度を達成するために必要な最適なビット幅を確認する。

In recent years, machine learning (ML) and neural networks (NNs) have gained widespread use and attention across various domains, particularly in transportation for achieving autonomy, including the emergence of flying taxis for urban air mobility (UAM). However, concerns about certification have come up, compelling the development of standardized processes encompassing the entire ML and NN pipeline. This paper delves into the inference stage and the requisite hardware, highlighting the challenges associated with IEEE 754 floating-point arithmetic and proposing alternative number representations. By evaluating diverse summation and dot product algorithms, we aim to mitigate issues related to non-associativity. Additionally, our exploration of fixed-point arithmetic reveals its advantages over floating-point methods, demonstrating significant hardware efficiencies. Employing an empirical approach, we ascertain the optimal bit-width necessary to attain an acceptable level of accuracy, considering the inherent complexity of bit-width optimization.
翻訳日:2024-01-17 14:37:30 公開日:2024-01-16
# 不確定データの因果関係:ベースラインモデルと新しいデータセット

Towards Causal Relationship in Indefinite Data: Baseline Model and New Datasets ( http://arxiv.org/abs/2401.08221v1 )

ライセンス: Link先を確認
Hang Chen, Xinyu Yang, Keqing Du(参考訳) 深層学習と因果発見を統合することで、対話やビデオにおける因果構造と表現の学習が課題に満ちていることに気付きました。 これらのデータ形式を「不定値データ」と定義し,多構造データと多値表現を特徴とする。 既存の適応可能なデータ形式とは異なり、不定値データはまだデータセットとメソッドのギャップに直面している。 データセットギャップに対処するため、コーサログとコーサアクションの2つの高品質データセットをリリースし、それぞれ因果アノテーション付きテキスト対話サンプルとビデオアクションサンプルを含む。 さらに、この方法のギャップは、多構造データと多値表現の共存から生じ、現在のすべてのメソッドの仮定を破り、不確定データで実現できないものにする。 この目的のために,このギャップに3つの設計されたハイライトを取り入れた確率的フレームワークをベースラインとして提案する。 1)非固定因果構造の下でのノイズ項の独立を用いた表現の因果条件の設定 2)因果強度を潜在変数として扱い,相関空間における再構成損失を測定し, 3) 潜在共同設立者の影響を推定する。 これらのハイポイントにより、確率モデルは、多構造データと多値表現の共存によって引き起こされる課題を克服し、潜在共同創設者の拡張への道を開くことができる。 総合的な実験は、因果構造、因果表現、不整合の基本的な結果を評価する。

Integrating deep learning and causal discovery has encouraged us to spot that learning causal structures and representations in dialogue and video is full of challenges. We defined These data forms as "Indefinite Data", characterized by multi-structure data and multi-value representations. Unlike existing adaptable data forms, Indefinite Data still faces gaps in datasets and methods. To address the dataset gap, we release two high-quality datasets - Causalogue and Causaction, containing text dialogue samples and video action samples with causal annotations respectively. Moreover, the method gap arises from the coexistence of multi-structure data and multi-value representations, breaking the assumptions of all current methods and rendering them infeasible on Indefinite Data. To this end, we propose a probabilistic framework as a baseline, incorporating three designed highlights for this gap: 1) establishing Causation Condition of representations using the independence of noise terms under non-fixed causal structures, 2) treating causal strength as a latent variable and measuring the reconstruction loss in the correlation space, and 3) estimating the effects of latent confounders. These highpoints make the probabilistic model capable of overcoming challenges brought by the coexistence of multi-structure data and multi-value representations and pave the way for the extension of latent confounders. Comprehensive experiments have evaluated baseline results of causal structures, causal representations, and confounding disentanglement.
翻訳日:2024-01-17 14:37:14 公開日:2024-01-16
# フェデレーション学習における中毒攻撃からの効率的かつ認定された回復に向けて

Towards Efficient and Certified Recovery from Poisoning Attacks in Federated Learning ( http://arxiv.org/abs/2401.08216v1 )

ライセンス: Link先を確認
Yu Jiang, Jiyuan Shen, Ziyao Liu, Chee Wei Tan, Kwok-Yan Lam(参考訳) フェデレートラーニング(FL)は、悪意のあるクライアントがアップデートを操作してグローバルモデルに影響を与える攻撃に対して脆弱である。 FLでこれらのクライアントを検出する様々な方法が存在するが、悪意のあるクライアントを特定するには十分なモデル更新が必要である。 これにより、悪意のあるクライアントが特定された後に正確なグローバルモデルを取り戻す方法が必要となる。 現在の復旧方法は (i)参加しているflクライアントからのすべての履歴情報 (II) 悪質なクライアントの影響を受けない初期モデルは、ストレージと計算資源の需要が高まっている。 本稿では,高効率なリカバリがいまだに達成可能であることを示す。 (i)すべての歴史情報ではなく、選択された歴史情報 (ii)初期モデルよりも悪意のあるクライアントの影響を受けていない歴史的モデル。 このシナリオでは、同等のリカバリ性能を維持しながら、リカバリ速度を高速化し、メモリ消費を削減できる。 この概念に従えば,選択的情報記憶と適応モデルロールバックに依存する効率的かつ認定されたリカバリ手法である crab を導入する。 理論的には, カニが回収したグローバルモデルと, 列車で回収したモデルとの差は, 一定の仮定のもとに限定できることを示した。 複数の機械学習モデルにまたがる3つのデータセットにまたがる実験的な評価と、標的にされていないさまざまな毒殺攻撃により、Crabは正確かつ効率的であり、回復速度とメモリ消費の両方の観点から、従来よりも一貫して優れていることが判明した。

Federated learning (FL) is vulnerable to poisoning attacks, where malicious clients manipulate their updates to affect the global model. Although various methods exist for detecting those clients in FL, identifying malicious clients requires sufficient model updates, and hence by the time malicious clients are detected, FL models have been already poisoned. Thus, a method is needed to recover an accurate global model after malicious clients are identified. Current recovery methods rely on (i) all historical information from participating FL clients and (ii) the initial model unaffected by the malicious clients, leading to a high demand for storage and computational resources. In this paper, we show that highly effective recovery can still be achieved based on (i) selective historical information rather than all historical information and (ii) a historical model that has not been significantly affected by malicious clients rather than the initial model. In this scenario, while maintaining comparable recovery performance, we can accelerate the recovery speed and decrease memory consumption. Following this concept, we introduce Crab, an efficient and certified recovery method, which relies on selective information storage and adaptive model rollback. Theoretically, we demonstrate that the difference between the global model recovered by Crab and the one recovered by train-from-scratch can be bounded under certain assumptions. Our empirical evaluation, conducted across three datasets over multiple machine learning models, and a variety of untargeted and targeted poisoning attacks reveals that Crab is both accurate and efficient, and consistently outperforms previous approaches in terms of both recovery speed and memory consumption.
翻訳日:2024-01-17 14:36:52 公開日:2024-01-16
# 人間対LMM:デジタルコミュニケーションにおける絵文字解釈と利用の相違を探る

Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and Usage in Digital Communication ( http://arxiv.org/abs/2401.08212v1 )

ライセンス: Link先を確認
Hanjia Lyu, Weihong Qi, Zhongyu Wei, Jiebo Luo(参考訳) 大規模マルチモーダルモデル(LMM)を利用して、特にソーシャルメディアの文脈において、多モーダル情報を処理する際の人間の行動をシミュレートしている。 デジタルコミュニケーションの最もユニークな側面の1つである絵文字は、感情的次元と声調次元を豊かにし、しばしば明確化する上で重要な要素である。 しかし、これらの高度なモデル、例えばgpt-4vは、オンラインインタラクションのニュアンスコンテキストにおける絵文字の解釈と採用の仕方には、注目すべきギャップがある。 本研究は,人型絵文字の複製におけるGPT-4Vの挙動を調べることによって,このギャップを埋めることを目的とする。 この結果は、人間の解釈の主観的性質とGPT-4Vの英語中心の訓練の限界により、人間とGPT-4Vの行動に明確な相違があることを示し、非英語文化の文化的偏見と不十分な表現を示唆している。

Leveraging Large Multimodal Models (LMMs) to simulate human behaviors when processing multimodal information, especially in the context of social media, has garnered immense interest due to its broad potential and far-reaching implications. Emojis, as one of the most unique aspects of digital communication, are pivotal in enriching and often clarifying the emotional and tonal dimensions. Yet, there is a notable gap in understanding how these advanced models, such as GPT-4V, interpret and employ emojis in the nuanced context of online interaction. This study intends to bridge this gap by examining the behavior of GPT-4V in replicating human-like use of emojis. The findings reveal a discernible discrepancy between human and GPT-4V behaviors, likely due to the subjective nature of human interpretation and the limitations of GPT-4V's English-centric training, suggesting cultural biases and inadequate representation of non-English cultures.
翻訳日:2024-01-17 14:36:23 公開日:2024-01-16
# ModelNet-O: Occlusion-Aware Point Cloud 分類のための大規模合成データセット

ModelNet-O: A Large-Scale Synthetic Dataset for Occlusion-Aware Point Cloud Classification ( http://arxiv.org/abs/2401.08210v1 )

ライセンス: Link先を確認
Zhongbin Fang, Xia Li, Xiangtai Li, Shen Zhao, Mengyuan Liu(参考訳) 最近、3Dポイントクラウド分類は多くのデータセットの助けを借りて大きく進歩している。 しかし、これらのデータセットは、隠蔽によって引き起こされる現実世界の点雲の不完全な性質を反映していない。 このギャップを埋めるために,モノクロカメラの走査による自己閉塞で現実の点雲をエミュレートする,123,041サンプルの大規模合成データセットであるModelNet-Oを提案する。 ModelNet-Oは既存のデータセットの10倍の大きさで、既存のメソッドの堅牢性を評価する上でより困難なケースを提供します。 modelnet-o における観測結果から,適切に設計されたスパース構造は閉塞下の点雲の構造情報を保存できることが明らかとなり,多段階的にcps戦略を活用できるロバストな点雲処理法を提案する動機となった。 私たちはPointMLSと呼ぶ。 広範な実験を通じて、我々は、ModelNet-Oの最先端結果と通常のデータセットの競合結果を実現し、堅牢かつ効果的であることを実証した。 さらなる実験では、PointMLSの堅牢性と有効性も示されている。

Recently, 3D point cloud classification has made significant progress with the help of many datasets. However, these datasets do not reflect the incomplete nature of real-world point clouds caused by occlusion, which limits the practical application of current methods. To bridge this gap, we propose ModelNet-O, a large-scale synthetic dataset of 123,041 samples that emulate real-world point clouds with self-occlusion caused by scanning from monocular cameras. ModelNet-O is 10 times larger than existing datasets and offers more challenging cases to evaluate the robustness of existing methods. Our observation on ModelNet-O reveals that well-designed sparse structures can preserve structural information of point clouds under occlusion, motivating us to propose a robust point cloud processing method that leverages a critical point sampling (CPS) strategy in a multi-level manner. We term our method PointMLS. Through extensive experiments, we demonstrate that our PointMLS achieves state-of-the-art results on ModelNet-O and competitive results on regular datasets, and it is robust and effective. More experiments also demonstrate the robustness and effectiveness of PointMLS.
翻訳日:2024-01-17 14:36:04 公開日:2024-01-16
# ローカルウィンドウの限界を超越する:適応トークン辞書を用いた高度超解像トランス

Transcending the Limit of Local Window: Advanced Super-Resolution Transformer with Adaptive Token Dictionary ( http://arxiv.org/abs/2401.08209v1 )

ライセンス: Link先を確認
Leheng Zhang, Yawei Li, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu(参考訳) Single Image Super-Resolutionは、高解像度(HR)画像を低解像度(LR)画像から推定する古典的なコンピュータビジョン問題である。 ディープニューラルネットワーク(DNN)、特に超解像度のトランスフォーマーは近年大きな進歩を遂げているが、特にウィンドウベースの自己認識によって引き起こされる限定的な受容領域において、課題は依然として残っている。 これらの問題に対処するため、SR変換器に補助的なAdapeive Token Dictionaryを導入し、ATD-SR法を確立する。 導入されたトークン辞書は、トレーニングデータから事前情報を学習し、適応的な改良ステップを通じて、特定のテストイメージに先行して学習を適応させることができる。 改良戦略は、すべての入力トークンにグローバル情報を提供するだけでなく、イメージトークンをカテゴリにグループ化する。 さらに,カテゴリ分割に基づいて,遠距離だが類似したトークンを活用して入力機能を向上させるカテゴリベースの自己照応機構を提案する。 実験結果から,本手法は様々な単一画像超解像ベンチマークにおいて最高の性能が得られることがわかった。

Single Image Super-Resolution is a classic computer vision problem that involves estimating high-resolution (HR) images from low-resolution (LR) ones. Although deep neural networks (DNNs), especially Transformers for super-resolution, have seen significant advancements in recent years, challenges still remain, particularly in limited receptive field caused by window-based self-attention. To address these issues, we introduce a group of auxiliary Adapeive Token Dictionary to SR Transformer and establish an ATD-SR method. The introduced token dictionary could learn prior information from training data and adapt the learned prior to specific testing image through an adaptive refinement step. The refinement strategy could not only provide global information to all input tokens but also group image tokens into categories. Based on category partitions, we further propose a category-based self-attention mechanism designed to leverage distant but similar tokens for enhancing input features. The experimental results show that our method achieves the best performance on various single image super-resolution benchmarks.
翻訳日:2024-01-17 14:35:44 公開日:2024-01-16
# 大規模言語モデルを用いた生成型マルチモーダル知識検索

Generative Multi-Modal Knowledge Retrieval with Large Language Models ( http://arxiv.org/abs/2401.08206v1 )

ライセンス: Link先を確認
Xinwei Long, Jiali Zeng, Fandong Meng, Zhiyuan Ma, Kaiyan Zhang, Bowen Zhou, Jie Zhou(参考訳) マルチモーダルクエリによる知識検索は、知識集約型マルチモーダルアプリケーションをサポートする上で重要な役割を果たす。 しかしながら、既存の手法では、特にマルチモーダルクエリを処理するための複数のレトリバーのトレーニングと統合に関して、その有効性とトレーニング効率の面で課題に直面している。 本稿では,マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。 我々のフレームワークは,限られたデータで訓練しても,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。 2段階のプロセスで知識を取得する。 1)クエリに関する知識の手がかりを生成して, 2)知識情報を用いてデータベースを検索して関連文書を取得する。 特に,多粒度視覚学習を誘導するオブジェクト認識プレフィックスチューニング手法について紹介する。 次に,LLMのテキスト特徴空間に多粒度視覚特徴を配置し,LLMを用いてモーダル間相互作用を捉える。 その後、モデルトレーニングのための統一フォーマットで命令データを構築する。 最後に,デコードステップに事前制約を課すための知識誘導生成戦略を提案する。 3つのベンチマークで行った実験により、強いベースラインと比較して、すべての評価指標において3.0%から14.6%の大幅な改善が示された。

Knowledge retrieval with multi-modal queries plays a crucial role in supporting knowledge-intensive multi-modal applications. However, existing methods face challenges in terms of their effectiveness and training efficiency, especially when it comes to training and integrating multiple retrievers to handle multi-modal queries. In this paper, we propose an innovative end-to-end generative framework for multi-modal knowledge retrieval. Our framework takes advantage of the fact that large language models (LLMs) can effectively serve as virtual knowledge bases, even when trained with limited data. We retrieve knowledge via a two-step process: 1) generating knowledge clues related to the queries, and 2) obtaining the relevant document by searching databases using the knowledge clue. In particular, we first introduce an object-aware prefix-tuning technique to guide multi-grained visual learning. Then, we align multi-grained visual features into the textual feature space of the LLM, employing the LLM to capture cross-modal interactions. Subsequently, we construct instruction data with a unified format for model training. Finally, we propose the knowledge-guided generation strategy to impose prior constraints in the decoding steps, thereby promoting the generation of distinctive knowledge clues. Through experiments conducted on three benchmarks, we demonstrate significant improvements ranging from 3.0% to 14.6% across all evaluation metrics when compared to strong baselines.
翻訳日:2024-01-17 14:35:23 公開日:2024-01-16
# IsamasRed: RedditのイスラエルとHamasの対立に関する議論を追跡する公開データセット

IsamasRed: A Public Dataset Tracking Reddit Discussions on Israel-Hamas Conflict ( http://arxiv.org/abs/2401.08202v1 )

ライセンス: Link先を確認
Kai Chen, Zihao He, Keith Burghardt, Jingxin Zhang, Kristina Lerman(参考訳) イスラエルとパレスチナの紛争は2023年10月7日のハマス攻撃で激増し、世界的な注目を集めた。 2023年8月から2023年11月までの間に、約40万件の会話と800万件のredditからのコメントをまとめた、細心の注意深いデータセットを提示する。 本稿では,関連するキーワードを効果的に識別するために,大規模言語モデルを活用した革新的なキーワード抽出フレームワークを提案する。 データセットに関する最初の分析では、トピック、議論、感情的、道徳的な言語トレンドを調査し、会話の感情的チャージと複雑な性質を強調した。 このデータセットは、オンライン議論の理解を深めることを目的としており、デジタル空間におけるイデオロギー、感情、コミュニティエンゲージメントの間の複雑な相互作用に光を当てている。

The conflict between Israel and Palestinians significantly escalated after the October 7, 2023 Hamas attack, capturing global attention. To understand the public discourse on this conflict, we present a meticulously compiled dataset--IsamasRed--comprising nearly 400,000 conversations and over 8 million comments from Reddit, spanning from August 2023 to November 2023. We introduce an innovative keyword extraction framework leveraging a large language model to effectively identify pertinent keywords, ensuring a comprehensive data collection. Our initial analysis on the dataset, examining topics, controversy, emotional and moral language trends over time, highlights the emotionally charged and complex nature of the discourse. This dataset aims to enrich the understanding of online discussions, shedding light on the complex interplay between ideology, sentiment, and community engagement in digital spaces.
翻訳日:2024-01-17 14:35:04 公開日:2024-01-16
# ハイパーグラフによる行列補完:シャープ閾値と効率的なアルゴリズム

Matrix Completion with Hypergraphs:Sharp Thresholds and Efficient Algorithms ( http://arxiv.org/abs/2401.08197v1 )

ライセンス: Link先を確認
Zhongtian Ma, Qiaosheng Zhang and Zhen Wang(参考訳) 本稿では,ソーシャルグラフやハイパーグラフだけでなく,サブサンプル行列のエントリにもとづく評価行列の完成問題を考察する。 評価行列を完全完了させるタスクのサンプル確率に \emph{sharp threshold} が存在することを示す。 サンプル確率がしきい値以上であればそのタスクは達成可能であり、それ以外の場合は不可能である - 位相遷移現象を示す。 閾値はハイパーグラフの `quality'' の関数として表すことができ、ハイパーグラフの利用によるサンプル確率の減少の量を \emph{quantify} することができる。 これはまた、行列補完問題におけるハイパーグラフの有用性を強調する。 シャープしきい値を発見するために,観測されたグラフやハイパーグラフを効果的に活用する計算効率の良い行列補完アルゴリズムを開発した。 理論的解析により,サンプル確率が上記しきい値を超える限り,本アルゴリズムは高い確率で成功し,この理論結果は合成実験によりさらに検証された。 さらに、実際のソーシャルネットワークデータセット(グラフとハイパーグラフの両方)における実験では、アルゴリズムは他の最先端の行列補完アルゴリズムよりも優れています。

This paper considers the problem of completing a rating matrix based on sub-sampled matrix entries as well as observed social graphs and hypergraphs. We show that there exists a \emph{sharp threshold} on the sample probability for the task of exactly completing the rating matrix -- the task is achievable when the sample probability is above the threshold, and is impossible otherwise -- demonstrating a phase transition phenomenon. The threshold can be expressed as a function of the ``quality'' of hypergraphs, enabling us to \emph{quantify} the amount of reduction in sample probability due to the exploitation of hypergraphs. This also highlights the usefulness of hypergraphs in the matrix completion problem. En route to discovering the sharp threshold, we develop a computationally efficient matrix completion algorithm that effectively exploits the observed graphs and hypergraphs. Theoretical analyses show that our algorithm succeeds with high probability as long as the sample probability exceeds the aforementioned threshold, and this theoretical result is further validated by synthetic experiments. Moreover, our experiments on a real social network dataset (with both graphs and hypergraphs) show that our algorithm outperforms other state-of-the-art matrix completion algorithms.
翻訳日:2024-01-17 14:34:47 公開日:2024-01-16
# 周波数指向変換を用いたエンドツーエンド最適化画像圧縮

End-to-End Optimized Image Compression with the Frequency-Oriented Transform ( http://arxiv.org/abs/2401.08194v1 )

ライセンス: Link先を確認
Yuefeng Zhang and Kai Lin(参考訳) 画像圧縮は情報爆発の時代において重要な課題となっている。 近年のディープラーニング手法を用いた研究は,従来のコーデックよりも学習に基づく画像圧縮法の方が優れた性能を示した。 しかしながら、これらの方法に固有の課題は、解釈可能性の欠如にある。 周波数帯域幅の異なる圧縮劣化の程度を解析した結果,周波数指向変換によるエンドツーエンド最適化画像圧縮モデルを提案する。 提案するエンドツーエンド画像圧縮モデルは,空間サンプリング,周波数指向変換,エントロピー推定,周波数認識融合の4成分からなる。 周波数指向変換は、元の画像信号を異なる周波数帯域に分離し、人間の解釈可能な概念と整合する。 非重複仮説を活用することで、任意の周波数成分の選択的伝送によるスケーラブルな符号化が可能になる。 次世代標準H.266/VVCを含む従来のコーデックをMS-SSIMで比較した。 さらに,提案手法が信号レベルの精度以外に意味的忠実性を保てることを示すために,視覚解析タスク(オブジェクト検出とセマンティックセグメンテーション)を行う。

Image compression constitutes a significant challenge amidst the era of information explosion. Recent studies employing deep learning methods have demonstrated the superior performance of learning-based image compression methods over traditional codecs. However, an inherent challenge associated with these methods lies in their lack of interpretability. Following an analysis of the varying degrees of compression degradation across different frequency bands, we propose the end-to-end optimized image compression model facilitated by the frequency-oriented transform. The proposed end-to-end image compression model consists of four components: spatial sampling, frequency-oriented transform, entropy estimation, and frequency-aware fusion. The frequency-oriented transform separates the original image signal into distinct frequency bands, aligning with the human-interpretable concept. Leveraging the non-overlapping hypothesis, the model enables scalable coding through the selective transmission of arbitrary frequency components. Extensive experiments are conducted to demonstrate that our model outperforms all traditional codecs including next-generation standard H.266/VVC on MS-SSIM metric. Moreover, visual analysis tasks (i.e., object detection and semantic segmentation) are conducted to verify the proposed compression method could preserve semantic fidelity besides signal-level precision.
翻訳日:2024-01-17 14:34:28 公開日:2024-01-16
# LLMエージェントのリクルートへの応用:リソームスクリーニングのための新しいフレームワーク

Application of LLM Agents in Recruitment: A Novel Framework for Resume Screening ( http://arxiv.org/abs/2401.08315v1 )

ライセンス: Link先を確認
Chengguang Gan, Qinghao Zhang, Tatsunori Mori(参考訳) 再選審査の自動化は、組織における採用プロセスの重要な側面である。 自動再試行システムは、自然言語処理(NLP)タスクを多用することが多い。 LLM(Large Language Models)の出現は、これらのシステムの有効性を顕著に向上させ、様々な言語関連タスクにまたがる堅牢な一般化能力を示している。 これらの開発には LLM をベースとした様々なエージェントがあり、現実的なシナリオでの応用を促進する。 本稿では,リクルートプロセスの効率化と時間管理を目的とした,新しいLCMベースのエージェント・フレームワークを提案する。 私たちのフレームワークは、大きなデータセットからそれぞれの履歴書を効率的に要約し、評価する能力が異なります。 さらに、LLMエージェントを使用して意思決定し、どの候補者が求職するか、どの候補が面接を受けるかを決定する。 本フレームワークを評価するために,実際の履歴書からデータセットを構築し,履歴書スクリーニングプロセスのシミュレーションを行った。 その後,シミュレーション実験の結果を比較し,詳細な分析を行った。 その結果,自動再試行フレームワークは従来の手作業よりも11倍高速であることがわかった。 さらに, llmの微調整により, f1スコアが87.73\%まで大幅に向上したことを確認した。 履歴書要約と階調段階において,本モデルはgpt-3.5モデルのベースライン性能を上回った。 最終提案段階におけるLLMエージェントの意思決定効果の分析は、再試行過程の転換におけるLLMエージェントの可能性をさらに強調する。

The automation of resume screening is a crucial aspect of the recruitment process in organizations. Automated resume screening systems often encompass a range of natural language processing (NLP) tasks. The advent of Large Language Models (LLMs) has notably enhanced the efficacy of these systems, showcasing their robust generalization abilities across diverse language-related tasks. Accompanying these developments are various agents based on LLMs, which facilitate their application in practical scenarios. This paper introduces a novel LLM-based agent framework for resume screening, aimed at enhancing efficiency and time management in recruitment processes. Our framework is distinct in its ability to efficiently summarize and grade each resume from a large dataset. Moreover, it utilizes LLM agents for decision-making, determining which candidates receive job offers, or which ones to bring in for interviews. To evaluate our framework, we constructed a dataset from actual resumes and conducted simulate a resume screening process. Subsequently, the outcomes of the simulation experiment were compared and subjected to detailed analysis. The results demonstrate that our automated resume screening framework is 11 times faster than traditional manual methods. Furthermore, by fine-tuning the LLMs, we observed a significant improvement in the F1 score, reaching 87.73\%, during the resume sentence classification phase. In the resume summarization and grading phase, our fine-tuned model surpassed the baseline performance of the GPT-3.5 model. Analysis of the decision-making efficacy of the LLM agents in the final offer stage further underscores the potential of LLM agents in transforming resume screening processes.
翻訳日:2024-01-17 14:27:06 公開日:2024-01-16
# ファイス図書館

The Faiss library ( http://arxiv.org/abs/2401.08281v1 )

ライセンス: Link先を確認
Matthijs Douze and Alexandr Guzhva and Chengqi Deng and Jeff Johnson and Gergely Szilvasy and Pierre-Emmanuel Mazar\'e and Maria Lomeli and Lucas Hosseini and Herv\'e J\'egou(参考訳) ベクトルデータベースは、埋め込みベクトルの大規模なコレクションを管理する。 aiアプリケーションが急速に成長するにつれて、格納とインデックス化が必要な埋め込みの数も増えている。 Faissライブラリはベクトルデータベースの中核機能であるベクトル類似性検索に特化している。 faissはインデクシングメソッドと関連するプリミティブのツールキットで、ベクトルの検索、クラスタ化、圧縮、変換に使われる。 本稿ではまず,ベクトル探索のトレードオフ空間について述べる。次に,Faisの設計原理を,構造,最適化,インターフェースの観点から述べる。 ライブラリの重要な機能をベンチマークし、選択したいくつかのアプリケーションを議論して、その幅広い適用性を強調します。

Vector databases manage large collections of embedding vectors. As AI applications are growing rapidly, so are the number of embeddings that need to be stored and indexed. The Faiss library is dedicated to vector similarity search, a core functionality of vector databases. Faiss is a toolkit of indexing methods and related primitives used to search, cluster, compress and transform vectors. This paper first describes the tradeoff space of vector search, then the design principles of Faiss in terms of structure, approach to optimization and interfacing. We benchmark key features of the library and discuss a few selected applications to highlight its broad applicability.
翻訳日:2024-01-17 14:26:41 公開日:2024-01-16
# AesBench: 画像美学の知覚に基づくマルチモーダル大言語モデルのエキスパートベンチマーク

AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception ( http://arxiv.org/abs/2401.08276v1 )

ライセンス: Link先を確認
Yipo Huang, Quan Yuan, Xiangfei Sheng, Zhichao Yang, Haoning Wu, Pengfei Chen, Yuzhe Yang, Leida Li, Weisi Lin(参考訳) 集団的な取り組みにより、マルチモーダル・大規模言語モデル(MLLM)は発展途上である。 しかし、画像美学の知覚におけるそれらの性能はいまだ不確定であり、現実の応用において非常に望ましい。 明らかな障害は、美的知覚に対するMLLMの有効性を評価するための特定のベンチマークがないことである。 この目隠しは、美的知覚能力を持つより高度なMLLMのさらなる発展を妨げる可能性がある。 このジレンマに対処するために,両面にわたる精巧な設計により,MLLMの審美的知覚能力の包括的評価を目的とした専門家ベンチマークAesBenchを提案する。 1) 専門的美学の専門家が提供した多彩な画像内容と高品質なアノテーションを特徴とするエキスパートラベル型美学知覚データベース(EAPD)を構築した。 2)知覚(AesP),共感(AesE),評価(AesA),解釈(AesI)の4つの視点からMLLMの審美的知覚能力を測定するための統合的基準を提案する。 現在のMLLMは初歩的な審美的知覚能力しか持たず、MLLMと人間の間には大きなギャップがある。 この研究がコミュニティに、MLLMの審美的可能性についてより深く探究することを促すことを願っている。 ソースデータはhttps://github.com/yipoh/aesbenchで入手できる。

With collective endeavors, multimodal large language models (MLLMs) are undergoing a flourishing development. However, their performances on image aesthetics perception remain indeterminate, which is highly desired in real-world applications. An obvious obstacle lies in the absence of a specific benchmark to evaluate the effectiveness of MLLMs on aesthetic perception. This blind groping may impede the further development of more advanced MLLMs with aesthetic perception capacity. To address this dilemma, we propose AesBench, an expert benchmark aiming to comprehensively evaluate the aesthetic perception capacities of MLLMs through elaborate design across dual facets. (1) We construct an Expert-labeled Aesthetics Perception Database (EAPD), which features diversified image contents and high-quality annotations provided by professional aesthetic experts. (2) We propose a set of integrative criteria to measure the aesthetic perception abilities of MLLMs from four perspectives, including Perception (AesP), Empathy (AesE), Assessment (AesA) and Interpretation (AesI). Extensive experimental results underscore that the current MLLMs only possess rudimentary aesthetic perception ability, and there is still a significant gap between MLLMs and humans. We hope this work can inspire the community to engage in deeper explorations on the aesthetic potentials of MLLMs. Source data will be available at https://github.com/yipoh/AesBench.
翻訳日:2024-01-17 14:26:33 公開日:2024-01-16
# 脱スプーフィング拡散によるスポーフィングノイズのモデル化と反スプーフィングへの応用

Modeling Spoof Noise by De-spoofing Diffusion and its Application in Face Anti-spoofing ( http://arxiv.org/abs/2401.08275v1 )

ライセンス: Link先を確認
Bin Zhang, Xiangyu Zhu, Xiaoyu Zhang, Zhen Lei(参考訳) 顔認識システムのセキュリティと信頼性の確保には,顔認識対策が不可欠である。 既存の顔アンチスプーフィング手法では、spoof画像のノイズパターンを推定し、対応する真正画像を復元することにより、ganライクなネットワークを用いてプレゼンテーション攻撃を検出する。 しかし、GANの限られた顔の外観空間は、実顔の完全なデータ分布をカバーできないため、そのような手法の一般化性能を損なう。 そこで本研究では,拡散モデルを用いてスプーフ像を識別し,真の像を復元する手法を提案する。 これら2つの画像の違いはスプーフノイズと見なされ、顔の反スプーフに対する識別的手がかりとなる。 提案手法をいくつかの試験内および試験間プロトコルで評価し,実験結果から精度と一般化の両面から競合性能を実現する上での有効性を示した。

Face anti-spoofing is crucial for ensuring the security and reliability of face recognition systems. Several existing face anti-spoofing methods utilize GAN-like networks to detect presentation attacks by estimating the noise pattern of a spoof image and recovering the corresponding genuine image. But GAN's limited face appearance space results in the denoised faces cannot cover the full data distribution of genuine faces, thereby undermining the generalization performance of such methods. In this work, we present a pioneering attempt to employ diffusion models to denoise a spoof image and restore the genuine image. The difference between these two images is considered as the spoof noise, which can serve as a discriminative cue for face anti-spoofing. We evaluate our proposed method on several intra-testing and inter-testing protocols, where the experimental results showcase the effectiveness of our method in achieving competitive performance in terms of both accuracy and generalization.
翻訳日:2024-01-17 14:26:10 公開日:2024-01-16
# 大きな言語モデルはヌルショット学習者です

Large Language Models are Null-Shot Learners ( http://arxiv.org/abs/2401.08273v1 )

ライセンス: Link先を確認
Pittawat Taveekitworachai, Febri Abdullah, Ruck Thawonmas(参考訳) 本稿ではヌルショットプロンプトを提案する。 Null-shot promptingは、LLMに与えられたコンテキスト内に存在しない"Examples"セクションの情報を使ってタスクを実行するように指示することで、大きな言語モデル(LLM)の幻覚を悪用する。 LLMの日常的かつ批判的な利用には幻覚の低減が不可欠であり、かつ無視できないが、これらのLLMがまだ幻覚化している現状では、実際に幻覚を利用して、標準のゼロショットプロンプトに比べてタスクの実行性能を向上させることが可能である。 6つのLSMを用いた実験では、読解理解、算術的推論、クローズドブックの質問応答を含む8つのデータセットの大部分が性能改善されている。 LLM間の相対的性能向上における観察上の矛盾は、各モデルに固有の幻覚の程度が異なることを示す可能性がある。 これらの違いは、既存のベンチマークデータセットを使用してLLMにおける幻覚の度合いを検出する手段として、null-shot promptingを利用することができることを示している。 また、ゼロショット・チェーン・オブ・シント・プロンプトのアイデアを取り入れたヌルショット・プロンプトの修正版の実験を含むアブレーション研究も行った。

This paper presents null-shot prompting. Null-shot prompting exploits hallucination in large language models (LLMs) by instructing LLMs to utilize information from the "Examples" section that never exists within the provided context to perform a task. While reducing hallucination is crucial and non-negligible for daily and critical uses of LLMs, we propose that in the current landscape in which these LLMs still hallucinate, it is possible, in fact, to exploit hallucination to increase performance in performing tasks compared to standard zero-shot prompting. Experiments with six LLMs show improvements in performance across the majority of eight datasets, including reading comprehension, arithmetic reasoning, and closed-book question answering. The observed inconsistency in increased relative performance across LLMs also potentially indicates a different degree of inherent hallucination in each model. These differences show that it is possible to utilize null-shot prompting as a way to detect degrees of hallucination in LLMs using existing benchmarking datasets. We also perform ablation studies, including experimenting with a modified version of null-shot prompting that incorporates ideas from zero-shot chain-of-thought prompting, which shows different trends of results.
翻訳日:2024-01-17 14:25:54 公開日:2024-01-16
# 組織像を用いた透明皮膚・乳癌診断のためのシームズコンテンツベースサーチエンジン

Siamese Content-based Search Engine for a More Transparent Skin and Breast Cancer Diagnosis through Histological Imaging ( http://arxiv.org/abs/2401.08272v1 )

ライセンス: Link先を確認
Zahra Tabatabaei, Adri\'an Colomer, JAvier Oliver Moll, Valery Naranjo(参考訳) コンピュータエイド診断(CAD)は、デジタル病理学をディープラーニング(DL)ベースのツールで開発し、病理学者の意思決定を支援する。 CBHIR (Content-Based Histopathological Image Retrieval) は, 組織学的特徴の類似性から高い相関パッチを求める新しいツールである。 そこで本研究では,乳房(Breast-twins)と皮膚癌(Skin-twins)の2つのデータセットにCBHIRを用いたパッチレベルの検索手法を提案する。 提案するシアムネットワークは,入力対の病理組織学的特徴に焦点をあてることで,未認識画像に対して一般化することができる。 提案するcbhirアプローチは,乳房(パブリック)と皮膚(プライベート)のデータセットにおいてtop k精度で評価される。 最適なKの量を見つけることは難しいが、Kが増加するにつれて、クエリと返される画像の相違が増加し、病理学者を誤解させる可能性がある。 著者の信念を最大限に活用するため,本論文では第1回検索画像の評価を行い,病理組織像について初めてこの問題に取り組む。 Breast-TwinsモデルはF1スコアの70%を最上位で達成し、5や400のような高いKで他の最先端の手法を超える。 Skin-twinsは最近提案されたConvolutional Auto Encoder (CAE)を67%上回り、精度を高めている。 さらに、Skin-twinsモデルでは、Sitzoid tumors of Uncertain Malignant Potential (STUMP) の課題に対処し、病理医がトップK画像と対応するラベルを取得するのを支援する。 したがって、このアプローチは、他の特性の透明性、信頼性、信頼性の観点から、より説明しやすいcadツールを提供することができる。

Computer Aid Diagnosis (CAD) has developed digital pathology with Deep Learning (DL)-based tools to assist pathologists in decision-making. Content-Based Histopathological Image Retrieval (CBHIR) is a novel tool to seek highly correlated patches in terms of similarity in histopathological features. In this work, we proposed two CBHIR approaches on breast (Breast-twins) and skin cancer (Skin-twins) data sets for robust and accurate patch-level retrieval, integrating a custom-built Siamese network as a feature extractor. The proposed Siamese network is able to generalize for unseen images by focusing on the similar histopathological features of the input pairs. The proposed CBHIR approaches are evaluated on the Breast (public) and Skin (private) data sets with top K accuracy. Finding the optimum amount of K is challenging, but also, as much as K increases, the dissimilarity between the query and the returned images increases which might mislead the pathologists. To the best of the author's belief, this paper is tackling this issue for the first time on histopathological images by evaluating the top first retrieved images. The Breast-twins model achieves 70% of the F1score at the top first, which exceeds the other state-of-the-art methods at a higher amount of K such as 5 and 400. Skin-twins overpasses the recently proposed Convolutional Auto Encoder (CAE) by 67%, increasing the precision. Besides, the Skin-twins model tackles the challenges of Spitzoid Tumors of Uncertain Malignant Potential (STUMP) to assist pathologists with retrieving top K images and their corresponding labels. So, this approach can offer a more explainable CAD tool to pathologists in terms of transparency, trustworthiness, or reliability among other characteristics.
翻訳日:2024-01-17 14:25:29 公開日:2024-01-16
# 熱混合ダイナミック核分極の崩壊の統一的理解--温度とラジカル濃度の役割

Unified understanding of the breakdown of thermal mixing dynamic nuclear polarization: the role of temperature and radical concentration ( http://arxiv.org/abs/2401.08270v1 )

ライセンス: Link先を確認
Ludovica M. Epasto, Thibaud Maimbourg, Alberto Rosso, Dennis Kurzbach(参考訳) 熱混合(TM)を効率よく動的核偏極(DNP)機構として確立するために必要な温度とラジカル濃度の相互作用を明らかにする。 種々の亜酸化窒素ラジカル濃度(tempol)およびマイクロ波照射周波数における水/グリセロール混合物中のピルビン酸ナトリウム-1-$^{13}$cの多極化と陽子および炭素-13スピン温度の測定により,dnp実験を行った。 低温消費のないプロトタイプdnp装置を用いて、液体ヘリウムの点滅点以下で1.5kから6.5kの低温温度を観測することができた。 TMの分解の2つのメカニズムを同定する。 (i)アンダーソン型低ラジカル濃度量子局在法、又は (ii)高温で発生する量子ゼノ局在。 この観察により,DNP機構としてのTMの関連性に関する近年の変動観測を一元化して,ラジカル濃度と電子緩和時間とのトレードオフを見出すことができ,TMに基づく実験的なDNP性能向上の道筋を提供することができた。

We reveal an interplay between temperature and radical concentration necessary to establish thermal mixing (TM) as an efficient dynamic nuclear polarization (DNP) mechanism. We conducted DNP experiments by hyperpolarizing widely used DNP samples, i.e., sodium pyruvate-1-$^{13}$C in water/glycerol mixtures at varying nitroxide radical (TEMPOL) concentrations and microwave irradiation frequencies, measuring proton and carbon-13 spin temperatures. Using a cryogen consumption-free prototype-DNP apparatus, we could probe cryogenic temperatures between 1.5 and 6.5 K, i.e., below and above the flash point of liquid helium. We identify two mechanisms for the breakdown of TM: (i) Anderson type of quantum localization for low radical concentration, or (ii) quantum Zeno localization occurring at high temperature. This observation allowed us to reconcile the recent diverging observations regarding the relevance of TM as a DNP mechanism by proposing a unifying picture and, consequently, to find a trade-off between radical concentration and electron relaxation times, which offers a pathway to improve experimental DNP performance based on TM.
翻訳日:2024-01-17 14:24:55 公開日:2024-01-16
# 自発的崩壊モデルによって宇宙の古典性が出現する

Spontaneous collapse models lead to the emergence of classicality of the Universe ( http://arxiv.org/abs/2401.08269v1 )

ライセンス: Link先を確認
Jos\'e Luis Gaona-Reyes, Luc\'ia Men\'endez-Pidal, Mir Faizal, Matteo Carlesso(参考訳) 量子力学が普遍的であり、すべてのスケールで適用できると仮定すると、宇宙は状態の量子重ね合わせであり、それぞれの状態が異なる時空幾何学に対応することができる。 どのようにして私たちが観察する古典的なよく定義された幾何学の出現を説明できるのか? デコヒーレンス駆動の量子-古典遷移は外部の物理的実体に依存しているため、この過程は宇宙の古典的な振る舞いの出現を考慮できない。 ここでは、波動関数の自然崩壊モデルが、そのような出現を説明するための実行可能なメカニズムを提供する方法を示す。 これを重力と完全流体の単純な一般相対論の力学モデルに適用する。 異なる幾何学の一般的な量子重ね合わせから始めると、崩壊ダイナミクスは単一の幾何学へとつながり、宇宙の量子から古典への遷移のメカニズムを提供する。 同様に、我々の力学を物理的に等価なパラメトリスの一モジュラー重力モデルに適用すると、宇宙定数に基づいて崩壊し、最終的に1つの正確な値が選択され、宇宙定数問題に対する実行可能な説明を与える。 我々の形式論は他の量子宇宙論モデルにも容易に適用できる。

Assuming that Quantum Mechanics is universal and that it can be applied over all scales, then the Universe is allowed to be in a quantum superposition of states, where each of them can correspond to a different space-time geometry. How can one then describe the emergence of the classical, well-defined geometry that we observe? Considering that the decoherence-driven quantum-to-classical transition relies on external physical entities, this process cannot account for the emergence of the classical behaviour of the Universe. Here, we show how models of spontaneous collapse of the wavefunction can offer a viable mechanism for explaining such an emergence. We apply it to a simple General Relativity dynamical model for gravity and a perfect fluid. We show that, by starting from a general quantum superposition of different geometries, the collapse dynamics leads to a single geometry, thus providing a possible mechanism for the quantum-to-classical transition of the Universe. Similarly, when applying our dynamics to the physically-equivalent Parametrised Unimodular gravity model, we obtain a collapse on the basis of the cosmological constant, where eventually one precise value is selected, thus providing also a viable explanation for the cosmological constant problem. Our formalism can be easily applied to other quantum cosmological models.
翻訳日:2024-01-17 14:24:34 公開日:2024-01-16
# マルチアベル音声セグメンテーションのための説明可能なプロキシモデル

An Explainable Proxy Model for Multiabel Audio Segmentation ( http://arxiv.org/abs/2401.08268v1 )

ライセンス: Link先を確認
Th\'eo Mariotte and Antonio Almud\'evar and Marie Tahon and Alsonfo Ortega(参考訳) 音声信号のセグメンテーションは自動音声インデクシングの重要なタスクである。 信号中のクラス均質セグメントの境界を検出することで構成される。 多くのアプリケーションにおいて、説明可能なAIは、機械学習による意思決定の透明性にとって重要なプロセスである。 本稿では、音声活動(SAD)、音楽(MD)、ノイズ(ND)、重複音声検出(OSD)を同時に解くための説明可能なマルチラベルセグメンテーションモデルを提案する。 このプロキシは非負行列分解(NMF)を使用してセグメンテーションに使用される埋め込みを周波数領域にマッピングする。 2つのデータセットで実施された実験は、トレーニング済みのブラックボックスモデルと同様のパフォーマンスを示しながら、強い説明可能性を示している。 具体的には、決定に使用される周波数ビンは、セグメントレベル(ローカル説明)とグローバルレベル(クラスプロトタイプ)の両方で容易に識別できる。

Audio signal segmentation is a key task for automatic audio indexing. It consists of detecting the boundaries of class-homogeneous segments in the signal. In many applications, explainable AI is a vital process for transparency of decision-making with machine learning. In this paper, we propose an explainable multilabel segmentation model that solves speech activity (SAD), music (MD), noise (ND), and overlapped speech detection (OSD) simultaneously. This proxy uses the non-negative matrix factorization (NMF) to map the embedding used for the segmentation to the frequency domain. Experiments conducted on two datasets show similar performances as the pre-trained black box model while showing strong explainability features. Specifically, the frequency bins used for the decision can be easily identified at both the segment level (local explanations) and global level (class prototypes).
翻訳日:2024-01-17 14:24:13 公開日:2024-01-16
# Rustを救うためのC/C++トランスパイラ

Towards a Transpiler for C/C++ to Safer Rust ( http://arxiv.org/abs/2401.08264v1 )

ライセンス: Link先を確認
Dhiren Tripuramallu, Swapnil Singh, Shrirang Deshmukh, Srinivas Pinisetty, Shinde Arjun Shivaji, Raja Balusamy, Ajaganna Bandeppa(参考訳) rustはmozillaが開発したマルチパラダイムプログラミング言語で、パフォーマンスと安全性を重視している。 Rustコードは、組み込みシステムの開発において必須のプロパティである、そのスピードとメモリ安全性で最もよく知られている。 したがって、組み込みデバイス用のオペレーティングシステムを開発する際の代替手段の1つとなる。 既存のC++コードベースをRustに変換する方法も注目されている。 この作業では、堅牢で安全な方法でC++コードをRustコードベースにトランスパイルするプロセスに焦点を当てます。 マニュアルのトランスパイレーションプロセスは、Rust言語の異なる構造とそれらがC++の構造をどのように対応するかを理解するために実行される。 手動トランスパイルからの学習に基づき、将来のトランスパイル努力を支援し、自動トランスパイラを開発するためにトランスパイルテーブルが作成される。 また,既存の自動トランスパイラについても検討し,問題点と非効率性について検討した。 トランスパイル処理の結果を綿密に監視,評価し,性能やコードベースの信頼性を損なうことなくメモリ安全性を向上した。 本研究は,研究成果の包括的分析,今後の研究への含意評価,同分野における推奨事項について結論付けた。

Rust is a multi-paradigm programming language developed by Mozilla that focuses on performance and safety. Rust code is arguably known best for its speed and memory safety, a property essential while developing embedded systems. Thus, it becomes one of the alternatives when developing operating systems for embedded devices. How to convert an existing C++ code base to Rust is also gaining greater attention. In this work, we focus on the process of transpiling C++ code to a Rust codebase in a robust and safe manner. The manual transpilation process is carried out to understand the different constructs of the Rust language and how they correspond to C++ constructs. Based on the learning from the manual transpilation, a transpilation table is created to aid in future transpilation efforts and to develop an automated transpiler. We also studied the existing automated transpilers and identified the problems and inefficiencies they involved. The results of the transpilation process were closely monitored and evaluated, showing improved memory safety without compromising performance and reliability of the resulting codebase. The study concludes with a comprehensive analysis of the findings, an evaluation of the implications for future research, and recommendations for the same in this area.
翻訳日:2024-01-17 14:23:59 公開日:2024-01-16
# 変化する環境における動的視覚位置認識のためのマルチテクニカルシーケンシャル情報一貫性

Multi-Technique Sequential Information Consistency For Dynamic Visual Place Recognition In Changing Environments ( http://arxiv.org/abs/2401.08263v1 )

ライセンス: Link先を確認
Bruno Arcanjo, Bruno Ferrarini, Michael Milford, Klaus D. McDonald-Maier and Shoaib Ehsan(参考訳) 視覚的位置認識(VPR)は、画像データのみを使用して場所を識別するロボットナビゲーションおよび位置決めシステムにおいて不可欠なコンポーネントである。 VPRは、日々の照明、季節的な天候の変化、様々な視点によって、場所の外観が著しく変化しているため、難しい。 現在、各環境条件において単一のVPR技術が優れておらず、それぞれに固有の利点と欠点があり、複数の技術を組み合わせることでより信頼性の高いVPR性能が得られる。 現在のマルチメソッドアプローチは、しばしば利用できないオンラインの地平情報や、ブルートフォース技術の組み合わせに依存しており、高い分散技術セットで性能を低下させる可能性がある。 これらの欠点に対処するため,オンライン・フレーム毎の最も凝集性の高い手法を選択するために逐次情報を活用するマルチシーケンス情報一貫性(MuSIC)と呼ばれるVPRシステムを提案する。 集合内の各技法について、音楽は上位マッチング候補のフレーム間連続性を解析し、それぞれの逐次構成を計算し、それらを直接比較して現在の問合せ画像の最適な手法を選択する。 VPRメソッドの選択にシーケンシャル情報を使用することで、ランタイム環境の余分な基盤構造を回避しつつ、さまざまなベンチマークデータセット間で全体のVPRパフォーマンスが向上する。

Visual place recognition (VPR) is an essential component of robot navigation and localization systems that allows them to identify a place using only image data. VPR is challenging due to the significant changes in a place's appearance driven by different daily illumination, seasonal weather variations and diverse viewpoints. Currently, no single VPR technique excels in every environmental condition, each exhibiting unique benefits and shortcomings, and therefore combining multiple techniques can achieve more reliable VPR performance. Present multi-method approaches either rely on online ground-truth information, which is often not available, or on brute-force technique combination, potentially lowering performance with high variance technique sets. Addressing these shortcomings, we propose a VPR system dubbed Multi-Sequential Information Consistency (MuSIC) which leverages sequential information to select the most cohesive technique on an online per-frame basis. For each technique in a set, MuSIC computes their respective sequential consistencies by analysing the frame-to-frame continuity of their top match candidates, which are then directly compared to select the optimal technique for the current query image. The use of sequential information to select between VPR methods results in an overall VPR performance increase across different benchmark datasets, while avoiding the need for extra ground-truth of the runtime environment.
翻訳日:2024-01-17 14:23:40 公開日:2024-01-16
# ニューラルネットワークの確率的ロバストな透かし

Probabilistically Robust Watermarking of Neural Networks ( http://arxiv.org/abs/2401.08261v1 )

ライセンス: Link先を確認
Mikhail Pautov, Nikita Bogdanov, Stanislav Pyatkin, Oleg Rogov, Ivan Oseledets(参考訳) ディープラーニング(dl)モデルは、マシンラーニング・アズ・ア・サービス(mlaas)プラットフォームで広く効果的に使用されているため、特定のモデルの所有権を確認するために使用できるdl透かし技術への関心が急速に高まっている。 残念なことに、これらの方法は通常、モデル盗み攻撃の影響を受けやすいウォーターマークを生成する。 本研究では,機能盗む攻撃,特に抽出・蒸留を含む攻撃に対してレジリエンスを示す,トリガーセットに基づく新しい透かし手法を提案する。 我々のアプローチは追加のモデルトレーニングを必要とせず、どんなモデルアーキテクチャにも適用できます。 本手法の重要な考え方は,ソースモデルとプロキシモデルのセットの間で高い確率で転送可能なトリガー集合を計算することである。 本実験では, 転送可能集合の確率が合理的に高い場合, 盗難モデルの所有権検証に効果的に使用できることを示す。 提案手法は,複数のベンチマークで評価し,本手法が現在のウォーターマーキング手法を上回っていることを示す。

As deep learning (DL) models are widely and effectively used in Machine Learning as a Service (MLaaS) platforms, there is a rapidly growing interest in DL watermarking techniques that can be used to confirm the ownership of a particular model. Unfortunately, these methods usually produce watermarks susceptible to model stealing attacks. In our research, we introduce a novel trigger set-based watermarking approach that demonstrates resilience against functionality stealing attacks, particularly those involving extraction and distillation. Our approach does not require additional model training and can be applied to any model architecture. The key idea of our method is to compute the trigger set, which is transferable between the source model and the set of proxy models with a high probability. In our experimental study, we show that if the probability of the set being transferable is reasonably high, it can be effectively used for ownership verification of the stolen model. We evaluate our method on multiple benchmarks and show that our approach outperforms current state-of-the-art watermarking techniques in all considered experimental setups.
翻訳日:2024-01-17 14:23:14 公開日:2024-01-16
# スライシングとフーリエ変換による高次元の高速核和

Fast Kernel Summation in High Dimensions via Slicing and Fourier Transforms ( http://arxiv.org/abs/2401.08260v1 )

ライセンス: Link先を確認
Johannes Hertrich(参考訳) カーネルベースの手法は機械学習で多用されている。 しかし、考慮されたデータポイントの$O(N^2)$の複雑さに悩まされている。 本稿では,この複雑性を$o(n)$に低減する近似手順を提案する。 我々のアプローチは2つの考えに基づいている。 まず,解析基底関数を持つ任意のラジアルカーネルを,ある1次元カーネルのスライス版として表現し,その1次元カーネルの解析式を導出する。 1 と $d$-次元の核の関係は一般化されたリーマン=リオウヴィル分数積分によって与えられる。 したがって、$d$-dimensional kernel summationを1次元設定に還元することができる。 第二に、これらの一次元問題を効率的に解くために、非等間隔データ、ソートアルゴリズム、あるいは両者の組み合わせに高速なフーリエ和を適用する。 その実用的重要性のため、我々はガウス核に特別な注意を払っており、そこでは次元非依存の誤差境界を示し、閉形式フーリエ変換によってその1次元の逆を表現している。 我々は、高速なカーネル総和のランタイム比較とエラー推定を提供する。

Kernel-based methods are heavily used in machine learning. However, they suffer from $O(N^2)$ complexity in the number $N$ of considered data points. In this paper, we propose an approximation procedure, which reduces this complexity to $O(N)$. Our approach is based on two ideas. First, we prove that any radial kernel with analytic basis function can be represented as sliced version of some one-dimensional kernel and derive an analytic formula for the one-dimensional counterpart. It turns out that the relation between one- and $d$-dimensional kernels is given by a generalized Riemann-Liouville fractional integral. Hence, we can reduce the $d$-dimensional kernel summation to a one-dimensional setting. Second, for solving these one-dimensional problems efficiently, we apply fast Fourier summations on non-equispaced data, a sorting algorithm or a combination of both. Due to its practical importance we pay special attention to the Gaussian kernel, where we show a dimension-independent error bound and represent its one-dimensional counterpart via a closed-form Fourier transform. We provide a run time comparison and error estimate of our fast kernel summations.
翻訳日:2024-01-17 14:22:56 公開日:2024-01-16
# 最小侵襲手術ビジョンにおけるマルチタスク学習

Multitask Learning in Minimally Invasive Surgical Vision: A Review ( http://arxiv.org/abs/2401.08256v1 )

ライセンス: Link先を確認
Oluwatosin Alabi, Tom Vercauteren, Miaojing Shi(参考訳) 最小侵襲手術(MIS)は多くの手術に革命をもたらし、回復時間と患者の怪我のリスクを減らした。 しかし、MISは外科チームに対してさらなる複雑さと負担をもたらす。 データ駆動型外科的視覚アルゴリズムは、自律性を改善した将来のMISシステムの開発において重要な構成要素であると考えられている。 機械学習とコンピュータビジョンの最近の進歩は、MISビデオにおける課題の緩和を約束してMISから得られたビデオを分析することに成功している。 手術シーンと行動理解は、個別に解決された複数の関連するタスクを含み、メモリ集約的で非効率であり、タスクの関係を捉えない。 MTL(Multitask Learning)は、複数の関連するタスクの情報を活用してパフォーマンスを改善し、一般化を支援する学習パラダイムであり、MISデータのきめ細かい高レベルな理解に適している。 本総説では,MISから取得した映像を利用した最新のMTLシステムの概要について述べる。 公開アプローチをリストアップするだけでなく,これらのmtlシステムのメリットと限界についても論じる。 さらに,本書は,MISにおけるMTLの様々な応用分野に関する文献を,大規模モデルを含む文献で分析し,顕著な傾向,研究の方向性,開発状況を明らかにする。

Minimally invasive surgery (MIS) has revolutionized many procedures and led to reduced recovery time and risk of patient injury. However, MIS poses additional complexity and burden on surgical teams. Data-driven surgical vision algorithms are thought to be key building blocks in the development of future MIS systems with improved autonomy. Recent advancements in machine learning and computer vision have led to successful applications in analyzing videos obtained from MIS with the promise of alleviating challenges in MIS videos. Surgical scene and action understanding encompasses multiple related tasks that, when solved individually, can be memory-intensive, inefficient, and fail to capture task relationships. Multitask learning (MTL), a learning paradigm that leverages information from multiple related tasks to improve performance and aid generalization, is wellsuited for fine-grained and high-level understanding of MIS data. This review provides an overview of the current state-of-the-art MTL systems that leverage videos obtained from MIS. Beyond listing published approaches, we discuss the benefits and limitations of these MTL systems. Moreover, this manuscript presents an analysis of the literature for various application fields of MTL in MIS, including those with large models, highlighting notable trends, new directions of research, and developments.
翻訳日:2024-01-17 14:22:37 公開日:2024-01-16
# 多言語テキスト分類器における生成的逆攻撃

A Generative Adversarial Attack for Multilingual Text Classifiers ( http://arxiv.org/abs/2401.08255v1 )

ライセンス: Link先を確認
Tom Roth, Inigo Jauregi Unanue, Alsharif Abuadbba, Massimo Piccardi(参考訳) 現在のadversarial attackアルゴリズムは、敵が被害者モデルを騙すためにテキストを変更するが、テキスト分類器に効果があることが繰り返し示されている。 しかしながら、これらの攻撃は一般的に、犠牲者モデルが単言語であり、多言語被害者モデルをターゲットにするためには使用できないと仮定する。 そこで本研究では,多言語分類に対する効果的な対角的例を生成するために,対角的目的を持つ多言語パラフレーズモデルを微調整する手法を提案する。 トレーニングの目的は、トレーニング済みのモデルセットを組み込んで、生成されたテキストのテキスト品質と言語一貫性を保証する。 さらに、すべてのモデルが語彙マッピング行列によってジェネレータと適切に接続され、トレーニングパイプライン全体のエンドツーエンドの完全な差別化を可能にする。 2つの多言語データセットと5つの言語に対する実験的な検証は、既存のベースライン、特にクエリ効率の観点から、提案手法の有効性を示している。 また、発生した攻撃の詳細な分析を行い、今後の研究の限界と機会について論じる。

Current adversarial attack algorithms, where an adversary changes a text to fool a victim model, have been repeatedly shown to be effective against text classifiers. These attacks, however, generally assume that the victim model is monolingual and cannot be used to target multilingual victim models, a significant limitation given the increased use of these models. For this reason, in this work we propose an approach to fine-tune a multilingual paraphrase model with an adversarial objective so that it becomes able to generate effective adversarial examples against multilingual classifiers. The training objective incorporates a set of pre-trained models to ensure text quality and language consistency of the generated text. In addition, all the models are suitably connected to the generator by vocabulary-mapping matrices, allowing for full end-to-end differentiability of the overall training pipeline. The experimental validation over two multilingual datasets and five languages has shown the effectiveness of the proposed approach compared to existing baselines, particularly in terms of query efficiency. We also provide a detailed analysis of the generated attacks and discuss limitations and opportunities for future research.
翻訳日:2024-01-17 14:22:18 公開日:2024-01-16
# 未混合試験時間正規化統計:ラベル時間相関の燃焼

Un-Mixing Test-Time Normalization Statistics: Combatting Label Temporal Correlation ( http://arxiv.org/abs/2401.08328v1 )

ライセンス: Link先を確認
Devavrat Tomar, Guillaume Vray, Jean-Philippe Thiran, Behzad Bozorgtabar(参考訳) テスト時間適応手法がバッチ正規化(bn)パラメータのニュアンス操作に依存するようになった時代において、一つの重要な仮定は見過ごされがちである。 この仮定はBN統計の偏りのある推定で頂点に達し、非二項条件下でシステムの安定性を危険にさらす。 本稿では,Un-Mixing Test-Time Normalization Statistics (Un-Mixing Test-Time Normalization Statistics) と呼ばれる画期的な戦略を導入することで,i.d.パラダイムから脱却する。 UnMix-TNSは、複数の未混合統計成分を混合することにより、バッチ内の各インスタンスを正規化するために使用されるインスタンスワイズ統計を再分類し、i.d.環境を本質的にシミュレートする。 これは、入ってくるテストバッチから最も近いインスタンスを描画することで、これらの統計コンポーネントを永続的に洗練します。 設計上、UnMix-TNSは最先端のテスト時間適応法とBN層を備えた事前学習アーキテクチャをシームレスに統合する。 経験的評価により,unmix-tnのロバスト性は,単一から連続,混合の領域シフトによって異なる。 UnMix-TNSは、テストデータストリームを時間的相関で扱う際に際立っており、実世界の非i.d.ストリームが破損している場合を含む。 結果から,テスト時間適応の新しい標準が設定され,複数のベンチマークにおける安定性と性能が大幅に向上した。

In an era where test-time adaptation methods increasingly rely on the nuanced manipulation of batch normalization (BN) parameters, one critical assumption often goes overlooked: that of independently and identically distributed (i.i.d.) test batches with respect to unknown labels. This assumption culminates in biased estimates of BN statistics and jeopardizes system stability under non-i.i.d. conditions. This paper pioneers a departure from the i.i.d. paradigm by introducing a groundbreaking strategy termed "Un-Mixing Test-Time Normalization Statistics" (UnMix-TNS). UnMix-TNS re-calibrates the instance-wise statistics used to normalize each instance in a batch by mixing it with multiple unmixed statistics components, thus inherently simulating the i.i.d. environment. The key lies in our innovative online unmixing procedure, which persistently refines these statistics components by drawing upon the closest instances from an incoming test batch. Remarkably generic in its design, UnMix-TNS seamlessly integrates with an array of state-of-the-art test-time adaptation methods and pre-trained architectures equipped with BN layers. Empirical evaluations corroborate the robustness of UnMix-TNS under varied scenarios ranging from single to continual and mixed domain shifts. UnMix-TNS stands out when handling test data streams with temporal correlation, including those with corrupted real-world non-i.i.d. streams, sustaining its efficacy even with minimal batch sizes and individual samples. Our results set a new standard for test-time adaptation, demonstrating significant improvements in both stability and performance across multiple benchmarks.
翻訳日:2024-01-17 14:15:38 公開日:2024-01-16
# 個人化フェデレーション学習に必要なものを学ぶ

Learn What You Need in Personalized Federated Learning ( http://arxiv.org/abs/2401.08327v1 )

ライセンス: Link先を確認
Kexin Lv, Rui Ye, Xiaolin Huang, Jie Yang and Siheng Chen(参考訳) パーソナライズされたフェデレーション学習は、フェデレーション学習において、ローカルクライアント間のデータの異質性に対処することを目的としている。 しかし、現在の手法では、パーソナライズされたフェデレーション学習において、完全なモデルパラメータまたは事前に定義された部分パラメータのいずれかを盲目的に取り入れている。 彼らは各ローカルクライアントのデータ特性に応じて協調方式をカスタマイズできず、不快な集約結果を引き起こす。 この本質的な問題に対処するために、我々は、新しいアルゴリズム・ロールベースパーソナライズされたフェデレーション学習フレームワークである$\textit{learn2pfed}$を提案する。 提案されている$\textit{learn2pfed}$ の重要な新しさは、アルゴリズムの展開メソッドを通じて学習可能なパラメータとして、各ローカルモデルパラメータの参加度を最適化することである。 このアプローチには2つの利点があります 1)連合コラボレーションにおける局所モデルパラメータの参加度を数学的に決定し、 2) より安定して改善されたソリューションを得る。 回帰、予測、画像分類など、様々なタスクに対する大規模な実験により、$\textit{Learn2pFed}$が従来のパーソナライズド・フェデレーションド・ラーニング・メソッドを大幅に上回ることを示した。

Personalized federated learning aims to address data heterogeneity across local clients in federated learning. However, current methods blindly incorporate either full model parameters or predefined partial parameters in personalized federated learning. They fail to customize the collaboration manner according to each local client's data characteristics, causing unpleasant aggregation results. To address this essential issue, we propose $\textit{Learn2pFed}$, a novel algorithm-unrolling-based personalized federated learning framework, enabling each client to adaptively select which part of its local model parameters should participate in collaborative training. The key novelty of the proposed $\textit{Learn2pFed}$ is to optimize each local model parameter's degree of participant in collaboration as learnable parameters via algorithm unrolling methods. This approach brings two benefits: 1) mathmatically determining the participation degree of local model parameters in the federated collaboration, and 2) obtaining more stable and improved solutions. Extensive experiments on various tasks, including regression, forecasting, and image classification, demonstrate that $\textit{Learn2pFed}$ significantly outperforms previous personalized federated learning methods.
翻訳日:2024-01-17 14:15:07 公開日:2024-01-16
# rotbench: ツール学習における大規模言語モデルのロバスト性評価のための多レベルベンチマーク

RoTBench: A Multi-Level Benchmark for Evaluating the Robustness of Large Language Models in Tool Learning ( http://arxiv.org/abs/2401.08326v1 )

ライセンス: Link先を確認
Junjie Ye, Yilong Wu, Songyang Gao, Sixian Li, Guanyu Li, Xiaoran Fan, Qi Zhang, Tao Gui, Xuanjing Huang(参考訳) ツール学習は、大規模言語モデル(llm)と物理世界の相互作用の重要な手段として、広く関心を集めている。 現在の研究は、LLMが環境が整った環境でツールを利用する能力を強調しつつ、現実の不可避な騒音に直面した際の安定性を見落としている。 このギャップを埋めるために,ツール学習におけるLLMの堅牢性を評価するマルチレベルベンチマークであるRoTBenchを導入する。 具体的には、さまざまなレベルのノイズ(クリーン、マイム、ミディアム、ヘビー、ユニオン)を特徴とする5つの外部環境を確立し、ツール選択、パラメータ識別、コンテンツ充填という3つの重要なフェーズにわたるモデルのレジリエンスの詳細な分析を提供する。 広く使われている6つのモデルを含む実験は、ツール学習におけるLLMの堅牢性を高めるために必要不可欠であることを示す。 例えば、gpt-4の性能は、手作業の精度に実質的な変化がない場合、80.00から58.10に大幅に低下する。 さらに驚くべきことに、GPTファミリー固有のノイズ補正機能は、軽度のノイズに直面した場合の適応性をパラドックス的に阻害する。 これらの知見を踏まえて,ツール学習におけるLDMの堅牢性を高めるためのトレーニング環境の多様性を高める戦略であるRoTTuningを提案する。 コードとデータはhttps://github.com/junjie-ye/rotbenchで入手できる。

Tool learning has generated widespread interest as a vital means of interaction between Large Language Models (LLMs) and the physical world. Current research predominantly emphasizes LLMs' capacity to utilize tools in well-structured environments while overlooking their stability when confronted with the inevitable noise of the real world. To bridge this gap, we introduce RoTBench, a multi-level benchmark for evaluating the robustness of LLMs in tool learning. Specifically, we establish five external environments, each featuring varying levels of noise (i.e., Clean, Slight, Medium, Heavy, and Union), providing an in-depth analysis of the model's resilience across three critical phases: tool selection, parameter identification, and content filling. Experiments involving six widely-used models underscore the urgent necessity for enhancing the robustness of LLMs in tool learning. For instance, the performance of GPT-4 even drops significantly from 80.00 to 58.10 when there is no substantial change in manual accuracy. More surprisingly, the noise correction capability inherent in the GPT family paradoxically impedes its adaptability in the face of mild noise. In light of these findings, we propose RoTTuning, a strategy that enriches the diversity of training environments to bolster the robustness of LLMs in tool learning. The code and data are available at https://github.com/Junjie-Ye/RoTBench.
翻訳日:2024-01-17 14:14:41 公開日:2024-01-16
# 位相再構成に基づく量子乱数生成

Quantum Random Number Generation Based on Phase Reconstruction ( http://arxiv.org/abs/2401.08325v1 )

ライセンス: Link先を確認
Jialiang Li and Zitao Huang and Chunlin Yu and Jiajie Wu and Tongge Zhao and Xiangwei Zhu and Shihai Sun(参考訳) 量子乱数生成器(QRNG)は、量子系の固有のランダム性を利用して、予測不可能で真の乱数を生成する。 レーザーの位相雑音に依存するQRNGは、その素直なシステム構造と高い乱数生成率のためにかなりの注目を集めている。 しかし、従来の位相ノイズQRNGはランダムネス抽出過程において量子エントロピーの50%の損失を被る。 本稿では,光界の直交二次構造を平衡検出器を用いて同時に測定することにより,レーザの位相雑音を再構成する位相再構成量子乱数生成手法を提案する。 これにより均一位相雑音の直接離散化が可能になり、minエントロピーは1の値が得られる。 さらに,本手法は,非平衡干渉計の古典的位相変動に対して固有のロバスト性を示し,アクティブ補償の必要性をなくす。 最後に,商用光ハイブリッドおよび平衡検出器を用いて,200MSa/sのサンプリング速度で1.96Gbpsのランダム数生成率を達成する実験を行った。

Quantum random number generator (QRNG) utilizes the intrinsic randomness of quantum systems to generate completely unpredictable and genuine random numbers, finding wide applications across many fields. QRNGs relying on the phase noise of a laser have attracted considerable attention due to their straightforward system architecture and high random number generation rates. However, traditional phase noise QRNGs suffer from a 50\% loss of quantum entropy during the randomness extraction process. In this paper, we propose a phase-reconstruction quantum random number generation scheme, in which the phase noise of a laser is reconstructed by simultaneously measuring the orthogonal quadratures of the light field using balanced detectors. This enables direct discretization of uniform phase noise, and the min-entropy can achieve a value of 1. Furthermore, our approach exhibits inherent robustness against the classical phase fluctuations of the unbalanced interferometer, eliminating the need for active compensation. Finally, we conducted experimental validation using commercial optical hybrid and balanced detectors, achieving a random number generation rate of 1.96 Gbps at a sampling rate of 200 MSa/s.
翻訳日:2024-01-17 14:14:18 公開日:2024-01-16
# OpenDPD: 広帯域パワーアンプモデリングとディジタル事前歪みのためのオープンソースのエンドツーエンド学習とベンチマークフレームワーク

OpenDPD: An Open-Source End-to-End Learning & Benchmarking Framework for Wideband Power Amplifier Modeling and Digital Pre-Distortion ( http://arxiv.org/abs/2401.08318v1 )

ライセンス: Link先を確認
Yizhuo Wu, Gagan Deep Singh, Mohammadreza Beikmirza, Leo de Vreede, Morteza Alavi, Chang Gao(参考訳) 通信容量の増大に伴い、広帯域電力増幅器(PA)の非線形性を補正するデジタル事前歪み(DPD)のためのディープニューラルネットワーク(DNN)が注目されている。 しかし、オープンソースと測定セットアップに依存しないプラットフォームでは、高速なPDD探索と客観的PDモデル比較のための空白が存在する。 本稿では,PyTorch をベースとしたオープンソースフレームワーク OpenDPD と,PA モデリングと DPD 学習のためのデータセットを提案する。 本稿では, Dense Gated Recurrent Unit (DGRU)-DPDを導入し, デジタルPA DPAにおいて, アナログPAと比較して非従来的転送特性を有する新しいデジタルトランスミッタ(DTX)アーキテクチャにおいて, 従来のDPDモデルよりも優れた性能を示す。 測定の結果,DGRU-DPDのACPRは-44.69/-44.47 dBc,EVMは-35.22 dBで200MHzのODM信号が得られた。 OpenDPDコード、データセット、ドキュメントはhttps://github.com/lab-emi/OpenDPDで公開されている。

With the rise in communication capacity, deep neural networks (DNN) for digital pre-distortion (DPD) to correct non-linearity in wideband power amplifiers (PAs) have become prominent. Yet, there is a void in open-source and measurement-setup-independent platforms for fast DPD exploration and objective DPD model comparison. This paper presents an open-source framework, OpenDPD, crafted in PyTorch, with an associated dataset for PA modeling and DPD learning. We introduce a Dense Gated Recurrent Unit (DGRU)-DPD, trained via a novel end-to-end learning architecture, outperforming previous DPD models on a digital PA DPA in the new digital transmitter (DTX) architecture with unconventional transfer characteristics compared to analog PAs. Measurements show our DGRU-DPD achieves an ACPR of -44.69/-44.47 dBc and an EVM of -35.22 dB for 200 MHz OFDM signals. OpenDPD code, datasets, and documentation are publicly available at https://github.com/lab-emi/OpenDPD.
翻訳日:2024-01-17 14:13:59 公開日:2024-01-16
# アンカー関数:言語モデルを研究するためのベンチマーク関数の一種

Anchor function: a type of benchmark functions for studying language models ( http://arxiv.org/abs/2401.08309v1 )

ライセンス: Link先を確認
Zhongwang Zhang, Zhiwei Wang, Junjie Yao, Zhangchen Zhou, Xiaolong Li, Weinan E, Zhi-Qin John Xu(参考訳) トランスフォーマーベースの言語モデルを理解することは、特に人工知能に向けた重要な役割を担っているため、ますます重要になっている。 しかし、言語モデル研究は、特に制約のある資源を持つ学術研究グループにとって、重大な課題に直面している。 これらの課題には、複雑なデータ構造、未知のターゲット関数、高い計算コストとメモリ要求、推論プロセスにおける解釈可能性の欠如などが含まれる。 科学的研究における単純なモデルの利用と並行して,アンカー関数の概念を提案する。 これは"アンカーキー"パターンに従う学習タスクで言語モデルを研究するために設計されたベンチマーク関数の一種である。 アンカー関数の概念を利用することで、様々な言語タスクをシミュレートする一連の関数を構築することができる。 アンカー機能は糖尿病研究におけるマウスに類似した役割を担っており、特に学術研究に適している。 例えば、言語モデルにおける注意構造による2つの基本的な操作:トークンのシフトと1つのトークンを1つの位置から複数の位置にブロードキャストする。 これらの操作は、大きな言語モデルでもよく見られる。 そのため、アンカー関数フレームワークは、特に理論研究のためにさらなる探索のために、価値があり、アクセス可能な一連の研究問題を開く。

Understanding transformer-based language models is becoming increasingly crucial, particularly as they play pivotal roles in advancing towards artificial general intelligence. However, language model research faces significant challenges, especially for academic research groups with constrained resources. These challenges include complex data structures, unknown target functions, high computational costs and memory requirements, and a lack of interpretability in the inference process, etc. Drawing a parallel to the use of simple models in scientific research, we propose the concept of an anchor function. This is a type of benchmark function designed for studying language models in learning tasks that follow an "anchor-key" pattern. By utilizing the concept of an anchor function, we can construct a series of functions to simulate various language tasks. The anchor function plays a role analogous to that of mice in diabetes research, particularly suitable for academic research. We demonstrate the utility of the anchor function with an example, revealing two basic operations by attention structures in language models: shifting tokens and broadcasting one token from one position to many positions. These operations are also commonly observed in large language models. The anchor function framework, therefore, opens up a series of valuable and accessible research questions for further exploration, especially for theoretical study.
翻訳日:2024-01-17 14:13:39 公開日:2024-01-16
# 量子自然政策勾配について

On Quantum Natural Policy Gradients ( http://arxiv.org/abs/2401.08307v1 )

ライセンス: Link先を確認
Andr\'e Sequeira and Luis Paulo Santos and Luis Soares Barbosa(参考訳) 本研究では,パラメータ化量子回路(pqc)を用いた強化学習エージェントの性能向上における,量子フィッシャー情報行列(fim)の役割について考察する。 これまでの研究では、文脈的帯域における量子FIMと事前条件付きPQCベースのポリシーの有効性を強調してきたが、マルコフ決定プロセスのようなより広範な強化学習コンテキストへの影響は明らかになっていない。 量子的FIMと古典的FIMの「所有者の不等式」を詳細に分析することにより、各種類のFIMを使用することのニュアンスな区別と意味を明らかにする。 以上の結果から,量子FIMを用いたPQCエージェントは一般に近似誤差が大きくなり,従来のFIMに比べて性能が向上しないことがわかった。 古典的制御ベンチマークにおける実証的な評価は、量子FIMプリコンディショニングが標準勾配上昇より優れているにもかかわらず、一般には古典的FIMプリコンディショニングよりも優れていることを示唆している。

This research delves into the role of the quantum Fisher Information Matrix (FIM) in enhancing the performance of Parameterized Quantum Circuit (PQC)-based reinforcement learning agents. While previous studies have highlighted the effectiveness of PQC-based policies preconditioned with the quantum FIM in contextual bandits, its impact in broader reinforcement learning contexts, such as Markov Decision Processes, is less clear. Through a detailed analysis of L\"owner inequalities between quantum and classical FIMs, this study uncovers the nuanced distinctions and implications of using each type of FIM. Our results indicate that a PQC-based agent using the quantum FIM without additional insights typically incurs a larger approximation error and does not guarantee improved performance compared to the classical FIM. Empirical evaluations in classic control benchmarks suggest even though quantum FIM preconditioning outperforms standard gradient ascent, in general it is not superior to classical FIM preconditioning.
翻訳日:2024-01-17 14:13:19 公開日:2024-01-16
# 多体非エルミチアン皮膚効果のマルチフラクタル性

Multifractality of Many-Body Non-Hermitian Skin Effect ( http://arxiv.org/abs/2401.08304v1 )

ライセンス: Link先を確認
Shu Hamanaka and Kohei Kawabata(参考訳) 非エルミート的皮膚効果は、非相反的散逸によって引き起こされる多数の固有状態の異常な局在であり、非エルミート的トポロジーにおいて重要な役割を果たす。 しかし、多くの体系における真の量子的特徴付けはまだ開発されていない。 ここでは,多体ヒルベルト空間において皮膚効果が多フラクタル性を示すことを解明する。 この多相性は単粒子皮膚効果を伴わないため、多体皮膚効果に内在する。 さらに,多体皮膚効果は,多体局所化に伴うマルチフラクタル性とは対照的に,多体皮膚効果はランダム行列のスペクトル統計と共存しうることを示した。 また、マルコフ開量子系におけるリウヴィリアスキン効果による多重フラクタル性も説明する。 我々の研究は、非エルミート皮膚効果の定義的特徴を確立し、オープン量子多体系における多重フラクタル性とエルゴディダリティの基本的な関係を明らかにする。

The non-Hermitian skin effect, anomalous localization of an extensive number of eigenstates induced by nonreciprocal dissipation, plays a pivotal role in non-Hermitian topology and significantly influences the open quantum dynamics. However, its genuinely quantum characterization in many-body systems has yet to be developed. Here, we elucidate that the skin effect manifests itself as multifractality in the many-body Hilbert space. This multifractality does not accompany the single-particle skin effect and hence is intrinsic to the many-body skin effect. Furthermore, we demonstrate that the many-body skin effect can coexist with spectral statistics of random matrices, in contrast to multifractality associated with the many-body localization, which necessitates the absence of ergodicity. We also illustrate multifractality caused by the Liouvillian skin effect in Markovian open quantum systems. Our work establishes a defining characterization of the non-Hermitian skin effect and uncovers a fundamental relationship between multifractality and ergodicity in open quantum many-body systems.
翻訳日:2024-01-17 14:13:00 公開日:2024-01-16
# 能動STAR-RISを用いたマルチBD共生ラジオNOMAネットワークのスループット最大化

Sum Throughput Maximization in Multi-BD Symbiotic Radio NOMA Network Assisted by Active-STAR-RIS ( http://arxiv.org/abs/2401.08301v1 )

ライセンス: Link先を確認
Rahman Saadat Yeganeh, Mohammad Javad Omidi, Farshad Zeinali, Mohammad Robatmili, Mohammad Ghavami(参考訳) 本稿では,コメンサル共生無線(CSR)ネットワーク内での通信の確立と強化を支援するために,ASRIS (Reconfigurable Intelligence Surface) を同時に送信・反射する。 従来のRISとは異なり、ASRISは全方向のカバレッジを保証するだけでなく、受信した信号も増幅する。 第1フェーズでは、アクティブなMIMOアンテナを備えた基地局(BS)が周囲信号をSBDに送信する。 第1フェーズでは、BSは共生後方散乱装置(SBD)に環境信号を送信し、エネルギーを回収して信号キャリアに情報を変調した後、SBDはBackscatter信号をBSに送信する。 本方式では,bsの支援により,sbdから共生ユーザ機器(sues)への情報伝達を容易にするために,バックスキャッタリレーシステムを採用している。 第2フェーズでは、連続干渉キャンセル(sic)法を用いた干渉を除去した後、bsはsesに情報信号を送信する。 ASRISは、視線(LoS)を欠いたSUE間の通信を確立し、BSへのLoS接続でSUEの電力信号を増幅するために使用される。 すべてのネットワークで複数のアクセスにNOMAを使用している点に注意が必要だ。 本論文の主な目的は,全ユーザ間のスループットの最大化である。 これを実現するために、BSおよびASRISにおけるアクティブビームフォーミング係数を含む変数と、ASRISの位相調整と第1相と第2相のスケジューリングパラメータを含む変数の最適化問題を定式化する。 この最適化問題をモデル化するために,PPO,TD3,A3Cという3つの深部強化学習法を用いる。 最後に、上記の手法をシミュレートし、比較する。

In this paper, we employ active simultaneously transmitting and reflecting reconfigurable intelligent surface (ASRIS) to aid in establishing and enhancing communication within a commensal symbiotic radio (CSR) network. Unlike traditional RIS, ASRIS not only ensures coverage in an omni directional manner but also amplifies received signals, consequently elevating overall network performance. in the first phase, base station (BS) with active massive MIMO antennas, send ambient signal to SBDs. In the first phase, the BS transmits ambient signals to the symbiotic backscatter devices (SBDs), and after harvesting the energy and modulating their information onto the signal carrier, the SBDs send Backscatter signals back to the BS. In this scheme, we employ the Backscatter Relay system to facilitate the transmission of information from the SBDs to the symbiotic User Equipments (SUEs) with the assistance of the BS. In the second phase, the BS transmits information signals to the SUEs after eliminating interference using the Successive Interference Cancellation (SIC) method. ASRIS is employed to establish communication among SUEs lacking a line of sight (LoS) and to amplify power signals for SUEs with a LoS connection to the BS. It is worth noting that we use NOMA for multiple access in all network. The main goal of this paper is to maximize the sum throughput between all users. To achieve this, we formulate an optimization problem with variables including active beamforming coefficients at the BS and ASRIS, as well as the phase adjustments of ASRIS and scheduling parameters between the first and second phases. To model this optimization problem, we employ three deep reinforcement learning (DRL) methods, namely PPO, TD3, and A3C. Finally, the mentioned methods are simulated and compared with each other.
翻訳日:2024-01-17 14:12:40 公開日:2024-01-16
# DAPT:大規模言語モデルのパラメータ効率の良い連続学習のための二重注意フレームワーク

DAPT: A Dual Attention Framework for Parameter-Efficient Continual Learning of Large Language Models ( http://arxiv.org/abs/2401.08295v1 )

ライセンス: Link先を確認
Weixiang Zhao, Shilong Wang, Yulin Hu, Yanyan Zhao, Bing Qin, Xuanyu Zhang, Qing Yang, Dongliang Xu, Wanxiang Che(参考訳) 連続学習(cl)能力は、動的世界に大規模言語モデル(llm)を展開するのに不可欠である。 パラメータ効率チューニング(PET)に基づいて,既存手法では学習モジュールと選択モジュールを考案し,CLにおける破滅的忘れ (CF) と知識伝達 (KT) の課題に対処する。 学習モジュールは、連続したタスクごとに別々のPETブロックを割り当て、選択モジュール関数は、テスト時に入力に対して正しいPETブロックを選択する。 しかし、両方のモジュールに制限があり、2つのモジュールをCFとKTに同時に対応させる可能性を無視している。 そこで本研究では,2重注意学習モジュールを用いてペット学習と選択を整合させる,新しい2重注意フレームワークを提案する。 2つのCLベンチマークの大規模な実験は、CFに抵抗し、同時にKTを促進するDAPTの優位性を示している。 さらに、DAPTは、異なるモデルサイズ(770Mから11B)と見えないタスクにスケールする際の優位性を示す。

The continual learning (CL) ability is vital for deploying large language models (LLMs) in the dynamic world. Based on parameter-efficient tuning (PET), existing methods devise the learning module and the selection module to handle the challenges of catastrophic forgetting (CF) and knowledge transfer (KT) in CL. The learning module allocates separate PET blocks for each continually emerged task and the selection module function to choose the correct one for the input at testing time. However, there are limitations in their deigns of both modules and they ignore the potential of aligning the two module to address CF and KT simultaneously. To this end, we propose a novel Dual Attention Framework , to align the PET learning and selection via the Dual Attentive Learning\&Selection module. Extensive Experiments on two CL benchmarks demonstrate the superiority of DAPT to resist CF and facilitate KT at the same time. Moreover, DAPT exhibits the superiority when we scale it to different model sizes (from 770M to 11B) and unseen tasks.
翻訳日:2024-01-17 14:12:07 公開日:2024-01-16
# Inferflow: 大規模言語モデルのための効率的かつ高構成可能な推論エンジン

Inferflow: an Efficient and Highly Configurable Inference Engine for Large Language Models ( http://arxiv.org/abs/2401.08294v1 )

ライセンス: Link先を確認
Shuming Shi, Enbo Zhao, Deng Cai, Leyang Cui, Xinting Huang, Huayang Li(参考訳) Inferflowは,大規模言語モデル(LLM)のための,効率的かつ高度に構成可能な推論エンジンである。 Inferflowを使えば、ユーザは、ソースコードの1行を書かずに、対応する構成ファイルにいくつかの行を変更するだけで、一般的なトランスフォーマーモデルのほとんどを利用できる。 既存の推論エンジンと比較して、Inferflowにはいくつかの重要な機能がある。 まず、アトミックなビルドブロックとテクノロジーのモジュール化フレームワークを実装することで、inferflowは新しいモデルに合成可能になります。 第2に、3.5ビット量子化は3ビットと4ビットの量子化のトレードオフとしてinferflowに導入されている。 第三に、マルチGPU推論のためのハイブリッドモデルパーティショニングがInferflowで導入され、既存のパーティショニング・バイ・レイヤやパーティショニング・バイ・テンソル戦略よりも推論速度とスループットのバランスが良くなった。

We present Inferflow, an efficient and highly configurable inference engine for large language models (LLMs). With Inferflow, users can serve most of the common transformer models by simply modifying some lines in corresponding configuration files, without writing a single line of source code. Compared with most existing inference engines, Inferflow has some key features. First, by implementing a modular framework of atomic build-blocks and technologies, Inferflow is compositionally generalizable to new models. Second, 3.5-bit quantization is introduced in Inferflow as a tradeoff between 3-bit and 4-bit quantization. Third, hybrid model partitioning for multi-GPU inference is introduced in Inferflow to better balance inference speed and throughput than the existing partition-by-layer and partition-by-tensor strategies.
翻訳日:2024-01-17 14:11:46 公開日:2024-01-16
# コヒーレント誤差の存在下でのロバストな量子ノイズ特性の実現

Realization of robust quantum noise characterization in the presence of coherent errors ( http://arxiv.org/abs/2401.08291v1 )

ライセンス: Link先を確認
Pavel Penshin, Tamara Amro, Ty Zabelotsky, Amir Abramovich, Tanmoy Pandit, Kevin Ben'Attar, Amir Hen, Raam Uzdin, Nir Bar-Gill(参考訳) 複素量子系とその様々な応用は、コヒーレントかつ非コヒーレントな性質のノイズに影響を受けやすい。 ノイズとその音源の特性は、特に固有の不整合ノイズと体系的なコヒーレントエラーの区別の観点から、量子技術応用におけるオープンで重要な課題である。 本稿では,コヒーレントエラーの影響を低減し,非コヒーレントエラーのキャラクタリゼーションを可能にする連続的な連続計測手法について検討する。 本手法は, ダイヤモンド中の窒素空孔をコヒーレントに制御し, 天然核スピン浴(非マルコビアン)と結合し, 光ポンピングプロセス(ほぼマルコビアン)による緩和を実験的に制御する。 その結果,マルコフ型および非マルコフ型非コヒーレントノイズプロファイルにおけるコヒーレント誤差の軽減効果が示された。 この手法を不整合雑音による劣化時間(T_2^*$)の推定に適用する。 標準測定値(ラムジー測定値)と比較して,遅延時間(t_2^*$)の推定において,コヒーレント誤差に対するロバスト性が向上するのを観察した。

Complex quantum systems and their various applications are susceptible to noise of coherent and incoherent nature. Characterization of noise and its sources is an open, key challenge in quantum technology applications, especially in terms of distinguishing between inherent incoherent noise and systematic coherent errors. In this paper, we study a scheme of repeated sequential measurements that enables the characterization of incoherent errors by reducing the effects of coherent errors. We demonstrate this approach using a coherently controlled Nitrogen Vacancy in diamond, coupled to both a natural nuclear spin bath (non-Markovian) and to experimentally controlled relaxation through an optical pumping process (nearly Markovian). Our results show mitigation of coherent errors both for Markovian and Non-Markovian incoherent noise profiles. We apply this scheme to the estimation of the dephasing time ($T_2^*$) due to incoherent noise. We observe an improved robustness against coherent errors in the estimation of dephasing time ($T_2^*$) compared to the standard (Ramsey) measurement.
翻訳日:2024-01-17 14:11:31 公開日:2024-01-16
# モデレーション効果のための因果機械学習

Causal Machine Learning for Moderation Effects ( http://arxiv.org/abs/2401.08290v1 )

ライセンス: Link先を確認
Nora Bearth, Michael Lechner(参考訳) 意思決定者にとって、意思決定(処理)が平均的およびサブグループに与える影響を知ることは価値がある。 因果機械学習の文献は、群平均治療効果(GATE)を推定し、治療の不均一性をよりよく理解するためのツールを提供している。 本稿では、他の共変量の変化を考慮しつつ、グループ間の治療効果の違いを解釈する上での課題について述べる。 本稿では,事前決定された共変量の特定の分布を持つゲートを測定する新しいパラメータであるバランスドグループ平均処理効果(bgate)を提案する。 2つのBGATEの違いをとることで、2つのGATEを比較するよりも、より意味のある異質性を分析することができる。 このパラメータの推定戦略は、非整合性設定における離散処理のための二重/偏平機械学習に基づいており、この推定器は標準条件下では$\sqrt{N}$-consistentおよび漸近正規であることを示す。 追加の特定仮定を加えることで、グループ間の治療効果の特定のバランスの取れた違いを因果的に解釈できる。 有限標本特性を小規模シミュレーション実験で検討し,実験例でこれらのパラメータの有用性を示す。

It is valuable for any decision maker to know the impact of decisions (treatments) on average and for subgroups. The causal machine learning literature has recently provided tools for estimating group average treatment effects (GATE) to understand treatment heterogeneity better. This paper addresses the challenge of interpreting such differences in treatment effects between groups while accounting for variations in other covariates. We propose a new parameter, the balanced group average treatment effect (BGATE), which measures a GATE with a specific distribution of a priori-determined covariates. By taking the difference of two BGATEs, we can analyse heterogeneity more meaningfully than by comparing two GATEs. The estimation strategy for this parameter is based on double/debiased machine learning for discrete treatments in an unconfoundedness setting, and the estimator is shown to be $\sqrt{N}$-consistent and asymptotically normal under standard conditions. Adding additional identifying assumptions allows specific balanced differences in treatment effects between groups to be interpreted causally, leading to the causal balanced group average treatment effect. We explore the finite sample properties in a small-scale simulation study and demonstrate the usefulness of these parameters in an empirical example.
翻訳日:2024-01-17 14:11:13 公開日:2024-01-16
# Schr\{o}dinger cat 最大60 qubitsまで成長し、猫の傷跡で踊る離散時間結晶

Schr\"{o}dinger cats growing up to 60 qubits and dancing in a cat scar enforced discrete time crystal ( http://arxiv.org/abs/2401.08284v1 )

ライセンス: Link先を確認
Zehang Bao, Shibo Xu, Zixuan Song, Ke Wang, Liang Xiang, Zitian Zhu, Jiachen Chen, Feitong Jin, Xuhao Zhu, Yu Gao, Yaozu Wu, Chuanyu Zhang, Ning Wang, Yiren Zou, Ziqi Tan, Aosai Zhang, Zhengyi Cui, Fanhao Shen, Jiarun Zhong, Tingting Li, Jinfeng Deng, Xu Zhang, Hang Dong, Pengfei Zhang, Yang-Ren Liu, Liangtian Zhao, Jie Hao, Hekang Li, Zhen Wang, Chao Song, Qiujiang Guo, Biao Huang, H. Wang(参考訳) greenberger-horne-zeilinger (ghz) は、最大に絡み合ったschr\"{o}dinger cat状態は、量子物理学と技術の基礎において重要な役割を果たすが、これらの脆弱な状態の作成と保存は、大きな課題をもたらす。 離散時間結晶(DTCs)は、もともとはエキゾチックな非平衡量子物質の探索を目的としていたが、科学的に重要な関心を集めている。 本稿では、2次元量子プロセッサに適した効率的なプロトコルを提案し、高忠実度量子ゲートのシーケンスを用いて、60個の超伝導量子ビットを持つ中間スケールでの真のGHZ絡み合いを実現する。 さらに重要なことは、DTCにおける新たな視点として、GHZ状態が一般的な摂動から保護され、状態の進化中に動的に切り替えられる量子多体傷として、一対の猫固有状態を決定論的に設計する。 以上の結果から,dtcの直接的応用だけでなく,脆弱だが興味をそそる量子エンタングルメントを保護・操る汎用プラットフォームとして,平衡から遠く離れた多体システムを構築することができた。

Greenberger-Horne-Zeilinger (GHZ) states, as maximally entangled Schr\"{o}dinger cat states, play vital roles in the foundations of quantum physics and technology, but creating and preserving these fragile states pose tremendous challenges. Discrete time crystals (DTCs), originally aimed at exploring exotic nonequilibrium quantum matters, have raised significant scientific interest, but whether this brilliant concept can lead to true applications remains unclear. Here we propose an efficient protocol suitable for two-dimensional quantum processors, and by employing sequences of high-fidelity quantum gates, we achieve genuine GHZ entanglement at the intermediate scale with up to 60 superconducting qubits. More importantly, we take a new perspective on DTC by deterministically engineering pairwise cat eigenstates as quantum many-body scars, which shield the GHZ states from generic perturbations and enable dynamical switching during the state evolution. Our results not only nail down a direct application of DTC, but also establish engineerable many-body systems far from equilibrium as a versatile platform to protect and steer fragile but intriguing quantum entanglement.
翻訳日:2024-01-17 14:10:50 公開日:2024-01-16
# 偽発見率制御可変選択によるスパースPCA

Sparse PCA with False Discovery Rate Controlled Variable Selection ( http://arxiv.org/abs/2401.08375v1 )

ライセンス: Link先を確認
Jasin Machkour, Arnaud Breloy, Michael Muma, Daniel P. Palomar, Fr\'ed\'eric Pascal(参考訳) スパース主成分分析(PCA)は、大次元データを低次元の線形部分空間にマッピングすることを目的とする。 荷重ベクトルを疎結合にすることで、次元減少と可変選択の二重義務を実行する。 スパースPCAアルゴリズムは通常、説明された分散とロードベクトルの間隔(すなわち選択された変数の数)の間のトレードオフとして表現される。 高説明の分散は必ずしも関連する情報と同義ではないため、これらの方法は無関係な変数を選択する傾向がある。 そこで本研究では,偽発見率(FDR)によるスパースPCAの定式化を提案する。 次に、T-Rexセレクタを利用して、ロードベクトルのFDR制御サポートを自動的に決定する。 結果として生じるT-Rex PCAの大きな利点は、スパーシティパラメータチューニングを必要としないことである。 数値実験と株式市場のデータ例は、大幅な性能改善を示している。

Sparse principal component analysis (PCA) aims at mapping large dimensional data to a linear subspace of lower dimension. By imposing loading vectors to be sparse, it performs the double duty of dimension reduction and variable selection. Sparse PCA algorithms are usually expressed as a trade-off between explained variance and sparsity of the loading vectors (i.e., number of selected variables). As a high explained variance is not necessarily synonymous with relevant information, these methods are prone to select irrelevant variables. To overcome this issue, we propose an alternative formulation of sparse PCA driven by the false discovery rate (FDR). We then leverage the Terminating-Random Experiments (T-Rex) selector to automatically determine an FDR-controlled support of the loading vectors. A major advantage of the resulting T-Rex PCA is that no sparsity parameter tuning is required. Numerical experiments and a stock market data example demonstrate a significant performance improvement.
翻訳日:2024-01-17 14:03:07 公開日:2024-01-16
# コンピュータ翻訳におけるターゲット言語単言語コーパスを利用した言語間ニューラルネットワークファジィマッチング

Cross-lingual neural fuzzy matching for exploiting target-language monolingual corpora in computer-aided translation ( http://arxiv.org/abs/2401.08374v1 )

ライセンス: Link先を確認
Miquel Espl\`a-Gomis, V\'ictor M. S\'anchez-Cartagena, Juan Antonio P\'erez-Ortiz, Felipe S\'anchez-Mart\'inez(参考訳) 翻訳記憶(MT)に基づくコンピュータ支援翻訳(CAT)ツールが,プロ翻訳者の翻訳ワークフローにおいて重要な役割を果たしている。 しかし、ドメイン内の単言語コーパスと比較して、ドメイン内のTMの可用性が低下すると、多くの翻訳タスクへの導入が制限される。 本稿では、TMだけでなく、ドメイン内ターゲット言語(TL)モノリンガルコーパスも活用し、従来のTMベースのCATツールと同様の機能を実現することにより、この制限を克服することを目的とした新しいニューラルネットワーク手法を提案する。 本手法は,TL単言語コーパスから翻訳提案を検索するための言語間文の埋め込みと,後処理を推定するためのニューラルモデルに依存する。 本稿では,これらの手法を4つの言語ペアで自動評価することにより,TMベースのCAT環境におけるモノリンガルテキストの活用に成功し,有用な翻訳提案量の増大を図り,翻訳後の作業推定のためのニューラルモデルにより,モノリンガルコーパスとTMからの翻訳提案を通常の方法で組み合わせることができることを示す。 単一言語対で行った人間評価は,自動評価の結果を確認し,本手法で得られた翻訳提案が,自動評価の結果よりも有用であることを示すと考えられる。

Computer-aided translation (CAT) tools based on translation memories (MT) play a prominent role in the translation workflow of professional translators. However, the reduced availability of in-domain TMs, as compared to in-domain monolingual corpora, limits its adoption for a number of translation tasks. In this paper, we introduce a novel neural approach aimed at overcoming this limitation by exploiting not only TMs, but also in-domain target-language (TL) monolingual corpora, and still enabling a similar functionality to that offered by conventional TM-based CAT tools. Our approach relies on cross-lingual sentence embeddings to retrieve translation proposals from TL monolingual corpora, and on a neural model to estimate their post-editing effort. The paper presents an automatic evaluation of these techniques on four language pairs that shows that our approach can successfully exploit monolingual texts in a TM-based CAT environment, increasing the amount of useful translation proposals, and that our neural model for estimating the post-editing effort enables the combination of translation proposals obtained from monolingual corpora and from TMs in the usual way. A human evaluation performed on a single language pair confirms the results of the automatic evaluation and seems to indicate that the translation proposals retrieved with our approach are more useful than what the automatic evaluation shows.
翻訳日:2024-01-17 14:02:52 公開日:2024-01-16
# IBM量子コンピュータを用いた重力光学のディジタル量子シミュレーション

Digital quantum simulation of gravitational optomechanics with IBM quantum computers ( http://arxiv.org/abs/2401.08370v1 )

ライセンス: Link先を確認
Pablo Guillermo Carmona Rufo, Anupam Mazumdar, Sougato Bose and Carlos Sab\'in(参考訳) 量子力学発振器と光学場との相互作用を制御し、重力効果によってそれらの間の量子絡み合いを生成するハミルトニアンの作用のデジタル量子シミュレーションを紹介する。 これはboson-qubitマッピングプロトコルと、ibm quantum platformで利用可能な量子コンピュータでシミュレーションを実行するためのデジタルゲート分解を使用することで実現されています。 本稿では,2つの異なる量子コンピュータにおいて,誤差軽減とポストセレクション手法を適用した実験結果について述べる。 得られた結果は90%以上の忠実度に対応しており、量子重力場のシミュレーションによって実際に絡み合いが生じたことを示している。

We showcase the digital quantum simulation of the action of a Hamiltonian that governs the interaction between a quantum mechanical oscillator and an optical field, generating quantum entanglement between them via gravitational effects. This is achieved by making use of a boson-qubit mapping protocol and a digital gate decomposition that allow us to run the simulations in the quantum computers available in the IBM Quantum platform. We present the obtained results for the fidelity of the experiment in two different quantum computers, after applying error mitigation and post-selection techniques. The achieved results correspond to fidelities over 90%, which indicates that entanglement was indeed generated through the simulation of a quantum gravitational field.
翻訳日:2024-01-17 14:02:27 公開日:2024-01-16
# タミル語の形態と構文

Morphology and Syntax of the Tamil Language ( http://arxiv.org/abs/2401.08367v1 )

ライセンス: Link先を確認
Kengatharaiyer Sarveswaran(参考訳) 本稿では,タミル語の形態と構文について概説し,その現代的利用に焦点をあてる。 この論文は、タミル語の言語分析と比較研究の実施に役立つ形態的・統語的特徴の観点から、タミル語の複雑さと豊かさを強調した。 さらに,本論文は,タミル語の計算資源開発に有用である。 本論文は,ルールに基づく形態素解析器cumジェネレータとタミルの計算文法がすでに開発されていることが証明されている。 幅広いオーディエンスに対するアクセシビリティを高めるために、特定の文法形式に頼らずに分析を行う。

This paper provides an overview of the morphology and syntax of the Tamil language, focusing on its contemporary usage. The paper also highlights the complexity and richness of Tamil in terms of its morphological and syntactic features, which will be useful for linguists analysing the language and conducting comparative studies. In addition, the paper will be useful for those developing computational resources for the Tamil language. It is proven as a rule-based morphological analyser cum generator and a computational grammar for Tamil have already been developed based on this paper. To enhance accessibility for a broader audience, the analysis is conducted without relying on any specific grammatical formalism.
翻訳日:2024-01-17 14:02:15 公開日:2024-01-16
# 球面カーネル補間のための重み付きスペクトルフィルタ:雑音データの予測精度の推定

Weighted Spectral Filters for Kernel Interpolation on Spheres: Estimates of Prediction Accuracy for Noisy Data ( http://arxiv.org/abs/2401.08364v1 )

ライセンス: Link先を確認
Xiaotong Liu, Jinxin Wang, Di Wang and Shao-Bo Lin(参考訳) 球面ラジアル基底に基づく核補間は、地球物理画像再構成、気候トレンド記述、画像レンダリングなどの画像科学において、その優れた空間局在特性と完璧な近似性能により多い。 しかし、ノイズの多いデータを扱う場合、カーネルの補間は、カーネル行列の大きな条件数と補間過程の不安定性のため、しばしばうまく動作しない。 本稿では,重み付きスペクトルフィルタを用いて,カーネル行列の条件数を減少させ,カーネル補間を安定化する手法を提案する。 提案手法の主なビルディングブロックは, 十分に発達した球面正定規と高域スペクトルフィルタである。 近年開発された球面データ解析のための積分演算子法を用いて,提案手法がカーネル補間のボトルネック,特に雑音データへの適合に有効であることを理論的に証明した。 提案手法は,予測精度を損なわないことを示すため,新しい手法の最適近似速度を提供する。 さらに,地球物理画像再構成と気候画像処理における合成ノイズを用いたおもちゃシミュレーションと2つの実世界のデータ実験を行い,理論的な主張を検証し,重み付きスペクトルフィルタ手法の有効性を示す。

Spherical radial-basis-based kernel interpolation abounds in image sciences including geophysical image reconstruction, climate trends description and image rendering due to its excellent spatial localization property and perfect approximation performance. However, in dealing with noisy data, kernel interpolation frequently behaves not so well due to the large condition number of the kernel matrix and instability of the interpolation process. In this paper, we introduce a weighted spectral filter approach to reduce the condition number of the kernel matrix and then stabilize kernel interpolation. The main building blocks of the proposed method are the well developed spherical positive quadrature rules and high-pass spectral filters. Using a recently developed integral operator approach for spherical data analysis, we theoretically demonstrate that the proposed weighted spectral filter approach succeeds in breaking through the bottleneck of kernel interpolation, especially in fitting noisy data. We provide optimal approximation rates of the new method to show that our approach does not compromise the predicting accuracy. Furthermore, we conduct both toy simulations and two real-world data experiments with synthetically added noise in geophysical image reconstruction and climate image processing to verify our theoretical assertions and show the feasibility of the weighted spectral filter approach.
翻訳日:2024-01-17 14:02:04 公開日:2024-01-16
# 幻覚検出と幻覚緩和に関する研究

Hallucination Detection and Hallucination Mitigation: An Investigation ( http://arxiv.org/abs/2401.08358v1 )

ライセンス: Link先を確認
Junliang Luo, Tianyu Li, Di Wu, Michael Jenkin, Steve Liu, Gregory Dudek(参考訳) ChatGPT、Bard、Llamaを含む大規模言語モデル(LLM)は、過去2年間、様々なアプリケーションで顕著な成功を収めてきた。 これらの成功にもかかわらず、LLMの幅広い適用を制限する懸念がある。 主要な問題は幻覚の問題である。 幻覚 (hallucination) は、正しい応答に加えて、llmは一見正しいが事実的に正しくない応答も生成できるという事実を指す。 本報告は,幻覚検出と幻覚軽減の両面において,現在の文献を概観するものである。 LLMに興味を持ち、それらを現実世界のタスクに適用するエンジニアと研究者の両方にとって、このレポートが良い参考になることを期待しています。

Large language models (LLMs), including ChatGPT, Bard, and Llama, have achieved remarkable successes over the last two years in a range of different applications. In spite of these successes, there exist concerns that limit the wide application of LLMs. A key problem is the problem of hallucination. Hallucination refers to the fact that in addition to correct responses, LLMs can also generate seemingly correct but factually incorrect responses. This report aims to present a comprehensive review of the current literature on both hallucination detection and hallucination mitigation. We hope that this report can serve as a good reference for both engineers and researchers who are interested in LLMs and applying them to real world tasks.
翻訳日:2024-01-17 14:01:41 公開日:2024-01-16
# SAMF:オブジェクト検出のための小面積多焦点画像融合

SAMF: Small-Area-Aware Multi-focus Image Fusion for Object Detection ( http://arxiv.org/abs/2401.08357v1 )

ライセンス: Link先を確認
Xilai Li, Xiaosong Li, Haishu Tan, Jinyang Li(参考訳) 既存のマルチフォーカス画像融合(MFIF)法は、不確実な遷移領域の保存に失敗し、大規模な非集中領域内の小さな焦点領域を正確に検出する。 そこで本研究では,オブジェクト検出能力を向上させるためのMFIFアルゴリズムを提案する。 まず,小焦点領域と境界領域の画素属性を強調し,その後,視覚塩分検出と組み合わせることで,焦点領域の分布を判別するプレフュージョン結果を得る。 画素焦点を正確に確保するため,光源画像はフォーカス領域,デフォーカス領域,不確実領域の組み合わせとして考慮し,三領域分割戦略を提案する。 最後に,セグメンテーション決定マップを生成する効果的な画素選択ルールを設計し,最終的な融合結果を得る。 実験により,提案手法は対象検出性能を向上し,主観的,客観的両評価において既存手法よりも優れることがわかった。 ソースコードはhttps://github.com/ixilai/samfで入手できる。

Existing multi-focus image fusion (MFIF) methods often fail to preserve the uncertain transition region and detect small focus areas within large defocused regions accurately. To address this issue, this study proposes a new small-area-aware MFIF algorithm for enhancing object detection capability. First, we enhance the pixel attributes within the small focus and boundary regions, which are subsequently combined with visual saliency detection to obtain the pre-fusion results used to discriminate the distribution of focused pixels. To accurately ensure pixel focus, we consider the source image as a combination of focused, defocused, and uncertain regions and propose a three-region segmentation strategy. Finally, we design an effective pixel selection rule to generate segmentation decision maps and obtain the final fusion results. Experiments demonstrated that the proposed method can accurately detect small and smooth focus areas while improving object detection performance, outperforming existing methods in both subjective and objective evaluations. The source code is available at https://github.com/ixilai/SAMF.
翻訳日:2024-01-17 14:01:30 公開日:2024-01-16
# 多次元量子ウォーク, 再帰, および量子二分法

Multidimensional Quantum Walks, Recursion, and Quantum Divide & Conquer ( http://arxiv.org/abs/2401.08355v1 )

ライセンス: Link先を確認
Stacey Jeffery and Galina Pass(参考訳) 多次元量子ウォークの技法を定式化する部分空間グラフと呼ばれる物体を導入する。 部分空間グラフを構成することによって、量子と古典的推論をシームレスに組み合わせ、古典的構造を念頭に置いて、必要に応じて単純な境界で量子部分を部分グラフに抽象化することができる。 例えば、スイッチングネットワークと任意の量子サブルーチンを結合して、合成関数を計算する方法を示す。 別の応用として、サブプロブレムが対称ブール式によって結合されるとき、時間効率で量子ディバイド・アンド・コンバーの実装を与える。 これを使って、$st$-connectivity に対する Savitch のアルゴリズムを2次的に高速化する。

We introduce an object called a subspace graph that formalizes the technique of multidimensional quantum walks. Composing subspace graphs allows one to seamlessly combine quantum and classical reasoning, keeping a classical structure in mind, while abstracting quantum parts into subgraphs with simple boundaries as need. As an example, we show how to combine a switching network with arbitrary quantum subroutines, to compute a composed function. As another application, we give a time-efficient implementation of quantum Divide & Conquer when the sub-problems are combined via a symmetric Boolean formula. We use this to quadratically speed up Savitch's algorithm for directed $st$-connectivity.
翻訳日:2024-01-17 14:01:11 公開日:2024-01-16
# 確率モデルの個人化フェデレーション学習:PAC-ベイズ的アプローチ

Personalized Federated Learning of Probabilistic Models: A PAC-Bayesian Approach ( http://arxiv.org/abs/2401.08351v1 )

ライセンス: Link先を確認
Mahrokh Ghoddousi Boroujeni, Andreas Krause, Giancarlo Ferrari Trecate(参考訳) フェデレーション学習は、複数のクライアントがローカルに格納したプライベートデータと分散データから共有モデルを推論することを目的としている。 パーソナライズされた連合学習(pfl)はさらに一歩進めて、グローバルモデルを各クライアントに適応させ、異なるクライアントにモデルの適合性を高める。 高度に異質なクライアントには、かなりのレベルのパーソナライズが必要であるが、特に小さなデータセットを持っている場合には、達成が困難である。 そこで本研究では,データ依存のプライオリティを扱うために差分プライバシーを利用するpac-bayesianフレームワークの中で確率モデルを学ぶためのpflアルゴリズムであるpac-pflを提案する。 提案アルゴリズムは,共有されたハイパーポインターを協調的に学習し,各クライアントの後部推論をパーソナライズステップとみなす。 クライアントの平均真リスクに縛られる一般化を確立し、最小化することにより、PAC-PFLは効果的に過度に適合する。 PACPFLは、太陽電池パネル発電のデータセット、FEMNISTデータセット(Caldas et al., 2019)、Dirichlet-partitioned EMNISTデータセット(Cohen et al., 2017)の実験によってサポートされている、正確で校正された予測を達成している。

Federated learning aims to infer a shared model from private and decentralized data stored locally by multiple clients. Personalized federated learning (PFL) goes one step further by adapting the global model to each client, enhancing the model's fit for different clients. A significant level of personalization is required for highly heterogeneous clients, but can be challenging to achieve especially when they have small datasets. To address this problem, we propose a PFL algorithm named PAC-PFL for learning probabilistic models within a PAC-Bayesian framework that utilizes differential privacy to handle data-dependent priors. Our algorithm collaboratively learns a shared hyper-posterior and regards each client's posterior inference as the personalization step. By establishing and minimizing a generalization bound on the average true risk of clients, PAC-PFL effectively combats over-fitting. PACPFL achieves accurate and well-calibrated predictions, supported by experiments on a dataset of photovoltaic panel power generation, FEMNIST dataset (Caldas et al., 2019), and Dirichlet-partitioned EMNIST dataset (Cohen et al., 2017).
翻訳日:2024-01-17 14:00:58 公開日:2024-01-16
# Salute the Classic: 大規模言語モデルの時代における機械翻訳の課題の再考

Salute the Classic: Revisiting Challenges of Machine Translation in the Age of Large Language Models ( http://arxiv.org/abs/2401.08350v1 )

ライセンス: Link先を確認
Jianhui Pang, Fanghua Ye, Longyue Wang, Dian Yu, Derek F. Wong, Shuming Shi, Zhaopeng Tu(参考訳) ニューラルネットワーク翻訳(NMT)の進化は、6つのコア課題(KoehnとKnowles, 2017)の影響を受けており、この分野の進歩のベンチマークとして機能している。 本研究はこれらの課題を再考し、ドメインミスマッチ、並列データの量、希少な単語予測、長文の翻訳、単語アライメントとしてのアテンションモデル、および準最適ビーム探索といった、先進的な大規模言語モデル(LLM)の文脈におけるそれらの関連性についての洞察を提供する。 実験の結果,LLMは事前学習段階における主要言語への並列データへの依存を効果的に軽減することが示された。 さらに,LLMに基づく翻訳システムにより,約80語を含む長文の翻訳が大幅に向上し,最大512語までの文書翻訳が可能となった。 しかし、これらの大きな改善にもかかわらず、ドメインミスマッチとレアワードの予測の課題は続いている。 単語アライメントとビーム探索の課題は、特にnmtに関連づけられるが、翻訳タスクにおけるllmの新たな課題は、推論効率、事前学習段階における低リソース言語の翻訳、人間によるアライメント評価である。 データセットとモデルはhttps://github.com/pangjh3/LLM4MTで公開される。

The evolution of Neural Machine Translation (NMT) has been significantly influenced by six core challenges (Koehn and Knowles, 2017), which have acted as benchmarks for progress in this field. This study revisits these challenges, offering insights into their ongoing relevance in the context of advanced Large Language Models (LLMs): domain mismatch, amount of parallel data, rare word prediction, translation of long sentences, attention model as word alignment, and sub-optimal beam search. Our empirical findings indicate that LLMs effectively lessen the reliance on parallel data for major languages in the pretraining phase. Additionally, the LLM-based translation system significantly enhances the translation of long sentences that contain approximately 80 words and shows the capability to translate documents of up to 512 words. However, despite these significant improvements, the challenges of domain mismatch and prediction of rare words persist. While the challenges of word alignment and beam search, specifically associated with NMT, may not apply to LLMs, we identify three new challenges for LLMs in translation tasks: inference efficiency, translation of low-resource languages in the pretraining phase, and human-aligned evaluation. The datasets and models are released at https://github.com/pangjh3/LLM4MT.
翻訳日:2024-01-17 14:00:34 公開日:2024-01-16
# ラベルは必要ない: 根拠のない共変量シフトの下での展開後のモデルパフォーマンスの推定

We don't need no labels: Estimating post-deployment model performance under covariate shift without ground truth ( http://arxiv.org/abs/2401.08348v1 )

ライセンス: Link先を確認
Jakub Bia{\l}ek, Wojtek Kuberski, Nikolaos Perrakis(参考訳) 機械学習モデルのパフォーマンスは、データ分散シフトによるデプロイメント後に劣化することが多い。 多くのユースケースにおいて、ラベルが使用できない、あるいは著しく遅れているため、デプロイ後のパフォーマンスを計算することは不可能である。 ドリフト検出技術のようなモデル性能安定性を評価するプロキシ手法は、データ分散シフトの影響を適切に定量化しない。 そこで本研究では,共変量シフトがモデル性能に与える影響を正確に評価する,ラベルのないデータに基づいてML分類モデルを評価するための頑健で正確な性能推定手法を提案する。 マルチカタリテッド信頼度ベースパフォーマンス推定(m-cbpe)と呼ぶ。 モデルとデータタイプの非依存であり、あらゆるパフォーマンス指標で機能する。 監視されたモデルへのアクセスは不要で、モデル予測と確率推定を使用する。 M-CBPEは、データから完全に学習するため、共変量シフトの性質に関するユーザ入力を必要としない。 米国国勢調査データから600以上のデータセット-モデルペアで評価し、複数の評価指標を用いて複数のベンチマークと比較した。 その結果,M-CBPEは任意の評価文脈における分類モデルの性能を推定する最良の方法であることがわかった。

The performance of machine learning models often degrades after deployment due to data distribution shifts. In many use cases, it is impossible to calculate the post-deployment performance because labels are unavailable or significantly delayed. Proxy methods for evaluating model performance stability, like drift detection techniques, do not properly quantify data distribution shift impact. As a solution, we propose a robust and accurate performance estimation method for evaluating ML classification models on unlabeled data that accurately quantifies the impact of covariate shift on model performance. We call it multi-calibrated confidence-based performance estimation (M-CBPE). It is model and data-type agnostic and works for any performance metric. It does not require access to the monitored model - it uses the model predictions and probability estimates. M-CBPE does not need user input on the nature of the covariate shift as it fully learns from the data. We evaluate it with over 600 dataset-model pairs from US census data and compare it with multiple benchmarks using several evaluation metrics. Results show that M-CBPE is the best method to estimate the performance of classification models in any evaluation context.
翻訳日:2024-01-17 14:00:07 公開日:2024-01-16
# Few-shot Action Recognition(CLIP-$\mathrm{M^2}$DF)のためのマルチモーダルフュージョンに基づく多視点蒸留

Multi-view Distillation based on Multi-modal Fusion for Few-shot Action Recognition(CLIP-$\mathrm{M^2}$DF) ( http://arxiv.org/abs/2401.08345v1 )

ライセンス: Link先を確認
Fei Guo, YiKang Wang, Han Qi, WenPing Jin, Li Zhu(参考訳) 近年、数発のアクション認識が注目されている。 一般的にメタラーニングのパラダイムを採用する。 この分野では、クラスと外れ値の重複分布を克服することは、限られたサンプルに基づいても難しい問題である。 マルチモーダルとマルチビューの組み合わせは,情報の相補性に応じてこの問題を改善することができると考えている。 そこで本研究ではマルチモーダル融合に基づく多視点蒸留法を提案する。 まず、クエリ用の確率確率プロンプトセレクタを構築し、サポートの迅速な埋め込みとクエリの視覚的な埋め込みの比較スコアに基づいて確率プロンプト埋め込みを生成する。 第2に,マルチビューを確立する。 各視点において、クラスと外れ値の重なり合う分布を克服するために、視覚的および局所的な時間的文脈と一貫した情報としてプロンプト埋め込みを融合する。 第3に,マルチビューのための距離融合とマッチング能力の相互蒸留を行い,分散バイアスに対してより頑健なモデルを実現する。 私たちのコードはurlで利用可能です。 \url{https://github.com/cofly2014/mdmf}。

In recent years, few-shot action recognition has attracted increasing attention. It generally adopts the paradigm of meta-learning. In this field, overcoming the overlapping distribution of classes and outliers is still a challenging problem based on limited samples. We believe the combination of Multi-modal and Multi-view can improve this issue depending on information complementarity. Therefore, we propose a method of Multi-view Distillation based on Multi-modal Fusion. Firstly, a Probability Prompt Selector for the query is constructed to generate probability prompt embedding based on the comparison score between the prompt embeddings of the support and the visual embedding of the query. Secondly, we establish a Multi-view. In each view, we fuse the prompt embedding as consistent information with visual and the global or local temporal context to overcome the overlapping distribution of classes and outliers. Thirdly, we perform the distance fusion for the Multi-view and the mutual distillation of matching ability from one to another, enabling the model to be more robust to the distribution bias. Our code is available at the URL: \url{https://github.com/cofly2014/MDMF}.
翻訳日:2024-01-17 13:59:50 公開日:2024-01-16
# dabih --暗号化データストレージおよび共有プラットフォーム

dabih -- encrypted data storage and sharing platform ( http://arxiv.org/abs/2401.08333v1 )

ライセンス: Link先を確認
Michael Huttner, Jakob Simeth, Renato Liguori, Fulvia Ferrazzi, Rainer Spang(参考訳) 背景: センシティブな臨床データ、特にヒトゲノムデータの安全な管理は、現代の生物医学研究において重要な要件となっている。 必要なソフトウェアやアルゴリズムは容易に利用できるが、非it専門家が使用することは大きな課題となる。 メソッド: 私たちは、ユーザフレンドリな暗号化データ管理を容易にするために特別に設計されたオープンソースのWebアプリケーションdabihを開発した。 dabihは、あらゆるフォーマットでセンシティブなデータのアップロード、保存、共有、ダウンロードを可能にする。 データセキュリティに対するアプローチは、2段階のエンベロープ暗号化プロセスを含む。 データに対する対称鍵暗号と公開鍵暗号を鍵カプセル化機構として組み合わせる。 データの復号化に必要な秘密鍵は、所有者のデバイスに限られる。 したがって、キーホルダからの明示的な許可なしにデータへのアクセスは不可能である。 結果: dabihはGitHub https://github.com/spang-lab/dabihでオープンソース公開されている。dockerハブ上でコンテナを使用する準備ができており、コマンドラインインターフェースとグラフィカルなバルクアップロードツールをビルド済みバイナリとして備えている。 ドキュメンテーションはWebアプリケーションの一部として利用できる。 結論: dabihは、誰もが自分のデータに強力な暗号を使えると同時に、暗号化されていない他のデータストレージソリューションと同じくらい簡単に使える。 ユーザはファイルをドラッグ&ドロップするだけで、セキュアなWebポータルと対話するので、すべての暗号化はバックグラウンドでシームレスに実行される。

Background: The secure management of sensitive clinical data, particularly human genomics data, has become a critical requirement in modern biomedical research. Although the necessary software and algorithms are readily available, their use by non-IT experts poses significant challenges. Methods: We developed dabih, an open-source web application specifically designed to facilitate user-friendly encrypted data management. dabih enables web-based uploading, storing, sharing, and downloading of sensitive data in any format. Its approach to data security involves a two-stage envelope encryption process. We combine symmetric-key encryption for data and public-key encryption as key encapsulation mechanism. The private key necessary for decrypting the data remains exclusively on the owner's device. Thus, accessing data is impossible without explicit permission from the keyholder. Results: dabih is available open-source on GitHub https://github.com/spang-lab/dabih, as ready to use containers on docker hub and includes a command line interface and a graphical bulk upload tool as pre-built binaries. Documentation is available as part of the web application. Conclusions: dabih enables everyone to use strong cryptography for their data, while being just as simple to use as other, non-encrypted, data storage solutions. All the cryptography occurs seamlessly in the background as users interact with a secure web portal, simply by dragging and dropping files.
翻訳日:2024-01-17 13:59:31 公開日:2024-01-16
# 生成的脱離蒸留:高濃度予測のための効率的な知識伝達を誘導する単純な確率的雑音

Generative Denoise Distillation: Simple Stochastic Noises Induce Efficient Knowledge Transfer for Dense Prediction ( http://arxiv.org/abs/2401.08332v1 )

ライセンス: Link先を確認
Zhaoge Liu, Xiaohao Xu, Yunkang Cao, Weiming Shen(参考訳) 知識蒸留は、より強力な大きなモデル(教師)からより単純なモデル(学生)に知識を伝達する過程である。 現在の多くのアプローチでは、生徒が直接教師の知識を模倣する。 しかし、冗長性は、各空間的位置の特徴を無差別に学習する傾向があるこれらの一般的な方法を通じて、学習された表現の中にまだ存在する。 教師からよりコンパクトな表現(概念的特徴)を導き、人間の認知に触発されて、学習者の概念に確率的ノイズを加えて浅層ネットワークから生成されたインスタンス特徴に組み込むという、GDD(Generative Denoise Distillation)と呼ばれる革新的な手法を提案する。 そして、生成されたインスタンス機能は、教師からのインスタンスの知識と一致します。 提案手法の汎用性と有効性を示すために,オブジェクト検出,インスタンス分割,セマンティクスセグメンテーションを広範囲に実験した。 特に、GDDは上記のタスクで新しい最先端のパフォーマンスを達成する。 PspNetとDeepLabV3はResNet-18をベースとして,それぞれ74.67点,77.69点のmIoUスコアを,Cityscapesの20カテゴリのデータセットで69.85点,73.20点を突破し,セマンティックセグメンテーションの大幅な改善を実現した。 GDDのソースコードはhttps://github.com/ZhgLiu/GDDで入手できる。

Knowledge distillation is the process of transferring knowledge from a more powerful large model (teacher) to a simpler counterpart (student). Numerous current approaches involve the student imitating the knowledge of the teacher directly. However, redundancy still exists in the learned representations through these prevalent methods, which tend to learn each spatial location's features indiscriminately. To derive a more compact representation (concept feature) from the teacher, inspired by human cognition, we suggest an innovative method, termed Generative Denoise Distillation (GDD), where stochastic noises are added to the concept feature of the student to embed them into the generated instance feature from a shallow network. Then, the generated instance feature is aligned with the knowledge of the instance from the teacher. We extensively experiment with object detection, instance segmentation, and semantic segmentation to demonstrate the versatility and effectiveness of our method. Notably, GDD achieves new state-of-the-art performance in the tasks mentioned above. We have achieved substantial improvements in semantic segmentation by enhancing PspNet and DeepLabV3, both of which are based on ResNet-18, resulting in mIoU scores of 74.67 and 77.69, respectively, surpassing their previous scores of 69.85 and 73.20 on the Cityscapes dataset of 20 categories. The source code of GDD is available at https://github.com/ZhgLiu/GDD.
翻訳日:2024-01-17 13:59:11 公開日:2024-01-16
# dr-submodular 連続最大化のための昇圧勾配上昇

Boosting Gradient Ascent for Continuous DR-submodular Maximization ( http://arxiv.org/abs/2401.08330v1 )

ライセンス: Link先を確認
Qixin Zhang, Zongqi Wan, Zengde Deng, Zaiyi Chen, Xiaoming Sun, Jialin Zhang and Yu Yang(参考訳) Projected Gradient Ascent (PGA) は機械学習と運用研究分野で最もよく使われている最適化手法である。 しかしながら、多くの研究や例により、PGA法は連続DR-部分モジュラー最大化問題に対する厳密な近似比を達成できないことが示されている。 この課題に対処するため,本論文では,目的関数に小さな変更を加えるだけで,標準 PGA の \emph{optimal} への近似保証を効率よく改善する手法を提案する。 本手法の基本的な考え方は,従来のDR-submodular objective $f$の大域的最大値に対する固定点の近似が優れている新しい補助関数$F$を導出するために,非公約探索を利用することである。 具体的には、$f$が単調で$\gamma$-weakly DR-submodularなとき、固定点が $f$ の定常点によって保証される $(\gamma^2/(1+\gamma^2))$-approximation よりも良い$(1-e^{-\gamma})$-approximation を提供するような補助関数 $F$ を提案する。 同様に、単調でない場合には、固定点が最適$\frac{1-\min_{\boldsymbol{x}\in\mathcal{C}}\|\boldsymbol{x}\|_{\infty}}{4}$-approximation guarantee ここで$\mathcal{C}$は凸制約集合である。 対照的に、元の非単調のd-サブモジュラー関数の静止点は任意に悪い--\citep{chen2023continuous} である。 さらに,4つの問題に対するブースティング手法のスケーラビリティを実証する。 これら4つの問題すべてにおいて、我々の結果のPGAアルゴリズムの変動は、近似比や効率などのいくつかの面で以前の標準PGAを上回った。 最後に,PGA法の有効性を示す数値実験と理論的な結果の相関について検討した。

Projected Gradient Ascent (PGA) is the most commonly used optimization scheme in machine learning and operations research areas. Nevertheless, numerous studies and examples have shown that the PGA methods may fail to achieve the tight approximation ratio for continuous DR-submodular maximization problems. To address this challenge, we present a boosting technique in this paper, which can efficiently improve the approximation guarantee of the standard PGA to \emph{optimal} with only small modifications on the objective function. The fundamental idea of our boosting technique is to exploit non-oblivious search to derive a novel auxiliary function $F$, whose stationary points are excellent approximations to the global maximum of the original DR-submodular objective $f$. Specifically, when $f$ is monotone and $\gamma$-weakly DR-submodular, we propose an auxiliary function $F$ whose stationary points can provide a better $(1-e^{-\gamma})$-approximation than the $(\gamma^2/(1+\gamma^2))$-approximation guaranteed by the stationary points of $f$ itself. Similarly, for the non-monotone case, we devise another auxiliary function $F$ whose stationary points can achieve an optimal $\frac{1-\min_{\boldsymbol{x}\in\mathcal{C}}\|\boldsymbol{x}\|_{\infty}}{4}$-approximation guarantee where $\mathcal{C}$ is a convex constraint set. In contrast, the stationary points of the original non-monotone DR-submodular function can be arbitrarily bad~\citep{chen2023continuous}. Furthermore, we demonstrate the scalability of our boosting technique on four problems. In all of these four problems, our resulting variants of boosting PGA algorithm beat the previous standard PGA in several aspects such as approximation ratio and efficiency. Finally, we corroborate our theoretical findings with numerical experiments, which demonstrate the effectiveness of our boosting PGA methods.
翻訳日:2024-01-17 13:58:43 公開日:2024-01-16
# ディープニューラルネットワークによるバックグラウンドバイアス軽減のための高速ISNet

Faster ISNet for Background Bias Mitigation on Deep Neural Networks ( http://arxiv.org/abs/2401.08409v1 )

ライセンス: Link先を確認
Pedro R. A. S. Bassi, Sergio Decherchi and Andrea Cavalli(参考訳) 背景画像の特徴は背景バイアス(spurious correlations)を構成し、深層分類器の決定に影響を与え、ショートカット学習(Clever Hans effect)を引き起こし、現実世界のデータに対する一般化スキルを低下させる。 分類器の振る舞いを改善するためにレイヤワイド・レバレンス・プロパゲーション(LRP)ヒートマップを最適化するというコンセプトは、ISNetというニューラルネットワークアーキテクチャによって最近導入された。 LRPマップの背景関係を最小化し、画像背景の特徴が深い分類器決定に与える影響を緩和し、ショートカット学習を妨げ、一般化を改善する。 トレーニング画像毎に、元のisnetは分類タスクで可能なクラス毎に1つのヒートマップを生成するため、トレーニング時間はクラス数に線形にスケールする。 そこで本稿では,この数値から学習時間が独立し,最適化プロセスがより高速になるように,学習時間を短縮したアーキテクチャを紹介する。 背景バイアスによる学習のショートカットが難しい胸部X線におけるMNISTデータセットとCOVID-19検出を併用した強化モデルに挑戦した。 トレーニングされたモデルは、バックグラウンドの注意を最小化し、高精度を維持しながらショートカット学習を妨げる。 外部(配布外)のテストデータセットを考慮すると、専用のイメージセマンティックセグメンタとそれに続く分類器を含む、複数の最先端のディープニューラルネットワークアーキテクチャよりも一貫して正確であることが証明された。 ここで提示されたアーキテクチャは、元のisnetよりもトレーニング速度が大幅に向上する可能性を示しており、lrp最適化を元のモデルでは実現不可能なアプリケーションの範囲に導入している。

Image background features can constitute background bias (spurious correlations) and impact deep classifiers decisions, causing shortcut learning (Clever Hans effect) and reducing the generalization skill on real-world data. The concept of optimizing Layer-wise Relevance Propagation (LRP) heatmaps, to improve classifier behavior, was recently introduced by a neural network architecture named ISNet. It minimizes background relevance in LRP maps, to mitigate the influence of image background features on deep classifiers decisions, hindering shortcut learning and improving generalization. For each training image, the original ISNet produces one heatmap per possible class in the classification task, hence, its training time scales linearly with the number of classes. Here, we introduce reformulated architectures that allow the training time to become independent from this number, rendering the optimization process much faster. We challenged the enhanced models utilizing the MNIST dataset with synthetic background bias, and COVID-19 detection in chest X-rays, an application that is prone to shortcut learning due to background bias. The trained models minimized background attention and hindered shortcut learning, while retaining high accuracy. Considering external (out-of-distribution) test datasets, they consistently proved more accurate than multiple state-of-the-art deep neural network architectures, including a dedicated image semantic segmenter followed by a classifier. The architectures presented here represent a potentially massive improvement in training speed over the original ISNet, thus introducing LRP optimization into a gamut of applications that could not be feasibly handled by the original model.
翻訳日:2024-01-17 13:52:11 公開日:2024-01-16
# 反復的サポートクエリ対応マイニングによるクロスドメインFew-Shotセグメンテーション

Cross-Domain Few-Shot Segmentation via Iterative Support-Query Correspondence Mining ( http://arxiv.org/abs/2401.08407v1 )

ライセンス: Link先を確認
Jiahao Nie, Yun Xing, Gongjie Zhang, Pei Yan, Aoran Xiao, Yap-Peng Tan, Alex C. Kot and Shijian Lu(参考訳) CD-FSS (Cross-Domain Few-Shot Segmentation) は、限定的な例のみを用いて、異なるドメインから新しいカテゴリを分割するという課題を提起する。 本稿ではCD-FSSの総合的研究を行い、2つの重要な知見を明らかにする。 (i)学習したメタ知識をドメイン間で効果的に伝達するための微調整段階の必要性、 (ii)新規なカテゴリー例の不足によるna\"ive fine-tuning中の過適合リスク。 そこで本研究では,CD-FSSの課題に対処するクロスドメイン微調整手法を提案する。 我々はまず,双方向でサポートクエリ対応を確立するBFP(Bi-directional Few-shot Prediction)を設計し,オーバーフィッティングリスクを低減するために,補助的な監視を行う。 さらにbfpを反復的少数ショット適応器(ifa)に拡張し,補助クエリ対応を反復的に捉えるための再帰的フレームワークとして,疎新なカテゴリサンプルからの監視信号の最大活用を目標とした。 広範な経験的評価により,ifa がクロスドメインの課題に取り組み,同時にオーバーフィッティングを軽減できることを検証するため,本手法が最先端(+7.8\%)を著しく上回っていることが示された。 コードは利用可能になる。

Cross-Domain Few-Shot Segmentation (CD-FSS) poses the challenge of segmenting novel categories from a distinct domain using only limited exemplars. In this paper, we undertake a comprehensive study of CD-FSS and uncover two crucial insights: (i) the necessity of a fine-tuning stage to effectively transfer the learned meta-knowledge across domains, and (ii) the overfitting risk during the na\"ive fine-tuning due to the scarcity of novel category examples. With these insights, we propose a novel cross-domain fine-tuning strategy that addresses the challenging CD-FSS tasks. We first design Bi-directional Few-shot Prediction (BFP), which establishes support-query correspondence in a bi-directional manner, crafting augmented supervision to reduce the overfitting risk. Then we further extend BFP into Iterative Few-shot Adaptor (IFA), which is a recursive framework to capture the support-query correspondence iteratively, targeting maximal exploitation of supervisory signals from the sparse novel category samples. Extensive empirical evaluations show that our method significantly outperforms the state-of-the-arts (+7.8\%), which verifies that IFA tackles the cross-domain challenges and mitigates the overfitting simultaneously. Code will be made available.
翻訳日:2024-01-17 13:51:14 公開日:2024-01-16
# RAG対微調整:パイプライン、トレードオフおよび農業の事例研究

RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture ( http://arxiv.org/abs/2401.08406v1 )

ライセンス: Link先を確認
Aman Gupta, Anup Shirgaonkar, Angels de Luis Balaguer, Bruno Silva, Daniel Holstein, Dawei Li, Jennifer Marsman, Leonardo O. Nunes, Mahsa Rouzbahman, Morris Sharp, Nick Mecklenburg, Rafael Padilha, Ranveer Chandra, Renato Luiz de Freitas Cunha, Roberto de M. Estev\~ao Filho, Ryan Tsang, Sara Malvar, Swati Sharma, Todd Hendry, Vijay Aski, Vijetha Vijayendran, Vinamra Benara(参考訳) 大きな言語モデル(llm)のアプリケーションを構築する際に、開発者がプロプライエタリなデータとドメイン固有のデータを組み込む一般的な方法が2つある。 RAGは外部データでプロンプトを強化し、 fine-Tuning はモデル自体に追加の知識を組み込む。 しかし、両方のアプローチの長所と短所はよく理解されていない。 本稿では、微調整とRAGのためのパイプラインを提案し、Llama2-13B、GPT-3.5、GPT-4を含む複数のLLMのトレードオフを示す。 我々のパイプラインは,PDFから情報を取り出す,質問や回答を生成する,微調整に使用する,GPT-4を利用して結果を評価する,など,複数の段階から構成される。 本稿では,RAGと微調整パイプラインの異なるステージの性能を評価する指標を提案する。 農業データセットに関する詳細な研究を行っている。 産業としての農業はAIの浸透をあまり見ていないが、潜在的に破壊的な応用について研究している。 本研究は,地理固有知識の獲得におけるデータセット生成パイプラインの有効性と,ragと微調整の定量的・質的効果を示す。 モデルを微調整すると精度が6時以上上昇し、RAGにより累積化され、さらに精度が5時まで向上する。 ある特定の実験では、微調整されたモデルが特定の質問に答えるために地理的に情報を活用することを実証し、回答の類似性は47%から72%に増加した。 全体として、LLMを使用して構築されたシステムは、特定の産業にとって重要な分野の知識に反応し、組み込むことができ、他の産業領域におけるLLMのさらなる応用の道を開くことができる。

There are two common ways in which developers are incorporating proprietary and domain-specific data when building applications of Large Language Models (LLMs): Retrieval-Augmented Generation (RAG) and Fine-Tuning. RAG augments the prompt with the external data, while fine-Tuning incorporates the additional knowledge into the model itself. However, the pros and cons of both approaches are not well understood. In this paper, we propose a pipeline for fine-tuning and RAG, and present the tradeoffs of both for multiple popular LLMs, including Llama2-13B, GPT-3.5, and GPT-4. Our pipeline consists of multiple stages, including extracting information from PDFs, generating questions and answers, using them for fine-tuning, and leveraging GPT-4 for evaluating the results. We propose metrics to assess the performance of different stages of the RAG and fine-Tuning pipeline. We conduct an in-depth study on an agricultural dataset. Agriculture as an industry has not seen much penetration of AI, and we study a potentially disruptive application - what if we could provide location-specific insights to a farmer? Our results show the effectiveness of our dataset generation pipeline in capturing geographic-specific knowledge, and the quantitative and qualitative benefits of RAG and fine-tuning. We see an accuracy increase of over 6 p.p. when fine-tuning the model and this is cumulative with RAG, which increases accuracy by 5 p.p. further. In one particular experiment, we also demonstrate that the fine-tuned model leverages information from across geographies to answer specific questions, increasing answer similarity from 47% to 72%. Overall, the results point to how systems built using LLMs can be adapted to respond and incorporate knowledge across a dimension that is critical for a specific industry, paving the way for further applications of LLMs in other industrial domains.
翻訳日:2024-01-17 13:50:48 公開日:2024-01-16
# AIのインターロゲーティング:ChatGPTとの創発的なプレイフルインタラクションを特徴付ける

Interrogating AI: Characterizing Emergent Playful Interactions with ChatGPT ( http://arxiv.org/abs/2401.08405v1 )

ライセンス: Link先を確認
Mohammad Ronagh Nikghalb, Jinghui Cheng(参考訳) AIの能力と影響力の増大の時代、近年の進歩は、HCIとCSCWのAIを単なるツールとして捉え直している。 AIシステムとの遊び心は、ユーザーが常に変化するテクノロジーを理解する方法として自然に現れた。 しかし、これらの創発的で遊び心のある相互作用は過小評価される。 このギャップを、最近トレンドになっている強力なAI技術ChatGPTのユーザによる遊び心のあるインタラクションを調査することによって、ターゲットとしています。 また,ChatGPTサブレディット上での372件のユーザ生成記事のテーマ分析により,ユーザ談話のかなりの部分は遊び心のあるインタラクションを中心に進行していることがわかった。 この分析により、これらの相互作用を記述するための予備分類法を構築することができ、それらを反射、ジェスト、模倣、挑戦、トリック、検索の6つのタイプに分類することができる。 本研究は,HCI と CSCW の分野に寄与し,AI との多面的相互作用の多面的性質を解明し,人間とAI の関係を形作る上での意義を浮き彫りにした。

In an era of AI's growing capabilities and influences, recent advancements are reshaping HCI and CSCW's view of AI as mere tools. Playful interactions with AI systems naturally emerged as a way for users to make sense of the ever-changing technology. However, these emergent and playful interactions are underexamined. We target this gap by investigating playful interactions exhibited by users of a recently trending powerful AI technology, ChatGPT. Through a thematic analysis of 372 user-generated posts on the ChatGPT subreddit, we found that a substantial portion of user discourse revolves around playful interactions. The analysis further allowed us to construct a preliminary taxonomy to describe these interactions, categorizing them into six types: reflecting, jesting, imitating, challenging, tricking, and contriving; each included sub-categories. Overall, this study contributes to the field of HCI and CSCW by illuminating the multifaceted nature of playful interactions with AI, underlining their significance in shaping the human-AI relationship.
翻訳日:2024-01-17 13:50:17 公開日:2024-01-16
# 小児脳腫瘍のオートセグメンテーションにおけるnnu-netとdeepmedic法の訓練と比較

Training and Comparison of nnU-Net and DeepMedic Methods for Autosegmentation of Pediatric Brain Tumors ( http://arxiv.org/abs/2401.08404v1 )

ライセンス: Link先を確認
Arastoo Vossough, Nastaran Khalili, Ariana M. Familiar, Deep Gandhi, Karthik Viswanathan, Wenxin Tu, Debanjan Haldar, Sina Bagheri, Hannah Anderson, Shuvanjan Haldar, Phillip B. Storm, Adam Resnick, Jeffrey B. Ware, Ali Nabavizadeh, Anahita Fathi Kazerooni(参考訳) 脳腫瘍は最も一般的な固形腫瘍であり、子供のがん関連死亡の原因となっている。 腫瘍の分節化は外科的および治療計画、反応の評価とモニタリングに不可欠である。 しかし、手動のセグメンテーションは時間がかかり、演算子間のばらつきが高く、より効率的な方法の必要性を強調している。 We compared two deep learning-based 3D segmentation models, DeepMedic and nnU-Net, after training with pediatric-specific multi-institutional brain tumor data using based on multi-parametric MRI scans.Multi-parametric preoperative MRI scans of 339 pediatric patients (n=293 internal and n=46 external cohorts) with a variety of tumor subtypes, were preprocessed and manually segmented into four tumor subregions, i.e., enhancing tumor (ET), non-enhancing tumor (NET), cystic components (CC), and peritumoral edema (ED). トレーニング後,2つのモデルの内部および外部テストセットの性能を,Diceスコア,感度,ハウスドルフ距離を用いて評価した。 nnU-Netの内部テストセットのディススコアは、WTが0.9+/0.07(0.94)、ETが0.77+/-0.29、NETが0.66+/-0.32、CCが0.71+/-0.33、EDが0.71+/-0.40であった。 DeepMedicのDiceスコアはWTが0.82+/-0.16、ETが0.66+/-0.32、NETが0.48+/-0.27、CCが0.48+/-0.36、EDが0.19+/-0.33であった。 diceスコアはnnu-net (p<=0.01) で有意に高かった。 複数施設のBraTS-PEDs 2023データセット上で訓練されたnnU-Netモデルの外部的検証により,Diceスコア0.87+/-0.13 (0.91) と 0.83+/-0.18 (0.89) の腫瘍全体と腫瘍コアのセグメンテーションにおける高い一般化能が示された。 小児特異的データトレーニングnnu-netモデルは、小児脳腫瘍の全腫瘍および亜領域の分節に対してdeepmedicよりも優れている。

Brain tumors are the most common solid tumors and the leading cause of cancer-related death among children. Tumor segmentation is essential in surgical and treatment planning, and response assessment and monitoring. However, manual segmentation is time-consuming and has high inter-operator variability, underscoring the need for more efficient methods. We compared two deep learning-based 3D segmentation models, DeepMedic and nnU-Net, after training with pediatric-specific multi-institutional brain tumor data using based on multi-parametric MRI scans.Multi-parametric preoperative MRI scans of 339 pediatric patients (n=293 internal and n=46 external cohorts) with a variety of tumor subtypes, were preprocessed and manually segmented into four tumor subregions, i.e., enhancing tumor (ET), non-enhancing tumor (NET), cystic components (CC), and peritumoral edema (ED). After training, performance of the two models on internal and external test sets was evaluated using Dice scores, sensitivity, and Hausdorff distance with reference to ground truth manual segmentations. Dice score for nnU-Net internal test sets was (mean +/- SD (median)) 0.9+/-0.07 (0.94) for WT, 0.77+/-0.29 for ET, 0.66+/-0.32 for NET, 0.71+/-0.33 for CC, and 0.71+/-0.40 for ED, respectively. For DeepMedic the Dice scores were 0.82+/-0.16 for WT, 0.66+/-0.32 for ET, 0.48+/-0.27, for NET, 0.48+/-0.36 for CC, and 0.19+/-0.33 for ED, respectively. Dice scores were significantly higher for nnU-Net (p<=0.01). External validation of the trained nnU-Net model on the multi-institutional BraTS-PEDs 2023 dataset revealed high generalization capability in segmentation of whole tumor and tumor core with Dice scores of 0.87+/-0.13 (0.91) and 0.83+/-0.18 (0.89), respectively. Pediatric-specific data trained nnU-Net model is superior to DeepMedic for whole tumor and subregion segmentation of pediatric brain tumors.
翻訳日:2024-01-17 13:49:55 公開日:2024-01-16
# TACO: 汎用的な双方向ツール-アクション-オブジェクト理解のベンチマーク

TACO: Benchmarking Generalizable Bimanual Tool-ACtion-Object Understanding ( http://arxiv.org/abs/2401.08399v1 )

ライセンス: Link先を確認
Yun Liu, Haolin Yang, Xu Si, Ling Liu, Zipeng Li, Yuxiang Zhang, Yebin Liu, Li Yi(参考訳) 人間は日常的に複数の物体で作業し、オブジェクトの機能的規則を理解することによって、操作スキルを新しいオブジェクトに直感的に伝達することができる。 しかし、手オブジェクト操作の分析と合成のための既存の技術的アプローチは、データサポートの欠如により、主に片手とオブジェクトの処理に限られる。 そこで本研究では,多種多様なツール・アクション・オブジェクト・コンポジションにまたがる広範囲な双方向ハンド・オブジェクト・インタラクション・データセットであるTACOを構築した。 TACOには、第三者や自我中心のビュー、正確な手動3Dメッシュ、アクションラベルと組み合わせた2.5Kのモーションシーケンスが含まれている。 データスケールを迅速に拡張するため,マルチビューセンシングと光モーションキャプチャシステムを組み合わせた完全自動データ取得パイプラインを提案する。 TACOが提供する膨大な研究分野を用いて,構成的動作認識,汎用的手対象動作予測,協調的把握合成という3つの汎用的手対象対話タスクをベンチマークした。 広範囲にわたる実験は、一般化可能な手動解析と合成の研究を進めるための新たな洞察、挑戦、機会を明らかにする。 私たちのデータとコードはhttps://taco2024.github.ioで利用可能です。

Humans commonly work with multiple objects in daily life and can intuitively transfer manipulation skills to novel objects by understanding object functional regularities. However, existing technical approaches for analyzing and synthesizing hand-object manipulation are mostly limited to handling a single hand and object due to the lack of data support. To address this, we construct TACO, an extensive bimanual hand-object-interaction dataset spanning a large variety of tool-action-object compositions for daily human activities. TACO contains 2.5K motion sequences paired with third-person and egocentric views, precise hand-object 3D meshes, and action labels. To rapidly expand the data scale, we present a fully-automatic data acquisition pipeline combining multi-view sensing with an optical motion capture system. With the vast research fields provided by TACO, we benchmark three generalizable hand-object-interaction tasks: compositional action recognition, generalizable hand-object motion forecasting, and cooperative grasp synthesis. Extensive experiments reveal new insights, challenges, and opportunities for advancing the studies of generalizable hand-object motion analysis and synthesis. Our data and code are available at https://taco2024.github.io.
翻訳日:2024-01-17 13:49:03 公開日:2024-01-16
# ニューラルインバースレンダリングによる顔映像からの高品質メッシュブレンド形状生成

High-Quality Mesh Blendshape Generation from Face Videos via Neural Inverse Rendering ( http://arxiv.org/abs/2401.08398v1 )

ライセンス: Link先を確認
Xin Ming, Jiawei Li, Jingwang Ling, Libo Zhang and Feng Xu(参考訳) 簡単に編集可能なメッシュブレンド形状はアニメーションパイプラインで広く使われてきたが、近年のニューラルジオメトリや外観表現の進歩により、高品質な逆レンダリングが可能になった。 これらの観察に基づいて,最先端のニューラルネットワーク逆レンダリングを活用し,単一あるいはスパースなマルチビュービデオからメッシュベースのブレンド形状リグを再構成する新しい手法を提案する。 まず,四面体接続を持つ微分座標への頂点変位をパラメータ化する変形表現を構築し,高分解能メッシュ上で高品質な頂点変形を可能にする。 この表現にセマンティック・レギュレーションのセットを構築することにより、ブレンドシャッフルと表現係数の合同最適化を実現する。 さらに,非同期カメラを用いたユーザフレンドリーなマルチビュー設定を実現するために,時間変動運動パラメータをモデル化するニューラルレグレッサーを提案する。 このアプローチは、複数のカメラ間の時間差を暗黙的に考慮し、モーションモデリングの精度を高める。 実験により,シングルあるいはスパースなマルチビュービデオのフレキシブルな入力により,パーソナライズされた高忠実度ブレンドサップを再構築することを示した。 これらのブレンド形状は幾何学的にも意味的にも正確であり、産業用アニメーションパイプラインと互換性がある。 コードとデータはリリースされる。

Readily editable mesh blendshapes have been widely used in animation pipelines, while recent advancements in neural geometry and appearance representations have enabled high-quality inverse rendering. Building upon these observations, we introduce a novel technique that reconstructs mesh-based blendshape rigs from single or sparse multi-view videos, leveraging state-of-the-art neural inverse rendering. We begin by constructing a deformation representation that parameterizes vertex displacements into differential coordinates with tetrahedral connections, allowing for high-quality vertex deformation on high-resolution meshes. By constructing a set of semantic regulations in this representation, we achieve joint optimization of blendshapes and expression coefficients. Furthermore, to enable a user-friendly multi-view setup with unsynchronized cameras, we propose a neural regressor to model time-varying motion parameters. This approach implicitly considers the time difference across multiple cameras, enhancing the accuracy of motion modeling. Experiments demonstrate that, with the flexible input of single or sparse multi-view videos, we reconstruct personalized high-fidelity blendshapes. These blendshapes are both geometrically and semantically accurate, and they are compatible with industrial animation pipelines. Code and data will be released.
翻訳日:2024-01-17 13:48:43 公開日:2024-01-16
# リアルタイム組込みシステム故障インジェクタを意識したマイクロアーキテクチャイベント

A Micro Architectural Events Aware Real-Time Embedded System Fault Injector ( http://arxiv.org/abs/2401.08397v1 )

ライセンス: Link先を確認
Enrico Magliano, Alessio Carpegna, Alessadro Savino, Stefano Di Carlo(参考訳) 現代では、システムの複雑さが増大し、SACRESの信頼性、信頼性、セキュリティに重大な課題が生じる。 主な問題は、瞬時電圧スパイク、電磁干渉、中性子衝突、外気温といった現象への感受性である。 これらの要因はトランジスタのスイッチ状態の変化を誘発し、ビットフリッピング、ソフトエラー、メモリに格納されたデータの過渡的破壊を引き起こす。 ソフトエラーが発生するとシステム障害が発生し、システムが危険な状態になる可能性がある。 特に自動車、航空工学、航空宇宙などの重要な分野において、そのような故障は現実世界に影響を及ぼし、個人に害を与える可能性がある。 本稿では,マイクロアーキテクチャイベントの監視,集約,検査を容易にする新しい故障インジェクタを提案する。 これはマイクロプロセッサのPMUとデバッグインターフェースを活用することで実現され、特に障害注入の再現性を保証することに焦点を当てている。 フォールトインジェクション手法はメモリシステム内のビットフリッピングをターゲットとし、cpuレジスタとramに影響を与える。 これらのフォールトインジェクションの結果は、ソフトエラーの影響を徹底的に分析し、特定された障害とsacresが要求する重要なタイミング予測可能性との間に強固な相関関係を確立することができる。

In contemporary times, the increasing complexity of the system poses significant challenges to the reliability, trustworthiness, and security of the SACRES. Key issues include the susceptibility to phenomena such as instantaneous voltage spikes, electromagnetic interference, neutron strikes, and out-of-range temperatures. These factors can induce switch state changes in transistors, resulting in bit-flipping, soft errors, and transient corruption of stored data in memory. The occurrence of soft errors, in turn, may lead to system faults that can propel the system into a hazardous state. Particularly in critical sectors like automotive, avionics, or aerospace, such malfunctions can have real-world implications, potentially causing harm to individuals. This paper introduces a novel fault injector designed to facilitate the monitoring, aggregation, and examination of micro-architectural events. This is achieved by harnessing the microprocessor's PMU and the debugging interface, specifically focusing on ensuring the repeatability of fault injections. The fault injection methodology targets bit-flipping within the memory system, affecting CPU registers and RAM. The outcomes of these fault injections enable a thorough analysis of the impact of soft errors and establish a robust correlation between the identified faults and the essential timing predictability demanded by SACRES.
翻訳日:2024-01-17 13:48:19 公開日:2024-01-16
# GPT-4の医用ビジョンの正確性にまつわる隠された欠陥

Hidden Flaws Behind Expert-Level Accuracy of GPT-4 Vision in Medicine ( http://arxiv.org/abs/2401.08396v1 )

ライセンス: Link先を確認
Qiao Jin, Fangyuan Chen, Yiliang Zhou, Ziyang Xu, Justin M. Cheung, Robert Chen, Ronald M. Summers, Justin F. Rousseau, Peiyun Ni, Marc J Landsman, Sally L. Baxter, Subhi J. Al'Aref, Yijia Li, Michael F. Chiang, Yifan Peng, Zhiyong Lu(参考訳) 最近の研究では、視覚(gpt-4v)を持つ生成前訓練トランスフォーマー4は、医療課題においてヒトの医師よりも優れていることが示されている。 しかし,これらの評価は,主に複数質問の精度のみに焦点が当てられた。 本研究は,GPT-4Vの画像理解,医用知識の想起,およびNew England Journal of Medicine (NEJM) Image Challenges(医用専門家の知識と診断能力をテストするための画像クイズ)の解決におけるステップバイステップのマルチモーダル推論を包括的に分析することにより,現在の範囲を拡大する。 GPT-4Vは多選択精度(88.0% vs. 77.0%, p=0.034)で医師より優れていた。 GPT-4Vは、医師が正しく答えていない場合にも80%以上の精度でうまく機能する。 しかし、GPT-4Vは、正しい最終選択を行う場合(27.3%)にしばしば欠陥のある有理性を示し、画像理解において最も顕著である(21.6%)。 GPT-4Vの多点質問における精度は高いが,本研究は,これらのモデルを臨床ワークフローに組み込む前に,より詳細な理性評価の必要性を強調した。

Recent studies indicate that Generative Pre-trained Transformer 4 with Vision (GPT-4V) outperforms human physicians in medical challenge tasks. However, these evaluations primarily focused on the accuracy of multi-choice questions alone. Our study extends the current scope by conducting a comprehensive analysis of GPT-4V's rationales of image comprehension, recall of medical knowledge, and step-by-step multimodal reasoning when solving New England Journal of Medicine (NEJM) Image Challenges - an imaging quiz designed to test the knowledge and diagnostic capabilities of medical professionals. Evaluation results confirmed that GPT-4V outperforms human physicians regarding multi-choice accuracy (88.0% vs. 77.0%, p=0.034). GPT-4V also performs well in cases where physicians incorrectly answer, with over 80% accuracy. However, we discovered that GPT-4V frequently presents flawed rationales in cases where it makes the correct final choices (27.3%), most prominent in image comprehension (21.6%). Regardless of GPT-4V's high accuracy in multi-choice questions, our findings emphasize the necessity for further in-depth evaluations of its rationales before integrating such models into clinical workflows.
翻訳日:2024-01-17 13:47:57 公開日:2024-01-16
# doraemongpt: 大規模言語モデルによる動的シーンの理解に向けて

DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models ( http://arxiv.org/abs/2401.08392v1 )

ライセンス: Link先を確認
Zongxin Yang, Guikun Chen, Xiaodi Li, Wenguan Wang, Yi Yang(参考訳) AIエージェントの分野は、大きな言語モデル(LLM)の能力のため、前例のない速度で進んでいる。 しかし、LLM駆動の視覚エージェントは主に画像モダリティの課題の解決に重点を置いており、現実世界のダイナミックな性質を理解する能力を制限する。 ビデオモダリティが現実世界のシナリオの絶え間なく変化し、知覚的に集約的な性質を反映していることを考えると、doraemongptはllmによって駆動される包括的かつ概念的にエレガントなシステムで、ダイナミックなビデオタスクを処理する。 質問/タスクのあるビデオの場合、DoraemonGPTは入力されたビデオを大量のコンテンツで変換して、 \textit{task-related}属性を格納するシンボリックメモリに変換する。 この構造化表現は、サブタスクツールによる時空間クエリと推論を可能にし、簡潔で関連する中間結果をもたらす。 特殊なドメイン(実験の基礎となる科学原理の分析など)に関して、LLMには内部知識が限られていることを認識し、外部知識を評価し、異なるドメインにわたるタスクに対処するためのプラグアンドプレイツールを組み込む。 さらに,モンテカルロ木探索に基づく新しいLCM型プランナを導入し,多様なツールをスケジューリングするための大規模計画空間を効率的に探索する。 プランナーは、結果の報酬をバックプロパゲートすることで実現可能な解決策を反復的に見つけ、複数のソリューションを改善された最終回答にまとめることができる。 動的シーンにおけるドラエモンGPTを広く評価し,従来の研究よりも複雑な問題を扱う能力を示した。

The field of AI agents is advancing at an unprecedented rate due to the capabilities of large language models (LLMs). However, LLM-driven visual agents mainly focus on solving tasks for the image modality, which limits their ability to understand the dynamic nature of the real world, making it still far from real-life applications, e.g., guiding students in laboratory experiments and identifying their mistakes. Considering the video modality better reflects the ever-changing and perceptually intensive nature of real-world scenarios, we devise DoraemonGPT, a comprehensive and conceptually elegant system driven by LLMs to handle dynamic video tasks. Given a video with a question/task, DoraemonGPT begins by converting the input video with massive content into a symbolic memory that stores \textit{task-related} attributes. This structured representation allows for spatial-temporal querying and reasoning by sub-task tools, resulting in concise and relevant intermediate results. Recognizing that LLMs have limited internal knowledge when it comes to specialized domains (e.g., analyzing the scientific principles underlying experiments), we incorporate plug-and-play tools to assess external knowledge and address tasks across different domains. Moreover, we introduce a novel LLM-driven planner based on Monte Carlo Tree Search to efficiently explore the large planning space for scheduling various tools. The planner iteratively finds feasible solutions by backpropagating the result's reward, and multiple solutions can be summarized into an improved final answer. We extensively evaluate DoraemonGPT in dynamic scenes and provide in-the-wild showcases demonstrating its ability to handle more complex questions than previous studies.
翻訳日:2024-01-17 13:47:32 公開日:2024-01-16
# 多変量時系列における深層学習に基づくグループ因果推論

Deep Learning-based Group Causal Inference in Multivariate Time-series ( http://arxiv.org/abs/2401.08386v1 )

ライセンス: Link先を確認
Wasim Ahmad, Maha Shadaydeh, Joachim Denzler(参考訳) 多変量時間系の非線形系における因果推論は、変数間の複雑な関係の網を解き放つのに役立ち、より正確な予測を行い、実世界の複雑なシステムに対する深い洞察を得ることができる。 因果関係法は、多変量系の因果構造を、各変数ペアの因果関係を考慮しつつ、2回以上の直列変数を含む一連の変数や相互作用の集団効果を無視して同定する。 本研究では,学習した深層ネットワークに対するグループレベルの介入によって,気候や生態系,脳ネットワークなどの変数群における因果方向を推定するモデル不変性をテストする。 合成および実世界の時系列データによる広範囲なテストは、他の適用群因果関係法よりも大幅に改善され、実世界の時系列に関する洞察を提供する。 私たちのメソッドのコードは、https://github.com/wasimahmadpk/gCause.com/。

Causal inference in a nonlinear system of multivariate timeseries is instrumental in disentangling the intricate web of relationships among variables, enabling us to make more accurate predictions and gain deeper insights into real-world complex systems. Causality methods typically identify the causal structure of a multivariate system by considering the cause-effect relationship of each pair of variables while ignoring the collective effect of a group of variables or interactions involving more than two-time series variables. In this work, we test model invariance by group-level interventions on the trained deep networks to infer causal direction in groups of variables, such as climate and ecosystem, brain networks, etc. Extensive testing with synthetic and real-world time series data shows a significant improvement of our method over other applied group causality methods and provides us insights into real-world time series. The code for our method can be found at:https://github.com/wasimahmadpk/gCause.
翻訳日:2024-01-17 13:47:00 公開日:2024-01-16
# 効率的なVCGenに基づく関係特性のモジュール的検証

An Efficient VCGen-based Modular Verification of Relational Properties ( http://arxiv.org/abs/2401.08385v1 )

ライセンス: Link先を確認
Lionel Blatter, Nikolai Kosmatov, Virgile Prevosto, Pascale Le Gall(参考訳) 帰納的検証は通常、単一の関数呼び出しに対する各関数の振る舞いを特定する関数コントラクトに依存する。 リレーショナルプロパティは、複数の関数呼び出しを単一の仕様内で結びつける。 彼らは与えられた関数のより高度な性質、例えば非干渉、連続性、および単調性を表現することができ、また異なる関数への呼び出しを関連付けることができ、例えば2つの実装の同値性を示すために並列に実行される。 しかし、関係性は従来のモジュラー帰納的検証の設定では直接表現や検証はできない。 近年の研究では、与えられた関係性を保証するために検証されなければならない論理式を生成するための検証条件生成装置に依存する関係性検証の新しい手法が提案されている。 本稿では,本手法の概要と重要な拡張を提案する。 我々は、最適化された検証条件生成器を統合し、その基礎となる理論を拡張し、モジュラーな方法で関係性がどのように証明できるかを示す。 我々の結果は完全形式化され、coqの証明アシスタントで証明された。

Deductive verification typically relies on function contracts that specify the behavior of each function for a single function call. Relational properties link several function calls together within a single specification. They can express more advanced properties of a given function, such as non-interference, continuity, or monotonicity, or relate calls to different functions, possibly run in parallel, for instance, to show the equivalence of two implementations. However, relational properties cannot be expressed and verified directly in the traditional setting of modular deductive verification. Recent work proposed a new technique for relational property verification that relies on a verification condition generator to produce logical formulas that must be verified to ensure a given relational property. This paper presents an overview of this approach and proposes important enhancements. We integrate an optimized verification condition generator and extend the underlying theory to show how relational properties can be proved in a modular way, where one relational property can be used to prove another one, like in modular verification of function contracts. Our results have been fully formalized and proved sound in the Coq proof assistant.
翻訳日:2024-01-17 13:46:43 公開日:2024-01-16
# 実験用混合モデル推論の高速化のための層間エキスパート親和性

Exploiting Inter-Layer Expert Affinity for Accelerating Mixture-of-Experts Model Inference ( http://arxiv.org/abs/2401.08383v1 )

ライセンス: Link先を確認
Jinghan Yao, Quentin Anthony, Aamir Shafi, Hari Subramoni, Dhabaleswar K. (DK) Panda(参考訳) Generative Pre-trained Transformerのような大規模言語モデルでは、Mixture of Expertsパラダイムがモデル表現性と精度を高める強力なテクニックとして登場した。 しかし、分散システム上の並列推論のためのGPT MoEモデルをデプロイすることは、主にエキスパートのルーティングとアグリゲーションに必要なAlltoall通信が広範なため、大きな課題となる。 この通信ボトルネックは、既に複雑な計算環境を悪化させ、高性能コンピューティングリソースの効率的な利用を妨げる。 本稿では,これらのMoEモデルの推論を大幅に高速化する,ExFlowと呼ばれる軽量な最適化手法を提案する。 我々は、層間の専門家親和性を利用して通信オーバーヘッドを軽減する新しい視点を採っている。 従来の方法とは異なり,本手法は微調整や精度劣化を伴わずに,事前学習したMoEモデルに直接適用することができる。 分散システムにコンテキストコヒーレントな専門家並列性を提案することで、我々の設計では、1つのAlltoall通信のみを使用して同じ機能を提供する一方、以前のメソッドはすべて2つのAlltoallが必要です。 複数の層にまたがるトークンのルーティングにおける条件付き確率を慎重に調べることで、事前学習したGPT MoEモデルが強い層間専門家親和性を示すことを示した。 次に、これらの特徴を捉えるために効率的な整数プログラミングモデルを設計し、対応するGPUに専門家を適切に配置することで、最大67%のクロスGPUルーティングレイテンシを削減できることを示す。 我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。 さらに,このモデルが極めて初期のトレーニング段階において,暗黙的にこのエキスパート親和性を獲得する方法と,その親和性がトレーニング中にどのように発展し安定化するかについて,詳細な研究を行った。

In large language models like the Generative Pre-trained Transformer, the Mixture of Experts paradigm has emerged as a powerful technique for enhancing model expressiveness and accuracy. However, deploying GPT MoE models for parallel inference on distributed systems presents significant challenges, primarily due to the extensive Alltoall communication required for expert routing and aggregation. This communication bottleneck exacerbates the already complex computational landscape, hindering the efficient utilization of high-performance computing resources. In this paper, we propose a lightweight optimization technique called ExFlow, to largely accelerate the inference of these MoE models. We take a new perspective on alleviating the communication overhead by exploiting the inter-layer expert affinity. Unlike previous methods, our solution can be directly applied to pre-trained MoE models without any fine-tuning or accuracy degradation. By proposing a context-coherent expert parallelism on distributed systems, our design only uses one Alltoall communication to deliver the same functionality while previous methods all require two Alltoalls. By carefully examining the conditional probability in tokens' routing across multiple layers, we proved that pre-trained GPT MoE models implicitly exhibit a strong inter-layer expert affinity. We then design an efficient integer programming model to capture such features and show that by properly placing the experts on corresponding GPUs, we can reduce up to 67% cross-GPU routing latency. Our solution beats the cutting-edge MoE implementations with experts from 8 to 64, with up to 2.2x improvement in inference throughput. We further provide a detailed study of how the model implicitly acquires this expert affinity at the very early training stage and how this affinity evolves and stabilizes during training.
翻訳日:2024-01-17 13:46:25 公開日:2024-01-16
# 人間行動のロボット的模倣

Robotic Imitation of Human Actions ( http://arxiv.org/abs/2401.08381v1 )

ライセンス: Link先を確認
Josua Spisak, Matthias Kerzel, Stefan Wermter(参考訳) 模倣は、新しいタスクの理解を素早く得ることができます。 デモを通じて、どのアクションを実行する必要があるのか、どの目標があるのか、直接的に知ることができます。 本稿では,人間を模倣するロボットの視点の変化や身体スキーマなどの課題に対処する,模倣学習の新しいアプローチを提案する。 提案手法では, 実証されたタスクに関する情報を抽象化し, その情報を一般化し, 再現するために利用する。 実験から時間情報を抽象化する拡散行動分割モデルと空間情報のためのオープン語彙オブジェクト検出器という,最先端の2つの手法を新たに統合することで,この能力を促進する。 さらに, 抽象情報を洗練し, シンボル推論を用いて, 逆運動学を利用した行動計画を作成し, ロボットが動作を模倣できるようにする。

Imitation can allow us to quickly gain an understanding of a new task. Through a demonstration, we can gain direct knowledge about which actions need to be performed and which goals they have. In this paper, we introduce a new approach to imitation learning that tackles the challenges of a robot imitating a human, such as the change in perspective and body schema. Our approach can use a single human demonstration to abstract information about the demonstrated task, and use that information to generalise and replicate it. We facilitate this ability by a new integration of two state-of-the-art methods: a diffusion action segmentation model to abstract temporal information from the demonstration and an open vocabulary object detector for spatial information. Furthermore, we refine the abstracted information and use symbolic reasoning to create an action plan utilising inverse kinematics, to allow the robot to imitate the demonstrated action.
翻訳日:2024-01-17 13:45:55 公開日:2024-01-16
# KADEL: コミットメッセージ生成のための知識認識Denoising Learning

KADEL: Knowledge-Aware Denoising Learning for Commit Message Generation ( http://arxiv.org/abs/2401.08376v1 )

ライセンス: Link先を確認
Wei Tao, Yucheng Zhou, Yanlin Wang, Hongyu Zhang, Haofen Wang, Wenqiang Zhang(参考訳) コミットメッセージは、コード変更の自然言語記述であり、コードの理解やメンテナンスといったソフトウェア進化にとって重要である。 しかしながら、以前のメソッドは、コミットメッセージの一部が良いプラクティス(つまり、良い実践的なコミット)に準拠しているという事実を考慮せずに、データセット全体をトレーニングする。 実証研究に基づいて,善行的コミットの訓練がコミットメッセージ生成に大きく貢献することを発見した。 そこで本研究では,KADELと呼ばれる新しい知識認識学習手法を提案する。 good-practiceコミットがデータセットのごく一部を占めることを考慮すると、残りのトレーニングサンプルはこれらのgood-practiceコミットと一致します。 そこで本研究では,良質なコミットを訓練することで,コミット知識を学習するモデルを提案する。 この知識モデルは、良い実践に適合しないトレーニングサンプルのために、より多くの情報を補うことができる。 しかし, 補足情報にはノイズや予測誤差が含まれているため, 動的 denoising training 法を提案する。 本手法は、トレーニングプロセスの有効性を高めるために、分布認識信頼関数と動的分布リストを構成する。 MCMDデータセット全体の実験結果から,本手法は従来手法と比較して総合的に最先端性能を実現することが示された。 ソースコードとデータはhttps://github.com/deepsoftwareanalytics/kadelで入手できます。

Commit messages are natural language descriptions of code changes, which are important for software evolution such as code understanding and maintenance. However, previous methods are trained on the entire dataset without considering the fact that a portion of commit messages adhere to good practice (i.e., good-practice commits), while the rest do not. On the basis of our empirical study, we discover that training on good-practice commits significantly contributes to the commit message generation. Motivated by this finding, we propose a novel knowledge-aware denoising learning method called KADEL. Considering that good-practice commits constitute only a small proportion of the dataset, we align the remaining training samples with these good-practice commits. To achieve this, we propose a model that learns the commit knowledge by training on good-practice commits. This knowledge model enables supplementing more information for training samples that do not conform to good practice. However, since the supplementary information may contain noise or prediction errors, we propose a dynamic denoising training method. This method composes a distribution-aware confidence function and a dynamic distribution list, which enhances the effectiveness of the training process. Experimental results on the whole MCMD dataset demonstrate that our method overall achieves state-of-the-art performance compared with previous methods. Our source code and data are available at https://github.com/DeepSoftwareAnalytics/KADEL
翻訳日:2024-01-17 13:45:40 公開日:2024-01-16
# ユニバーサルディープフェイク検出のための周波数マスキング

Frequency Masking for Universal Deepfake Detection ( http://arxiv.org/abs/2401.06506v2 )

ライセンス: Link先を確認
Chandler Timm Doloriel, Ngai-Man Cheung(参考訳) ユニバーサルディープフェイク検出について検討する。 我々の目標は、さまざまな生成aiアプローチ、特にdeepfake検出器のトレーニング中に目に見えない新興aiから合成画像を検出することです。 ユニバーサルディープフェイク検出には優れた一般化能力が必要である。 自己教師付き事前学習において優れた一般化を示した最近提案されたマスク画像モデリングに動機づけられ,ユニバーサルディープフェイク検出のためのマスク画像モデリングを初めて検討する。 深度検知器の空間・周波数領域マスキングについて検討した。 実験分析に基づいて,周波数マスキングによる新しいディープフェイク検出器を提案する。 周波数領域の焦点は、主に空間領域検出を対象とする多数派とは異なる。 比較分析の結果,既存手法に比べて性能が大幅に向上した。 コードとモデルは公開されている。

We study universal deepfake detection. Our goal is to detect synthetic images from a range of generative AI approaches, particularly from emerging ones which are unseen during training of the deepfake detector. Universal deepfake detection requires outstanding generalization capability. Motivated by recently proposed masked image modeling which has demonstrated excellent generalization in self-supervised pre-training, we make the first attempt to explore masked image modeling for universal deepfake detection. We study spatial and frequency domain masking in training deepfake detectors. Based on empirical analysis, we propose a novel deepfake detector via frequency masking. Our focus on frequency domain is different from the majority, which primarily target spatial domain detection. Our comparative analyses reveal substantial performance gains over existing methods. Code and models are publicly available.
翻訳日:2024-01-17 12:00:24 公開日:2024-01-16
# 大規模言語モデルを用いたQAの連鎖による合成から人文への視覚的質問回答の一般化

Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model ( http://arxiv.org/abs/2401.06400v2 )

ライセンス: Link先を確認
Taehee Kim, Yeongjae Cho, Heejun Shin, Yohan Jo, Dongmyung Shin(参考訳) 視覚的質問応答(visual question answering, vqa)は、イメージが与えられるタスクであり、一連の質問が画像に関するものである。 効率的なVQAアルゴリズムを構築するには、非常に高価な大量のQAデータが必要である。 テンプレートに基づく合成QAペアの生成は、データを得るための実用的な方法である。 しかしながら、これらのデータに基づいてトレーニングされたVQAモデルは、複雑な人間による質問ではうまく機能しない。 この問題に対処するために,人間による質問に対するQAの連鎖という新しい手法を提案する(CoQAH)。 CoQAHは、大言語モデルと合成データに基づいて訓練されたVQAモデルの間の一連のQA相互作用を利用して、人間による質問に対して論理的回答を導出する。 3次元レンダー画像と胸部x線画像の2種類のvqaデータセットにおけるcoqahの有効性を検証した結果,両データで最先端の精度が得られた。 特に、CoQAHは一般的な視覚言語モデル、VQAモデル、そして微調整なしで医療基礎モデルより優れていた。

Visual question answering (VQA) is a task where an image is given, and a series of questions are asked about the image. To build an efficient VQA algorithm, a large amount of QA data is required which is very expensive. Generating synthetic QA pairs based on templates is a practical way to obtain data. However, VQA models trained on those data do not perform well on complex, human-written questions. To address this issue, we propose a new method called {\it chain of QA for human-written questions} (CoQAH). CoQAH utilizes a sequence of QA interactions between a large language model and a VQA model trained on synthetic data to reason and derive logical answers for human-written questions. We tested the effectiveness of CoQAH on two types of human-written VQA datasets for 3D-rendered and chest X-ray images and found that it achieved state-of-the-art accuracy in both types of data. Notably, CoQAH outperformed general vision-language models, VQA models, and medical foundation models with no finetuning.
翻訳日:2024-01-17 12:00:13 公開日:2024-01-16