このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230828となっている論文です。

PDF登録状況(公開日: 20230828)

TitleAuthorsAbstract論文公表日・翻訳日
# 非Fungible Token (NFT) の評価

Evaluation of Non-Fungible Token (NFT) ( http://arxiv.org/abs/2308.14389v1 )

ライセンス: Link先を確認
Priyanshu Lohar, Kiran Rathi, (参考訳) Ethereumブロックチェーンのトークン標準の派生体であるNon Fungible Tokenは区別可能なトークンである。 これらのトークンは、識別可能なトークンの目的を達成するのに役立つユニークな識別を提供するデジタルプロパティと結びついている。 これらのトークンは、それらが拘束されているデジタル資産の所有権の証拠として使用される。 そして、デジタル資産の所有権を証明する問題は解決されており、開発者が現実世界の多くの問題を解決するのを楽しみにしているのは、芸術、不動産、その他多くの分野のトレーダビリティソリューションを提供するかもしれない。 この記事執筆期間中、NFTは近年、予測不可能な成長を見せており、これはDApps(Decentralized Application)の繁栄を刺激している。 予想外の成長と世界中で注目され、多くの主要投資家がそれに投資しているため、NFTはまだ発展段階にあり、まだ未熟だ。 本稿はNFT開発を体系的に絞る試みであり、開発者が開発プロセスを始め、支援するためのリソースを得られるようにする。

The derivative of token standard of Ethereum blockchain, termed as Non Fungible Token is distinguishable token. These tokens are bound with digital properties that provide them unique identification which helps in fulfilling the aim of distinguishable tokens. These tokens are used as an evidence of ownership for the digital asset, with which they are bound to. And it is with these non fungible tokens that the problem of proving ownership of digital asset is being solved and with this technique, it is with hope that developers are looking forward to solve many more problems of the real world with it, may it be providing tradability solutions for arts, real estate and many other sectors. During the time of writing this, the NFT has shown unpredictable growth in the recent years and this has caused the stimulation of prosperity of DApps(Decentralized Application).With an unpredictable growth and garnering attention worldwide with many mainstream key people investing in it , the NFT is still in developing stage and is still premature. This paper is an attempt to squeeze the NFT developments systematically, so the aspiring developers can have the resource to start with and aid the development process further
翻訳日:2024-03-19 07:22:30 公開日:2023-08-28
# Zip to Zip-it: ローカルな差別的プライバシを実現する圧縮

Zip to Zip-it: Compression to Achieve Local Differential Privacy ( http://arxiv.org/abs/2308.14627v1 )

ライセンス: Link先を確認
Francesco Taurone, Daniel Lucani, Qi Zhang, (参考訳) 数値データに対する局所的な差分プライバシー技術は、一般的にデータセットを変換し、クエリが与えられた場合、悪意のあるユーザは元のサンプルに関する情報を推測できる可能性を保証する。 クエリはユーザとその要件のみに基づいており、結果を民営化する一方で、その有用性を損なうことのないプロセスに摂動の設計を制限する。 本稿では,摂動器とアグリゲータを単位として設計するZealと呼ばれる民営化手法を提案する。この手法は,設計上,原文と比較して摂動データセットの圧縮性を向上し,データ収集のための送信ビットを節約し,他の最先端方式に影響を及ぼす浮動小数点演算によるプライバシの脆弱性に対して保護する,局所的に微分プライベートな機構を実現する。 平均クエリにおけるユーティリティエラーは、Zealが幅広い条件で導入したバイアスと不変であり、同じ状況下でもZealは上記の脆弱性に対する保護も保証している。 計算の結果,圧縮性能は最大94%向上し,データ伝送効率は最大95%向上し,ユーティリティエラーは2%に抑えられた。

Local differential privacy techniques for numerical data typically transform a dataset to ensure a bound on the likelihood that, given a query, a malicious user could infer information on the original samples. Queries are often solely based on users and their requirements, limiting the design of the perturbation to processes that, while privatizing the results, do not jeopardize their usefulness. In this paper, we propose a privatization technique called Zeal, where perturbator and aggregator are designed as a unit, resulting in a locally differentially private mechanism that, by-design, improves the compressibility of the perturbed dataset compared to the original, saves on transmitted bits for data collection and protects against a privacy vulnerabilities due to floating point arithmetic that affect other state-of-the-art schemes. We prove that the utility error on querying the average is invariant to the bias introduced by Zeal in a wide range of conditions, and that under the same circumstances, Zeal also guarantee protection against the aforementioned vulnerability. Our numerical results show up to 94% improvements in compression and up to 95% more efficient data transmissions, while keeping utility errors within 2%.
翻訳日:2024-03-19 07:22:30 公開日:2023-08-28
# 一般粒度表記法(Long Version)における差分プライバシーの構成

Composition in Differential Privacy for General Granularity Notions (Long Version) ( http://arxiv.org/abs/2308.14649v1 )

ライセンス: Link先を確認
Patricia Guerra-Balboa, Àlex Miranda-Pascual, Javier Parra-Arnau, Thorsten Strufe, (参考訳) 差分プライバシー(DP)の合成定理により、データキュレーターは異なるアルゴリズムを組み合わせてDPを満たす新しいアルゴリズムを得ることができる。 しかし、古典的な合成定理がカバーしていないという文献には、新しい粒度の概念(すなわち、近傍の定義)、データ領域、構成設定が出現している。 例えば、平行合成定理は一般の粒度の概念には適用されない。 これにより、新しい設定でDP機構を構成する機会が複雑になり、構成後のプライバシー損失の正確な推定値が得られる。 これらの制約を克服するため、一般のフレームワークにおけるDPの構成可能性や、データドメインや近傍の定義について検討する。 独立版と適応版の両方で一般的な合成定理を与え、近似的、ゼロ集中型、ガウスDPに対して類似した合成結果を与える。 さらに,最適な構成境界を得るために必要な仮説について検討する。 私たちの定理は、並列およびシーケンシャルな構成設定の両方をカバーする。 重要なことに、これらはすべての設定をカバーしています。これにより、コンポジションの最終的なプライバシ損失を、精度を大幅に向上して計算することができます。

The composition theorems of differential privacy (DP) allow data curators to combine different algorithms to obtain a new algorithm that continues to satisfy DP. However, new granularity notions (i.e., neighborhood definitions), data domains, and composition settings have appeared in the literature that the classical composition theorems do not cover. For instance, the parallel composition theorem does not apply to general granularity notions. This complicates the opportunity of composing DP mechanisms in new settings and obtaining accurate estimates of the incurred privacy loss after composition. To overcome these limitations, we study the composability of DP in a general framework and for any kind of data domain or neighborhood definition. We give a general composition theorem in both independent and adaptive versions and we provide analogous composition results for approximate, zero-concentrated, and Gaussian DP. Besides, we study the hypothesis needed to obtain the best composition bounds. Our theorems cover both parallel and sequential composition settings. Importantly, they also cover every setting in between, allowing us to compute the final privacy loss of a composition with greatly improved accuracy.
翻訳日:2024-03-19 07:22:30 公開日:2023-08-28
# 有限非アベリア単純群の量子時代の暗号への応用

Applications of Finite non-Abelian Simple Groups to Cryptography in the Quantum Era ( http://arxiv.org/abs/2308.14725v1 )

ライセンス: Link先を確認
María Isabel González Vasco, Delaram Kahrobaei, Eilidh McKemmie, (参考訳) 有限単純群の理論は、暗号の文脈で有用な興味深い計算問題やモデリングツールを提供する(探索されていない)分野である。 本稿では, 有限非アーベル単純群の暗号への応用を概観し, この理論が明らかに中心的な様々なシナリオについて論じ, これら2つの(非随伴でない)コミュニティ間のさらなる相互作用を促進するために, 暗号学者と群論者の両方に物質をアクセスできるようにするための関連する定義を提供する。 特に、様々な群理論的分解問題に基づく構成について考察し、群理論的ハッシュ関数をレビューし、単純群を用いた完全同型暗号化について議論する。 隠れた部分群問題は、この文脈で簡単に議論される。

The theory of finite simple groups is a (rather unexplored) area likely to provide interesting computational problems and modelling tools useful in a cryptographic context. In this note, we review some applications of finite non-abelian simple groups to cryptography and discuss different scenarios in which this theory is clearly central, providing the relevant definitions to make the material accessible to both cryptographers and group theorists, in the hope of stimulating further interaction between these two (non-disjoint) communities. In particular, we look at constructions based on various group-theoretic factorization problems, review group theoretical hash functions, and discuss fully homomorphic encryption using simple groups. The Hidden Subgroup Problem is also briefly discussed in this context.
翻訳日:2024-03-19 07:22:30 公開日:2023-08-28
# 不完全なシャッフルによる個人集団の識別

Differentially Private Aggregation via Imperfect Shuffling ( http://arxiv.org/abs/2308.14733v1 )

ライセンス: Link先を確認
Badih Ghazi, Ravi Kumar, Pasin Manurangsi, Jelani Nelson, Samson Zhou, (参考訳) 本稿では,未完成なシャッフル差分プライバシモデルを紹介し,ユーザからのメッセージは,キュレーターがプライベートアグリゲーションのために観察する前にほぼ均一にシャッフルされる。 次に、私的和問題を考える。 We show that that the standard split-and-mix protocol by Ishai et al [FOCS 2006] can be adapt to achieve near-timal utility bounds in the imperfect shuffle model。 特に,不完全なシャッフルモデルでは,追加のエラーオーバーヘッドは発生しない。

In this paper, we introduce the imperfect shuffle differential privacy model, where messages sent from users are shuffled in an almost uniform manner before being observed by a curator for private aggregation. We then consider the private summation problem. We show that the standard split-and-mix protocol by Ishai et. al. [FOCS 2006] can be adapted to achieve near-optimal utility bounds in the imperfect shuffle model. Specifically, we show that surprisingly, there is no additional error overhead necessary in the imperfect shuffle model.
翻訳日:2024-03-19 07:22:30 公開日:2023-08-28
# プライベート・インターセクション・サムプロトコルのセキュリティ応用の進展

Advancement on Security Applications of Private Intersection Sum Protocol ( http://arxiv.org/abs/2308.14741v1 )

ライセンス: Link先を確認
Yuvaray Athur Raghuvir, Senthil Govindarajan, Sanjeevi Vijayakumar, Pradeep Yadlapalli, Fabio Di Troia, (参考訳) セキュアな計算プロトコルは、関係者からの入力を組み合わせて、入力をプライベートに保ちながら出力を生成する。 プライベート・セット・インターセクション(英: Private Set Intersection、PSI)は、セキュアな計算プロトコルである。 プライベート・インターセクション・サム(PIS)は、両者が交叉の基数と、交叉の各識別子の関連する整数値の和を学習したいときにPSIを拡張するが、それ以上のことはない。 最後に、Private Join and Compute(PJC)はPISプロトコルのスケーラブルな拡張であり、組織が機密データセットと連携するのに役立つ。 本論文で提案されている拡張は以下のとおりである。 (a)PJCプロトコルを追加のデータ列に拡張し、サポート対象の同型演算に基づいたカラムアグリゲーションを適用する。 (b) 正方形の和や和などの算術演算を適用するために、RLWE(Ring Learning with Errors)準同型暗号スキームを探索する。 (c)証明書を用いた通信当事者の相互認証を用いて、より強力なセキュリティを確保すること。 (d)そのようなサービスの提供を運用するウェブサイトを開発すること。 JingBingは、異なる州がセキュアな通信モジュールを登録、取得し、インストールし、認証されたピアツーピア通信を行うことを可能にする投票者リスト検証サービスである。 我々は,このようなソリューションを現実のシナリオにスケーラブルにするための今後の研究の方向性について,論文をまとめる。

Secure computation protocols combine inputs from involved parties to generate an output while keeping their inputs private. Private Set Intersection (PSI) is a secure computation protocol that allows two parties, who each hold a set of items, to learn the intersection of their sets without revealing anything else about the items. Private Intersection Sum (PIS) extends PSI when the two parties want to learn the cardinality of the intersection, as well as the sum of the associated integer values for each identifier in the intersection, but nothing more. Finally, Private Join and Compute (PJC) is a scalable extension of PIS protocol to help organizations work together with confidential data sets. The extensions proposed in this paper include: (a) extending PJC protocol to additional data columns and applying columnar aggregation based on supported homomorphic operations, (b) exploring Ring Learning with Errors (RLWE) homomorphic encryption schemes to apply arithmetic operations such as sum and sum of squares, (c) ensuring stronger security using mutual authentication of communicating parties using certificates, and (d) developing a Website to operationalize such a service offering. We applied our results to develop a Proof-of-Concept solution called JingBing, a voter list validation service that allows different states to register, acquire secure communication modules, install it, and then conduct authenticated peer-to-peer communication. We conclude our paper with directions for future research to make such a solution scalable for practical real-life scenarios.
翻訳日:2024-03-19 07:22:30 公開日:2023-08-28
# AI ATAC 1: 有能な商用マルウェア検出器の評価

AI ATAC 1: An Evaluation of Prominent Commercial Malware Detectors ( http://arxiv.org/abs/2308.14835v1 )

ライセンス: Link先を確認
Robert A. Bridges, Brian Weber, Justin M. Beaver, Jared M. Smith, Miki E. Verma, Savannah Norem, Kevin Spakes, Cory Watson, Jeff A. Nichols, Brian Jewell, Michael. D. Iannacone, Chelsey Dunivan Stahl, Kelly M. T. Huffer, T. Sean Oesch, (参考訳) 本研究は,6つの有名な商用エンドポイントマルウェア検出装置,ネットワークマルウェア検出装置,およびサイバー技術ベンダーによるファイル検証アルゴリズムの評価を行う。 この評価は、アメリカ海軍の資金提供を受けたり、完成したりして、AI ATAC(Artificial Intelligence Applications to Autonomous Cybersecurity)賞の1つとして管理された。 実験では100Kファイル(50/50%の良さ/悪さ)を使用し、1Kのゼロデイプログラム実行ファイルを含むファイルタイプを階層化した。 本稿では,検出技術を搭載した新しい仮想マシンにファイルを配信し,90年代の静的検出を待ってファイルを実行し,動的検出のために別の期間待つ評価プロセスを提案する。 800Kトライアル(100Kファイル$\times$8ツール)を実行するために、ソフトウェアフレームワークは、実験を完全に自動化され、時間同期され、再現可能なワークフローに、相当な並列化で振る舞うように設計されている。 コストベネフィットモデルは、ツールのリコール、精度、検出までの時間、リソース要求を、使用コストをシミュレートすることで、単一の同等の量に統合するように構成された。 これは、サイバーコンペティションのランキング手法と、結果の様々な統計的視点を推論するレンズを提供する。 これらの統計的およびコストモデルの結果は、商用マルウェア検出の状況に関する洞察を与える。

This work presents an evaluation of six prominent commercial endpoint malware detectors, a network malware detector, and a file-conviction algorithm from a cyber technology vendor. The evaluation was administered as the first of the Artificial Intelligence Applications to Autonomous Cybersecurity (AI ATAC) prize challenges, funded by / completed in service of the US Navy. The experiment employed 100K files (50/50% benign/malicious) with a stratified distribution of file types, including ~1K zero-day program executables (increasing experiment size two orders of magnitude over previous work). We present an evaluation process of delivering a file to a fresh virtual machine donning the detection technology, waiting 90s to allow static detection, then executing the file and waiting another period for dynamic detection; this allows greater fidelity in the observational data than previous experiments, in particular, resource and time-to-detection statistics. To execute all 800K trials (100K files $\times$ 8 tools), a software framework is designed to choreographed the experiment into a completely automated, time-synced, and reproducible workflow with substantial parallelization. A cost-benefit model was configured to integrate the tools' recall, precision, time to detection, and resource requirements into a single comparable quantity by simulating costs of use. This provides a ranking methodology for cyber competitions and a lens through which to reason about the varied statistical viewpoints of the results. These statistical and cost-model results provide insights on state of commercial malware detection.
翻訳日:2024-03-19 07:22:30 公開日:2023-08-28
# ローハマー除去のためのランダム化ライン・ツー・ローマッピング

Randomized Line-to-Row Mapping for Low-Overhead Rowhammer Mitigations ( http://arxiv.org/abs/2308.14907v1 )

ライセンス: Link先を確認
Anish Saxena, Saurav Mathur, Moinuddin Qureshi, (参考訳) 現代のシステムは、犠牲者のリフレッシュを使用してRowhammerを緩和し、特定の数のアクティベーションに遭遇すると、攻撃者の行の隣人2人をリフレッシュする。 残念なことに、Half-Doubleのような複雑な攻撃パターンは、被害者をリフレッシュし、現在のシステムを脆弱にする。 代わりに、最近提案された安全なローハンマーの緩和は、犠牲者ではなく攻撃者に対する緩和的行動に頼っている。 このようなスキームは行移動やアクセス制御といった緩和的なアクションを採用しており、AQUA、SRS、Blockhammerなどがある。 これらのスキームはローハンマーのしきい値で数千の緩やかな減速しか発生しないが、近い将来の低いしきい値に対して禁止的な減速(15%-600%)を引き起こす。 本稿の目的は,ローハンマーの安全対策をこのような低閾値で実用化することである。 本論文は,空間的に近接する線を同じ列に配置して行バッファのヒット率を最大化するメモリマッピングにより,数千行のホット行(しきい値よりも多くのアクティベーションを受信する)に良質なアプリケーションが遭遇する,重要な知見を提供する。 残念なことに、多くの頻繁に使われる行に対して行がアクティベートされる。 本稿では,暗号化アドレスを用いてメモリにアクセスすることにより,行間マッピングの空間的相関を破るRubixを提案する。 行バッファヒットを助けるために、Rubixは1-4行のグループをランダムにする。 また,行間マッピングを動的に変更するRubix-Dを提案する。 Rubix-Dはホットロウを最小化し、敵が行の空間的近傍を学ぶのをずっと難しくする。 RubixはAQUA(15%から1%)、SRS(60%から2%)、Blockhammer(600%から3%)の減速を減らし、ストレージは1キロバイト未満である。

Modern systems mitigate Rowhammer using victim refresh, which refreshes the two neighbours of an aggressor row when it encounters a specified number of activations. Unfortunately, complex attack patterns like Half-Double break victim-refresh, rendering current systems vulnerable. Instead, recently proposed secure Rowhammer mitigations rely on performing mitigative action on the aggressor rather than the victims. Such schemes employ mitigative actions such as row-migration or access-control and include AQUA, SRS, and Blockhammer. While these schemes incur only modest slowdowns at Rowhammer thresholds of few thousand, they incur prohibitive slowdowns (15%-600%) for lower thresholds that are likely in the near future. The goal of our paper is to make secure Rowhammer mitigations practical at such low thresholds. Our paper provides the key insights that benign application encounter thousands of hot rows (receiving more activations than the threshold) due to the memory mapping, which places spatially proximate lines in the same row to maximize row-buffer hitrate. Unfortunately, this causes row to receive activations for many frequently used lines. We propose Rubix, which breaks the spatial correlation in the line-to-row mapping by using an encrypted address to access the memory, reducing the likelihood of hot rows by 2 to 3 orders of magnitude. To aid row-buffer hits, Rubix randomizes a group of 1-4 lines. We also propose Rubix-D, which dynamically changes the line-to-row mapping. Rubix-D minimizes hot-rows and makes it much harder for an adversary to learn the spatial neighbourhood of a row. Rubix reduces the slowdown of AQUA (from 15% to 1%), SRS (from 60% to 2%), and Blockhammer (from 600% to 3%) while incurring a storage of less than 1 Kilobyte.
翻訳日:2024-03-19 07:22:30 公開日:2023-08-28
# scitokens、verable credentials、smart contractsの比較分析:認証と科学データへの安全なアクセスのための新しいアプローチ

A Comparative Analysis Between SciTokens, Verifiable Credentials, and Smart Contracts: Novel Approaches for Authentication and Secure Access to Scientific Data ( http://arxiv.org/abs/2311.13422v1 )

ライセンス: Link先を確認
Md Jobair Hossain Faruk, Bilash Saha, Jim Basney(参考訳) 機密情報を安全に管理および交換することは、科学およびサイバーセキュリティコミュニティにとって重要な関心事である。 コンピューティングワークフローとデジタルデータトランザクションへの依存が高まる中、機密情報が不正アクセス、改ざん、誤用から保護されることが求められる。 本研究では,SciTokens,Verifiable Credentials,Smart Contractsという,科学的データへのアクセスの認証と確保のための3つの新しいアプローチの比較分析を行った。 本研究の目的は,信頼,無効化,プライバシ,セキュリティの観点から,各アプローチの強みと弱みを検討することである。 我々は,各技術の技術的特徴とプライバシおよびセキュリティ機構を調べ,提案モデルとの比較合成を行う。 分析を通じて,各技術が独自の利点と限界を提供することを示すとともに,これらの技術の統合により,より安全かつ効率的な認証および科学データへのアクセスソリューションが実現できることを示す。

Managing and exchanging sensitive information securely is a paramount concern for the scientific and cybersecurity community. The increasing reliance on computing workflows and digital data transactions requires ensuring that sensitive information is protected from unauthorized access, tampering, or misuse. This research paper presents a comparative analysis of three novel approaches for authenticating and securing access to scientific data: SciTokens, Verifiable Credentials, and Smart Contracts. The aim of this study is to investigate the strengths and weaknesses of each approach from trust, revocation, privacy, and security perspectives. We examine the technical features and privacy and security mechanisms of each technology and provide a comparative synthesis with the proposed model. Through our analysis, we demonstrate that each technology offers unique advantages and limitations, and the integration of these technologies can lead to more secure and efficient solutions for authentication and access to scientific data.
翻訳日:2024-01-15 15:21:27 公開日:2023-08-28
# 事前学習されたコードモデルのための説明可能なAI いつ機能しないのか?

Explainable AI for Pre-Trained Code Models: What Do They Learn? When They Do Not Work? ( http://arxiv.org/abs/2211.12821v2 )

ライセンス: Link先を確認
Ahmad Haji Mohammadkhani, Chakkrit Tantithamthavorn, Hadi Hemmati(参考訳) 近年、コード文書生成、コード検索、プログラム修復など、ソースコード上の下流ソフトウェアエンジニアリングタスクを自動化するディープニューラルネットワークベースのモデルの設計に、幅広い関心が寄せられている。 これらの研究の主な目的は下流のタスクの有効性を改善することであるが、多くの研究は、特定のソリューションがなぜ特定のタスクやシナリオで動作するのか、そうでないのかを適切に詳細に分析することなく、次の最良のニューラルネットワークモデルを採用することだけを試みる。 本稿では,eXplainable AI(XAI)手法(アテンション機構)の例を用いて,コード文書生成(CDG),コード修正(CR),コード翻訳(CT)という,一連のソフトウェア工学タスクにおいて,コード(CodeBERTおよびGraphCodeBERT)用の2つの最近の大規模言語モデル(LLM)について検討する。 定量的および定性的な研究を通じて、これらのタスクでCodeBERTとGraphCodeBERTが何を学習するか(ソースコードトークンの種類に関して最も注意を払う)を特定する。 また、モデルが期待通りに動作しない場合(簡単な問題でも不十分になる)に共通のパターンをいくつか示し、観察された課題を緩和する推奨事項を提案します。

In recent years, there has been a wide interest in designing deep neural network-based models that automate downstream software engineering tasks on source code, such as code document generation, code search, and program repair. Although the main objective of these studies is to improve the effectiveness of the downstream task, many studies only attempt to employ the next best neural network model, without a proper in-depth analysis of why a particular solution works or does not, on particular tasks or scenarios. In this paper, using an example eXplainable AI (XAI) method (attention mechanism), we study two recent large language models (LLMs) for code (CodeBERT and GraphCodeBERT) on a set of software engineering downstream tasks: code document generation (CDG), code refinement (CR), and code translation (CT). Through quantitative and qualitative studies, we identify what CodeBERT and GraphCodeBERT learn (put the highest attention on, in terms of source code token types), on these tasks. We also show some of the common patterns when the model does not work as expected (performs poorly even on easy problems) and suggest recommendations that may alleviate the observed challenges.
翻訳日:2023-10-24 14:07:23 公開日:2023-08-28
# ブレークとコード品質: ソフトウェア開発における忘れることの影響を調査する。 登録済みのレポート

Breaks and Code Quality: Investigating the Impact of Forgetting on Software Development. A Registered Report ( http://arxiv.org/abs/2305.00760v3 )

ライセンス: Link先を確認
Dario Amoroso d'Aragona and Luca Pascarella and Andrea Janes and Valentina Lenarduzzi and Rafael Penaloza and Davide Taibi(参考訳) プロジェクトへの参加を中断する開発者は、意図した目的、構造、外部依存性の影響、実装に使用されるアプローチなど、コードに関する重要な情報を徐々に忘れてしまう可能性がある。 実装の詳細を忘れることは、ソフトウェアのメンテナンス、理解、知識共有、開発者の生産性に有害な影響を与える可能性がある。 したがって、開発者がコードベースを明確に理解し、長時間中断しても効率的かつ効果的に作業できることを保証することが重要です。 本報告では,開発者の活動が持続時間とコード品質に及ぼす影響を調査するための実証的研究を提案する。 特に、プロジェクト内のアクティビティの量がコード品質に影響を及ぼすかどうか、そして異なるアクティビティプロファイルを持つ開発者がコード品質に異なる影響を与えるかどうかを理解することを目的としています。 結果は、複数のプロジェクトを並行して開発するプラクティスを促進することが有益であるか、あるいは開発者が貢献するプロジェクト数を減らすのがより有益であるかを理解するのに有用かもしれない。

Developers interrupting their participation in a project might slowly forget critical information about the code, such as its intended purpose, structure, the impact of external dependencies, and the approach used for implementation. Forgetting the implementation details can have detrimental effects on software maintenance, comprehension, knowledge sharing, and developer productivity, resulting in bugs, and other issues that can negatively influence the software development process. Therefore, it is crucial to ensure that developers have a clear understanding of the codebase and can work efficiently and effectively even after long interruptions. This registered report proposes an empirical study aimed at investigating the impact of the developer's activity breaks duration and different code quality properties. In particular, we aim at understanding if the amount of activity in a project impact the code quality, and if developers with different activity profiles show different impacts on code quality. The results might be useful to understand if it is beneficial to promote the practice of developing multiple projects in parallel, or if it is more beneficial to reduce the number of projects each developer contributes.
翻訳日:2023-10-24 12:27:12 公開日:2023-08-28
# ディープラーニングのための知識ベースバージョン不整合検出

Knowledge-Based Version Incompatibility Detection for Deep Learning ( http://arxiv.org/abs/2308.13276v2 )

ライセンス: Link先を確認
Zhongkai Zhao, Bonan Kou, Mohamed Yilmaz Ibrahim, Muhao Chen, Tianyi Zhang(参考訳) 深層学習モデルやアプリケーションを再利用または再現する場合、バージョン非互換性の問題が増大する。 既存のテクニックは、PyPIで宣言されたライブラリ依存仕様に限られている。 したがって、これらの技術は、未文書のバージョン制約やハードウェアドライバやOSに関わる問題により、バージョン問題を検出することができない。 この課題に対処するため、我々はstack overflowからdlバージョン問題に関する豊富な議論を活用し、バージョン非互換性検出を容易にすることを提案する。 質問応答(QA)問題として知識抽出の問題を修正し,事前学習したQAモデルを用いて,オンラインディスカッションからバージョン互換性知識を抽出する。 抽出した知識を重み付き知識グラフに統合し、DLプロジェクト再利用時の潜在的なバージョン非互換性を検出する。 評価の結果,(1)本手法は84%の精度でバージョン知識を抽出でき,(2)人気のある10のdlプロジェクトの既知のバージョン問題の65%を高い精度(92%)で正確に識別できる,一方,2つの最先端手法では33%と17%の精度でこれらの問題の29%と6%しか検出できないことがわかった。

Version incompatibility issues are rampant when reusing or reproducing deep learning models and applications. Existing techniques are limited to library dependency specifications declared in PyPI. Therefore, these techniques cannot detect version issues due to undocumented version constraints or issues involving hardware drivers or OS. To address this challenge, we propose to leverage the abundant discussions of DL version issues from Stack Overflow to facilitate version incompatibility detection. We reformulate the problem of knowledge extraction as a Question-Answering (QA) problem and use a pre-trained QA model to extract version compatibility knowledge from online discussions. The extracted knowledge is further consolidated into a weighted knowledge graph to detect potential version incompatibilities when reusing a DL project. Our evaluation results show that (1) our approach can accurately extract version knowledge with 84% accuracy, and (2) our approach can accurately identify 65% of known version issues in 10 popular DL projects with a high precision (92%), while two state-of-the-art approaches can only detect 29% and 6% of these issues with 33% and 17% precision respectively.
翻訳日:2023-10-23 12:35:45 公開日:2023-08-28
# RefSearch:リファクタリングのための検索エンジン

RefSearch: A Search Engine for Refactoring ( http://arxiv.org/abs/2308.14273v1 )

ライセンス: Link先を確認
Motoki Abe, Shinpei Hayashi(参考訳) 開発者はしばしば、ソフトウェア開発における品質を改善するためにソースコードをリファクタリングする。 リファクタリングの課題は、適用できるかどうかを決定することです。 この意思決定プロセスを支援するため、私たちは、現在のリファクタリングシナリオに類似した過去のリファクタリングケースを探すことを目的としています。 ユーザフレンドリーなクエリ言語を用いて,リファクタリングケースの検索を可能にするRefSearchというシステムの設計と実装を行った。 システムは2つのリファクタリング検出器を使用してリファクタリングインスタンスを収集し、ケースのクエリとブラウジングのためのwebインターフェースを提供する。 テストケースとして4つのリファクタリングシナリオを用いて,クエリ言語の表現性およびシステムの検索性能を評価した。 refsearchはhttps://github.com/salab/refsearchで入手できる。

Developers often refactor source code to improve its quality during software development. A challenge in refactoring is to determine if it can be applied or not. To help with this decision-making process, we aim to search for past refactoring cases that are similar to the current refactoring scenario. We have designed and implemented a system called RefSearch that enables users to search for refactoring cases through a user-friendly query language. The system collects refactoring instances using two refactoring detectors and provides a web interface for querying and browsing the cases. We used four refactoring scenarios as test cases to evaluate the expressiveness of the query language and the search performance of the system. RefSearch is available at https://github.com/salab/refsearch.
翻訳日:2023-10-23 12:27:55 公開日:2023-08-28
# ブラジル一般データ保護法におけるソフトウェアシステムのコンプライアンス検証のためのチェックリストに基づく検査手法の実験的評価

Experimental Evaluation of a Checklist-Based Inspection Technique to Verify the Compliance of Software Systems with the Brazilian General Data Protection Law ( http://arxiv.org/abs/2308.14874v1 )

ライセンス: Link先を確認
Diego Andr\'e Cerqueira, Rafael Maiani de Mello, Guilherme Horta Travassos(参考訳) 個人情報のセキュリティと保護を確保するための最近の法律は、新しいソフトウェア要件を確立している。 そのため、個人情報のプライバシーと保護を意識したソフトウェア品質を保証するために、新しい技術が必要である。 そこで我々は,ブラジルの一般データ保護法(LGPD)が制定した原則に基づいて,ソフトウェアアーティファクトの欠陥の識別を支援するチェックリストベースの検査手法(LGPDCheck)を開発した。 Objective/Aim: アドホック技術と比較してソフトウェアアーチファクトのプライバシとデータ保護(PDP)を検証するLGPDCheckの有効性と効率を評価する。 方法:lgpdcheck法とアドホック法を準実験(2因子5治療)により実験的に評価する。 データは、リオデジャネイロ連邦大学のソフトウェア工学の学生によって開発されたiotベースの健康ソフトウェアシステムから収集される。 データ分析は、アドホック検査とLGPDCheck検査の結果、各試験における参加者の有効性と効率、欠陥のばらつきと標準偏差、レビューに費やした時間を比較する。 データは外れ値にスクリーニングされ、Shapiro-Wilk と Levene のテストで正規性とホモシダスティック性を検証する。 ウィルコクソンや学生のtテストのような非パラメトリックまたはパラメトリックテストは、適切に適用される。

Recent laws to ensure the security and protection of personal data establish new software requirements. Consequently, new technologies are needed to guarantee software quality under the perception of privacy and protection of personal data. Therefore, we created a checklist-based inspection technique (LGPDCheck) to support the identification of defects in software artifacts based on the principles established by the Brazilian General Data Protection Law (LGPD). Objective/Aim: To evaluate the effectiveness and efficiency of LGPDCheck for verifying privacy and data protection (PDP) in software artifacts compared to ad-hoc techniques. Method: To assess LGPDCheck and ad-hoc techniques experimentally through a quasi-experiment (two factors, five treatments). The data will be collected from IoT-based health software systems built by software engineering students from the Federal University of Rio de Janeiro. The data analyses will compare results from ad-hoc and LGPDCheck inspections, the participant's effectiveness and efficiency in each trial, defects' variance and standard deviation, and time spent with the reviews. The data will be screened for outliers, and normality and homoscedasticity will be verified using the Shapiro-Wilk and Levene tests. Nonparametric or parametric tests, such as the Wilcoxon or Student's t-tests, will be applied as appropriate.
翻訳日:2023-10-23 12:14:20 公開日:2023-08-28
# ネイティブソフトウェア実践者の能力知覚に及ぼすステレオタイプの影響:プロの写真から

The Effect of Stereotypes on Perceived Competence of Indigenous Software Practitioners: A Professional Photo ( http://arxiv.org/abs/2308.14695v1 )

ライセンス: Link先を確認
Mary S\'anchez-Gord\'on, Ricardo Colomo-Palacios, Cathy Guevara-Vega, Antonio Qui\~na-Mera(参考訳) コンテキスト: 雇用主は、元雇用主のウェブサイトやプロフェッショナルやソーシャルネットワークなど、様々なオンラインソースから求職者の写真を簡単に見つけることができる。 候補者と組織の間の「適合」は、ドレススタイルや自己のプレゼンテーションを通じてオンライン写真で推測される。 一方、先住民のような少数派集団の伝統的な衣服は、所有、入場、抵抗を表現できる重要かつ活発な側面である。目的:この探索研究は、写真の伝統的な衣服が、衣料が重要でないべきでないというソフトウェア開発者のような立場において、候補者の能力に影響を及ぼすかどうかを実証的に実証することを目的としている。 方法:我々は,IT企業の候補(写真モデル)と参加者(評価者)の両方で準実験的なデザインを計画する。 2 x 2 x 2 デザインで、服装(伝統的な/非伝統的な服)、性別、候補者の人種・民族性が主観的要素である。 さらに,調査員の性別と雇用経験を主観的要因として探究する。

Context: Potential employers can readily find job candidates' photos through various online sources such as former employers' websites or professional and social networks. The alignment or 'fit' between a candidate and an organization is inferred in online photos through dress style and presentations of self. On the other hand, for candidates from under-represented groups like Indigenous people traditional clothing is an important and lively aspect that allows them to express belonging, enter ceremony, and show resistance.Objective: This exploratory study aims to empirically demonstrate whether traditional clothing in a picture affects the evaluation of candidates' competence for a position like a software developer in which clothing should not be crucial. Method: We plan a quasi-experimental design with both candidates (photo models) and participants (evaluators) from IT companies. It follows a 2 x 2 x 2 design with dress style (traditional / non-traditional clothing), gender and race/ethnicity of the candidates as within-subjects factors. In addition, we will explore the evaluator's gender and experience in hiring as between-subjects factors.
翻訳日:2023-10-23 12:13:59 公開日:2023-08-28
# 自己適応型ロボットシステムの形式的モデリングと解析

Formal Modelling and Analysis of a Self-Adaptive Robotic System ( http://arxiv.org/abs/2308.14663v1 )

ライセンス: Link先を確認
Juliane P\"a{\ss}ler, Maurice H. ter Beek, Ferruccio Damiani, S. Lizeth Tapia Tarifa and Einar Broch Johnsen(参考訳) 自己適応は、環境や内部状態など不確実性に対処しなければならない自律システムの重要な特徴である。 自己適応システムはドメインの関心事を扱う管理サブシステムと適応ロジックを実装する管理サブシステムを持つ2層システムとしてモデル化されることが多い。 より具体的には、パイプライン検査に使用される自律型水中車両(AUV)について考察する。 本稿では,特徴認識型確率モデルチェッカーProFeatでモデル化し,解析する。 AUVの機能は機能モデルでモデル化され、AUVの可変性をキャプチャする。 これにより、AUVのマネージドサブシステムを、AUVの有効な機能構成に対応するシステム群としてモデル化することができる。 AUVの管理サブシステムは、環境条件と内部条件の両方に応じて、これらの有効な特徴構成を動的に切り替えることができる制御層としてモデル化される。 我々はこのモデルを用いて、AUVの確率的報酬と安全特性を分析する。

Self-adaptation is a crucial feature of autonomous systems that must cope with uncertainties in, e.g., their environment and their internal state. Self-adaptive systems are often modelled as two-layered systems with a managed subsystem handling the domain concerns and a managing subsystem implementing the adaptation logic. We consider a case study of a self-adaptive robotic system; more concretely, an autonomous underwater vehicle (AUV) used for pipeline inspection. In this paper, we model and analyse it with the feature-aware probabilistic model checker ProFeat. The functionalities of the AUV are modelled in a feature model, capturing the AUV's variability. This allows us to model the managed subsystem of the AUV as a family of systems, where each family member corresponds to a valid feature configuration of the AUV. The managing subsystem of the AUV is modelled as a control layer capable of dynamically switching between such valid feature configurations, depending both on environmental and internal conditions. We use this model to analyse probabilistic reward and safety properties for the AUV.
翻訳日:2023-10-23 12:13:40 公開日:2023-08-28
# STEAM:自動バグ修正のためのプログラマーの非活性挙動のシミュレーション

STEAM: Simulating the InTeractive BEhavior of ProgrAMmers for Automatic Bug Fixing ( http://arxiv.org/abs/2308.14460v1 )

ライセンス: Link先を確認
Yuwei Zhang and Zhi Jin and Ying Xing and Ge Li(参考訳) バグ修正はソフトウェア開発とメンテナンスにおいて非常に重要である。 最近の研究は、自動バグ修正のための大規模言語モデル(LLM)の可能性を探究している。 しかし、既存の研究はバグ解決の協調性を見落とし、単一段階のプロセスとして扱うことが多い。 本稿では,この制限を克服するために,STEAMという新たなステージワイドフレームワークを紹介する。 STEAMの目的は、バグのライフサイクルの様々な段階に関わる複数のプログラマのインタラクティブな振る舞いをシミュレートすることである。 バグ管理のプラクティスからインスピレーションを得て、バグ修正タスクを、バグレポート、バグ診断、パッチ生成、パッチ検証の4つのステージに分割します。 これらのステージはLLMによってインタラクティブに実行され、ソフトウェアバグの解決時にプログラマの協調能力を模倣することを目的としている。 コントリビューションの活用により、STEAMはLLMのバグ修正機能を効果的に強化する。 我々は,強力な対話型LLM-ChatGPTを用いてSTEAMを実装した。 広く採用されているバグフィックスベンチマークによる評価は、STEAMが最新のバグフィックス性能を新たに達成したことを示している。

Bug fixing holds significant importance in software development and maintenance. Recent research has made notable progress in exploring the potential of large language models (LLMs) for automatic bug fixing. However, existing studies often overlook the collaborative nature of bug resolution, treating it as a single-stage process. To overcome this limitation, we introduce a novel stage-wise framework named STEAM in this paper. The objective of STEAM is to simulate the interactive behavior of multiple programmers involved in various stages across the bug's life cycle. Taking inspiration from bug management practices, we decompose the bug fixing task into four distinct stages: bug reporting, bug diagnosis, patch generation, and patch verification. These stages are performed interactively by LLMs, aiming to imitate the collaborative abilities of programmers during the resolution of software bugs. By harnessing the collective contribution, STEAM effectively enhances the bug-fixing capabilities of LLMs. We implement STEAM by employing the powerful dialogue-based LLM -- ChatGPT. Our evaluation on the widely adopted bug-fixing benchmark demonstrates that STEAM has achieved a new state-of-the-art level of bug-fixing performance.
翻訳日:2023-10-23 12:13:25 公開日:2023-08-28
# 現場とオンラインのプロジェクトベースコースへの移行 体験レポート

Transitioning a Project-Based Course between Onsite and Online. An Experience Report ( http://arxiv.org/abs/2309.12347v1 )

ライセンス: Link先を確認
Dan Mircea Suciu, Simona Motogna, Arthur-Jozsef Molnar(参考訳) 本稿では,ソフトウェア工学における4つのイテレーションを通して,学生チームが直面する課題について調査する。 調査期間には、2020年春の完全なオンライン活動への切り替えと、2年後の対面指導への復帰が含まれる。 調査に基づいて,1500名以上の学生から提供されるフィードバックをフリーテキスト形式で収集した。 オンライン上で実施されたコースの課題とメリットを識別し,検証するために質的研究手法が用いられた。 プロジェクトベースのコースでは、技術的な課題は引き続き一定であり、時間管理はオンラインへの移行によって最も影響を受けています。 学生は、コラボレーションツールの効果的な利用により、オンラインのチーム組織とコミュニケーションが容易になったと報告した。 我々は、プロジェクト管理、コミュニケーションツール、チームワークの重要性、アクティブなメンター参加に関連する対面コースにおけるオンラインアクティビティの統合に関する多くのアクションポイントを提供することで締めくくった。

We present an investigation regarding the challenges faced by student teams across four consecutive iterations of a team-focused, project-based course in software engineering. The studied period includes the switch to fully online activities in the spring of 2020, and covers the return to face-to-face teaching two years later. We cover the feedback provided by over 1,500 students, collected in a free-text form on the basis of a survey. A qualitative research method was utilized to discern and examine the challenges and perceived benefits of a course that was conducted entirely online. We show that technical challenges remain a constant in project-based courses, with time management being the most affected by the move to online. Students reported that the effective use of collaborative tools eased team organization and communication while online. We conclude by providing a number of action points regarding the integration of online activities in face-to-face course unfolding related to project management, communication tools, the importance of teamwork, and of active mentor participation.
翻訳日:2023-10-01 12:55:09 公開日:2023-08-28
# 近位政策最適化とモンテカルロ木探索による操作的意思決定

Maneuver Decision-Making Through Proximal Policy Optimization And Monte Carlo Tree Search ( http://arxiv.org/abs/2309.08611v1 )

ライセンス: Link先を確認
Zhang Hong-Peng(参考訳) 操作的意思決定はマルコフ決定プロセスと見なすことができ、強化学習によって対処できる。 しかし、元の強化学習アルゴリズムは、操作的意思決定問題をほとんど解決できない。 理由の1つは、エージェントがトレーニングの初期段階でランダムなアクションを使用するため、報酬を取得し、効果的な意思決定を行う方法を学ぶのが困難である。 この問題に対処するために,近位政策最適化とモンテカルロ木探索に基づく手法を提案する。 本手法では, エージェントの訓練に近接ポリシー最適化を用い, 空戦の結果を目標とみなし, 価値ネットワークを訓練する。 次に、各ノードの値ネットワークと訪問数に基づいて、モンテカルロ木探索を用いて、ランダムなアクションよりも多くの期待されたリターンを持つアクションを見つけ、トレーニング性能を向上させることができる。 アブレーション実験およびシミュレーション実験により,提案手法によって訓練されたエージェントは,異なる状態に応じて異なる決定をすることができることが示され,本手法が元の強化学習アルゴリズムでは解決できない操作的決定問題を解決できることが示されている。

Maneuver decision-making can be regarded as a Markov decision process and can be address by reinforcement learning. However, original reinforcement learning algorithms can hardly solve the maneuvering decision-making problem. One reason is that agents use random actions in the early stages of training, which makes it difficult to get rewards and learn how to make effective decisions. To address this issue, a method based on proximal policy optimization and Monte Carlo tree search is proposed. The method uses proximal policy optimization to train the agent, and regards the results of air combat as targets to train the value network. Then, based on the value network and the visit count of each node, Monte Carlo tree search is used to find the actions with more expected returns than random actions, which can improve the training performance. The ablation studies and simulation experiments indicate that agents trained by the proposed method can make different decisions according to different states, which demonstrates that the method can solve the maneuvering decision problem that the original reinforcement learning algorithm cannot solve.
翻訳日:2023-09-24 04:13:11 公開日:2023-08-28
# フランケンシュタイン、または多様体混合モデルスープによるより良い分配性能を実現する方法

Do the Frankenstein, or how to achieve better out-of-distribution performance with manifold mixing model soup ( http://arxiv.org/abs/2309.08610v1 )

ライセンス: Link先を確認
Hannes Fassold(参考訳) トランスファーラーニングで適用される標準的なレシピは、タスク固有のデータセット上のトレーニング済みモデルを異なるハイパーパラメータ設定で微調整し、バリデーションデータセット上で最も高い精度でモデルを選択することである。 残念ながらこれは、例えば、オブジェクトのグラフィカルなスケッチが写真ではなく入力として与えられる場合など、分散シフト下ではうまく動作しないモデルに繋がる。 そこで本研究では,複数の微調整されたモデルの潜在空間多様体を,融合モデルを生成するために最適な方法で混合する,多様体混合モデルスープを提案する。 画像分類のためのクリップモデルを微調整する場合,融合モデルの方が分散性能が著しく向上する(最適な個別モデルと比較して3.5%以上)。 さらに、微調整が行われた元のデータセットの精度も向上している。

The standard recipe applied in transfer learning is to finetune a pretrained model on the task-specific dataset with different hyperparameter settings and pick the model with the highest accuracy on the validation dataset. Unfortunately, this leads to models which do not perform well under distribution shifts, e.g. when the model is given graphical sketches of the object as input instead of photos. In order to address this, we propose the manifold mixing model soup, an algorithm which mixes together the latent space manifolds of multiple finetuned models in an optimal way in order to generate a fused model. We show that the fused model gives significantly better out-of-distribution performance (+3.5 % compared to best individual model) when finetuning a CLIP model for image classification. In addition, it provides also better accuracy on the original dataset where the finetuning has been done.
翻訳日:2023-09-24 04:12:52 公開日:2023-08-28
# コーナーキューブレトロフレクタを用いた8khzライン幅852nmファラデーレーザー

An 852 nm Faraday laser with 8 kHz linewidth based on corner-cube retroreflector ( http://arxiv.org/abs/2309.04485v1 )

ライセンス: Link先を確認
Zhiyang Wang, Zijie Liu, Jianxiang Miao, Hangbo Shi, Xiaomin Qin, Xiaolei Guan, Zhihong Gao, Tiantian Shi, and Jingbiao Chen(参考訳) コーナー・キューブ反射体フィードバックに基づく単一モードcs原子852nmファラデーレーザーが、我々の最善の知識に対して初めて実証された。 コーナーキューブ反射器をファラデーレーザーの外部キャビティフィードバックとして使用することにより、ロバスト性を大幅に改善することができる。 このファラデーレーザーは、入射光とコーナーキューブレトロフレクターの光軸の角度がプラスまたはマイナス3{\deg}の範囲を超えない限り、常にレーザー発振を行うことができる。 さらに、ファラデーレーザーは電流範囲100mAの単一モード動作を実現し、出力波長はCs原子遷移線の近傍に自動的に制限される。 波長変動範囲は、+3{\deg}回転角下で9時間以内にプラスまたはマイナス1.2pmに制限される。 さらに、最も可能性の高い線幅はヘテロダインビーティングによって測定される7.97kHzである。 量子光学、原子時計、原子磁気計、冷原子、原子重力計など、量子精密測定の分野では、高ロバスト性と狭い線幅を持つファラデーレーザーが広く用いられる。

A single-mode Cs atom 852 nm Faraday laser based on the corner-cube reflector feedback is first demonstrated to our best knowledge. Using the corner-cube reflector as external cavity feedback in Faraday laser, the robustness can be greatly improved. This Faraday laser can always achieve laser oscillation unless the angle between incident light and the optical axis of corner-cube retroreflector is beyond the plus or minus 3{\deg} range. Furthermore, the Faraday laser achieves single-mode operation within the current range of 100 mA , and its output wavelength is automatically limited to the vicinity of the Cs atomic transition lines. The wavelength fluctuation range is limited to plus or minus 1.2 pm within 9 hours under +3{\deg} rotation angle. Moreover, the most probable linewidth is 7.97 kHz measured by heterodyne beating. The Faraday laser with high robustness as well as narrow linewidth can be widely used in quantum precision measurement fields including quantum optics, atomic clocks, atomic magnetometers, cold atoms, and atomic gravimeters, etc.
翻訳日:2023-09-17 14:07:00 公開日:2023-08-28
# epidenet:組込みシステムにおける発作検出のためのエネルギー効率の高いアプローチ

EpiDeNet: An Energy-Efficient Approach to Seizure Detection for Embedded Systems ( http://arxiv.org/abs/2309.07135v1 )

ライセンス: Link先を確認
Thorir Mar Ingolfsson, Upasana Chakraborty, Xiaying Wang, Sandor Beniczky, Pauline Ducouret, Simone Benatti, Philippe Ryvlin, Andrea Cossettini and Luca Benini(参考訳) てんかんは世界中で何百万人もの個人に影響を及ぼす神経疾患であり、連続的なモニタリングと自動的な発作検出が効果的な患者治療に欠かせない。 日常生活における長期的なケアを可能にするためには、快適でスマートなウェアラブルデバイスが必要であり、これにより、リソース制約とエネルギー効率のよいコンピューティングソリューションの需要が高まる。 この文脈では、発作検出のための機械学習アルゴリズムの開発は、高度に不均衡なデータセットの課題に直面している。 本稿では、新しい軽量な発作検出ネットワークであるEpiDeNetと、感度と特異性を組み込んだ新たな損失関数であるSSWCEを紹介し、重度の不均衡データセットの課題に対処する。 提案されたEpiDeNet-SSWCEアプローチは、2つの異なるデータセット(それぞれCHB-MITとPEDESITE)で91.16%と92.00%の発作イベントの検出に成功したことを実証している。 SSWCE損失と組み合わされた3ウィンドウの多数決に基づく平滑化方式は、偽陽性を1.18FP/hに3倍減少させる。 EpiDeNetは低消費電力組み込みプラットフォームの実装に適しており、2つのARM Cortexベースプラットフォーム(M4F/M7)と2つの並列超低電力システム(GAP8,GAP9)の性能評価を行っている。 最も効率的な実装(GAP9)は40 GMAC/s/Wのエネルギー効率を実現し、性能は0.051 mJ (726.46 MMAC/s)で、エネルギー効率はおよそ160倍に向上する。 EpiDeNet-SSWCE法は、エネルギー制約のあるプラットフォーム上での実装に適しつつ、非常に不均衡なデータセット上で、効果的で正確な発作検出性能を示す。

Epilepsy is a prevalent neurological disorder that affects millions of individuals globally, and continuous monitoring coupled with automated seizure detection appears as a necessity for effective patient treatment. To enable long-term care in daily-life conditions, comfortable and smart wearable devices with long battery life are required, which in turn set the demand for resource-constrained and energy-efficient computing solutions. In this context, the development of machine learning algorithms for seizure detection faces the challenge of heavily imbalanced datasets. This paper introduces EpiDeNet, a new lightweight seizure detection network, and Sensitivity-Specificity Weighted Cross-Entropy (SSWCE), a new loss function that incorporates sensitivity and specificity, to address the challenge of heavily unbalanced datasets. The proposed EpiDeNet-SSWCE approach demonstrates the successful detection of 91.16% and 92.00% seizure events on two different datasets (CHB-MIT and PEDESITE, respectively), with only four EEG channels. A three-window majority voting-based smoothing scheme combined with the SSWCE loss achieves 3x reduction of false positives to 1.18 FP/h. EpiDeNet is well suited for implementation on low-power embedded platforms, and we evaluate its performance on two ARM Cortex-based platforms (M4F/M7) and two parallel ultra-low power (PULP) systems (GAP8, GAP9). The most efficient implementation (GAP9) achieves an energy efficiency of 40 GMAC/s/W, with an energy consumption per inference of only 0.051 mJ at high performance (726.46 MMAC/s), outperforming the best ARM Cortex-based solutions by approximately 160x in energy efficiency. The EpiDeNet-SSWCE method demonstrates effective and accurate seizure detection performance on heavily imbalanced datasets, while being suited for implementation on energy-constrained platforms.
翻訳日:2023-09-17 13:50:37 公開日:2023-08-28
# スマートIoT環境におけるパーキンソン病の診断とモニタリングのためのエントロピーベース機械学習モデル

Entropy-based machine learning model for diagnosis and monitoring of Parkinson's Disease in smart IoT environment ( http://arxiv.org/abs/2309.07134v1 )

ライセンス: Link先を確認
Maksim Belyaev, Murugappan Murugappan, Andrei Velichko and Dmitry Korzun(参考訳) 本研究では、静止状態脳波信号(rs-EEG)を用いたモノのインターネット(IoT)環境におけるパーキンソン病(PD)の診断とモニタリングのための計算効率の高い機械学習(ML)モデルの概念を提案する。 脳波信号から異なるエントロピーを計算したところ、ファジィエントロピーは rs-EEG を用いてPD の診断とモニタリングに最善であった。 また,信号周波数範囲と脳波チャネルの組み合わせについて検討し,pdの診断精度について検討した。 最後に,特徴数が少なく(11特徴),最大分類精度(ARKF)は99.9%であった。 脳波信号の最も顕著な周波数範囲が同定され、高い分類精度は低周波信号成分 (0-4 Hz) に依存することが判明した。 さらに, 頭部右半球(F8, P8, T8, FC6)から最も情報性の高い信号が受信された。 また, 3種類の脳波データ(150~1000例)を用いて, pdの診断精度について検討した。 計算複雑性は入力データを減らすことで低減される。 その結果、サンプル長(LEEG)1000(〜7.8秒)で99.9%、LeEG800(~6.2秒)で98.2%、LEEG150(~1.2秒)で79.3%の平均精度を達成した。 特徴数やセグメント長を減らすことにより、分類の計算コストを削減できる。 低いパフォーマンスのスマートMLセンサはIoT環境で使用することができ、PDに対する人間のレジリエンスを高めることができる。

The study presents the concept of a computationally efficient machine learning (ML) model for diagnosing and monitoring Parkinson's disease (PD) in an Internet of Things (IoT) environment using rest-state EEG signals (rs-EEG). We computed different types of entropy from EEG signals and found that Fuzzy Entropy performed the best in diagnosing and monitoring PD using rs-EEG. We also investigated different combinations of signal frequency ranges and EEG channels to accurately diagnose PD. Finally, with a fewer number of features (11 features), we achieved a maximum classification accuracy (ARKF) of ~99.9%. The most prominent frequency range of EEG signals has been identified, and we have found that high classification accuracy depends on low-frequency signal components (0-4 Hz). Moreover, the most informative signals were mainly received from the right hemisphere of the head (F8, P8, T8, FC6). Furthermore, we assessed the accuracy of the diagnosis of PD using three different lengths of EEG data (150-1000 samples). Because the computational complexity is reduced by reducing the input data. As a result, we have achieved a maximum mean accuracy of 99.9% for a sample length (LEEG) of 1000 (~7.8 seconds), 98.2% with a LEEG of 800 (~6.2 seconds), and 79.3% for LEEG = 150 (~1.2 seconds). By reducing the number of features and segment lengths, the computational cost of classification can be reduced. Lower-performance smart ML sensors can be used in IoT environments for enhances human resilience to PD.
翻訳日:2023-09-17 13:50:00 公開日:2023-08-28
# ウェアラブルデバイスに基づく機械学習モデルを用いて認知力の低い高齢者を自律的に識別する

Using wearable device-based machine learning models to autonomously identify older adults with poor cognition ( http://arxiv.org/abs/2309.07133v1 )

ライセンス: Link先を確認
Collin Sakal, Tingyou Li, Juan Li, Xinyue Li(参考訳) 認知検査は、患者や臨床医にとって時間を要する。 ウェアラブルデバイスに基づく予測モデルは、正常な生活条件下での継続的な健康モニタリングを可能にし、早期の介入のために認知障害を持つ高齢者を特定する代替手段を提供する。 本研究では, 概日リズム, 環境光暴露, 身体活動レベル, 睡眠, 信号処理に関連する, ウェアラブルに基づく新しい特徴を初めて提示した。 そこで我々は、Digit Symbol Substitution Test (DSST)、the Consortium to Establish a Registry for Alzheimers Disease Word-Learning Subtest (CERAD-WL)、およびAnimal Fluency Test (AFT)の結果に基づいて、ウェアラブルベースの機械学習モデルによる認識不良の予測能力を定量化した。 その結果, 年齢, 性別, 教育, 婚姻状況, 世帯所得, 糖尿病, 抑うつ症状, 機能的自立スコアを含むベンチマークモデルと比較すると, 3つの認知的結果の予測において, ウェアラブルモデルの方がAUCが有意に高かった。 これまでに同定されていないウェアラブルベースの特徴を明らかにすることに加え、最も活発な10時間と最低活性な5時間という各人物の中間点の標準偏差など、認知障害の可能性のある高齢者の自律的なスクリーニングにウェアラブルベースの機械学習モデルを使用することが可能であることを実証する。 このようなモデルは、臨床環境で手動で初期スクリーニングを行うためのコスト効率の良い代替手段を提供する。

Conducting cognitive tests is time-consuming for patients and clinicians. Wearable device-based prediction models allow for continuous health monitoring under normal living conditions and could offer an alternative to identifying older adults with cognitive impairments for early interventions. In this study, we first derived novel wearable-based features related to circadian rhythms, ambient light exposure, physical activity levels, sleep, and signal processing. Then, we quantified the ability of wearable-based machine-learning models to predict poor cognition based on outcomes from the Digit Symbol Substitution Test (DSST), the Consortium to Establish a Registry for Alzheimers Disease Word-Learning subtest (CERAD-WL), and the Animal Fluency Test (AFT). We found that the wearable-based models had significantly higher AUCs when predicting all three cognitive outcomes compared to benchmark models containing age, sex, education, marital status, household income, diabetic status, depression symptoms, and functional independence scores. In addition to uncovering previously unidentified wearable-based features that are predictive of poor cognition such as the standard deviation of the midpoints of each persons most active 10-hour periods and least active 5-hour periods, our paper provides proof-of-concept that wearable-based machine learning models can be used to autonomously screen older adults for possible cognitive impairments. Such models offer cost-effective alternatives to conducting initial screenings manually in clinical settings.
翻訳日:2023-09-17 13:49:31 公開日:2023-08-28
# PeptideBERT:Peptide特性予測のためのトランスフォーマに基づく言語モデル

PeptideBERT: A Language Model based on Transformers for Peptide Property Prediction ( http://arxiv.org/abs/2309.03099v1 )

ライセンス: Link先を確認
Chakradhar Guntuboina, Adrita Das, Parisa Mollaei, Seongwon Kim, and Amir Barati Farimani(参考訳) 言語モデルにおける最近の進歩は、タンパク質配列をテキストとして表現できるため、タンパク質モデリングコミュニティを強力なツールで実現している。 具体的には、トランスフォーマーを活用することで、明示的な構造データを必要とせずに、シーケンシャルからプロパティへの予測を改善できる。 本研究では,近年の大規模言語モデル(llms)の進展に触発されて,ペプチドの3つの重要な特性(溶血性,溶解性,非汚濁性)を予測するためのタンパク質言語モデルである peptidebert を紹介する。 PeptideBertは、12のアテンションヘッドと12の隠れレイヤを持つ、ProtBERT事前訓練されたトランスフォーマーモデルを使用している。 そして、3つの下流タスクのための事前訓練されたモデルを微調整した。 本モデルでは, 赤血球溶解を誘導するペプチドの電位を決定するために, 溶血を予測するためのSOTA(State of the Art)を達成している。 PeptideBertの非汚濁モデルも,ペプチドの非特異的相互作用に抵抗する能力の予測において顕著な精度を達成した。 このモデルは、主に短い配列に基づいて訓練され、負の例が主に不溶性ペプチドと関連しているデータセットの恩恵を受ける。 この研究で使用されるコード、モデル、データは、https://github.com/ChakradharG/PeptideBERT.comで無償公開されている。

Recent advances in Language Models have enabled the protein modeling community with a powerful tool since protein sequences can be represented as text. Specifically, by taking advantage of Transformers, sequence-to-property prediction will be amenable without the need for explicit structural data. In this work, inspired by recent progress in Large Language Models (LLMs), we introduce PeptideBERT, a protein language model for predicting three key properties of peptides (hemolysis, solubility, and non-fouling). The PeptideBert utilizes the ProtBERT pretrained transformer model with 12 attention heads and 12 hidden layers. We then finetuned the pretrained model for the three downstream tasks. Our model has achieved state of the art (SOTA) for predicting Hemolysis, which is a task for determining peptide's potential to induce red blood cell lysis. Our PeptideBert non-fouling model also achieved remarkable accuracy in predicting peptide's capacity to resist non-specific interactions. This model, trained predominantly on shorter sequences, benefits from the dataset where negative examples are largely associated with insoluble peptides. Codes, models, and data used in this study are freely available at: https://github.com/ChakradharG/PeptideBERT
翻訳日:2023-09-10 03:35:06 公開日:2023-08-28
# 2+1次元SU(2)格子ゲージ理論における固有状態熱化

Eigenstate Thermalization in 2+1 dimensional SU(2) Lattice Gauge Theory ( http://arxiv.org/abs/2308.16202v1 )

ライセンス: Link先を確認
Lukas Ebner, Berndt M\"uller, Andreas Sch\"afer, Clemens Seidl and Xiaojun Yao(参考訳) 格子上のハミルトニアンsu(2)ゲージ理論が固有状態熱化仮説(eth)に従うという仮説の予備的な数値的証拠を示す。 そこで3つの近似を 研究しました (a) 電場基底を$j=0,\frac{1}{2}$ に制限する縮小ヒルベルト空間における線型プラケット連鎖。 (b)周期的又は閉境界条件が同じヒルベルト空間制約を持つ二次元ハニカム格子 (c) たった3つの小冊子からなる連鎖であるが、解析されたエネルギーウィンドウ内のすべてのエネルギー固有値の収束が観測されるような十分大きな電場ヒルベルト空間(j \leq \frac{7}{2})$である。 ヒルベルト空間はSU(2)ゲージ理論の連続極限に達するのに必要であるが、数値資源の制約により、結合定数と大きな格子の全ての値に対してこの要求を実現することはできない。 3つの実験のそれぞれにおいて、まずrmtの挙動をチェックし、次にいくつかの演算子のエネルギー固有状態間の対角およびオフ対角行列要素を分析する。 現在の不確実性の中で 結果はすべて (b) (c)場合において、ETH予測に同意する (a)解析対象の1つに偏差が大きいことが判明した。 ethの振る舞いを曖昧に確立し、それが適用されるオペレータのクラスを決定するには、調査の延長が必要である。

We present preliminary numerical evidence for the hypothesis that the Hamiltonian SU(2) gauge theory discretized on a lattice obeys the Eigenstate Thermalization Hypothesis (ETH). To do so we study three approximations: (a) a linear plaquette chain in a reduced Hilbert space limiting the electric field basis to $j=0,\frac{1}{2}$ , (b) a two-dimensional honeycomb lattice with periodic or closed boundary condition and the same Hilbert space constraint, and (c) a chain of only three plaquettes but such a sufficiently large electric field Hilbert space ($j \leq \frac{7}{2})$ that convergence of all energy eigenvalues in the analyzed energy window is observed. While an unconstrained Hilbert space is required to reach the continuum limit of SU(2) gauge theory, numerical resource constraints do not permit us to realize this requirement for all values of the coupling constant and large lattices. In each of the three studied cases we check first for RMT behavior and then analyse the diagonal as well as the off-diagonal matrix elements between energy eigenstates for a few operators. Within current uncertainties all results for (b) and (c) agree with ETH predictions while for case (a) deviations are found to be large for one of the analyzed observables. To unambiguously establish ETH behavior and determine for which class of operators it applies, an extension of our investigations is necessary.
翻訳日:2023-09-01 18:57:49 公開日:2023-08-28
# オンラインフォーラムからの非アクティブサイバーウォーリアーの検出

Detecting Inactive Cyberwarriors from Online Forums ( http://arxiv.org/abs/2308.15491v1 )

ライセンス: Link先を確認
Ruei-Yuan Wang, Hung-Hsuan Chen(参考訳) 誤報の拡散は情報時代における新たな戦争形態として現れてきた。 この種の戦争には、敵を非難したり、同盟国同士の団結を促進することを目的としたメッセージを意図的に広めるサイバー戦士が含まれる。 本研究では,大規模なオンラインフォーラムにおいてサイバーウォリアが提示する活動のレベルを調査し,その数分間のサイバーウォリアがアクティブユーザであることを明らかにした。 驚くべきことに、サイバーウォーリアーは、積極的に誤った情報を広める役割を期待されているにもかかわらず、平和期間中は沈黙を保ち、必要な時にのみ行動を起こす。 さらに,サイバーウォリアーの特定に関わる課題を分析し,非アクティブなサイバーウォリアーを検出することは,その活動相手を特定するよりもはるかに困難であることを示す。 最後に,サイバーウォリアの非活動段階においてより効果的に識別し,その存在や行動をよりよく把握する方法について考察する。 実験コードは再現性のためにリリースされた。 \url{https://github.com/Ryaninthegame/Detect-Inactive-Spammers-on-PTT}。

The proliferation of misinformation has emerged as a new form of warfare in the information age. This type of warfare involves cyberwarriors, who deliberately propagate messages aimed at defaming opponents or fostering unity among allies. In this study, we investigate the level of activity exhibited by cyberwarriors within a large online forum, and remarkably, we discover that only a minute fraction of cyberwarriors are active users. Surprisingly, despite their expected role of actively disseminating misinformation, cyberwarriors remain predominantly silent during peacetime and only spring into action when necessary. Moreover, we analyze the challenges associated with identifying cyberwarriors and provide evidence that detecting inactive cyberwarriors is considerably more challenging than identifying their active counterparts. Finally, we discuss potential methodologies to more effectively identify cyberwarriors during their inactive phases, offering insights into better capturing their presence and actions. The experimental code is released for reproducibility: \url{https://github.com/Ryaninthegame/Detect-Inactive-Spammers-on-PTT}.
翻訳日:2023-08-31 16:14:56 公開日:2023-08-28
# 開量子系の安定相の定義

Defining stable phases of open quantum systems ( http://arxiv.org/abs/2308.15495v1 )

ライセンス: Link先を確認
Tibor Rakovszky and Sarang Gopalakrishnan and Curt von Keyserlingk(参考訳) 動的過程の定常状態は安定な非自明な位相を示し、フォールトトレラント古典記憶や量子記憶としても機能する。 マルコフ量子(古典的)力学では、これらの定常状態は非エルミート作用素の極値固有ベクトルであり、量子チャネル(マルコフ連鎖)を生成する。 しかしながら、これらの作用素は非エルミート的であるため、スペクトルは動的緩和時間スケールや摂動に対する安定性に対する信頼できないガイドである。 我々は、定常状態が安定な状態となるための代替の力学的基準を提案し、これを一様性と呼ぶ: 非公式に、我々の基準は、力学の十分に小さな局所摂動の下では、摂動状態と摂動状態が有限時間散逸進化によって互いに関連していることを要求する。 この基準は位相の任意の合理的な定義から求める性質の多くを意味していることを示す。 我々は、標準古典的セルオートマトンにおいて一様性が満たされていることを証明し、このギャップが同じ位相における近傍定常状態間の緩和率を決定することを数値的に証明する。 さらに、チャネルが一様性を示すための十分条件と、それゆえ安定性を予想する。

The steady states of dynamical processes can exhibit stable nontrivial phases, which can also serve as fault-tolerant classical or quantum memories. For Markovian quantum (classical) dynamics, these steady states are extremal eigenvectors of the non-Hermitian operators that generate the dynamics, i.e., quantum channels (Markov chains). However, since these operators are non-Hermitian, their spectra are an unreliable guide to dynamical relaxation timescales or to stability against perturbations. We propose an alternative dynamical criterion for a steady state to be in a stable phase, which we name uniformity: informally, our criterion amounts to requiring that, under sufficiently small local perturbations of the dynamics, the unperturbed and perturbed steady states are related to one another by a finite-time dissipative evolution. We show that this criterion implies many of the properties one would want from any reasonable definition of a phase. We prove that uniformity is satisfied in a canonical classical cellular automaton, and provide numerical evidence that the gap determines the relaxation rate between nearby steady states in the same phase, a situation we conjecture holds generically whenever uniformity is satisfied. We further conjecture some sufficient conditions for a channel to exhibit uniformity and therefore stability.
翻訳日:2023-08-31 16:03:00 公開日:2023-08-28
# 逆問題に対するディープラーニングとベイズ推論

Deep Learning and Bayesian inference for Inverse Problems ( http://arxiv.org/abs/2308.15492v1 )

ライセンス: Link先を確認
Ali Mohammad-Djafari, Ning Chu, Li Wang, Liang Yu(参考訳) 逆問題が発生するのは間接的な測定である。 一般的には、それらは事前の知識を必要とするような満足な解を得るために不適当である。 古典的には、異なる正規化法とベイズ推論に基づく方法が提案されている。 これらの手法は、多くの前方および後方計算を必要とするため、特に、前方または生成モデルが複雑で、可能性の評価が非常にコストがかかる場合に、計算においてコストがかかる。 ディープニューラルネットワークによるモデルと近似計算は、非常に有用である。 しかし、不確実性を考慮すると、まずベイジアンディープラーニングを理解し、次にそれを逆問題にどのように使えるかを確認する必要がある。 本研究では,特に逆問題に適応したNN,DL,具体的にはベイズDLに焦点を当てる。 まず、指数族によるベイジアンDL近似計算の詳細を述べ、逆問題にどのように使用できるかを見ていく。 第一に、フォワード演算子が物理学制約として知られ、使用される場合、第二に、より一般的なデータ駆動型DL法である。 キーワード:ニューラルネットワーク、変分ベイズ推論、ベイズ深層学習(dl)、逆問題、物理学に基づくdl。

Inverse problems arise anywhere we have indirect measurement. As, in general they are ill-posed, to obtain satisfactory solutions for them needs prior knowledge. Classically, different regularization methods and Bayesian inference based methods have been proposed. As these methods need a great number of forward and backward computations, they become costly in computation, in particular, when the forward or generative models are complex and the evaluation of the likelihood becomes very costly. Using Deep Neural Network surrogate models and approximate computation can become very helpful. However, accounting for the uncertainties, we need first understand the Bayesian Deep Learning and then, we can see how we can use them for inverse problems. In this work, we focus on NN, DL and more specifically the Bayesian DL particularly adapted for inverse problems. We first give details of Bayesian DL approximate computations with exponential families, then we will see how we can use them for inverse problems. We consider two cases: First the case where the forward operator is known and used as physics constraint, the second more general data driven DL methods. keyword: Neural Network, Variational Bayesian inference, Bayesian Deep Learning (DL), Inverse problems, Physics based DL.
翻訳日:2023-08-31 16:02:40 公開日:2023-08-28
# 2次条件勾配スライディング

Second-order Conditional Gradient Sliding ( http://arxiv.org/abs/2002.08907v3 )

ライセンス: Link先を確認
Alejandro Carderera and Sebastian Pokutta(参考訳) 制約付き第二次凸最適化アルゴリズムは、局所二次収束のため、問題に対する高精度解が必要な場合に選択する手法である。 これらのアルゴリズムは、反復ごとに制限された二次部分プロブレムの解を必要とする。 本稿では,制約付き二次部分問題を解くのに投影不要なアルゴリズムを用いた,二階条件勾配スライディング (socgs) アルゴリズムを提案する。 実現可能な領域がポリトープであるとき、アルゴリズムは有限個の線形収束反復の後に原始ギャップで二次的に収束する。 二次状態において、socgsアルゴリズムは$\mathcal{o}(\log(\log 1/\varepsilon))$ first-order and hessian oracle calls and $\mathcal{o}(\log (1/\varepsilon) \log(\log1/\varepsilon))$ linear minimization oracle は $\varepsilon$-optimal ソリューションを達成するために$\varepsilon$-optimal を呼び出す。 このアルゴリズムは、実現可能な領域が線形最適化オラクルを通してのみ効率的にアクセスできる場合に有効であり、可能ではあるが関数の1次情報を計算することはコストがかかる。

Constrained second-order convex optimization algorithms are the method of choice when a high accuracy solution to a problem is needed, due to their local quadratic convergence. These algorithms require the solution of a constrained quadratic subproblem at every iteration. We present the \emph{Second-Order Conditional Gradient Sliding} (SOCGS) algorithm, which uses a projection-free algorithm to solve the constrained quadratic subproblems inexactly. When the feasible region is a polytope the algorithm converges quadratically in primal gap after a finite number of linearly convergent iterations. Once in the quadratic regime the SOCGS algorithm requires $\mathcal{O}(\log(\log 1/\varepsilon))$ first-order and Hessian oracle calls and $\mathcal{O}(\log (1/\varepsilon) \log(\log1/\varepsilon))$ linear minimization oracle calls to achieve an $\varepsilon$-optimal solution. This algorithm is useful when the feasible region can only be accessed efficiently through a linear optimization oracle, and computing first-order information of the function, although possible, is costly.
翻訳日:2023-08-30 19:37:45 公開日:2023-08-28
# 連続評価を伴う多官能・オンライン線形プログラムにおける対数回帰

Logarithmic Regret in Multisecretary and Online Linear Programs with Continuous Valuations ( http://arxiv.org/abs/1912.08917v6 )

ライセンス: Link先を確認
Robert L. Bray(参考訳) 私は、$n$の顧客に$n\beta \in \mathbb{R}^{m}$のリソースを割り当てる線形プログラムのシャドウ価格が$n \rightarrow \infty$として振舞う方法について研究する。 私は影の価格を示す (i)測定値の集中に固執する。 (ii) 中心極限理論スケーリングの下で多変量正規に収束し、 (iii)$\Theta(1/n)$のように減少する分散を持つ。 オンライン線形プログラム \cites{Li2019b} で期待される後悔が$\Theta(\log n)$であることを証明するためにこれらの結果を使用します。 したがって、$O(\log n \log \log n)$ から $O(\log n)$ への上界を締め付け、多次元設定への下界を拡大する{Lueker 1995} $\Omega(\log n)$ とする。 私は、新しいテクニックについて、‘cites{Arlotto2019} multi Secretary problem’の簡単な分析で説明します。

I study how the shadow prices of a linear program that allocates an endowment of $n\beta \in \mathbb{R}^{m}$ resources to $n$ customers behave as $n \rightarrow \infty$. I show the shadow prices (i) adhere to a concentration of measure, (ii) converge to a multivariate normal under central-limit-theorem scaling, and (iii) have a variance that decreases like $\Theta(1/n)$. I use these results to prove that the expected regret in \cites{Li2019b} online linear program is $\Theta(\log n)$, both when the customer variable distribution is known upfront and must be learned on the fly. I thus tighten \citeauthors{Li2019b} upper bound from $O(\log n \log \log n)$ to $O(\log n)$, and extend \cites{Lueker1995} $\Omega(\log n)$ lower bound to the multi-dimensional setting. I illustrate my new techniques with a simple analysis of \cites{Arlotto2019} multisecretary problem.
翻訳日:2023-08-30 19:37:18 公開日:2023-08-28
# ラショーモン集合からの微分プライベートサンプリングと凸最適化のためのランゲヴィン拡散の普遍性

Differentially Private Sampling from Rashomon Sets, and the Universality of Langevin Diffusion for Convex Optimization ( http://arxiv.org/abs/2204.01585v4 )

ライセンス: Link先を確認
Arun Ganesh, Abhradeep Thakurta, Jalaj Upadhyay(参考訳) 本稿では,Langevin diffusion (LD) に基づくアルゴリズムフレームワークとその対応する離散化について述べる。 一 プライバシ分析が凸性に依存しず、かつ、プライバシを損なうことなくいつでも停止することができる指数関数的メカニズムからサンプリングするアルゴリズム 二 指数的機構の厳密な均一安定性を保証すること。 直接的な結果として、純粋および近似微分プライバシー(DP)の下での(強く)凸損失に対する最適過大な経験的および集団リスクの保証を得る。 このフレームワークにより,rashomon セットから dp uniform sampler を設計できる。 ラショモンセットは、解釈可能で堅牢な機械学習、変数の重要性の理解、公平さの特徴づけに広く使われている。

In this paper we provide an algorithmic framework based on Langevin diffusion (LD) and its corresponding discretizations that allow us to simultaneously obtain: i) An algorithm for sampling from the exponential mechanism, whose privacy analysis does not depend on convexity and which can be stopped at anytime without compromising privacy, and ii) tight uniform stability guarantees for the exponential mechanism. As a direct consequence, we obtain optimal excess empirical and population risk guarantees for (strongly) convex losses under both pure and approximate differential privacy (DP). The framework allows us to design a DP uniform sampler from the Rashomon set. Rashomon sets are widely used in interpretable and robust machine learning, understanding variable importance, and characterizing fairness.
翻訳日:2023-08-30 19:29:58 公開日:2023-08-28
# pranc: 深層モデル圧縮のための擬似ランダムネットワーク

PRANC: Pseudo RAndom Networks for Compacting deep models ( http://arxiv.org/abs/2206.08464v2 )

ライセンス: Link先を確認
Parsa Nooralinejad, Ali Abbasi, Soroush Abbasi Koohpayegani, Kossar Pourahmadi Meibodi, Rana Muhammad Shahroz Khan, Soheil Kolouri, Hamed Pirsiavash(参考訳) 重み空間における複数のランダム初期化および凍結した深層モデルの線形結合として、深層モデルを再パラメータ化できることを実証する。 トレーニング中、これらのランダムなモデル(すなわち‘basis’ネットワーク)にまたがる部分空間内に存在するローカルなミニマを探索する。 私たちのフレームワークであるprancは、深層モデルの大幅なコンパクト化を可能にします。 モデルは、学習された線形混合係数とともに擬似ランダムな「基底」ネットワークを生成するために使用される単一のスカラー「シード」を用いて再構成することができる。 PRANCは、マルチエージェント学習、連続学習者、フェデレーションシステム、エッジデバイスなど、いくつかのシナリオにおいて一般的なボトルネックであるディープモデルの効率的な保存と通信という課題に対処する。 本研究では,PRANCを用いて画像分類モデルを構築し,関連する暗黙的ニューラルネットワークをコンパクト化することで画像の圧縮を行う。 PRANCは、ディープモデルを100ドル近い価格で圧縮する場合、画像分類に大きな差でベースラインを上回ります。 さらに,PRANCは,ハエの重みを階層的に生成することで,メモリ効率のよい推論を可能にすることを示す。 prancのソースコードは以下である。 \url{https://github.com/ucdvision/pranc}

We demonstrate that a deep model can be reparametrized as a linear combination of several randomly initialized and frozen deep models in the weight space. During training, we seek local minima that reside within the subspace spanned by these random models (i.e., `basis' networks). Our framework, PRANC, enables significant compaction of a deep model. The model can be reconstructed using a single scalar `seed,' employed to generate the pseudo-random `basis' networks, together with the learned linear mixture coefficients. In practical applications, PRANC addresses the challenge of efficiently storing and communicating deep models, a common bottleneck in several scenarios, including multi-agent learning, continual learners, federated systems, and edge devices, among others. In this study, we employ PRANC to condense image classification models and compress images by compacting their associated implicit neural networks. PRANC outperforms baselines with a large margin on image classification when compressing a deep model almost $100$ times. Moreover, we show that PRANC enables memory-efficient inference by generating layer-wise weights on the fly. The source code of PRANC is here: \url{https://github.com/UCDvision/PRANC}
翻訳日:2023-08-30 19:17:57 公開日:2023-08-28
# 外乱オブザーバに基づく制御障壁関数を用いた安全かつ効率的な強化学習

Safe and Efficient Reinforcement Learning Using Disturbance-Observer-Based Control Barrier Functions ( http://arxiv.org/abs/2211.17250v3 )

ライセンス: Link先を確認
Yikun Cheng, Pan Zhao and Naira Hovakimyan(参考訳) トレーニング中の厳しい状態制約を確実に満足させる安全な強化学習(RL)が近年注目されている。 例えば、制御障壁関数(CBF)に基づく安全フィルタは、RLエージェントの安全でない動作をオンザフライで変更することで、安全RLのための有望な方法を提供する。 既存の安全フィルタベースのアプローチでは、不確実なダイナミクスの学習と学習モデルエラーの定量化が一般的であり、大量のデータが収集される前に保守的なフィルタを発生させ、優れたモデルを学ぶ。 本稿では,外乱オブザーバ(DOB)と制御バリア機能(CBF)を用いた安全かつ効率的なRLを提案する。 ハードステート制約に対処する既存の安全RL手法とは異なり、我々の手法はモデル学習を伴わず、DOBを用いて不確実性のポイントワイド値を正確に推定し、安全行動を生成するために頑健なCBF条件に組み込む。 DOBベースのCBFは、学習プロセス全体を通して安全性を確保するために必要なRLエージェントの動作を最小限に変更することにより、モデルフリーなRLアルゴリズムによる安全フィルタとして使用できる。 一輪車と2次元四輪車のシミュレーション結果から,CBFとガウス過程に基づくモデル学習を用いた最先端の安全RLアルゴリズムを,安全性違反率,サンプルおよび計算効率の観点から比較した。

Safe reinforcement learning (RL) with assured satisfaction of hard state constraints during training has recently received a lot of attention. Safety filters, e.g., based on control barrier functions (CBFs), provide a promising way for safe RL via modifying the unsafe actions of an RL agent on the fly. Existing safety filter-based approaches typically involve learning of uncertain dynamics and quantifying the learned model error, which leads to conservative filters before a large amount of data is collected to learn a good model, thereby preventing efficient exploration. This paper presents a method for safe and efficient RL using disturbance observers (DOBs) and control barrier functions (CBFs). Unlike most existing safe RL methods that deal with hard state constraints, our method does not involve model learning, and leverages DOBs to accurately estimate the pointwise value of the uncertainty, which is then incorporated into a robust CBF condition to generate safe actions. The DOB-based CBF can be used as a safety filter with model-free RL algorithms by minimally modifying the actions of an RL agent whenever necessary to ensure safety throughout the learning process. Simulation results on a unicycle and a 2D quadrotor demonstrate that the proposed method outperforms a state-of-the-art safe RL algorithm using CBFs and Gaussian processes-based model learning, in terms of safety violation rate, and sample and computational efficiency.
翻訳日:2023-08-30 19:09:24 公開日:2023-08-28
# 一般化ネットワーク効果の発見と爆発

Discovery and Exploitation of Generalized Network Effects ( http://arxiv.org/abs/2301.00270v2 )

ライセンス: Link先を確認
Meng-Chieh Lee, Shubhranshu Shekhar, Jaemin Yoo, Christos Faloutsos(参考訳) ノードラベルの少ないグラフが与えられたら、どうすればいいのか? (a)グラフの一般化ネットワーク効果(GNE)が存在するか否かを識別する。 (b)ノードクラス間の相互関係を説明するためにGNEを推定し、 (c) 未知のラベルを正確にかつ効率的に予測するといった下流タスクを改善するためにGNEを利用するか? GNEの知識は、ノード分類やターゲット広告といった様々なタスクに有用である。 しかし, ノードラベルやノイズエッジが限られているため, 実世界のグラフでは, ホモフィリー, ヘテロフィリー, あるいはそれらの組み合わせなどのGNEの同定と理解は困難である。 本稿では,上記の問題に対処するためのグラフマイニング手法であるneteffectを提案する。 (i)原則:ノードラベルの少ないグラフにおけるGNEの存在を決定する統計的テスト。 (二 一般説明可能:観測された特定種類のGNEを推定するための閉形式解 (iii)精度とスケーラビリティ: 正確で高速なノード分類のためのGNEの統合。 パブリックな実世界のグラフに応用すると、NetEffectは多くのグラフにおいてGNEが予期せぬ欠如を発見できる。 さらに,ノード分類において,GNEの導入が有効であることを示す。 1.6Mノードと22.3Mエッジを持つ大規模な現実世界グラフでは、NetEffectは競合相手に比べて7倍以上のスピードアップ(14分対2時間)を達成する。

Given a large graph with few node labels, how can we (a) identify whether there is generalized network-effects (GNE) of the graph or not, (b) estimate GNE to explain the interrelations among node classes, and (c) exploit GNE to improve downstream tasks such as predicting the unknown labels accurately and efficiently? The knowledge of GNE is valuable for various tasks like node classification and targeted advertising. However, identifying and understanding GNE such as homophily, heterophily or their combination is challenging in real-world graphs due to limited availability of node labels and noisy edges. We propose NetEffect, a graph mining approach to address the above issues, enjoying the following properties: (i) Principled: a statistical test to determine the presence of GNE in a graph with few node labels; (ii) General and Explainable: a closed-form solution to estimate the specific type of GNE observed; and (iii) Accurate and Scalable: the integration of GNE for accurate and fast node classification. Applied on public, real-world graphs, NetEffect discovers the unexpected absence of GNE in numerous graphs, which previously thought to exhibit heterophily. Further, we show that incorporating GNE is effective on node classification. On a large real-world graph with 1.6M nodes and 22.3M edges, NetEffect achieves over 7 times speedup (14 minutes vs. 2 hours) compared to most competitors.
翻訳日:2023-08-30 18:58:47 公開日:2023-08-28
# 無線干渉ネットワークにおけるマルチフロー伝送:収束グラフ学習アプローチ

Multi-Flow Transmission in Wireless Interference Networks: A Convergent Graph Learning Approach ( http://arxiv.org/abs/2303.15544v2 )

ライセンス: Link先を確認
Raz Paul, Kobi Cohen, Gil Kedar(参考訳) 無線ネットワークにおけるマルチフロー伝送の問題点を考察し,各経路間の相互干渉により異なる流れからのデータ信号が干渉し,リンク容量が減少する問題について考察する。 目的は、無線干渉ネットワークを横断してネットワークの有用性を最大化するマルチフロー伝送戦略を開発することである。 しかし, 最適解を得るには大きな状態と作用空間が必要となるため, 計算コストがかかる。 この課題に対処するために、ネットワークデータ信号の2段階干渉対応マルチフロー最適化(DIAMOND)という新しいアルゴリズムを導入する。 DIAMONDの設計は、5Gの特徴であり、集中的なユニット展開を伴う技術を超えたハイブリッドな集中分散実装を可能にする。 集中型ステージは、グラフニューラルネットワーク(GNN)強化学習(RL)ルーティングエージェントの新しい設計を用いて、マルチフロー伝送戦略を計算する。 そして、分散学習更新の新しい設計に基づいて、分散ステージにより性能が向上する。 我々はDIAMONDの理論解析を行い、時間が増えるにつれて最適なマルチフロー伝送戦略に収束することを示す。 また,様々なネットワークトポロジ(ランダム展開, NSFNET, GEANT2)に対して広範囲にシミュレーションを行い,既存手法と比較してDIAMONDの優れた性能を示す。

We consider the problem of of multi-flow transmission in wireless networks, where data signals from different flows can interfere with each other due to mutual interference between links along their routes, resulting in reduced link capacities. The objective is to develop a multi-flow transmission strategy that routes flows across the wireless interference network to maximize the network utility. However, obtaining an optimal solution is computationally expensive due to the large state and action spaces involved. To tackle this challenge, we introduce a novel algorithm called Dual-stage Interference-Aware Multi-flow Optimization of Network Data-signals (DIAMOND). The design of DIAMOND allows for a hybrid centralized-distributed implementation, which is a characteristic of 5G and beyond technologies with centralized unit deployments. A centralized stage computes the multi-flow transmission strategy using a novel design of graph neural network (GNN) reinforcement learning (RL) routing agent. Then, a distributed stage improves the performance based on a novel design of distributed learning updates. We provide a theoretical analysis of DIAMOND and prove that it converges to the optimal multi-flow transmission strategy as time increases. We also present extensive simulation results over various network topologies (random deployment, NSFNET, GEANT2), demonstrating the superior performance of DIAMOND compared to existing methods.
翻訳日:2023-08-30 18:38:01 公開日:2023-08-28
# ランダムウォーク確率ADMMによるインフラストラクチャレスおよび異種環境における個人化フェデレーション学習の安定化

Mobilizing Personalized Federated Learning in Infrastructure-Less and Heterogeneous Environments via Random Walk Stochastic ADMM ( http://arxiv.org/abs/2304.12534v2 )

ライセンス: Link先を確認
Ziba Parsons, Fei Dou, Houyi Du, Zheng Song, Jin Lu(参考訳) 本稿では,インフラストラクチャレス環境において,無線リンクを介してのみ接続可能な,データ不均質な分離ノードを特徴とする実用的なシナリオにおいて,連合学習(federated learning:fl)を実現するための課題について検討する。 これらの課題を克服するために,モビリティとレジリエンスの促進を目的とした,パーソナライズされたFLアプローチを提案する。 具体的には,RWSADMM(Random Walk Stochastic Alternating Direction Method of Multipliers)と呼ばれる新しい最適化アルゴリズムを開発した。 RWSADMMは、クライアントに対するサーバのランダムな動きに着目し、コンセンサス更新や正規化メソッドによるバイアスの導入よりも、厳しい不等式制約に基づいて、隣接するクライアント間の局所的な近接を定式化する。 クライアントの計算負担を軽減するため、近似最適化問題の効率的な確率解法をRWSADMMで設計し、ほぼ確実に定常点に収束する。 我々の理論的および実証的な結果は、RWSADMMによる証明可能な高速収束と相当な精度の向上を示し、通信コストの削減とスケーラビリティの向上の恩恵を享受する。

This paper explores the challenges of implementing Federated Learning (FL) in practical scenarios featuring isolated nodes with data heterogeneity, which can only be connected to the server through wireless links in an infrastructure-less environment. To overcome these challenges, we propose a novel mobilizing personalized FL approach, which aims to facilitate mobility and resilience. Specifically, we develop a novel optimization algorithm called Random Walk Stochastic Alternating Direction Method of Multipliers (RWSADMM). RWSADMM capitalizes on the server's random movement toward clients and formulates local proximity among their adjacent clients based on hard inequality constraints rather than requiring consensus updates or introducing bias via regularization methods. To mitigate the computational burden on the clients, an efficient stochastic solver of the approximated optimization problem is designed in RWSADMM, which provably converges to the stationary point almost surely in expectation. Our theoretical and empirical results demonstrate the provable fast convergence and substantial accuracy improvements achieved by RWSADMM compared to baseline methods, along with its benefits of reduced communication costs and enhanced scalability.
翻訳日:2023-08-30 18:29:08 公開日:2023-08-28
# 逆イメージングの原理的前提としてのスコアベース拡散モデル

Score-Based Diffusion Models as Principled Priors for Inverse Imaging ( http://arxiv.org/abs/2304.11751v2 )

ライセンス: Link先を確認
Berthy T. Feng, Jamie Smith, Michael Rubinstein, Huiwen Chang, Katherine L. Bouman, William T. Freeman(参考訳) 前者はノイズや不完全な測定から画像の再構成に不可欠である。 前者の選択は、回収された画像の品質と不確実性の両方を決定する。 そこで本稿では,スコアに基づく拡散モデルを原理的画像プリエント(score-based priors)に変換し,計測結果の後方を解析する。 以前は確率的先行は手作りの正規化器と単純な分布に限られていた。 本研究では,スコアベース拡散モデルの理論的に証明された確率関数を実験的に検証する。 この確率関数を変分推論に用いて、結果の後方から標本を採取する方法を示す。 以上の結果から,より高度なデータ駆動画像により,スコアに基づく事前推定が原理的推論を可能にすることが示唆された。

Priors are essential for reconstructing images from noisy and/or incomplete measurements. The choice of the prior determines both the quality and uncertainty of recovered images. We propose turning score-based diffusion models into principled image priors ("score-based priors") for analyzing a posterior of images given measurements. Previously, probabilistic priors were limited to handcrafted regularizers and simple distributions. In this work, we empirically validate the theoretically-proven probability function of a score-based diffusion model. We show how to sample from resulting posteriors by using this probability function for variational inference. Our results, including experiments on denoising, deblurring, and interferometric imaging, suggest that score-based priors enable principled inference with a sophisticated, data-driven image prior.
翻訳日:2023-08-30 18:27:51 公開日:2023-08-28
# Masked Diffusion Model を用いた医用画像の教師なし異常検出

Unsupervised Anomaly Detection in Medical Images Using Masked Diffusion Model ( http://arxiv.org/abs/2305.19867v2 )

ライセンス: Link先を確認
Hasan Iqbal, Umar Khalid, Jing Hua, Chen Chen(参考訳) 解剖学的異質性やピクセルレベルのラベリングの要求により、教師付きディープラーニング技術を用いて脳MRI異常を特定することは困難である。 教師なし異常検出アプローチは、正常な脳のサンプルレベルのラベルにのみ依存して、画素レベルの異常を識別するために望ましい表現を生成する、代替ソリューションを提供する。 生成モデルは、健康な脳の解剖学的に一貫した表現を生成するために重要であるが、人間の脳の複雑な解剖を正確に生成することは、依然として困難である。 本研究では,拡散モデルの生成タスクを再構築するために,マスクベース正規化を導入したマスク-DDPM (mDPPM) を提案する。 具体的には,MFM(Masked Image Modeling)とMFM(Masked Frequency Modeling)を導入し,モデルがラベルのないデータから視覚表現を学習できるようにする。 我々の知る限りでは、医療応用にMDMをDPPMモデルに適用する最初の試みである。 腫瘍および多発性硬化症病変を含むデータセットに対する我々のアプローチを評価し,既存の完全/弱教師付きベースラインと比較して,教師なし手法の優れた性能を示した。 コードはhttps://github.com/hasan1292/mDDPMで入手できる。

It can be challenging to identify brain MRI anomalies using supervised deep-learning techniques due to anatomical heterogeneity and the requirement for pixel-level labeling. Unsupervised anomaly detection approaches provide an alternative solution by relying only on sample-level labels of healthy brains to generate a desired representation to identify abnormalities at the pixel level. Although, generative models are crucial for generating such anatomically consistent representations of healthy brains, accurately generating the intricate anatomy of the human brain remains a challenge. In this study, we present a method called masked-DDPM (mDPPM), which introduces masking-based regularization to reframe the generation task of diffusion models. Specifically, we introduce Masked Image Modeling (MIM) and Masked Frequency Modeling (MFM) in our self-supervised approach that enables models to learn visual representations from unlabeled data. To the best of our knowledge, this is the first attempt to apply MFM in DPPM models for medical applications. We evaluate our approach on datasets containing tumors and numerous sclerosis lesions and exhibit the superior performance of our unsupervised method as compared to the existing fully/weakly supervised baselines. Code is available at https://github.com/hasan1292/mDDPM.
翻訳日:2023-08-30 18:07:54 公開日:2023-08-28
# 大文脈モデルのためのブロックワイズ並列トランス

Blockwise Parallel Transformer for Large Context Models ( http://arxiv.org/abs/2305.19370v3 )

ライセンス: Link先を確認
Hao Liu, Pieter Abbeel(参考訳) トランスフォーマーは最先端の自然言語処理モデルの基盤として現れ、幅広いAIアプリケーションにまたがる優れたパフォーマンスを示している。 しかし、トランスフォーマーの自己アテンション機構と大きなフィードフォワードネットワークによって引き起こされるメモリ要求は、長いシーケンスを扱う能力を制限するため、複数の長いシーケンスや長期依存関係を含むタスクの課題が生じる。 本稿では,Blockwise Parallel Transformer(BPT)という,自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算を利用したメモリコストの最小化手法を提案する。 メモリ効率を維持しながら長い入力シーケンスを処理することにより、bptはバニラトランスの32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。 言語モデリングと強化学習タスクに関する大規模な実験は、BPTがメモリ要求の低減と性能改善に有効であることを実証している。

Transformers have emerged as the cornerstone of state-of-the-art natural language processing models, showcasing exceptional performance across a wide range of AI applications. However, the memory demands posed by the self-attention mechanism and the large feedforward network in Transformers limit their ability to handle long sequences, thereby creating challenges for tasks involving multiple long sequences or long-term dependencies. We present a distinct approach, Blockwise Parallel Transformer (BPT), that leverages blockwise computation of self-attention and feedforward network fusion to minimize memory costs. By processing longer input sequences while maintaining memory efficiency, BPT enables training sequences 32 times longer than vanilla Transformers and up to 4 times longer than previous memory-efficient methods. Extensive experiments on language modeling and reinforcement learning tasks demonstrate the effectiveness of BPT in reducing memory requirements and improving performance.
翻訳日:2023-08-30 18:07:32 公開日:2023-08-28
# 確率ゲームにおける報酬機械による強化学習

Reinforcement Learning With Reward Machines in Stochastic Games ( http://arxiv.org/abs/2305.17372v3 )

ライセンス: Link先を確認
Jueming Hu, Jean-Raphael Gaglione, Yanze Wang, Zhe Xu, Ufuk Topcu, and Yongming Liu(参考訳) 複雑タスクを伴う確率ゲームにおけるマルチエージェント強化学習について, 報酬関数が非マルコフ型である場合について検討する。 我々は報酬機を利用して複雑なタスクの高度な知識を取り入れる。 確率ゲーム(QRM-SG)の報酬機を用いたQラーニングと呼ばれるアルゴリズムを開発し,各エージェントのNash平衡における最適応答戦略を学習する。 QRM-SGでは、拡張状態空間におけるナッシュ平衡におけるQ関数を定義する。 拡張状態空間は、確率ゲームの状態と報酬マシンの状態を統合する。 各エージェントはシステム内のすべてのエージェントのQ関数を学習する。 我々は,QRM-SGで学習したQ関数が,学習中の各段階のステージゲームが大域的最適点またはサドル点を持つ場合,ナッシュ平衡においてQ関数に収束することが証明され,エージェントは,この時点でのベストレスポンス戦略に基づいてQ関数を更新する。 lemke-howson法を用いて,現在のq関数に対する最善応答戦略を導出する。 3つのケーススタディは、QRM-SGが最良の応答戦略を効果的に学習できることを示している。 QRM-SGは,ケーススタディIで約7500回,ケーススタディIIで1000回,ケーススタディIIIで1500回,ナッシュQ-ラーニングやMADDPGといったベースライン手法がナッシュ平衡に収束しない場合に,最も優れた応答戦略を学習する。

We investigate multi-agent reinforcement learning for stochastic games with complex tasks, where the reward functions are non-Markovian. We utilize reward machines to incorporate high-level knowledge of complex tasks. We develop an algorithm called Q-learning with reward machines for stochastic games (QRM-SG), to learn the best-response strategy at Nash equilibrium for each agent. In QRM-SG, we define the Q-function at a Nash equilibrium in augmented state space. The augmented state space integrates the state of the stochastic game and the state of reward machines. Each agent learns the Q-functions of all agents in the system. We prove that Q-functions learned in QRM-SG converge to the Q-functions at a Nash equilibrium if the stage game at each time step during learning has a global optimum point or a saddle point, and the agents update Q-functions based on the best-response strategy at this point. We use the Lemke-Howson method to derive the best-response strategy given current Q-functions. The three case studies show that QRM-SG can learn the best-response strategies effectively. QRM-SG learns the best-response strategies after around 7500 episodes in Case Study I, 1000 episodes in Case Study II, and 1500 episodes in Case Study III, while baseline methods such as Nash Q-learning and MADDPG fail to converge to the Nash equilibrium in all three case studies.
翻訳日:2023-08-30 18:07:08 公開日:2023-08-28
# 機械学習と人間-aiコラボレーションによる高リスク妊娠ケアのギャップを埋める

Closing the Gap in High-Risk Pregnancy Care Using Machine Learning and Human-AI Collaboration ( http://arxiv.org/abs/2305.17261v2 )

ライセンス: Link先を確認
Hussein Mozannar, Yuria Utsumi, Irene Y. Chen, Stephanie S. Gervasi, Michele Ewing, Aaron Smith-McLallen, David Sontag(参考訳) ハイリスク妊娠(high-risk pregnancy、hrp)は、母親や幼児の予後に悪影響を及ぼす要因を併せ持つ妊娠である。 健康保険業者は、追加臨床支援の恩恵を受けるメンバーを特定するためにアルゴリズムを使用する。 われわれは,妊婦を識別し,合併症のリスクを伴って介護管理を支援する機械学習アルゴリズムの構築を目指していた。 本研究は,フィラデルフィアの健康保険会社インデペンデンス・ブルークロス(ibc)の36735名の被保険者から得た請求データを用いて,現在妊娠中かどうかを推定するために,ハイブリッドlasso正規化分類器を訓練した。 次に,12,243人のサブセットに線形分類器を訓練し,糖尿病や高血圧を発症するかどうかを予測する。 これらのアルゴリズムは、IBCのケアマネジメントチームと協力して開発され、ダッシュボードに統合された。 看護婦との小さなユーザスタディでは、アルゴリズムをワークフローに組み込むことの影響を評価した。 以上の結果から, 妊娠開始日は, 5.58% (95% ci 4.05-6.40) の偽陽性率を犠牲にせず, 妊娠開始日を示す一連の予め定義されたコードのみを用いて, 合併症のある患者に対して3.54% (95% ci 3.05-4.00) の早期妊娠開始日を予測できることがわかった。 合併症を予測する分類器は、患者の最初の三期までのデータを用いて、AUCが 0.754 (95% CI 0.764-0.788) である。 ケアマネジメントプログラムの看護師は、既存のアプローチよりも提案されたモデルを好む。 提案モデルは, 治療可能な偽陽性率を犠牲にして, 妊婦の識別のために一般的に用いられるクレームコードよりも優れていた。 リスクコンプリケーション分類器は,合併症のリスクにより正確なトリアージが可能であった。

High-risk pregnancy (HRP) is a pregnancy complicated by factors that can adversely affect outcomes of the mother or the infant. Health insurers use algorithms to identify members who would benefit from additional clinical support. We aimed to build machine learning algorithms to identify pregnant patients and triage them by risk of complication to assist care management. In this retrospective study, we trained a hybrid Lasso regularized classifier to predict whether a patient is currently pregnant using claims data from 36735 insured members of Independence Blue Cross (IBC), a health insurer in Philadelphia. We then train a linear classifier on a subset of 12,243 members to predict whether a patient will develop gestational diabetes or gestational hypertension. These algorithms were developed in cooperation with the care management team at IBC and integrated into the dashboard. In small user studies with the nurses, we evaluated the impact of integrating our algorithms into their workflow. We find that the proposed model predicts an earlier pregnancy start date for 3.54% (95% CI 3.05-4.00) for patients with complications compared to only using a set of pre-defined codes that indicate the start of pregnancy and never later at the expense of a 5.58% (95% CI 4.05-6.40) false positive rate. The classifier for predicting complications has an AUC of 0.754 (95% CI 0.764-0.788) using data up to the patient's first trimester. Nurses from the care management program expressed a preference for the proposed models over existing approaches. The proposed model outperformed commonly used claim codes for the identification of pregnant patients at the expense of a manageable false positive rate. Our risk complication classifier shows that we can accurately triage patients by risk of complication.
翻訳日:2023-08-30 18:06:40 公開日:2023-08-28
# scissorhands: テスト時のllm kvキャッシュ圧縮における重要度仮説の永続性を活用する

Scissorhands: Exploiting the Persistence of Importance Hypothesis for LLM KV Cache Compression at Test Time ( http://arxiv.org/abs/2305.17118v2 )

ライセンス: Link先を確認
Zichang Liu, Aditya Desai, Fangshuo Liao, Weitao Wang, Victor Xie, Zhaozhuo Xu, Anastasios Kyrillidis, Anshumali Shrivastava(参考訳) 大規模言語モデル(LLM)は、エキサイティングなAIアプリケーションに新たな波を巻き起こした。 これらのモデルを大規模にホストするには、かなりのメモリリソースが必要です。 デプロイメントにおける重要なメモリボトルネックのひとつは、コンテキストウィンドウにある。 モデル重みはメモリに飢えていると一般的に認識されるが、生成プロセス(kvキャッシュ)中に格納されたキー値埋め込みのサイズはモデルサイズを上回ることができる。 KVキャッシュの巨大なサイズは、高いスループットの推論ワークロードにとって重要な推論バッチサイズに制約を課します。 注意点の興味深い観察から着想を得た我々は、重要さの持続性を仮説を立てた。 この仮説に関する実証的検証と理論的解析に基づいて、モデルを微調整することなくKVキャッシュのメモリ使用率を一定予算で維持するシステムであるScisorhandsを提案する。 本質的に、ScisorhandsはKVキャッシュを管理するために、より高い確率でキートークンを格納する。 モデル品質を損なうことなく,KVキャッシュの推論メモリ使用量を最大5倍に削減できることを確認した。 さらに,シッソルハンドと4ビット量子化を組み合わせることで,従来モデル重みを圧縮し,最大20倍の圧縮を実現することを実証した。

Large language models(LLMs) have sparked a new wave of exciting AI applications. Hosting these models at scale requires significant memory resources. One crucial memory bottleneck for the deployment stems from the context window. It is commonly recognized that model weights are memory hungry; however, the size of key-value embedding stored during the generation process (KV cache) can easily surpass the model size. The enormous size of the KV cache puts constraints on the inference batch size, which is crucial for high throughput inference workload. Inspired by an interesting observation of the attention scores, we hypothesize the persistence of importance: only pivotal tokens, which had a substantial influence at one step, will significantly influence future generations. Based on our empirical verification and theoretical analysis around this hypothesis, we propose Scissorhands, a system that maintains the memory usage of the KV cache at a fixed budget without finetuning the model. In essence, Scissorhands manages the KV cache by storing the pivotal tokens with a higher probability. We validate that Scissorhands reduces the inference memory usage of the KV cache by up to 5X without compromising model quality. We further demonstrate that Scissorhands can be combined with 4-bit quantization, traditionally used to compress model weights, to achieve up to 20X compression.
翻訳日:2023-08-30 18:06:03 公開日:2023-08-28
# 学習感覚戦略の理論的保証と時系列予測への応用

Theoretical Guarantees of Learning Ensembling Strategies with Applications to Time Series Forecasting ( http://arxiv.org/abs/2305.15786v3 )

ライセンス: Link先を確認
Hilaf Hasson, Danielle C. Maddix, Yuyang Wang, Gaurav Gupta, Youngsuk Park(参考訳) 機械学習(ML)では、分散を最小化し、一般化を改善する効果があるため、組み立ては最も一般的なツールである。 ブラックボックスベース学習者のためのほとんどのアンサンブル手法は、ベース学習者からの推論を入力として取り込むMLアルゴリズムを訓練する"スタック一般化"の傘の下に置かれる。 積み重ねは実際には広く適用されているが、理論的性質はよく分かっていない。 本稿では, クロスバリデード性能に基づく(有限あるいは有限次元の)重ね合わせ一般化系から, 最良の積み重ね一般化を選択すると, オラクルの最高値よりも「はるかに悪い」結果が得られないことを示す。 我々の結果は、van der laan et al. (2007) の結果を強化し、大幅に拡張する。 理論解析に着想を得て,確率的予測の文脈において,アンサンブル重みがどの程度異なるか,予測地平線におけるタイムスタンプ,および量子化に対して異なる感度を持つ,積み重ね一般化の特定のファミリーを提案する。 実験結果は,提案手法の性能向上を示す。

Ensembling is among the most popular tools in machine learning (ML) due to its effectiveness in minimizing variance and thus improving generalization. Most ensembling methods for black-box base learners fall under the umbrella of "stacked generalization," namely training an ML algorithm that takes the inferences from the base learners as input. While stacking has been widely applied in practice, its theoretical properties are poorly understood. In this paper, we prove a novel result, showing that choosing the best stacked generalization from a (finite or finite-dimensional) family of stacked generalizations based on cross-validated performance does not perform "much worse" than the oracle best. Our result strengthens and significantly extends the results in Van der Laan et al. (2007). Inspired by the theoretical analysis, we further propose a particular family of stacked generalizations in the context of probabilistic forecasting, each one with a different sensitivity for how much the ensemble weights are allowed to vary across items, timestamps in the forecast horizon, and quantiles. Experimental results demonstrate the performance gain of the proposed method.
翻訳日:2023-08-30 18:05:42 公開日:2023-08-28
# ソーシャルロボットナビゲーションアルゴリズムの評価のための原則とガイドライン

Principles and Guidelines for Evaluating Social Robot Navigation Algorithms ( http://arxiv.org/abs/2306.16740v3 )

ライセンス: Link先を確認
Anthony Francis (1), Claudia P\'erez-D'Arpino (2), Chengshu Li (3), Fei Xia (4), Alexandre Alahi (5), Rachid Alami (15), Aniket Bera (6), Abhijat Biswas (7), Joydeep Biswas (8), Rohan Chandra (8), Hao-Tien Lewis Chiang (4), Michael Everett (10), Sehoon Ha (11), Justin Hart (8), Jonathan P. How (9), Haresh Karnan (8), Tsang-Wei Edward Lee (4), Luis J. Manso (12), Reuth Mirksy (13), S\"oren Pirk (14), Phani Teja Singamaneni (15), Peter Stone (8,16), Ada V. Taylor (7), Peter Trautman (17), Nathan Tsoi (18), Marynel V\'azquez (18), Xuesu Xiao (19), Peng Xu (4), Naoki Yokoyama (11), Alexander Toshev (20), Roberto Mart\'in-Mart\'in (8) ((1) Logical Robotics, (2) NVIDIA, (3) Stanford, (4) Google, (5) EPFL, (6) Purdue, (7) CMU, (8) UT Austin, (9) MIT, (10) Northeastern, (11) Georgia Tech, (12) Aston, (13) Bar Ilan, (14) Adobe, (15) LAAS-CNRS, Universite de Toulouse, (16) Sony AI, (17) Honda, (18) Yale, (19) GMU, (20) Apple)(参考訳) ロボットを広く展開する上での最大の課題は、人間の居住環境におけるナビゲーションである。 社会ナビゲーションの分野は近年飛躍的に進歩しているが、静的な環境で動くロボットエージェントだけでなく、ダイナミックな人間エージェントや、ロボットの行動の適切性に対する認識を含むため、社会ナビゲーションに取り組むアルゴリズムの公正な評価は依然として難しいままである。 対照的に、明確で繰り返し可能なベンチマークは、コンピュータビジョン、自然言語処理、従来のロボットナビゲーションといった分野の進歩を加速し、研究者はアルゴリズムを公平に比較し、既存のソリューションの限界を明らかにし、将来有望な新しい方向性を示す。 同じアプローチがソーシャルナビゲーションに有効だと信じています。 本稿では,ソーシャルロボットのナビゲーションを評価するために,共通で広くアクセス可能な,反復可能なベンチマーク基準への道を開く。 私たちの貢献には (a)安全、快適、適性、礼儀正しさ、社会的能力、エージェントの理解、活動性、文脈に対する応答性の原則を尊重するものとしての社会的ナビゲーティングロボットの定義 (b)ソーシャルナビゲーションを評価するためのメトリクスの使用、シナリオの開発、ベンチマーク、データセット、シミュレータに関するガイドライン (c) 異なるシミュレータ、ロボット、データセットの結果の比較を容易にするソーシャルナビゲーションメトリクスフレームワークの設計。

A major challenge to deploying robots widely is navigation in human-populated environments, commonly referred to as social robot navigation. While the field of social navigation has advanced tremendously in recent years, the fair evaluation of algorithms that tackle social navigation remains hard because it involves not just robotic agents moving in static environments but also dynamic human agents and their perceptions of the appropriateness of robot behavior. In contrast, clear, repeatable, and accessible benchmarks have accelerated progress in fields like computer vision, natural language processing and traditional robot navigation by enabling researchers to fairly compare algorithms, revealing limitations of existing solutions and illuminating promising new directions. We believe the same approach can benefit social navigation. In this paper, we pave the road towards common, widely accessible, and repeatable benchmarking criteria to evaluate social robot navigation. Our contributions include (a) a definition of a socially navigating robot as one that respects the principles of safety, comfort, legibility, politeness, social competency, agent understanding, proactivity, and responsiveness to context, (b) guidelines for the use of metrics, development of scenarios, benchmarks, datasets, and simulators to evaluate social navigation, and (c) a design of a social navigation metrics framework to make it easier to compare results from different simulators, robots and datasets.
翻訳日:2023-08-30 17:59:48 公開日:2023-08-28
# DR-HAI:人間とAIの相互作用における調停に基づく弁証的和解

DR-HAI: Argumentation-based Dialectical Reconciliation in Human-AI Interactions ( http://arxiv.org/abs/2306.14694v2 )

ライセンス: Link先を確認
Stylianos Loukas Vasileiou, Ashwin Kumar, William Yeoh, Tran Cao Son, Francesca Toni(参考訳) DR-HAI(DR-HAI)は、人間とAIの相互作用を高めるために一般的に使用される、モデル和解アプローチの拡張を目的とした、新しい議論ベースのフレームワークである。 議論に基づく対話パラダイムを採用することで、DR-HAIは対話的な和解を可能にし、説明者と説明人の知識の相違に対処する。 DR-HAIの動作意味を正式に記述し、理論的保証を提供し、その有効性を実証的に評価する。 本研究は,DR-HAIが効果的な人間とAIの相互作用を促進する上で有望な方向性を示すことを示唆している。

We present DR-HAI -- a novel argumentation-based framework designed to extend model reconciliation approaches, commonly used in human-aware planning, for enhanced human-AI interaction. By adopting an argumentation-based dialogue paradigm, DR-HAI enables interactive reconciliation to address knowledge discrepancies between an explainer and an explainee. We formally describe the operational semantics of DR-HAI, provide theoretical guarantees, and empirically evaluate its efficacy. Our findings suggest that DR-HAI offers a promising direction for fostering effective human-AI interactions.
翻訳日:2023-08-30 17:59:25 公開日:2023-08-28
# アノテーションはいつ重要なのか? popquornデータセットを用いたアノテータ集団の影響測定

When Do Annotator Demographics Matter? Measuring the Influence of Annotator Demographics with the POPQUORN Dataset ( http://arxiv.org/abs/2306.06826v2 )

ライセンス: Link先を確認
Jiaxin Pei and David Jurgens(参考訳) 注釈は役に立たない。 彼らの人口統計、生活経験、背景はすべて、データのラベル付けに寄与している。 しかしながら、NLPは、アノテーションのアイデンティティが彼らの決定にどのように影響するかを最近だけ検討している。 本稿では, POPQUORN(QUestion-Answering, Offensiveness, text Rewriting, politeness rating with demographic Nuance)を提案する。 POPQUORNには1,484人のアノテーションからの45,000のアノテーションが含まれている。 一連の分析を通じて,注釈者の背景が判断において重要な役割を担っていることを示す。 さらに、NLP(例えば、教育)ではこれまで考慮されていなかった背景が有意義であり、考慮すべきであることを示す。 本研究では,アノテータの背景を理解し,集団的バランスのとれた集団労働者のプールからラベルを収集することが,データセットのバイアスを軽減する上で重要であることを示唆する。 データセット、アノテーションの背景、アノテーションのインターフェースはhttps://github.com/Jiaxin-Pei/potato-prolific-dataset で利用可能だ。

Annotators are not fungible. Their demographics, life experiences, and backgrounds all contribute to how they label data. However, NLP has only recently considered how annotator identity might influence their decisions. Here, we present POPQUORN (the POtato-Prolific dataset for QUestion-Answering, Offensiveness, text Rewriting, and politeness rating with demographic Nuance). POPQUORN contains 45,000 annotations from 1,484 annotators, drawn from a representative sample regarding sex, age, and race as the US population. Through a series of analyses, we show that annotators' background plays a significant role in their judgments. Further, our work shows that backgrounds not previously considered in NLP (e.g., education), are meaningful and should be considered. Our study suggests that understanding the background of annotators and collecting labels from a demographically balanced pool of crowd workers is important to reduce the bias of datasets. The dataset, annotator background, and annotation interface are available at https://github.com/Jiaxin-Pei/potato-prolific-dataset .
翻訳日:2023-08-30 17:57:20 公開日:2023-08-28
# 提案はいつ提示するか? AI支援プログラミングにおけるヒューマンフィードバックの統合

When to Show a Suggestion? Integrating Human Feedback in AI-Assisted Programming ( http://arxiv.org/abs/2306.04930v2 )

ライセンス: Link先を確認
Hussein Mozannar, Gagan Bansal, Adam Fourney, Eric Horvitz(参考訳) CopilotやCodeWhispererといったAIによるコード推奨システムは、プログラマの環境(IDEなど)内で、生産性の向上を目的としたコード提案を提供する。 これらのシナリオでは、プログラマは提案を受け入れ拒否するので、理想的には、そのようなシステムは、この目標をさらに進めるためにこのフィードバックを使うべきである。 本研究では,数百万人のプログラマが使用するシステムであるgithub copilotと対話するプログラマの事前データを活用して,プログラマの時間を節約するための介入を開発する。 我々は,プログラマとのインタラクションをモデル化し,どの提案を表示するかを決定するユーティリティ理論フレームワークを提案する。 本フレームワークでは,提案の受理を予測し,提案を選択的に隠蔽し,遅延時間とプログラマの検証時間を短縮する手法を,CDHF(Conditional Proposal Display from Human Feedback)と呼ぶ。 535人のプログラマによるデータを用いて、CDHFの振り返り評価を行い、提案自体の完全な知識を使わずに拒否されたであろう提案のかなりの部分を表示できないことを示す。 さらに,ユーザの学習データに基づく提案をいつ提示するか決定する上で,プログラマの潜伏状態を統合することの重要性を示す。 最後に,提案を報奨信号として使用することで,提示すべき提案が予期しない落とし穴を示す品質提案の低減につながることを示す。

AI powered code-recommendation systems, such as Copilot and CodeWhisperer, provide code suggestions inside a programmer's environment (e.g., an IDE) with the aim to improve their productivity. Since, in these scenarios, programmers accept and reject suggestions, ideally, such a system should use this feedback in furtherance of this goal. In this work, we leverage prior data of programmers interacting with GitHub Copilot, a system used by millions of programmers, to develop interventions that can save programmer time. We propose a utility theory framework, which models this interaction with programmers and decides which suggestions to display. Our framework Conditional suggestion Display from Human Feedback (CDHF), relies on a cascade of models that predict suggestion acceptance to selectively hide suggestions reducing both latency and programmer verification time. Using data from 535 programmers, we perform a retrospective evaluation of CDHF and show that we can avoid displaying a significant fraction of suggestions that would have been rejected doing so without total knowledge of the suggestions themselves. We further demonstrate the importance of incorporating the programmer's latent unobserved state in deciding when to display suggestions through ablations on user study data. Finally, we showcase that using suggestion acceptance as a reward signal to know which suggestions to display leads to reduced quality suggestions indicating an unexpected pitfall.
翻訳日:2023-08-30 17:57:02 公開日:2023-08-28
# ドローンを用いた交通監視のための軌道ポアソン・マルチバーヌーリ混合フィルタ

Trajectory Poisson multi-Bernoulli mixture filter for traffic monitoring using a drone ( http://arxiv.org/abs/2306.16890v2 )

ライセンス: Link先を確認
\'Angel F. Garc\'ia-Fern\'andez and Jimin Xiao(参考訳) 本稿では,光・熱カメラ搭載ドローンを用いた交通監視のためのマルチオブジェクトトラッキング(mot)アルゴリズムを提案する。 画像上の物体検出は、カメラの種類ごとにニューラルネットワークを用いて行われる。 カメラは方向方向センサ(DOA)としてモデル化されている。 各DOA検出は、地上の車両位置をカメラに投影することで平均方向を求めるvon-Mises Fisher分布に従う。 次に、ベイズMOTアルゴリズムであるPoisson multi-Bernoulli mix filter (TPMBM)を用いて、車両軌道の集合を最適に推定する。 また,測定モデルのためのパラメータ推定アルゴリズムを開発した。 合成および実験データセットにおけるTPMBMフィルタの精度を検証した。

This paper proposes a multi-object tracking (MOT) algorithm for traffic monitoring using a drone equipped with optical and thermal cameras. Object detections on the images are obtained using a neural network for each type of camera. The cameras are modelled as direction-of-arrival (DOA) sensors. Each DOA detection follows a von-Mises Fisher distribution, whose mean direction is obtain by projecting a vehicle position on the ground to the camera. We then use the trajectory Poisson multi-Bernoulli mixture filter (TPMBM), which is a Bayesian MOT algorithm, to optimally estimate the set of vehicle trajectories. We have also developed a parameter estimation algorithm for the measurement model. We have tested the accuracy of the resulting TPMBM filter in synthetic and experimental data sets.
翻訳日:2023-08-30 17:45:57 公開日:2023-08-28
# 空間的に変化するナノフォトニクスニューラルネットワーク

Spatially Varying Nanophotonic Neural Networks ( http://arxiv.org/abs/2308.03407v2 )

ライセンス: Link先を確認
Kaixuan Wei, Xiao Li, Johannes Froech, Praneeth Chakravarthula, James Whitehead, Ethan Tseng, Arka Majumdar, Felix Heide(参考訳) 人工知能の爆発的な成長とエネルギーコストは、従来の電子プロセッサに代わる潜在的な選択肢として、新しいコンピューティングモードへの強い関心を喚起した。 電子の代わりに光子を使って演算を行うフォトニックプロセッサは、超低レイテンシと消費電力で光ニューラルネットワークを実現することを約束している。 しかし、基礎となるネットワーク設計によって制限された既存の光学ニューラルネットワークは、最先端の電子ニューラルネットワークよりも画像認識精度がはるかに低い。 本研究では,低次元再パラメータ化技術を用いて学習した大カーネル空間変動畳み込みニューラルネットワークを導入することにより,このギャップを埋める。 我々は,平面型メタ光学系を用いて,角度依存応答を誘導するナノフォトニック構造を含むネットワークを実験的にインスタンス化する。 約2kパラメータを持つ非常に軽量な電子バックエンドと組み合わせて、ナノフォトニクスニューラルネットワークがcifar-10データセット上で73.80\%のブラインドテスト分類精度に達することを実証し、初めて、光ニューラルネットワークが、57mパラメータを持つ最初の現代的なデジタルニューラルネットワーク -- alexnet (72.64\%) よりも優れ、現代のディープラーニング時代に光ニューラルネットワークをもたらすことを示した。

The explosive growth of computation and energy cost of artificial intelligence has spurred strong interests in new computing modalities as potential alternatives to conventional electronic processors. Photonic processors that execute operations using photons instead of electrons, have promised to enable optical neural networks with ultra-low latency and power consumption. However, existing optical neural networks, limited by the underlying network designs, have achieved image recognition accuracy much lower than state-of-the-art electronic neural networks. In this work, we close this gap by introducing a large-kernel spatially-varying convolutional neural network learned via low-dimensional reparameterization techniques. We experimentally instantiate the network with a flat meta-optical system that encompasses an array of nanophotonic structures designed to induce angle-dependent responses. Combined with an extremely lightweight electronic backend with approximately 2K parameters we demonstrate a nanophotonic neural network reaches 73.80\% blind test classification accuracy on CIFAR-10 dataset, and, as such, the first time, an optical neural network outperforms the first modern digital neural network -- AlexNet (72.64\%) with 57M parameters, bringing optical neural network into modern deep learning era.
翻訳日:2023-08-30 17:38:27 公開日:2023-08-28
# MixNet: 野生における混在するシーンテキストの正確な検出に向けて

MixNet: Toward Accurate Detection of Challenging Scene Text in the Wild ( http://arxiv.org/abs/2308.12817v2 )

ライセンス: Link先を確認
Yu-Xiang Zeng, Jun-Wei Hsieh, Xin Li, Ming-Ching Chang(参考訳) 不規則な位置と非理想の照明の影響が検出エラーにつながる場合、野生の小さなシーンのテキストインスタンスを検出することは特に難しい。 本研究では,cnnとトランスフォーマーの強みを組み合わせたハイブリッドアーキテクチャであるmixnetを提案する。 mixnetには、(1)バックボーンとして機能するフィーチャーシャッフルネットワーク(fsnet)、(2)シーンテキストの1次元多様体制約を利用するために中央トランスフォーマーブロック(ctblock)の2つのキーモジュールが含まれている。 まず、FSNetで新機能シャッフル戦略を導入し、複数のスケールにわたる機能の交換を容易にし、人気のあるResNetやHRNetよりも優れた高解像度機能を生成する。 fsnet backboneは、pan、db、fastなど、既存の多くのテキスト検出方法を大幅に改善した。 次に,テキスト領域の内側軸に類似した中心線に基づく特徴を活用すべく,補助的なctブロックを設計し,小さなシーンテキストが密に現れる場合において,輪郭ベースのアプローチに勝ることを示す。 FSNetとCTBlockを混合したMixNetは,複数のシーンテキスト検出データセットに対して最先端の結果が得られた。

Detecting small scene text instances in the wild is particularly challenging, where the influence of irregular positions and nonideal lighting often leads to detection errors. We present MixNet, a hybrid architecture that combines the strengths of CNNs and Transformers, capable of accurately detecting small text from challenging natural scenes, regardless of the orientations, styles, and lighting conditions. MixNet incorporates two key modules: (1) the Feature Shuffle Network (FSNet) to serve as the backbone and (2) the Central Transformer Block (CTBlock) to exploit the 1D manifold constraint of the scene text. We first introduce a novel feature shuffling strategy in FSNet to facilitate the exchange of features across multiple scales, generating high-resolution features superior to popular ResNet and HRNet. The FSNet backbone has achieved significant improvements over many existing text detection methods, including PAN, DB, and FAST. Then we design a complementary CTBlock to leverage center line based features similar to the medial axis of text regions and show that it can outperform contour-based approaches in challenging cases when small scene texts appear closely. Extensive experimental results show that MixNet, which mixes FSNet with CTBlock, achieves state-of-the-art results on multiple scene text detection datasets.
翻訳日:2023-08-30 17:28:55 公開日:2023-08-28
# 差分プライバシー下で表型データセットを生成する

Generating tabular datasets under differential privacy ( http://arxiv.org/abs/2308.14784v1 )

ライセンス: Link先を確認
Gianluca Truda(参考訳) 機械学習(ML)は、分野や業界全体の進歩を加速しているが、アクセス可能で高品質なトレーニングデータに依存している。 最も重要なデータセットのいくつかは、スプレッドシートとリレーショナルデータベースの形式で、バイオメディカルおよびファイナンシャルドメインで見つかる。 しかし、この表データはしばしば自然に敏感である。 合成データ生成は、機密データをアンロックする可能性を提供しますが、生成モデルはトレーニングデータを記憶し、取り消しがちです。 これを改善するために、研究者はディープニューラルネットワークのトレーニングプロセスに微分プライバシー(DP)の数学的フレームワークを組み込んだ。 しかしこれは、結果データの品質とプライバシの間にトレードオフをもたらす。 generative adversarial networks (gans) はdp下での表データ合成の主要なパラダイムであるが、プライバシの制約や表データモダリティへの挑戦によって悪化する不安定な逆境トレーニングとモード崩壊に苦しむ。 この作業は生成モデルのクオリティプライバシーのトレードオフを最適化し、同じプライバシ保証で高品質な表型データセットを生成する。 注意機構を利用して可逆な表象表現を学習する新しいエンドツーエンドモデルを実装した。 また,表データ合成のための最初の微分プライベート拡散モデルである tablediffusion も紹介する。 実験により、TableDiffusionは高忠実な合成データセットを生成し、モード崩壊問題を避け、プライベートな表データ合成における最先端の性能を実現する。 追加ノイズを予測するためにtablediffusionを実装したことにより,混合型表データ再構成の課題を回避できた。 全体として、拡散パラダイムは、各データバッチのさらなる再利用とよりスムーズな反復的トレーニングプロセスにより、敵パラダイムよりもはるかにデータとプライバシの効率を証明します。

Machine Learning (ML) is accelerating progress across fields and industries, but relies on accessible and high-quality training data. Some of the most important datasets are found in biomedical and financial domains in the form of spreadsheets and relational databases. But this tabular data is often sensitive in nature. Synthetic data generation offers the potential to unlock sensitive data, but generative models tend to memorise and regurgitate training data, which undermines the privacy goal. To remedy this, researchers have incorporated the mathematical framework of Differential Privacy (DP) into the training process of deep neural networks. But this creates a trade-off between the quality and privacy of the resulting data. Generative Adversarial Networks (GANs) are the dominant paradigm for synthesising tabular data under DP, but suffer from unstable adversarial training and mode collapse, which are exacerbated by the privacy constraints and challenging tabular data modality. This work optimises the quality-privacy trade-off of generative models, producing higher quality tabular datasets with the same privacy guarantees. We implement novel end-to-end models that leverage attention mechanisms to learn reversible tabular representations. We also introduce TableDiffusion, the first differentially-private diffusion model for tabular data synthesis. Our experiments show that TableDiffusion produces higher-fidelity synthetic datasets, avoids the mode collapse problem, and achieves state-of-the-art performance on privatised tabular data synthesis. By implementing TableDiffusion to predict the added noise, we enabled it to bypass the challenges of reconstructing mixed-type tabular data. Overall, the diffusion paradigm proves vastly more data and privacy efficient than the adversarial paradigm, due to augmented re-use of each data batch and a smoother iterative training process.
翻訳日:2023-08-30 17:20:14 公開日:2023-08-28
# 一般木ネットワーク上の不均衡データによる分散デュアルコーディネート上昇

Distributed Dual Coordinate Ascent with Imbalanced Data on a General Tree Network ( http://arxiv.org/abs/2308.14783v1 )

ライセンス: Link先を確認
Myung Cho, Lifeng Lai, Weiyu Xu(参考訳) 本稿では,分散機械学習における経験的損失最小化問題を解決するために,木ネットワークにおける分散二座標上昇の収束に及ぼす不均衡データの影響について検討する。 この問題に対処するために,不均衡なデータの情報を考慮し,遅延一般化分散二元座標法という手法を提案し,提案アルゴリズムの解析を行った。 数値実験により,木ネットワークにおける分散二座標上昇の収束速度向上における提案手法の有効性を確認した。

In this paper, we investigate the impact of imbalanced data on the convergence of distributed dual coordinate ascent in a tree network for solving an empirical loss minimization problem in distributed machine learning. To address this issue, we propose a method called delayed generalized distributed dual coordinate ascent that takes into account the information of the imbalanced data, and provide the analysis of the proposed algorithm. Numerical experiments confirm the effectiveness of our proposed method in improving the convergence speed of distributed dual coordinate ascent in a tree network.
翻訳日:2023-08-30 17:19:43 公開日:2023-08-28
# Fact-Checkersは、WhatsApp上の画像でシェアされたフェイクニュースを識別する

Helping Fact-Checkers Identify Fake News Stories Shared through Images on WhatsApp ( http://arxiv.org/abs/2308.14782v1 )

ライセンス: Link先を確認
Julio C. S. Reis, Philipe Melo, Fabiano Bel\'em, Fabricio Murai, Jussara M. Almeida, Fabricio Benevenuto(参考訳) whatsappは、スマートフォンユーザーがニュースに関わり、広めるための新しい方法を導入した。 興味に基づくグループを作り、コンテンツをシームレスに共有する便利さによって、WhatsAppは誤情報キャンペーンの悪用を受けやすい。 事実確認のプロセスは、偽ニュースを識別するための強力なツールであり続けているが、その効果は、今日インターネット上で発生した前例のない情報不足に直面している。 本研究では,WhatsApp上の画像から共有される偽ニュースを事実確認する手段として,自動ランキングベースの「偽スコア」モデルを提案する。 その結果をもとに,2018年のブラジル総選挙において,コンテンツを広範囲に監視するためのツールを設計し,実システムに統合した。 実験により,本ツールは,事実確認機関が実施しているニュース記事選択のメカニズムと比較して,データ中の偽ニュースの80%を識別するのに要する労力を最大40%削減できることが示された。

WhatsApp has introduced a novel avenue for smartphone users to engage with and disseminate news stories. The convenience of forming interest-based groups and seamlessly sharing content has rendered WhatsApp susceptible to the exploitation of misinformation campaigns. While the process of fact-checking remains a potent tool in identifying fabricated news, its efficacy falters in the face of the unprecedented deluge of information generated on the Internet today. In this work, we explore automatic ranking-based strategies to propose a "fakeness score" model as a means to help fact-checking agencies identify fake news stories shared through images on WhatsApp. Based on the results, we design a tool and integrate it into a real system that has been used extensively for monitoring content during the 2018 Brazilian general election. Our experimental evaluation shows that this tool can reduce by up to 40% the amount of effort required to identify 80% of the fake news in the data when compared to current mechanisms practiced by the fact-checking agencies for the selection of news stories to be checked.
翻訳日:2023-08-30 17:19:34 公開日:2023-08-28
# コンフリクトアウェアアクティブオートマトン学習

Conflict-Aware Active Automata Learning ( http://arxiv.org/abs/2308.14781v1 )

ライセンス: Link先を確認
Tiago Ferreira, L\'eo Henry, Raquel Fernandes da Silva and Alexandra Silva(参考訳) アクティブオートマチック学習アルゴリズムは、観測データ(同じ入力で観測される異なる出力)において、容易に \emph{conflict} を処理できない。 紛争後に回復できないこの本質的な障害は、ノイズが存在する場合や学習中のシステムが変化している場合において、効果的な適用性を損なう。 本稿では,学習過程において矛盾する情報を扱えるように,C3AL(Conflict-Aware Active Automata Learning)フレームワークを提案する。 中心となるアイデアは、いわゆる観察木を学習プロセスの第一級市民とみなすことである。 このアイデアは最近の研究で検討されているが、既存の学習者との使用を可能にするとともに、特に対立に直面したシステム上で実施されるテストの数を最小化することで、その効果を最大限に活用する。 我々はC3ALを大規模なベンチマークで評価し、30以上の現実的なターゲットと18,000以上のシナリオをカバーした。 評価の結果、C3ALはノイズや突然変異を処理し、18,000以上の異なるシナリオを扱えるクローズドボックス学習に適したフレームワークであることが示された。 評価の結果、C3ALはノイズや突然変異をよりよく扱えるクローズドボックス学習に適したフレームワークであることがわかった。

Active automata learning algorithms cannot easily handle \emph{conflict} in the observation data (different outputs observed for the same inputs). This inherent inability to recover after a conflict impairs their effective applicability in scenarios where noise is present or the system under learning is mutating. We propose the Conflict-Aware Active Automata Learning (C3AL) framework to enable handling conflicting information during the learning process. The core idea is to consider the so-called observation tree as a first-class citizen in the learning process. Though this idea is explored in recent work, we take it to its full effect by enabling its use with any existing learner and minimizing the number of tests performed on the system under learning, specially in the face of conflicts. We evaluate C3AL in a large set of benchmarks, covering over 30 different realistic targets, and over 18,000 different scenarios. The results of the evaluation show that C3AL is a suitable alternative framework for closed-box learning that can better handle noise and mutations.targets, and over 18,000 different scenarios. The results of the evaluation show that C3AL is a suitable alternative framework for closed-box learning that can better handle noise and mutations.
翻訳日:2023-08-30 17:19:16 公開日:2023-08-28
# 高出力プラスチックキャラクタリゼーションのためのハイパースペクトル画像のシステム化

Systematic reduction of Hyperspectral Images for high-throughput Plastic Characterization ( http://arxiv.org/abs/2308.14776v1 )

ライセンス: Link先を確認
Mahdiyeh Ghaffari, Mickey C. J. Lukkien, Nematollah Omidikia, Gerjen H. Tinnevelt, Marcel C. P. van Eijk, Jeroen J. Jansen(参考訳) ハイパースペクトルイメージング(HSI)は、顕微鏡と分光法を組み合わせて、物体中の分光活性化合物の空間分布を評価し、食品の品質管理、医薬品の処理、廃棄物の選別に様々な応用がある。 しかしながら,hsiデータセットの規模が大きいため,特に速度やデータストレージ資源が限られている廃棄物ソートにおいて,合理的なディジタルインフラストラクチャ内で分析・保存することが困難である。 さらに、多くの分光データと同様に、大きな冗長性があり、化学情報の保持にピクセルと可変選択が不可欠である。 近年のケモメトリックスにおけるハイテクの発展は、hsiデータの化学分解法として広く使われている非負行列分解法(nmf)の速度と性能を大幅に向上できる、自動的かつ証拠ベースのデータ削減を可能にする。 分散化合物の純寄与マップとスペクトルプロファイルを復元することにより、NMFは効率的な廃棄物処理のためのエビデンスベースの選別決定を提供することができる。 ハイパースペクトルイメージング(HSI)データにおけるデータ解析の質と効率を改善するため,本質的な画素や波長を選択するために凸ハル法を適用し,不定形・冗長な情報を除去する。 このプロセスは計算ひずみを最小化し、高い混合画素を効果的に除去する。 データ冗長性を減らすことで、プラスチックソートのためのシミュレーションデータと実際のHSIデータの両方で示されるように、データ調査と分析がより簡単になる。

Hyperspectral Imaging (HSI) combines microscopy and spectroscopy to assess the spatial distribution of spectroscopically active compounds in objects, and has diverse applications in food quality control, pharmaceutical processes, and waste sorting. However, due to the large size of HSI datasets, it can be challenging to analyze and store them within a reasonable digital infrastructure, especially in waste sorting where speed and data storage resources are limited. Additionally, as with most spectroscopic data, there is significant redundancy, making pixel and variable selection crucial for retaining chemical information. Recent high-tech developments in chemometrics enable automated and evidence-based data reduction, which can substantially enhance the speed and performance of Non-Negative Matrix Factorization (NMF), a widely used algorithm for chemical resolution of HSI data. By recovering the pure contribution maps and spectral profiles of distributed compounds, NMF can provide evidence-based sorting decisions for efficient waste management. To improve the quality and efficiency of data analysis on hyperspectral imaging (HSI) data, we apply a convex-hull method to select essential pixels and wavelengths and remove uninformative and redundant information. This process minimizes computational strain and effectively eliminates highly mixed pixels. By reducing data redundancy, data investigation and analysis become more straightforward, as demonstrated in both simulated and real HSI data for plastic sorting.
翻訳日:2023-08-30 17:18:53 公開日:2023-08-28
# 光ハーベスティング効率は配向秩序のない光コヒーレンスに依存しない

Light-harvesting efficiency cannot depend on optical coherence in the absence of orientational order ( http://arxiv.org/abs/2308.14771v1 )

ライセンス: Link先を確認
Dominic M Rouse, Adesh Kushwaha, Stefano Tomasi, Brendon W Lovett, Erik M Gauger, Ivan Kassal(参考訳) 光のコヒーレンスは、光ハーベッティング効率を高めるための量子力学的制御として提案されている。 特に、光の偏光状態またはスペクトル位相を変更して光コヒーレンスを操作することができる。 弱光では、任意の光コヒーレンスを用いた光修復効率の制御は、全ての分子光修復系では不可能であり、より広い意味では、一定の配向順序を欠き、超高速よりも長い時間スケールで動作する弱相互作用サブユニットから構成される。 これらの条件下では、光コヒーレンスは光ハーベスティング効率に影響を与えず、制御の形式として使用することはできない。 特に、偏光状態による制御は、乱れた試料や光ハーベスティングの時間スケールで再配向した分子で失われ、効率が光のコヒーレンス時間よりも長く平均化されているときにスペクトル位相による制御が失われる。 実際には、効率は常に長い時間にわたって平均化されるため、配向次数を持つ系の偏光によってのみコヒーレントな光制御が可能となる。

The coherence of light has been proposed as a quantum-mechanical control to enhance light-harvesting efficiency. In particular, optical coherence can be manipulated by changing either the polarization state or spectral phase of the illuminating light. Here, we show that, in weak light, controlling the light-harvesting efficiency using any form of optical coherence is impossible in all molecular light-harvesting systems and, more broadly, those composed of weakly interacting sub-units which lack fixed orientational order and operate on longer-than-ultrafast timescales. Under those conditions, optical coherence does not affect light-harvesting efficiency, meaning that it cannot be used as a form of control. In particular, control through the polarization state is lost in disordered samples or when the molecules reorient on the timescales of the light-harvesting, and control through the spectral phase is lost when the efficiency is time-averaged for longer than the coherence time of the light. In practice, efficiency is always averaged over long times, meaning that coherent optical control is only possible through polarisation in systems with orientational order.
翻訳日:2023-08-30 17:18:29 公開日:2023-08-28
# XVir: がんサンプルからウイルスの読みを識別するトランスフォーマーベースのアーキテクチャ

XVir: A Transformer-Based Architecture for Identifying Viral Reads from Cancer Samples ( http://arxiv.org/abs/2308.14769v1 )

ライセンス: Link先を確認
Shorya Consul, John Robertson, Haris Vikalo(参考訳) 世界のがんの約15%はウイルス感染と関連していると推定されている。 ヒトパピローマウイルス、b型肝炎ウイルス、c型肝炎ウイルス、エプスタイン・バールウイルス、ヒト免疫不全ウイルスなど、がんのリスクを惹起または増加させるウイルスがいくつかある。 近年のシークエンシング技術の進歩によって収集された大量の腫瘍DNAデータの計算分析により、がんとウイルス病原体の潜在的な関連についての研究が可能となった。 しかし、oncoviral familyの多様性が高いため、信頼できるウイルスdnaの検出は困難であり、このような分析は困難である。 本稿では,人間の腫瘍に存在するウイルスdnaを確実に同定するトランスフォーマーベースのディープラーニングアーキテクチャを活用したデータパイプラインであるxvirを紹介する。 特に、XVirは、ウイルスおよびヒトゲノムからのゲノムシークエンシングを訓練しており、ヒト癌におけるウイルスDNAの証拠を見つけるために、腫瘍の配列情報と共に使用されることがある。 半実験データの結果、XVirは高い検出精度を達成でき、一般に最先端の競合手法より優れ、よりコンパクトで計算量も少ない。

It is estimated that approximately 15% of cancers worldwide can be linked to viral infections. The viruses that can cause or increase the risk of cancer include human papillomavirus, hepatitis B and C viruses, Epstein-Barr virus, and human immunodeficiency virus, to name a few. The computational analysis of the massive amounts of tumor DNA data, whose collection is enabled by the recent advancements in sequencing technologies, have allowed studies of the potential association between cancers and viral pathogens. However, the high diversity of oncoviral families makes reliable detection of viral DNA difficult and thus, renders such analysis challenging. In this paper, we introduce XVir, a data pipeline that relies on a transformer-based deep learning architecture to reliably identify viral DNA present in human tumors. In particular, XVir is trained on genomic sequencing reads from viral and human genomes and may be used with tumor sequence information to find evidence of viral DNA in human cancers. Results on semi-experimental data demonstrate that XVir is capable of achieving high detection accuracy, generally outperforming state-of-the-art competing methods while being more compact and less computationally demanding.
翻訳日:2023-08-30 17:18:03 公開日:2023-08-28
# Interstate-24 3D Dataset: 3Dマルチカメラ車両追跡のための新しいベンチマーク

The Interstate-24 3D Dataset: a new benchmark for 3D multi-camera vehicle tracking ( http://arxiv.org/abs/2308.14833v1 )

ライセンス: Link先を確認
Derek Gloudemans, Yanbing Wang, Gracie Gumm, William Barbour, Daniel B. Work(参考訳) 本研究は,道路交通カメラの重なり合う都市州間高速道路に沿って記録された新しい映像データセットを提示し,交通監視状況下でのマルチカメラ3Dオブジェクト追跡を可能にする。 データは、少なくとも16台のカメラのビデオを含む3つのシーンから解放され、合計で57分である。 877,000の3dバウンディングボックスと対応するオブジェクトトラックレットは、カメラの視野ごとに完全に正確に注釈付けされ、各シーンの空間的および時間的連続的な車両軌跡に合成される。 最後に、既存のアルゴリズムを組み合わせることで、データセット上の複数の3dマルチカメラトラッキングパイプラインをベンチマークし、結果として、トラフィックの混雑時に、カメラを横断する高速で移動するオブジェクトと、数百フレームの可能性のある重いオブジェクトのオクルージョンとのマッチングが困難であることから、データセットが困難であることが示される。 本研究の目的は、自動運転車技術が交通の安全と効率に与える影響を理解する上で重要な役割を果たす、正確かつ自動的な車両軌道抽出アルゴリズムの開発を可能にすることである。

This work presents a novel video dataset recorded from overlapping highway traffic cameras along an urban interstate, enabling multi-camera 3D object tracking in a traffic monitoring context. Data is released from 3 scenes containing video from at least 16 cameras each, totaling 57 minutes in length. 877,000 3D bounding boxes and corresponding object tracklets are fully and accurately annotated for each camera field of view and are combined into a spatially and temporally continuous set of vehicle trajectories for each scene. Lastly, existing algorithms are combined to benchmark a number of 3D multi-camera tracking pipelines on the dataset, with results indicating that the dataset is challenging due to the difficulty of matching objects traveling at high speeds across cameras and heavy object occlusion, potentially for hundreds of frames, during congested traffic. This work aims to enable the development of accurate and automatic vehicle trajectory extraction algorithms, which will play a vital role in understanding impacts of autonomous vehicle technologies on the safety and efficiency of traffic.
翻訳日:2023-08-30 17:09:52 公開日:2023-08-28
# ダイナミックスパーストレーニングによる連続学習:効果的なモデル更新のための探索アルゴリズム

Continual Learning with Dynamic Sparse Training: Exploring Algorithms for Effective Model Updates ( http://arxiv.org/abs/2308.14831v1 )

ライセンス: Link先を確認
Murat Onur Yildirim, Elif Ceren Gok Yildirim, Ghada Sokar, Decebal Constantin Mocanu, Joaquin Vanschoren(参考訳) 連続学習(continual learning, cl)とは、インテリジェントなシステムが、計算オーバーヘッドの少ないデータストリームから知識をシーケンシャルに取得し、保持する能力を指す。 この目的のために、正規化、リプレイ、アーキテクチャ、パラメータ分離アプローチが文献に紹介された。 スパースネットワークを使用してパラメータを分離することで、ニューラルネットワークの異なる部分を異なるタスクに割り当てると同時に、類似点がある場合のタスク間のパラメータの共有も可能になる。 ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、これらのスパースネットワークを見つけ、タスクごとに分離する方法である。 本論文は,CLパラダイムの下で異なるDST成分が重要な研究ギャップを埋める上で,CLに対するDSTの最適構成に光が及ぼす影響について,最初の実証的研究である。 そこで,我々はマスク選択のプロセスではなく,様々なdst基準の性能評価を主な目的とし,タスクインクリメンタルなcl設定において,cifar100やminiimagenetベンチマークにおいてタスク毎の最適なトポロジーを求めるため,様々なdstコンポーネントを調査した。 低空間レベルでは、Erdos-Renyi Kernel(ERK)初期化はバックボーンをより効率的に利用し、タスクの増分を効果的に学習できるようにする。 しかし、高い疎度レベルでは、均一な初期化はより信頼性が高く堅牢な性能を示す。 成長戦略の観点では、パフォーマンスは定義された初期化戦略とスパーシティの程度に依存する。 最後に、DSTコンポーネント内の適応性は、継続的な学習者にとって有望な方法である。

Continual learning (CL) refers to the ability of an intelligent system to sequentially acquire and retain knowledge from a stream of data with as little computational overhead as possible. To this end; regularization, replay, architecture, and parameter isolation approaches were introduced to the literature. Parameter isolation using a sparse network which enables to allocate distinct parts of the neural network to different tasks and also allows to share of parameters between tasks if they are similar. Dynamic Sparse Training (DST) is a prominent way to find these sparse networks and isolate them for each task. This paper is the first empirical study investigating the effect of different DST components under the CL paradigm to fill a critical research gap and shed light on the optimal configuration of DST for CL if it exists. Therefore, we perform a comprehensive study in which we investigate various DST components to find the best topology per task on well-known CIFAR100 and miniImageNet benchmarks in a task-incremental CL setup since our primary focus is to evaluate the performance of various DST criteria, rather than the process of mask selection. We found that, at a low sparsity level, Erdos-Renyi Kernel (ERK) initialization utilizes the backbone more efficiently and allows to effectively learn increments of tasks. At a high sparsity level, however, uniform initialization demonstrates more reliable and robust performance. In terms of growth strategy; performance is dependent on the defined initialization strategy, and the extent of sparsity. Finally, adaptivity within DST components is a promising way for better continual learners.
翻訳日:2023-08-30 17:09:31 公開日:2023-08-28
# 量子化減衰トランスバーサル単一粒子波

Quantized damped transversal single particle mechanical waves ( http://arxiv.org/abs/2308.14820v1 )

ライセンス: Link先を確認
Ferenc M\'arkus, Katalin Gamb\'ar(参考訳) 情報伝達において、信号の消散は重要な意味を持つ。 歪んだ信号を再構成する可能性もこれに依存する。 そのため、量子化された散逸性単一粒子機械波の研究は重要な役割を果たす可能性がある。 これは、特に信号の歪み、損失、または回復の場合のナノスケールにおいて正しいかもしれない。 減衰振動子量子記述に基づいて, 横波の正準量子化手順を一般化する。 さらに,関連する減衰波動方程式と状態関数を推定する。 我々は波動方程式の2種類の解を指摘した。 一つは、情報の喪失が完了した振動に重なるよく知られた拡散解である。 もう1つはエアリー関数解であり、これは非拡散であり、振動減衰による情報損失がある。 しかし、波面の構造は変わっていない。 これにより、失われた情報を復元する上で重要な信号再構成が可能になる。

In information transfer, the dissipation of a signal may have crucial importance. The feasibility of reconstructing the distorted signal also depends on this. That is why the study of quantized dissipative transversal single particle mechanical waves may have an important role. It may be true, particularly on the nanoscale in the case of signal distortion, loss, or restoration. Based on the damped oscillator quantum description, we generalize the canonical quantization procedure for the transversal waves. Furthermore, we deduce the related damped wave equation and the state function. We point out the two kinds of solutions of the wave equation. One involves the well-known spreading solution superposed with the oscillation, in which the loss of information is complete. The other is the Airy function solution, which is non-spreading, so there is information loss only due to oscillation damping. However, the structure of the wavefront remains unchanged. Thus, this result allows signal reconstruction, which is important in restoring the lost information.
翻訳日:2023-08-30 17:09:02 公開日:2023-08-28
# 双対化問題を解決する多項式量子計算アルゴリズム

A polynomial quantum computing algorithm for solving the dualization problem ( http://arxiv.org/abs/2308.14819v1 )

ライセンス: Link先を確認
Mauro Mezzini, Fernando Cuartero Gomez, Fernando Pelayo, Jose Javier Paulet Gonzales, Hernan Indibil de la Cruz Calvo, Vicente Pascual(参考訳) 2つの素単調ブール関数 $f:\{0,1\}^n \to \{0,1\}$ と $g:\{0,1\}^n \to \{0,1\}$ が$f$の双対であるかどうか、すなわち$f(x_1, \dots, x_n)= \overline{g}(\overline{x_1}, \dots \overline{x_n})$ がすべての$(x_1, \dots x_n) \in \{0,1\}^n$ に対して成り立つ。 2つの単調素ブール関数が$f$と$g$が$f$の双対であるとき、$g$は$f$? 本稿では,多項式時間における双対化問題の決定バージョンを解く量子計算アルゴリズムを提案する。

Given two prime monotone boolean functions $f:\{0,1\}^n \to \{0,1\}$ and $g:\{0,1\}^n \to \{0,1\}$ the dualization problem consists in determining if $g$ is the dual of $f$, that is if $f(x_1, \dots, x_n)= \overline{g}(\overline{x_1}, \dots \overline{x_n})$ for all $(x_1, \dots x_n) \in \{0,1\}^n$. Associated to the dualization problem there is the corresponding decision problem: given two monotone prime boolean functions $f$ and $g$ is $g$ the dual of $f$? In this paper we present a quantum computing algorithm that solves the decision version of the dualization problem in polynomial time.
翻訳日:2023-08-30 17:08:52 公開日:2023-08-28
# CLNeRF: 継続的に学習するNeRF

CLNeRF: Continual Learning Meets NeRF ( http://arxiv.org/abs/2308.14816v1 )

ライセンス: Link先を確認
Zhipeng Cai and Matthias Mueller(参考訳) 新たなビュー合成は、キャリブレーションされた画像の集合から見知らぬビューを描画することを目的としている。 実用的な用途では、シーンのカバレッジ、外観、形状が時間とともに変化し、新しいイメージが連続的にキャプチャされる。 このような継続的変化を効果的に取り入れることはオープンな課題です。 標準的なNeRFベンチマークはシーンカバレッジの拡張のみを含む。 その他の現実的な場面の変化を研究するために,時間とともに外観や形状が変化するシーンからなる新しいデータセット World Across Time (WAT) を提案する。 また,ニューラルネットワーク場(NeRF)に連続学習(CL)を導入する,単純で効果的なCLNeRFを提案する。 CLNeRFは生成的リプレイとInstant Neural Graphics Primitives (NGP)アーキテクチャを組み合わせることで、破滅的な忘れ込みを効果的に防止し、新しいデータが到着した時にモデルを効率的に更新する。 また、トレーニング可能な外観と幾何埋め込みをngpに追加し、単一のコンパクトモデルで複雑なシーン変更を処理できるようにしました。 歴史的なイメージを保存する必要がないclnerfは、シーンの変更を複数のスキャンで順次トレーニングし、すべてのスキャンで上界モデルと並行して実行する。 他のCLベースラインと比べて、CLNeRFは標準ベンチマークやWATよりもはるかにパフォーマンスが良い。 ソースコードとWATデータセットはhttps://github.com/IntelLabs/CLNeRFで公開されている。 ビデオプレゼンテーションは、https://youtu.be/nLRt6OoDGq0? si=8yD6k-8MMBJInQPs

Novel view synthesis aims to render unseen views given a set of calibrated images. In practical applications, the coverage, appearance or geometry of the scene may change over time, with new images continuously being captured. Efficiently incorporating such continuous change is an open challenge. Standard NeRF benchmarks only involve scene coverage expansion. To study other practical scene changes, we propose a new dataset, World Across Time (WAT), consisting of scenes that change in appearance and geometry over time. We also propose a simple yet effective method, CLNeRF, which introduces continual learning (CL) to Neural Radiance Fields (NeRFs). CLNeRF combines generative replay and the Instant Neural Graphics Primitives (NGP) architecture to effectively prevent catastrophic forgetting and efficiently update the model when new data arrives. We also add trainable appearance and geometry embeddings to NGP, allowing a single compact model to handle complex scene changes. Without the need to store historical images, CLNeRF trained sequentially over multiple scans of a changing scene performs on-par with the upper bound model trained on all scans at once. Compared to other CL baselines CLNeRF performs much better across standard benchmarks and WAT. The source code, and the WAT dataset are available at https://github.com/IntelLabs/CLNeRF. Video presentation is available at: https://youtu.be/nLRt6OoDGq0?si=8yD6k-8MMBJInQPs
翻訳日:2023-08-30 17:08:15 公開日:2023-08-28
# 不正確なニューラルネットワークを用いた分布ロバストな統計的検証

Distributionally Robust Statistical Verification with Imprecise Neural Networks ( http://arxiv.org/abs/2308.14815v1 )

ライセンス: Link先を確認
Souradeep Dutta, Michele Caprio, Vivian Lin, Matthew Cleaveland, Kuk Jin Jang, Ivan Ruchkin, Oleg Sokolsky, Insup Lee(参考訳) AI安全性における特に困難な問題は、高次元自律システムの振る舞いを保証することだ。 到達可能性分析を中心とした検証アプローチはスケールに失敗し、純粋に統計的アプローチはサンプリングプロセスに関する分布仮定によって制約される。 代わりに、ブラックボックスシステムに対する統計的検証問題の分布的に堅牢なバージョンを、我々の性能保証が大きな分布群を抑えるようにしている。 本稿では,アクティブラーニングと不確実性定量化,ニューラルネットワークの検証を組み合わせた新しい手法を提案する。 私たちのアプローチの中心となるのは、能動的学習を導く不確実性を提供するImprecise Neural Networksと呼ばれるアンサンブル技術です。 アクティブラーニングは、徹底的なニューラルネットワーク検証ツールsherlockを使用してサンプルを収集する。 openai gym mujoco環境における複数の物理シミュレータの強化学習制御による評価により,高次元システムに対する有用でスケーラブルな保証を提供することができることを示した。

A particularly challenging problem in AI safety is providing guarantees on the behavior of high-dimensional autonomous systems. Verification approaches centered around reachability analysis fail to scale, and purely statistical approaches are constrained by the distributional assumptions about the sampling process. Instead, we pose a distributionally robust version of the statistical verification problem for black-box systems, where our performance guarantees hold over a large family of distributions. This paper proposes a novel approach based on a combination of active learning, uncertainty quantification, and neural network verification. A central piece of our approach is an ensemble technique called Imprecise Neural Networks, which provides the uncertainty to guide active learning. The active learning uses an exhaustive neural-network verification tool Sherlock to collect samples. An evaluation on multiple physical simulators in the openAI gym Mujoco environments with reinforcement-learned controllers demonstrates that our approach can provide useful and scalable guarantees for high-dimensional systems.
翻訳日:2023-08-30 17:07:53 公開日:2023-08-28
# ソーシャルメディア上での競合イベントへのドメインベースユーザ埋め込み

Domain-based user embedding for competing events on social media ( http://arxiv.org/abs/2308.14806v1 )

ライセンス: Link先を確認
Wentao Xu, Kazutoshi Sasahara(参考訳) データマイニングは、現在、さまざまな分野で広く使われている生データと、私たちが望むターゲットを予測するための良い方法です。 本研究では,データマイニングにおいて,先行販売に基づいて商品の販売を予測するための技術と手法を多数実装した。 売上を予測するための強力なモデルを作ります。 このモデルを評価した後、オンラインソーシャルネットワークは計算社会科学に膨大な機会を提供するが、下流タスクには効果的なユーザ埋め込みが不可欠である。 従来、研究者は度数や集中度などのネットワークベースの機能や、投稿やリポストなどのコンテンツベースの機能を使ってきた。 しかし,これらの対策はソーシャルメディア利用者の複雑な特徴を捉えていない可能性がある。 本研究では,urlドメイン共起ネットワークに基づくユーザ埋め込み手法を提案する。 我々は,covid-19インフォデミックトピック(qanon, biden, ivermectin)に関連するtwitterユーザを含むベンチマークデータセットを用いて,バイナリ分類タスクにおけるこの手法の性能を評価した。 以上の結果から,retweetネットワークから直接発生するユーザ埋め込みと,言語に基づくユーザ埋め込みが期待を下回る結果となった。 対照的に、ドメインベースの埋め込みは計算時間を短縮しながらこれらの手法よりも優れていた。 これらの結果から, 政治的キャンペーンや公衆衛生危機など, 競合するイベントに参加するソーシャルメディア利用者を特徴付ける効果的なツールとして, ドメインベースのユーザ埋め込みが有効であることが示唆された。

Data mining is a good way to find the relationship between raw data and predict the target we want which is also widely used in different field nowadays. In this project, we implement a lots of technology and method in data mining to predict the sale of an item based on its previous sale. We create a strong model to predict the sales. After evaluating this model, we Online social networks offer vast opportunities for computational social science, but effective user embedding is crucial for downstream tasks. Traditionally, researchers have used pre-defined network-based user features, such as degree, and centrality measures, and/or content-based features, such as posts and reposts. However, these measures may not capture the complex characteristics of social media users. In this study, we propose a user embedding method based on the URL domain co-occurrence network, which is simple but effective for representing social media users in competing events. We assessed the performance of this method in binary classification tasks using benchmark datasets that included Twitter users related to COVID-19 infodemic topics (QAnon, Biden, Ivermectin). Our results revealed that user embeddings generated directly from the retweet network, and those based on language, performed below expectations. In contrast, our domain-based embeddings outperformed these methods while reducing computation time. These findings suggest that the domain-based user embedding can serve as an effective tool to characterize social media users participating in competing events, such as political campaigns and public health crises.
翻訳日:2023-08-30 17:07:37 公開日:2023-08-28
# ニューラル演算子による散乱

Scattering with Neural Operators ( http://arxiv.org/abs/2308.14789v1 )

ライセンス: Link先を確認
Sebastian Mizera(参考訳) 機械学習の最近の進歩は、ニューラルネットワークと呼ばれる特定のニューラルネットワークアーキテクチャが関数空間間のマップを近似する能力を確立する。 基礎物理学における応用の可能性から、量子力学における散乱過程の応用について検討する。 我々は、初期波動関数とポテンシャルの空間から最終波動関数へ写像するシュリンガー作用素の物理学を学ぶために、フーリエ作用素の反復変法を用いる。 これらの深層演算子学習のアイデアは、中心電位から1+1$次元に散乱する波のパケットの時間的進化を予測するニューラル演算子と、2+1$次元のダブルスリット実験という2つの具体的な問題でテストされる。 推論において、ニューラルネットワークは従来の有限差分ソルバよりも桁違いに効率的になる。

Recent advances in machine learning establish the ability of certain neural-network architectures called neural operators to approximate maps between function spaces. Motivated by a prospect of employing them in fundamental physics, we examine applications to scattering processes in quantum mechanics. We use an iterated variant of Fourier neural operators to learn the physics of Schr\"odinger operators, which map from the space of initial wave functions and potentials to the final wave functions. These deep operator learning ideas are put to test in two concrete problems: a neural operator predicting the time evolution of a wave packet scattering off a central potential in $1+1$ dimensions, and the double-slit experiment in $2+1$ dimensions. At inference, neural operators can become orders of magnitude more efficient compared to traditional finite-difference solvers.
翻訳日:2023-08-30 17:07:12 公開日:2023-08-28
# 非エルミート駆動によるフロッケトポロジー安定化

Floquet Topology Stabilized with Non-Hermitian Driving ( http://arxiv.org/abs/2308.14788v1 )

ライセンス: Link先を確認
Christopher I. Timms(参考訳) 本研究は,フロッケサイクル毎にノイズを発生させる方法ではあっても,フロッケシステムの安定性を損なうメカニズムを提案する。 これは、Floquetサイクルの各後に外部キュービットが追加され、これらの外部キュービットがFloquetシステムに関する情報を取得するためである(この場合、FloquetシステムはAnomalous Floquet-Anderson Insulatorである)。 この情報は、これらのキュービットが削除された後のノイズのシステムを修正するために使用される。 これらの外部キュービットがシステム上での実行後に追加され、削除されるという事実は、このプロセスが非エルミート駆動(non-Hermitian driving)と呼ばれることができる。 外部量子ビットは、システムのエントロピーを取り除くために効果的に作用するため、フロケ系を冷却することができる。 さらに、正常な時間発展の間、システムの各部位のエンタングルメントを周期的に高頻度で実装することで、システムがアンダーソン局在に類似した方法で高度に局在化できる別のメカニズムも見出される。

This study presents a mechanism that enables the stabilization of Floquet systems indefintely; albeit in a manner that allows for noise during each Floquet cycle. This is due to the fact that external qubits are added after each Floquet cycle and these external qubits obtain information about the Floquet system (in this case the Floquet system is the Anomalous Floquet-Anderson Insulator). This information is used to correct the system for noise after which these qubits are removed. The fact that these external qubits are added and then removed after performing operations on the system is what allows for this process to be referred to as non-Hermitian driving. The external qubits effectively act to carry away entropy of the system and therefore allow for the Floquet system to be cooled. In addition, another mechanism is found where the periodic implementation of entanglement for every site of the system at a high frequency during the normal time evolution allows for the system to be highly localized in a manner similar to Anderson localization.
翻訳日:2023-08-30 17:06:56 公開日:2023-08-28
# 二次オプション検出器を用いた相関型ファジィクラスタ妥当性指標

A correlation-based fuzzy cluster validity index with secondary options detector ( http://arxiv.org/abs/2308.14785v1 )

ライセンス: Link先を確認
Nathakhun Wiroonsri and Onthada Preedasawakul(参考訳) クラスタ分析を適用する上で,クラスタの最適な数を主な関心事のひとつに挙げる。 この問題に対処するためにいくつかのクラスタ妥当性指標が導入された。 しかし、いくつかの状況では、最後の数のクラスタとして選択できる選択肢が複数存在する。 この側面は、この分野の既存の作品の大半で見過ごされている。 本研究では,Wiroonsri-Preedasawakul(WP)インデックスと呼ばれる相関に基づくファジィクラスタの妥当性指標を提案する。 この指標は、データポイント間の実際の距離と、そのペアに対する調整されたセントロイド間の距離との相関に基づいて定義される。 我々は,Xie-Beni,Pakhira-Bandyopadhyay-Maulik,Tang,Wu-Li,Generalized C,Kwon2などの既存指標と比較した。 この評価をファジィc-meansアルゴリズムを用いて,人工データセット,実世界のデータセット,ランク付きシミュレーションデータセット,画像データセットの4種類のデータセットについて行った。 全体として、wpインデックスは、クラスタの最適な数を正確に検出し、正確な二次オプションを提供するという点で、これらインデックスのほとんどを上回っている。 さらに、ファジィパラメータ$m$が大きな値に設定された場合でも、インデックスは有効である。 この作業で使用されるWPfuzzyCVIsと呼ばれるRパッケージもhttps://github.com/nwiroonsri/WPfuzzyCVIsで利用可能です。

The optimal number of clusters is one of the main concerns when applying cluster analysis. Several cluster validity indexes have been introduced to address this problem. However, in some situations, there is more than one option that can be chosen as the final number of clusters. This aspect has been overlooked by most of the existing works in this area. In this study, we introduce a correlation-based fuzzy cluster validity index known as the Wiroonsri-Preedasawakul (WP) index. This index is defined based on the correlation between the actual distance between a pair of data points and the distance between adjusted centroids with respect to that pair. We evaluate and compare the performance of our index with several existing indexes, including Xie-Beni, Pakhira-Bandyopadhyay-Maulik, Tang, Wu-Li, generalized C, and Kwon2. We conduct this evaluation on four types of datasets: artificial datasets, real-world datasets, simulated datasets with ranks, and image datasets, using the fuzzy c-means algorithm. Overall, the WP index outperforms most, if not all, of these indexes in terms of accurately detecting the optimal number of clusters and providing accurate secondary options. Moreover, our index remains effective even when the fuzziness parameter $m$ is set to a large value. Our R package called WPfuzzyCVIs used in this work is also available in https://github.com/nwiroonsri/WPfuzzyCVIs.
翻訳日:2023-08-30 17:06:35 公開日:2023-08-28
# メルトプール画像ストリームを用いたプリントトラック異常分類のためのキー時空間学習者の評価

Evaluation of Key Spatiotemporal Learners for Print Track Anomaly Classification Using Melt Pool Image Streams ( http://arxiv.org/abs/2308.14861v1 )

ライセンス: Link先を確認
Lynn Cherif, Mutahar Safdar, Guy Lamouche, Priti Wanjara, Padma Paul, Gentry Wood, Max Zimmermann, Florian Hannesen, Yaoyao Fiona Zhao(参考訳) 金属添加物製造(MAM)における機械学習の最近の応用は、MAM技術の普及に対する重要な障壁に対処する大きな可能性を示している。 この分野での最近の研究は、リアルタイム欠陥予測にメルトプールシグネチャを活用することの重要性を強調している。 高品質のメルトプール画像データは正確な予測を可能にするという約束を保っているが, 加法製造プロセスの経時的および逐次的特性を生かした最先端の時空間モデルの利用について, 限定的な探究がなされている。 本研究は,様々な材料,システム,応用から派生したメルトプール画像ストリームの分類に適用可能な,主要な深層時空間学習モデルをいくつか紹介し,実践する。 具体的には,空間的および時間的流れ,再帰的空間的ネットワーク,因子化された3次元畳み込みニューラルネットワークからなる2つのストリームネットワークについて検討する。 メルトプール画像データの摂動に晒された場合に一般化するこれらのモデルの容量を、実世界のプロセスシナリオに基づくデータ摂動技術を用いて検討する。 実装されたアーキテクチャは、溶融プール画像シーケンスの時空間的特徴をキャプチャする能力を示している。 しかし、これらのモデルの中で、データ摂動の存在下で堅牢な一般化能力を示すのは、Kinetics400事前訓練SlowFastネットワークのみである。

Recent applications of machine learning in metal additive manufacturing (MAM) have demonstrated significant potential in addressing critical barriers to the widespread adoption of MAM technology. Recent research in this field emphasizes the importance of utilizing melt pool signatures for real-time defect prediction. While high-quality melt pool image data holds the promise of enabling precise predictions, there has been limited exploration into the utilization of cutting-edge spatiotemporal models that can harness the inherent transient and sequential characteristics of the additive manufacturing process. This research introduces and puts into practice some of the leading deep spatiotemporal learning models that can be adapted for the classification of melt pool image streams originating from various materials, systems, and applications. Specifically, it investigates two-stream networks comprising spatial and temporal streams, a recurrent spatial network, and a factorized 3D convolutional neural network. The capacity of these models to generalize when exposed to perturbations in melt pool image data is examined using data perturbation techniques grounded in real-world process scenarios. The implemented architectures demonstrate the ability to capture the spatiotemporal features of melt pool image sequences. However, among these models, only the Kinetics400 pre-trained SlowFast network, categorized as a two-stream network, exhibits robust generalization capabilities in the presence of data perturbations.
翻訳日:2023-08-30 17:02:01 公開日:2023-08-28
# synthdistill: 合成データからの知識蒸留による顔認識

SynthDistill: Face Recognition with Knowledge Distillation from Synthetic Data ( http://arxiv.org/abs/2308.14852v1 )

ライセンス: Link先を確認
Hatef Otroshi Shahreza, Anjith George, S\'ebastien Marcel(参考訳) 最先端の顔認識ネットワークはしばしば計算コストが高く、モバイルアプリケーションでは利用できない。 軽量顔認識モデルのトレーニングには、大きなIDラベル付きデータセットも必要である。 一方、大きな顔認識データセットの収集と使用には、プライバシと倫理的な懸念がある。 顔認識モデルのトレーニングのための合成データセットの生成は別の選択肢であるが、十分なクラス内変異を持つ合成データを生成することは困難である。 さらに、実データと合成データでトレーニングされたモデルのパフォーマンスには、依然としてかなりのギャップがある。 本稿では,教師が事前学習した顔認識モデルの知識を合成データを用いて抽出し,軽量な顔認識モデルを訓練するフレームワーク(SynthDistill)を提案する。 予め訓練された顔生成ネットワークを用いて合成顔画像を生成し,合成画像を用いて軽量な学生ネットワークを学習する。 識別ラベルのない合成顔画像を用いて、合成データセットのクラス内変動生成における問題を緩和する。 そこで本研究では,顔生成ネットワークの中間潜時空間から新たな動的サンプリング手法を提案し,課題の画像の新たなバリエーションを含むとともに,トレーニングバッチにおける新たな顔画像の探索を行う。 5つの異なる顔認識データセットの結果は、以前の合成データセットでトレーニングされたモデルと比較して、我々の軽量モデルの優位を示し、軽量ネットワークでlfwデータセット上で99.52%の検証精度を達成している。 また,提案フレームワークは,実データと合成データとのトレーニング間のギャップを大幅に低減することを示した。 実験を複製するソースコードが公開されている。

State-of-the-art face recognition networks are often computationally expensive and cannot be used for mobile applications. Training lightweight face recognition models also requires large identity-labeled datasets. Meanwhile, there are privacy and ethical concerns with collecting and using large face recognition datasets. While generating synthetic datasets for training face recognition models is an alternative option, it is challenging to generate synthetic data with sufficient intra-class variations. In addition, there is still a considerable gap between the performance of models trained on real and synthetic data. In this paper, we propose a new framework (named SynthDistill) to train lightweight face recognition models by distilling the knowledge of a pretrained teacher face recognition model using synthetic data. We use a pretrained face generator network to generate synthetic face images and use the synthesized images to learn a lightweight student network. We use synthetic face images without identity labels, mitigating the problems in the intra-class variation generation of synthetic datasets. Instead, we propose a novel dynamic sampling strategy from the intermediate latent space of the face generator network to include new variations of the challenging images while further exploring new face images in the training batch. The results on five different face recognition datasets demonstrate the superiority of our lightweight model compared to models trained on previous synthetic datasets, achieving a verification accuracy of 99.52% on the LFW dataset with a lightweight network. The results also show that our proposed framework significantly reduces the gap between training with real and synthetic data. The source code for replicating the experiments is publicly released.
翻訳日:2023-08-30 17:01:37 公開日:2023-08-28
# Attention Visualizer Package: より深いインサイトのための単語重要度をエンコーダのみのトランスフォーマーモデルに変換する

Attention Visualizer Package: Revealing Word Importance for Deeper Insight into Encoder-Only Transformer Models ( http://arxiv.org/abs/2308.14850v1 )

ライセンス: Link先を確認
Ala Alam Falaki, and Robin Gras(参考訳) 本稿では,エンコーダのみのトランスフォーマモデルにおいて,個々の単語の意味を視覚的に示すためのアテンションビジュアライゼーションパッケージを提案する。 トークンと自己注意スコアに着目した他の方法とは対照的に,本研究では,単語とその最終埋め込み表現への影響について検討する。 このようなライブラリは、ニューラルネットワークの解釈可能性と説明可能性を高める上で重要な役割を果たす。 内部機構を照らし出す機会を提供し、それらがどのように動作し、拡張できるかをよりよく理解する。 コードにアクセスして、以下のGitHubリポジトリで例をレビューすることができる。

This report introduces the Attention Visualizer package, which is crafted to visually illustrate the significance of individual words in encoder-only transformer-based models. In contrast to other methods that center on tokens and self-attention scores, our approach will examine the words and their impact on the final embedding representation. Libraries like this play a crucial role in enhancing the interpretability and explainability of neural networks. They offer the opportunity to illuminate their internal mechanisms, providing a better understanding of how they operate and can be enhanced. You can access the code and review examples on the following GitHub repository: https://github.com/AlaFalaki/AttentionVisualizer.
翻訳日:2023-08-30 17:01:11 公開日:2023-08-28
# NSF:単眼深部からの人体モデリングのための神経表面場

NSF: Neural Surface Fields for Human Modeling from Monocular Depth ( http://arxiv.org/abs/2308.14847v1 )

ライセンス: Link先を確認
Yuxuan Xue, Bharat Lal Bhatnagar, Riccardo Marin, Nikolaos Sarafianos, Yuanlu Xu, Gerard Pons-Moll, Tony Tung(参考訳) 単眼カメラからパーソナライズされた3dアニメーション可能なアバターを得るには、ゲーム、バーチャルトライオン、アニメーション、vr/xrなど、現実世界の応用がいくつかある。 しかし,そのようなスパースデータから動的・細粒度の衣料変形をモデル化することは非常に困難である。 深度データから3次元人間をモデル化するための既存の手法は、計算効率、メッシュコヒーレンシー、解像度とトポロジーの柔軟性に制限がある。 例えば、暗黙の関数を使って形状を再構築し、フレーム毎に明示的なメッシュを抽出することは計算コストが高く、フレーム間のコヒーレントメッシュを保証することはできない。 さらに、離散的な表面を持つ事前設計された人間のテンプレート上で頂点ごとの変形を予測することは、解像度とトポロジーの柔軟性に欠ける。 これらの制約を克服するために, 単眼深度から3次元布地をモデル化するための新しい手法「\keyfeature: Neural Surface Fields」を提案する。 NSFは、連続かつ柔軟な変位場をモデル化するベース表面のみに神経磁場を定義する。 nsfは、推論時に再トレーニングすることなく、解像度とトポロジーが異なるベースサーフェスに適応することができる。 既存のアプローチと比較して,メッシュコヒーレンシを維持しながらフレーム単位の表面抽出コストを削減し,再トレーニングすることなく任意の解像度でメッシュを再構築できる。 この方向の研究を促進するために、私たちはプロジェクトページでコードを公開しています。

Obtaining personalized 3D animatable avatars from a monocular camera has several real world applications in gaming, virtual try-on, animation, and VR/XR, etc. However, it is very challenging to model dynamic and fine-grained clothing deformations from such sparse data. Existing methods for modeling 3D humans from depth data have limitations in terms of computational efficiency, mesh coherency, and flexibility in resolution and topology. For instance, reconstructing shapes using implicit functions and extracting explicit meshes per frame is computationally expensive and cannot ensure coherent meshes across frames. Moreover, predicting per-vertex deformations on a pre-designed human template with a discrete surface lacks flexibility in resolution and topology. To overcome these limitations, we propose a novel method `\keyfeature: Neural Surface Fields' for modeling 3D clothed humans from monocular depth. NSF defines a neural field solely on the base surface which models a continuous and flexible displacement field. NSF can be adapted to the base surface with different resolution and topology without retraining at inference time. Compared to existing approaches, our method eliminates the expensive per-frame surface extraction while maintaining mesh coherency, and is capable of reconstructing meshes with arbitrary resolution without retraining. To foster research in this direction, we release our code in project page at: https://yuxuan-xue.com/nsf.
翻訳日:2023-08-30 17:00:59 公開日:2023-08-28
# AIによる協調型ロボットの構築における信頼--定性的実証分析

Trust in Construction AI-Powered Collaborative Robots: A Qualitative Empirical Analysis ( http://arxiv.org/abs/2308.14846v1 )

ライセンス: Link先を確認
Newsha Emaminejad and Reza Akhavian, Ph.D(参考訳) 建設技術研究者と先進的な企業は、産業のデジタルトランスフォーメーションの一環として、さまざまな自動化シナリオを探求するために、人工知能(AI)を活用した協調ロボット(別名コボット)を実験している。 インテリジェントなコボットは、未来の建設作業において支配的なタイプのロボットとなることが期待されている。 しかし、AIによるコボットのブラックボックスの性質と、それらを現場に導入する技術的、心理的に未知の側面は、課題を信頼する先駆者である。 本研究では, 建設現場における信頼性の高いAI駆動コボットの特性について, 基礎理論を用いた半構造化インタビューの結果を分析した。 研究は、それまで著者らが実施した体系的文献レビューで特定された重要な信頼要因が、現場の専門家やエンドユーザーと共鳴する一方で、金融上の考慮や変化に伴う不確実性といった他の要因も、建設中のai駆動コボットを信頼することに対する重要な障壁であったことを見出した。

Construction technology researchers and forward-thinking companies are experimenting with collaborative robots (aka cobots), powered by artificial intelligence (AI), to explore various automation scenarios as part of the digital transformation of the industry. Intelligent cobots are expected to be the dominant type of robots in the future of work in construction. However, the black-box nature of AI-powered cobots and unknown technical and psychological aspects of introducing them to job sites are precursors to trust challenges. By analyzing the results of semi-structured interviews with construction practitioners using grounded theory, this paper investigates the characteristics of trustworthy AI-powered cobots in construction. The study found that while the key trust factors identified in a systematic literature review -- conducted previously by the authors -- resonated with the field experts and end users, other factors such as financial considerations and the uncertainty associated with change were also significant barriers against trusting AI-powered cobots in construction.
翻訳日:2023-08-30 17:00:23 公開日:2023-08-28
# SMOClust: 進化するデータストリームのためのストリームクラスタリングに基づく合成マイノリティオーバーサンプリング

SMOClust: Synthetic Minority Oversampling based on Stream Clustering for Evolving Data Streams ( http://arxiv.org/abs/2308.14845v1 )

ライセンス: Link先を確認
Chun Wai Chiu, Leandro L. Minku(参考訳) 多くの実世界のデータストリームアプリケーションはコンセプトドリフトに苦しむだけでなく、クラス不均衡にも悩まされる。 しかし、この共同研究を調査する研究はほとんどなかった。 クラス不均衡データストリームの重要課題であるデータ困難要因は、クラス不均衡データストリームの学習において、既存のアプローチでは考慮されていない。 本研究では,ストリームクラスタリングに基づくマイノリティクラスのサンプルを合成するためのドリフト適応型オーバーサンプリング戦略を提案する。 その動機は、データ難易度を含む現在の概念の特徴を反映するために、ストリームクラスタリングメソッドが継続的に更新されることです。 この性質は、メモリ内のデータを明示的にキャッシュすることなく、過去の情報を圧縮するために使用することができる。 圧縮された情報に基づいて、新しいマイノリティクラス例を生成する領域内で合成サンプルを作成することができる。 人工的および実世界のデータストリームを用いた実験では、提案手法が既存のアプローチよりも異なるマイノリティクラスの分解を伴う概念ドリフトを扱い、特にデータストリームが厳しいクラス不均衡であり、安全かつ境界的なマイノリティクラスの例の比率が高い場合に有効であることが示されている。

Many real-world data stream applications not only suffer from concept drift but also class imbalance. Yet, very few existing studies investigated this joint challenge. Data difficulty factors, which have been shown to be key challenges in class imbalanced data streams, are not taken into account by existing approaches when learning class imbalanced data streams. In this work, we propose a drift adaptable oversampling strategy to synthesise minority class examples based on stream clustering. The motivation is that stream clustering methods continuously update themselves to reflect the characteristics of the current underlying concept, including data difficulty factors. This nature can potentially be used to compress past information without caching data in the memory explicitly. Based on the compressed information, synthetic examples can be created within the region that recently generated new minority class examples. Experiments with artificial and real-world data streams show that the proposed approach can handle concept drift involving different minority class decomposition better than existing approaches, especially when the data stream is severely class imbalanced and presenting high proportions of safe and borderline minority class examples.
翻訳日:2023-08-30 16:59:51 公開日:2023-08-28
# 伝達学習を用いた適応型作業ロボットインタラクションのためのロバストなアクティビティ認識

Robust Activity Recognition for Adaptive Worker-Robot Interaction using Transfer Learning ( http://arxiv.org/abs/2308.14843v1 )

ライセンス: Link先を確認
Farid Shahnavaz, Riley Tavassoli, and Reza Akhavian(参考訳) 機械学習を用いたヒューマンアクティビティ認識(HAR)は,建設労働者の活動を検出する上で非常に有望である。 HARは、ロボットが人間の活動を理解するために人間とロボットの相互作用の研究に多くの応用がある。 しかし、既存のHARアプローチの多くは堅牢性、一般化可能性、適応性に欠ける。 本稿では,作業員の行動認識のための伝達学習手法を提案する。 開発したアルゴリズムは、原作者が事前訓練したモデルから特徴を伝達し、構築における活動認識の下流タスクに微調整する。 このモデルは400の異なるクラスを持つ大規模ビデオベースヒューマンアクティビティ認識データセットであるKinetics-400で事前訓練された。 モデルは微調整され、youtubeで見つかった手動の素材ハンドリング(mmh)アクティビティから撮影したビデオを使ってテストされた。 提案手法は, 協調作業ロボットの大規模配置に不可欠であるロバストかつ適応的なMMHタスクを, 微調整モデルで認識できることを示唆する。

Human activity recognition (HAR) using machine learning has shown tremendous promise in detecting construction workers' activities. HAR has many applications in human-robot interaction research to enable robots' understanding of human counterparts' activities. However, many existing HAR approaches lack robustness, generalizability, and adaptability. This paper proposes a transfer learning methodology for activity recognition of construction workers that requires orders of magnitude less data and compute time for comparable or better classification accuracy. The developed algorithm transfers features from a model pre-trained by the original authors and fine-tunes them for the downstream task of activity recognition in construction. The model was pre-trained on Kinetics-400, a large-scale video-based human activity recognition dataset with 400 distinct classes. The model was fine-tuned and tested using videos captured from manual material handling (MMH) activities found on YouTube. Results indicate that the fine-tuned model can recognize distinct MMH tasks in a robust and adaptive manner which is crucial for the widespread deployment of collaborative robots in construction.
翻訳日:2023-08-30 16:58:54 公開日:2023-08-28
# vr/arエルゴノミクスの最適化に向けて : 筋収縮のモデル化と予測

Toward Optimized VR/AR Ergonomics: Modeling and Predicting User Neck Muscle Contraction ( http://arxiv.org/abs/2308.14841v1 )

ライセンス: Link先を確認
Yunxiang Zhang, Kenneth Chen, Qi Sun(参考訳) エルゴノミクスの効率性は、VR/AR体験の大量化と長期化に不可欠である。 VR/ARヘッドマウントディスプレイは、視聴中にユーザーの自然なワイドレンジの頭部の動きをアンロックします。 残念ながら、このような問題を理解し、対処するための定量的な知識は今のところほとんどない。 筋電図装置を活用して、仮想環境と対話するために頭を動かしながら、VRユーザーの頸部筋収縮レベル(MCL)を測定し、モデル化し、予測する。 具体的には, 収集した生理的データから学習し, 様々な頭部運動状態下で首部mclを予測するための生体物理学的な計算モデルを開発した。 頭部運動の累積mclを定量化するだけでなく, 目標頭部のポーズのみを用いて, 潜在的なmcl要件を予測できる。 一連の客観的評価とユーザスタディは、その予測精度と一般性、および視覚目標のレイアウトを最適化することでユーザの首の不快感を軽減する能力を示す。 この研究は、VR/ARおよびインタラクティブグラフィックスアプリケーションのための新しい人間工学中心のデザインを動機付けることを願っている。 ソースコードはhttps://github.com/nyu-icl/xr-ergonomics-neck-comfort。

Ergonomic efficiency is essential to the mass and prolonged adoption of VR/AR experiences. While VR/AR head-mounted displays unlock users' natural wide-range head movements during viewing, their neck muscle comfort is inevitably compromised by the added hardware weight. Unfortunately, little quantitative knowledge for understanding and addressing such an issue is available so far. Leveraging electromyography devices, we measure, model, and predict VR users' neck muscle contraction levels (MCL) while they move their heads to interact with the virtual environment. Specifically, by learning from collected physiological data, we develop a bio-physically inspired computational model to predict neck MCL under diverse head kinematic states. Beyond quantifying the cumulative MCL of completed head movements, our model can also predict potential MCL requirements with target head poses only. A series of objective evaluations and user studies demonstrate its prediction accuracy and generality, as well as its ability in reducing users' neck discomfort by optimizing the layout of visual targets. We hope this research will motivate new ergonomic-centered designs for VR/AR and interactive graphics applications. Source code is released at: https://github.com/NYU-ICL/xr-ergonomics-neck-comfort.
翻訳日:2023-08-30 16:58:17 公開日:2023-08-28
# 生成AIのセキュリティリスクの特定と修正

Identifying and Mitigating the Security Risks of Generative AI ( http://arxiv.org/abs/2308.14840v1 )

ライセンス: Link先を確認
Clark Barrett, Brad Boyd, Ellie Burzstein, Nicholas Carlini, Brad Chen, Jihye Choi, Amrita Roy Chowdhury, Mihai Christodorescu, Anupam Datta, Soheil Feizi, Kathleen Fisher, Tatsunori Hashimoto, Dan Hendrycks, Somesh Jha, Daniel Kang, Florian Kerschbaum, Eric Mitchell, John Mitchell, Zulfikar Ramzan, Khawaja Shams, Dawn Song, Ankur Taly, Diyi Yang(参考訳) あらゆる主要な技術発明が両用ジレンマを再浮上させ、新しい技術は善と害に使える可能性がある。 大規模言語モデル(LLM)や拡散モデルのようなジェネレーティブAI(GenAI)技術は、顕著な能力(例えば、テキスト内学習、コード補完、テキストから画像への生成と編集)を示している。 しかし、GenAIは攻撃者も同様に新しい攻撃を発生させ、既存の攻撃の速度と効果を高めるために使うことができる。 本稿は、Google(スタンフォード大学とウィスコンシン大学マディソン校が共同で開催した、GenAIによる二重使用ジレンマに関するワークショップの成果を報告する。 本論文は包括的ではなく,ワークショップで得られた興味深い知見のいくつかを合成する試みである。 この話題について,コミュニティの短期的,長期的目標について論じる。 この論文は、この重要なトピックに関する議論の出発点と、研究コミュニティが取り組むべき興味深い問題の両方を提供することを期待している。

Every major technical invention resurfaces the dual-use dilemma -- the new technology has the potential to be used for good as well as for harm. Generative AI (GenAI) techniques, such as large language models (LLMs) and diffusion models, have shown remarkable capabilities (e.g., in-context learning, code-completion, and text-to-image generation and editing). However, GenAI can be used just as well by attackers to generate new attacks and increase the velocity and efficacy of existing attacks. This paper reports the findings of a workshop held at Google (co-organized by Stanford University and the University of Wisconsin-Madison) on the dual-use dilemma posed by GenAI. This paper is not meant to be comprehensive, but is rather an attempt to synthesize some of the interesting findings from the workshop. We discuss short-term and long-term goals for the community on this topic. We hope this paper provides both a launching point for a discussion on this important topic as well as interesting problems that the research community can work to address.
翻訳日:2023-08-30 16:57:56 公開日:2023-08-28
# 不均衡分類における多様なマイノリティに取り組む

Tackling Diverse Minorities in Imbalanced Classification ( http://arxiv.org/abs/2308.14838v1 )

ライセンス: Link先を確認
Kwei-Herng Lai, Daochen Zha, Huiyuan Chen, Mangesh Bendre, Yuzhong Chen, Mahashweta Das, Hao Yang, Xia Hu(参考訳) 不均衡データセットは、様々な現実世界のアプリケーションで一般的に観察され、分類器の訓練において重大な課題を示す。 大きなデータセットを扱う場合、不均衡な問題はさらに悪化し、分類器を効果的に訓練することは極めて困難である。 この問題に対処するため、マイノリティと近隣住民の間でデータインスタンスを線形に補間するオーバーサンプリング技術が開発されている。 しかし、異常検出のような現実世界の多くのシナリオでは、少数インスタンスは一緒にクラスタ化されるのではなく、特徴空間内で多様に分散されることが多い。 ドメインに依存しないデータ混合に着想を得て,少数クラスと多数クラスのデータサンプルを混合することにより,反復的に合成サンプルを生成することを提案する。 このようなフレームワークを開発するのは自明ではなく、ソースサンプルの選択、ミックスアップ戦略の選択、基盤となるモデルとミックスアップ戦略の調整といった課題がある。 これらの課題に対処するために、データ属性を拡張戦略にマッピングするマルコフ決定プロセス(MDP)として反復データ混合の問題を定式化する。 MDPの解決には,個別連続決定空間に適応するためにアクター批判フレームワークを用いる。 このフレームワークは、データ拡張ポリシーをトレーニングし、分類器の不確実性を探究し、分類器の収束に関係なく性能改善を促進する報奨信号の設計に使用される。 3種類の分類器を用いて、7つの公開ベンチマークデータセット上で広範な実験を行い,提案フレームワークの有効性を実証した。 これらの実験の結果は、多様なマイノリティを持つ不均衡データセットに対処するためのフレームワークの可能性と可能性を示しています。

Imbalanced datasets are commonly observed in various real-world applications, presenting significant challenges in training classifiers. When working with large datasets, the imbalanced issue can be further exacerbated, making it exceptionally difficult to train classifiers effectively. To address the problem, over-sampling techniques have been developed to linearly interpolating data instances between minorities and their neighbors. However, in many real-world scenarios such as anomaly detection, minority instances are often dispersed diversely in the feature space rather than clustered together. Inspired by domain-agnostic data mix-up, we propose generating synthetic samples iteratively by mixing data samples from both minority and majority classes. It is non-trivial to develop such a framework, the challenges include source sample selection, mix-up strategy selection, and the coordination between the underlying model and mix-up strategies. To tackle these challenges, we formulate the problem of iterative data mix-up as a Markov decision process (MDP) that maps data attributes onto an augmentation strategy. To solve the MDP, we employ an actor-critic framework to adapt the discrete-continuous decision space. This framework is utilized to train a data augmentation policy and design a reward signal that explores classifier uncertainty and encourages performance improvement, irrespective of the classifier's convergence. We demonstrate the effectiveness of our proposed framework through extensive experiments conducted on seven publicly available benchmark datasets using three different types of classifiers. The results of these experiments showcase the potential and promise of our framework in addressing imbalanced datasets with diverse minorities.
翻訳日:2023-08-30 16:57:38 公開日:2023-08-28
# 第39回論理プログラミング国際会議報告

Proceedings 39th International Conference on Logic Programming ( http://arxiv.org/abs/2308.14898v1 )

ライセンス: Link先を確認
Enrico Pontelli (New Mexico State University, USA), Stefania Costantini (University of L'Aquila, Italy), Carmine Dodaro (University of Calabria, Italy), Sarah Gaggl (TU Dresden, Germany), Roberta Calegari (University of Bologna, Italy), Artur D'Avila Garcez (City University of London, UK), Francesco Fabiano (University of Udine, Italy), Alessandra Mileo (DCU, Ireland), Alessandra Russo (Imperial College London, UK), Francesca Toni (Imperial College London, UK)(参考訳) この巻は2023年7月9日から7月15日までイギリスのインペリアル・カレッジ・ロンドンで開催された第39回論理プログラミング国際会議(ICLP 2023)で発表された。 ここでは、Main Track、Doctoral Consortium、Application and Systems/Demo Track、最近公開された研究トラック、Birds-of-a-Feather Track、Thematic Tracks on Logic Programming and Machine Learning、Logic Programming and Explainability、Ethics、Trustworthinessなどが含まれています。

This volume contains the Technical Communications presented at the 39th International Conference on Logic Programming (ICLP 2023), held at Imperial College London, UK from July 9 to July 15, 2023. Technical Communications included here concern the Main Track, the Doctoral Consortium, the Application and Systems/Demo track, the Recently Published Research Track, the Birds-of-a-Feather track, the Thematic Tracks on Logic Programming and Machine Learning, and Logic Programming and Explainability, Ethics, and Trustworthiness.
翻訳日:2023-08-30 16:49:51 公開日:2023-08-28
# 逐次モデル強化学習におけるオフポリシー評価のための二重ポリシー推定による統計的効率的分散削減

Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning ( http://arxiv.org/abs/2308.14897v1 )

ライセンス: Link先を確認
Hanhan Zhou, Tian Lan, Vaneet Aggarwal(参考訳) オフライン強化学習は、事前に収集した環境-行動間インタラクションレコードのデータセットを利用して、実際の環境にアクセスせずにポリシーを学習することを目的としている。 近年の研究では、オフライン強化学習をシーケンスモデリング問題として定式化し、決定トランスフォーマーのようなアプローチで教師あり学習によって解決できることが示されている。 これらのシーケンスベースの手法は、特に長いエピソードや少ない報酬を必要とするタスクにおいて、リターン・ツー・ゴーの手法よりも競争力のある結果を得るが、行動方針の欠如や決定論的評価ポリシーの使用により、非政治データを扱う際の政策バイアスを補正する重要性サンプリングは考慮されていない。 そこで本研究では,分散削減に関する統計的に証明された特性を持つ統一フレームワークにおいて,オフラインシーケンスモデリングとオフライン強化学習とダブルポリシー推定(dpe)を組み合わせたrlアルゴリズムを提案する。 D4RLベンチマークを用いてOpenAI Gymの複数のタスクで本手法を検証する。 提案手法は,複数のタスクにおいてSOTAベースラインを上回る性能向上を実現し,シーケンスモデル強化学習における二重ポリシー推定の利点を示す。

Offline reinforcement learning aims to utilize datasets of previously gathered environment-action interaction records to learn a policy without access to the real environment. Recent work has shown that offline reinforcement learning can be formulated as a sequence modeling problem and solved via supervised learning with approaches such as decision transformer. While these sequence-based methods achieve competitive results over return-to-go methods, especially on tasks that require longer episodes or with scarce rewards, importance sampling is not considered to correct the policy bias when dealing with off-policy data, mainly due to the absence of behavior policy and the use of deterministic evaluation policies. To this end, we propose DPE: an RL algorithm that blends offline sequence modeling and offline reinforcement learning with Double Policy Estimation (DPE) in a unified framework with statistically proven properties on variance reduction. We validate our method in multiple tasks of OpenAI Gym with D4RL benchmarks. Our method brings a performance improvements on selected methods which outperforms SOTA baselines in several tasks, demonstrating the advantages of enabling double policy estimation for sequence-modeled reinforcement learning.
翻訳日:2023-08-30 16:49:37 公開日:2023-08-28
# 個別治療効果予測のためのコンフォーマルメタラーナー

Conformal Meta-learners for Predictive Inference of Individual Treatment Effects ( http://arxiv.org/abs/2308.14895v1 )

ライセンス: Link先を確認
Ahmed Alaa, Zaid Ahmad, Mark van der Laan(参考訳) 個別治療効果(ites)に対する機械学習に基づく予測推論の問題点について検討した。 従来の研究は主にMLベースのメタラーナーの開発に重点を置いており、条件付き平均処理効果(CATE)の点推定を提供しており、これらは中間ニュアンス推定を結合してCATEの推定を生成するモデルに依存しないアプローチである。 本稿では,標準共形予測 (cp) 手順をcateメタリアナー上に適用することにより,itesの予測間隔を設定する汎用フレームワークであるconformal meta-learnersを開発した。 2段階の疑似カム回帰に基づくメタリーナーの幅広いクラスに注目し,その妥当性を検討するための確率的順序付けフレームワークを開発した。 また, コンフォメーションメタラーナーを用いた推論は, それらの(擬似結果)コンフォメーションスコアが, 非観測ITEで評価されたオラクルコンフォメーションスコアを統計的に支配している場合, 極めて有効であることを示した。 さらに,CATEメタ学習者(例えば,2倍の確率学習者)が,モデルおよび分布自由確率(あるいは凸)支配条件を満たすことを証明し,その共形推論が実際に関連する対象範囲のレベルに有効であることを示す。 既存のプロシージャが重み付きCPを介してニュアンスパラメータ(すなわち潜在的結果)の推論を行うのに対し、共形メタラーナーはターゲットパラメータ(ITE)の直接推論を可能にする。 数値実験により, 共形メタラーナーは, CATEメタラーナーの最適点推定特性を維持しつつ, 競争効率の高い有効区間を提供することが示された。

We investigate the problem of machine learning-based (ML) predictive inference on individual treatment effects (ITEs). Previous work has focused primarily on developing ML-based meta-learners that can provide point estimates of the conditional average treatment effect (CATE); these are model-agnostic approaches for combining intermediate nuisance estimates to produce estimates of CATE. In this paper, we develop conformal meta-learners, a general framework for issuing predictive intervals for ITEs by applying the standard conformal prediction (CP) procedure on top of CATE meta-learners. We focus on a broad class of meta-learners based on two-stage pseudo-outcome regression and develop a stochastic ordering framework to study their validity. We show that inference with conformal meta-learners is marginally valid if their (pseudo outcome) conformity scores stochastically dominate oracle conformity scores evaluated on the unobserved ITEs. Additionally, we prove that commonly used CATE meta-learners, such as the doubly-robust learner, satisfy a model- and distribution-free stochastic (or convex) dominance condition, making their conformal inferences valid for practically-relevant levels of target coverage. Whereas existing procedures conduct inference on nuisance parameters (i.e., potential outcomes) via weighted CP, conformal meta-learners enable direct inference on the target parameter (ITE). Numerical experiments show that conformal meta-learners provide valid intervals with competitive efficiency while retaining the favorable point estimation properties of CATE meta-learners.
翻訳日:2023-08-30 16:49:17 公開日:2023-08-28
# 緊急コールセンター会話における音声感情認識のためのマルチスケール文脈学習

Multiscale Contextual Learning for Speech Emotion Recognition in Emergency Call Center Conversations ( http://arxiv.org/abs/2308.14894v1 )

ライセンス: Link先を確認
Th\'eo Deschamps-Berger, Lori Lamel and Laurence Devillers(参考訳) 会話における感情認識は、高度な人間と機械のインタラクションを確保するために不可欠である。 しかし、実生活で堅牢で正確な感情認識システムを作成することは、主に野生で収集された感情データセットの不足と、会話の文脈を考慮できないために困難である。 CEMOデータセットは、フランスのコールセンターへの緊急コール中に、エージェントと患者の会話で構成される。 これらの相互作用の性質は、コンテキストが実際の感情を理解することに違いをもたらすため、患者の感情を予測する上での会話の感情の流れの役割を強調している。 本稿では,この仮説を活かした音声感情認識のためのマルチスケール会話文脈学習手法を提案する。 本手法は音声の書き起こしと音響セグメントの両方について検討した。 実験では,対象セグメントの事前情報または次情報を用いた。 テキスト領域では、異なる話者と反対話者の両方からの入力を考慮して、幅広いトークン(10から100)と音声旋回レベルを用いてコンテキストウィンドウをテストした。 我々のテストによると、過去のトークンから派生したコンテキストは、以下のトークンよりも正確な予測に大きな影響を及ぼす。 さらに、会話の中で同じ話者の最後のスピーチターンを取るのも便利である。 音響領域において,周囲の感情が予測に与える影響を詳細に分析した。 トランスフォーマーを用いたマルチスケール会話コンテキスト学習は、緊急通話記録におけるテキストモーダリティのパフォーマンスを向上させることができるが、音響的コンテキストを取り込むことはより困難である。

Emotion recognition in conversations is essential for ensuring advanced human-machine interactions. However, creating robust and accurate emotion recognition systems in real life is challenging, mainly due to the scarcity of emotion datasets collected in the wild and the inability to take into account the dialogue context. The CEMO dataset, composed of conversations between agents and patients during emergency calls to a French call center, fills this gap. The nature of these interactions highlights the role of the emotional flow of the conversation in predicting patient emotions, as context can often make a difference in understanding actual feelings. This paper presents a multi-scale conversational context learning approach for speech emotion recognition, which takes advantage of this hypothesis. We investigated this approach on both speech transcriptions and acoustic segments. Experimentally, our method uses the previous or next information of the targeted segment. In the text domain, we tested the context window using a wide range of tokens (from 10 to 100) and at the speech turns level, considering inputs from both the same and opposing speakers. According to our tests, the context derived from previous tokens has a more significant influence on accurate prediction than the following tokens. Furthermore, taking the last speech turn of the same speaker in the conversation seems useful. In the acoustic domain, we conducted an in-depth analysis of the impact of the surrounding emotions on the prediction. While multi-scale conversational context learning using Transformers can enhance performance in the textual modality for emergency call recordings, incorporating acoustic context is more challenging.
翻訳日:2023-08-30 16:48:48 公開日:2023-08-28
# ハードネガティブサンプリングが教師付きコントラスト学習に合うとき

When hard negative sampling meets supervised contrastive learning ( http://arxiv.org/abs/2308.14893v1 )

ライセンス: Link先を確認
Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa, Zaiqiao Meng(参考訳) 最先端の画像モデルは、主に2段階の戦略に従っている: 大規模なデータセットの事前トレーニングと、クロスエントロピー損失を伴う微調整。 多くの研究は、クロスエントロピーを使うことが準最適一般化と安定性をもたらすことを示した。 教師付きコントラスト損失は、クラス内類似性やクラス間差異に着目して、クロスエントロピー損失のいくつかの制限に対処するが、ハードネガティブマイニングの重要性を無視する。 モデルでは, 正の値との相似性に基づいて負のサンプルを重み付けすることで, 性能改善の恩恵を受ける。 本稿では,教師付きコントラスト学習の目標であるschaneについて紹介する。 特別なアーキテクチャ、追加のデータ、または余分な計算リソースを必要とせず、実験の結果、scheneは様々なベンチマークでトップ1の精度でbeit-3を上回っており、わずかな学習設定で最大3.32\%、データセットの微調整で3.41\$となっている。 重要なことに、提案手法はimagenet-1kのベースモデルに対して86.14\%の精度で最新技術を設定する。 さらに,提案する目標がより優れた組込みをもたらすことを実証し,実験で得られた有効性について解説する。

State-of-the-art image models predominantly follow a two-stage strategy: pre-training on large datasets and fine-tuning with cross-entropy loss. Many studies have shown that using cross-entropy can result in sub-optimal generalisation and stability. While the supervised contrastive loss addresses some limitations of cross-entropy loss by focusing on intra-class similarities and inter-class differences, it neglects the importance of hard negative mining. We propose that models will benefit from performance improvement by weighting negative samples based on their dissimilarity to positive counterparts. In this paper, we introduce a new supervised contrastive learning objective, SCHaNe, which incorporates hard negative sampling during the fine-tuning phase. Without requiring specialized architectures, additional data, or extra computational resources, experimental results indicate that SCHaNe outperforms the strong baseline BEiT-3 in Top-1 accuracy across various benchmarks, with significant gains of up to $3.32\%$ in few-shot learning settings and $3.41\%$ in full dataset fine-tuning. Importantly, our proposed objective sets a new state-of-the-art for base models on ImageNet-1k, achieving an 86.14\% accuracy. Furthermore, we demonstrate that the proposed objective yields better embeddings and explains the improved effectiveness observed in our experiments.
翻訳日:2023-08-30 16:48:25 公開日:2023-08-28
# 光電波検出器を用いたペニングトラップ固有周波数測定

Penning-trap eigenfrequency measurements with optical radiofrequency detectors ( http://arxiv.org/abs/2308.14884v1 )

ライセンス: Link先を確認
Joaqu\'in Berrocal, Alejandro Hern\'andez, \'I\~nigo Arrazola, Francisco Dom\'inguez, Ana Carrasco-Sanz, Francisco Javier Fern\'andez, Michael Block and Daniel Rodr\'iguez(参考訳) 電気双極子レーザー駆動型遷移法を用いて、ペアのシクロトロン周波数比を正確に測定し、7-テラペニングトラップにおいて、$^{42}$Ca$^+$-$^{40}$Ca$^+$, $^{44}$Ca$^+$-$^{40}$Ca$^+$, $^{48}$Ca$^+$-$^{40}$Ca$^+$ 単一レーザー冷却(T\approx 1$~mK)イオンは、光子計数および/または光子イメージングユニットと共に、広帯域周波数スペクトルをカバーする電波検出器として機能する。 このような検出器($^{40,42,44,48}$Ca$^{\scriptsize{+}}$)は、それぞれMHzとkHz体制において7.4(3.5)$ yN$/\sqrt{\text{Hz}}$と24.9(9.9)$ yN$/\sqrt{\text{Hz}}$まで、非常に小さな力を測定することができる。 イオンの振幅の直接決定により、シクロトロン-周波数測定プロセスは、トラップの機械的欠陥による磁場の不均一性や電気四重極磁場の偏差に対してより堅牢になる。

We use an electric-dipole laser-driven transition to precisely measure the cyclotron-frequency ratios of the pairs $^{42}$Ca$^+$-$^{40}$Ca$^+$, $^{44}$Ca$^+$-$^{40}$Ca$^+$ and $^{48}$Ca$^+$-$^{40}$Ca$^+$ in a 7-tesla Penning trap. A single laser-cooled ($T\approx 1$~mK) ion serves, together with photon-counting and/or photon-imaging units, as a radiofrequency detector covering a broad-band frequency spectrum, in the present case from kHz to a few MHz. Such detectors ($^{40,42,44,48}$Ca$^{\scriptsize{+}}$) allow measuring extremely small forces, with measured normalized sensitivities down to $7.4(3.5)$ yN$/\sqrt{\text{Hz}}$ and $24.9(9.9)$ yN$/\sqrt{\text{Hz}}$ in the MHz and kHz regime, respectively. The direct determination of the ions' amplitudes makes a cyclotron-frequency measurement process more robust against inhomogeneities of the magnetic field and/or deviations of the electric quadrupole field due to mechanical imperfections of the trap.
翻訳日:2023-08-30 16:47:57 公開日:2023-08-28
# クロスキャビティシステムにおける原子を用いた普遍量子計算

Universal Quantum Computation Using Atoms in Cross-Cavity Systems ( http://arxiv.org/abs/2308.14881v1 )

ライセンス: Link先を確認
Luiz Otavio Ribeiro Solak, Daniel Zini Rossatto, Celso Jorge Villas-Boas(参考訳) 量子ゲートは量子回路の構成要素であり、量子情報処理の基盤となっている。 本研究では,CNOT (Universal two) と 3-qubit (quantum Fredkin) の両ゲートの1段階実装を,$\Lambda$-type 3-level atom に結合したクロスキャビティ構成で理論的に検討する。 高共役性では、システムは入力光パルスの2モードの単光子明るく暗い状態を含む原子状態依存の量子干渉を示す。 これにより、原子による光状態の制御操作が可能となり、逆もまた可能となる。 その結果, 量子干渉が電磁誘起透過現象とオートラータウンスプリットに起因する弱結合状態と強結合状態のいずれにおいても, 量子ゲートは最先端のパラメータを用いて高い成功確率で実装できることがわかった。 この作業は、単純なリソースを使って単一のステップで量子ゲートを実装する方法を広げるだけでなく、回路で基本的なゲートを繋ぐ必要性を回避し、普遍的な量子計算を実現するためのクロスキャビティシステムの可能性も支持する。

Quantum gates are the building blocks of quantum circuits, which in turn are the cornerstones of quantum information processing. In this work we theoretically investigate a single-step implementation of both a universal two- (CNOT) and three-qubit (quantum Fredkin) gates in a cross-cavity setup coupled to a $\Lambda$-type three-level atom. Within a high-cooperativity regime, the system exhibits an atomic-state-dependent quantum interference involving the two-mode single-photon bright and dark states of the input light pulses. This allows for the controlled manipulation of light states by the atom and vice versa. Our results indicate these quantum gates can be implemented with high probability of success using the state-of-the-art parameters, either for the weak- or strong-coupling regime, where the quantum interference is due to an electromagnetically-induced-transparency-like phenomenon and the Autler-Townes splitting, respectively. This work not only paves the way for implementing quantum gates in a single step using simple resources, thus avoiding the need to chain basic gates together in a circuit, but it also endorses the potential of cross-cavity systems for realizing universal quantum computation.
翻訳日:2023-08-30 16:47:22 公開日:2023-08-28
# CommunityFish:階層的クラスタリングによるPoissonベースのドキュメントスケーリング

CommunityFish: A Poisson-based Document Scaling With Hierarchical Clustering ( http://arxiv.org/abs/2308.14873v1 )

ライセンス: Link先を確認
Sami Diaf(参考訳) 文書のスケーリングは、社会科学者のためのテキスト・アズ・データ・アプリケーションにおいて重要な要素であり、様々な確率的アプローチと非確率的アプローチの助けを借りて、話者と当事者の違いを明らかにすることを目的とした政治研究者の大きな関心分野である。 しかし、これらの手法のほとんどは、不可知論的に言葉の袋の仮説に基づいているか、結果をかなりのバイアスで埋め込む外部ソースから借りた事前情報を使うかのどちらかである。 コーパスが長い間文書の集合と見なされてきた場合、コミュニティとして知られる文書の共起に基づき、独立した単語群を区別するために構造をクラスタ化できる連結語の密集したネットワークと見なすこともできる。 本稿では,Wordfish の階層的クラスタリング,すなわち Louvain アルゴリズムに基づく拡張版として CommunityFish を導入し,単語空間ではなく Wordfish メソッドへの入力として,コーパスから出現する意味的かつ独立した n-gram としてコミュニティを生成する。 この戦略は、コミュニティが重複しない構造であるため、Poissonスケーリングモデルの実行の高速化に加えて、当事者や講演者を識別する上で重要な情報的力を持つため、結果の解釈可能性を強調している。 この技法の適用は、亜熱帯のプロキシであると見なされるコミュニティを産み出すのとは別に、合衆国の住所における歴史的発展を強調することで、古典的なWordfishモデルよりも優れており、政党の立法宣言のコーパスを使用する際に、ドイツにおける一般的な政治的スタンスを再現することが判明した。

Document scaling has been a key component in text-as-data applications for social scientists and a major field of interest for political researchers, who aim at uncovering differences between speakers or parties with the help of different probabilistic and non-probabilistic approaches. Yet, most of these techniques are either built upon the agnostically bag-of-word hypothesis or use prior information borrowed from external sources that might embed the results with a significant bias. If the corpus has long been considered as a collection of documents, it can also be seen as a dense network of connected words whose structure could be clustered to differentiate independent groups of words, based on their co-occurrences in documents, known as communities. This paper introduces CommunityFish as an augmented version of Wordfish based on a hierarchical clustering, namely the Louvain algorithm, on the word space to yield communities as semantic and independent n-grams emerging from the corpus and use them as an input to Wordfish method, instead of considering the word space. This strategy emphasizes the interpretability of the results, since communities have a non-overlapping structure, hence a crucial informative power in discriminating parties or speakers, in addition to allowing a faster execution of the Poisson scaling model. Aside from yielding communities, assumed to be subtopic proxies, the application of this technique outperforms the classic Wordfish model by highlighting historical developments in the U.S. State of the Union addresses and was found to replicate the prevailing political stance in Germany when using the corpus of parties' legislative manifestos.
翻訳日:2023-08-30 16:46:58 公開日:2023-08-28
# グラフェン中のカシミール摩擦の空間依存性について

On the spatial dependence of Casimir friction in graphene ( http://arxiv.org/abs/2308.14868v1 )

ライセンス: Link先を確認
Aitor Fern\'andez and C\'esar D. Fosco(参考訳) 平面グラフェンシートに平行な非相対論的定数速度で移動する原子に対するカシミール摩擦現象の空間的性質について検討した。 原子と真空電磁界(em)の結合は、電気双極子項とr\"ontgen項によって実現される。 フェルミオン対生成について検討し,フェルミオン放出確率の角度依存性を評価した。 この現象はしきい値を示しており、スライディング運動の速度が媒体のフェルミ速度よりも大きい場合にのみ存在する。

We study the spatial properties of the Casimir friction phenomenon for an atom moving at a non-relativistic constant velocity parallel to a planar graphene sheet. The coupling of the atom to the vacuum electromagnetic (EM) field is implemented by an electric dipole term, plus a R\"ontgen term. We study the fermion pair production, evaluating the angular dependence of the fermion emission probability. The phenomenon exhibits a threshold: it only exists when the speed of the sliding motion is larger than the Fermi velocity of the medium.
翻訳日:2023-08-30 16:46:28 公開日:2023-08-28
# NAS-X: ツイストによるニューラル適応平滑化

NAS-X: Neural Adaptive Smoothing via Twisting ( http://arxiv.org/abs/2308.14864v1 )

ライセンス: Link先を確認
Dieterich Lawson, Michael Li, Scott Linderman(参考訳) 本稿では,reweighted wake-sleep (rws) に基づく逐次潜在変数モデルの学習と推論手法であるtwisting (nas-x) を用いたニューラル適応平滑化について述べる。 NAS-X は離散変数と連続変数の両方で動作し、滑らかな SMC を利用して従来の RWS 法よりも広い範囲のモデルに適合する。 我々はNAS-Xを離散的かつ連続的なタスクでテストし、推論やパラメータ回復において従来の変分法やRWSベースの手法よりも大幅に優れていることを発見した。

We present Neural Adaptive Smoothing via Twisting (NAS-X), a method for learning and inference in sequential latent variable models based on reweighted wake-sleep (RWS). NAS-X works with both discrete and continuous latent variables, and leverages smoothing SMC to fit a broader range of models than traditional RWS methods. We test NAS-X on discrete and continuous tasks and find that it substantially outperforms previous variational and RWS-based methods in inference and parameter recovery.
翻訳日:2023-08-30 16:46:20 公開日:2023-08-28
# 都市交通脱炭のための持続可能な経路を探る--自動車技術、経営戦略、運転行動

Exploring sustainable pathways for urban traffic decarbonization: vehicle technologies, management strategies, and driving behaviour ( http://arxiv.org/abs/2308.14914v1 )

ライセンス: Link先を確認
Saba Sabet and Bilal Farooq(参考訳) 気候変動と大気汚染に対する世界的な戦いは、持続可能な輸送手段への移行を優先している。 さまざまな持続可能な経路が排出、旅行時間、コストに与える影響を理解することは、研究者や政策立案者にとって重要である。 本研究は,カナダのトロント市中心部の交通・排ガスの包括的マイクロシミュレーションを行い,脱炭シナリオについて検討する。 結果140のシナリオには、異なる燃料タイプ、コネクテッド・アンド・オートマチック・ビークルズ(CAV)の浸透率、そして運転スタイルと組み合わせたルーティング戦略が含まれる。 これを達成するために、トランスフォーマーに基づく予測モデルは、温室効果ガス(GHG)と窒素酸化物(NOx)の排出とエコローティングの平均速度を正確に予測する。 研究によると、100%の電気自動車はGHG排出量が最も低く、持続可能な輸送ソリューションとしての可能性を示している。 しかし、コストと可用性に関する課題は続いている。 ハイブリッド電気自動車とe-fuelsは、有望な代替手段として登場し、かなりの排出削減を示している。 CAVと予測ルーティング戦略を統合することで、GHG排出量を大幅に削減できる。 さらに、エコドライブの実践とエコルート戦略はNOx排出と旅行時間に顕著な影響を及ぼす。 包括的コスト分析は、様々な戦略や技術の経済的影響に関する貴重な洞察を提供する。 これらの知見は、効率的な戦略、行動変化、排出削減と持続可能な輸送開発のための政策を策定する様々なステークホルダーにガイダンスを提供する。

The global fight against climate change and air pollution prioritizes the transition to sustainable transportation options. Understanding the impacts of various sustainable pathways on emissions, travel time, and costs is crucial for researchers and policymakers. This research conducts a comprehensive microsimulation of traffic and emissions in downtown Toronto, Canada, to examine decarbonization scenarios. The resulting 140 scenarios involve different fuel types, Connected and Automated Vehicles (CAV) penetration rates, and routing strategies combined with driving style. To achieve this, transformers-based prediction models accurately forecast Greenhouse Gas (GHG) and Nitrogen Oxides (NOx) emissions and average speed for eco-routing. The study finds that 100% battery electric vehicles have the lowest GHG emissions, showing their potential as a sustainable transportation solution. However, challenges related to cost and availability persist. Hybrid Electric Vehicles and e-fuels demonstrate considerable emission reductions, emerging as promising alternatives. Integrating CAVs with anticipatory routing strategies significantly reduces GHG emissions. Additionally, eco-driving practices and eco-routing strategies have a notable impact on NOx emissions and travel time. Comprehensive cost analysis provides valuable insights into the economic implications of various strategies and technologies. These findings offer guidance to various stakeholders in formulating effective strategies, behaviour changes, and policies for emission reduction and sustainable transportation development.
翻訳日:2023-08-30 16:40:39 公開日:2023-08-28
# gisinの定理の量子場への一般化

Generalization of Gisin's Theorem to Quantum Fields ( http://arxiv.org/abs/2308.14913v1 )

ライセンス: Link先を確認
Konrad Schlichtholz and Marcin Markiewicz(参考訳) 我々は、純粋状態の絡み合いとベル非古典性の間の関係に関するギシンの定理を、定理を未定義の粒子数で被覆するように拡張する量子場のモードのモード絡み合いの場合に一般化する。 分離モードの2つの群間の絡み合いを含む体の純粋な状態が、いくつかのクレーター=ホルン不等式に反することを示す。 最初のステップで違反につながる可観測性を構築するために、2つのモードの分離群を含む1粒子空間から構築されたフォック空間と、2つの抽象可分ヒルベルト空間のテンソル積の間の同型性を示す。 2番目のステップでは、このテンソル積空間に写像された与えられた絡み合った状態のシュミット分解を行い、得られたシュミット分解を検討中の系の元のフォック空間に写像する。 このようなフォック空間におけるシュミット分解は、クロージャ・ホーンの不等式に違反する可観測性の構築を可能にする。 また、ギシンの定理の一般化は、実際には無限個の粒子を持つ状態を表す非分離ヒルベルト空間上の状態の場合にも成り立つことを示す。 このような状態は、例えば量子相転移の議論において現れる。 最後に, 組込みベル試験の実験的実現可能性について検討し, 受動線形光学領域における本試験の実現に必要条件を提供する。

We generalize Gisin's theorem on the relation between the entanglement of pure states and Bell non-classicality to the case of mode entanglement of separated groups of modes of quantum fields extending the theorem to cover also states with undefined particle number. We show that any pure state of the field which contains entanglement between two groups of separated modes violates some Clauser-Horne inequality. In order to construct the observables leading to a violation in the first step, we show an isomorphism between the Fock space built from a single-particle space involving two separated groups of modes and a tensor product of two abstract separable Hilbert spaces spanned by formal monomials of creation operators. In the second step, we perform a Schmidt decomposition of a given entangled state mapped to this tensor product space and then we map back the obtained Schmidt decomposition to the original Fock space of the system under consideration. Such obtained Schmidt decomposition in Fock space allows for construction of observables leading to a violation of the Clauser-Horne inequality. We also show that our generalization of Gisin's theorem holds for the case of states on non-separable Hilbert spaces, which physically represent states with actually infinite number of particles. Such states emerge, for example, in the discussion of quantum phase transitions. Finally, we discuss the experimental feasibility of constructed Bell test and provide a necessary condition for realizability of this test within the realm of passive linear optics.
翻訳日:2023-08-30 16:40:15 公開日:2023-08-28
# ゼロショット多話者テキスト音声の自己認識

Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech ( http://arxiv.org/abs/2308.14909v1 )

ライセンス: Link先を確認
Hyungchan Yoon, Changhwan Kim, Eunwoo Song, Hyun-Wook Yoon, Hong-Goo Kang(参考訳) パーソナライズされた音声生成には、ターゲット話者からの限られたデータで、ニューラルテキスト音声(TTS)モデルをうまく実装する必要がある。 この目的のために、ベースラインTSモデルは、ドメイン外のデータ(すなわち、ターゲット話者のスピーチ)に十分に一般化する必要がある。 しかし、TSにおける領域外一般化問題に対処するアプローチはまだ十分に研究されていない。 本研究では,TSモデルの一般化能力を向上させるために,スパースアテンション(sparse attention)と呼ばれる変圧器の効率的なプルーニング法を提案する。 特に注意重みが閾値以下である自己着脱層から冗長な接続を逸脱する。 最適一般化度を求めるためのプルーニング強度を柔軟に決定するために,モデルがしきい値を自動的に学習できる新しい微分可能なプルーニング法を提案する。 ゼロショットマルチスピーカTSの評価は,音声品質と話者類似度の観点から,本手法の有効性を検証する。

For personalized speech generation, a neural text-to-speech (TTS) model must be successfully implemented with limited data from a target speaker. To this end, the baseline TTS model needs to be amply generalized to out-of-domain data (i.e., target speaker's speech). However, approaches to address this out-of-domain generalization problem in TTS have yet to be thoroughly studied. In this work, we propose an effective pruning method for a transformer known as sparse attention, to improve the TTS model's generalization abilities. In particular, we prune off redundant connections from self-attention layers whose attention weights are below the threshold. To flexibly determine the pruning strength for searching optimal degree of generalization, we also propose a new differentiable pruning method that allows the model to automatically learn the thresholds. Evaluations on zero-shot multi-speaker TTS verify the effectiveness of our method in terms of voice quality and speaker similarity.
翻訳日:2023-08-30 16:39:51 公開日:2023-08-28
# BayotIDE: 機能分解を伴うBayesian Online Multivariate Time Series Imputation

BayOTIDE: Bayesian Online Multivariate Time series Imputation with functional decomposition ( http://arxiv.org/abs/2308.14906v1 )

ライセンス: Link先を確認
Shikai Fang, Qingsong Wen, Shandian Zhe, Liang Sun,(参考訳) 交通やエネルギーといった現実のシナリオでは、値やノイズが欠けている巨大な時系列データが広く観測され、不規則にサンプリングされる。 多くのインプテーション手法が提案されているが、その多くは局所的な水平線で動作し、モデルが長い列をフィットサイズのパッチのバッチに分割することで訓練される。 この局所的な地平線は、モデルにグローバルなトレンドや周期的なパターンを無視させる。 さらに重要なことは、ほとんどの方法では、観測は通常のタイムスタンプでサンプリングされ、異なるアプリケーションから生じる複雑な不規則なサンプル時系列を扱うことができないと仮定している。 第3に、既存のほとんどのメソッドはオフラインで学習される。 したがって、高速ストリーミングデータを持つ多くのアプリケーションには適していない。 これらの制限を克服するために,関数分解を伴う<ours: Bayesian Online Multivariate Time series Imputationを提案する。 多変量時系列を低ランク時間因子群と異なるパターンの重み付けの組み合わせとして扱う。 異なるカーネルを持つガウス過程(GP)の群を機能的先行として適用し,その因子に適合する。 計算効率を向上させるため、等価確率微分方程式(SDE)を構築し、オンライン推論のためのスケーラブルなアルゴリズムを開発することにより、GPを状態空間に変換する。 提案手法は任意のタイムスタンプ上での計算だけでなく,下流アプリケーションに対して不確実な定量化と解釈性を提供する。 本手法を合成データと実世界データの両方で評価する。

In real-world scenarios like traffic and energy, massive time-series data with missing values and noises are widely observed, even sampled irregularly. While many imputation methods have been proposed, most of them work with a local horizon, which means models are trained by splitting the long sequence into batches of fit-sized patches. This local horizon can make models ignore global trends or periodic patterns. More importantly, almost all methods assume the observations are sampled at regular time stamps, and fail to handle complex irregular sampled time series arising from different applications. Thirdly, most existing methods are learned in an offline manner. Thus, it is not suitable for many applications with fast-arriving streaming data. To overcome these limitations, we propose \ours: Bayesian Online Multivariate Time series Imputation with functional decomposition. We treat the multivariate time series as the weighted combination of groups of low-rank temporal factors with different patterns. We apply a group of Gaussian Processes (GPs) with different kernels as functional priors to fit the factors. For computational efficiency, we further convert the GPs into a state-space prior by constructing an equivalent stochastic differential equation (SDE), and developing a scalable algorithm for online inference. The proposed method can not only handle imputation over arbitrary time stamps, but also offer uncertainty quantification and interpretability for the downstream application. We evaluate our method on both synthetic and real-world datasets.
翻訳日:2023-08-30 16:39:36 公開日:2023-08-28
# 音声コンテンツ埋め込みへのニューラルアプローチ

Neural approaches to spoken content embedding ( http://arxiv.org/abs/2308.14905v1 )

ライセンス: Link先を確認
Shane Settle(参考訳) 音声セグメントの比較は、音声処理の中心的な操作である。 この領域における伝統的なアプローチは、動的時間ワーピングのようなフレームレベルの動的プログラミングアルゴリズムを好んでいるが、それらは監視を必要としないが、性能と効率に制限がある。 代案として、可変長音声単語セグメントの定次元ベクトル表現である音響単語の埋め込みも、そのような作業のために検討され始めている。 しかし、このような差別的な埋め込みモデル、トレーニングアプローチ、および現実世界の下流タスクへの応用の現在の空間は限られている。 まず,同じ単語と異なる単語のセグメントペアを分離した音響単語の埋め込みモデルを学ぶことを目標とする「単一視点」の学習損失について検討する。 この設定では、文字列の埋め込みと共に音響単語の埋め込みを学習して、書き言葉の音響的接地埋め込み、あるいは音響的接地単語の埋め込みを生成する。 本稿では,ニューラルネット(RNN)に基づく新しい識別的音響単語埋め込み(AWE)と音響的接地単語埋め込み(AGWE)アプローチを提案する。 効率とパフォーマンスの両面で、モデルトレーニングを改善します。 我々は、これらの開発を英語以外の低リソース言語にも適用し、ラベル付きデータに制限がある場合、多言語学習がパフォーマンスを向上させることを示す。 我々は,クエリバイサンプル音声検索と自動音声認識の下流タスクに,単言語と多言語の両方の組込みモデルを適用する。 最後に,近年の自己教師型音声モデルと比較し,補完する方法について述べる。

Comparing spoken segments is a central operation to speech processing. Traditional approaches in this area have favored frame-level dynamic programming algorithms, such as dynamic time warping, because they require no supervision, but they are limited in performance and efficiency. As an alternative, acoustic word embeddings -- fixed-dimensional vector representations of variable-length spoken word segments -- have begun to be considered for such tasks as well. However, the current space of such discriminative embedding models, training approaches, and their application to real-world downstream tasks is limited. We start by considering ``single-view" training losses where the goal is to learn an acoustic word embedding model that separates same-word and different-word spoken segment pairs. Then, we consider ``multi-view" contrastive losses. In this setting, acoustic word embeddings are learned jointly with embeddings of character sequences to generate acoustically grounded embeddings of written words, or acoustically grounded word embeddings. In this thesis, we contribute new discriminative acoustic word embedding (AWE) and acoustically grounded word embedding (AGWE) approaches based on recurrent neural networks (RNNs). We improve model training in terms of both efficiency and performance. We take these developments beyond English to several low-resource languages and show that multilingual training improves performance when labeled data is limited. We apply our embedding models, both monolingual and multilingual, to the downstream tasks of query-by-example speech search and automatic speech recognition. Finally, we show how our embedding approaches compare with and complement more recent self-supervised speech models.
翻訳日:2023-08-30 16:39:12 公開日:2023-08-28
# 階層的適応型サンプル評価を用いた意味セグメンテーションのための成熟度対応アクティブラーニング

Maturity-Aware Active Learning for Semantic Segmentation with Hierarchically-Adaptive Sample Assessment ( http://arxiv.org/abs/2308.14904v1 )

ライセンス: Link先を確認
Amirsaeed Yazdani, Xuelu Li, and Vishal Monga(参考訳) 意味セグメンテーションのためのアクティブラーニング(al)は、重いクラスの不均衡と、"サンプル"(ピクセル、領域など)を定義する異なる方法によって困難であり、データ分布の解釈が曖昧である。 本稿では,多視点データ分布を定義するための階層的アプローチの恩恵を受けるal手法であるmaturity-aware distribution breakdown-based active learning'(madbal)を提案する。 MADBALはまた、新しい不確実性定式化を特徴とし、ALサポートモジュールは、重み付けされた影響が不確実性検出に継続的に寄与する特徴の成熟度を感知するために含まれる。 このように、MADBALは初期のALステージでも大幅な性能向上を行い、トレーニングの負担を大幅に軽減する。 都市景観とPASCAL VOCデータセットにおける最先端の手法よりも優れており、我々の広範な実験で検証されている。

Active Learning (AL) for semantic segmentation is challenging due to heavy class imbalance and different ways of defining "sample" (pixels, areas, etc.), leaving the interpretation of the data distribution ambiguous. We propose "Maturity-Aware Distribution Breakdown-based Active Learning'' (MADBAL), an AL method that benefits from a hierarchical approach to define a multiview data distribution, which takes into account the different "sample" definitions jointly, hence able to select the most impactful segmentation pixels with comprehensive understanding. MADBAL also features a novel uncertainty formulation, where AL supporting modules are included to sense the features' maturity whose weighted influence continuously contributes to the uncertainty detection. In this way, MADBAL makes significant performance leaps even in the early AL stage, hence reducing the training burden significantly. It outperforms state-of-the-art methods on Cityscapes and PASCAL VOC datasets as verified in our extensive experiments.
翻訳日:2023-08-30 16:38:46 公開日:2023-08-28
# MEMORY-VQ: トラクタブルインターネットスケールメモリの圧縮

MEMORY-VQ: Compression for Tractable Internet-Scale Memory ( http://arxiv.org/abs/2308.14903v1 )

ライセンス: Link先を確認
Yury Zemlyanskiy, Michiel de Jong, Luke Vilnis, Santiago Onta\~n\'on, William W. Cohen, Sumit Sanghai, Joshua Ainslie(参考訳) Retrieval augmentationは、言語モデルを世界についてより理解しやすいものにするための、強力だが高価な方法である。 lumenのようなメモリベースのメソッドは、検索されたパスに対するトークン表現をプリコンピュートし、推論を劇的に高速化する。 しかし、メモリはプリコンパイルされた表現を格納することによるストレージの要求も大きくなります。 本稿では,メモリ拡張モデルのストレージ要求を減らし,性能を犠牲にすることなく,MEMORY-VQを提案する。 本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)を用いてトークン表現を圧縮する。 LUMENモデルにMEMORY-VQを適用し、KILTベンチマークで同等の性能の16倍圧縮率のメモリモデルであるLUMEN-VQを得る。 LUMEN-VQは、非常に大規模な検索コーパスであっても、実用的な検索拡張を可能にする。

Retrieval augmentation is a powerful but expensive method to make language models more knowledgeable about the world. Memory-based methods like LUMEN pre-compute token representations for retrieved passages to drastically speed up inference. However, memory also leads to much greater storage requirements from storing pre-computed representations. We propose MEMORY-VQ, a new method to reduce storage requirements of memory-augmented models without sacrificing performance. Our method uses a vector quantization variational autoencoder (VQ-VAE) to compress token representations. We apply MEMORY-VQ to the LUMEN model to obtain LUMEN-VQ, a memory model that achieves a 16x compression rate with comparable performance on the KILT benchmark. LUMEN-VQ enables practical retrieval augmentation even for extremely large retrieval corpora.
翻訳日:2023-08-30 16:38:28 公開日:2023-08-28
# Ad-Rec:レコメンデーションネットワークにおける共変量シフトに対応する高度な特徴相互作用

Ad-Rec: Advanced Feature Interactions to Address Covariate-Shifts in Recommendation Networks ( http://arxiv.org/abs/2308.14902v1 )

ライセンス: Link先を確認
Muhammad Adnan, Yassaman Ebrahimzadeh Maboud, Divya Mahajan, Prashant J. Nair(参考訳) 推薦モデルは、複数の入力特徴間の相関を利用してパーソナライズされたユーザーエクスペリエンスを提供する上で不可欠である。 しかしながら、ディープラーニングベースのレコメンデーションモデルは、ユーザの振る舞いやアイテム機能の進化によって、しばしば課題に直面している。 効果的なクロスフィーチャー学習は、データ分散のドリフトと、ユーザの振る舞いの変化に対応するために不可欠である。 伝統的な機能相互作用技術は、この文脈で最適なパフォーマンスを達成するのに限界がある。 本研究は,機能インタラクション技術を活用する高度なネットワークであるad-recについて紹介する。 これはレコメンデーションタスクで無関係なインタラクションを排除するのに役立つ。 ad-recはマスクトランスフォーマーを利用して、データ分散ドリフトの影響を緩和しながら、高次クロスフィーチャーの学習を可能にする。 提案手法は,AUC(Area Under Curve)測定値により,モデル品質の向上,収束の促進,トレーニング時間短縮を実現する。 包括的アブレーション研究を通じて,ad-recのスケーラビリティと優れたモデル品質を実現する能力を示す。

Recommendation models are vital in delivering personalized user experiences by leveraging the correlation between multiple input features. However, deep learning-based recommendation models often face challenges due to evolving user behaviour and item features, leading to covariate shifts. Effective cross-feature learning is crucial to handle data distribution drift and adapting to changing user behaviour. Traditional feature interaction techniques have limitations in achieving optimal performance in this context. This work introduces Ad-Rec, an advanced network that leverages feature interaction techniques to address covariate shifts. This helps eliminate irrelevant interactions in recommendation tasks. Ad-Rec leverages masked transformers to enable the learning of higher-order cross-features while mitigating the impact of data distribution drift. Our approach improves model quality, accelerates convergence, and reduces training time, as measured by the Area Under Curve (AUC) metric. We demonstrate the scalability of Ad-Rec and its ability to achieve superior model quality through comprehensive ablation studies.
翻訳日:2023-08-30 16:38:16 公開日:2023-08-28
# BIT:効率的な監視行動分割のためのバイレベルテンポラルモデリング

BIT: Bi-Level Temporal Modeling for Efficient Supervised Action Segmentation ( http://arxiv.org/abs/2308.14900v1 )

ライセンス: Link先を確認
Zijia Lu, Ehsan Elhamifar(参考訳) 本研究は,動画を非重複セグメントに分割し,異なるアクションを表現するための教師ありアクションセグメンテーションの課題に対処する。 最近の研究は、高計算コストに悩まされ、長時間の時間的水平線上でのアクション依存をうまく捉えられないフレームレベルでの時間的モデリングを行うためにトランスフォーマーを適用している。 これらの問題に対処するため,我々は,フレームやアクションレベルで時間的モデリングを行いながら,計算コストを低く抑えながら,アクションセグメントを表す明示的なアクショントークンを学習するBIレベルの時間的モデリング(BIT)フレームワークを提案する。 私たちのモデルは (i)畳み込みを用いてフレームレベルの関係を学習するフレームブランチ。 (ii)小さなアクショントークンセットで、transformerを使ってアクションレベルの依存関係を学習するアクションブランチ (iii)2つの分枝間の通信を可能にするための相互接続。 各アクショントークンが1つまたは複数のアクションセグメントを表現できるようにセット予測対象を適用して拡張することにより、多くのセグメントを持つ長いビデオ上で大量のトークンを学習するのを避けることができる。 アクションブランチの設計のおかげで、動画のテキストの書き起こしをシームレスに利用して、アクショントークンを初期化してアクションセグメンテーションを支援することもできます。 提案手法は4つの映像データセット(2つのエゴセントリックと2人の第三者)の動作セグメンテーションの評価を行い、従来のトランスフォーマー方式に比べて計算コスト(30倍の速度)が大幅に低く、最先端の精度が向上することを示した。

We address the task of supervised action segmentation which aims to partition a video into non-overlapping segments, each representing a different action. Recent works apply transformers to perform temporal modeling at the frame-level, which suffer from high computational cost and cannot well capture action dependencies over long temporal horizons. To address these issues, we propose an efficient BI-level Temporal modeling (BIT) framework that learns explicit action tokens to represent action segments, in parallel performs temporal modeling on frame and action levels, while maintaining a low computational cost. Our model contains (i) a frame branch that uses convolution to learn frame-level relationships, (ii) an action branch that uses transformer to learn action-level dependencies with a small set of action tokens and (iii) cross-attentions to allow communication between the two branches. We apply and extend a set-prediction objective to allow each action token to represent one or multiple action segments, thus can avoid learning a large number of tokens over long videos with many segments. Thanks to the design of our action branch, we can also seamlessly leverage textual transcripts of videos (when available) to help action segmentation by using them to initialize the action tokens. We evaluate our model on four video datasets (two egocentric and two third-person) for action segmentation with and without transcripts, showing that BIT significantly improves the state-of-the-art accuracy with much lower computational cost (30 times faster) compared to existing transformer-based methods.
翻訳日:2023-08-30 16:37:59 公開日:2023-08-28
# RobustCLEVR: オブジェクト指向学習におけるロバスト性評価のためのベンチマークとフレームワーク

RobustCLEVR: A Benchmark and Framework for Evaluating Robustness in Object-centric Learning ( http://arxiv.org/abs/2308.14899v1 )

ライセンス: Link先を確認
Nathan Drenkow, Mathias Unberath(参考訳) オブジェクト中心表現学習は、イメージシーンを構成要素に明示的に解析することで、画像レベルの表現の限界を克服する可能性を提供する。 画像レベルの表現は通常、自然画像の腐敗に対する堅牢性に欠けるが、オブジェクト中心のメソッドの堅牢性はほとんどテストされていない。 このギャップに対処するため,ロバストCLEVRベンチマークデータセットと評価フレームワークを提案する。 本フレームワークは,知識を基礎とした画像生成プロセスにおける因果依存性の特定を可能にし,既存のロバスト性評価では達成不可能な幅広い画像汚職を発生させることにより,ロバスト性の評価に新たなアプローチをとる。 この枠組みを用いて,各汚職タイプの因果関係と分布に関する仮定を明示的にエンコードする,画像汚損プロセスのいくつかの因果モデルを定義する。 我々は、最先端のオブジェクト中心手法を評価する因果モデル毎にデータセットの変種を生成する。 全体として、オブジェクト中心の手法は本質的に画像の破損に対して堅牢ではない。 因果評価アプローチは,従来の評価プロセスでは観察されなかったモデルの感度を露呈し,アルゴリズム間のロバスト性差に対する深い洞察を与える。 最後に, 従来のロバスト性評価では, 汚職をアウト・オブ・ディストリビューションと見なしているが, 因果的枠組みを用いて, 分布内画像汚損のトレーニングにおいてもモデルロバスト性の増加は保証されないことを示す。 この研究は、現実世界の複雑な汚職プロセス下でのモデル性能と劣化に関するより具体的で実証された理解への一歩を提供する。

Object-centric representation learning offers the potential to overcome limitations of image-level representations by explicitly parsing image scenes into their constituent components. While image-level representations typically lack robustness to natural image corruptions, the robustness of object-centric methods remains largely untested. To address this gap, we present the RobustCLEVR benchmark dataset and evaluation framework. Our framework takes a novel approach to evaluating robustness by enabling the specification of causal dependencies in the image generation process grounded in expert knowledge and capable of producing a wide range of image corruptions unattainable in existing robustness evaluations. Using our framework, we define several causal models of the image corruption process which explicitly encode assumptions about the causal relationships and distributions of each corruption type. We generate dataset variants for each causal model on which we evaluate state-of-the-art object-centric methods. Overall, we find that object-centric methods are not inherently robust to image corruptions. Our causal evaluation approach exposes model sensitivities not observed using conventional evaluation processes, yielding greater insight into robustness differences across algorithms. Lastly, while conventional robustness evaluations view corruptions as out-of-distribution, we use our causal framework to show that even training on in-distribution image corruptions does not guarantee increased model robustness. This work provides a step towards more concrete and substantiated understanding of model performance and deterioration under complex corruption processes of the real-world.
翻訳日:2023-08-30 16:37:32 公開日:2023-08-28
# 量子前処理フィルタの微小サンプルによる2値画像分類への応用

Application of Quantum Pre-Processing Filter for Binary Image Classification with Small Samples ( http://arxiv.org/abs/2308.14930v1 )

ライセンス: Link先を確認
Farina Riaz and Shahab Abdulla and Hajime Suzuki and Srinjoy Ganguly and Ravinesh C. Deo and Susan Hopkins(参考訳) 過去数年間、研究者の間で量子機械学習(QML)に大きな関心が寄せられてきた。 量子力学の性質を利用するいくつかのモデルが実用化のために開発されている。 本研究では,提案する量子前処理フィルタ(qpf)のバイナリ画像分類への応用について検討した。 MNIST(手書き桁)、EMNIST(手書き桁とアルファベット)、CIFAR-10(写真画像)、GTSRB(実生活交通標識画像)の4つのデータセットでQPFを評価した。 qpfの適用により、mnist、emnist、cifar-10に対するニューラルネットワークを用いたバイナリ画像分類精度が98.9%から99.2%、97.8%から98.3%、71.2%から76.1%に向上したが、93.5%から92.0%に低下した。 次に,クラス毎に80サンプルと20サンプルという,少数のトレーニングとテストサンプルを使用したケースでqpfを適用した。 統計的に安定な結果を得るため,ランダムに異なるトレーニングとテストのサンプルを選択し,平均化する100回の試験を行った。 その結果、QPFの適用はMNISTとEMNISTに対する画像分類精度を改善せず、CIFAR-10とGTSRBをそれぞれ65.8%から67.2%、90.5%から91.8%に改善した。 今後の研究の一環として、より大規模で複雑なデータセットに対する提案手法のスケーラビリティを評価するためのQPFの可能性について検討する。

Over the past few years, there has been significant interest in Quantum Machine Learning (QML) among researchers, as it has the potential to transform the field of machine learning. Several models that exploit the properties of quantum mechanics have been developed for practical applications. In this study, we investigated the application of our previously proposed quantum pre-processing filter (QPF) to binary image classification. We evaluated the QPF on four datasets: MNIST (handwritten digits), EMNIST (handwritten digits and alphabets), CIFAR-10 (photographic images) and GTSRB (real-life traffic sign images). Similar to our previous multi-class classification results, the application of QPF improved the binary image classification accuracy using neural network against MNIST, EMNIST, and CIFAR-10 from 98.9% to 99.2%, 97.8% to 98.3%, and 71.2% to 76.1%, respectively, but degraded it against GTSRB from 93.5% to 92.0%. We then applied QPF in cases using a smaller number of training and testing samples, i.e. 80 and 20 samples per class, respectively. In order to derive statistically stable results, we conducted the experiment with 100 trials choosing randomly different training and testing samples and averaging the results. The result showed that the application of QPF did not improve the image classification accuracy against MNIST and EMNIST but improved it against CIFAR-10 and GTSRB from 65.8% to 67.2% and 90.5% to 91.8%, respectively. Further research will be conducted as part of future work to investigate the potential of QPF to assess the scalability of the proposed approach to larger and complex datasets.
翻訳日:2023-08-30 16:30:52 公開日:2023-08-28
# Maestro: トレーニング可能な分解による低ランク構造発見

Maestro: Uncovering Low-Rank Structures via Trainable Decomposition ( http://arxiv.org/abs/2308.14929v1 )

ライセンス: Link先を確認
Samuel Horvath, Stefanos Laskaridis, Shashank Rajput, Hongyi Wang(参考訳) 近年、Deep Neural Networks(DNN)は、AIブレークスルーのための大きなドライバーであり、イネーブルである。 これらのモデルは、より正確になり、AR/VRやインテリジェントアシスタントなど、新しいユースケースに取り組むために、ますます大きくなっている。 しかし、そのような大きなモデルのトレーニングプロセスはコストと時間を要するプロセスであり、通常、すべてのターゲットに適合する単一のモデルを生成する。 これを緩和するために、プルーニング、スパース化、モデルの重み付けと更新の定量化を含む様々な技術が文献に提案されている。 高い圧縮速度を達成することができるが、しばしば計算上のオーバーヘッドや精度のペナルティを負う。 あるいは、ファクタ化手法を利用して、トレーニングプロセスに低ランク圧縮を組み込むこともできる。 同様に、そのような手法(例えば~SVD)は、しばしば計算的に高価な層分解に依存し、DNNのような非線形モデルに準最適である可能性がある。 本研究では、効率的な低ランクモデルの設計をさらに進め、トレーニング可能な低ランク層のためのフレームワークであるMaestroを提案する。 SVDのような事前分解を定期的に適用する代わりに、オーダード・ドロップアウトの一般化版を通じて、低ランク構造をトレーニングプロセスに組み込む。 この方法は、分解したDNN構造をサンプリングすることで重要な順序付けを行う。 理論解析により,一様分布データに対する線形写像のsvd分解とリニアオートエンコーダのpcaを回復することを示した。 さらに,本手法をDNNに適用し,Maestroがモデル性能を維持する低フットプリントモデルの抽出を可能にし,異なる機能を持つデバイスに展開する際の高精度なレイテンシトレードオフを可能にすることを実証的に示す。

Deep Neural Networks (DNNs) have been a large driver and enabler for AI breakthroughs in recent years. These models have been getting larger in their attempt to become more accurate and tackle new upcoming use-cases, including AR/VR and intelligent assistants. However, the training process of such large models is a costly and time-consuming process, which typically yields a single model to fit all targets. To mitigate this, various techniques have been proposed in the literature, including pruning, sparsification or quantization of the model weights and updates. While able to achieve high compression rates, they often incur computational overheads or accuracy penalties. Alternatively, factorization methods have been leveraged to incorporate low-rank compression in the training process. Similarly, such techniques (e.g.,~SVD) frequently rely on the computationally expensive decomposition of layers and are potentially sub-optimal for non-linear models, such as DNNs. In this work, we take a further step in designing efficient low-rank models and propose Maestro, a framework for trainable low-rank layers. Instead of regularly applying a priori decompositions such as SVD, the low-rank structure is built into the training process through a generalized variant of Ordered Dropout. This method imposes an importance ordering via sampling on the decomposed DNN structure. Our theoretical analysis demonstrates that our method recovers the SVD decomposition of linear mapping on uniformly distributed data and PCA for linear autoencoders. We further apply our technique on DNNs and empirically illustrate that Maestro enables the extraction of lower footprint models that preserve model performance while allowing for graceful accuracy-latency tradeoff for the deployment to devices of different capabilities.
翻訳日:2023-08-30 16:30:19 公開日:2023-08-28
# 人工知能とビッグデータを用いた患者固有の腫瘍増殖モデル

Patient-specific, mechanistic models of tumor growth incorporating artificial intelligence and big data ( http://arxiv.org/abs/2308.14925v1 )

ライセンス: Link先を確認
Guillermo Lorenzo, Syed Rakin Ahmed, David A. Hormuth II, Brenna Vaughn, Jayashree Kalpathy-Cramer, Luis Solorio, Thomas E. Yankeelov, Hector Gomez(参考訳) 過去10年間の癌診断、治療、管理の著しい進歩にもかかわらず、悪性腫瘍は依然として主要な公衆衛生上の問題である。 がんとの戦いのさらなる進展は、各患者に対する予測された反応に応じて治療の配信をパーソナライズすることで可能となる。 パーソナライズされた治療法の設計は、患者固有の情報を腫瘍反応の適切な数学的モデルに統合する必要がある。 このパラダイムを実現するための基本的な障壁は、腫瘍の発生、発生、侵入、治療に対する反応に関する厳密で実用的な数学的理論の欠如である。 本稿では,「ビッグデータ」と人工知能に基づくデータ駆動モデルを含む,腫瘍の成長と治療をモデル化するための様々なアプローチの概要を概説することから始める。 次に,その実用性を示す数学的モデルの例を示し,単独の機械論モデルとデータ駆動モデルの限界について論じる。 さらに、予測だけでなく、患者固有の治療に対する反応を最適化するための力学モデルの可能性についても論じる。 次に、機械工学とデータ駆動モデルの統合に向けた現在の取り組みと今後の可能性について論じる。 最後に,計算モデルによるがん患者のパーソナライズケアを十分に実現するためには,対処すべき5つの基本的な課題を提案する。

Despite the remarkable advances in cancer diagnosis, treatment, and management that have occurred over the past decade, malignant tumors remain a major public health problem. Further progress in combating cancer may be enabled by personalizing the delivery of therapies according to the predicted response for each individual patient. The design of personalized therapies requires patient-specific information integrated into an appropriate mathematical model of tumor response. A fundamental barrier to realizing this paradigm is the current lack of a rigorous, yet practical, mathematical theory of tumor initiation, development, invasion, and response to therapy. In this review, we begin by providing an overview of different approaches to modeling tumor growth and treatment, including mechanistic as well as data-driven models based on ``big data" and artificial intelligence. Next, we present illustrative examples of mathematical models manifesting their utility and discussing the limitations of stand-alone mechanistic and data-driven models. We further discuss the potential of mechanistic models for not only predicting, but also optimizing response to therapy on a patient-specific basis. We then discuss current efforts and future possibilities to integrate mechanistic and data-driven models. We conclude by proposing five fundamental challenges that must be addressed to fully realize personalized care for cancer patients driven by computational models.
翻訳日:2023-08-30 16:29:53 公開日:2023-08-28
# 深部強化学習による最適経済ガスタービンの分散

Optimal Economic Gas Turbine Dispatch with Deep Reinforcement Learning ( http://arxiv.org/abs/2308.14924v1 )

ライセンス: Link先を確認
Manuel Sage, Martin Staniszewski, Yaoyao Fiona Zhao(参考訳) 現代の電力網ではガスタービン(GT)の分散戦略が変化している。 間欠的な再生エネルギーの集積が増加すると、GTはより短いサイクルで、より頻繁に部分的な負荷で作動する必要がある。 深層強化学習(DRL)はこの開発に対処し、経済的にGTを派遣するツールとして最近登場した。 DRLの主な利点は、モデルのない最適化と、様々な負荷や再生可能エネルギー生産によって導入された不確実性を扱う能力である。 本研究では,カナダアルバータ州のケーススタディにおいて,GTディスパッチ問題に対する3つの一般的なDRLアルゴリズムを実装した。 我々は,環境モデルにシーメンス・エナジーが提供する既存の熱力学ソフトウェアを組み込んで,電力価格,負荷,環境条件の異なる不確かさをシミュレートすることで,drlの利点を浮き彫りにする。 テストされたアルゴリズムとベースライン手法のうち、Deep Q-Networks (DQN) は最も高い報酬を得ており、PPO (Proximal Policy Optimization) は最も効率的なサンプルであった。 さらに,運用時間とサイクルに基づいて,GT運用とメンテナンスコストを動的に割り当てる手法を提案し,実装する。 既存の手法と比較して、我々の手法は現代のGTディスパッチの真のコストを近似し、より現実的なポリシーをもたらす。

Dispatching strategies for gas turbines (GTs) are changing in modern electricity grids. A growing incorporation of intermittent renewable energy requires GTs to operate more but shorter cycles and more frequently on partial loads. Deep reinforcement learning (DRL) has recently emerged as a tool that can cope with this development and dispatch GTs economically. The key advantages of DRL are a model-free optimization and the ability to handle uncertainties, such as those introduced by varying loads or renewable energy production. In this study, three popular DRL algorithms are implemented for an economic GT dispatch problem on a case study in Alberta, Canada. We highlight the benefits of DRL by incorporating an existing thermodynamic software provided by Siemens Energy into the environment model and by simulating uncertainty via varying electricity prices, loads, and ambient conditions. Among the tested algorithms and baseline methods, Deep Q-Networks (DQN) obtained the highest rewards while Proximal Policy Optimization (PPO) was the most sample efficient. We further propose and implement a method to assign GT operation and maintenance cost dynamically based on operating hours and cycles. Compared to existing methods, our approach better approximates the true cost of modern GT dispatch and hence leads to more realistic policies.
翻訳日:2023-08-30 16:29:33 公開日:2023-08-28
# 音楽ビデオの歌詞ビデオへの自動変換

Automated Conversion of Music Videos into Lyric Videos ( http://arxiv.org/abs/2308.14922v1 )

ライセンス: Link先を確認
Jiaju Ma, Anyi Rao, Li-Yi Wei, Rubaiat Habib Kazi, Hijung Valentina Shin, Maneesh Agrawala(参考訳) ミュージシャンやファンは、お気に入りの曲のために、歌詞を示す音楽ビデオの形式である歌詞ビデオを作ることが多い。 しかし、歌詞を映像と同期して視覚的に調和させる必要があるため、このようなビデオを作るのは困難で時間がかかります。 既存の歌詞ビデオの事前の作業と綿密な検証により,クリエーターによる映像作成を支援するデザインガイドラインを提案する。 ガイドラインでは,注意点の統一を維持しつつ,歌詞の可読性を保証する。 我々はこれらのガイドラインを、入力された音楽ビデオから歌詞ビデオに変換する完全に自動化されたパイプラインでインスタンス化する。 多様な入力源から歌詞ビデオを生成することで,パイプラインの堅牢性を実証する。 ユーザ調査の結果,本パイプラインで生成した歌詞ビデオは,テキスト可読性を維持し,注目度を統一する上で有効であることが示された。

Musicians and fans often produce lyric videos, a form of music videos that showcase the song's lyrics, for their favorite songs. However, making such videos can be challenging and time-consuming as the lyrics need to be added in synchrony and visual harmony with the video. Informed by prior work and close examination of existing lyric videos, we propose a set of design guidelines to help creators make such videos. Our guidelines ensure the readability of the lyric text while maintaining a unified focus of attention. We instantiate these guidelines in a fully automated pipeline that converts an input music video into a lyric video. We demonstrate the robustness of our pipeline by generating lyric videos from a diverse range of input sources. A user study shows that lyric videos generated by our pipeline are effective in maintaining text readability and unifying the focus of attention.
翻訳日:2023-08-30 16:29:11 公開日:2023-08-28
# 大規模言語モデルにおけるジェンダーバイアスとステレオタイプ

Gender bias and stereotypes in Large Language Models ( http://arxiv.org/abs/2308.14921v1 )

ライセンス: Link先を確認
Hadas Kotek, Rikker Dockum, and David Q. Sun(参考訳) 大規模言語モデル(llm)は、過去数ヶ月で大幅に進歩し、多くのドメインで最先端のベンチマークが崩壊した。 本稿では,先行モデルにおける既知問題であるジェンダーステレオタイプに対するLCMの挙動について検討する。 私たちは単純なパラダイムを使って、現在のllmのトレーニングデータに含まれる可能性が高い一般的なジェンダーバイアスデータセットであるwinobiasとの違いに基づいて、ジェンダーバイアスの存在をテストしています。 我々は最近公開された4つのLSMを検証し、男女の職業に関するバイアスのある仮定を示すことを示した。 本論文における我々の貢献は以下の通りである。 a) LLMは、その人の性別とステレオタイプに一致した職業を選択する確率が3-6倍である。 (b)これらの選択は、官職統計に反映される根拠的真理よりも人々の認識に合致する。 (c) LLMは、実際には、知覚または基礎的真実に反映されるもの以上のバイアスを増幅する。 d) LLMは,本研究項目の95%の時間における文構造における重要な曖昧さを無視するが,明示的に指示された場合には,その曖昧さを認識する。 (e)llmは、実際には不正確であり、予測の背後にある本当の理由を曖昧にするような選択の説明を提供する。 つまり、バイアスのある行動の合理化を提供する。 LLMは不均衡なデータセットに基づいてトレーニングされており、人間からのフィードバックによる強化学習の成功にもかかわらず、これらの不均衡を反映する傾向があります。 他のタイプの社会的偏見と同様に、軽微化された個人やコミュニティを公平に扱うためには、LSMを慎重に検査する必要があることを示唆する。

Large Language Models (LLMs) have made substantial progress in the past several months, shattering state-of-the-art benchmarks in many domains. This paper investigates LLMs' behavior with respect to gender stereotypes, a known issue for prior models. We use a simple paradigm to test the presence of gender bias, building on but differing from WinoBias, a commonly used gender bias dataset, which is likely to be included in the training data of current LLMs. We test four recently published LLMs and demonstrate that they express biased assumptions about men and women's occupations. Our contributions in this paper are as follows: (a) LLMs are 3-6 times more likely to choose an occupation that stereotypically aligns with a person's gender; (b) these choices align with people's perceptions better than with the ground truth as reflected in official job statistics; (c) LLMs in fact amplify the bias beyond what is reflected in perceptions or the ground truth; (d) LLMs ignore crucial ambiguities in sentence structure 95% of the time in our study items, but when explicitly prompted, they recognize the ambiguity; (e) LLMs provide explanations for their choices that are factually inaccurate and likely obscure the true reason behind their predictions. That is, they provide rationalizations of their biased behavior. This highlights a key property of these models: LLMs are trained on imbalanced datasets; as such, even with the recent successes of reinforcement learning with human feedback, they tend to reflect those imbalances back at us. As with other types of societal biases, we suggest that LLMs must be carefully tested to ensure that they treat minoritized individuals and communities equitably.
翻訳日:2023-08-30 16:28:56 公開日:2023-08-28
# Matbench Discovery -- 機械学習結晶安定性予測のための評価フレームワーク

Matbench Discovery -- An evaluation framework for machine learning crystal stability prediction ( http://arxiv.org/abs/2308.14920v1 )

ライセンス: Link先を確認
Janosh Riebesell, Rhys E. A. Goodall, Anubhav Jain, Philipp Benner, Kristin A. Persson, Alpha A. Lee(参考訳) Matbench Discoveryは、安定した無機結晶の高速探索における機械学習(ML)エネルギーモデルの展開をシミュレートする。 我々は接続の切り離しに対処する (i)熱力学的安定性と形成エネルギーと (ii) ドメイン内と分散外のパフォーマンス。 本稿では,今後のモデル提出を支援するPythonパッケージと,さまざまなパフォーマンス指標間のトレードオフに関するさらなる洞察をオンラインリーダボードに公開する。 材料発見においてmlの手法が最適かという疑問に答えるため、最初のリリースではランダムフォレスト、グラフニューラルネットワーク(gnn)、ワンショット予測器、反復ベイズ最適化器、普遍的原子間ポテンシャル(uip)を含む様々なモデルを調査した。 chgnet > m3gnet > mace > alignn > megnet > cgcnn > cgcnn+p > wrenformer > bowsr > voronoi tessellation fingerprints with random forest. chgnet > m3gnet > mace > alignn > megnet > cgcnn > cgcnn+p > wrenformer > bowsr > voronoi tesellation fingerprints with random forest. (英語) 上位3つのモデルは、ML誘導材料発見の勝利手法であるUIPであり、結晶の安定性の分類と発見促進因子(DAF)の最大5倍のF1スコアを、我々のテストセットのダミー選択と比較して最も安定な予測で達成する。 また、一般的に使用されるグローバルレグレッションメトリクスと、よりタスク関連分類メトリクスとの明確な切り離しも強調する。 正確な回帰器は、これらの正確な予測が、ほとんどの物質がある凸殻の上の0 eV/原子で決定境界に近くにある場合、予想外の高い偽陽性率の影響を受ける。 我々の結果は、安定性のヒット率の改善と実際に相関している分類指標に焦点を当てる必要性を強調した。

Matbench Discovery simulates the deployment of machine learning (ML) energy models in a high-throughput search for stable inorganic crystals. We address the disconnect between (i) thermodynamic stability and formation energy and (ii) in-domain vs out-of-distribution performance. Alongside this paper, we publish a Python package to aid with future model submissions and a growing online leaderboard with further insights into trade-offs between various performance metrics. To answer the question which ML methodology performs best at materials discovery, our initial release explores a variety of models including random forests, graph neural networks (GNN), one-shot predictors, iterative Bayesian optimizers and universal interatomic potentials (UIP). Ranked best-to-worst by their test set F1 score on thermodynamic stability prediction, we find CHGNet > M3GNet > MACE > ALIGNN > MEGNet > CGCNN > CGCNN+P > Wrenformer > BOWSR > Voronoi tessellation fingerprints with random forest. The top 3 models are UIPs, the winning methodology for ML-guided materials discovery, achieving F1 scores of ~0.6 for crystal stability classification and discovery acceleration factors (DAF) of up to 5x on the first 10k most stable predictions compared to dummy selection from our test set. We also highlight a sharp disconnect between commonly used global regression metrics and more task-relevant classification metrics. Accurate regressors are susceptible to unexpectedly high false-positive rates if those accurate predictions lie close to the decision boundary at 0 eV/atom above the convex hull where most materials are. Our results highlight the need to focus on classification metrics that actually correlate with improved stability hit rate.
翻訳日:2023-08-30 16:28:31 公開日:2023-08-28
# マルコフ決定過程の報酬構造について

On Reward Structures of Markov Decision Processes ( http://arxiv.org/abs/2308.14919v1 )

ライセンス: Link先を確認
Falcon Z. Dai(参考訳) マルコフ決定過程は遷移核と報酬関数によってパラメータ化することができる。 両者はベルマン方程式における強化学習の研究において重要な役割を担っている。 ロボット応用における要求に触発された強化学習に関連する様々な「コスト」の考察において,報酬はマルコフ決定過程の構造を理解する上で中心であり,報酬中心の概念は強化学習における重要な概念を明らかにする。 具体的には、ポリシー評価のサンプル複雑さを調べ、単一状態値の推定に$\tilde{o}(\sqrt{\frac{\tau_s}{n}})$のインスタンス固有のエラーバウンドを持つ新しい推定器を開発した。 オンラインの後悔最小化設定では、遷移ベースのMDP定数、直径を報酬ベース定数、最大ヒットコストに改良し、それとともに、よく知られた技術である潜在的報酬形成が専門家の知識で学習を加速する理論的な説明を提供した。 安全強化学習の研究を目的として,危険環境を非発見性でモデル化し,リセット効率による安全な学習の定量的概念を提案した。 この設定では,予備的な数値結果が得られるリセットを考慮した古典的なアルゴリズムを修正した。 最後に,複数の報酬関数を持つMDPに対して,Paretoの最適確率ポリシーを効率的に求める計画アルゴリズムを開発した。

A Markov decision process can be parameterized by a transition kernel and a reward function. Both play essential roles in the study of reinforcement learning as evidenced by their presence in the Bellman equations. In our inquiry of various kinds of ``costs'' associated with reinforcement learning inspired by the demands in robotic applications, rewards are central to understanding the structure of a Markov decision process and reward-centric notions can elucidate important concepts in reinforcement learning. Specifically, we studied the sample complexity of policy evaluation and developed a novel estimator with an instance-specific error bound of $\tilde{O}(\sqrt{\frac{\tau_s}{n}})$ for estimating a single state value. Under the online regret minimization setting, we refined the transition-based MDP constant, diameter, into a reward-based constant, maximum expected hitting cost, and with it, provided a theoretical explanation for how a well-known technique, potential-based reward shaping, could accelerate learning with expert knowledge. In an attempt to study safe reinforcement learning, we modeled hazardous environments with irrecoverability and proposed a quantitative notion of safe learning via reset efficiency. In this setting, we modified a classic algorithm to account for resets achieving promising preliminary numerical results. Lastly, for MDPs with multiple reward functions, we developed a planning algorithm that computationally efficiently finds Pareto optimal stochastic policies.
翻訳日:2023-08-30 16:27:51 公開日:2023-08-28
# 捕捉イオンのマルチサイト集積光アドレス

Multi-site Integrated Optical Addressing of Trapped Ions ( http://arxiv.org/abs/2308.14918v1 )

ライセンス: Link先を確認
Joonhyuk Kwon, William J. Setzer, Michael Gehl, Nicholas Karl, Jay Van Der Wall, Ryan Law, Daniel Stick and Hayden J. McGuinness(参考訳) 量子コンピュータと量子センサーの性能を向上させる最も効果的な方法の1つは、システムで使用される量子ビットや量子リソースの数を増やすことである。 捕捉イオン系におけるこの目標を達成するために解決しなければならない大きな技術的課題は、多くの個々のイオンへの光信号の配信をスケールすることである。 本稿では、導波路とマルチモード干渉計スプリッタを用いて、全量子ビット制御に必要な波長を全て供給することにより、表面トラップに複数の$^{171}\textrm{yb}^+$ ionsを光学的に対応させる手法を示す。 ドップラー冷却,状態調整,コヒーレント操作,検出に必要な光を導波路として,e2クロックトランジションにおいて超微細分光とrabi浮揚の測定を行った。 我々は、波長毎に1個の光入力を用いて複数のイオンに対処するスプリッタの使用を説明し、異なるトラップ部位で発生する2つの異なる遷移で同時にラビの浮き彫りを示す。 この研究は、原子時計や閉じ込められたイオン量子情報システムのためのスケーラブルな集積フォトニクスの実現に向けた重要なステップである。

One of the most effective ways to advance the performance of quantum computers and quantum sensors is to increase the number of qubits or quantum resources used by the system. A major technical challenge that must be solved to realize this goal for trapped-ion systems is scaling the delivery of optical signals to many individual ions. In this paper we demonstrate an approach employing waveguides and multi-mode interferometer splitters to optically address multiple $^{171}\textrm{Yb}^+$ ions in a surface trap by delivering all wavelengths required for full qubit control. Measurements of hyperfine spectroscopy and Rabi flopping were performed on the E2 clock transition, using integrated waveguides for delivering the light needed for Doppler cooling, state preparation, coherent operations, and detection. We describe the use of splitters to address multiple ions using a single optical input per wavelength and use them to demonstrate simultaneous Rabi flopping on two different transitions occurring at distinct trap sites. This work represents an important step towards the realization of scalable integrated photonics for atomic clocks and trapped-ion quantum information systems.
翻訳日:2023-08-30 16:27:29 公開日:2023-08-28
# recrec:レコメンダシステムのためのアルゴリズムリコース

RecRec: Algorithmic Recourse for Recommender Systems ( http://arxiv.org/abs/2308.14916v1 )

ライセンス: Link先を確認
Sahil Verma, Ashudeep Singh, Varich Boonsanong, John P. Dickerson, Chirag Shah(参考訳) レコメンダシステムは、エンタテインメント、ショッピング、食品、ニュース、雇用、教育といった分野における人々の選択において重要な役割を果たす。 これらのレコメンデータシステムを支える機械学習モデルは、ユーザやコンテンツプロバイダ、システム開発者などにとって本質的に巨大なブラックボックスであることが多い。 すべての利害関係者が、特定の予測やレコメンデーションを行う背後にあるモデルの理論的根拠を理解することは、しばしば重要である。 これは、リコメンデーションシステムに依存するコンテンツプロバイダにとって特に当てはまります。 本稿では,実践者のニーズからモチベーションを引き出すために,コンテンツ提供者を対象としたレコメンダシステムのためのリコースフレームワークを提案する。 アルゴリズムによるレコメンデーション・セッティング(英: Algorithmic recourse)とは、もし実行されたら、望ましい方法でアイテムのレコメンデーション(またはランキング)を変更する一連のアクションである。 ある機能が X から Y に変更された場合、その項目のランクは Z に変更される。 さらに,RecRecは実世界の3つのデータセットでトレーニングされたレコメンデータシステムの実証的な評価を通じて,有効でスパースで行動可能なレコメンデーションを生成するのに極めて有効であることを示す。 我々の知る限りでは、この研究は、レコメンダシステムのためのレコメンデーションを生成するための一般化されたフレームワークを概念化し、実証的にテストした最初のものである。

Recommender systems play an essential role in the choices people make in domains such as entertainment, shopping, food, news, employment, and education. The machine learning models underlying these recommender systems are often enormously large and black-box in nature for users, content providers, and system developers alike. It is often crucial for all stakeholders to understand the model's rationale behind making certain predictions and recommendations. This is especially true for the content providers whose livelihoods depend on the recommender system. Drawing motivation from the practitioners' need, in this work, we propose a recourse framework for recommender systems, targeted towards the content providers. Algorithmic recourse in the recommendation setting is a set of actions that, if executed, would modify the recommendations (or ranking) of an item in the desired manner. A recourse suggests actions of the form: "if a feature changes X to Y, then the ranking of that item for a set of users will change to Z." Furthermore, we demonstrate that RecRec is highly effective in generating valid, sparse, and actionable recourses through an empirical evaluation of recommender systems trained on three real-world datasets. To the best of our knowledge, this work is the first to conceptualize and empirically test a generalized framework for generating recourses for recommender systems.
翻訳日:2023-08-30 16:27:11 公開日:2023-08-28
# 時間的医用画像系列のサンプリングのための強化学習

Reinforcement Learning for Sampling on Temporal Medical Imaging Sequences ( http://arxiv.org/abs/2308.14946v1 )

ライセンス: Link先を確認
Zhishen Huang(参考訳) 加速された磁気共鳴イメージングは、高品質の医用画像を生成しながら、より少ない測定に対処するためにフーリエ領域サブサンプリングまたはより良い再構成アルゴリズムを利用する。 固定再構成プロトコルが与えられたときの最適なサンプリング戦略の決定は、しばしば組合せ複雑性を伴う。 本研究では,ダブルディープq学習と強化アルゴリズムを適用し,動的画像再構成のためのサンプリング戦略を学習する。 時系列の形式でデータを考察し、再構成法は事前訓練されたオートエンコーダ型ニューラルネットワークである。 本稿では,強化学習アルゴリズムが事前学習された再構成ネットワーク(環境のダイナミクス)の基盤となる最適なサンプリングパターンを発見するのに有効であることを示す。 実験を複製するためのコードはhttps://github.com/zhishenhuang/RLsampにある。

Accelerated magnetic resonance imaging resorts to either Fourier-domain subsampling or better reconstruction algorithms to deal with fewer measurements while still generating medical images of high quality. Determining the optimal sampling strategy given a fixed reconstruction protocol often has combinatorial complexity. In this work, we apply double deep Q-learning and REINFORCE algorithms to learn the sampling strategy for dynamic image reconstruction. We consider the data in the format of time series, and the reconstruction method is a pre-trained autoencoder-typed neural network. We present a proof of concept that reinforcement learning algorithms are effective to discover the optimal sampling pattern which underlies the pre-trained reconstructor network (i.e., the dynamics in the environment). The code for replicating experiments can be found at https://github.com/zhishenhuang/RLsamp.
翻訳日:2023-08-30 16:20:06 公開日:2023-08-28
# 正規化ワッサースタイン近似によるノイズフリーサンプリングアルゴリズム

Noise-Free Sampling Algorithms via Regularized Wasserstein Proximals ( http://arxiv.org/abs/2308.14945v1 )

ライセンス: Link先を確認
Hong Ye Tan, Stanley Osher, Wuchen Li(参考訳) ポテンシャル関数が支配する分布からサンプリングする問題を考察する。 本研究は, 確率微分方程式ではなく, 粒子に対する決定論的進化を導く, 明示的なスコアに基づくmcmc法を提案する。 スコア項は、サンプリングによって近似されるカーネル畳み込みを用いて、正則化ワッサーシュタイン近似によって閉形式で与えられる。 我々は,様々な問題に対する高速収束を示し,ガウス分布の場合の混合時間境界の次元依存性を,unadjusted langevin algorithm (ula) と metropolis-adjusted langevin algorithm (mala) と比較検討した。 さらに、二次ポテンシャル関数に対する各イテレートの分布に対する閉形式式を導出し、分散還元を特徴付ける。 実験の結果、粒子は組織的に振る舞うことが示され、ポテンシャルのレベルセットの輪郭の上に横たわる。 さらに, 提案手法の後方平均推定値は, ベイジアンロジスティック回帰の文脈において, ULA や MALA と比較して最大 A-posteriori 推定値に近いことがわかった。

We consider the problem of sampling from a distribution governed by a potential function. This work proposes an explicit score-based MCMC method that is deterministic, resulting in a deterministic evolution for particles rather than a stochastic differential equation evolution. The score term is given in closed form by a regularized Wasserstein proximal, using a kernel convolution that is approximated by sampling. We demonstrate fast convergence on various problems and show improved dimensional dependence of mixing time bounds for the case of Gaussian distributions compared to the unadjusted Langevin algorithm (ULA) and the Metropolis-adjusted Langevin algorithm (MALA). We additionally derive closed form expressions for the distributions at each iterate for quadratic potential functions, characterizing the variance reduction. Empirical results demonstrate that the particles behave in an organized manner, lying on level set contours of the potential. Moreover, the posterior mean estimator of the proposed method is shown to be closer to the maximum a-posteriori estimator compared to ULA and MALA, in the context of Bayesian logistic regression.
翻訳日:2023-08-30 16:19:54 公開日:2023-08-28
# トランスフューザー:車線変更軌道の制御可能な人型生成のためのトランスフォーマーディフューザ

Transfusor: Transformer Diffusor for Controllable Human-like Generation of Vehicle Lane Changing Trajectories ( http://arxiv.org/abs/2308.14943v1 )

ライセンス: Link先を確認
Jiqian Dong, Sikai Chen, Samuel Labi(参考訳) 自律運転システムの継続的な開発と展開への欲求の高まりにより、研究者はADSシステムの信頼性の高いアプローチを模索し続けている。 仮想シミュレーションテスト(VST)は、高速実行、低コスト、高再現性という利点から、自律運転システム(ADS)と先進運転支援システム(ADAS)のテストにおいて顕著なアプローチとなっている。 しかし、これらのシミュレーションに基づく実験の成功は、テストシナリオの現実主義に大きく依存している。 広告とadasの安全性と信頼性を高めるために、vstでより柔軟で高忠実なテストシナリオを作成する必要がある。この課題に対処するために、本論文ではトランスフォーマーとディフューザーモデル(2つの最先端ディープラーニング生成技術)を活用する「トランスファソル」モデルを紹介する。 トランスファソルモデルの主な目的は、高速道路のシナリオにおいて、高度にリアルで制御可能な車線変更軌道を生成することである。 その結果,提案モデルが人間の車線変更行動の時空間的特性を効果的に学習し,実世界の運転を忠実に模倣した軌道生成に成功した。 したがって、提案したモデルは、VSTにおけるより柔軟で高忠実なテストシナリオを作成する上で重要な役割を果たすことができ、最終的にはより安全で信頼性の高いADSとADASにつながる。

With ongoing development of autonomous driving systems and increasing desire for deployment, researchers continue to seek reliable approaches for ADS systems. The virtual simulation test (VST) has become a prominent approach for testing autonomous driving systems (ADS) and advanced driver assistance systems (ADAS) due to its advantages of fast execution, low cost, and high repeatability. However, the success of these simulation-based experiments heavily relies on the realism of the testing scenarios. It is needed to create more flexible and high-fidelity testing scenarios in VST in order to increase the safety and reliabilityof ADS and ADAS.To address this challenge, this paper introduces the "Transfusor" model, which leverages the transformer and diffusor models (two cutting-edge deep learning generative technologies). The primary objective of the Transfusor model is to generate highly realistic and controllable human-like lane-changing trajectories in highway scenarios. Extensive experiments were carried out, and the results demonstrate that the proposed model effectively learns the spatiotemporal characteristics of humans' lane-changing behaviors and successfully generates trajectories that closely mimic real-world human driving. As such, the proposed model can play a critical role of creating more flexible and high-fidelity testing scenarios in the VST, ultimately leading to safer and more reliable ADS and ADAS.
翻訳日:2023-08-30 16:19:32 公開日:2023-08-28
# エントロピーに基づく深層ニューラルネットワークの収束促進と性能向上のための指導

Entropy-based Guidance of Deep Neural Networks for Accelerated Convergence and Improved Performance ( http://arxiv.org/abs/2308.14938v1 )

ライセンス: Link先を確認
Mackenzie J. Meni and Ryan T. White and Michael Mayo and Kevin Pilkiewicz(参考訳) ニューラルネットワークは、無数の分野にわたる大規模な高次元データセットから学習する能力を大幅に向上させた。 しかし、彼らの決定は容易に解釈できず、計算コストが高く、構築と訓練は不確定なプロセスである。 これらの取り組みに構造を加えるために、完全連結・畳み込みニューラルネットワークとしてエントロピーの変化を効率的に測定し、エントロピーに基づく損失項を導入するために、新しい数学的結果を得る。 ベンチマークデータセットにおける画像圧縮と画像分類の実験では、ニューラルネットワークがより少ない次元でリッチな潜在データ表現を学習し、トレーニング期間を短縮し、より良いテストメトリクスを達成するために、これらの損失が示されている。

Neural networks have dramatically increased our capacity to learn from large, high-dimensional datasets across innumerable disciplines. However, their decisions are not easily interpretable, their computational costs are high, and building and training them are uncertain processes. To add structure to these efforts, we derive new mathematical results to efficiently measure the changes in entropy as fully-connected and convolutional neural networks process data, and introduce entropy-based loss terms. Experiments in image compression and image classification on benchmark datasets demonstrate these losses guide neural networks to learn rich latent data representations in fewer dimensions, converge in fewer training epochs, and achieve better test metrics.
翻訳日:2023-08-30 16:19:07 公開日:2023-08-28
# モバイルフレンドリーな3次元医用画像セグメンテーションのための自動プロンピングSAM

Auto-Prompting SAM for Mobile Friendly 3D Medical Image Segmentation ( http://arxiv.org/abs/2308.14936v1 )

ライセンス: Link先を確認
Chengyin Li, Prashant Khanduri, Yao Qiang, Rafi Ibn Sultan, Indrin Chetty and Dongxiao Zhu(参考訳) Segment Anything Model (SAM)は、幅広い自然画像のセグメント化に急速に採用されている。 しかし,最近の研究では,SAMは3次元画像分割作業においてサブパーパフォーマンスを示すことが示されている。 自然画像と医用画像の領域ギャップに加えて、2D画像と3D画像の空間配置の相違、強力なGPUサーバによって課されるかなりの計算負担、時間を要する手動プロンプト生成は、SAMの幅広い医療画像セグメンテーションアプリケーションへの拡張を妨げる。 これらの課題に対処するため,本研究では,3次元多臓器CTを用いたセグメンテーションのための新しい手法であるAutoSAM Adapterを提案する。 パラメータ効率の高い適応手法を用いて,自動プロンプト学習パラダイムを開発し,samモデルの3次元医用画像セグメンテーションへの変換を容易にし,手作業によるプロンプト生成を不要とした。 さらに、3次元画像解析に適した軽量モデルにAutoSAM Adapterの取得した知識を効果的に移行し、医用画像分割タスクにおける最先端(SOTA)性能を実現する。 3次元医用画像セグメンテーションのための2次元自然画像セグメンテーションにおける基礎モデルの創発的能力を効果的に活用するための重要な基盤として,autosamアダプタを提案する。

The Segment Anything Model (SAM) has rapidly been adopted for segmenting a wide range of natural images. However, recent studies have indicated that SAM exhibits subpar performance on 3D medical image segmentation tasks. In addition to the domain gaps between natural and medical images, disparities in the spatial arrangement between 2D and 3D images, the substantial computational burden imposed by powerful GPU servers, and the time-consuming manual prompt generation impede the extension of SAM to a broader spectrum of medical image segmentation applications. To address these challenges, in this work, we introduce a novel method, AutoSAM Adapter, designed specifically for 3D multi-organ CT-based segmentation. We employ parameter-efficient adaptation techniques in developing an automatic prompt learning paradigm to facilitate the transformation of the SAM model's capabilities to 3D medical image segmentation, eliminating the need for manually generated prompts. Furthermore, we effectively transfer the acquired knowledge of the AutoSAM Adapter to other lightweight models specifically tailored for 3D medical image analysis, achieving state-of-the-art (SOTA) performance on medical image segmentation tasks. Through extensive experimental evaluation, we demonstrate the AutoSAM Adapter as a critical foundation for effectively leveraging the emerging ability of foundation models in 2D natural image segmentation for 3D medical image segmentation.
翻訳日:2023-08-30 16:18:51 公開日:2023-08-28
# シフト雑音を持つ分布ロバストな変分量子アルゴリズム

Distributionally Robust Variational Quantum Algorithms with Shifted Noise ( http://arxiv.org/abs/2308.14935v1 )

ライセンス: Link先を確認
Zichang He, Bo Peng, Yuri Alexeev, Zheng Zhang(参考訳) 短期量子優位性を示す可能性を考えると、変分量子アルゴリズム(VQA)は広く研究されている。 VQAパラメータ最適化のための多くの技術が開発されているが、依然として大きな課題である。 現実的な問題は、環境変化に対する量子ノイズの感度が高く、リアルタイムにシフトする確率である。 これは、最適化されたVQAアンザッツが異なるノイズ環境下で効果的に動作しないため、重要な問題となる。 本稿では,VQAパラメータを未知のシフトノイズに対して頑健に最適化する方法を初めて検討する。 ノイズレベルを未知の確率密度関数を持つ確率変数(PDF)としてモデル化し、不確実性セット内でPDFがシフトする可能性があると仮定する。 この仮定は、シフトノイズの下で有効性を維持するパラメータを見つけることを目的として、分布的に堅牢な最適化問題を定式化する。 提案する定式化には分布的ロバストなベイズ最適化解法を用いる。 このことは、量子近似最適化アルゴリズム(QAOA)とハードウェア効率のアンサッツを持つ変分量子固有解法(VQE)の両方に数値的な証拠を与え、シフトノイズ下でより堅牢に実行されるパラメータを特定できることを示す。 本稿では,VQAの信頼性向上に向けた第一歩として,実時間騒音の影響を考察する。

Given their potential to demonstrate near-term quantum advantage, variational quantum algorithms (VQAs) have been extensively studied. Although numerous techniques have been developed for VQA parameter optimization, it remains a significant challenge. A practical issue is the high sensitivity of quantum noise to environmental changes, and its propensity to shift in real time. This presents a critical problem as an optimized VQA ansatz may not perform effectively under a different noise environment. For the first time, we explore how to optimize VQA parameters to be robust against unknown shifted noise. We model the noise level as a random variable with an unknown probability density function (PDF), and we assume that the PDF may shift within an uncertainty set. This assumption guides us to formulate a distributionally robust optimization problem, with the goal of finding parameters that maintain effectiveness under shifted noise. We utilize a distributionally robust Bayesian optimization solver for our proposed formulation. This provides numerical evidence in both the Quantum Approximate Optimization Algorithm (QAOA) and the Variational Quantum Eigensolver (VQE) with hardware-efficient ansatz, indicating that we can identify parameters that perform more robustly under shifted noise. We regard this work as the first step towards improving the reliability of VQAs influenced by real-time noise.
翻訳日:2023-08-30 16:18:24 公開日:2023-08-28
# 候補再ランキングによるニューラルダイアログモデルの自己開示性の向上

Enhancing Self-Disclosure In Neural Dialog Models By Candidate Re-ranking ( http://arxiv.org/abs/2109.05090v3 )

ライセンス: Link先を確認
Mayank Soni, Benjamin Cowan, Vincent Wade(参考訳) ニューラルネットワークモデリングは、さまざまな下流自然言語処理(NLP)タスクにおいて最先端の進歩を遂げている。 このような領域の1つは、オープンドメインダイアログモデリングであり、DialoGPTのようなGPT-2に基づくニューラルダイアログモデルは、シングルターン会話において有望な性能を示している。 しかし、そのような(神経的な)ダイアログモデルは、以前の人間の反応と関係があるとしても、すぐに人間の関心を散逸させ、簡単な会話に陥る傾向があると批判されている。 このようなパフォーマンスの理由の1つは、人間と機械の会話に明示的な会話戦略が採用されていないことである。 人間は会話をしながら様々な会話戦略を採用するが、そのような社会戦略の1つは自己開示(SD)である。 他人に自分の情報を明らかにする現象。 社会的浸透理論 (spt) は、2人間のコミュニケーションが浅いレベルから深いレベルへと移動し、関係は主に自己開示を通じて進行することを提案する。 開示は、会話に参加している参加者の間でラプポートを作成するのに役立つ。 本稿では,ニューラルダイアログモデルの推論段階における自己開示トピックモデル(SDTM)を用いて,自己開示促進アーキテクチャ(SDEA)を導入し,単一ターン応答における自己開示をモデルから強化する。

Neural language modelling has progressed the state-of-the-art in different downstream Natural Language Processing (NLP) tasks. One such area is of open-domain dialog modelling, neural dialog models based on GPT-2 such as DialoGPT have shown promising performance in single-turn conversation. However, such (neural) dialog models have been criticized for generating responses which although may have relevance to the previous human response, tend to quickly dissipate human interest and descend into trivial conversation. One reason for such performance is the lack of explicit conversation strategy being employed in human-machine conversation. Humans employ a range of conversation strategies while engaging in a conversation, one such key social strategies is Self-disclosure(SD). A phenomenon of revealing information about one-self to others. Social penetration theory (SPT) proposes that communication between two people moves from shallow to deeper levels as the relationship progresses primarily through self-disclosure. Disclosure helps in creating rapport among the participants engaged in a conversation. In this paper, Self-disclosure enhancement architecture (SDEA) is introduced utilizing Self-disclosure Topic Model (SDTM) during inference stage of a neural dialog model to re-rank response candidates to enhance self-disclosure in single-turn responses from from the model.
翻訳日:2023-08-30 02:25:01 公開日:2023-08-28
# 機能最適輸送:関数データに対するマップ推定と領域適応

Functional optimal transport: map estimation and domain adaptation for functional data ( http://arxiv.org/abs/2102.03895v5 )

ライセンス: Link先を確認
Jiacheng Zhu, Aritra Guha, Dat Do, Mengdi Xu, XuanLong Nguyen, Ding Zhao(参考訳) 関数空間上の分布に対する最適輸送問題の定式化を導入し、関数領域間の確率写像を函数のヒルベルト空間を別のヒルベルト空間に写す(無限次元)ヒルベルト・シュミット作用素の項で部分的に表現することができる。 多くの機械学習タスクにおいて、データは高次元の曲線や曲面などの関数空間から引き出されたサンプルとして自然に見ることができる。 機能的データ分析のための最適なトランスポートは、そのようなドメインに対する治療の有用なフレームワークを提供する。 無限次元空間における確率測度は一般に絶対連続性(つまり非退化ガウス測度に関して)を欠いているため、有限次元空間に対する標準最適輸送理論におけるモンジ写像は存在しない。 無限次元における最適輸送問題への我々のアプローチは、適切な正規化手法によって、輸送写像のクラスを作用素のヒルベルト・シュミット空間に制限する。 この目的を達成するために,関数領域間の確率移動写像を探索し,ヒルベルト・シュミット作用素に対する推定値の存在,一意性,一貫性に関する理論的保証を与えるアルゴリズムを開発した。 本手法を合成データセット上で検証し,トランスポートマップの機能特性について検討する。 ロボットアーム軌道の実際のデータセット実験により,本手法がドメイン適応への適用性を示す。

We introduce a formulation of optimal transport problem for distributions on function spaces, where the stochastic map between functional domains can be partially represented in terms of an (infinite-dimensional) Hilbert-Schmidt operator mapping a Hilbert space of functions to another. For numerous machine learning tasks, data can be naturally viewed as samples drawn from spaces of functions, such as curves and surfaces, in high dimensions. Optimal transport for functional data analysis provides a useful framework of treatment for such domains. { Since probability measures in infinite dimensional spaces generally lack absolute continuity (that is, with respect to non-degenerate Gaussian measures), the Monge map in the standard optimal transport theory for finite dimensional spaces may not exist. Our approach to the optimal transport problem in infinite dimensions is by a suitable regularization technique -- we restrict the class of transport maps to be a Hilbert-Schmidt space of operators.} To this end, we develop an efficient algorithm for finding the stochastic transport map between functional domains and provide theoretical guarantees on the existence, uniqueness, and consistency of our estimate for the Hilbert-Schmidt operator. We validate our method on synthetic datasets and examine the functional properties of the transport map. Experiments on real-world datasets of robot arm trajectories further demonstrate the effectiveness of our method on applications in domain adaptation.
翻訳日:2023-08-30 02:23:04 公開日:2023-08-28
# ガウス過程を持つ確率的テイラー展開

A probabilistic Taylor expansion with Gaussian processes ( http://arxiv.org/abs/2102.00877v2 )

ライセンス: Link先を確認
Toni Karvonen, Jon Cockayne, Filip Tronarp, Simo S\"arkk\"a(参考訳) 我々は、後進平均が特定のデータ選択に対して、任意の順序の切り詰められたテイラー展開を複製するガウス過程のクラスを研究する。 データは拡張点における微分評価と、それ以前の共分散核はテイラー核のクラスに属しており、これはあるパワー級数形式で書ける。 本稿では,Taylorカーネルのパラメータの最大推定結果について論じる。 提案された枠組みは、共分散核の再生核ヒルベルト空間で直交するデータに基づくガウス過程の回帰の特別な場合である。

We study a class of Gaussian processes for which the posterior mean, for a particular choice of data, replicates a truncated Taylor expansion of any order. The data consist of derivative evaluations at the expansion point and the prior covariance kernel belongs to the class of Taylor kernels, which can be written in a certain power series form. We discuss and prove some results on maximum likelihood estimation of parameters of Taylor kernels. The proposed framework is a special case of Gaussian process regression based on data that is orthogonal in the reproducing kernel Hilbert space of the covariance kernel.
翻訳日:2023-08-30 02:22:44 公開日:2023-08-28
# 多コピー環境における局所制約下での量子状態の識別

Discrimination of quantum states under locality constraints in the many-copy setting ( http://arxiv.org/abs/2011.13063v2 )

ライセンス: Link先を確認
Hao-Chung Cheng, Andreas Winter and Nengkun Yu(参考訳) 多重コピーシナリオにおける限定局所測定の下での直交状態間の量子仮説試験について検討した。 局所演算と古典的通信(LOCC)演算によって直交相補状態に対して任意の多部交絡純状態をテストする場合、最適平均誤差確率はコピー数で指数関数的に減衰する。 第二に、LOCC操作がPPT操作と同じ性能を達成するための十分な条件を提供する。 さらに,直交補体に対する最大絡み合い状態の試験と極端ヴェルナー状態の試験が,上記の条件を満たすことを示す。 したがって, 最適平均誤差確率, type-i と type-ii の最適トレードオフ, 関連するチャーンオフ, スタイン, ホッフィング, 強い逆指数に対する明示的な表現を決定する。 次に,拡張不能積基底(upb)から構築された一対の状態を提供することにより,分離可能(sep)とppt演算の無限漸近分離を示す。 量子状態はPT操作によって完全に区別できるが、SEP演算を含む最適誤差確率は指数的な下界を持つ。 技術的には、UPB のテンソル積が UPB であることを示す有名なステートメントの定量的版を提供することで、この結果を証明している。

We study quantum hypothesis testing between orthogonal states under restricted local measurements in the many-copy scenario. For testing arbitrary multipartite entangled pure state against its orthogonal complement state via the local operation and classical communication (LOCC) operation, we prove that the optimal average error probability always decays exponentially in the number of copies. Second, we provide a sufficient condition for the LOCC operations to achieve the same performance as the positive-partial-transpose (PPT) operations. We further show that testing a maximally entangled state against its orthogonal complement and testing extremal Werner states both fulfill the above-mentioned condition. Hence, we determine the explicit expressions for the optimal average error probability, the optimal trade-off between the type-I and type-II errors, and the associated Chernoff, Stein, Hoeffding, and strong converse exponents. Then, we show an infinite asymptotic separation between the separable (SEP) and PPT operations by providing a pair of states constructed from an unextendible product basis (UPB). The quantum states can be distinguished perfectly by PPT operations, while the optimal error probability, with SEP operations, admits an exponential lower bound. On the technical side, we prove this result by providing a quantitative version of the well-known statement that the tensor product of UPBs is a UPB.
翻訳日:2023-08-30 02:22:34 公開日:2023-08-28
# トリメスター3次元超音波によるヒト胚のマルチアトラスセグメンテーションと空間的アライメント

Multi-Atlas Segmentation and Spatial Alignment of the Human Embryo in First Trimester 3D Ultrasound ( http://arxiv.org/abs/2202.06599v3 )

ライセンス: Link先を確認
W.A.P. Bastiaansen, M. Rousian, R.P.M. Steegers-Theunissen, W.J. Niessen, A.H.J. Koning, S. Klein(参考訳) 最初の3期で得られた超音波画像データの分割と空間的アライメントは、この重要な期間を通じてヒトの胚の成長と発達をモニタリングするために重要である。 現在のアプローチは手動かセミオートマチックで、非常に時間がかかり、エラーを起こしやすい。 これらのタスクを自動化するために,最小限の監督力を持つ深層学習を用いて,胚の自動分割と空間アライメントのためのマルチアトラスフレームワークを提案する。 本フレームワークは, 妊娠年齢(GA)で得られたUS画像からなり, 予め定義された標準配向にセグメンテーションされ, 空間的に整列するアトラスに胚を登録することを学ぶ。 これにより、胚のセグメンテーションを導出し、胚を標準的な方向に置くことができる。 8+0から12+6週のアメリカの画像を使用し、8人の被験者をアトラスとして選んだ。 複数のアトラスを組み込むための異なる融合戦略を評価した。 1) 1つの主題からのatlas画像を用いた枠組みの訓練 2)利用可能なすべてのアトラスのデータとフレームワークのトレーニング 3) 対象ごとに訓練されたフレームワークのセンス作成。 性能評価のために,テストセット上のサイコロスコアを算出した。 利用可能なすべてのatlasを使ってフレームワークをトレーニングすることは、ensemblingよりも優れており、単一のテーマでトレーニングされたフレームワークのベストと比較すると、同様の結果が得られました。 さらに,gaに最も近い4つのアトラスから選択した画像は,個々の品質に関わらず,0.72の中央値で最高の結果を得た。 この枠組みは,第13mester 3d us画像における胚の精密な分割と空間的整列が可能であり,利用可能なアトラスに存在する品質の変動に対して頑健である。

Segmentation and spatial alignment of ultrasound (US) imaging data acquired in the in first trimester are crucial for monitoring human embryonic growth and development throughout this crucial period of life. Current approaches are either manual or semi-automatic and are therefore very time-consuming and prone to errors. To automate these tasks, we propose a multi-atlas framework for automatic segmentation and spatial alignment of the embryo using deep learning with minimal supervision. Our framework learns to register the embryo to an atlas, which consists of the US images acquired at a range of gestational age (GA), segmented and spatially aligned to a predefined standard orientation. From this, we can derive the segmentation of the embryo and put the embryo in standard orientation. US images acquired at 8+0 till 12+6 weeks GA were used and eight subjects were selected as atlas. We evaluated different fusion strategies to incorporate multiple atlases: 1) training the framework using atlas images from a single subject, 2) training the framework with data of all available atlases and 3) ensembling of the frameworks trained per subject. To evaluate the performance, we calculated the Dice score over the test set. We found that training the framework using all available atlases outperformed ensembling and gave similar results compared to the best of all frameworks trained on a single subject. Furthermore, we found that selecting images from the four atlases closest in GA out of all available atlases, regardless of the individual quality, gave the best results with a median Dice score of 0.72. We conclude that our framework can accurately segment and spatially align the embryo in first trimester 3D US images and is robust for the variation in quality that existed in the available atlases.
翻訳日:2023-08-30 02:16:40 公開日:2023-08-28
# NNP/MM: 機械学習ポテンシャルと分子力学を用いた分子動力学シミュレーション

NNP/MM: Accelerating molecular dynamics simulations with machine learning potentials and molecular mechanic ( http://arxiv.org/abs/2201.08110v2 )

ライセンス: Link先を確認
Raimondas Galvelis, Alejandro Varela-Rial, Stefan Doerr, Roberto Fino, Peter Eastman, Thomas E. Markland, John D. Chodera and Gianni De Fabritiis(参考訳) 機械学習のポテンシャルは、生体分子シミュレーションの精度を高める手段として登場した。 しかし、それらの応用は従来の分子力学と比較して膨大な数のパラメータから生じる計算コストに制約されている。 本稿では,ニューラルネットワーク電位(NNP)と分子力学(MM)を組み合わせたハイブリッド手法(NNP/MM)の最適化実装を提案する。 このアプローチは、小さな分子のようなシステムの一部をNNPを用いてモデル化し、残りのシステムにMMを用いて効率を向上する。 タンパク質-リガンド複合体の分子動力学(MD)シミュレーションとメタダイナミックス(MTD)シミュレーションをリガンド上で実施することにより,NNP/MMの実装能力を示す。 これにより, シミュレーション速度を5倍に向上し, 複合体毎の1マイクロ秒の同時サンプリングを実現し, この種のシミュレーションで報告された最長のシミュレーションとなった。

Machine learning potentials have emerged as a means to enhance the accuracy of biomolecular simulations. However, their application is constrained by the significant computational cost arising from the vast number of parameters compared to traditional molecular mechanics. To tackle this issue, we introduce an optimized implementation of the hybrid method (NNP/MM), which combines neural network potentials (NNP) and molecular mechanics (MM). This approach models a portion of the system, such as a small molecule, using NNP while employing MM for the remaining system to boost efficiency. By conducting molecular dynamics (MD) simulations on various protein-ligand complexes and metadynamics (MTD) simulations on a ligand, we showcase the capabilities of our implementation of NNP/MM. It has enabled us to increase the simulation speed by 5 times and achieve a combined sampling of one microsecond for each complex, marking the longest simulations ever reported for this class of simulation.
翻訳日:2023-08-30 02:16:09 公開日:2023-08-28
# 不完全多視点弱ラベル学習

Incomplete Multi-View Weak-Label Learning ( http://arxiv.org/abs/2201.01079v4 )

ライセンス: Link先を確認
Zhiwei Li, Zijian Yang, Lu Sun, Mineichi Kudo, Kego Kimura(参考訳) 様々な現代的なアプリケーションがマルチビューのマルチラベル学習を示しており、各サンプルにはマルチビュー機能があり、複数のラベルは共通のビューで関連付けられている。 現在のメソッドは、通常、各サンプルに対して機能とラベルのサブセットのみが観察される設定を直接処理せず、現実世界の問題におけるノイズの多いビューと不均衡なラベルの存在を無視する。 本稿では,その限界を克服する新しい手法を提案する。 適応ウェイトを持つ低次元部分空間に不完全ビューと弱ラベルを共同で埋め込み、自己重み付けヒルベルト・シュミット独立基準(hsic)を介して重み行列を埋め込み、冗長性を低減する。 さらに、ノイズの多いビューを検出するために埋め込みにおける視点的重要性を適応的に学習し、焦点損失によるラベルの不均衡問題を緩和する。 4つの実世界のマルチビューマルチラベルデータセットの実験結果は,提案手法の有効性を示している。

A variety of modern applications exhibit multi-view multi-label learning, where each sample has multi-view features, and multiple labels are correlated via common views. Current methods usually fail to directly deal with the setting where only a subset of features and labels are observed for each sample, and ignore the presence of noisy views and imbalanced labels in real-world problems. In this paper, we propose a novel method to overcome the limitations. It jointly embeds incomplete views and weak labels into a low-dimensional subspace with adaptive weights, and facilitates the difference between embedding weight matrices via auto-weighted Hilbert-Schmidt Independence Criterion (HSIC) to reduce the redundancy. Moreover, it adaptively learns view-wise importance for embedding to detect noisy views, and mitigates the label imbalance problem by focal loss. Experimental results on four real-world multi-view multi-label datasets demonstrate the effectiveness of the proposed method.
翻訳日:2023-08-30 02:15:26 公開日:2023-08-28
# 安全・私的連合ニューロイメージング

Secure & Private Federated Neuroimaging ( http://arxiv.org/abs/2205.05249v2 )

ライセンス: Link先を確認
Dimitris Stripelis, Umang Gupta, Hamza Saleem, Nikhil Dhinagar, Tanmay Ghai, Rafael Chrysovalantis Anastasiou, Armaghan Asghar, Greg Ver Steeg, Srivatsan Ravi, Muhammad Naveed, Paul M. Thompson, Jose Luis Ambite(参考訳) バイオメディカルデータの量は急速に増え続けている。 しかし、セキュリティ、プライバシー、規制上の懸念から、共同分析のために複数のサイトからデータを収集することは依然として困難である。 この課題を克服するために,複数のデータソースに対して,データを共有することなくニューラルネットワークモデルの分散トレーニングを可能にするフェデレーション学習(federated learning)を用いる。 各サイトは、しばらくの間、ニューラルネットワークをプライベートデータ上でトレーニングし、ニューラルネットワークパラメータ(ウェイト、勾配)をフェデレーションコントローラと共有し、ローカルモデルを集約し、結果のコミュニティモデルを各サイトに送信し、プロセスが繰り返される。 当社のフェデレートラーニングアーキテクチャであるMetisFLは、強力なセキュリティとプライバシを提供します。 まず、サンプルデータは決してサイトを離れない。 第二に、ニューラルネットワークパラメータは送信前に暗号化され、グローバルニューラルネットワークモデルは完全同型暗号化の下で計算される。 最後に,情報理論を用いてニューラルモデルからの情報漏洩を制限することにより,好奇サイトがモデル反転やメンバシップ攻撃を行うのを防ぐ。 我々は,脳波画像(MRI)によるアルツハイマー病の予測や脳波推定など,神経画像のタスクにおけるセキュアでプライベートなフェデレーション学習の性能を,サイトがデータ量や統計分布の異なる異質なフェデレーション環境において徹底的に評価する。

The amount of biomedical data continues to grow rapidly. However, collecting data from multiple sites for joint analysis remains challenging due to security, privacy, and regulatory concerns. To overcome this challenge, we use Federated Learning, which enables distributed training of neural network models over multiple data sources without sharing data. Each site trains the neural network over its private data for some time, then shares the neural network parameters (i.e., weights, gradients) with a Federation Controller, which in turn aggregates the local models, sends the resulting community model back to each site, and the process repeats. Our Federated Learning architecture, MetisFL, provides strong security and privacy. First, sample data never leaves a site. Second, neural network parameters are encrypted before transmission and the global neural model is computed under fully-homomorphic encryption. Finally, we use information-theoretic methods to limit information leakage from the neural model to prevent a curious site from performing model inversion or membership attacks. We present a thorough evaluation of the performance of secure, private federated learning in neuroimaging tasks, including for predicting Alzheimer's disease and estimating BrainAGE from magnetic resonance imaging (MRI) studies, in challenging, heterogeneous federated environments where sites have different amounts of data and statistical distributions.
翻訳日:2023-08-30 02:04:58 公開日:2023-08-28
# 時間集合予測のための連続時間ユーザ嗜好モデリング

Continuous-Time User Preference Modelling for Temporal Sets Prediction ( http://arxiv.org/abs/2204.05490v7 )

ライセンス: Link先を確認
Le Yu, Zihang Liu, Leilei Sun, Bowen Du, Chuanren Liu, Weifeng Lv(参考訳) 各集合がタイムスタンプを持ち、任意の数の要素を含む集合の列が与えられたとき、時間的集合予測は、次の集合の要素を予測することを目的としている。 時間的集合予測の先行研究は、主に要素のモデリングに焦点をあて、対話的要素に基づいて各ユーザの好みを暗黙的に表現する。 しかし、ユーザの選好はしばしば継続的に進化しており、ユーザ選好の間接学習パラダイムでは、進化の傾向を完全に捉えることはできない。 そこで本研究では,全ユーザと要素の状態を記憶するメモリバンクを維持し,各ユーザの嗜好を明示的にモデル化する時間的集合予測のための連続時間ユーザ選好モデリングフレームワークを提案する。 具体的には,まずすべてのユーザセットインタラクションを待ち受けない時間順に配置し,各ユーザセットインタラクションから時系列的に学習することで,普遍的なシーケンスを構築する。 各インタラクションに対して,現在符号化されているメッセージと過去の記憶に基づいて,関連するユーザおよび要素の記憶を継続的に更新する。 さらに,個人化されたユーザ行動学習モジュールを用いて,各ユーザの履歴シーケンスに基づいてユーザ固有の特徴を探索し,ユーザと要素に応じて2つの視点から予め相互作用した要素を集約する。 最後に、モデル効率を向上させるためのセットバッチアルゴリズムを開発し、時間一貫性のあるバッチを事前に生成し、平均的なトレーニングおよび評価プロセスにおいて3.5倍および3.0倍の高速化を実現する。 4つの実世界のデータセットに関する実験は、トランスダクティブとインダクティブの両方の設定下での最先端のアプローチの優位性を示しています。 また,本手法の優れた解釈可能性を示す。

Given a sequence of sets, where each set has a timestamp and contains an arbitrary number of elements, temporal sets prediction aims to predict the elements in the subsequent set. Previous studies for temporal sets prediction mainly focus on the modelling of elements and implicitly represent each user's preference based on his/her interacted elements. However, user preferences are often continuously evolving and the evolutionary trend cannot be fully captured with the indirect learning paradigm of user preferences. To this end, we propose a continuous-time user preference modelling framework for temporal sets prediction, which explicitly models the evolving preference of each user by maintaining a memory bank to store the states of all the users and elements. Specifically, we first construct a universal sequence by arranging all the user-set interactions in a non-descending temporal order, and then chronologically learn from each user-set interaction. For each interaction, we continuously update the memories of the related user and elements based on their currently encoded messages and past memories. Moreover, we present a personalized user behavior learning module to discover user-specific characteristics based on each user's historical sequence, which aggregates the previously interacted elements from dual perspectives according to the user and elements. Finally, we develop a set-batch algorithm to improve the model efficiency, which can create time-consistent batches in advance and achieve 3.5x and 3.0x speedups in the training and evaluation process on average. Experiments on four real-world datasets demonstrate the superiority of our approach over state-of-the-arts under both transductive and inductive settings. The good interpretability of our method is also shown.
翻訳日:2023-08-30 02:03:33 公開日:2023-08-28
# 1枚のGPUで16K画像を合成する超高解像度生成逆ネットワーク

One-shot Ultra-high-Resolution Generative Adversarial Network That Synthesizes 16K Images On A Single GPU ( http://arxiv.org/abs/2202.13799v3 )

ライセンス: Link先を確認
Junseok Oh, Donghwee Yoon and Injung Kim(参考訳) 我々は,1つのトレーニング画像から16K(16,384 x 8, 640)の非反復的な画像を生成し,単一のGPU上でトレーニング可能な,一発の超高解像度生成対向ネットワーク(OUR-GAN)フレームワークを提案する。 OUR-GANは、視覚的に可視であり、低解像度で形状が変化する初期画像を生成し、超解像度で詳細を追加することで徐々に解像度を向上する。 OUR-GANは、実際の超高解像度(UHR)画像から学習するため、細部と長距離コヒーレンスで大きな形状を合成することが可能であり、比較的小さな画像から得られたパッチ分布に依存する従来の生成モデルでは達成が難しい。 私たちのganは、12.5gbのgpuメモリと4kイメージで高品質な16k画像を4.29gbで合成できる。 さらに, 垂直位置畳み込みを適用し, 多様性を維持しつつ, 視覚コヒーレンスを向上させる。 st4k と raise データセットの実験では、ベースラインのワンショット合成モデルと比較して忠実性、視覚的な一貫性、多様性が向上した。 我々の知る限りでは、OUR-GANは単一のコンシューマGPU上で非反復的なUHR画像を生成する最初のワンショット画像合成器である。 合成画像サンプルはhttps://our-gan.github.io.comで公開されている。

We propose a one-shot ultra-high-resolution generative adversarial network (OUR-GAN) framework that generates non-repetitive 16K (16, 384 x 8, 640) images from a single training image and is trainable on a single consumer GPU. OUR-GAN generates an initial image that is visually plausible and varied in shape at low resolution, and then gradually increases the resolution by adding detail through super-resolution. Since OUR-GAN learns from a real ultra-high-resolution (UHR) image, it can synthesize large shapes with fine details and long-range coherence, which is difficult to achieve with conventional generative models that rely on the patch distribution learned from relatively small images. OUR-GAN can synthesize high-quality 16K images with 12.5 GB of GPU memory and 4K images with only 4.29 GB as it synthesizes a UHR image part by part through seamless subregion-wise super-resolution. Additionally, OUR-GAN improves visual coherence while maintaining diversity by applying vertical positional convolution. In experiments on the ST4K and RAISE datasets, OUR-GAN exhibited improved fidelity, visual coherency, and diversity compared with the baseline one-shot synthesis models. To the best of our knowledge, OUR-GAN is the first one-shot image synthesizer that generates non-repetitive UHR images on a single consumer GPU. The synthesized image samples are presented at https://our-gan.github.io.
翻訳日:2023-08-30 02:02:56 公開日:2023-08-28
# ボソニック弦理論におけるコヒーレント熱状態の回路複雑性

Circuit Complexity for Coherent-Thermal States in Bosonic String Theory ( http://arxiv.org/abs/2202.08663v2 )

ライセンス: Link先を確認
Arshid Shabir, Sanjib Dey, Salman Sajad Wani, Suhail Lone, Seemin Rubab, Mir Faizal(参考訳) 本稿では、まず光円錐ゲージにおけるボソニック弦理論の熱場二重状態を構築する。 次に、コヒーレント・サーマル・ストリング状態と熱コヒーレント・ストリング状態を得る。 共分散行列法を用いてコヒーレント-熱弦状態の回路複雑性を計算する。 提案手法では, 水平弦発生器により最適測地線を生成し, 群多様体における最小測地線の長さを用いて回路複雑性を求める。

In this paper, we first construct thermofield double states for bosonic string theory in the light-cone gauge. We then obtain a coherent-thermal string state and a thermal-coherent string state. We use the covariance matrix approach to calculate the circuit complexity of coherent-thermal string states. In this approach, we generate the optimal geodesics by a horizontal string generator, and then obtain the circuit complexity using the length of the minimal geodesics in the group manifold.
翻訳日:2023-08-30 02:02:11 公開日:2023-08-28
# クロスドメインフェデレーションオブジェクト検出

Cross-domain Federated Object Detection ( http://arxiv.org/abs/2206.14996v2 )

ライセンス: Link先を確認
Shangchao Su, Bin Li, Chengzhi Zhang, Mingzhao Yang, Xiangyang Xue(参考訳) ある当事者(サーバを含む)がトレーニングした検出モデルは、他のユーザ(クライアント)に配布された場合、深刻なパフォーマンス低下に直面する可能性がある。 フェデレーション学習は、クライアントデータをリークすることなく、多人数共同学習を可能にする。 本稿では、サーバが大規模にラベル付きデータを持ち、複数のクライアントが少数のラベル付きデータしか持たない特別なクロスドメインシナリオに注目し、一方、クライアント間でのデータ分散に違いがあることを示す。 この場合、従来の連合学習手法は、クライアントがすべての参加者のグローバルな知識と独自の知識の両方を学ぶのに役立ちません。 この制限を補うために、FedODというドメイン間フェデレーションオブジェクト検出フレームワークを提案する。 提案フレームワークは,まず,マルチティーチンガー蒸留によるグローバル集約モデルを得るためのフェデレーショントレーニングを行い,各クライアントに集約モデルを送信し,パーソナライズされたローカルモデルを微調整する。 数回のコミュニケーションの後、各クライアントは公開グローバルモデルとパーソナライズされたローカルモデルで重み付けアンサンブル推論を実行できます。 本研究では,複数の公用自動運転データセットに基づいて,背景とインスタンスの差異を有意に有するフェデレーションオブジェクト検出データセットを構築し,そのデータセットを広範囲に実験する。 実験の結果,提案手法の有効性が検証された。

Detection models trained by one party (including server) may face severe performance degradation when distributed to other users (clients). Federated learning can enable multi-party collaborative learning without leaking client data. In this paper, we focus on a special cross-domain scenario in which the server has large-scale labeled data and multiple clients only have a small amount of labeled data; meanwhile, there exist differences in data distributions among the clients. In this case, traditional federated learning methods can't help a client learn both the global knowledge of all participants and its own unique knowledge. To make up for this limitation, we propose a cross-domain federated object detection framework, named FedOD. The proposed framework first performs the federated training to obtain a public global aggregated model through multi-teacher distillation, and sends the aggregated model back to each client for fine-tuning its personalized local model. After a few rounds of communication, on each client we can perform weighted ensemble inference on the public global model and the personalized local model. We establish a federated object detection dataset which has significant background differences and instance differences based on multiple public autonomous driving datasets, and then conduct extensive experiments on the dataset. The experimental results validate the effectiveness of the proposed method.
翻訳日:2023-08-30 01:56:03 公開日:2023-08-28
# 一階線形論理を生成文法とする

Making first order linear logic a generating grammar ( http://arxiv.org/abs/2206.08955v4 )

ライセンス: Link先を確認
Sergey Slavnov(参考訳) 異なる分類文法が一階乗法線形論理(MLL1)の断片において表面表現を持つことが知られている。 興味の断片は,最近導入された拡張テンソル型計算(ETTC)と等価であることを示す。 ETTCは、文字列のタプルを表す特定の型付き用語の計算であり、より正確には、文字列で装飾された二部グラフである。 型は線形論理式から導出され、規則はこれらの文字列ラベルグラフ上の具体的な操作に対応するので、都合よく視覚化できる。 上述したMLL1の断片は、代替構文や直感的な幾何学的表現だけでなく、本質的な推論システムが欠落している言語モデリングに関係している。 本研究では、より簡潔で透明な計算を可能にする、以前に導入された {\bf ETTC} の非自明な表記に富んだ変種を考える。 我々はカットフリーなシークエント計算と自然な推論形式の両方を提示する。

It is known that different categorial grammars have surface representation in a fragment of first order multiplicative linear logic (MLL1). We show that the fragment of interest is equivalent to the recently introduced extended tensor type calculus (ETTC). ETTC is a calculus of specific typed terms, which represent tuples of strings, more precisely bipartite graphs decorated with strings. Types are derived from linear logic formulas, and rules correspond to concrete operations on these string-labeled graphs, so that they can be conveniently visualized. This provides the above mentioned fragment of MLL1 that is relevant for language modeling not only with some alternative syntax and intuitive geometric representation, but also with an intrinsic deductive system, which has been absent. In this work we consider a non-trivial notationally enriched variation of the previously introduced {\bf ETTC}, which allows more concise and transparent computations. We present both a cut-free sequent calculus and a natural deduction formalism.
翻訳日:2023-08-30 01:54:29 公開日:2023-08-28
# ランダム林の無目標データ汚染に対するロバスト性について:アンサンブルに基づくアプローチ

On the Robustness of Random Forest Against Untargeted Data Poisoning: An Ensemble-Based Approach ( http://arxiv.org/abs/2209.14013v3 )

ライセンス: Link先を確認
Marco Anisetti, Claudio A. Ardagna, Alessandro Balestrucci, Nicola Bena, Ernesto Damiani, Chan Yeob Yeun(参考訳) 機械学習はユビキタスになりつつある。 金融から医学まで、機械学習モデルは意思決定プロセスを強化し、いくつかのタスクで人間を上回っています。 このような予測品質の面での大きな進歩は、そのようなモデルのセキュリティとそれに対応する予測に匹敵するものは見つからず、トレーニングセット(解雇)の断片の摂動がモデルの精度を著しく損なう可能性がある。 毒殺攻撃と防衛に関する研究は、過去10年間で注目を集め、機械学習の堅牢性を高めるためのいくつかの有望な解決策につながった。 その中でも、トレーニングセットの一部で異なるモデルを訓練し、それらの予測を集約したアンサンブルベースの防御は、線形オーバーヘッドの価格で強力な理論的保証を提供する。 驚くべきことに、アンサンブルベースの防御はベースモデルに制限を課さないが、ランダムな森林モデルの堅牢性を高めるには適用されていない。 本稿では,このギャップを埋めるために,ランダムな森林を標的のないランダムな毒殺攻撃から保護する,新しいハッシュベースのアンサンブルアプローチを設計,実装することを目的とする。 広範な実験評価により,多種多様な攻撃に対するアプローチの性能と,資源消費と性能の観点からの持続可能性を測定し,ランダムフォレストに基づく従来のモノリシックモデルと比較した。 最後に本研究の成果を概説し,無作為林を標的とした既存防毒対策との比較を行った。

Machine learning is becoming ubiquitous. From finance to medicine, machine learning models are boosting decision-making processes and even outperforming humans in some tasks. This huge progress in terms of prediction quality does not however find a counterpart in the security of such models and corresponding predictions, where perturbations of fractions of the training set (poisoning) can seriously undermine the model accuracy. Research on poisoning attacks and defenses received increasing attention in the last decade, leading to several promising solutions aiming to increase the robustness of machine learning. Among them, ensemble-based defenses, where different models are trained on portions of the training set and their predictions are then aggregated, provide strong theoretical guarantees at the price of a linear overhead. Surprisingly, ensemble-based defenses, which do not pose any restrictions on the base model, have not been applied to increase the robustness of random forest models. The work in this paper aims to fill in this gap by designing and implementing a novel hash-based ensemble approach that protects random forest against untargeted, random poisoning attacks. An extensive experimental evaluation measures the performance of our approach against a variety of attacks, as well as its sustainability in terms of resource consumption and performance, and compares it with a traditional monolithic model based on random forest. A final discussion presents our main findings and compares our approach with existing poisoning defenses targeting random forests.
翻訳日:2023-08-30 01:45:35 公開日:2023-08-28
# 頑健な連続多言語学習のためのパラメータ効率の良いファインタニング

Parameter-Efficient Finetuning for Robust Continual Multilingual Learning ( http://arxiv.org/abs/2209.06767v3 )

ライセンス: Link先を確認
Kartikeya Badola, Shachi Dave, Partha Talukdar(参考訳) 本稿では,前訓練された多言語モデルが段階的に更新される連続的多言語学習(cml)の問題を紹介し,検討する。 新しいデータが言語のサブセットにのみ存在する場合、結果のモデルは最新のアップデート(およびいくつかの密接に関連する言語)に含まれる言語でのみパフォーマンスが向上し、残りの言語でのパフォーマンスは著しく低下する。 我々は、モデルが更新後に改善される言語数を増やすことを目的としたパラメータ効率の良い微調整戦略であるlaft-urielを提案することで、この課題に対処する。 LAFT-URIELは言語間のオーバーフィッティングと知識共有のバランスをとるために言語知識を使用し、タスク言語の25%の追加で更新後のパフォーマンスが向上すると同時に、残りの言語に対する平均的な損失を78%削減する。

We introduce and study the problem of Continual Multilingual Learning (CML) where a previously trained multilingual model is periodically updated using new data arriving in stages. If the new data is present only in a subset of languages, we find that the resulting model shows improved performance only on the languages included in the latest update (and a few closely related languages) while its performance on all the remaining languages degrade significantly. We address this challenge by proposing LAFT-URIEL, a parameter-efficient finetuning strategy which aims to increase the number of languages on which the model improves after an update, while reducing the magnitude of loss in performance for the remaining languages. LAFT-URIEL uses linguistic knowledge to balance overfitting and knowledge sharing across languages, allowing for an additional 25% of task languages to see an improvement in performance after an update, while also reducing the average magnitude of losses on the remaining languages by 78% relative.
翻訳日:2023-08-30 01:44:48 公開日:2023-08-28
# 自然会話における機械学習モデルの説明--対話型xaiエージェントに向けて

Explaining Machine Learning Models in Natural Conversations: Towards a Conversational XAI Agent ( http://arxiv.org/abs/2209.02552v2 )

ライセンス: Link先を確認
Van Bach Nguyen, J\"org Schl\"otterer, Christin Seifert(参考訳) 説明可能なAI(XAI)の目標は、深層ニューラルネットワークのようなブラックボックスモデルの推論プロセスに関する洞察を提供する方法を設計し、それらを人間に説明することである。 社会科学の研究は、このような説明は人間と人間の説明と同様、会話的であるべきだと述べている。 本稿では,自然言語理解と生成成分を含むエージェントの標準設計を用いて,対話型エージェントにxaiを組み込む方法を示す。 我々は,ユーザの情報ニーズを理解するために,品質制御されたパラフレーズによって拡張されたXAI質問銀行を構築した。 さらに,これらの質問に答える情報を提供する適切な説明方法として文献を体系的に調査し,提案の包括的なリストを示す。 私たちの仕事は、説明エージェントによる機械学習モデルに関する真に自然な会話への第一歩です。 XAI質問の包括的リストとそれに対応する説明手法は、ユーザの要求に対処するために必要な情報を提供する他の研究者を支援することができる。

The goal of Explainable AI (XAI) is to design methods to provide insights into the reasoning process of black-box models, such as deep neural networks, in order to explain them to humans. Social science research states that such explanations should be conversational, similar to human-to-human explanations. In this work, we show how to incorporate XAI in a conversational agent, using a standard design for the agent comprising natural language understanding and generation components. We build upon an XAI question bank which we extend by quality-controlled paraphrases to understand the user's information needs. We further systematically survey the literature for suitable explanation methods that provide the information to answer those questions, and present a comprehensive list of suggestions. Our work is the first step towards truly natural conversations about machine learning models with an explanation agent. The comprehensive list of XAI questions and the corresponding explanation methods may support other researchers in providing the necessary information to address users' demands.
翻訳日:2023-08-30 01:44:29 公開日:2023-08-28
# シャットリング型1オン量子コンピュータ用量子回路コンパイラ

Quantum Circuit Compiler for a Shuttling-Based Trapped-Ion Quantum Computer ( http://arxiv.org/abs/2207.01964v3 )

ライセンス: Link先を確認
Fabian Kreppel, Christian Melzer, Diego Olvera Mill\'an, Janis Wagner, Janine Hilder, Ulrich Poschinger, Ferdinand Schmidt-Kaler, Andr\'e Brinkmann(参考訳) 量子コンピューティングハードウェアの能力の増大と深層量子回路の実現の課題は、量子回路をコンパイルするための完全に自動化され効率的なツールを必要とする。 量子コンピュータアーキテクチャに特有のネイティブゲートのシーケンスで任意の回路を表現するためには、量子ハードウェアプロバイダのランドスケープをまたいでアルゴリズムをポータブルにする必要がある。 本稿では,シャットリング型トラップイオン量子プロセッサをターゲットとした量子回路の変換と最適化が可能なコンパイラを提案する。 量子回路フレームワークpytket上に設定されたカスタムアルゴリズムで構成されている。 この性能は幅広い量子回路で評価され、その結果、標準のピケットに比べて最大5.1倍、標準のカイスキートコンパイルに比べて最大2.2倍、ゲート数は最大5.1倍に削減できることが示された。

The increasing capabilities of quantum computing hardware and the challenge of realizing deep quantum circuits require fully automated and efficient tools for compiling quantum circuits. To express arbitrary circuits in a sequence of native gates specific to the quantum computer architecture, it is necessary to make algorithms portable across the landscape of quantum hardware providers. In this work, we present a compiler capable of transforming and optimizing a quantum circuit targeting a shuttling-based trapped-ion quantum processor. It consists of custom algorithms set on top of the quantum circuit framework Pytket. The performance was evaluated for a wide range of quantum circuits and the results show that the gate counts can be reduced by factors up to 5.1 compared to standard Pytket and up to 2.2 compared to standard Qiskit compilation.
翻訳日:2023-08-30 01:42:28 公開日:2023-08-28
# 非エルミート皮膚効果を超えた散逸格子モデルにおける異常に大きな緩和時間

Anomalously large relaxation times in dissipative lattice models beyond the non-Hermitian skin effect ( http://arxiv.org/abs/2210.14212v2 )

ライセンス: Link先を確認
Gideon Lee and Alexander McDonald and Aashish Clerk(参考訳) 一般の信念とは対照的に,局所観測可能時間の緩和は非エルミート的皮膚効果に関連する局所的長さ$\xi_{\rm loc}$ によって制御されないことを示す。 代わりに、固有ベクトル間の干渉は、緩和とは関係のないモードの極端な局所化を効果的に行う。 パラダイム的hatano-nelsonモデルに焦点をあてて、より広い長さスケールの$\xi_{\rm prop}$が存在し、定常状態への減衰率を制御することを証明した。 さらに、$\xi_{\rm prop}$ が変化すると、システムサイズでスケールする異常に大きな緩和時間や、散逸ギャップが崩壊率を正確に予測する期待行動が発生する可能性がある。 我々の研究は、非エルミート皮膚効果の重要な側面を強調している。

We show for generic quantum non-Hermitian tight-binding models that relaxation timescales of local observables are not controlled by the localization length $\xi_{\rm loc}$ associated with the non-Hermitian skin effect, contrary to popular belief. Instead, interference between eigenvectors effectively makes the extreme localization of modes largely irrelevant to relaxation; this is ultimately a consequence of causality and locality. Focusing on the paradigmatic Hatano-Nelson model, we demonstrate that there exists instead a much larger length scale $\xi_{\rm prop}$ which controls the rate of decay towards the steady state. Further, varying $\xi_{\rm prop}$ can lead to anomalously large relaxation times that scale with system size, or to the expected behavior where the dissipative gap correctly predicts the rate of decay. Our work highlights an important aspect of the non-Hermitian skin effect: the exceptional sensitivity to boundary conditions here necessarily takes a finite amount of time to manifest itself.
翻訳日:2023-08-30 01:36:00 公開日:2023-08-28
# 分布シフトのための十分な不変学習

Sufficient Invariant Learning for Distribution Shift ( http://arxiv.org/abs/2210.13533v2 )

ライセンス: Link先を確認
Taero Kim, Sungjun Lim, Kyungwoo Song(参考訳) 機械学習アルゴリズムは様々なアプリケーションで顕著な性能を示している。 しかし、トレーニングとテストデータセットの分布が異なる場合、分散シフトのパフォーマンスを保証することは依然として難しい。 グループやドメインにまたがる不変特徴を学習することで、分散シフトケースのパフォーマンスを改善するためのいくつかのアプローチがあった。 しかし,従来の研究は部分的な不変性しか学習していない。 先行研究は限定的な不変な特徴に焦点をあてるが、我々はまず十分な不変な特徴の重要性を高める。 トレーニングセットのみが経験的に与えられるので、トレーニングセットから学習された部分不変特徴は、分布シフト下のテストセットには存在しない可能性がある。 したがって、分散シフトにおける性能改善は制限される可能性がある。 本稿では,訓練集合から十分な不変特徴を学習することは分布シフトの場合に不可欠であると主張する。 具体的には 新たに 両者のつながりを a) 十分な不変特徴と b) 群又は領域間の平坦性差 さらに,新しいアルゴリズムである適応シャープネス認識群分散ロバスト最適化 (asgdro) を提案する。 ASGDROはすべての群や領域に共通する平坦なミニマを求めることで十分な不変性を学ぶ。 したがって、ASGDROは多様な分散シフトケースの性能を向上させる。 さらに,多様なアルゴリズムが十分な不変性を学習するかどうかを診断するために,新しい単純データセットHeterogeneous-CMNISTを提供する。

Machine learning algorithms have shown remarkable performance in diverse applications. However, it is still challenging to guarantee performance in distribution shifts when distributions of training and test datasets are different. There have been several approaches to improve the performance in distribution shift cases by learning invariant features across groups or domains. However, we observe that the previous works only learn invariant features partially. While the prior works focus on the limited invariant features, we first raise the importance of the sufficient invariant features. Since only training sets are given empirically, the learned partial invariant features from training sets might not be present in the test sets under distribution shift. Therefore, the performance improvement on distribution shifts might be limited. In this paper, we argue that learning sufficient invariant features from the training set is crucial for the distribution shift case. Concretely, we newly observe the connection between a) sufficient invariant features and b) flatness differences between groups or domains. Moreover, we propose a new algorithm, Adaptive Sharpness-aware Group Distributionally Robust Optimization (ASGDRO), to learn sufficient invariant features across domains or groups. ASGDRO learns sufficient invariant features by seeking common flat minima across all groups or domains. Therefore, ASGDRO improves the performance on diverse distribution shift cases. Besides, we provide a new simple dataset, Heterogeneous-CMNIST, to diagnose whether the various algorithms learn sufficient invariant features.
翻訳日:2023-08-30 01:35:40 公開日:2023-08-28
# ロボットの動作計画と制御のための可変制約模倣学習

Differentiable Constrained Imitation Learning for Robot Motion Planning and Control ( http://arxiv.org/abs/2210.11796v2 )

ライセンス: Link先を確認
Christopher Diehl and Janis Adamek and Martin Kr\"uger and Frank Hoffmann and Torsten Bertram(参考訳) 動きの計画と制御は、自動走行のようなロボットアプリケーションの重要な要素である。 ここでは、システムダイナミクスや安全境界(例えば障害物)のような時空間的制約がロボットの動きを制限する。 最適制御からの直接方法は制約付き最適化問題を解く。 しかし、多くのアプリケーションで適切なコスト関数を見つけることは、部分的に相反する目的の重み付けのために本質的に困難である。 一方、行動クローニング(BC)のようなImitation Learning(IL)手法は、オフラインのデモから意思決定を学習するための直感的なフレームワークを提供し、複雑なロボットアプリケーションにおける計画と制御のための有望な道を構成する。 以前の作業は主にソフト制約アプローチに依存しており、制約を記述する追加の補助的損失項を使用する。 しかし、破滅的な安全クリティカルな障害は、アウト・オブ・ディストリビューション(OOD)のシナリオで起こりうる。 この作業は、ilの柔軟性と最適制御における厳しい制約処理を統合する。 本手法は,移動ロボットと自動走行アプリケーションに焦点を当てた交通エージェントシミュレーションと同様に,ロボットの動作計画と制御を制約する汎用フレームワークを構成する。 ハード制約は、明示的な補完と勾配に基づく補正によって、微分可能な方法で学習問題に統合される。 移動ロボットナビゲーションと自動運転のシミュレーション実験は,提案手法の性能を実証するものである。

Motion planning and control are crucial components of robotics applications like automated driving. Here, spatio-temporal hard constraints like system dynamics and safety boundaries (e.g., obstacles) restrict the robot's motions. Direct methods from optimal control solve a constrained optimization problem. However, in many applications finding a proper cost function is inherently difficult because of the weighting of partially conflicting objectives. On the other hand, Imitation Learning (IL) methods such as Behavior Cloning (BC) provide an intuitive framework for learning decision-making from offline demonstrations and constitute a promising avenue for planning and control in complex robot applications. Prior work primarily relied on soft constraint approaches, which use additional auxiliary loss terms describing the constraints. However, catastrophic safety-critical failures might occur in out-of-distribution (OOD) scenarios. This work integrates the flexibility of IL with hard constraint handling in optimal control. Our approach constitutes a general framework for constraint robotic motion planning and control, as well as traffic agent simulation, whereas we focus on mobile robot and automated driving applications. Hard constraints are integrated into the learning problem in a differentiable manner, via explicit completion and gradient-based correction. Simulated experiments of mobile robot navigation and automated driving provide evidence for the performance of the proposed method.
翻訳日:2023-08-30 01:35:19 公開日:2023-08-28
# 良性オートエンコーダ

Benign Autoencoders ( http://arxiv.org/abs/2210.00637v4 )

ライセンス: Link先を確認
Semyon Malamud, Teng Andrea Xu, and Antoine Didisheim(参考訳) 生成人工知能(AI)の最近の進歩は、エンコーダ-デコーダアーキテクチャを特徴とする効率的なデータ表現に依存している。 最適なエンコーダ-デコーダペアを見つけ、その解を特徴付ける数学的問題を定式化し、これを「良性オートエンコーダ」(bae)と呼ぶ。 BAEが生成問題の最適圧縮性次元である多様体にデータを投影することを証明する。 我々は、条件付きgan、コンテキストエンコーダ、安定した拡散、スタック付きオートエンコーダ、生成モデルの学習能力など、aiにおけるbaeと最近のいくつかの開発との間の驚くべき関係に注目した。 例として,分布シフト下での判別器の性能を向上させるために,baeが最適かつ低次元の潜在表現を見出す方法を示す。 データの次元を圧縮することで、BAEはより滑らかで安定した勾配をもたらす。

Recent progress in Generative Artificial Intelligence (AI) relies on efficient data representations, often featuring encoder-decoder architectures. We formalize the mathematical problem of finding the optimal encoder-decoder pair and characterize its solution, which we name the "benign autoencoder" (BAE). We prove that BAE projects data onto a manifold whose dimension is the optimal compressibility dimension of the generative problem. We highlight surprising connections between BAE and several recent developments in AI, such as conditional GANs, context encoders, stable diffusion, stacked autoencoders, and the learning capabilities of generative models. As an illustration, we show how BAE can find optimal, low-dimensional latent representations that improve the performance of a discriminator under a distribution shift. By compressing "malignant" data dimensions, BAE leads to smoother and more stable gradients.
翻訳日:2023-08-30 01:33:58 公開日:2023-08-28
# 可視性摂動による視覚情報の隠蔽

Hiding Visual Information via Obfuscating Adversarial Perturbations ( http://arxiv.org/abs/2209.15304v4 )

ライセンス: Link先を確認
Zhigang Su and Dawei Zhou and Nannan Wangu and Decheng Li and Zhen Wang and Xinbo Gao(参考訳) ビジュアル情報の漏洩と誤用の増加は、セキュリティとプライバシーの懸念を高め、情報保護の開発を促進する。 既存の対向的摂動に基づく手法は、主に深層学習モデルに対する識別の除去に焦点を当てている。 しかし、データ固有の視覚情報は十分に保護されていない。 本稿では,type-iアドバーサリー攻撃に触発されて,データの視覚プライバシを保護するためのアドバーサリービジュアル情報隠蔽手法を提案する。 具体的には、データの視覚情報を隠蔽する難読化対向摂動を生成する。 一方、モデルによって正しく予測される隠れた目的を維持している。 さらに,本手法は適用モデルのパラメータを変更しないため,異なるシナリオに対して柔軟である。 認識・分類タスクの実験結果は,提案手法が視覚情報を効果的に隠蔽し,モデルの性能にはほとんど影響しないことを示す。 コードは補足資料で入手できる。

Growing leakage and misuse of visual information raise security and privacy concerns, which promotes the development of information protection. Existing adversarial perturbations-based methods mainly focus on the de-identification against deep learning models. However, the inherent visual information of the data has not been well protected. In this work, inspired by the Type-I adversarial attack, we propose an adversarial visual information hiding method to protect the visual privacy of data. Specifically, the method generates obfuscating adversarial perturbations to obscure the visual information of the data. Meanwhile, it maintains the hidden objectives to be correctly predicted by models. In addition, our method does not modify the parameters of the applied model, which makes it flexible for different scenarios. Experimental results on the recognition and classification tasks demonstrate that the proposed method can effectively hide visual information and hardly affect the performances of models. The code is available in the supplementary material.
翻訳日:2023-08-30 01:33:43 公開日:2023-08-28
# quadconv:quadrature-based convolutionsと非一様pdeデータ圧縮への応用

QuadConv: Quadrature-Based Convolutions with Applications to Non-Uniform PDE Data Compression ( http://arxiv.org/abs/2211.05151v3 )

ライセンス: Link先を確認
Kevin Doherty, Cooper Simpson, Stephen Becker, Alireza Doostan(参考訳) 本稿では,我々がquadconvと呼ぶ深層学習アーキテクチャのための新しい畳み込み層を提案する。 私たちのオペレータは、一様でないメッシュベースのデータでの使用のために明示的に開発され、任意の場所でサンプリング可能な連続カーネルを学習することでこれを実現します。 さらに、演算子の構築は、我々が詳述し構成する効率的な実装を認めます。 演算子の実験的検証として、固定メッシュから偏微分方程式(PDE)シミュレーションデータを圧縮する作業を検討する。 本研究では,QuadConv オートエンコーダ (QCAE) を標準畳み込みオートエンコーダ (CAE) と比較することにより,一様グリッドデータ上での標準離散畳み込みの性能に適合できることを示す。 さらに,QCAEはこの精度を一様でないデータでも維持可能であることを示す。 どちらの場合も、QuadConvはグラフ畳み込みのような非構造的畳み込み法よりも優れている。

We present a new convolution layer for deep learning architectures which we call QuadConv -- an approximation to continuous convolution via quadrature. Our operator is developed explicitly for use on non-uniform, mesh-based data, and accomplishes this by learning a continuous kernel that can be sampled at arbitrary locations. Moreover, the construction of our operator admits an efficient implementation which we detail and construct. As an experimental validation of our operator, we consider the task of compressing partial differential equation (PDE) simulation data from fixed meshes. We show that QuadConv can match the performance of standard discrete convolutions on uniform grid data by comparing a QuadConv autoencoder (QCAE) to a standard convolutional autoencoder (CAE). Further, we show that the QCAE can maintain this accuracy even on non-uniform data. In both cases, QuadConv also outperforms alternative unstructured convolution methods such as graph convolution.
翻訳日:2023-08-30 01:25:23 公開日:2023-08-28
# $BT^2$: バス変換による後方互換トレーニング

$BT^2$: Backward-compatible Training with Basis Transformation ( http://arxiv.org/abs/2211.03989v3 )

ライセンス: Link先を確認
Yifei Zhou, Zilu Li, Abhinav Shrivastava, Hengshuang Zhao, Antonio Torralba, Taipeng Tian, Ser-Nam Lim(参考訳) 現代の検索システムは、より優れた表現モデルに更新する際に、ギャラリー内のすべてのデータの表現を再計算する必要がある。 このプロセスはバックフィル(backfilling)と呼ばれ、ギャラリーが何十億ものサンプルを含む実世界では特にコストがかかる。 近年、研究者は、新しい表現モデルを補助損失で訓練し、古い表現と後方互換性を持たせるための後方互換性トレーニング(bct)のアイデアを提案している。 このように、新しい表現は、原則としてバックフィルの必要性を避けるために、古い表現と直接比較することができる。 しかし、後続の作業は、後方互換性のある表現モデルが新しいモデル自体のパフォーマンスを同時に維持できない固有のトレードオフが存在することを示している。 この記事では、表現に余分な次元を加えることが、ここで役立つことを発見したことを報告します。 しかし, 比例的に表現の次元を増大させることはうまくいかなかった。 そこで本研究では,新しいBasis Transformation(BT^2$)による後方互換性トレーニングを提案する。 基底変換 (BT) は基本的に正則変換を適用するパラメータの学習可能な集合である。 このような変換は、その入力に含まれる元の情報がその出力に保持される重要な特性を持つ。 本稿では,bt を付加次元の必要量のみを付加する方法について述べる。 我々は、さまざまな設定で、他の最先端メソッドに対して$BT^2$の利点を実証的に検証する。 さらに$BT^2$を、モデルアーキテクチャ(CNNからトランスフォーマーへ)の大幅な変更、モダリティの変更、さらにはディープラーニングモデルの進化を模倣したモデルアーキテクチャの一連の更新など、より困難な、より実用的な設定に拡張します。

Modern retrieval system often requires recomputing the representation of every piece of data in the gallery when updating to a better representation model. This process is known as backfilling and can be especially costly in the real world where the gallery often contains billions of samples. Recently, researchers have proposed the idea of Backward Compatible Training (BCT) where the new representation model can be trained with an auxiliary loss to make it backward compatible with the old representation. In this way, the new representation can be directly compared with the old representation, in principle avoiding the need for any backfilling. However, followup work shows that there is an inherent tradeoff where a backward compatible representation model cannot simultaneously maintain the performance of the new model itself. This paper reports our ``not-so-surprising'' finding that adding extra dimensions to the representation can help here. However, we also found that naively increasing the dimension of the representation did not work. To deal with this, we propose Backward-compatible Training with a novel Basis Transformation ($BT^2$). A basis transformation (BT) is basically a learnable set of parameters that applies an orthonormal transformation. Such a transformation possesses an important property whereby the original information contained in its input is retained in its output. We show in this paper how a BT can be utilized to add only the necessary amount of additional dimensions. We empirically verify the advantage of $BT^2$ over other state-of-the-art methods in a wide range of settings. We then further extend $BT^2$ to other challenging yet more practical settings, including significant change in model architecture (CNN to Transformers), modality change, and even a series of updates in the model architecture mimicking the evolution of deep learning models.
翻訳日:2023-08-30 01:25:05 公開日:2023-08-28
# イジング相互作用を有する多体系における局所緩和時の相関エントロピー生成

The correlational entropy production during the local relaxation in a many body system with Ising interactions ( http://arxiv.org/abs/2211.03050v2 )

ライセンス: Link先を確認
Tai Kang, Sheng-Wen Li(参考訳) 孤立量子系はユニタリ進化に従い、完全な多くの体状態が初期状態として常に一定エントロピーを保持することを保証している。 対照的に、局所的な部分系は緩和挙動を示し、局所緩和と呼ばれる一定の定常状態へと進化する。 ここでは,イジング相互作用を伴う有限多体系の局所ダイナミクスを考える。 強い結合状態と弱い結合状態の両方において、局所的な可観測物はマクロ的な熱力学と同様の緩和挙動を示す。 特に、この系の総相関は、強結合と弱結合の両方においてほぼ一調的に増大するエントロピーを示しており、これは標準のマクロ熱力学における可逆エントロピー生成に対応する。 さらに、適切な制約の下で計算された総相関の可能な最大値は、時間依存進化の正確な結果とよく一致する。

Isolated quantum systems follow the unitary evolution, which guarantees the full many body state always keeps a constant entropy as its initial one. In comparison, the local subsystems exhibit relaxation behavior and evolve towards certain steady states, which is called the local relaxation. Here we consider the local dynamics of finite many body system with Ising interaction. In both strong and weak coupling situations, the local observables exhibit similar relaxation behavior as the macroscopic thermodynamics; due to the finite size effect, recurrence appears after a certain typical time. Especially, we find that the total correlation of this system approximately exhibits a monotonic increasing envelope in both strong and weak coupling cases, which corresponds to the irreversible entropy production in the standard macroscopic thermodynamics. Moreover, the possible maximum of such total correlation calculated under proper constraints also coincides well with the exact result of time dependent evolution.
翻訳日:2023-08-30 01:24:29 公開日:2023-08-28
# dynamicisp:画像認識のための動的制御型画像信号処理装置

DynamicISP: Dynamically Controlled Image Signal Processor for Image Recognition ( http://arxiv.org/abs/2211.01146v3 )

ライセンス: Link先を確認
Masakazu Yoshimura, Junji Otsuka, Atsushi Irie, Takeshi Ohashi(参考訳) 画像信号処理装置(isp)は、画像認識タスクや撮像画像の知覚品質において重要な役割を果たす。 ほとんどの場合、専門家はISPの多くのパラメータを手動で調整するために多くの努力をしています。 文献では、機械学習に基づくパラメータチューニング技術とDNNベースのISP技術という2つの手法が活発に研究されている。 前者は軽量だが、表現力に欠ける。 後者は表現力があるが、計算コストはエッジデバイスでは重すぎる。 これらの問題を解決するために,複数の古典的ISP関数からなるDynamicISPを提案し,前フレームの認識結果に応じて各フレームのパラメータを動的に制御する。 本稿では,複数のISP関数のパラメータの制御に成功し,単一および複数カテゴリのオブジェクト検出タスクにおいて,計算コストの低い最先端の精度を実現する。

Image Signal Processors (ISPs) play important roles in image recognition tasks as well as in the perceptual quality of captured images. In most cases, experts make a lot of effort to manually tune many parameters of ISPs, but the parameters are sub-optimal. In the literature, two types of techniques have been actively studied: a machine learning-based parameter tuning technique and a DNN-based ISP technique. The former is lightweight but lacks expressive power. The latter has expressive power, but the computational cost is too heavy on edge devices. To solve these problems, we propose "DynamicISP," which consists of multiple classical ISP functions and dynamically controls the parameters of each frame according to the recognition result of the previous frame. We show our method successfully controls the parameters of multiple ISP functions and achieves state-of-the-art accuracy with low computational cost in single and multi-category object detection tasks.
翻訳日:2023-08-30 01:24:10 公開日:2023-08-28
# CarDD: 視覚に基づく自動車損傷検出のための新しいデータセット

CarDD: A New Dataset for Vision-based Car Damage Detection ( http://arxiv.org/abs/2211.00945v2 )

ライセンス: Link先を確認
Xinkuang Wang, Wenjing Li, Zhongcheng Wu(参考訳) 自動車の損害自動検出は自動車保険業界で大きな注目を集めている。 しかし、高品質で公開可能なデータセットが不足しているため、自動車の損傷検出が可能なモデルはほとんど学べない。 この目的のために,視覚に基づく車両損傷検出とセグメンテーション用に設計された,最初の公開大規模データセットであるcar damage detection (cardd) にコントリビュートする。 我々のCarDDは、4000以上の高解像度の自動車損傷画像と6つの損傷カテゴリの9000以上のよく注釈された事例を含んでいる。 画像収集,選択,アノテーションのプロセスについて詳述し,統計的データセット解析について述べる。 さらに,各タスクに対する最先端のディープメソッドを用いたCarDDの広範な実験を行い,自動車損傷検出の専門性を明らかにするための総合的な分析を行った。 cardd datasetとソースコードはhttps://cardd-ustc.github.ioで入手できる。

Automatic car damage detection has attracted significant attention in the car insurance business. However, due to the lack of high-quality and publicly available datasets, we can hardly learn a feasible model for car damage detection. To this end, we contribute with Car Damage Detection (CarDD), the first public large-scale dataset designed for vision-based car damage detection and segmentation. Our CarDD contains 4,000 highresolution car damage images with over 9,000 well-annotated instances of six damage categories. We detail the image collection, selection, and annotation processes, and present a statistical dataset analysis. Furthermore, we conduct extensive experiments on CarDD with state-of-the-art deep methods for different tasks and provide comprehensive analyses to highlight the specialty of car damage detection. CarDD dataset and the source code are available at https://cardd-ustc.github.io.
翻訳日:2023-08-30 01:23:54 公開日:2023-08-28
# QNet: 量子ネイティブシーケンスエンコーダアーキテクチャ

QNet: A Quantum-native Sequence Encoder Architecture ( http://arxiv.org/abs/2210.17262v2 )

ライセンス: Link先を確認
Wei Day, Hao-Sheng Chen, Min-Te Sun(参考訳) この研究は、量子コンピュータ上で最小の量子ビットを用いて完全に推論する新しいシーケンスエンコーダモデルQNetを提案する。 n$ と $d$ はそれぞれシーケンスの長さと埋め込みサイズを表す。 ドット生成注意機構は、時間複雑性が$o(n^2 \cdot d)$であるのに対して、qnetは$o(n+d)$の量子回路深さしか持たない。 さらに,残差接続で連結された複数のqnetブロックからなる量子古典ハイブリッドモデルであるresqnetをisomorph transformerエンコーダとして導入する。 我々は、テキスト分類、評価スコア予測、名前付きエンティティ認識など、自然言語処理タスクに関する作業について評価した。 我々のモデルは、1000倍のパラメータを持つ古典的最先端モデルよりも魅力的な性能を示す。 本研究は、自然言語処理タスクを実験することにより、逐次データにおける短期量子コンピュータにおける機械学習の利点を考察する。

This work proposes QNet, a novel sequence encoder model that entirely inferences on the quantum computer using a minimum number of qubits. Let $n$ and $d$ represent the length of the sequence and the embedding size, respectively. The dot-product attention mechanism requires a time complexity of $O(n^2 \cdot d)$, while QNet has merely $O(n+d)$ quantum circuit depth. In addition, we introduce ResQNet, a quantum-classical hybrid model composed of several QNet blocks linked by residual connections, as an isomorph Transformer Encoder. We evaluated our work on various natural language processing tasks, including text classification, rating score prediction, and named entity recognition. Our models exhibit compelling performance over classical state-of-the-art models with a thousand times fewer parameters. In summary, this work investigates the advantage of machine learning on near-term quantum computers in sequential data by experimenting with natural language processing tasks.
翻訳日:2023-08-30 01:22:56 公開日:2023-08-28
# 3次元表現の深部生成モデルに関する研究

Deep Generative Models on 3D Representations: A Survey ( http://arxiv.org/abs/2210.15663v3 )

ライセンス: Link先を確認
Zifan Shi, Sida Peng, Yinghao Xu, Andreas Geiger, Yiyi Liao, and Yujun Shen(参考訳) 生成モデルは、新しいインスタンスを生成して観測データの分布を学ぶことを目的としている。 ニューラルネットワークの出現に伴い, 可変オートエンコーダ(VAE), GAN(Generative Adversarial Network), 拡散モデル(DM)などの深部生成モデルは, 2次元画像の合成において著しく進展した。 最近、研究者たちは3Dデータが我々の物理的世界とより密接な関係にあり、非常に実用的な可能性を秘めていることを考慮して、2Dから3Dに焦点を移し始めた。 しかし、固有かつ効率的な表現を持つ2D画像(\textit{i.e.}、ピクセルグリッド)とは異なり、3Dデータを表現することは大きな課題となる。 理想的には、堅牢な3D表現は複雑な形状や外観を正確にモデル化でき、高い処理速度と低メモリ要求で高解像度のデータを処理できる。 当然のことながら、ポイントクラウド、メッシュ、ニューラルネットワークといった既存の3D表現は、これらすべての要件を同時に満たさないことが多い。 本稿では,2次元および3次元の監視手法を含む3次元生成モデルの開発状況について概観する。 この文脈で使用される表現に特に焦点をあてた生成モデルを中心に分析を行った。 我々の調査は、コミュニティがフィールドの進化を追跡し、この課題を解決するための革新的なアイデアを創り出すのに役立つと信じています。

Generative models aim to learn the distribution of observed data by generating new instances. With the advent of neural networks, deep generative models, including variational autoencoders (VAEs), generative adversarial networks (GANs), and diffusion models (DMs), have progressed remarkably in synthesizing 2D images. Recently, researchers started to shift focus from 2D to 3D space, considering that 3D data is more closely aligned with our physical world and holds immense practical potential. However, unlike 2D images, which possess an inherent and efficient representation (\textit{i.e.}, a pixel grid), representing 3D data poses significantly greater challenges. Ideally, a robust 3D representation should be capable of accurately modeling complex shapes and appearances while being highly efficient in handling high-resolution data with high processing speeds and low memory requirements. Regrettably, existing 3D representations, such as point clouds, meshes, and neural fields, often fail to satisfy all of these requirements simultaneously. In this survey, we thoroughly review the ongoing developments of 3D generative models, including methods that employ 2D and 3D supervision. Our analysis centers on generative models, with a particular focus on the representations utilized in this context. We believe our survey will help the community to track the field's evolution and to spark innovative ideas to propel progress towards solving this challenging task.
翻訳日:2023-08-30 01:22:41 公開日:2023-08-28
# 離散ウェーブレット変換と生成逆ネットワークに基づくカラー文書画像の3段階二元化

Three-stage binarization of color document images based on discrete wavelet transform and generative adversarial networks ( http://arxiv.org/abs/2211.16098v4 )

ライセンス: Link先を確認
Yu-Shian Lin, Rui-Yang Ju, Chih-Chia Chen, Chun-Tse Chien, Jen-Shiun Chiang(参考訳) 劣化したカラー文書画像における背景テキスト情報の効率的なセグメンテーションは、古写本の保存において重要な課題である。 古写本の不完全な保存は、染色、黄化、インクの浸出など様々な種類の劣化を招き、画像のバイナライゼーションの結果に大きな影響を与えている。 本研究では、離散ウェーブレット変換(DWT)による劣化したカラー文書画像の強調とバイナライズにGAN(Generative Adversarial Networks)を用いた3段階手法を提案する。 ステージ1はDWTを適用し、ローロー(LL)サブバンドイメージを画像強調のために保持する。 ステージ2では、元の入力画像を4つの単一チャネルイメージ(赤、緑、青、グレー)に分割し、それぞれが独立した敵ネットワークでトレーニングされ、色フォアグラウンド情報を抽出する。 ステージ3では、ステージ2からの出力画像と元の入力画像を用いて、文書二項化のための独立した敵ネットワークを訓練し、グローバルな特徴とローカルな特徴の統合を可能にする。 実験の結果,提案手法は文書画像二元化コンテスト(DIBCO)データセットにおいて,従来のSOTA法よりも優れていた。 実装コードはhttps://github.com/abcpp12383/ThreeStageBinarizationでリリースしました。

The efficient segmentation of foreground text information from the background in degraded color document images is a critical challenge in the preservation of ancient manuscripts. The imperfect preservation of ancient manuscripts over time has led to various types of degradation, such as staining, yellowing, and ink seepage, significantly affecting image binarization results. This work proposes a three-stage method using Generative Adversarial Networks (GAN) for enhancing and binarizing degraded color document images through Discrete Wavelet Transform (DWT). Stage-1 involves applying DWT and retaining the Low-Low (LL) subband images for image enhancement. In Stage-2, the original input image is divided into four single-channel images (Red, Green, Blue, and Gray), and each is trained with independent adversarial networks to extract color foreground information. In Stage-3, the output image from Stage-2 and the original input image are used to train independent adversarial networks for document binarization, enabling the integration of global and local features. The experimental results demonstrate that our proposed method outperforms other classic and state-of-the-art (SOTA) methods on the Document Image Binarization Contest (DIBCO) datasets. We have released our implementation code at https://github.com/abcpp12383/ThreeStageBinarization.
翻訳日:2023-08-30 01:15:51 公開日:2023-08-28
# パーソナライゼーションタスクのための強化学習エージェントのポリシーエントロピーの検討

Examining Policy Entropy of Reinforcement Learning Agents for Personalization Tasks ( http://arxiv.org/abs/2211.11869v3 )

ライセンス: Link先を確認
Anton Dereventsov, Andrew Starnes, Clayton G. Webster(参考訳) 本研究は, パーソナライズ環境における強化学習システムの挙動を把握し, 利用した学習アルゴリズムの種類に関連する政策エントロピーの違いを詳述する。 ポリシー最適化エージェントはトレーニング中に低エントロピーポリシを持つことが多く,その結果としてエージェントは特定のアクションを優先し,他のアクションを避けることができる。 逆に,q-learningエージェントはそのような行動に対する感受性が低く,一般的にはトレーニングを通じて高いエントロピーポリシーが維持されていることも示している。 本研究では,これらのエントロピーの違いが採用される学習の種類に起因することを示すため,幅広い数値実験と理論的正当性を提供する。

This effort is focused on examining the behavior of reinforcement learning systems in personalization environments and detailing the differences in policy entropy associated with the type of learning algorithm utilized. We demonstrate that Policy Optimization agents often possess low-entropy policies during training, which in practice results in agents prioritizing certain actions and avoiding others. Conversely, we also show that Q-Learning agents are far less susceptible to such behavior and generally maintain high-entropy policies throughout training, which is often preferable in real-world applications. We provide a wide range of numerical experiments as well as theoretical justification to show that these differences in entropy are due to the type of learning being employed.
翻訳日:2023-08-30 01:15:08 公開日:2023-08-28
# 深層強化学習のための低レイテンシ適応型符号化スパイクフレームワーク

A Low Latency Adaptive Coding Spiking Framework for Deep Reinforcement Learning ( http://arxiv.org/abs/2211.11760v2 )

ライセンス: Link先を確認
Lang Qin, Rui Yan, Huajin Tang(参考訳) 近年,低消費電力化とイベント駆動機能により,強化学習(RL)にスパイクニューラルネットワーク(SNN)が用いられている。 しかし、固定符号法に苦しむスパイキング強化学習(SRL)は、高レイテンシと低汎用性の問題に直面している。 本稿では,学習可能な行列乗法を用いてスパイクのエンコードとデコードを行い,コーダの柔軟性を改善し,遅延を低減する。 一方、我々は直接訓練法を用いてsnsを訓練し、オンラインとオフラインのrlアルゴリズムのために2つの異なる構造を使用する。 超低レイテンシ(他のSRL手法の0.8%以下)と、異なるアルゴリズムと異なる環境下でのエネルギー効率(DNNの最大5倍)で最適性能を実現することを発見した。

In recent years, spiking neural networks (SNNs) have been used in reinforcement learning (RL) due to their low power consumption and event-driven features. However, spiking reinforcement learning (SRL), which suffers from fixed coding methods, still faces the problems of high latency and poor versatility. In this paper, we use learnable matrix multiplication to encode and decode spikes, improving the flexibility of the coders and thus reducing latency. Meanwhile, we train the SNNs using the direct training method and use two different structures for online and offline RL algorithms, which gives our model a wider range of applications. Extensive experiments have revealed that our method achieves optimal performance with ultra-low latency (as low as 0.8% of other SRL methods) and excellent energy efficiency (up to 5X the DNNs) in different algorithms and different environments.
翻訳日:2023-08-30 01:14:55 公開日:2023-08-28
# dirac-fock基底状態の新しい定義

A new definition of the Dirac-Fock ground state ( http://arxiv.org/abs/2211.10196v3 )

ライセンス: Link先を確認
Eric S\'er\'e (CEREMADE)(参考訳) dirac-fock(df)モデルは、相対論的効果が無視できない場合、量子化学におけるhartree-fock(hf)近似を置き換える。 ディラック作用素は下から有界ではないので、基底状態の概念はこのモデルでは明らかではなく、文献でいくつかの定義が提案されている。 我々は,HF に対するリーブの緩和的変動原理に着想を得た DF エネルギーの基底状態に対する新しい定義を与える。 我々の定義と存在証明は以前のdfの著作よりも単純で自然なものであるが、非相対論的の場合よりも技術的なものである。 まず、ある非線形不動点方程式を満たす物理的に許容される密度行列の集合を構築する必要がある。 そして、基底状態はこの集合上のDFエネルギーの最小値として見出される。

The Dirac-Fock (DF) model replaces the Hartree-Fock (HF) approximation in quantum chemistry when relativistic effects cannot be neglected. Since the Dirac operator is not bounded from below, the notion of ground state is not obvious in this model, and several definitions have been proposed in the literature. We give a new definition for the ground state of the DF energy, inspired of Lieb's relaxed variational principle for HF. Our definition and existence proof are simpler and more natural than in previous works on DF, but remains more technical than in the nonrelativistic case. One first needs to construct a set of physically admissible density matrices that satisfy a certain nonlinear fixed-point equation: we do this by introducing an iterative procedure, described in an abstract context. Then the ground state is found as a minimizer of the DF energy on this set.
翻訳日:2023-08-30 01:14:14 公開日:2023-08-28
# スピン液体ハミルトニアンの量子シミュレーターにおける分数統計の探索

Probing fractional statistics in quantum simulators of spin liquid Hamiltonians ( http://arxiv.org/abs/2211.09784v3 )

ライセンス: Link先を確認
Shiyu Zhou, Maria Zelenayova, Oliver Hart, Claudio Chamon, Claudio Castelnovo(参考訳) プログラマブル量子デバイスの最近の進歩は、トポロジカル量子スピン液体相の実現と研究にそれらを使うことの興味深い可能性をもたらした。 この新しくエキサイティングな方向性は、このようなエキゾチックで非常に絡み合ったフェーズの存在を探究し、決定する方法に関する重要な研究課題をもたらす。 最も有望なツールの1つは、トポロジカルな励起の挙動、特にその分数統計の研究である。 本研究では、これを達成するための一般的な経路を示し、組合せゲージ対称性の助けを借りて実装された$\mathbb{Z}_2$トポロジカルスピン液体の特定の場合について説明する。 我々は,準粒子干渉法を用いて分数統計量のシグネチャを研究するための便利なアーキテクチャを設計し,その頑健性を評価するとともに,雑音のある量子プログラマブルデバイスで一般的に普及する効果を強調する。 我々が探している署名は、システム内の量子コヒーレンスと量子干渉効果に重大な影響を与えているため、これらのデバイスの「量子性」を明確にテストするのに役立つ。

Recent advances in programmable quantum devices brought to the fore the intriguing possibility of using them to realise and investigate topological quantum spin liquid phases. This new and exciting direction brings about important research questions on how to probe and determine the presence of such exotic, highly entangled phases. One of the most promising tools is investigating the behaviour of the topological excitations, and in particular their fractional statistics. In this work we put forward a generic route to achieve this, and we illustrate it in the specific case of $\mathbb{Z}_2$ topological spin liquids implemented with the aid of combinatorial gauge symmetry. We design a convenient architecture to study signatures of fractional statistics via quasiparticle interferometry, and we assess its robustness to diagonal and off-diagonal disorder, as well as to dephasing -- effects that are generally pervasive in noisy quantum programmable devices. A useful counterpart of our scheme is that it provides a clear test of the `quantumness' of these devices, since the signatures that we are looking for crucially hinge on quantum coherence and quantum interference effects in the system.
翻訳日:2023-08-30 01:14:01 公開日:2023-08-28
# DDH-QA: 動的デジタル人間質評価データベース

DDH-QA: A Dynamic Digital Humans Quality Assessment Database ( http://arxiv.org/abs/2212.12734v3 )

ライセンス: Link先を確認
Zicheng Zhang, Yingjie Zhou, Wei Sun, Wei Lu, Xiongkuo Min, Yu Wang, and Guangtao Zhai(参考訳) 近年,動的デジタルヒューマン(DDH)の現実的応用を推し進めるために,多大な努力が払われている。 しかしながら、現在のほとんどの品質評価研究は静的な3Dモデルの評価に重点を置いており、通常、動きの歪みを無視する。 そこで本稿では,DDHの知覚品質を包括的に研究するために,多様な動作内容と複数の歪みを有する大規模動的デジタルヒューマン品質評価(DDH-QA)データベースを構築した。 モデルに基づく歪み(ノイズ、圧縮)と運動に基づく歪み(結合誤差、運動不自然性)の両方を考慮する。 DDHを駆動するために10種類の共通運動が使用され、最後に合計800個のDDHが生成される。 その後、歪んだDDHのビデオシーケンスを評価メディアとして描画し、よく制御された主観的実験を行う。 次に,最新の映像品質評価法(VQA)を用いてベンチマーク実験を行い,既存のVQA法はDDHの知覚的損失を評価する場合に限られていることを示す。

In recent years, large amounts of effort have been put into pushing forward the real-world application of dynamic digital human (DDH). However, most current quality assessment research focuses on evaluating static 3D models and usually ignores motion distortions. Therefore, in this paper, we construct a large-scale dynamic digital human quality assessment (DDH-QA) database with diverse motion content as well as multiple distortions to comprehensively study the perceptual quality of DDHs. Both model-based distortion (noise, compression) and motion-based distortion (binding error, motion unnaturalness) are taken into consideration. Ten types of common motion are employed to drive the DDHs and a total of 800 DDHs are generated in the end. Afterward, we render the video sequences of the distorted DDHs as the evaluation media and carry out a well-controlled subjective experiment. Then a benchmark experiment is conducted with the state-of-the-art video quality assessment (VQA) methods and the experimental results show that existing VQA methods are limited in assessing the perceptual loss of DDHs.
翻訳日:2023-08-30 01:05:24 公開日:2023-08-28
# 競争型マルチエージェント意思決定と制御問題を解決するアクティブラーニング手法

An active learning method for solving competitive multi-agent decision-making and control problems ( http://arxiv.org/abs/2212.12561v2 )

ライセンス: Link先を確認
Filippo Fabiani, Alberto Bemporad(参考訳) 本稿では,対話エージェントの集団によって実行される私的戦略を再構築し,その基盤となるマルチエージェントインタラクションプロセスの正確な結果を予測するための,アクティブラーニングに基づくスキームを提案する。 学習手順を取り入れた外部オブザーバがクエリを作成し,その集合的固定点が定常プロファイルに対応するプライベートアクション・リアクションマッピングを通じてエージェントの反応を観察するシナリオを想定する。 そこで,本提案手法の漸近的特性を評価するために,適切なデータを反復的に収集し,パラメトリック推定値の更新を行うことで,収束が生じた場合,定常的な行動プロファイルにのみ対応できることを示す。 この事実は2つの大きな結果をもたらします 一 外部の観察者がその予測タスクを成功させることができる行動対応マッピングの局所的実行代行を学習すること。 二 定型プロファイルの存在が保証されないような仮定を定め、従って、確立された十分な条件は、当該望まれるプロファイルの存在の証明書としても機能する。 典型的な競合型マルチエージェント制御と意思決定問題を含む広範な数値シミュレーションにより,提案手法の有効性が示された。

We propose a scheme based on active learning to reconstruct private strategies executed by a population of interacting agents and predict an exact outcome of the underlying multi-agent interaction process, here identified as a stationary action profile. We envision a scenario where an external observer, endowed with a learning procedure, can make queries and observe the agents' reactions through private action-reaction mappings, whose collective fixed point corresponds to a stationary profile. By iteratively collecting sensible data and updating parametric estimates of the action-reaction mappings, we establish sufficient conditions to assess the asymptotic properties of the proposed active learning methodology so that, if convergence happens, it can only be towards a stationary action profile. This fact yields two main consequences: i) learning locally-exact surrogates of the action-reaction mappings allows the external observer to succeed in its prediction task, and ii) working with assumptions so general that a stationary profile is not even guaranteed to exist, the established sufficient conditions hence act also as certificates for the existence of such a desirable profile. Extensive numerical simulations involving typical competitive multi-agent control and decision-making problems illustrate the practical effectiveness of the proposed learning-based approach.
翻訳日:2023-08-30 01:05:04 公開日:2023-08-28
# ヘテロジニアス環境におけるフェデレーション学習のためのdeep unfolding-based weighted averaging

Deep Unfolding-based Weighted Averaging for Federated Learning in Heterogeneous Environments ( http://arxiv.org/abs/2212.12191v2 )

ライセンス: Link先を確認
Ayano Nakai-Kasai and Tadashi Wadayama(参考訳) フェデレーション学習(federated learning)は、複数のクライアントによるモデル更新と中央サーバによる更新の集約を反復する、協調型モデルトレーニング手法である。 参加するクライアントのデバイスおよび統計的不均一性は、サーバのアグリゲーションフェーズにおいて、各クライアントに適切なアグリゲーション重みを割り当てるように、大幅なパフォーマンス劣化を引き起こす。 集約重みを調整するために,ディープラーニングやドメイン知識などのトレーニングデータを用いた学習能力を活用するパラメータチューニング手法として,deep unfoldingを用いる。 これにより、興味のある環境の不均一性を集約重みのチューニングに直接組み込むことができる。 提案手法は,様々なフェデレーション学習アルゴリズムと組み合わせることができる。 数値実験の結果,従来のヒューリスティック重み付け法よりも,未知のクラスバランスデータのテスト精度が高いことが示唆された。 提案手法は,事前学習モデルを用いて大規模学習モデルを扱うことができ,実際の実世界のタスクを実行できる。 本論文では,提案手法を用いた連合学習アルゴリズムの収束率について述べる。

Federated learning is a collaborative model training method that iterates model updates by multiple clients and aggregation of the updates by a central server. Device and statistical heterogeneity of participating clients cause significant performance degradation so that an appropriate aggregation weight should be assigned to each client in the aggregation phase of the server. To adjust the aggregation weights, this paper employs deep unfolding, which is known as the parameter tuning method that leverages both learning capability using training data like deep learning and domain knowledge. This enables us to directly incorporate the heterogeneity of the environment of interest into the tuning of the aggregation weights. The proposed approach can be combined with various federated learning algorithms. The results of numerical experiments indicate that a higher test accuracy for unknown class-balanced data can be obtained with the proposed method than that with conventional heuristic weighting methods. The proposed method can handle large-scale learning models with the aid of pretrained models such that it can perform practical real-world tasks. Convergence rate of federated learning algorithms with the proposed method is also provided in this paper.
翻訳日:2023-08-30 01:04:42 公開日:2023-08-28
# 相関型不確かさによるドメインの一般化

Domain Generalization with Correlated Style Uncertainty ( http://arxiv.org/abs/2212.09950v3 )

ライセンス: Link先を確認
Zheyuan Zhang, Bin Wang, Debesh Jha, Ugur Demir, Ulas Bagci(参考訳) ドメイン一般化(dg)アプローチは、より堅牢なディープラーニングモデルにつながるドメイン不変機能を抽出することを目的としている。 この点において、スタイル拡張は、合成新規ドメインに対する情報的スタイル特性を含むインスタンス固有の特徴統計を利用する強力なDG手法である。 これは最先端の手法の1つであるが、スタイル拡張に関する以前の研究は、異なる特徴チャネル間の相互依存を無視するか、単に線形補間に対するスタイル拡張を制限している。 これらの研究のギャップに対処するために,本稿では,スタイル統計空間における線形補間の限界を超越した相関型不確実性(csu)と呼ばれる新しい拡張手法を導入し,バイタル相関情報を同時に保存する。 本手法の有効性は,pacs,office-home,camlyon17データセット,duke-market1501インスタンス検索タスクなど,多種多様なクロスドメインコンピュータビジョンおよび医用画像分類タスクに関する広範な実験によって確立される。 その結果,既存の最先端技術に比べて著しく改善率が向上した。 ソースコードはhttps://github.com/freshman97/csu。

Domain generalization (DG) approaches intend to extract domain invariant features that can lead to a more robust deep learning model. In this regard, style augmentation is a strong DG method taking advantage of instance-specific feature statistics containing informative style characteristics to synthetic novel domains. While it is one of the state-of-the-art methods, prior works on style augmentation have either disregarded the interdependence amongst distinct feature channels or have solely constrained style augmentation to linear interpolation. To address these research gaps, in this work, we introduce a novel augmentation approach, named Correlated Style Uncertainty (CSU), surpassing the limitations of linear interpolation in style statistic space and simultaneously preserving vital correlation information. Our method's efficacy is established through extensive experimentation on diverse cross-domain computer vision and medical imaging classification tasks: PACS, Office-Home, and Camelyon17 datasets, and the Duke-Market1501 instance retrieval task. The results showcase a remarkable improvement margin over existing state-of-the-art techniques. The source code is available https://github.com/freshman97/CSU.
翻訳日:2023-08-30 01:04:03 公開日:2023-08-28
# Invariant Lipschitz Bandits: A Side Observation Approach

Invariant Lipschitz Bandits: A Side Observation Approach ( http://arxiv.org/abs/2212.07524v3 )

ライセンス: Link先を確認
Nam Phuong Tran, Long Tran-Thanh(参考訳) 対称性は多くの最適化と意思決定の問題に現れ、最適化コミュニティからかなりの注目を集めている。 最適化の成功にもかかわらず、特にバンディット文学において、オンライン最適化設定において対称性の利用は十分に検討されていない。 そこで本論文では、リプシッツ・バンディット・セッティング(Lipschitz bandit setting)という、リプシッツ・バンディットのサブクラスにおいて、報酬関数とアームの集合が変換群の下で保存されるような不変なリプシッツ・バンディット・セッティング(Lipschitz bandit setting)について検討する。 これは、群軌道を用いたサイドオブザーバーを、アームの集合を一様に判別する \texttt{uniformmesh-n} アルゴリズム (\cite{kleinberg2005_uniformmesh}) に統合するものである。 サイドオブザーブレーションアプローチを用いて、群が有限であることを前提に、群の濃度に依存する後悔の上界が改善されたことを証明する。 また、不変リプシッツ・バンディット類(対数因子まで)に対する後悔の下限が一致することも証明する。 我々は、バンディット理論とシーケンシャルな意思決定理論における対称性のさらなる研究に火をつけることを願っている。

Symmetry arises in many optimization and decision-making problems, and has attracted considerable attention from the optimization community: By utilizing the existence of such symmetries, the process of searching for optimal solutions can be improved significantly. Despite its success in (offline) optimization, the utilization of symmetries has not been well examined within the online optimization settings, especially in the bandit literature. As such, in this paper we study the invariant Lipschitz bandit setting, a subclass of the Lipschitz bandits where the reward function and the set of arms are preserved under a group of transformations. We introduce an algorithm named \texttt{UniformMesh-N}, which naturally integrates side observations using group orbits into the \texttt{UniformMesh} algorithm (\cite{Kleinberg2005_UniformMesh}), which uniformly discretizes the set of arms. Using the side-observation approach, we prove an improved regret upper bound, which depends on the cardinality of the group, given that the group is finite. We also prove a matching regret's lower bound for the invariant Lipschitz bandit class (up to logarithmic factors). We hope that our work will ignite further investigation of symmetry in bandit theory and sequential decision-making theory in general.
翻訳日:2023-08-30 01:03:45 公開日:2023-08-28
# EgoLoc: ビジュアルクエリでエゴセントリックなビデオから3Dオブジェクトのローカライゼーションを再考

EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with Visual Queries ( http://arxiv.org/abs/2212.06969v2 )

ライセンス: Link先を確認
Jinjie Mai, Abdullah Hamdi, Silvio Giancola, Chen Zhao, Bernard Ghanem(参考訳) 近年のビデオと3D理解の進歩により,両概念を融合した新しい4次元時空間法が出現している。 この方向に向かって、Ego4D Episodic Memory Benchmarkは3Dローカライゼーション(VQ3D)を備えたビジュアルクエリのためのタスクを提案した。 エゴセントリックなビデオクリップとクエリオブジェクトを描写したイメージクロップが与えられた場合、クエリフレームのカメラポーズに対して、クエリオブジェクトの中心の3D位置をローカライズすることが目的である。 現在のVQ3D法は,2次元局所化(VQ2D)による兄弟タスクの2次元局所化結果を3次元予測に解き放つことで,VQ3Dの問題に対処している。 しかし,従来のVQ3D手法によるカメラ再位置化によるカメラポーズの少なさは,その全体的な成功率を妨げていると指摘する。 本研究では,エゴセントリックビデオからの2次元オブジェクト検索による3次元マルチビュー形状の絡み合いを改善するパイプライン(egoloc)を定式化した。 提案手法では,オブジェクトクエリの成功率を高め,VQ3Dベースライン性能を大幅に向上させる2次元検出信頼度を利用して,より堅牢なカメラポーズの推定と多視点3D変位の集約を行う。 具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。 我々は、VQ3Dタスクと既存のソリューションの総合的な実証分析を行い、VQ3Dにおける残りの課題を強調する。 コードはhttps://github.com/Wayne-Mai/EgoLoc.comで入手できる。

With the recent advances in video and 3D understanding, novel 4D spatio-temporal methods fusing both concepts have emerged. Towards this direction, the Ego4D Episodic Memory Benchmark proposed a task for Visual Queries with 3D Localization (VQ3D). Given an egocentric video clip and an image crop depicting a query object, the goal is to localize the 3D position of the center of that query object with respect to the camera pose of a query frame. Current methods tackle the problem of VQ3D by unprojecting the 2D localization results of the sibling task Visual Queries with 2D Localization (VQ2D) into 3D predictions. Yet, we point out that the low number of camera poses caused by camera re-localization from previous VQ3D methods severally hinders their overall success rate. In this work, we formalize a pipeline (we dub EgoLoc) that better entangles 3D multiview geometry with 2D object retrieval from egocentric videos. Our approach involves estimating more robust camera poses and aggregating multi-view 3D displacements by leveraging the 2D detection confidence, which enhances the success rate of object queries and leads to a significant improvement in the VQ3D baseline performance. Specifically, our approach achieves an overall success rate of up to 87.12%, which sets a new state-of-the-art result in the VQ3D task. We provide a comprehensive empirical analysis of the VQ3D task and existing solutions, and highlight the remaining challenges in VQ3D. The code is available at https://github.com/Wayne-Mai/EgoLoc.
翻訳日:2023-08-30 01:03:21 公開日:2023-08-28
# 形状の予測 -リーマン法-

Predicting Shape Development: a Riemannian Method ( http://arxiv.org/abs/2212.04740v3 )

ライセンス: Link先を確認
Do\u{g}a T\"urkseven and Islem Rekik and Christoph von Tycowicz and Martin Hanik(参考訳) 一つのベースライン観察から解剖学的形状の将来発展を予測することは難しい課題である。 しかし、それは臨床意思決定に不可欠である。 曲がった形状空間で取り組まなければならないという研究結果が示されており、例えば、病気に関連する形状の変化は、しばしば非線形特性を露呈する。 そこで我々は,リーマン形状空間の全体形状を符号化する新しい予測法を提案する。 次に,縦型トレーニングデータの階層的統計モデルに基づく単純な予測手法を学ぶ。 アルツハイマー病における右海馬の形状と人体運動の将来の発達を予測するために応用された場合、深層学習支援型と最先端型よりも優れる。

Predicting the future development of an anatomical shape from a single baseline observation is a challenging task. But it can be essential for clinical decision-making. Research has shown that it should be tackled in curved shape spaces, as (e.g., disease-related) shape changes frequently expose nonlinear characteristics. We thus propose a novel prediction method that encodes the whole shape in a Riemannian shape space. It then learns a simple prediction technique founded on hierarchical statistical modeling of longitudinal training data. When applied to predict the future development of the shape of the right hippocampus under Alzheimer's disease and to human body motion, it outperforms deep learning-supported variants as well as state-of-the-art.
翻訳日:2023-08-30 01:02:53 公開日:2023-08-28
# Ego-Head Pose推定によるEgo-Body Pose推定

Ego-Body Pose Estimation via Ego-Head Pose Estimation ( http://arxiv.org/abs/2212.04636v3 )

ライセンス: Link先を確認
Jiaman Li, C. Karen Liu, Jiajun Wu(参考訳) エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を果たす。 しかし,ユーザの頭部に設置した前面カメラでは身体を観察できないことが多いため,自発的映像と人間の動作のマッピングを生かして学ぶことは困難である。 さらに、大規模な高品質なデータセットをペア化されたエゴセントリックなビデオと3D人間のモーションで収集するには、正確なモーションキャプチャー装置が必要である。 そこで本研究では,エゴ・ヘッド・ポーズ・アセスメント(Ego-Head Pose Estimation, EgoEgo)を用いたエゴ・ボディ・ポーズ・アセスメント(Ego-Body Pose Estimation, Ego-Head Pose Estimation, EgoEgo)を提案する。 EgoEgoはまずSLAMと学習アプローチを統合して正確な頭部の動きを推定する。 その後、推定された頭部の姿勢を入力として、エゴエゴは条件拡散を利用して複数の可能な全身運動を生成する。 この頭と体のポーズの不連続は、ペアのエゴセントリックビデオと3dヒューマンモーションでデータセットをトレーニングする必要をなくし、大規模なエゴセントリックビデオデータセットとモーションキャプチャデータセットを別々に活用することを可能にします。 さらに,システマティック・ベンチマークのための合成データセットであるAMASS-Replica-Ego-Syn(ARES)を開発した。 ARESと実データの両方において、私たちのEgoEgoモデルは現在の最先端の手法よりも大幅にパフォーマンスが向上します。

Estimating 3D human motion from an egocentric video sequence plays a critical role in human behavior understanding and has various applications in VR/AR. However, naively learning a mapping between egocentric videos and human motions is challenging, because the user's body is often unobserved by the front-facing camera placed on the head of the user. In addition, collecting large-scale, high-quality datasets with paired egocentric videos and 3D human motions requires accurate motion capture devices, which often limit the variety of scenes in the videos to lab-like environments. To eliminate the need for paired egocentric video and human motions, we propose a new method, Ego-Body Pose Estimation via Ego-Head Pose Estimation (EgoEgo), which decomposes the problem into two stages, connected by the head motion as an intermediate representation. EgoEgo first integrates SLAM and a learning approach to estimate accurate head motion. Subsequently, leveraging the estimated head pose as input, EgoEgo utilizes conditional diffusion to generate multiple plausible full-body motions. This disentanglement of head and body pose eliminates the need for training datasets with paired egocentric videos and 3D human motion, enabling us to leverage large-scale egocentric video datasets and motion capture datasets separately. Moreover, for systematic benchmarking, we develop a synthetic dataset, AMASS-Replica-Ego-Syn (ARES), with paired egocentric videos and human motion. On both ARES and real data, our EgoEgo model performs significantly better than the current state-of-the-art methods.
翻訳日:2023-08-30 01:02:41 公開日:2023-08-28
# ロバスト学習のための補間--wasserstein geodesicsによるデータ拡張

Interpolation for Robust Learning: Data Augmentation on Wasserstein Geodesics ( http://arxiv.org/abs/2302.02092v3 )

ライセンス: Link先を確認
Jiacheng Zhu, Jielin Qiu, Aritra Guha, Zhuolin Yang, Xuanlong Nguyen, Bo Li, Ding Zhao(参考訳) 本稿では,トレーニングデータ分布の補間を通じて,モデルの性能に準ずるロバスト性を研究・促進することを提案する。 具体的には,(1)異なるカテゴリーの測地線接続部分集団分布について,ワーストケースのwasserstein barycenterを求めることで,データを強化した。 2) サブポピュレーション分布を接続する連続測地路上でのスムーズな性能のモデルを正規化する。 また,ロバスト性向上の理論的保証を提供し,測地線の位置とサンプルサイズがそれぞれどのように寄与するかを検討する。 CIFAR-100 と ImageNet を含む \textit{four} データセットに対する提案手法の実験的検証により,CIFAR-100 におけるベースラインの証明可能なロバスト性を 7.7 %$ まで改善し,CIFAR-100 上の経験的ロバストネスを 16.8 %$ とした。 我々の研究は、ワッサーシュタイン測地学に基づく補間によるモデルロバスト性の新しい視点と、既存のロバストトレーニング手法と組み合わせることができる実用的なオフザシェルフ戦略を提供する。

We propose to study and promote the robustness of a model as per its performance through the interpolation of training data distributions. Specifically, (1) we augment the data by finding the worst-case Wasserstein barycenter on the geodesic connecting subpopulation distributions of different categories. (2) We regularize the model for smoother performance on the continuous geodesic path connecting subpopulation distributions. (3) Additionally, we provide a theoretical guarantee of robustness improvement and investigate how the geodesic location and the sample size contribute, respectively. Experimental validations of the proposed strategy on \textit{four} datasets, including CIFAR-100 and ImageNet, establish the efficacy of our method, e.g., our method improves the baselines' certifiable robustness on CIFAR10 up to $7.7\%$, with $16.8\%$ on empirical robustness on CIFAR-100. Our work provides a new perspective of model robustness through the lens of Wasserstein geodesic-based interpolation with a practical off-the-shelf strategy that can be combined with existing robust training methods.
翻訳日:2023-08-30 00:56:43 公開日:2023-08-28
# 太陽系外惑星集団における質量・ラディウス関係の再検討--機械学習による考察

Revisiting mass-radius relationships for exoplanet populations: a machine learning insight ( http://arxiv.org/abs/2301.07143v3 )

ライセンス: Link先を確認
Mahdiyar Mousavi-Sadr, Davood M. Jassur, Ghassem Gozaliasl(参考訳) ますます多くの太陽系外惑星発見と機械学習技術の進歩が、太陽系以外の世界の特性を探索し理解するための新たな道を開いた。 本研究では,762個の太陽系外惑星と8個の太陽系外惑星からなるデータセットを解析するために,効率的な機械学習手法を用いた。 異なる教師なしクラスタリングアルゴリズムを適用することで、データを「小さい」惑星と「巨大な」惑星に分類し、カットオフ値が$R_{p}=8.13R_{\oplus}$と$M_{p}=52.48M_{\oplus}$に分類する。 巨大惑星は密度が低く、H-He質量比が高いが、小さな惑星はより密度が高く、主に重い元素で構成されている。 物理パラメータの相関関係を明らかにするために, 様々な回帰モデルを適用した。 我々の分析は、惑星の質量、軌道周期、恒星質量が太陽系外惑星半径を予測する重要な役割を担っていることを示している。 評価されたモデルのうち、サポートベクター回帰は一貫して他のモデルよりも優れており、正確な惑星半径推定を得ることの可能性を実証している。 さらに,M5P法とマルコフ連鎖モンテカルロ法を用いてパラメトリック方程式を導出する。 特に、我々の研究は注目すべき結果を明らかにしている。小さな惑星は、以前の発見と一致して正の線形質量半径関係を示す。 逆に、巨大惑星では、惑星半径と主星の質量の間に強い相関関係が見られ、惑星形成と恒星の性質の関係に関する興味深い洞察を与えるかもしれない。

The growing number of exoplanet discoveries and advances in machine learning techniques have opened new avenues for exploring and understanding the characteristics of worlds beyond our Solar System. In this study, we employ efficient machine learning approaches to analyze a dataset comprising 762 confirmed exoplanets and eight Solar System planets, aiming to characterize their fundamental quantities. By applying different unsupervised clustering algorithms, we classify the data into two main classes: 'small' and 'giant' planets, with cut-off values at $R_{p}=8.13R_{\oplus}$ and $M_{p}=52.48M_{\oplus}$. This classification reveals an intriguing distinction: giant planets have lower densities, suggesting higher H-He mass fractions, while small planets are denser, composed mainly of heavier elements. We apply various regression models to uncover correlations between physical parameters and their predictive power for exoplanet radius. Our analysis highlights that planetary mass, orbital period, and stellar mass play crucial roles in predicting exoplanet radius. Among the models evaluated, the Support Vector Regression consistently outperforms others, demonstrating its promise for obtaining accurate planetary radius estimates. Furthermore, we derive parametric equations using the M5P and Markov Chain Monte Carlo methods. Notably, our study reveals a noteworthy result: small planets exhibit a positive linear mass-radius relation, aligning with previous findings. Conversely, for giant planets, we observe a strong correlation between planetary radius and the mass of their host stars, which might provide intriguing insights into the relationship between giant planet formation and stellar characteristics.
翻訳日:2023-08-30 00:54:49 公開日:2023-08-28
# ホールセールエネルギーと補助サービス市場における風力・エネルギー貯蔵調整のための深層強化学習

Deep Reinforcement Learning for Wind and Energy Storage Coordination in Wholesale Energy and Ancillary Service Markets ( http://arxiv.org/abs/2212.13368v2 )

ライセンス: Link先を確認
Jinhao Li, Changlong Wang, Hao Wang(参考訳) 風力エネルギーは気候変動を緩和するためにますます採用されている。 しかし、風力エネルギーの変動は風量削減を招き、風力発電の所有者にとってかなりの経済的損失をもたらす。 風力発電は、バッテリーエネルギー貯蔵システム(bess)を現場のバックアップ源として利用することで削減できる。 しかし、この補助的な役割はエネルギー取引におけるBESSの経済的ポテンシャルを著しく弱める可能性がある。 理想的なBESSスケジューリングは、現場での風量削減と市場入札のバランスをとるべきであるが、エネルギー価格と風力発電の協調複雑さと確率的性質のために実践的な実装は困難である。 本研究では,共同設置型風力発電システムの共同市場入札戦略と規制周波数制御アシラリーサービス市場について検討する。 本稿では,各施設のマルコフ決定プロセスに,システムの市場参加を2つの関連するマルコフ決定プロセスに分離し,BESSが全体の運用収益を最大化するために共同市場入札を行いながら,現場の風量削減を吸収できるようにする,新たな深層強化学習に基づくアプローチを提案する。 現実的な風力発電データを用いて, 利益率の25%, 風量削減率の2.3倍の最適化基準を上回って, 協調入札戦略を検証した。 以上の結果から,共同市場入札は,各市場を別々に参加するよりも,風力バッテリシステムの財務性能が著しく向上することが示唆された。 シミュレーションでは、風力発電を電力源として利用することで、さらなる財政的な利益につながることも示されている。 このアルゴリズムの実装が成功すれば、ジェネレーションとストレージアセットのコロケーションがより広いシステムメリットを解き放ちます。

Wind energy has been increasingly adopted to mitigate climate change. However, the variability of wind energy causes wind curtailment, resulting in considerable economic losses for wind farm owners. Wind curtailment can be reduced using battery energy storage systems (BESS) as onsite backup sources. Yet, this auxiliary role may significantly weaken the economic potential of BESS in energy trading. Ideal BESS scheduling should balance onsite wind curtailment reduction and market bidding, but practical implementation is challenging due to coordination complexity and the stochastic nature of energy prices and wind generation. We investigate the joint-market bidding strategy of a co-located wind-battery system in the spot and Regulation Frequency Control Ancillary Service markets. We propose a novel deep reinforcement learning-based approach that decouples the system's market participation into two related Markov decision processes for each facility, enabling the BESS to absorb onsite wind curtailment while performing joint-market bidding to maximize overall operational revenues. Using realistic wind farm data, we validated the coordinated bidding strategy, with outcomes surpassing the optimization-based benchmark in terms of higher revenue by approximately 25\% and more wind curtailment reduction by 2.3 times. Our results show that joint-market bidding can significantly improve the financial performance of wind-battery systems compared to participating in each market separately. Simulations also show that using curtailed wind generation as a power source for charging the BESS can lead to additional financial gains. The successful implementation of our algorithm would encourage co-location of generation and storage assets to unlock wider system benefits.
翻訳日:2023-08-30 00:53:40 公開日:2023-08-28
# 多エージェントシステムにおける逐次決定過程の因果説明

Causal Explanations for Sequential Decision-Making in Multi-Agent Systems ( http://arxiv.org/abs/2302.10809v3 )

ライセンス: Link先を確認
Balint Gyevnar, Cheng Wang, Christopher G. Lucas, Shay B. Cohen, Stefano V. Albrecht(参考訳) 本稿では,マルチエージェントシステムにおける因果説明(Causal Explanations in Multi-Agent Systems)について述べる。 CEMAの中核は、人間が説明のために原因を選択する方法に触発された新しい因果選択法である。 特定の因果構造を仮定する以前の研究とは異なり、CEMAは環境の将来状態を予測する確率モデルが利用可能であればいつでも適用可能である。 このようなモデルを考えると、CEMAはエージェントの決定の背後にある健全な原因を知らせてくれる反現実的な世界をサンプリングする。 自動走行の動作計画におけるCEMAの評価を行い,様々なシミュレーションシナリオで検証した。 我々は,CEMAが多数のエージェントが存在する場合でも,意思決定の背景にある原因を正しくかつ確実に特定し,CEMAの説明が参加者のAVに対する信頼に肯定的な影響を及ぼし,他の参加者から引き出された高品質な人的説明と同程度に評価されていることを示す。

We present CEMA: Causal Explanations in Multi-Agent systems; a general framework to create causal explanations for an agent's decisions in sequential multi-agent systems. The core of CEMA is a novel causal selection method inspired by how humans select causes for explanations. Unlike prior work that assumes a specific causal structure, CEMA is applicable whenever a probabilistic model for predicting future states of the environment is available. Given such a model, CEMA samples counterfactual worlds that inform us about the salient causes behind the agent's decisions. We evaluate CEMA on the task of motion planning for autonomous driving and test it in diverse simulated scenarios. We show that CEMA correctly and robustly identifies the causes behind decisions, even when a large number of agents is present, and show via a user study that CEMA's explanations have a positive effect on participant's trust in AVs and are rated at least as good as high-quality human explanations elicited from other participants.
翻訳日:2023-08-30 00:45:49 公開日:2023-08-28
# 正規化フローによる実世界点雲からのインスタンスインクリメンタルシーングラフ生成

Instance-incremental Scene Graph Generation from Real-world Point Clouds via Normalizing Flows ( http://arxiv.org/abs/2302.10425v2 )

ライセンス: Link先を確認
Chao Qi, Jianqin Yin, Jinghang Xu, and Pengxiang Ding(参考訳) ポイントクラウドのシーンが与えられ、それをグラフとして表現し、新しいインスタンスを自動的に増加させます。 シーンのオブジェクトレイアウトを示すグラフが最終的に生成される。 拡張現実のような視覚ベースのアプリケーションにおいて、新しい3Dオブジェクトを現実世界のシーンに挿入する際のガイドとなるため、これは重要なタスクである。 実世界のポイントクラウドの複雑さは、観測データ(ラベル付きセマンティクスを持つ空でない部屋)からオブジェクトレイアウト体験を学ぶのに困難をもたらす。 我々は,このタスクを条件付き生成問題としてモデル化し,フローの正規化(3d-anf)に基づく3次元自己回帰フレームワークを提案する。 まず,ラベル意味論と文脈関係を抽出し,ポイントクラウドをグラフとして表現する。 次に、正規化フローに基づくモデルを導入し、図形要素の条件付き生成をガウス過程にマッピングする。 写像は可逆である。 これにより、観察データに表される実世界の体験をトレーニングフェーズでモデル化することができ、テストフェーズにおけるガウス過程に基づいて新規なインスタンスを自動回帰生成することができる。 提案手法の性能を十分に評価するために,室内ベンチマークデータセット3DSSG-O27R16と,新たに提案した屋外シーンGPL3Dのグラフィカルデータセットに新たなタスクを実装した。 実験により,本手法は実世界のポイントクラウドから信頼性の高い新しいグラフを生成し,データセットの最先端性能を実現する。

This work introduces a new task of instance-incremental scene graph generation: Given a scene of the point cloud, representing it as a graph and automatically increasing novel instances. A graph denoting the object layout of the scene is finally generated. It is an important task since it helps to guide the insertion of novel 3D objects into a real-world scene in vision-based applications like augmented reality. It is also challenging because the complexity of the real-world point cloud brings difficulties in learning object layout experiences from the observation data (non-empty rooms with labeled semantics). We model this task as a conditional generation problem and propose a 3D autoregressive framework based on normalizing flows (3D-ANF) to address it. First, we represent the point cloud as a graph by extracting the label semantics and contextual relationships. Next, a model based on normalizing flows is introduced to map the conditional generation of graphic elements into the Gaussian process. The mapping is invertible. Thus, the real-world experiences represented in the observation data can be modeled in the training phase, and novel instances can be autoregressively generated based on the Gaussian process in the testing phase. To evaluate the performance of our method sufficiently, we implement this new task on the indoor benchmark dataset 3DSSG-O27R16 and our newly proposed graphical dataset of outdoor scenes GPL3D. Experiments show that our method generates reliable novel graphs from the real-world point cloud and achieves state-of-the-art performance on the datasets.
翻訳日:2023-08-30 00:45:30 公開日:2023-08-28
# rydberg原子配列のyang-lee臨界性観測法の提案

Proposal for Observing Yang-Lee Criticality in Rydberg Atomic Arrays ( http://arxiv.org/abs/2302.06662v2 )

ライセンス: Link先を確認
Ruizhe Shen, Tianqi Chen, Mohammad Mujahid Aliyu, Fang Qin, Yin Zhong, Huanqian Loh, Ching Hua Lee(参考訳) ヤン=リーエッジ特異点 (YLES) は、複雑な制御パラメータの空間における相互作用するスピンモデルの分配関数零点のエッジである。 これらは多体物理学における非エルミート相転移の理解において重要な役割を担っており、対応する非ユニタリ臨界性を特徴づけている。 このような分割関数ゼロは、時間が虚数制御場として作用する力学実験で測定されているが、非エルミート多体模型の物理的実現が困難であるために、物理虚数体によるそのようなYLES臨界性を実験的に証明している。 非平衡条件下での非単位相転移の物理探査を可能にするため、PT対称性の破れによるキンク動磁化応答を検出してYLESを観測するプロトコルを提供する。 特に、行列積状態を持つ非ユニタリ時間発展回路に基づくスケーリング解析は、対応する非ユニタリcftに固有の指数を正確に回復する。 非エルミート多体力学現象をシミュレートする普遍的プラットフォームへの道を開く,レーザー誘起損失を伴うフロッケ・クエンチド・リドバーグ原子配列のイール臨界を観測するための明示的な提案を提案する。

Yang-Lee edge singularities (YLES) are the edges of the partition function zeros of an interacting spin model in the space of complex control parameters. They play an important role in understanding non-Hermitian phase transitions in many-body physics, as well as characterizing the corresponding nonunitary criticality. Even though such partition function zeroes have been measured in dynamical experiments where time acts as the imaginary control field, experimentally demonstrating such YLES criticality with a physical imaginary field has remained elusive due to the difficulty of physically realizing non-Hermitian many-body models. We provide a protocol for observing the YLES by detecting kinked dynamical magnetization responses due to broken PT symmetry, thus enabling the physical probing of nonunitary phase transitions in nonequilibrium settings. In particular, scaling analyses based on our nonunitary time evolution circuit with matrix product states accurately recover the exponents uniquely associated with the corresponding nonunitary CFT. We provide an explicit proposal for observing YLES criticality in Floquet quenched Rydberg atomic arrays with laser-induced loss, which paves the way towards a universal platform for simulating non-Hermitian many-body dynamical phenomena.
翻訳日:2023-08-30 00:43:43 公開日:2023-08-28
# 信頼性ドメイン適応オブジェクト検出のためのクラス分布シフト予測

Predicting Class Distribution Shift for Reliable Domain Adaptive Object Detection ( http://arxiv.org/abs/2302.06039v2 )

ライセンス: Link先を確認
Nicolas Harvey Chapman, Feras Dayoub, Will Browne and Christopher Lehnert(参考訳) Unsupervised Domain Adaptive Object Detection (UDA-OD) は、オープンワールド環境におけるロボットビジョンシステムの信頼性を向上させるために、非ラベルデータを使用する。 自己学習に基づくUDA-ODに対する従来のアプローチは、画像の一般的な外観の変化を克服するのに有効である。 しかし、ロボットの配置環境の変化は、クラス分散シフトと呼ばれる異なるオブジェクトが発生する可能性にも影響する。 そこで本研究では,自己学習における疑似ラベルの信頼性を向上させるために,クラス分散シフトに明示的に対処するフレームワークを提案する。 本手法では,事前学習された共同視覚と言語モデルの領域不変性と文脈理解を用いて,ラベルなしデータのクラス分布を予測する。 擬似ラベルのクラス分布をこの予測と整合させることで、擬似ラベル精度の弱い監視を行う。 自己学習早期に低品質な擬似ラベルを更に考慮するために,モデル信頼度に基づいて画像毎の擬似ラベル数を動的に調整する手法を提案する。 本手法は,クラス分散シフトに直面する場合の4.7mAPの改善など,いくつかのベンチマークにおいて最先端の手法よりも優れる。

Unsupervised Domain Adaptive Object Detection (UDA-OD) uses unlabelled data to improve the reliability of robotic vision systems in open-world environments. Previous approaches to UDA-OD based on self-training have been effective in overcoming changes in the general appearance of images. However, shifts in a robot's deployment environment can also impact the likelihood that different objects will occur, termed class distribution shift. Motivated by this, we propose a framework for explicitly addressing class distribution shift to improve pseudo-label reliability in self-training. Our approach uses the domain invariance and contextual understanding of a pre-trained joint vision and language model to predict the class distribution of unlabelled data. By aligning the class distribution of pseudo-labels with this prediction, we provide weak supervision of pseudo-label accuracy. To further account for low quality pseudo-labels early in self-training, we propose an approach to dynamically adjust the number of pseudo-labels per image based on model confidence. Our method outperforms state-of-the-art approaches on several benchmarks, including a 4.7 mAP improvement when facing challenging class distribution shift.
翻訳日:2023-08-30 00:43:22 公開日:2023-08-28
# マスキング細胞の自己制御擬似色化

Self-supervised pseudo-colorizing of masked cells ( http://arxiv.org/abs/2302.05968v2 )

ライセンス: Link先を確認
Royden Wagner, Carlos Fernandez Lopez, Christoph Stiller(参考訳) 知識のダークマターと呼ばれる自己教師型学習は、深層学習の生体医学的応用において注目されている。 本稿では,生体顕微鏡画像における細胞分析のための新しい自己スーパービジョン目標を提案する。 マスク細胞を擬似色化する深層学習モデルを提案する。 我々は、細胞トポロジーの着色に適した物理インフォームド擬似スペクトルカラーマップを使用する。 擬似色化によるセグメンテーションの近似は,細胞検出の微調整に有用である。 最近のマスク画像モデリングの成功に触発されて、私たちはさらにセルのパーツをマスクアウトし、これらのパーツを再構築して学習した表現をさらに豊かにする訓練を行いました。 我々は,事前学習手法を,コントラスト学習(SimCLR),マスク付きオートエンコーダ(MAE),エッジベースのセルフスーパービジョンなど,自己指導型フレームワークと比較した。 我々は、これまでの研究に基づいて、畳み込みと視覚変換モジュールを含む細胞検出のためのハイブリッドモデルを訓練する。 我々の事前学習法は,6種類の蛍光顕微鏡データセットを用いた事前学習において,SimCLR,MAE様マスク画像モデリング,エッジベースセルフスーパービジョンよりも優れる。 https://github.com/roydenwa/pseudo-colorize-masked-cells

Self-supervised learning, which is strikingly referred to as the dark matter of intelligence, is gaining more attention in biomedical applications of deep learning. In this work, we introduce a novel self-supervision objective for the analysis of cells in biomedical microscopy images. We propose training deep learning models to pseudo-colorize masked cells. We use a physics-informed pseudo-spectral colormap that is well suited for colorizing cell topology. Our experiments reveal that approximating semantic segmentation by pseudo-colorization is beneficial for subsequent fine-tuning on cell detection. Inspired by the recent success of masked image modeling, we additionally mask out cell parts and train to reconstruct these parts to further enrich the learned representations. We compare our pre-training method with self-supervised frameworks including contrastive learning (SimCLR), masked autoencoders (MAEs), and edge-based self-supervision. We build upon our previous work and train hybrid models for cell detection, which contain both convolutional and vision transformer modules. Our pre-training method can outperform SimCLR, MAE-like masked image modeling, and edge-based self-supervision when pre-training on a diverse set of six fluorescence microscopy datasets. Code is available at: https://github.com/roydenwa/pseudo-colorize-masked-cells
翻訳日:2023-08-30 00:43:01 公開日:2023-08-28
# データ中心機械学習のための再ラベル法

The Re-Label Method For Data-Centric Machine Learning ( http://arxiv.org/abs/2302.04391v5 )

ライセンス: Link先を確認
Tong Guo(参考訳) 業界深層学習アプリケーションでは、手作業でラベル付けしたデータは、一定の数のノイズデータを持っています。 この問題を解決し、開発データセットで90以上のスコアを達成するために、人間のラベル付けにおける参照としてモデル予測を考慮し、ノイズデータを見つけ、ノイズデータを再ラベルする簡単な方法を提案する。 本稿では,分類,シーケンスタグ付け,オブジェクト検出,シーケンス生成,クリックスルー率予測など,幅広いディープラーニングタスクのセットについて述べる。 実験結果と人体評価結果は,我々の考えを検証する。

In industry deep learning application, our manually labeled data has a certain number of noisy data. To solve this problem and achieve more than 90 score in dev dataset, we present a simple method to find the noisy data and re-label the noisy data by human, given the model predictions as references in human labeling. In this paper, we illustrate our idea for a broad set of deep learning tasks, includes classification, sequence tagging, object detection, sequence generation, click-through rate prediction. The experimental results and human evaluation results verify our idea.
翻訳日:2023-08-30 00:42:38 公開日:2023-08-28
# マルチエージェント深部強化学習を用いた多モードプラグインハイブリッド電気自動車のエネルギー管理

Energy Management of Multi-mode Plug-in Hybrid Electric Vehicle using Multi-agent Deep Reinforcement Learning ( http://arxiv.org/abs/2303.09658v2 )

ライセンス: Link先を確認
Min Hua, Cetengfei Zhang, Fanggang Zhang, Zhi Li, Xiaoli Yu, Hongming Xu, Quan Zhou(参考訳) 最近の多モードプラグインハイブリッド電気自動車(PHEV)技術は、脱炭に寄与する経路の一つであり、エネルギー管理にはマルチインプットとマルチアウトプット(MIMO)制御が必要である。 現在、既存の手法はMIMO制御を単一出力(MISO)制御に分離しており、その局所的な最適性能しか達成できない。 マルチモード車両をグローバルに最適化するために,マルチエージェント深部強化学習(MADRL)に基づく多モードPHEVのエネルギー管理のためのMIMO制御手法を提案する。 相関比を導入することで,2つの学習エージェントが,ddpg(deep deterministic policy gradient)アルゴリズムを用いてmadrlフレームワークの下で協調的に作業できる手振り戦略が提案されている。 DDPGエージェントの統一設定は、学習性能に影響を及ぼす要因の感度分析によって得られる。 ハンドシェイキング戦略の最適作業モードは、関連性比のパラメトリックスタディにより達成される。 提案手法の利点は, ソフトウェア・イン・ザ・ループテストプラットフォームで実証された。 その結果,ddpgエージェントの学習速度は,学習性能に最も影響を及ぼす要因であることが示唆された。 統一ddpg設定と相関比0.2を用いて,提案方式は,単一エージェント学習システムに比べて最大4%,従来のルールベースシステムと比較して最大23.54%のエネルギー節約を実現する。

The recently emerging multi-mode plug-in hybrid electric vehicle (PHEV) technology is one of the pathways making contributions to decarbonization, and its energy management requires multiple-input and multipleoutput (MIMO) control. At the present, the existing methods usually decouple the MIMO control into singleoutput (MISO) control and can only achieve its local optimal performance. To optimize the multi-mode vehicle globally, this paper studies a MIMO control method for energy management of the multi-mode PHEV based on multi-agent deep reinforcement learning (MADRL). By introducing a relevance ratio, a hand-shaking strategy is proposed to enable two learning agents to work collaboratively under the MADRL framework using the deep deterministic policy gradient (DDPG) algorithm. Unified settings for the DDPG agents are obtained through a sensitivity analysis of the influencing factors to the learning performance. The optimal working mode for the hand-shaking strategy is attained through a parametric study on the relevance ratio. The advantage of the proposed energy management method is demonstrated on a software-in-the-loop testing platform. The result of the study indicates that the learning rate of the DDPG agents is the greatest influencing factor for learning performance. Using the unified DDPG settings and a relevance ratio of 0.2, the proposed MADRL system can save up to 4% energy compared to the single-agent learning system and up to 23.54% energy compared to the conventional rule-based system.
翻訳日:2023-08-30 00:37:06 公開日:2023-08-28
# 無用な絡み合わせによる蒸留可能な絡み合わせと量子容量の推定

Estimate distillable entanglement and quantum capacity by squeezing useless entanglement ( http://arxiv.org/abs/2303.07228v3 )

ライセンス: Link先を確認
Chengkai Zhu, Chenghong Zhu, Xin Wang(参考訳) 量子インターネットは、セキュアで効率的な量子通信のための基本的なリソースとして、量子絡み合いに依存し、データ転送を再構成する。 この文脈では、エンタングルメント蒸留は量子インターネットの完全なポテンシャルを実現する上で重要な役割を担う重要なプロセスとして現れる。 それでも、蒸留可能な絡み合いとその密接に関連する必須量、量子容量を正確に推定することは困難である。 本研究では,対象状態と自由状態の集合との最小発散を定量化する資源の逆発散(reverse divergence of resources)として知られる一般資源測度を考える。 そこで本研究では, 蒸留可能な絡み合いや量子容量に対して, コントリビュートが無視されるであろう状態や量子チャネル内の不要な絡み合いを絞り込むことにより, 両量を評価する手法を提案する。 本手法は非分極化や振幅減衰等の実用的な雑音下での最大絡み合い状態の浄化に実用的応用を行い,一方通行の蒸留性絡み合いの推定精度の向上に繋がる。 さらに、我々は、パウリチャネルやランダム混合ユニタリチャネルを含む量子ビット量子チャネルの量子容量を評価するための貴重なベンチマークを提供する。

Quantum Internet relies on quantum entanglement as a fundamental resource for secure and efficient quantum communication, reshaping data transmission. In this context, entanglement distillation emerges as a crucial process that plays a pivotal role in realizing the full potential of the quantum internet. Nevertheless, it remains challenging to accurately estimate the distillable entanglement and its closely related essential quantity, the quantum capacity. In this work, we consider a general resource measure known as the reverse divergence of resources which quantifies the minimum divergence between a target state and the set of free states. Leveraging this measure, we propose methods for evaluating both quantities by squeezing out useless entanglement within a state or a quantum channel, whose contributions are expected to be ignored for the distillable entanglement or the quantum capacity, respectively. Our method has practical applications for purifying maximally entangled states under practical noises, such as depolarizing and amplitude damping noises, leading to improvements in estimating the one-way distillable entanglement. Furthermore, we provide valuable benchmarks for evaluating the quantum capacities of qubit quantum channels, including the Pauli channels and the random mixed unitary channels.
翻訳日:2023-08-30 00:35:52 公開日:2023-08-28
# 強化学習技術によるゲノムの革新

Revolutionizing Genomics with Reinforcement Learning Techniques ( http://arxiv.org/abs/2302.13268v2 )

ライセンス: Link先を確認
Mohsen Karami, Roohallah Alizadehsani, Khadijeh (Hoda) Jahanian, Ahmadreza Argha, Iman Dehzangi, Hamid Alinejad-Rokny(参考訳) 近年、強化学習(Reinforcement Learning, RL)は、意思決定やゲノム学など幅広い問題を解決する強力なツールとして出現している。 過去20年間の生ゲノムデータの指数関数的な成長は、手動分析の能力を超え、自動データ解析と処理への関心が高まっている。 RLアルゴリズムは、人間の監督を最小限にした経験から学ぶことができ、ゲノムデータ分析と解釈に適している。 RLを使用することの大きな利点の1つは、教師あり学習に必要なラベル付きトレーニングデータ収集に伴うコスト削減である。 ゲノミクスにおける機械学習(ML)の応用について多くの研究がなされているが、本調査は遺伝子制御ネットワーク(GRN)、ゲノム組立、配列アライメントなど、さまざまなゲノム研究分野におけるRLの利用に焦点を当てている。 本稿では,RLのゲノム学への応用に関する既存研究の技術的概要を概観し,これらのアプローチの強みと限界を明らかにする。 次に、RLが報酬関数の精度に大きく依存するため、より洗練された報酬関数の開発、RLと他の機械学習技術の統合、新しいゲノム研究分野へのRLの適用など、将来の探索にふさわしい研究の方向性について論じる。 最後に,本研究の成果を概説し,領域の現況とゲノム学におけるRLの将来展望をまとめた。

In recent years, Reinforcement Learning (RL) has emerged as a powerful tool for solving a wide range of problems, including decision-making and genomics. The exponential growth of raw genomic data over the past two decades has exceeded the capacity of manual analysis, leading to a growing interest in automatic data analysis and processing. RL algorithms are capable of learning from experience with minimal human supervision, making them well-suited for genomic data analysis and interpretation. One of the key benefits of using RL is the reduced cost associated with collecting labeled training data, which is required for supervised learning. While there have been numerous studies examining the applications of Machine Learning (ML) in genomics, this survey focuses exclusively on the use of RL in various genomics research fields, including gene regulatory networks (GRNs), genome assembly, and sequence alignment. We present a comprehensive technical overview of existing studies on the application of RL in genomics, highlighting the strengths and limitations of these approaches. We then discuss potential research directions that are worthy of future exploration, including the development of more sophisticated reward functions as RL heavily depends on the accuracy of the reward function, the integration of RL with other machine learning techniques, and the application of RL to new and emerging areas in genomics research. Finally, we present our findings and conclude by summarizing the current state of the field and the future outlook for RL in genomics.
翻訳日:2023-08-30 00:34:00 公開日:2023-08-28
# 事前画像の導入による乳癌リスク予測の強化

Enhancing Breast Cancer Risk Prediction by Incorporating Prior Images ( http://arxiv.org/abs/2303.15699v2 )

ライセンス: Link先を確認
Hyeonsoo Lee, Junha Kim, Eunkyung Park, Minjeong Kim, Taesoo Kim, Thijs Kooi(参考訳) 近年, 深層学習モデルでは乳がんリスクを予測し, スクリーニング戦略を可能にする可能性が示されたが, 乳がんの経時的変化は考慮されていない。 本稿では,乳がんリスク予測のための新しい手法 prime+ を提案する。この手法はトランスフォーマデコーダを用いて乳がんリスク予測を行う。 16,113件の検診をデータセット上で検証し,乳房密度の変化などの乳房x線写真の変化パターンを効果的に捉えることにより,乳がんリスク予測の短期的・長期的改善が期待できることを示した。 実験結果から,C-インデックスは0.68から0.73(p < 0.05)に増加し,最先端モデルよりも統計的に顕著な性能向上が得られた。

Recently, deep learning models have shown the potential to predict breast cancer risk and enable targeted screening strategies, but current models do not consider the change in the breast over time. In this paper, we present a new method, PRIME+, for breast cancer risk prediction that leverages prior mammograms using a transformer decoder, outperforming a state-of-the-art risk prediction method that only uses mammograms from a single time point. We validate our approach on a dataset with 16,113 exams and further demonstrate that it effectively captures patterns of changes from prior mammograms, such as changes in breast density, resulting in improved short-term and long-term breast cancer risk prediction. Experimental results show that our model achieves a statistically significant improvement in performance over the state-of-the-art based model, with a C-index increase from 0.68 to 0.73 (p < 0.05) on held-out test sets.
翻訳日:2023-08-30 00:25:39 公開日:2023-08-28
# SPARTAN:グループ活動認識のための自己監督型時空間変換器アプローチ

SPARTAN: Self-supervised Spatiotemporal Transformers Approach to Group Activity Recognition ( http://arxiv.org/abs/2303.12149v4 )

ライセンス: Link先を確認
Naga VS Raviteja Chappa, Pha Nguyen, Alexander H Nelson, Han-Seok Seo, Xin Li, Page Daniel Dobbs, Khoa Luu(参考訳) 本稿では, グループアクティビティ認識(GAR)に対する非ラベル付きビデオデータを用いたSPARTAN(Self-supervised Spatio-temporal Transformers)アプローチを提案する。 ビデオでは,空間的パッチサイズやフレームレートの異なる局所的・グローバルな時空間ビューを作成している。 提案した自己監督的目的は、時空間領域の変動と一致するように、同じビデオを表すこれらのコントラストビューの特徴を一致させることを目的としている。 我々の知る限り、提案するメカニズムは、ビデオトランスフォーマーのエンコーダを用いて、GARの弱教師付き設定を緩和する最初の研究の1つである。 さらに, 変圧器モデルの利点を生かして, 時空間次元に沿った長期関係モデリングを支援する。 提案手法は, nba と volleyball データセットを含む2つのグループアクティビティ認識ベンチマークにおいて, mca と mpca の指標で有意なマージンで最先端結果を上回り, 良好に機能する。

In this paper, we propose a new, simple, and effective Self-supervised Spatio-temporal Transformers (SPARTAN) approach to Group Activity Recognition (GAR) using unlabeled video data. Given a video, we create local and global Spatio-temporal views with varying spatial patch sizes and frame rates. The proposed self-supervised objective aims to match the features of these contrasting views representing the same video to be consistent with the variations in spatiotemporal domains. To the best of our knowledge, the proposed mechanism is one of the first works to alleviate the weakly supervised setting of GAR using the encoders in video transformers. Furthermore, using the advantage of transformer models, our proposed approach supports long-term relationship modeling along spatio-temporal dimensions. The proposed SPARTAN approach performs well on two group activity recognition benchmarks, including NBA and Volleyball datasets, by surpassing the state-of-the-art results by a significant margin in terms of MCA and MPCA metrics.
翻訳日:2023-08-30 00:25:17 公開日:2023-08-28
# オープンセット半教師付き学習のための適応型負示深層学習

Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning ( http://arxiv.org/abs/2303.12091v2 )

ライセンス: Link先を確認
Yang Yu, Danruo Deng, Furui Liu, Yueming Jin, Qi Dou, Guangyong Chen, Pheng-Ann Heng(参考訳) semi-supervised learning (ssl) メソッドはラベル付きデータ、ラベルなしデータ、テストデータは同じディストリビューションからのものであると仮定する。 オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。 以前のほとんどの作業は、スケーラビリティの不足と異なるタイプの不確かさを区別できないため、バイナリ分類器による異常検出に重点を置いていた。 本稿では,これらの制約に取り組むための新しいフレームワーク,adaptive negative explicitial deep learning (anedl)を提案する。 具体的には,まず,不確実性の種類を定量化し,自己学習と推論のための異なる不確実性指標を設計するために,不確実性深層学習(EDL)を導入する。 さらに,新しい適応的負の最適化手法を提案し,不整合と外れ値の両方を含むラベル付きデータセットに適合するようにした。 実証実験により,提案手法は4つのデータセットにまたがる既存の最先端手法よりも優れていた。

Semi-supervised learning (SSL) methods assume that labeled data, unlabeled data and test data are from the same distribution. Open-set semi-supervised learning (Open-set SSL) considers a more practical scenario, where unlabeled data and test data contain new categories (outliers) not observed in labeled data (inliers). Most previous works focused on outlier detection via binary classifiers, which suffer from insufficient scalability and inability to distinguish different types of uncertainty. In this paper, we propose a novel framework, Adaptive Negative Evidential Deep Learning (ANEDL) to tackle these limitations. Concretely, we first introduce evidential deep learning (EDL) as an outlier detector to quantify different types of uncertainty, and design different uncertainty metrics for self-training and inference. Furthermore, we propose a novel adaptive negative optimization strategy, making EDL more tailored to the unlabeled dataset containing both inliers and outliers. As demonstrated empirically, our proposed method outperforms existing state-of-the-art methods across four datasets.
翻訳日:2023-08-30 00:24:58 公開日:2023-08-28
# ビデオ認識における意思決定に基づくブラックボックスパッチ攻撃の効率化

Efficient Decision-based Black-box Patch Attacks on Video Recognition ( http://arxiv.org/abs/2303.11917v2 )

ライセンス: Link先を確認
Kaixun Jiang, Zhaoyu Chen, Hao Huang, Jiafeng Wang, Dingkang Yang, Bo Li, Yan Wang, Wenqiang Zhang(参考訳) ディープニューラルネットワーク(DNN)は優れた性能を示したが、入力に知覚的かつ局所的な摂動をもたらす敵のパッチに弱い。 画像上の敵意パッチの生成は注目されているが、ビデオ上の敵意パッチは十分に調査されていない。 さらに、脅威モデルをクエリして予測されたハードラベルにのみアクセスする意思決定に基づく攻撃は、実世界のビデオ認識シーンで実用的であっても、ビデオモデルでも十分に検討されていない。 このような研究の欠如は、ビデオモデルのロバストネス評価において大きなギャップをもたらす。 このギャップを埋めるため、この研究はまず、ビデオモデルに対する意思決定に基づくパッチ攻撃を探求する。 ビデオが生み出す巨大なパラメータ空間と、決定に基づくモデルが返す最小限の情報によって、攻撃の難易度とクエリの負担が大幅に増加することを分析した。 問合せ効率の高い攻撃を実現するために,時空間微分進化(STDE)フレームワークを提案する。 まず、STDEはターゲットビデオをパッチテクスチャとして導入し、時間差によって適応的に選択されるキーフレームにのみパッチを追加する。 第2に、stdeはパッチ領域の最小化を最適化目標とし、空間的時間的変異とクロスオーバーを採用し、局所的最適に陥ることなくグローバル最適を探索する。 実験の結果、STDEは脅威、効率、非受容性の点で最先端のパフォーマンスを示した。 したがって、STDEはビデオ認識モデルの堅牢性を評価する強力なツールとなる可能性がある。

Although Deep Neural Networks (DNNs) have demonstrated excellent performance, they are vulnerable to adversarial patches that introduce perceptible and localized perturbations to the input. Generating adversarial patches on images has received much attention, while adversarial patches on videos have not been well investigated. Further, decision-based attacks, where attackers only access the predicted hard labels by querying threat models, have not been well explored on video models either, even if they are practical in real-world video recognition scenes. The absence of such studies leads to a huge gap in the robustness assessment for video models. To bridge this gap, this work first explores decision-based patch attacks on video models. We analyze that the huge parameter space brought by videos and the minimal information returned by decision-based models both greatly increase the attack difficulty and query burden. To achieve a query-efficient attack, we propose a spatial-temporal differential evolution (STDE) framework. First, STDE introduces target videos as patch textures and only adds patches on keyframes that are adaptively selected by temporal difference. Second, STDE takes minimizing the patch area as the optimization objective and adopts spatialtemporal mutation and crossover to search for the global optimum without falling into the local optimum. Experiments show STDE has demonstrated state-of-the-art performance in terms of threat, efficiency and imperceptibility. Hence, STDE has the potential to be a powerful tool for evaluating the robustness of video recognition models.
翻訳日:2023-08-30 00:24:37 公開日:2023-08-28
# GeoMIM:マルチビュー3次元理解のためのマスク付き画像モデリングによる3次元知識伝達の改善を目指して

GeoMIM: Towards Better 3D Knowledge Transfer via Masked Image Modeling for Multi-view 3D Understanding ( http://arxiv.org/abs/2303.11325v2 )

ライセンス: Link先を確認
Jihao Liu, Tai Wang, Boxiao Liu, Qihang Zhang, Yu Liu, Hongsheng Li(参考訳) マルチビューカメラによる3D検出はコンピュータビジョンにおいて難しい問題である。 最近の研究は、事前訓練されたLiDAR検出モデルを利用して、知識をカメラベースの学生ネットワークに転送する。 しかし,LiDARのBEV機能とカメラベースのBEV機能との間には,異なる特徴を持ち,異なる情報源から派生しているため,大きな領域ギャップがあることを論じる。 本稿では,多視点カメラによる3D画像の検出を改善するために,LiDARモデルの知識を訓練前ファネチューンパラダイムで伝達するためのGeometry Enhanced Masked Image Modeling (GeoMIM)を提案する。 GeoMIMはクロスビューアテンション(CVA)ブロックを備えたマルチカメラビジョントランスフォーマーで、事前訓練されたBEVモデルによって符号化されたLiDAR BEV機能を使用する。 事前トレーニング中、GeoMIMのデコーダは、密な視点ビュー特徴を完備するセマンティックブランチと、密な視点ビュー深度マップを再構成する他の幾何学ブランチを持つ。 ディープブランチは、カメラのパラメータをより良い転送能力のために入力することで、カメラ対応に設計されている。 その結果、GeoMIMはnuScenesベンチマークの既存の手法よりも優れており、カメラによる3Dオブジェクト検出と3Dセグメンテーションの最先端性能を実現している。 コードと事前訓練されたモデルはhttps://github.com/Sense-X/GeoMIM.comで入手できる。

Multi-view camera-based 3D detection is a challenging problem in computer vision. Recent works leverage a pretrained LiDAR detection model to transfer knowledge to a camera-based student network. However, we argue that there is a major domain gap between the LiDAR BEV features and the camera-based BEV features, as they have different characteristics and are derived from different sources. In this paper, we propose Geometry Enhanced Masked Image Modeling (GeoMIM) to transfer the knowledge of the LiDAR model in a pretrain-finetune paradigm for improving the multi-view camera-based 3D detection. GeoMIM is a multi-camera vision transformer with Cross-View Attention (CVA) blocks that uses LiDAR BEV features encoded by the pretrained BEV model as learning targets. During pretraining, GeoMIM's decoder has a semantic branch completing dense perspective-view features and the other geometry branch reconstructing dense perspective-view depth maps. The depth branch is designed to be camera-aware by inputting the camera's parameters for better transfer capability. Extensive results demonstrate that GeoMIM outperforms existing methods on nuScenes benchmark, achieving state-of-the-art performance for camera-based 3D object detection and 3D segmentation. Code and pretrained models are available at https://github.com/Sense-X/GeoMIM.
翻訳日:2023-08-30 00:24:00 公開日:2023-08-28
# EmotionIC:会話における感情認識のための感情慣性と伝染型依存モデル

EmotionIC: Emotional Inertia and Contagion-Driven Dependency Modeling for Emotion Recognition in Conversation ( http://arxiv.org/abs/2303.11117v3 )

ライセンス: Link先を確認
Yingjian Liu, Jiang Li, Xiaoping Wang, Zhigang Zeng(参考訳) 近年,人間とコンピュータのインターフェース技術の発展と実装により,会話における感情認識(ERC)が注目されている。 本稿では,情緒的慣性(Emotional Inertia and Contagion)によるERCタスクの依存性モデリングに対する新しいアプローチを提案する。 EmotionICは,IMMHA(Identity Masked Multi-Head Attention),DiaGRU(Gated Recurrent Unit),Skip-chain Conditional Random Field(SkipCRF)の3つの主要コンポーネントから構成される。 従来のERCモデルと比較して、EmotionICは特徴抽出レベルと分類レベルの両方で会話をより徹底的にモデル化することができる。 提案モデルは,注意と反復に基づく手法の利点を特徴抽出レベルで統合しようとするものである。 具体的には、IDベースのグローバルコンテキスト依存をキャプチャするためにIMMHAを適用し、DiaGRUは話者と時間を考慮したローカルコンテキスト情報を抽出する。 分類レベルでは、SkipCRFは会話中の高次隣接発話からの複雑な感情フローを明示的にマイニングすることができる。 実験の結果,本手法は4つのベンチマークデータセットにおいて,最先端モデルを大幅に上回ることができることがわかった。 アブレーション研究は、我々のモジュールが感情の慣性や伝染を効果的にモデル化できることを確認した。

Emotion Recognition in Conversation (ERC) has attracted growing attention in recent years as a result of the advancement and implementation of human-computer interface technologies. In this paper, we propose a novel approach to dependency modeling driven by Emotional Inertia and Contagion (EmotionIC) for ERC task. Our EmotionIC consists of three main components, i.e., Identity Masked Multi-Head Attention (IMMHA), Dialogue-based Gated Recurrent Unit (DiaGRU), and Skip-chain Conditional Random Field (SkipCRF). Compared to previous ERC models, EmotionIC can model a conversation more thoroughly at both the feature-extraction and classification levels. The proposed model attempts to integrate the advantages of attention- and recurrence-based methods at the feature-extraction level. Specifically, IMMHA is applied to capture identity-based global contextual dependencies, while DiaGRU is utilized to extract speaker- and temporal-aware local contextual information. At the classification level, SkipCRF can explicitly mine complex emotional flows from higher-order neighboring utterances in the conversation. Experimental results show that our method can significantly outperform the state-of-the-art models on four benchmark datasets. The ablation studies confirm that our modules can effectively model emotional inertia and contagion.
翻訳日:2023-08-30 00:23:35 公開日:2023-08-28
# 分類バイアスの恐れがない:合成・固定型分類器を用いたニューラルネットワークによるフェデレーション学習

No Fear of Classifier Biases: Neural Collapse Inspired Federated Learning with Synthetic and Fixed Classifier ( http://arxiv.org/abs/2303.10058v2 )

ライセンス: Link先を確認
Zexi Li, Xinyi Shang, Rui He, Tao Lin, Chao Wu(参考訳) データの多様性は、連合学習(fl)のパフォーマンスを妨げる固有の課題である。 近年の研究では、局所モデルのバイアス付き分類器が重要なボトルネックとなっている。 FLトレーニング後に分類器の校正を試みたが、訓練時分類器バイアスによる特徴表現の改善には不十分である。 FLにおける分類器バイアスジレンマを解くには、分類器の背後にあるメカニズムを完全に理解する必要がある。 近年の神経崩壊の進展により、完全な訓練シナリオの下での分類器と機能プロトタイプは、simplex equiangular tight frame (etf)と呼ばれる最適な構造に崩壊することが示されている。 この神経崩壊の洞察に基づいて, FLの分類器バイアス問題の解法を, 学習中に合成・固定されたETF分類器を用いて提案する。 最適な分類器構造により、すべてのクライアントは、非常に異質なデータの下でも、統一的で最適な特徴表現を学べる。 FLにおけるETF構造をよりよく適応するために,高一般化とパーソナライズの両方を実現するために,いくつかの効果的なモジュールを考案した。 本研究では,CIFAR-10,CIFAR-100,Tiny-ImageNet上での最先端の性能を示す実験を行った。

Data heterogeneity is an inherent challenge that hinders the performance of federated learning (FL). Recent studies have identified the biased classifiers of local models as the key bottleneck. Previous attempts have used classifier calibration after FL training, but this approach falls short in improving the poor feature representations caused by training-time classifier biases. Resolving the classifier bias dilemma in FL requires a full understanding of the mechanisms behind the classifier. Recent advances in neural collapse have shown that the classifiers and feature prototypes under perfect training scenarios collapse into an optimal structure called simplex equiangular tight frame (ETF). Building on this neural collapse insight, we propose a solution to the FL's classifier bias problem by utilizing a synthetic and fixed ETF classifier during training. The optimal classifier structure enables all clients to learn unified and optimal feature representations even under extremely heterogeneous data. We devise several effective modules to better adapt the ETF structure in FL, achieving both high generalization and personalization. Extensive experiments demonstrate that our method achieves state-of-the-art performances on CIFAR-10, CIFAR-100, and Tiny-ImageNet.
翻訳日:2023-08-30 00:22:53 公開日:2023-08-28
# グラフに基づく運転場面のトポロジー推論

Graph-based Topology Reasoning for Driving Scenes ( http://arxiv.org/abs/2304.05277v2 )

ライセンス: Link先を確認
Tianyu Li, Li Chen, Huijie Wang, Yang Li, Jiazhi Yang, Xiangwei Geng, Shengyin Jiang, Yuting Wang, Hang Xu, Chunjing Xu, Junchi Yan, Ping Luo, Hongyang Li(参考訳) 自律走行を実現するためには道路ゲノムを理解することが不可欠である。 この高度にインテリジェントな問題は、レーンの接続関係と、包括的なトポロジー推論手法が欠落しているレーンと交通要素の割り当て関係という2つの側面を含む。 一方、従来の地図学習手法は、セグメンテーションやレーンのパラダイムによる車線接続の導出に苦慮しており、あるいは、車線トポロジー指向のアプローチは、中心線の検出と相互作用モデリングの無視に重点を置いている。 一方、画像領域ではレーン割り当て問題に対するトラフィック要素が限定されており、2つのビューからの対応構築方法が未解決の課題となっている。 これらの課題に対処するために,従来の知覚タスク以上のトラフィック知識を抽象化可能な,最初のエンドツーエンドフレームワークであるTopoNetを提案する。 運転シーントポロジーを捉えるために,(1)2d要素からの意味的知識を統一的な特徴空間に組み込む組込みモジュール,(2)関係をモデル化し,ネットワーク内の特徴的相互作用を可能にするためのキュレートされたシーングラフニューラルネットワーク,(3)任意にメッセージを送信する代わりにシーンナレッジグラフを考案し,様々な種類の道路ゲノムと先行知識を区別する。 私たちはtoponetを、難易度の高いシーン理解ベンチマークであるopenlane-v2で評価しています。 コードはhttps://github.com/OpenDriveLab/TopoNetで公開されている。

Understanding the road genome is essential to realize autonomous driving. This highly intelligent problem contains two aspects - the connection relationship of lanes, and the assignment relationship between lanes and traffic elements, where a comprehensive topology reasoning method is vacant. On one hand, previous map learning techniques struggle in deriving lane connectivity with segmentation or laneline paradigms; or prior lane topology-oriented approaches focus on centerline detection and neglect the interaction modeling. On the other hand, the traffic element to lane assignment problem is limited in the image domain, leaving how to construct the correspondence from two views an unexplored challenge. To address these issues, we present TopoNet, the first end-to-end framework capable of abstracting traffic knowledge beyond conventional perception tasks. To capture the driving scene topology, we introduce three key designs: (1) an embedding module to incorporate semantic knowledge from 2D elements into a unified feature space; (2) a curated scene graph neural network to model relationships and enable feature interaction inside the network; (3) instead of transmitting messages arbitrarily, a scene knowledge graph is devised to differentiate prior knowledge from various types of the road genome. We evaluate TopoNet on the challenging scene understanding benchmark, OpenLane-V2, where our approach outperforms all previous works by a great margin on all perceptual and topological metrics. The code is released at https://github.com/OpenDriveLab/TopoNet
翻訳日:2023-08-30 00:17:25 公開日:2023-08-28
# ゼロショット時空間行動検出のための対話型プロンプト

Interaction-Aware Prompting for Zero-Shot Spatio-Temporal Action Detection ( http://arxiv.org/abs/2304.04688v3 )

ライセンス: Link先を確認
Wei-Jhe Huang, Jheng-Hsien Yeh, Min-Hung Chen, Gueter Josmy Faure, Shang-Hong Lai(参考訳) 空間的-時間的行動検出の目標は、ビデオ内で各人の行動が起こる時間と場所を決定し、対応する行動カテゴリを分類することである。 既存の手法の多くは、大量のトレーニングデータを必要とする完全教師付き学習を採用しており、ゼロショット学習を実現するのは非常に困難である。 本稿では,訓練済みの視覚言語モデルを用いて代表的画像とテキストの特徴を抽出し,それらの特徴の相互作用モジュール間の関係をモデル化してインタラクション特徴を得る。 さらに、この機能を使って各ラベルにより適切なテキスト機能を得るよう促す。 最後に、各ラベルのインタラクション特徴とテキスト特徴との類似度を算出し、アクションカテゴリを決定する。 j-hmdb と ucf101-24 データセットを用いた実験により,提案するインタラクションモジュールと視覚機能の整合性が向上し,ゼロショット時空間動作検出に優れた精度が得られた。 コードはhttps://github.com/webber2933/iCLIPで入手できる。

The goal of spatial-temporal action detection is to determine the time and place where each person's action occurs in a video and classify the corresponding action category. Most of the existing methods adopt fully-supervised learning, which requires a large amount of training data, making it very difficult to achieve zero-shot learning. In this paper, we propose to utilize a pre-trained visual-language model to extract the representative image and text features, and model the relationship between these features through different interaction modules to obtain the interaction feature. In addition, we use this feature to prompt each label to obtain more appropriate text features. Finally, we calculate the similarity between the interaction feature and the text feature for each label to determine the action category. Our experiments on J-HMDB and UCF101-24 datasets demonstrate that the proposed interaction module and prompting make the visual-language features better aligned, thus achieving excellent accuracy for zero-shot spatio-temporal action detection. The code will be available at https://github.com/webber2933/iCLIP.
翻訳日:2023-08-30 00:16:35 公開日:2023-08-28
# GINA-3D: 野生における神経集合生成の学習

GINA-3D: Learning to Generate Implicit Neural Assets in the Wild ( http://arxiv.org/abs/2304.02163v2 )

ライセンス: Link先を確認
Bokui Shen, Xinchen Yan, Charles R. Qi, Mahyar Najibi, Boyang Deng, Leonidas Guibas, Yin Zhou, Dragomir Anguelov(参考訳) センサデータからシミュレーションのための3d世界をモデリングすることは、自動運転のようなロボット学習問題のためのテストと検証環境を開発するためのスケーラブルな方法である。 しかし、現実世界のような環境を手動で作り直したり作り直したりするのは難しく、高価で、スケーラブルではない。 最近の生成モデル技術は、豊富な2d画像のみを使用して3dアセットを学習することで、このような課題に対処するための有望な進歩を示している。 本稿では,カメラとLiDARセンサによる実世界の運転データを用いて,多様な車両や歩行者のリアルな3D暗黙的ニューラルアセットを作成する生成モデルGINA-3Dを紹介する。 既存の画像データセットと比較すると、実世界の運転設定は、閉塞、照明変数、ロングテール分布など、新たな課題をもたらす。 GINA-3Dは、画像の生成モデリングの最近の進歩に触発されて、表現学習と生成モデリングを学習された3面の潜在構造を持つ2段階に分離することで、これらの課題に取り組む。 このアプローチを評価するために,waymo open datasetから120万以上の車両および歩行者の画像を含む大規模オブジェクトセンタデータセットと,建設機器,ごみ収集車,ケーブルカーなどのロングテールインスタンスの80k画像セットを構築した。 我々は,本モデルと既存手法を比較し,生成画像とジオメトリの両面において,品質と多様性の最先端性能を実現することを示す。

Modeling the 3D world from sensor data for simulation is a scalable way of developing testing and validation environments for robotic learning problems such as autonomous driving. However, manually creating or re-creating real-world-like environments is difficult, expensive, and not scalable. Recent generative model techniques have shown promising progress to address such challenges by learning 3D assets using only plentiful 2D images -- but still suffer limitations as they leverage either human-curated image datasets or renderings from manually-created synthetic 3D environments. In this paper, we introduce GINA-3D, a generative model that uses real-world driving data from camera and LiDAR sensors to create realistic 3D implicit neural assets of diverse vehicles and pedestrians. Compared to the existing image datasets, the real-world driving setting poses new challenges due to occlusions, lighting-variations and long-tail distributions. GINA-3D tackles these challenges by decoupling representation learning and generative modeling into two stages with a learned tri-plane latent structure, inspired by recent advances in generative modeling of images. To evaluate our approach, we construct a large-scale object-centric dataset containing over 1.2M images of vehicles and pedestrians from the Waymo Open Dataset, and a new set of 80K images of long-tail instances such as construction equipment, garbage trucks, and cable cars. We compare our model with existing approaches and demonstrate that it achieves state-of-the-art performance in quality and diversity for both generated images and geometries.
翻訳日:2023-08-30 00:15:57 公開日:2023-08-28
# 人間のコラボレーションはllm生成のディープフェイクテキストの識別精度を高めるか?

Does Human Collaboration Enhance the Accuracy of Identifying LLM-Generated Deepfake Texts? ( http://arxiv.org/abs/2304.01002v2 )

ライセンス: Link先を確認
Adaku Uchendu, Jooyoung Lee, Hua Shen, Thai Le, Ting-Hao 'Kenneth' Huang, Dongwon Lee(参考訳) 大きな言語モデル(gpt-4、llamaなど)の進歩は、人間の文章に似たコヒーレント文の生成を大規模に改善し、いわゆるディープフェイクテキストの作成に繋がった。 しかし、この進歩はセキュリティとプライバシーの懸念をもたらし、ディープフェイクテキストと人間の書いたテキストを区別するための効果的なソリューションを必要としている。 先行研究は、人間のディープフェイクテキストの検出能力を研究したが、人間の「コラボレーション」がディープフェイクテキストの検出を改善するかどうかについては、誰も調査していない。 本研究では,深層文の理解のギャップに対処するため,(1)AMTプラットフォームからの非専門的個人と(2)Upworkプラットフォームからのエキスパートの執筆という2つのグループで実験を行った。 その結果、人間同士のコラボレーションによって、両方のグループのディープフェイクテキストの検出が改善される可能性が示唆され、非専門家では6.36%、専門家では12.76%増加した。 さらに、人間がディープフェイクテキストとしてテキストを検出するのに使った説明を分析し、ディープフェイクテキストの最も強い指標は一貫性と一貫性の欠如であることを示す。 本研究は,deepfakeテキストの協調的検出を容易にするために,今後のツールやフレームワーク設計に有用な知見を提供する。 実験データセットとAMTの実装は、https://github.com/huashen218/llm-deepfake- Human-study.gitで利用可能である。

Advances in Large Language Models (e.g., GPT-4, LLaMA) have improved the generation of coherent sentences resembling human writing on a large scale, resulting in the creation of so-called deepfake texts. However, this progress poses security and privacy concerns, necessitating effective solutions for distinguishing deepfake texts from human-written ones. Although prior works studied humans' ability to detect deepfake texts, none has examined whether "collaboration" among humans improves the detection of deepfake texts. In this study, to address this gap of understanding on deepfake texts, we conducted experiments with two groups: (1) nonexpert individuals from the AMT platform and (2) writing experts from the Upwork platform. The results demonstrate that collaboration among humans can potentially improve the detection of deepfake texts for both groups, increasing detection accuracies by 6.36% for non-experts and 12.76% for experts, respectively, compared to individuals' detection accuracies. We further analyze the explanations that humans used for detecting a piece of text as deepfake text, and find that the strongest indicator of deepfake texts is their lack of coherence and consistency. Our study provides useful insights for future tools and framework designs to facilitate the collaborative human detection of deepfake texts. The experiment datasets and AMT implementations are available at: https://github.com/huashen218/llm-deepfake-human-study.git
翻訳日:2023-08-30 00:15:00 公開日:2023-08-28
# 回転フォトニクスによる古典的および量子的非相反性のスイッチング

Switching classical and quantum nonreciprocities with spinning photonics ( http://arxiv.org/abs/2303.17997v2 )

ライセンス: Link先を確認
Yonglin Xiang, Yunlan Zuo, Xun-Wei Xu, Ran Huang, Hui Jing(参考訳) 我々は、回転するカー共振器で光の古典的あるいは量子的非相互効果を達成、操作、スイッチする方法を研究する。 特に、古典的非相反性(つまり、時計回りと反時計回りの伝播モードの両方で同じ平均光子数を持つ)がなくても、そのようなデバイスにおける光子の量子相関の非相反性を実現することができることを示す。 また、角速度と光後方散乱強度をチューニングすることにより、平均光子数と第2次相関の両方に非相互性がない場合でも、定性的に異なる第3次光学相関を特徴とする高次量子非相対性が現れる。 古典的アイソレータと純粋に量子指向性システムの間で単一デバイスを切り替える可能性は、非相反性物質により多くの機能を与え、非相反性多光子束、一方向光子束、バックアクション免疫量子通信のような新しい量子効果や応用を実現する新しい機会を与えることができる。

We study how to achieve, manipulate, and switch classical or quantum nonreciprocal effects of light with a spinning Kerr resonator. In particular, we show that even when there is no classical nonreciprocity (i.e., with the same mean number of photons for both clockwise and counterclockwise propagating modes), it is still possible to realize nonreciprocity of quantum correlations of photons in such a device. Also, by tuning the angular velocity and the optical backscattering strength, higher-order quantum nonreciprocity can appear, featuring qualitatively different third-order optical correlations, even in the absence of any nonreciprocity for both the mean photon number and its second-order correlations. The possibility to switch a single device between a classical isolator and a purely quantum directional system can provide more functions for nonreciprocal materials and new opportunities to realize novel quantum effects and applications, such as nonreciprocal multi-photon blockade, one-way photon bundles, and backaction-immune quantum communications.
翻訳日:2023-08-30 00:14:18 公開日:2023-08-28
# ブラインドレビュアーとテキスト分類アルゴリズムによるChatGPTから生成された抽象要約と実要約の比較

Comparing Abstractive Summaries Generated by ChatGPT to Real Summaries Through Blinded Reviewers and Text Classification Algorithms ( http://arxiv.org/abs/2303.17650v3 )

ライセンス: Link先を確認
Mayank Soni and Vincent Wade(参考訳) 大きな言語モデル(LLM)は、様々なタスクにおける印象的なパフォーマンスのために大きな注目を集めています。 OpenAIが開発したChatGPTは、言語モデルのファミリに最近追加されたもので、ヒューマンライクなテキスト生成機能のために、少数の人々によって破壊的技術と呼ばれている。 インターネット上の多くの逸話的な例はチャットgptの強みと弱みを評価しているが、体系的な研究は少ない。 本稿では,ChatGPTの体系的な研究の体系化に寄与するため,自動メトリクスと視覚障害者による抽象要約におけるChatGPTの性能評価を行った。 chatgpt生成の要約を検出する自動テキスト分類器も構築した。 テキスト分類アルゴリズムは実要約と生成要約を区別できるが,人間は実要約とchatgptで生成された要約を区別できないことがわかった。

Large Language Models (LLMs) have gathered significant attention due to their impressive performance on a variety of tasks. ChatGPT, developed by OpenAI, is a recent addition to the family of language models and is being called a disruptive technology by a few, owing to its human-like text-generation capabilities. Although, many anecdotal examples across the internet have evaluated ChatGPT's strength and weakness, only a few systematic research studies exist. To contribute to the body of literature of systematic research on ChatGPT, we evaluate the performance of ChatGPT on Abstractive Summarization by the means of automated metrics and blinded human reviewers. We also build automatic text classifiers to detect ChatGPT generated summaries. We found that while text classification algorithms can distinguish between real and generated summaries, humans are unable to distinguish between real summaries and those produced by ChatGPT.
翻訳日:2023-08-30 00:13:50 公開日:2023-08-28
# トークンドロップアウトとコンテキストリファインメントを用いた効率的なビデオアクション検出

Efficient Video Action Detection with Token Dropout and Context Refinement ( http://arxiv.org/abs/2304.08451v3 )

ライセンス: Link先を確認
Lei Chen, Zhan Tong, Yibing Song, Gangshan Wu, Limin Wang(参考訳) 大規模ビデオトークンを用いたストリーミングビデオクリップは、視覚トランスフォーマー(vits)の効率的な認識、特に正確なアクタ識別のために十分な時空間表現を必要とするビデオアクション検出を阻害する。 本研究では,バニラ ViT に基づく効率的な映像行動検出(EVAD)のためのエンドツーエンドフレームワークを提案する。 私たちのEVADは、ビデオアクション検出のための2つの特別な設計で構成されています。 まず,鍵フレーム中心の観点から時空間トークンのドロップアウトを提案する。 ビデオクリップでは、キーフレームからすべてのトークンを保持し、他のフレームからのアクター動作に関連するトークンを保持し、残りのトークンをこのクリップにドロップアウトします。 第2に,アクタの識別性を改善するために,残りのトークンを活用することで,シーンコンテキストを洗練する。 我々の行動検出器の関心領域(roi)は時間領域に拡張される。 キャプチャされた時空間アクター識別表現は、アテンション機構を備えたデコーダのシーンコンテキストを介して洗練される。 これらの2つの設計は、EVADを精度を維持しながら効率よくし、3つのベンチマークデータセット(AVA、UCF101-24、JHMDB)で検証します。 バニラ ViT のバックボーンと比較して,EVAD は全体の GFLOP を 43% 削減し,性能劣化のないリアルタイム推論速度を40% 改善した。 さらに、同様の計算コストであっても、EVADは高解像度入力で1.1mAPの性能を向上させることができる。 コードはhttps://github.com/MCG-NJU/EVADで入手できる。

Streaming video clips with large-scale video tokens impede vision transformers (ViTs) for efficient recognition, especially in video action detection where sufficient spatiotemporal representations are required for precise actor identification. In this work, we propose an end-to-end framework for efficient video action detection (EVAD) based on vanilla ViTs. Our EVAD consists of two specialized designs for video action detection. First, we propose a spatiotemporal token dropout from a keyframe-centric perspective. In a video clip, we maintain all tokens from its keyframe, preserve tokens relevant to actor motions from other frames, and drop out the remaining tokens in this clip. Second, we refine scene context by leveraging remaining tokens for better recognizing actor identities. The region of interest (RoI) in our action detector is expanded into temporal domain. The captured spatiotemporal actor identity representations are refined via scene context in a decoder with the attention mechanism. These two designs make our EVAD efficient while maintaining accuracy, which is validated on three benchmark datasets (i.e., AVA, UCF101-24, JHMDB). Compared to the vanilla ViT backbone, our EVAD reduces the overall GFLOPs by 43% and improves real-time inference speed by 40% with no performance degradation. Moreover, even at similar computational costs, our EVAD can improve the performance by 1.1 mAP with higher resolution inputs. Code is available at https://github.com/MCG-NJU/EVAD.
翻訳日:2023-08-30 00:06:21 公開日:2023-08-28
# zirconium pentatellurideにおけるコヒーレントフォノンによる担体ポンピングのアブイニティシミュレーション

Ab-initio Simulations of Coherent Phonon-Induced Pumping of Carriers in Zirconium Pentatelluride ( http://arxiv.org/abs/2304.08449v2 )

ライセンス: Link先を確認
Tao Jiang, Peter P. Orth, Liang Luo, Lin-Lin Wang, Feng Zhang, Cai-Zhuang Wang, Jin Zhao, Kai-Ming Ho, Jigang Wang, and Yong-Xin Yao(参考訳) レーザー駆動コヒーレントフォノンは変調ひずみ場として作用し、量子物質の断熱基底状態トポロジーを変化させることができる。 ここでは,位相絶縁体zrte$_5$の電子キャリアに対する強いテラヘルツ電界によるコヒーレントフォノンの効果をシミュレーションするために,時間依存第一原理と効果的なモデル計算を用いる。 等価な$A_\text{1g}$ Ramanモード変調は, フォノンエネルギーが平衡バンドギャップよりも約1桁小さいにもかかわらず, キャリアをバンドギャップを越えて効果的にポンプできることを示す。 ブリュアンゾーン中心の狭い領域において,Bloch電子のLandau-Zener-St\"uckelbergトンネルによって生じるこの効果の顕微鏡的メカニズムを明らかにする。 量子力学シミュレーションの結果はZrTe$_5$の最近のポンププローブ実験と低温での良好な一致を示した。

Laser-driven coherent phonons can act as modulated strain fields and modify the adiabatic ground state topology of quantum materials. Here we use time-dependent first-principles and effective model calculations to simulate the effect of the coherent phonon induced by strong terahertz electric field on electronic carriers in the topological insulator ZrTe$_5$. We show that a coherent $A_\text{1g}$ Raman mode modulation can effectively pump carriers across the band gap, even though the phonon energy is about an order of magnitude smaller than the equilibrium band gap. We reveal the microscopic mechanism of this effect which occurs via Landau-Zener-St\"uckelberg tunneling of Bloch electrons in a narrow region in the Brillouin zone center where the transient energy gap closes when the system switches from strong to weak topological insulator. The quantum dynamics simulation results are in excellent agreement with recent pump-probe experiments in ZrTe$_5$ at low temperature.
翻訳日:2023-08-30 00:05:56 公開日:2023-08-28
# ホログラフィック多部絡み合い尺度の分類に向けて

Towards classification of holographic multi-partite entanglement measures ( http://arxiv.org/abs/2304.06082v3 )

ライセンス: Link先を確認
Abhijit Gadde, Vineeth Krishna, Trakshu Sharma(参考訳) 本稿では,ホログラフィック双対のプローブ近似で計算可能な測度を構築することを目的として,多成分の絡み合いの測度を体系的に研究する。 我々は局所ユニタリ変換の不変量として一般測度を分類し数える。 これらの測度を置換群要素を用いて定式化した後、プローブ測度が満たすべき条件を導出し、大きな解のクラスを見つける。 これらの解はarxiv:2206.09723で導入された多重エントロピーの一般化である。 ホログラムの双対は、レプリカ対称性が大まかに保たれていないと仮定し、2d$ cftで明示的な計算で処方薬をチェックします。 多重エントロピーと同様に、これらの測度のホログラフィック双対は最小のブレーンウェブの重み付き面積によって与えられるが、ブランは異なる張力を持つ。 我々は、レプリカ対称性の仮定と、既に知られている絡み合いの方法、例えば絡み合いの負性や反射エントロピーが我々の枠組みにどのように適合するかについて議論する。

In this paper, we systematically study the measures of multi-partite entanglement with the aim of constructing those measures that can be computed in probe approximation in the holographic dual. We classify and count general measures as invariants of local unitary transformations. After formulating these measures in terms of permutation group elements, we derive conditions that a probe measure should satisfy and find a large class of solutions. These solutions are generalizations of the multi-entropy introduced in arXiv:2206.09723 . We derive their holographic dual with the assumption that the replica symmetry is unbroken in the bulk and check our prescription with explicit computations in $2d$ CFTs. Analogous to the multi-entropy, the holographic dual of these measures is given by the weighted area of the minimal brane-web but with branes having differing tensions. We discuss the replica symmetry assumption and also how the already known entanglement measures, such as entanglement negativity and reflected entropy fit in our framework.
翻訳日:2023-08-30 00:03:39 公開日:2023-08-28
# 放牧牛の採餌行動を認識する騒音ロバスト音響手法

A noise-robust acoustic method for recognizing foraging activities of grazing cattle ( http://arxiv.org/abs/2304.14824v2 )

ライセンス: Link先を確認
Luciano S. Martinez-Rau, Jos\'e O. Chelotti, Mariano Ferrero, Julio R. Galli, Santiago A. Utsumi, Alejandra M. Planisich, H. Leonardo Rufiner, Leonardo L. Giovanini(参考訳) 農家は成長する乳製品市場で競争力を維持するために、家畜生産システムの改善を継続的に行わなければならない。 精密家畜農業技術は、家畜生産を最適化し、商業農場で動物を個別に監視する。 継続的音響モニタリングは, 放牧牛の毎日の放牧および放牧時間予算を推定するために広く受け入れられているセンシング技術である。 しかし, 牧草地の環境・自然騒音は, 現在の音響手法の実用化に際し, 性能に顕著な影響を与えている。 本研究では,NRFAR(Noss-Robust Foraging Activity Recognizer)と呼ばれる音響手法の動作原理と一般化能力について述べる。 本手法は,放牧および放牧時に発生した顎運動事象の固定長セグメントを解析し,採餌活動量を決定する。 NRFARの付加雑音頑健性は、静止ガウスホワイトノイズと4つの異なる非定常自然ノイズ源を用いて複数の信号対雑音比で評価した。 ノイズのない環境では、NRFARは平均的平衡精度86.4%に達し、以前の2つの音響手法を7.5%以上上回った。 さらに,NRFARは,80例中77例(p<0.05。 NRFARは厳しい放牧環境において有効であることが示されており、牧草管理を改善し、乳牛の健康と福祉をモニタリングするための信頼性の高いソリューションとして使用できる。 本論文で提示された計装と計算アルゴリズムは、特許出願中のar p20220100910によって保護されている。 web demo available at https://sinc.unl.edu.ar/web-demo/nrfar

Farmers must continuously improve their livestock production systems to remain competitive in the growing dairy market. Precision livestock farming technologies provide individualized monitoring of animals on commercial farms, optimizing livestock production. Continuous acoustic monitoring is a widely accepted sensing technique used to estimate the daily rumination and grazing time budget of free-ranging cattle. However, typical environmental and natural noises on pastures noticeably affect the performance limiting the practical application of current acoustic methods. In this study, we present the operating principle and generalization capability of an acoustic method called Noise-Robust Foraging Activity Recognizer (NRFAR). The proposed method determines foraging activity bouts by analyzing fixed-length segments of identified jaw movement events produced during grazing and rumination. The additive noise robustness of the NRFAR was evaluated for several signal-to-noise ratios using stationary Gaussian white noise and four different nonstationary natural noise sources. In noiseless conditions, NRFAR reached an average balanced accuracy of 86.4%, outperforming two previous acoustic methods by more than 7.5%. Furthermore, NRFAR performed better than previous acoustic methods in 77 of 80 evaluated noisy scenarios (53 cases with p<0.05). NRFAR has been shown to be effective in harsh free-ranging environments and could be used as a reliable solution to improve pasture management and monitor the health and welfare of dairy cows. The instrumentation and computational algorithms presented in this publication are protected by a pending patent application: AR P20220100910. Web demo available at: https://sinc.unl.edu.ar/web-demo/nrfar
翻訳日:2023-08-29 23:57:50 公開日:2023-08-28
# 自己監督型シングルフレームと多フレーム深度推定の相互影響の探索

Exploring the Mutual Influence between Self-Supervised Single-Frame and Multi-Frame Depth Estimation ( http://arxiv.org/abs/2304.12685v2 )

ライセンス: Link先を確認
Jie Xiang, Yun Wang, Lifeng An, Haiyang Liu and Jian Liu(参考訳) 自己教師付きシングルフレームとマルチフレーム深度推定のどちらの手法もトレーニングのためにラベル付きモノクロビデオを必要とするが、それらが利用する情報は様々である。 単フレーム法と多フレーム法の相補的な情報を考えると、多フレーム深度を改善するために単フレーム深度を活用しようとする研究もある。 しかし、この手法では、単一フレーム深さと多フレーム深さの違いを生かさず、多フレーム深さを改善したり、複数フレーム深さを最適化したりすることはできない。 シングルフレームとマルチフレームの相互影響をフル活用するために,新しい自己教師型トレーニングフレームワークを提案する。 具体的には,まず,単一フレーム深度に誘導された画素方向適応深度サンプリングモジュールを導入し,マルチフレームモデルを訓練する。 次に, 最小再プロジェクションに基づく蒸留損失を活用し, 知識をマルチフレーム深度ネットワークからシングルフレームネットワークに移し, シングルフレーム深度を改善する。 最後に,改良された単一フレーム深度を,複数フレーム深度推定の性能をさらに向上させる前兆とみなす。 kitti と cityscapes のデータセットにおける実験結果から,本手法は自己教師付き単眼環境における既存手法よりも優れていることが示された。

Although both self-supervised single-frame and multi-frame depth estimation methods only require unlabeled monocular videos for training, the information they leverage varies because single-frame methods mainly rely on appearance-based features while multi-frame methods focus on geometric cues. Considering the complementary information of single-frame and multi-frame methods, some works attempt to leverage single-frame depth to improve multi-frame depth. However, these methods can neither exploit the difference between single-frame depth and multi-frame depth to improve multi-frame depth nor leverage multi-frame depth to optimize single-frame depth models. To fully utilize the mutual influence between single-frame and multi-frame methods, we propose a novel self-supervised training framework. Specifically, we first introduce a pixel-wise adaptive depth sampling module guided by single-frame depth to train the multi-frame model. Then, we leverage the minimum reprojection based distillation loss to transfer the knowledge from the multi-frame depth network to the single-frame network to improve single-frame depth. Finally, we regard the improved single-frame depth as a prior to further boost the performance of multi-frame depth estimation. Experimental results on the KITTI and Cityscapes datasets show that our method outperforms existing approaches in the self-supervised monocular setting.
翻訳日:2023-08-29 23:57:24 公開日:2023-08-28
# ベイズ最適化と自己蒸留

Bayesian Optimization Meets Self-Distillation ( http://arxiv.org/abs/2304.12666v2 )

ライセンス: Link先を確認
HyunJae Lee, Heon Song, Hyeonsoo Lee, Gi-hyeon Lee, Suyeong Park and Donggeun Yoo(参考訳) ベイズ最適化(BO)は、複数のトレーニング試験からの観察に基づいて、約束されるハイパーパラメータ構成を反復的に提案することにより、モデル性能の向上に大きく貢献している。 しかし、前回の試験から得られた部分的な知識(すなわち、トレーニングされたモデルの性能とそのハイパーパラメータ構成)のみを転送する。 一方、自己蒸留(SD)はタスクモデル自体から学んだ部分的知識のみを伝達する。 すべてのトレーニングトライアルから得られた知識をフル活用するために,BOとSDを組み合わせたBOSSフレームワークを提案する。 BOSS は BO を通じて有望なハイパーパラメータ構成を提案し、従来の BO プロセスでは放棄されていた SD の以前の試行から事前訓練されたモデルを慎重に選択する。 BOSSは、一般的な画像分類、ノイズラベルによる学習、半教師付き学習、医療画像解析タスクなど、幅広いタスクにおいてBOとSDの両方よりもはるかに優れたパフォーマンスを実現している。

Bayesian optimization (BO) has contributed greatly to improving model performance by suggesting promising hyperparameter configurations iteratively based on observations from multiple training trials. However, only partial knowledge (i.e., the measured performances of trained models and their hyperparameter configurations) from previous trials is transferred. On the other hand, Self-Distillation (SD) only transfers partial knowledge learned by the task model itself. To fully leverage the various knowledge gained from all training trials, we propose the BOSS framework, which combines BO and SD. BOSS suggests promising hyperparameter configurations through BO and carefully selects pre-trained models from previous trials for SD, which are otherwise abandoned in the conventional BO process. BOSS achieves significantly better performance than both BO and SD in a wide range of tasks including general image classification, learning with noisy labels, semi-supervised learning, and medical image analysis tasks.
翻訳日:2023-08-29 23:56:59 公開日:2023-08-28
# PiClick:クリックベースのインタラクティブセグメンテーションで望ましいマスクを選ぶ

PiClick: Picking the desired mask in click-based interactive segmentation ( http://arxiv.org/abs/2304.11609v3 )

ライセンス: Link先を確認
Cilin Yan, Haochen Wang, Jie Liu, Xiaolong Jiang, Yao Hu, Xu Tang, Guoliang Kang, Efstratios Gavves(参考訳) クリックベースのインタラクティブセグメンテーションは、人間のクリックを通じてターゲットマスクを生成することを目的としている。 このようなタスクでは、ターゲットのあいまいさは、セグメンテーションの精度と効率を妨げる問題である。 つまり、リッチなコンテキストのシーンでは、1クリックで複数の潜在的なターゲットに対応できるが、従来の対話型セグメンタは1つのマスクしか生成せず、ターゲットの曖昧さに対処できない。 そこで本稿では,提案するインタラクティブセグメンテーションネットワークであるpiclickを提案する。 具体的には、piclickはtransformerベースのアーキテクチャを使用して、相互に対話的なマスククエリによってすべてのターゲットマスクを生成する。 さらに、ターゲット推論モジュールはPiClickで設計されており、すべての候補からユーザーが望むマスクを自動的に提案し、ターゲットの曖昧さと外的努力を軽減している。 9つの対話型セグメンテーションデータセットに関する広範な実験は、セグメンテーション結果を考慮して、piclickが以前の最先端技術に対して好成績を示している。 さらに,PiClickは,所望のマスクのアノテートや選択において,人間の努力を効果的に削減することを示す。 PiClickのソースコードをhttps://github.com/cilinyan/PiClickのプラグイン・アンド・プレイアノテーションツールと一緒にリリースします。

Click-based interactive segmentation aims to generate target masks via human clicking, which facilitates efficient pixel-level annotation and image editing. In such a task, target ambiguity remains a problem hindering the accuracy and efficiency of segmentation. That is, in scenes with rich context, one click may correspond to multiple potential targets, while most previous interactive segmentors only generate a single mask and fail to deal with target ambiguity. In this paper, we propose a novel interactive segmentation network named PiClick, to yield all potentially reasonable masks and suggest the most plausible one for the user. Specifically, PiClick utilizes a Transformer-based architecture to generate all potential target masks by mutually interactive mask queries. Moreover, a Target Reasoning module is designed in PiClick to automatically suggest the user-desired mask from all candidates, relieving target ambiguity and extra-human efforts. Extensive experiments on 9 interactive segmentation datasets demonstrate PiClick performs favorably against previous state-of-the-arts considering the segmentation results. Moreover, we show that PiClick effectively reduces human efforts in annotating and picking the desired masks. To ease the usage and inspire future research, we release the source code of PiClick together with a plug-and-play annotation tool at https://github.com/cilinyan/PiClick.
翻訳日:2023-08-29 23:56:43 公開日:2023-08-28
# キャビティ-マグノン-クビット系における量子ビットの2トーン駆動によるマグノンスクイーズ

Magnon squeezing by two-tone driving of a qubit in cavity-magnon-qubit systems ( http://arxiv.org/abs/2304.10760v3 )

ライセンス: Link先を確認
Qi Guo, Jiong Cheng, Huatang Tan, Jie Li(参考訳) ハイブリッドキャビティ-マグノン-量子ビット系におけるマグノン圧縮状態の生成手法を提案する。 このシステムは、磁気双極子相互作用を介してマクロイットリウム-鉄-ガーネット(YIG)球のマグノンモードと同時に結合するマイクロ波空洞と、電気双極子相互作用を介してトランスモン型超伝導量子ビットからなる。 マグノン量子系から遠く離れることで、マイクロ波空洞は断熱的に除去される。 マグノンモードと量子ビットはマイクロ波共振器の仮想光子の仲介によって効果的に結合される。 2つのマイクロ波場で量子ビットを駆動し、駆動周波数と強度を適切に選択することで、マグノニックパラメトリック増幅を実現し、真空ゆらぎ以下のノイズでマグノン二次スクイーズを生じさせることを示した。 我々は,マグノンスクイーズを実現するための最適条件を提案し,現在利用可能なパラメータを用いて適度なスクイーズを得ることができる。 生成したスクイーズ状態は10^{18}$スピン以上を含むマグノンモードであり、従ってマクロ量子状態である。 この研究は、マグノンに基づく量子情報処理と高精度測定、およびマクロ量子状態の研究に有望な応用を見出すことができる。

We propose a scheme for preparing magnon squeezed states in a hybrid cavity-magnon-qubit system. The system consists of a microwave cavity that simultaneously couples to a magnon mode of a macroscopic yttrium-iron-garnet (YIG) sphere via the magnetic-dipole interaction and to a transmon-type superconducting qubit via the electric-dipole interaction. By far detuning from the magnon-qubit system, the microwave cavity is adiabatically eliminated. The magnon mode and the qubit then get effectively coupled via the mediation of virtual photons of the microwave cavity. We show that by driving the qubit with two microwave fields and by appropriately choosing the drive frequencies and strengths, magnonic parametric amplification can be realized, which leads to magnon quadrature squeezing with the noise below vacuum fluctuation. We provide optimal conditions for achieving magnon squeezing, and moderate squeezing can be obtained using currently available parameters. The generated squeezed states are of a magnon mode involving more than $10^{18}$ spins and thus macroscopic quantum states. The work may find promising applications in quantum information processing and high-precision measurements based on magnons and in the study of macroscopic quantum states.
翻訳日:2023-08-29 23:55:31 公開日:2023-08-28
# スリランカ・グルデニヤサービスゾーンにおける配水網の最適設計のための遺伝的アルゴリズムに基づく組合せ最適化

Genetic Algorithm Based Combinatorial Optimization for the Optimal Design of Water Distribution Network of Gurudeniya Service Zone, Sri Lanka ( http://arxiv.org/abs/2304.09720v2 )

ライセンス: Link先を確認
K. H. M. R. N. Senavirathna and C. K. Walgampaya(参考訳) 本稿では,スリランカのグルデニヤサービスゾーンの配水網(wdn)の最適設計に使用する,詳細な遺伝的アルゴリズム(ga)に基づく組合せ最適化手法を提案する。 遺伝的アルゴリズム(GA)は、探索プロセスを開発するのに最も適した自然原理の生存を模倣する。 方法論は管径のファジィな組み合わせを用いて、コスト効率の良い最適設計ソリューションと見なすための適合性をチェックする。 さらに,グローバル最適解に到達するために,GA内部で油圧制約を暗黙的に評価した。 分析すると、このアプローチの結果は満足できる設計結果をもたらしました。 さらに,Honey Bee Mating Optimization (HBMO)アルゴリズムにインスパイアされた以前の研究結果とGAに基づくアプローチの結果との比較により,スリランカのグルデニヤサービスゾーンにおける配水網の最適設計におけるGAの有効性が証明された。

This paper brings an in detail Genetic Algorithm (GA) based combinatorial optimization method used for the optimal design of the water distribution network (WDN) of Gurudeniya Service Zone, Sri Lanka. Genetic Algorithm (GA) mimics the survival of the fittest principle of nature to develop a search process. Methodology employs fuzzy combinations of pipe diameters to check their suitability to be considered as the cost effective optimal design solutions. Furthermore, the hydraulic constraints were implicitly evaluated within the GA itself in its aim to reaching the global optimum solution. Upon analysis, the results of this approach delivered agreeable design outputs. In addition, the comparison made between the results obtained by a previous study inspired by the Honey Bee Mating Optimization (HBMO) Algorithm and results obtained by the GA based approach, proves competency of GA for the optimal design of water distribution network in Gurudeniya Service Zone, Sri Lanka.
翻訳日:2023-08-29 23:54:23 公開日:2023-08-28
# クロスモーダルアダプタを用いた事前学習型言語モデルへの汎用性と効率的な視覚知識統合に向けて

Towards Versatile and Efficient Visual Knowledge Integration into Pre-trained Language Models with Cross-Modal Adapters ( http://arxiv.org/abs/2305.07358v2 )

ライセンス: Link先を確認
Xinyun Zhang, Haochen Tan, Han Wu, Mingjie Zhan, Ding Liang, Bei Yu(参考訳) 人間はマルチモーダル知識を通じて言語を学ぶ。 しかし、テキストのみの事前学習方式のため、既存の事前学習言語モデル(PLM)のほとんどはマルチモーダル情報から妨げられている。 PLMに視覚的知識を注入するために、既存の手法では、視覚言語モデル(VLM)のテキストまたはイメージエンコーダを組み込んで視覚情報を符号化し、知識融合のためにPLMのオリジナルのパラメータをすべて更新する。 本稿では,事前学習したvlmで学習した視覚とテキストの知識を柔軟に活用し,plmに効率的に注入する新しいプラグアンドプレイモジュールであるx-adapterを提案する。 具体的には、PLMにX適応器を挿入し、追加パラメータのみを適応中に更新する。 VLMのポテンシャルをフル活用するために、X-アダプタはV-expertとT-expertの2つのサブモジュールから構成され、それぞれVLMの画像とテキスト表現を融合する。 下流のタスクによって異なるサブモジュールを活性化することも可能です。 実験の結果,plmベースラインと比較して,オブジェクトカラー推論と自然言語理解(nlu)タスクの性能が有意に向上することがわかった。

Humans learn language via multi-modal knowledge. However, due to the text-only pre-training scheme, most existing pre-trained language models (PLMs) are hindered from the multi-modal information. To inject visual knowledge into PLMs, existing methods incorporate either the text or image encoder of vision-language models (VLMs) to encode the visual information and update all the original parameters of PLMs for knowledge fusion. In this paper, we propose a new plug-and-play module, X-adapter, to flexibly leverage the aligned visual and textual knowledge learned in pre-trained VLMs and efficiently inject them into PLMs. Specifically, we insert X-adapters into PLMs, and only the added parameters are updated during adaptation. To fully exploit the potential in VLMs, X-adapters consist of two sub-modules, V-expert and T-expert, to fuse VLMs' image and text representations, respectively. We can opt for activating different sub-modules depending on the downstream tasks. Experimental results show that our method can significantly improve the performance on object-color reasoning and natural language understanding (NLU) tasks compared with PLM baselines.
翻訳日:2023-08-29 23:45:53 公開日:2023-08-28
# SoGAR:自己監督型時空間注意に基づく社会集団活動認識

SoGAR: Self-supervised Spatiotemporal Attention-based Social Group Activity Recognition ( http://arxiv.org/abs/2305.06310v3 )

ライセンス: Link先を確認
Naga VS Raviteja Chappa, Pha Nguyen, Alexander H Nelson, Han-Seok Seo, Xin Li, Page Daniel Dobbs, Khoa Luu(参考訳) 本稿では,未ラベル映像データを効果的に活用できる自己教師型トランスフォーマーネットワークを用いた社会集団活動認識(SoGAR)への新たなアプローチを提案する。 時空間情報を抽出するために,フレームレートの異なる局所的およびグローバル的ビューを作成した。 我々の自己監督的目的は、同じビデオのコントラストビューから抽出された特徴が時空間で一定であることを保証する。 提案手法はトランスフォーマーベースのエンコーダを用いてグループアクティビティ認識の弱教師付き設定を緩和する。 トランスモデルの利点を活用することで,時空間次元に沿って長期的関係をモデル化することができる。 提案手法は,JRDB-PAR,NBA,Volleyballの3つのグループ活動認識ベンチマークにおいて,F1スコア,MCA,MPCAの3指標を上回り,最先端の成果を得た。

This paper introduces a novel approach to Social Group Activity Recognition (SoGAR) using Self-supervised Transformers network that can effectively utilize unlabeled video data. To extract spatio-temporal information, we created local and global views with varying frame rates. Our self-supervised objective ensures that features extracted from contrasting views of the same video were consistent across spatio-temporal domains. Our proposed approach is efficient in using transformer-based encoders to alleviate the weakly supervised setting of group activity recognition. By leveraging the benefits of transformer models, our approach can model long-term relationships along spatio-temporal dimensions. Our proposed SoGAR method achieved state-of-the-art results on three group activity recognition benchmarks, namely JRDB-PAR, NBA, and Volleyball datasets, surpassing the current numbers in terms of F1-score, MCA, and MPCA metrics.
翻訳日:2023-08-29 23:44:56 公開日:2023-08-28
# 変分量子固有解法のためのモジュラークラスタ回路

Modular Cluster Circuits for the Variational Quantum Eigensolver ( http://arxiv.org/abs/2305.04425v3 )

ライセンス: Link先を確認
Seyed Ehsan Ghasempouri and Gerhard W. Dueck and Stijn De Baerdemacker(参考訳) 変分量子固有ソルバ(vqe)アルゴリズムは、ノイズの多い中間スケール量子(nisq)デバイス上で分子の量子化学的性質を計算する一般的な方法となった。 回路内のNISQ装置からのノイズ蓄積を避けるため、回路のいわゆる量子深さを最小に保ち、連続的に操作する必要がある最小数の量子ゲートとして定義することが重要である。 本研究では,従来提案していた化学精度を損なうことなく,深層量子回路の設計を可能にするモジュール型2量子ビットクラスタ回路を提案する。 また、クラスタ回路の簡素化により、クラスタ回路に原子価結合化学解釈を割り当てることができる。 設計はh2、(h2)2、lih分子、および有限サイズの横磁場イジングモデルで試験され、後者は共鳴原子価結合図における回路構築に関するさらなる洞察を提供する。

The variational quantum eigensolver (VQE) algorithm recently became a popular method to compute quantum chemical properties of molecules on noisy intermediate scale quantum (NISQ) devices. In order to avoid noise accumulation from the NISQ device in the circuit, it is important to keep the so-called quantum depth of the circuit at a minimum, defined as the minimum number of quantum gates that need to be operated sequentially. In the present work, we introduce a modular 2-qubit cluster circuit that allows for the design of a shallow-depth quantum circuit compared to previously proposed architectures without loss of chemical accuracy. Moreover, by virtue of the simplicity of the cluster circuit, it is possible to assign a valence bond chemical interpretation to the cluster circuit. The design was tested on the H2, (H2)2 and LiH molecules, as well as the finite-size transverse-field Ising model, as the latter provides additional insights in the construction of the circuit in a resonating valence bond picture.
翻訳日:2023-08-29 23:44:23 公開日:2023-08-28
# コールド原子量子メモリにおける暗黒状態ポラリトン崩壊の抑制

Suppression of dark-state polariton collapses in cold-atom quantum memory ( http://arxiv.org/abs/2305.03692v2 )

ライセンス: Link先を確認
Katja Gosar, Vesna Pirc Jev\v{s}enak, Tadej Me\v{z}nar\v{s}i\v{c}, Samo Begu\v{s}, Tomasz Krehlik, Du\v{s}an Ponikvar, Erik Zupani\v{c}, and Peter Jegli\v{c}(参考訳) 我々は、磁場中の冷セシウム原子の雲上の電磁誘起透過性に基づく量子記憶における暗黒状態のポラリトン崩壊と再生を観測する。 磁場方向の偏光信号と制御ビームを用いて、伸長したゼーマン状態の1つに原子を偏光させ、制御ビームの周波数減衰を最適化することにより、暗い状態の偏光子崩壊を抑制する。 このようにして、部分的なダークステート・ポラリトン崩壊しか持たない量子メモリを実証し、メモリを任意の記憶時間で使用可能にする。 保存時間は400$\rm{\mu}$s以上で、磁場を放出することで達成できるよりも10倍長い。

We observe dark-state polariton collapses and revivals in a quantum memory based on electromagnetically induced transparency on a cloud of cold cesium atoms in a magnetic field. Using $\sigma^+$ polarized signal and control beams in the direction of the magnetic field, we suppress the dark-state polariton collapses by polarizing the atoms towards one of the stretched Zeeman states and optimizing the frequency detuning of the control beam. In this way, we demonstrate a quantum memory with only partial dark-state polariton collapses, making the memory usable at any storage time, not only at discretized times of revivals. We obtain storage time of more than 400 $\rm{\mu}$s, which is ten times longer than what we can achieve by trying to annul the magnetic field.
翻訳日:2023-08-29 23:44:06 公開日:2023-08-28
# 遅延・複合・部分匿名報酬による強化学習

Reinforcement Learning with Delayed, Composite, and Partially Anonymous Reward ( http://arxiv.org/abs/2305.02527v2 )

ライセンス: Link先を確認
Washim Uddin Mondal and Vaneet Aggarwal(参考訳) 無限水平平均報酬マルコフ決定過程 (MDP) を, 遅延, 複合, 部分的に匿名の報酬フィードバックを用いて検討した。 報酬の遅れと複合性は、与えられた状態におけるアクションの結果として生じる報酬が、異なるコンポーネントに断片化され、遅延した時間インスタンスで順次実現されることを意味する。 部分匿名属性は、学習者が各状態に対して、その状態において異なるアクションによって生成された過去の報酬成分の集合のみを観察するが、観察インスタンスで実現されることを意味する。 提案するアルゴリズムは$\mathrm{DUCRL2}$と名づけられたアルゴリズムで、この設定に最適に近いポリシーを得られることを示し、$\tilde{\mathcal{O}}\left(DS\sqrt{AT} + d (SA)^3\right)$で、$S$と$A$は状態と行動空間のサイズであり、$D$はMDPの直径、$d$は最大報酬遅延によって上限付けられたパラメータであり、$T$は時間地平線を表す。 これは、バウンドが$t$の順に最適であることと遅延の付加的な影響を示している。

We investigate an infinite-horizon average reward Markov Decision Process (MDP) with delayed, composite, and partially anonymous reward feedback. The delay and compositeness of rewards mean that rewards generated as a result of taking an action at a given state are fragmented into different components, and they are sequentially realized at delayed time instances. The partial anonymity attribute implies that a learner, for each state, only observes the aggregate of past reward components generated as a result of different actions taken at that state, but realized at the observation instance. We propose an algorithm named $\mathrm{DUCRL2}$ to obtain a near-optimal policy for this setting and show that it achieves a regret bound of $\tilde{\mathcal{O}}\left(DS\sqrt{AT} + d (SA)^3\right)$ where $S$ and $A$ are the sizes of the state and action spaces, respectively, $D$ is the diameter of the MDP, $d$ is a parameter upper bounded by the maximum reward delay, and $T$ denotes the time horizon. This demonstrates the optimality of the bound in the order of $T$, and an additive impact of the delay.
翻訳日:2023-08-29 23:43:52 公開日:2023-08-28
# 地図に基づく体験リプレイ:強化学習における破滅的蓄積に対する記憶効率の良い解決法

Map-based Experience Replay: A Memory-Efficient Solution to Catastrophic Forgetting in Reinforcement Learning ( http://arxiv.org/abs/2305.02054v2 )

ライセンス: Link先を確認
Muhammad Burhan Hafez, Tilman Immisch, Tom Weber, Stefan Wermter(参考訳) 深層強化学習エージェントは、新しいデータをトレーニングするとき、入力空間の一部で以前に見つかったソリューションを忘れ、壊滅的な忘れに苦しむことが多い。 Replay Memoriesはこの問題の一般的な解決策であり、古いトレーニングサンプルと新しいトレーニングサンプルを関連付け、シャッフルする。 冗長性を考慮せずに、入ってくる状態遷移を生かして保存する。 本稿では,世界地図ベースの心的モデルに類似したgwr自己組織化ネットワークに基づく,新しい認知的インスパイアされたリプレイメモリアプローチを提案する。 本手法では,ステートノードとトランジッションエッジの簡潔な環境モデルライクなネットワークにストアドトランジションを整理し,類似したサンプルをマージすることでメモリサイズを削減し,サンプル間のペアワイズ距離を増加させ,各サンプルの関連性を高める。 全体的に、マップベースのエクスペリエンスリプレイにより、少ないパフォーマンスで大幅にメモリ削減が可能となることを示した。

Deep Reinforcement Learning agents often suffer from catastrophic forgetting, forgetting previously found solutions in parts of the input space when training on new data. Replay Memories are a common solution to the problem, decorrelating and shuffling old and new training samples. They naively store state transitions as they come in, without regard for redundancy. We introduce a novel cognitive-inspired replay memory approach based on the Grow-When-Required (GWR) self-organizing network, which resembles a map-based mental model of the world. Our approach organizes stored transitions into a concise environment-model-like network of state-nodes and transition-edges, merging similar samples to reduce the memory size and increase pair-wise distance among samples, which increases the relevancy of each sample. Overall, our paper shows that map-based experience replay allows for significant memory reduction with only small performance decreases.
翻訳日:2023-08-29 23:43:23 公開日:2023-08-28
# 神経科学のレンズによる人工意識の実現可能性

The feasibility of artificial consciousness through the lens of neuroscience ( http://arxiv.org/abs/2306.00915v3 )

ライセンス: Link先を確認
Jaan Aru, Matthew Larkum, James M. Shine(参考訳) 大きな言語モデルとの相互作用は、これらのモデルがすぐに意識されるかもしれないという提案につながっている。 神経科学の観点からすると、この立場は防御が難しい。 ひとつは、大きな言語モデルへの入力には、私たちの周りの世界との感覚的接触の特徴を具現化した組み込み情報コンテンツが欠けていることです。 第二に、大きな言語モデルのアーキテクチャは、哺乳類の意識的意識と関連づけられた視床皮質系の重要な特徴を欠いている。 最後に、生物の出現に繋がる進化的・発達的軌道は、今日想定されているように、人工システムに並列性はない。 生物の存在は、その行動に依存し、その生存は多段階の細胞、細胞間、生物のプロセスと複雑に結びついている。

Interactions with large language models have led to the suggestion that these models may soon be conscious. From the perspective of neuroscience, this position is difficult to defend. For one, the inputs to large language models lack the embodied, embedded information content characteristic of our sensory contact with the world around us. Secondly, the architecture of large language models is missing key features of the thalamocortical system that have been linked to conscious awareness in mammals. Finally, the evolutionary and developmental trajectories that led to the emergence of living conscious organisms arguably have no parallels in artificial systems as envisioned today. The existence of living organisms depends on their actions, and their survival is intricately linked to multi-level cellular, inter-cellular, and organismal processes culminating in agency and consciousness.
翻訳日:2023-08-29 23:37:26 公開日:2023-08-28
# SimFBO: シンプルでフレキシブルでコミュニケーション効率の良い双方向学習を目指して

SimFBO: Towards Simple, Flexible and Communication-efficient Federated Bilevel Learning ( http://arxiv.org/abs/2305.19442v4 )

ライセンス: Link先を確認
Yifan Yang, Peiyao Xiao and Kaiyi Ji(参考訳) fbo(federated bilevel optimization)は、メタラーニングや微調整、ハイパーパラメータチューニングといった新たなネスト最適化構造によって、マシンラーニングやエッジコンピューティングにおいて、近年大きな可能性を秘めている。 しかし、既存のFBOアルゴリズムは複雑な計算を伴い、1イテレーションごとに複数のサブループが必要であり、それぞれが複数の通信ラウンドを含む。 本稿では,サブループなしで実装が容易で,汎用的なサーバ側アグリゲーションと通信効率向上のための更新を含む,シンプルで柔軟なFBOフレームワークSimFBOを提案する。 さらに,不均一局所計算に対する強いレジリエンスを持つSimFBOの変種として,システムレベルの不均質FBO(ShroFBO)を提案する。 我々は,SimFBO と ShroFBO がリニアコンバージェンス・スピードアップを実現し,部分的なクライアント参加とクライアントサンプリングを置き換えることなく実現し,サンプルと通信の複雑さを改善したことを示す。 実験は既存のfboアルゴリズムに対する提案手法の有効性を実証する。

Federated bilevel optimization (FBO) has shown great potential recently in machine learning and edge computing due to the emerging nested optimization structure in meta-learning, fine-tuning, hyperparameter tuning, etc. However, existing FBO algorithms often involve complicated computations and require multiple sub-loops per iteration, each of which contains a number of communication rounds. In this paper, we propose a simple and flexible FBO framework named SimFBO, which is easy to implement without sub-loops, and includes a generalized server-side aggregation and update for improving communication efficiency. We further propose System-level heterogeneity robust FBO (ShroFBO) as a variant of SimFBO with stronger resilience to heterogeneous local computation. We show that SimFBO and ShroFBO provably achieve a linear convergence speedup with partial client participation and client sampling without replacement, as well as improved sample and communication complexities. Experiments demonstrate the effectiveness of the proposed methods over existing FBO algorithms.
翻訳日:2023-08-29 23:37:15 公開日:2023-08-28
# 対向フェアネス --フェアネス評価におけるグループ間の系統的差異に対処する

Counterpart Fairness -- Addressing Systematic between-group Differences in Fairness Evaluation ( http://arxiv.org/abs/2305.18160v2 )

ライセンス: Link先を確認
Yifei Wang, Zhengyang Zhou, Liqin Wang, John Laurentiev, Peter Hou, Li Zhou, Pengyu Hong(参考訳) 機械学習(ml)を使用して意思決定を支援する場合、アルゴリズムによる決定が公平であることを保証することが重要である。 既存のグループフェアネス法は、同じグループ単位の測度を必要とするが、体系的なグループ間差を考慮できない。 非感受性変数であるが系統的差異を呈する結合因子はフェアネス評価に有意な影響を及ぼす。 この問題に取り組むためには,集団の同一性が結合要因を探索することによってアルゴリズム的に識別できない異なるグループから,相互に類似する個人(すなわち興味のあるタスクに関して互いに類似する個人)の比較に基づいて公平性測定を行うべきであると考える。 本手法は,「オレンジ」と「アプルズ」を比較することによるフェアネス評価の防止を目的としている。 さらに,MLモデルの妥当性を評価するために,CFair(Counterpart-Fairness)と呼ばれる統計的公正度指数を提案する。 CFairの有効性を検証するために様々な実験を行った。 コードは \url{https://github.com/zhengyjo/cfair} で公開します。

When using machine learning (ML) to aid decision-making, it is critical to ensure that an algorithmic decision is fair, i.e., it does not discriminate against specific individuals/groups, particularly those from underprivileged populations. Existing group fairness methods require equal group-wise measures, which however fails to consider systematic between-group differences. The confounding factors, which are non-sensitive variables but manifest systematic differences, can significantly affect fairness evaluation. To tackle this problem, we believe that a fairness measurement should be based on the comparison between counterparts (i.e., individuals who are similar to each other with respect to the task of interest) from different groups, whose group identities cannot be distinguished algorithmically by exploring confounding factors. We have developed a propensity-score-based method for identifying counterparts, which prevents fairness evaluation from comparing "oranges" with "apples". In addition, we propose a counterpart-based statistical fairness index, termed Counterpart-Fairness (CFair), to assess fairness of ML models. Various empirical studies were conducted to validate the effectiveness of CFair. We publish our code at \url{https://github.com/zhengyjo/CFair}.
翻訳日:2023-08-29 23:36:10 公開日:2023-08-28
# 選挙結果に対する政治的教義の影響--安倍氏暗殺事件

The Effects of Political Martyrdom on Election Results: The Assassination of Abe ( http://arxiv.org/abs/2305.18004v2 )

ライセンス: Link先を確認
Miu Nicole Takagi(参考訳) 先進国では暗殺は稀であり、そのような行為が選挙や政治の状況に与える影響は未定である。 本稿では,2022年の衆議院議員選挙における前首相暗殺の影響を調べるため,twitterのデータに注目した。 感情分析と感情検出を,200万以上のツイートのトピックモデリングと合わせて,過去の選挙期間中のツイートと比較する。 われわれの調査結果は、Twitterの感情が短期的な出来事に負の影響を受けており、ソーシャルメディアの注目が減っていることを示唆している。 また、「ネクロポリス」が故人党に有利な選挙結果にどのように影響したかについても検討した。

In developed nations assassinations are rare and thus the impact of such acts on the electoral and political landscape is understudied. In this paper, we focus on Twitter data to examine the effects of Japan's former Primer Minister Abe's assassination on the Japanese House of Councillors elections in 2022. We utilize sentiment analysis and emotion detection together with topic modeling on over 2 million tweets and compare them against tweets during previous election cycles. Our findings indicate that Twitter sentiments were negatively impacted by the event in the short term and that social media attention span has shortened. We also discuss how "necropolitics" affected the outcome of the elections in favor of the deceased's party meaning that there seems to have been an effect of Abe's death on the election outcome though the findings warrant further investigation for conclusive results.
翻訳日:2023-08-29 23:35:50 公開日:2023-08-28
# Open-QA評価の評価

Evaluating Open-QA Evaluation ( http://arxiv.org/abs/2305.12421v3 )

ライセンス: Link先を確認
Cunxiang Wang, Sirui Cheng, Qipeng Guo, Zhikun Xu, Bowen Ding, Yidong Wang, Xiangkun Hu, Zheng Zhang, Yue Zhang(参考訳) 本研究では,大規模言語モデル (LLM) の事実性を直接推定できるオープン質問回答 (Open QA) タスクの評価に焦点をあてる。 現在の自動評価手法は限界を示しており、人間の評価が依然として最も信頼できるアプローチであることを示している。 オープンQA内の標準回答に関連するAI生成回答の精度を評価するために,新たなタスクであるQA評価(QA-Eval)とそれに対応するデータセットEVOUNAを導入する。 提案手法の評価は,その性能測定にヒューマンアノテート結果を利用する。 具体的には,人間評価と高い相関を示す手法について検討し,その信頼性について検討した。 また,LLMに基づく評価手法の改良に向け,現在の手法と手法の落とし穴についても論じる。 この新たなQA-Evalタスクとそれに対応するデータセットEVOUNAは、より効果的な自動評価ツールの開発を促進し、この分野における今後の研究に有用であることを示す。 すべてのリソースは \url{https://github.com/wangcunxiang/QA-Eval} で入手できる。

This study focuses on the evaluation of the Open Question Answering (Open-QA) task, which can directly estimate the factuality of large language models (LLMs). Current automatic evaluation methods have shown limitations, indicating that human evaluation still remains the most reliable approach. We introduce a new task, Evaluating QA Evaluation (QA-Eval) and the corresponding dataset EVOUNA, designed to assess the accuracy of AI-generated answers in relation to standard answers within Open-QA. Our evaluation of these methods utilizes human-annotated results to measure their performance. Specifically, the work investigates methods that show high correlation with human evaluations, deeming them more reliable. We also discuss the pitfalls of current methods and methods to improve LLM-based evaluators. We believe this new QA-Eval task and corresponding dataset EVOUNA will facilitate the development of more effective automatic evaluation tools and prove valuable for future research in this area. All resources are available at \url{https://github.com/wangcunxiang/QA-Eval} and it is under the Apache-2.0 License.
翻訳日:2023-08-29 23:34:21 公開日:2023-08-28
# メジャー化に基づく資源理論の概観--量子情報と量子熱力学

A Compendious Review of Majorization-Based Resource Theories: Quantum Information and Quantum Thermodynamics ( http://arxiv.org/abs/2306.11513v2 )

ライセンス: Link先を確認
G\"okhan Torun, Onur Pusuluk, \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 量子資源理論(QRT)の分野は、従来の統計処理によって課される境界を越えて、小さく強い相関の強い量子系を調べるための重要な枠組みとして登場した。 一般的なQRTの基本的な目的は、実験者に達成可能な制御レベルを正確に定量化することで、これらのシステムを特徴づけることである。 本稿では,QRTに関する広範な文献について概説することを避けた。 むしろ、我々の焦点は、偏化理論に基づく特定のサブ文学に焦点を当てている。 主な目的は、多種多様な技術応用にまたがる真の量子現象の理解を深め、複数の種類の資源を含む新しい資源理論を探求することである。 その結果, 2成分量子エンタングルメント, 量子コヒーレンス, 重ね合わせなど, 情報的, 熱的, 一般非平衡的資源と並んで, 様々な資源が共有する基礎となる類似性を強調した。

The field of quantum resource theory (QRT) has emerged as an invaluable framework for the examination of small and strongly correlated quantum systems, surpassing the boundaries imposed by traditional statistical treatments. The fundamental objective of general QRTs is to characterize these systems by precisely quantifying the level of control attainable to an experimenter. In this review article, we refrain from providing an exhaustive summary of the extensive literature on QRT. Rather, our focus centers on a specific sub-literature founded upon the theory of majorization. The primary aim is to augment our comprehension of genuine quantum phenomena manifested across diverse technological applications and incite investigations into novel resource theories encompassing multiple types of resources. Consequently, we emphasize the underlying similarities shared by various resources, including bipartite quantum entanglement, quantum coherence, and superposition, alongside informational, thermal, and generalized nonequilibrium resources.
翻訳日:2023-08-29 23:27:08 公開日:2023-08-28
# 大規模言語モデルはred herringsによって固定される: 唯一のconnect wallデータセットを用いた創造的問題解決とeinstellung効果の探求

Large Language Models are Fixated by Red Herrings: Exploring Creative Problem Solving and Einstellung Effect using the Only Connect Wall Dataset ( http://arxiv.org/abs/2306.11167v2 )

ライセンス: Link先を確認
Saeid Naeini, Raeid Saqur, Mozhgan Saeidi, John Giorgi and Babak Taati(参考訳) 人間の模倣AIの探求は、その誕生以来、AI研究において永続的な話題となっている。 大規模言語モデル(llm)の最新コホートの技術的進化と新しい能力は、学界を超えて文化的な風刺家へと主題を復活させた。 最近のnlp評価ベンチマークタスクは、人間の模倣行動のいくつかの側面(例えば、big-benchの"human-like behavior"タスク)をテストするが、創造的な問題解決能力を調べることは少ない。 人間の創造的問題解決は認知神経科学においてよく研究されているトピックであり、主に創造性の指標として手がかり語間の(ヘテロジェンスな)接続を関連付ける能力を使用する標準化されたテストがある。 誤解を招く刺激(レッド・ハーリングと呼ばれる邪魔者)への露出は、固定効果やアインシュタインパラダイムを通じて人間のパフォーマンスを阻害する。 認知神経科学研究において、そのような固定は実験参加者によって実験的に誘導される。 イギリスの人気クイズ番組「Not only Connect's Connecting Wall segment」は、基本的にはメドニックのリモートアソシエイツテスト(RAT)の定式化を、組み込みの故意のレッドハーリングで模倣している。 本稿では,未学習言語モデルとLLMの評価から,未知の単語をヘテロジニアスな接続でグループ化し,各グループにおける正しいオープンな知識領域接続を同定するといった,創造的な問題解決課題について,その成果を報告する。 ocw-randomized, ocw-wordnetという2つのデータセットを合成して生成し、言語モデルにおけるred-herrings仮説をさらに分析しました。 データセットのコードとリンクはhttps://github.com/TaatiTeam/OCW.comで公開されている。

The quest for human imitative AI has been an enduring topic in AI research since its inception. The technical evolution and emerging capabilities of the latest cohort of large language models (LLMs) have reinvigorated the subject beyond academia to the cultural zeitgeist. While recent NLP evaluation benchmark tasks test some aspects of human-imitative behaviour (e.g., BIG-bench's 'human-like behavior' tasks), few, if not none, examine creative problem solving abilities. Creative problem solving in humans is a well-studied topic in cognitive neuroscience with standardized tests that predominantly use the ability to associate (heterogeneous) connections among clue words as a metric for creativity. Exposure to misleading stimuli - distractors dubbed red herrings - impede human performance in such tasks via the fixation effect and Einstellung paradigm. In cognitive neuroscience studies, such fixations are experimentally induced by pre-exposing participants to orthographically similar incorrect words to subsequent word-fragments or clues. The popular British quiz show Only Connect's Connecting Wall segment essentially mimics Mednick's Remote Associates Test (RAT) formulation with built-in, deliberate red herrings, which makes it an ideal proxy dataset to explore and study fixation effect and Einstellung paradigm from cognitive neuroscience in LLMs. In this paper we present the novel Only Connect Wall (OCW) dataset and report results from our evaluation of selected pre-trained language models and LLMs on creative problem solving tasks like grouping clue words by heterogeneous connections, and identifying correct open knowledge domain connections in respective groups. We synthetically generate two additional datasets: OCW-Randomized, OCW-WordNet to further analyze our red-herrings hypothesis in language models. The code and link to the dataset are available at https://github.com/TaatiTeam/OCW.
翻訳日:2023-08-29 23:26:49 公開日:2023-08-28
# ブラックホール内部再構成の理論依存性と拡張強添加性

Theory dependence of black hole interior reconstruction and the extended strong subadditivity ( http://arxiv.org/abs/2306.10801v3 )

ライセンス: Link先を確認
Sitender Pratap Kashyap, Roji Pius, Manish Ramchander(参考訳) 有限温度浴との平衡におけるads永遠ブラックホールは、浴との連続的な放射線交換によるホーキングのような情報パラドックスを示す。 非摂動的重力効果であるレプリカワームホールは、ページタイム後に浴槽に非自明な絡み合いウェッジを導入することでこのパラドックスを解決している。 本稿では, バルク物質場の境界条件をランダム化することにより, この非摂動効果の理論依存性を解析する。 我々は、分布から引き出されたAdS境界におけるランダム境界条件を持つAdS領域に物質CFTを導入することにより、JT重力下でこれを明示的に解析する。 カーレンとリーブによる島式と拡張された強い部分付加性を用いて、最近、ブラックホールの内部は、ランダム境界条件に関する情報をエンコードする基準ヒルベルト空間の絡み合いのくさびの中に含まれていることが示される。 したがって、ブラックホール内部の放射、特に特異点に近い領域からの再構成には、理論の詳細な知識が必要である。

An AdS eternal black hole in equilibrium with a finite temperature bath presents a Hawking-like information paradox due to a continuous exchange of radiation with the bath. The non-perturbative gravitational effect, the replica wormhole, cures this paradox by introducing a non-trivial entanglement wedge for the bath after Page time. In this paper, we analyse the theory dependence of this non-perturbative effect by randomising the boundary conditions of some of the bulk matter fields. We explicitly analyse this in JT gravity by introducing a matter CFT in the AdS region with random boundary conditions at the AdS boundary that are drawn from a distribution. Using the island formula and the extended strong subadditivity due to Carlen and Lieb, we show that at late times the black hole interior is contained inside the entanglement wedge of a reference Hilbert space that encodes the information about the random boundary conditions. Consequently, the reconstruction of the black hole interior from the radiation, in particular the region near the singularity, requires a detailed knowledge of the theory.
翻訳日:2023-08-29 23:26:13 公開日:2023-08-28
# 二重機械学習推定器の速度二重燃焼度推定リーンファルシフィケーション試験

Assumption-lean falsification tests of rate double-robustness of double-machine-learning estimators ( http://arxiv.org/abs/2306.10590v4 )

ライセンス: Link先を確認
Lin Liu and Rajarshi Mukherjee and James M. Robins(参考訳) Rotnitzky et al. (2021) によって研究された二重ロバスト(DR)関数のクラスは、経済学と生物統計学において中心的な重要性を持つ。 厳密には両方を含む。 i) チャーノズフコフら(2022b)によって研究された条件付き期待条件のアフィン汎函数の予想として記述できる平均二乗連続汎函数のクラス (ii) Robins et al. (2008) によって研究された汎函数のクラス。 現在、DR関数の最先端推定器$\psi$はダブルマシンラーニング(DML)推定器である(Chernozhukov et al., 2018)。 DML 推定器 $\widehat{\psi}_{1}$ of $\psi$ は、推定値 $\widehat{p} (x)$ と $\widehat{b} (x)$ の2つのニュアンス関数 $p(x)$ と $b(x)$ に依存する。 達成可能ならば、我々の科学的目標は、$\widehat{\psi}_{1}$を中心として、名目$(1 - \alpha)$ Wald confidence interval (CI)の妥当性の、有効な仮定リーン(すなわち、$b$または$p$の複雑性を減少させる仮定)を構築することであった。 しかし、これはバイアスのテストが$o (n^{-1/2})$でなければならず、それは存在しないことを示すことができる。 したがって、可能であればアナリストが報告された$(1 - \alpha)$ wald ci が有効であるという主張を正当化するという野心的でない目標を採用する。 多くの場合、アナリストは複雑性を減少させる仮定を$b$と$p$に課すことで、彼女の主張を正当化する。 ここでは、H_{0}$: "rate double-robustness hold" の仮定型テストが有効で、ある代替品に対して自明なパワーを持つことを示す。 もし$H_{0}$が却下されたら、彼女の正当化を偽造する。 しかし、我々のものを含め、$H_{0}$の仮定リーンテストは、一貫したテストではあり得ない。 したがって、テストの拒絶の失敗は$h_{0}$に有利な意味のある証拠ではない。

The class of doubly-robust (DR) functionals studied by Rotnitzky et al. (2021) is of central importance in economics and biostatistics. It strictly includes both (i) the class of mean-square continuous functionals that can be written as an expectation of an affine functional of a conditional expectation studied by Chernozhukov et al. (2022b) and (ii) the class of functionals studied by Robins et al. (2008). The present state-of-the-art estimators for DR functionals $\psi$ are double-machine-learning (DML) estimators (Chernozhukov et al., 2018). A DML estimator $\widehat{\psi}_{1}$ of $\psi$ depends on estimates $\widehat{p} (x)$ and $\widehat{b} (x)$ of a pair of nuisance functions $p(x)$ and $b(x)$, and is said to satisfy "rate double-robustness" if the Cauchy--Schwarz upper bound of its bias is $o (n^{- 1/2})$. Were it achievable, our scientific goal would have been to construct valid, assumption-lean (i.e. no complexity-reducing assumptions on $b$ or $p$) tests of the validity of a nominal $(1 - \alpha)$ Wald confidence interval (CI) centered at $\widehat{\psi}_{1}$. But this would require a test of the bias to be $o (n^{-1/2})$, which can be shown not to exist. We therefore adopt the less ambitious goal of falsifying, when possible, an analyst's justification for her claim that the reported $(1 - \alpha)$ Wald CI is valid. In many instances, an analyst justifies her claim by imposing complexity-reducing assumptions on $b$ and $p$ to ensure "rate double-robustness". Here we exhibit valid, assumption-lean tests of $H_{0}$: "rate double-robustness holds", with non-trivial power against certain alternatives. If $H_{0}$ is rejected, we will have falsified her justification. However, no assumption-lean test of $H_{0}$, including ours, can be a consistent test. Thus, the failure of our test to reject is not meaningful evidence in favor of $H_{0}$.
翻訳日:2023-08-29 23:25:56 公開日:2023-08-28
# Memristive Synapse を用いた多重ステップ量子化トリプルトSTDP

Multiple-Step Quantized Triplet STDP Implemented with Memristive Synapse ( http://arxiv.org/abs/2306.07712v2 )

ライセンス: Link先を確認
Y. Liu, D. Wang, Z. Dong, and W. Zhao(参考訳) ペアワイズスパイクタイピング依存性可塑性(STDP)学習規則の拡張として、3重項STDPは、生体神経細胞のシナプス変化を特徴づける能力をより高めている。 本研究は,マルチステップ量子化三重項回路STDP(Multi-step Quantized Triplet STDP)とよばれる新しい混合信号回路方式を設計し,コアクティベーション三重項学習規則の正確かつ柔軟な実装を実現する。 パルス幅符号化重み変調信号の利用により回路のロバスト性が大幅に向上した。 回路性能は,MATLAB Simulink & Simscapeで実施したシミュレーションを用いて検討し,回路結果とアルゴリズム的アプローチを比較して評価を行う。

As an extension of the pairwise spike-timing-dependent plasticity (STDP) learning rule, the triplet STDP is provided with greater capability in characterizing the synaptic changes in the biological neural cell. In this work, a novel mixed-signal circuit scheme, called multiple-step quantized triplet STDP, is designed to provide a precise and flexible implementation of coactivation triplet STDP learning rule in memristive synapse spiking neural network. The robustness of the circuit is greatly improved through the utilization of pulse-width encoded weight modulation signals. The circuit performance is studied through the simulations which are carried out in MATLAB Simulink & Simscape, and assessment is given by comparing the results of circuits with the algorithmic approaches.
翻訳日:2023-08-29 23:24:32 公開日:2023-08-28
# 超強結合超伝導量子回路における仮想光子の集積変換と光検出

Integrated conversion and photodetection of virtual photons in an ultrastrongly coupled superconducting quantum circuit ( http://arxiv.org/abs/2306.05200v2 )

ライセンス: Link先を確認
Luigi Giannelli, Giorgio Anfuso, Miroslav Grajcar, Gheorghe Sorin Paraoanu, Elisabetta Paladino, and Giuseppe Falci(参考訳) 量子化モードに超強結合した人工原子の基底状態は絡み合っており、任意の数の仮想光子を含む。 彼らの発見の問題は、フィールドの誕生以来提起されてきたが、理論的な努力にもかかわらず、まだ実験的なデモンストレーションを待っている。 近年, 人工原子の非従来型設計と高度なコヒーレント制御を組み合わせることで, 克服可能であることを示す実験的問題に対処している。 本研究では,最先端の量子技術で仮想光子の非あいまいな検出を実現することができることを示す,測定効率とバックアクションのトレードオフを著しく好む制御統合連続計測の簡単なスキームについて検討する。

The ground-state of an artificial atom ultrastrongly coupled to quantized modes is entangled and contains an arbitrary number of virtual photons. The problem of their detection has been raised since the very birth of the field but despite the theoretical efforts still awaits experimental demonstration. Recently experimental problems have been addressed in detail showing that they can be overcome by combining an unconventional design of the artificial atom with advanced coherent control. In this work we study a simple scheme of control-integrated continuous measurement which makes remarkably favourable the tradeoff between measurement efficiency and backaction showing that the unambiguous detection of virtual photons can be achieved within state-of-the art quantum technologies.
翻訳日:2023-08-29 23:23:56 公開日:2023-08-28
# 大規模言語モデルの評価に関する調査

A Survey on Evaluation of Large Language Models ( http://arxiv.org/abs/2307.03109v7 )

ライセンス: Link先を確認
Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Linyi Yang, Kaijie Zhu, Hao Chen, Xiaoyuan Yi, Cunxiang Wang, Yidong Wang, Wei Ye, Yue Zhang, Yi Chang, Philip S. Yu, Qiang Yang, Xing Xie(参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションにおける前例のない性能のため、学術と産業の両方で人気が高まっている。 LLMは研究と日常利用の両方において重要な役割を担い続けており、その評価はタスクレベルだけでなく社会レベルでもますます重要になり、潜在的なリスクの理解を深めている。 過去数年間、様々な観点からLSMを調べるための重要な努力が続けられてきた。 本稿では, これらのLCMの評価手法を総合的に検討し, 評価方法, 評価方法, 評価方法の3つの重要な側面に着目した。 まず,一般的な自然言語処理タスク,推論,医療利用,倫理,教育,自然科学,社会科学,エージェント応用など,評価タスクの観点から概観する。 第2に,LLMの性能評価において重要な要素である評価手法とベンチマークに飛び乗ることで,'where' と 'how' の質問に答える。 次に、異なるタスクにおけるLCMの成功事例と失敗事例を要約する。 最後に、llms評価の先にあるいくつかの将来の課題に光を当てた。 我々の目的は、LLMの評価の領域における研究者に貴重な洞察を提供することであり、それによってより熟練したLLMの開発を支援することである。 我々のキーポイントは、LCMの開発を支援するために、評価を必須の規律として扱うべきであるということです。 関連したオープンソース資料は、https://github.com/mlgroupjlu/llm-eval-surveyで一貫して保守しています。

Large language models (LLMs) are gaining increasing popularity in both academia and industry, owing to their unprecedented performance in various applications. As LLMs continue to play a vital role in both research and daily use, their evaluation becomes increasingly critical, not only at the task level, but also at the society level for better understanding of their potential risks. Over the past years, significant efforts have been made to examine LLMs from various perspectives. This paper presents a comprehensive review of these evaluation methods for LLMs, focusing on three key dimensions: what to evaluate, where to evaluate, and how to evaluate. Firstly, we provide an overview from the perspective of evaluation tasks, encompassing general natural language processing tasks, reasoning, medical usage, ethics, educations, natural and social sciences, agent applications, and other areas. Secondly, we answer the `where' and `how' questions by diving into the evaluation methods and benchmarks, which serve as crucial components in assessing performance of LLMs. Then, we summarize the success and failure cases of LLMs in different tasks. Finally, we shed light on several future challenges that lie ahead in LLMs evaluation. Our aim is to offer invaluable insights to researchers in the realm of LLMs evaluation, thereby aiding the development of more proficient LLMs. Our key point is that evaluation should be treated as an essential discipline to better assist the development of LLMs. We consistently maintain the related open-source materials at: https://github.com/MLGroupJLU/LLM-eval-survey.
翻訳日:2023-08-29 23:13:52 公開日:2023-08-28
# アダプタを用いた文埋め込みの効率的なドメイン適応

Efficient Domain Adaptation of Sentence Embeddings Using Adapters ( http://arxiv.org/abs/2307.03104v5 )

ライセンス: Link先を確認
Tim Schopf, Dennis N. Schneider, Florian Matthes(参考訳) 文埋め込みにより、短いテキストの意味的類似性を捉えることができる。 ほとんどの文埋め込みモデルは、一般的な意味的テキストの類似性タスクのために訓練される。 したがって、特定のドメインに文を埋め込むには、良い結果を得るためにモデルを適用する必要がある。 通常、これは関心領域の文埋め込みモデル全体を微調整することによって行われる。 このアプローチは最先端の結果をもたらすが、モデルの重みはすべて微調整中に更新され、このメソッドはリソース集約的になる。 したがって,各対象領域の文埋め込みモデル全体を個別に微調整するのではなく,軽量アダプタのトレーニングを提案する。 これらのドメイン固有のアダプタは、基礎となるすべての文埋め込みモデルパラメータを微調整する必要はない。 代わりに、基礎となる文埋め込みモデルの重みを固定しながら、少数の追加パラメータのみをトレーニングします。 ドメイン固有のアダプタのトレーニングでは、常に同じベースモデルを使用することができ、特定のドメインに文の埋め込みを適用するためにのみドメイン固有のアダプタを交換することができる。 文埋め込みのパラメータ効率のよいドメイン適応のためのアダプタを用いることで、約3.6%のパラメータをトレーニングしながら、ドメイン適応された完全に微調整された文埋め込みモデルの1%以内の競争性能が得られることを示す。

Sentence embeddings enable us to capture the semantic similarity of short texts. Most sentence embedding models are trained for general semantic textual similarity tasks. Therefore, to use sentence embeddings in a particular domain, the model must be adapted to it in order to achieve good results. Usually, this is done by fine-tuning the entire sentence embedding model for the domain of interest. While this approach yields state-of-the-art results, all of the model's weights are updated during fine-tuning, making this method resource-intensive. Therefore, instead of fine-tuning entire sentence embedding models for each target domain individually, we propose to train lightweight adapters. These domain-specific adapters do not require fine-tuning all underlying sentence embedding model parameters. Instead, we only train a small number of additional parameters while keeping the weights of the underlying sentence embedding model fixed. Training domain-specific adapters allows always using the same base model and only exchanging the domain-specific adapters to adapt sentence embeddings to a specific domain. We show that using adapters for parameter-efficient domain adaptation of sentence embeddings yields competitive performance within 1% of a domain-adapted, entirely fine-tuned sentence embedding model while only training approximately 3.6% of the parameters.
翻訳日:2023-08-29 23:13:28 公開日:2023-08-28
# テンソルフォーマ:高品質点雲再構成のための正規化マトリックスアテンショントランス

Tensorformer: Normalized Matrix Attention Transformer for High-quality Point Cloud Reconstruction ( http://arxiv.org/abs/2306.15989v2 )

ライセンス: Link先を確認
Hui Tian, Zheng Qin, Renjiao Yi, Chenyang Zhu, Kai Xu(参考訳) 生のポイントクラウドからの表面復元は、コンピュータグラフィックスコミュニティで何十年も研究されてきた。 ポアソン曲面再構成のような古典的な解は、合理的な結果を得るために余分な入力として点正規化を必要とする。 現代の変圧器に基づく手法は正規化なしでは機能するが、離散点からの局所融合における符号化性能の制限により、結果はより微細化されていない。 高品質な再構成を行うための新しい正規化行列アテンショントランス(Tensorformer)を提案する。 提案した行列アテンションにより、同時にポイントワイドとチャネルワイドのメッセージパッシングが可能となり、一方、以前のベクトルアテンションは異なるチャネル間で隣接するポイント情報を失う。 これにより、機能学習の自由度が高まり、ローカルジオメトリのモデリングが容易になる。 提案手法は,ShapeNetCoreとABCの2つの一般的なデータセットの最先端化を実現し,ShapeNet上のIOUを4%改善する。 コードはhttps://github.com/THHHomas/Tensorformer6にアクセスできる。

Surface reconstruction from raw point clouds has been studied for decades in the computer graphics community, which is highly demanded by modeling and rendering applications nowadays. Classic solutions, such as Poisson surface reconstruction, require point normals as extra input to perform reasonable results. Modern transformer-based methods can work without normals, while the results are less fine-grained due to limited encoding performance in local fusion from discrete points. We introduce a novel normalized matrix attention transformer (Tensorformer) to perform high-quality reconstruction. The proposed matrix attention allows for simultaneous point-wise and channel-wise message passing, while the previous vector attention loses neighbor point information across different channels. It brings more degree of freedom in feature learning and thus facilitates better modeling of local geometries. Our method achieves state-of-the-art on two commonly used datasets, ShapeNetCore and ABC, and attains 4% improvements on IOU on ShapeNet. Code can be accessed https://github.com/THHHomas/Tensorformer6.
翻訳日:2023-08-29 23:12:09 公開日:2023-08-28
# 完全一階オラクルによる非凸強凸二階最適化

Near-Optimal Nonconvex-Strongly-Convex Bilevel Optimization with Fully First-Order Oracles ( http://arxiv.org/abs/2306.14853v2 )

ライセンス: Link先を確認
Lesi Chen, Yaohua Ma, Jingzhao Zhang(参考訳) 双レベル最適化は、ハイパーパラメータチューニング、ニューラルアーキテクチャサーチ、メタラーニングといった幅広い応用がある。 双レベル最適化のための効率的なアルゴリズムの設計は、低レベル問題が他の最適化問題を通して暗黙的に実現可能性を定義するため、難しい。 本研究では,下級問題が強い凸である場合,一つの扱いやすい場合を考える。 最近の研究によると、ヘッセン・ベクター製品oracleでは、$\tilde{\mathcal{o}}(\epsilon^{-2})$ oracleコール内に$\epsilon$-first-order stationary pointが確実に見つかる。 しかし、ヘシアンベクターの製品は実際には到達できないか高価である。 Kwon et al. (ICML 2023) は、$\tilde{\mathcal{O}}(\epsilon^{-3})$の遅い速度で同じ目標を達成する一階法を提案し、この問題に対処した。 本研究では,この手法が二次法として最適に近い$\tilde {\mathcal{o}}(\epsilon^{-2})$率で収束することを示す,より厳密な解析を行う。 さらに,2次定常点の探索と分散二段階問題に対する類似の収束率を実現するための単純な一階法アルゴリズムを導出する。

Bilevel optimization has wide applications such as hyperparameter tuning, neural architecture search, and meta-learning. Designing efficient algorithms for bilevel optimization is challenging because the lower-level problem defines a feasibility set implicitly via another optimization problem. In this work, we consider one tractable case when the lower-level problem is strongly convex. Recent works show that with a Hessian-vector product oracle, one can provably find an $\epsilon$-first-order stationary point within $\tilde{\mathcal{O}}(\epsilon^{-2})$ oracle calls. However, Hessian-vector product may be inaccessible or expensive in practice. Kwon et al. (ICML 2023) addressed this issue by proposing a first-order method that can achieve the same goal at a slower rate of $\tilde{\mathcal{O}}(\epsilon^{-3})$. In this work, we provide a tighter analysis demonstrating that this method can converge at the near-optimal $\tilde {\mathcal{O}}(\epsilon^{-2})$ rate as second-order methods. Our analysis further leads to simple first-order algorithms that achieve similar convergence rates for finding second-order stationary points and for distributed bilevel problems.
翻訳日:2023-08-29 23:11:50 公開日:2023-08-28
# グローバルな状態予測による分散マルチエージェント強化学習

Decentralized Multi-Agent Reinforcement Learning with Global State Prediction ( http://arxiv.org/abs/2306.12926v2 )

ライセンス: Link先を確認
Joshua Bloom, Pranjal Paliwal, Apratim Mukherjee, Carlo Pinciroli(参考訳) 深部強化学習(DRL)は単一ロボットの制御において顕著な成功を収めた。 しかし、DRLをロボット群に適用することは大きな課題である。 重要な課題は非定常性であり、2つ以上のロボットが個別または共有のポリシーを同時に更新することで、収束の保証なしに相互依存のトレーニングプロセスに参加する。 非定常性を回避するには、通常、他のエージェントの状態や行動に関するグローバルな情報でロボットを訓練する。 対照的に,本稿では,グローバル情報の必要性をなくす方法について検討する。 我々は、他のエージェントに対するグローバルな知識が欠如していることから、部分的に観測可能なマルコフ決定プロセスとしてこの問題を提起する。 テストベッドシナリオとして集合輸送を用いたマルチエージェントトレーニングの2つのアプローチについて検討した。 最初は、ロボットはメッセージを交換せず、移動対象のプッシュ&プルを通じて暗黙のコミュニケーションに頼るように訓練される。 第2のアプローチでは、グローバルステート予測(GSP)を導入し、Swarm全体の信念を予測し、将来の状態を予測できるように訓練した。 障害のある環境での4つのよく知られた深層強化学習アルゴリズムに関する包括的研究を行い、望ましい時間枠内の目標へのオブジェクトの移動としての性能を測定した。 アブレーション研究により,グローバル知識を用いた手法と比較して,GSPを含むと性能が向上し,堅牢性が向上することが示された。

Deep reinforcement learning (DRL) has seen remarkable success in the control of single robots. However, applying DRL to robot swarms presents significant challenges. A critical challenge is non-stationarity, which occurs when two or more robots update individual or shared policies concurrently, thereby engaging in an interdependent training process with no guarantees of convergence. Circumventing non-stationarity typically involves training the robots with global information about other agents' states and/or actions. In contrast, in this paper we explore how to remove the need for global information. We pose our problem as a Partially Observable Markov Decision Process, due to the absence of global knowledge on other agents. Using collective transport as a testbed scenario, we study two approaches to multi-agent training. In the first, the robots exchange no messages, and are trained to rely on implicit communication through push-and-pull on the object to transport. In the second approach, we introduce Global State Prediction (GSP), a network trained to forma a belief over the swarm as a whole and predict its future states. We provide a comprehensive study over four well-known deep reinforcement learning algorithms in environments with obstacles, measuring performance as the successful transport of the object to the goal within a desired time-frame. Through an ablation study, we show that including GSP boosts performance and increases robustness when compared with methods that use global knowledge.
翻訳日:2023-08-29 23:11:02 公開日:2023-08-28
# 周期駆動リンドブラッド方程式の例外点と指数感度

Exceptional points and exponential sensitivity for periodically driven Lindblad equations ( http://arxiv.org/abs/2306.12322v2 )

ライセンス: Link先を確認
Jonas Larson and Sofia Qvarfort(参考訳) G\"oran Lindblad の記念問題へのこの貢献において、2レベル系に対する周期的に駆動されるリンドブラッド方程式について検討する。 Floquet理論と同様に,断熱対角化と時間進化の数値シミュレーションの両方を用いて解析を行う。 断熱対角化は、システムパラメータに依存するシステム内の例外的な点の存在を明らかにする。 これらの特異点の存在がシステム進化にどのように影響するかを示し,これらの点を急速に軽視し,階段のようなコヒーレンスが失われる原因となった。 この現象は、例えば人口反転の測定によって実験的に観察することができる。 また、例外点の存在は、システムがどのリー代数をサポートするかと関連していると考えられる。 Floquet解析では、時間依存のLiouvillianを非エルミートフロケハミルトニアンにマッピングし、そのスペクトルを解析する。 弱減衰率については、ワニエ・スターク・ラダースペクトルに対応するスターク局在固有状態が伴う。 より大きな崩壊率のために、はしごは溶解し始め、新しい、より局所的な状態が出現する。 さらに、それらの固有値は摂動に指数関数的に敏感であり、ある種の非エルミート・ハミルトン群に見られる皮膚効果と同様である。

In this contribution to the memorial issue of G\"oran Lindblad, we investigate the periodically driven Lindblad equation for a two-level system. We analyze the system using both adiabatic diagonalization and numerical simulations of the time-evolution, as well as Floquet theory. Adiabatic diagonalization reveals the presence of exceptional points in the system, which depend on the system parameters. We show how the presence of these exceptional points affects the system evolution, leading to a rapid dephasing at these points and a staircase-like loss of coherence. This phenomenon can be experimentally observed by measuring, for example, the population inversion. We also observe that the presence of exceptional points seems to be related to which underlying Lie algebra the system supports. In the Floquet analysis, we map the time-dependent Liouvillian to a non-Hermitian Floquet Hamiltonian and analyze its spectrum. For weak decay rates, we find a Wannier-Stark ladder spectrum accompanied by corresponding Stark-localized eigenstates. For larger decay rates, the ladders begin to dissolve, and new, less localized states emerge. Additionally, their eigenvalues are exponentially sensitive to perturbations, similar to the skin effect found in certain non-Hermitian Hamiltonians.
翻訳日:2023-08-29 23:10:38 公開日:2023-08-28
# 量子化による量子コンピュータのモード解析

Modal analysis on quantum computers via qubitization ( http://arxiv.org/abs/2307.07478v2 )

ライセンス: Link先を確認
Yasunori Lee, Keita Kanno(参考訳) 自然周波数と正規モードは、振動特性の解析において重要な役割を果たす構造の基本特性である。 その計算が固有値問題に還元されるので、特に大規模システムにおいて量子位相推定アルゴリズムの適用には自然な分野である。 本稿では、(古典的)結合振動子の簡単な例を取り上げ、行列のスパース構造に基づく量子化法を用いてアルゴリズムがどのように動作するかを示す。 その過程でブロックエンコーディングのオーラクルを明示的に構築し、初期状態を作成する方法を提案し、繰り返し構造を持つシステムのより一般的なオーラクル構築に短時間触れる。 実演として、フォールトトレラントな量子コンピュータで実行する際に必要となる物理量子ビットの数と実際のランタイムを大まかに見積もる。

Natural frequencies and normal modes are basic properties of a structure which play important roles in analyses of its vibrational characteristics. As their computation reduces to solving eigenvalue problems, it is a natural arena for application of quantum phase estimation algorithms, in particular for large systems. In this note, we take up some simple examples of (classical) coupled oscillators and show how the algorithm works by using qubitization methods based on a sparse structure of the matrix. We explicitly construct block-encoding oracles along the way, propose a way to prepare initial states, and briefly touch on a more generic oracle construction for systems with repetitive structure. As a demonstration, we also give rough estimates of the necessary number of physical qubits and actual runtime it takes when carried out on a fault-tolerant quantum computer.
翻訳日:2023-08-29 23:03:26 公開日:2023-08-28
# 骨格型ビデオ異常検出のためのマルチモーダル運動条件拡散モデル

Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection ( http://arxiv.org/abs/2307.07205v3 )

ライセンス: Link先を確認
Alessandro Flaborea, Luca Collorone, Guido D'Amely, Stefano D'Arrigo, Bardh Prenkaj, Fabio Galasso(参考訳) 異常は稀であり、異常検出はしばしば一級分類 (one-class classification, occ) として分類される。 OCCをリードする手法は、正常な動きの潜在的な表現を限られたボリュームに制限し、外部の異常なものを検知する。 しかし、ノーマルシーは、人間がいくつかの方法で同じ動作をすることができるため、同じオープンセット性を共有している。 本稿では,ビデオ異常検出(VAD)のための新しい生成モデルを提案する。 骨格表現を考察し,最先端の拡散確率モデルを用いて多変量的未来の人間のポーズを生成する。 我々は,過去の人々の動作に関する新しい条件付けを提案し,拡散過程のモードカバレッジ能力を改善し,異なるが印象的な将来の動きを生成する。 未来モードを統計的に集約すると、生成された動きの集合が実際の未来に関係しない場合に異常を検出する。 提案手法は, UBnormal, HR-UBnormal, HR-STC, HR-Avenueの4つのベンチマークで検証した。

Anomalies are rare and anomaly detection is often therefore framed as One-Class Classification (OCC), i.e. trained solely on normalcy. Leading OCC techniques constrain the latent representations of normal motions to limited volumes and detect as abnormal anything outside, which accounts satisfactorily for the openset'ness of anomalies. But normalcy shares the same openset'ness property since humans can perform the same action in several ways, which the leading techniques neglect. We propose a novel generative model for video anomaly detection (VAD), which assumes that both normality and abnormality are multimodal. We consider skeletal representations and leverage state-of-the-art diffusion probabilistic models to generate multimodal future human poses. We contribute a novel conditioning on the past motion of people and exploit the improved mode coverage capabilities of diffusion processes to generate different-but-plausible future motions. Upon the statistical aggregation of future modes, an anomaly is detected when the generated set of motions is not pertinent to the actual future. We validate our model on 4 established benchmarks: UBnormal, HR-UBnormal, HR-STC, and HR-Avenue, with extensive experiments surpassing state-of-the-art results.
翻訳日:2023-08-29 23:03:12 公開日:2023-08-28
# C-VAEを用いた時空間データ再構成

Reconstructing Spatiotemporal Data with C-VAEs ( http://arxiv.org/abs/2307.06243v2 )

ライセンス: Link先を確認
Tiago F. R. Ribeiro, Fernando Silva, Rog\'erio Lu\'is de C. Costa(参考訳) 時空間データの連続表現は、通常、時間とともに形や位置が連続的に変化するエンティティを表現するために、‘textit{moving region} のような抽象データ型を使用する。 この表現を実世界のエンティティの離散スナップショットから作成するには、補間法を用いてデータ表現を計算し、任意の時間点における興味の対象の位置と形状を推定する必要がある。 既存の領域補間法は、しばしば領域の進化の滑らかで現実的な表現を生成できない。 しかし、近年の深層学習技術の進歩により、暗黙的特徴学習を通じて時空間的依存関係を捉えるために離散的な観察に基づいて訓練された深層モデルの可能性が明らかになった。 本研究では,移動領域の時空間的進化の滑らかで現実的な表現を生成する条件付き変分オートエンコーダ(c-vae)モデルの能力について検討する。 本研究は,森林火災の焼成域における微少なアノテートデータセットに対する提案手法の評価である。 データセットのサンプルに圧縮演算を適用し,c-vaeモデルと他の一般的な補間アルゴリズムを用いて領域間の表現を生成する。 提案手法の性能を評価するため,U-Netモデルにより生成された手動の注釈付きデータや領域と補間結果を比較した。 また,時間的整合性指標を考慮したデータ品質の評価を行った。 提案したC-VAEに基づくアプローチは、幾何学的類似度測定における競合結果を示す。 また、c-vaeモデルが2次元移動領域の時空間的進化のモデル化に有効な選択肢である可能性が示唆されている。

The continuous representation of spatiotemporal data commonly relies on using abstract data types, such as \textit{moving regions}, to represent entities whose shape and position continuously change over time. Creating this representation from discrete snapshots of real-world entities requires using interpolation methods to compute in-between data representations and estimate the position and shape of the object of interest at arbitrary temporal points. Existing region interpolation methods often fail to generate smooth and realistic representations of a region's evolution. However, recent advancements in deep learning techniques have revealed the potential of deep models trained on discrete observations to capture spatiotemporal dependencies through implicit feature learning. In this work, we explore the capabilities of Conditional Variational Autoencoder (C-VAE) models to generate smooth and realistic representations of the spatiotemporal evolution of moving regions. We evaluate our proposed approach on a sparsely annotated dataset on the burnt area of a forest fire. We apply compression operations to sample from the dataset and use the C-VAE model and other commonly used interpolation algorithms to generate in-between region representations. To evaluate the performance of the methods, we compare their interpolation results with manually annotated data and regions generated by a U-Net model. We also assess the quality of generated data considering temporal consistency metrics. The proposed C-VAE-based approach demonstrates competitive results in geometric similarity metrics. It also exhibits superior temporal consistency, suggesting that C-VAE models may be a viable alternative to modelling the spatiotemporal evolution of 2D moving regions.
翻訳日:2023-08-29 23:02:50 公開日:2023-08-28
# TRansPose:透明オブジェクトのための大規模マルチスペクトルデータセット

TRansPose: Large-Scale Multispectral Dataset for Transparent Object ( http://arxiv.org/abs/2307.05016v2 )

ライセンス: Link先を確認
Jeongyun Kim, Myung-Hwan Jeon, Sangwoo Jung, Wooseong Yang, Minwoo Jung, Jaeho Shin, Ayoung Kim(参考訳) 透明な物体は私たちの日常生活で頻繁に遭遇するが、RGBや奥行きカメラでは認識されない、独特の物質特性のため、従来の視覚センサーには課題が生じる。 この制限を克服するため、サーマル赤外線カメラがソリューションとして登場し、透明物体の視界と形状情報を改善した。 本稿では,ステレオRGB-D,熱赤外(TIR)画像とオブジェクトのポーズを組み合わせて,透明物体の研究を促進する,最初の大規模マルチスペクトルデータセットTRansPoseを提案する。 データセットには、43の家庭用品、27のリサイクル可能なゴミ、29の化学実験室相当品、12の非透明物体を含む99の透明物体が含まれている。 333,819の画像と4,000,056のアノテーションの膨大なコレクションで構成されており、インスタンスレベルのセグメンテーションマスク、地対地ポーズ、完成度情報を提供している。 このデータはFLIR A65熱赤外カメラ、2台のIntel RealSense L515 RGB-Dカメラ、そしてフランカ・エミカ・パンダのロボットマニピュレータを用いて取得された。 Spanning 87 sequences, TRansPoseは、水で満たされたオブジェクト、多様な照明条件、重いクラッタ、透明で半透明な容器、ビニール袋の中のオブジェクト、マルチスタックオブジェクトなど、さまざまな困難な現実シナリオをカバーしている。 TRansPoseデータセットは以下のリンクからアクセスできる。

Transparent objects are encountered frequently in our daily lives, yet recognizing them poses challenges for conventional vision sensors due to their unique material properties, not being well perceived from RGB or depth cameras. Overcoming this limitation, thermal infrared cameras have emerged as a solution, offering improved visibility and shape information for transparent objects. In this paper, we present TRansPose, the first large-scale multispectral dataset that combines stereo RGB-D, thermal infrared (TIR) images, and object poses to promote transparent object research. The dataset includes 99 transparent objects, encompassing 43 household items, 27 recyclable trashes, 29 chemical laboratory equivalents, and 12 non-transparent objects. It comprises a vast collection of 333,819 images and 4,000,056 annotations, providing instance-level segmentation masks, ground-truth poses, and completed depth information. The data was acquired using a FLIR A65 thermal infrared (TIR) camera, two Intel RealSense L515 RGB-D cameras, and a Franka Emika Panda robot manipulator. Spanning 87 sequences, TRansPose covers various challenging real-life scenarios, including objects filled with water, diverse lighting conditions, heavy clutter, non-transparent or translucent containers, objects in plastic bags, and multi-stacked objects. TRansPose dataset can be accessed from the following link: https://sites.google.com/view/transpose-dataset
翻訳日:2023-08-29 23:02:24 公開日:2023-08-28
# intformer:コネクテッドカーデータを用いた交差点衝突確率予測のための時間埋め込み注意型変圧器

inTformer: A Time-Embedded Attention-Based Transformer for Crash Likelihood Prediction at Intersections Using Connected Vehicle Data ( http://arxiv.org/abs/2307.03854v3 )

ライセンス: Link先を確認
B M Tazbiul Hassan Anik, Zubayer Islam, Mohamed Abdel-Aty, Ling Wang(参考訳) リアルタイム衝突確率予測モデルは、積極的な交通安全管理システムの重要な構成要素である。 長年にわたり、交通の安全性を高めるために衝突可能性予測モデルを構築しようと試みてきたが、ほとんどが高速道路である。 既存の研究の大半で、研究者は主にクラッシュの可能性を特定するためにディープラーニングベースのフレームワークを使用してきた。 最近のtransformerは、注意に基づくメカニズムを基本とするディープニューラルネットワークの可能性として浮上している。 Transformerは、LSTMやCNNといった既存のディープラーニングモデルに対して、いくつかの機能的なメリットがある。 まず、Transformerはデータシーケンスの長期依存関係を簡単に処理できる。 第二に、トランスフォーマーはトレーニング中にデータシーケンス内のすべての要素を並列に処理できる。 最後に、Transformerには消滅する勾配の問題がない。 InTersection-Transformer(inTformer)モデルを提案する。これは,リアルタイムに交差点衝突確率を効果的に予測できる,時間組込みアテンションベースのTransformerモデルである。 提案モデルは,信号解析プラットフォームから抽出した車両データを用いて評価した。 本研究は交差点における複雑な交通操作機構を認識し、交差点領域を2つの異なるゾーンに分割することにより、ゾーン固有のモデルを開発した。 InTformerの最適モデルである"within-intersection"と"approach"ゾーンは、それぞれ73%、70%の感度を達成した。 ゾーンレベルのモデルは、交差点での衝突確率予測に関する以前の研究や、同じ接続された車両データセットでトレーニングされたいくつかの確立されたディープラーニングモデルと比較された。

The real-time crash likelihood prediction model is an essential component of the proactive traffic safety management system. Over the years, numerous studies have attempted to construct a crash likelihood prediction model in order to enhance traffic safety, but mostly on freeways. In the majority of the existing studies, researchers have primarily employed a deep learning-based framework to identify crash potential. Lately, Transformer has emerged as a potential deep neural network that fundamentally operates through attention-based mechanisms. Transformer has several functional benefits over extant deep learning models such as LSTM, CNN, etc. Firstly, Transformer can readily handle long-term dependencies in a data sequence. Secondly, Transformers can parallelly process all elements in a data sequence during training. Finally, a Transformer does not have the vanishing gradient issue. Realizing the immense possibility of Transformers, this paper proposes inTersection-Transformer (inTformer), a time-embedded attention-based Transformer model that can effectively predict intersection crash likelihood in real-time. The proposed model was evaluated using connected vehicle data extracted from Signal Analytics Platform. Acknowledging the complex traffic operation mechanism at intersection, this study developed zone-specific models by dividing the intersection region into two distinct zones: within-intersection and approach zone. The best inTformer models in 'within-intersection,' and 'approach' zone achieved a sensitivity of 73%, and 70%, respectively. The zone-level models were also compared to earlier studies on crash likelihood prediction at intersections and with several established deep learning models trained on the same connected vehicle dataset.
翻訳日:2023-08-29 23:00:42 公開日:2023-08-28
# 形式的特徴属性とその近似について

On Formal Feature Attribution and Its Approximation ( http://arxiv.org/abs/2307.03380v3 )

ライセンス: Link先を確認
Jinqiang Yu, Alexey Ignatiev, Peter J. Stuckey(参考訳) 近年、人工知能(AI)アルゴリズムと機械学習(ML)モデルの普及が見られた。 その大きな成功にもかかわらず、MLモデルの脆さ、その公正さ、解釈可能性の欠如といった多くの重要な問題により、説明可能な人工知能(XAI)と形式的なMLモデルの検証において、アクティブな開発の必要性が保証される。 XAIにおける2つの主要な仕事は、例えばアンカーのような特徴選択法と、LIMEやSHAPといった特徴帰属技術である。 約束にもかかわらず、既存の機能選択と帰属アプローチのほとんどは、説明の不健全さや分散サンプリングなど、さまざまな重要な問題に影響を受けやすい。 XAI(FXAI)に対する最近の公式なアプローチは、上記の代替として機能し、これらの問題から解放されているが、他のいくつかの制限に悩まされている。 例えば、スケーラビリティの制限に加えて、正式なアプローチでは、機能帰属問題に取り組めません。 加えて、正式な音であるにもかかわらず正式な説明は概して非常に大きく、実際的な環境での適用性を損なう。 そこで本稿では,形式的xaiの装置を,形式的説明列挙に基づく特徴帰属に応用する方法を提案する。 形式的特徴属性(FFA)は、形式的および非形式的の両方において、既存の方法よりも有利であると主張する。 この問題の実際的な複雑さを考慮し, 正確なFFAを近似する効率的な手法を提案する。 最後に,提案する近似ffaの有効性を,特徴量だけでなく相対的順序も考慮した既存の特徴帰属アルゴリズムと比較し,実験的に証明する。

Recent years have witnessed the widespread use of artificial intelligence (AI) algorithms and machine learning (ML) models. Despite their tremendous success, a number of vital problems like ML model brittleness, their fairness, and the lack of interpretability warrant the need for the active developments in explainable artificial intelligence (XAI) and formal ML model verification. The two major lines of work in XAI include feature selection methods, e.g. Anchors, and feature attribution techniques, e.g. LIME and SHAP. Despite their promise, most of the existing feature selection and attribution approaches are susceptible to a range of critical issues, including explanation unsoundness and out-of-distribution sampling. A recent formal approach to XAI (FXAI) although serving as an alternative to the above and free of these issues suffers from a few other limitations. For instance and besides the scalability limitation, the formal approach is unable to tackle the feature attribution problem. Additionally, a formal explanation despite being formally sound is typically quite large, which hampers its applicability in practical settings. Motivated by the above, this paper proposes a way to apply the apparatus of formal XAI to the case of feature attribution based on formal explanation enumeration. Formal feature attribution (FFA) is argued to be advantageous over the existing methods, both formal and non-formal. Given the practical complexity of the problem, the paper then proposes an efficient technique for approximating exact FFA. Finally, it offers experimental evidence of the effectiveness of the proposed approximate FFA in comparison to the existing feature attribution algorithms not only in terms of feature importance and but also in terms of their relative order.
翻訳日:2023-08-29 23:00:18 公開日:2023-08-28
# 巻き戻しによるフローケット符号

Engineering Floquet codes by rewinding ( http://arxiv.org/abs/2307.13668v3 )

ライセンス: Link先を確認
Arpit Dua, Nathanan Tantivasadakarn, Joseph Sullivan, and Tyler D. Ellison(参考訳) フロッケ符号は動的に生成された論理量子ビットを持つ新しい量子誤り訂正符号のクラスであり、非可換測定の周期スケジュールから生じる。 各期間に$\textit{rewind}$の計測スケジュールを持つFloquetコードの新しい例を作成しました。 巻き戻しスケジュールは、所望の即時安定化群と境界の構成の両方を得るのに有利である。 最初の例は、2dカラーコードに -- 有限深さ回路を介して -- 等価な瞬時安定化群を持ち、論理演算子の$\mathbb{z}_3$自己同型を示すフロケット符号である。 2つ目の例は、3Dトーリックコードと同じトポロジ的順序の即時安定化符号を持つFloquetコードです。 このフロッケ符号は、関連する一連の測定に基づいて3dトーリックコードの位相次数を分割する、すなわち、1つのラウンドにおける3dトーリックコードの1つのコピーの瞬時安定群を、次のラウンドにおいて、非局所安定部までの2コピーの3dトーリックコードの瞬時安定群とする。 この3Dコードの境界をさらに構築し、それを2つの3Dサブシステムトーリックコードで重ねることで、論理的な非クリフォード$CCZ$ゲートの逆実装が可能になると主張している。 また,x-cubeフロッケ符号の結合層構成は,各瞬時安定化符号がトーリック符号までのx-cubeモデルに有限深さ同値であるように,巻き戻しスケジュールによって変更可能であることを示し,x-cubeフロッケ符号はx-cubeモデルのx-cubeモデルとトーリック符号のコピーにx-cubeモデルの分割を示す。 最後の例はハニカム符号の3Dへの一般化であり、これは3Dフェルミオントーリック符号と同じ位相秩序の瞬時安定化符号を持つ。

Floquet codes are a novel class of quantum error-correcting codes with dynamically generated logical qubits, which arise from a periodic schedule of non-commuting measurements. We engineer new examples of Floquet codes with measurement schedules that $\textit{rewind}$ during each period. The rewinding schedules are advantageous in our constructions for both obtaining a desired set of instantaneous stabilizer groups and for constructing boundaries. Our first example is a Floquet code that has instantaneous stabilizer groups that are equivalent -- via finite-depth circuits -- to the 2D color code and exhibits a $\mathbb{Z}_3$ automorphism of the logical operators. Our second example is a Floquet code with instantaneous stabilizer codes that have the same topological order as the 3D toric code. This Floquet code exhibits a splitting of the topological order of the 3D toric code under the associated sequence of measurements i.e., an instantaneous stabilizer group of a single copy of 3D toric code in one round transforms into an instantaneous stabilizer group of two copies of 3D toric codes up to nonlocal stabilizers, in the following round. We further construct boundaries for this 3D code and argue that stacking it with two copies of 3D subsystem toric code allows for a transversal implementation of the logical non-Clifford $CCZ$ gate. We also show that the coupled-layer construction of the X-cube Floquet code can be modified by a rewinding schedule such that each of the instantaneous stabilizer codes is finite-depth-equivalent to the X-cube model up to toric codes; the X-cube Floquet code exhibits a splitting of the X-cube model into a copy of the X-cube model and toric codes under the measurement sequence. Our final example is a generalization of the honeycomb code to 3D, which has instantaneous stabilizer codes with the same topological order as the 3D fermionic toric code.
翻訳日:2023-08-29 22:55:29 公開日:2023-08-28
# 共分散行列に基づくネットワーク絡み合いの基準

Covariance matrix-based criteria for network entanglement ( http://arxiv.org/abs/2307.13480v2 )

ライセンス: Link先を確認
Kiara Hansenne and Otfried G\"uhne(参考訳) 量子ネットワークは、多粒子の絡み合いを生成し、多粒子の量子通信プロトコルを実装するための現実的で実用的なスキームを提供する。 しかし、量子源と局所演算とのネットワークで生成できる相関関係は、まだよく理解されていない。 絡み合い理論の強力なツールである共分散行列もネットワークシナリオに適用されている。 このような行列を正の半定義ブロック行列の和に分解する簡単な証明を示し、それに基づいて量子ネットワークにおける状態準備に必要な解析的かつ計算可能な必要条件を考案する。 これらの基準は、任意の2つのノードが少なくとも1つのソースを共有しているネットワークに適用できる。

Quantum networks offer a realistic and practical scheme for generating multiparticle entanglement and implementing multiparticle quantum communication protocols. However, the correlations that can be generated in networks with quantum sources and local operations are not yet well understood. Covariance matrices, which are powerful tools in entanglement theory, have been also applied to the network scenario. We present simple proofs for the decomposition of such matrices into the sum of positive semidefinite block matrices and, based on that, develop analytical and computable necessary criteria for preparing states in quantum networks. These criteria can be applied to networks in which any two nodes share at most one source, such as all bipartite networks.
翻訳日:2023-08-29 22:54:47 公開日:2023-08-28
# 説明可能なモデルが意味するもの: Scoping Review

What's meant by explainable model: A Scoping Review ( http://arxiv.org/abs/2307.09673v2 )

ライセンス: Link先を確認
Mallika Mainali, Rosina O Weber(参考訳) 人工知能(AI)に基づく応用を記述した論文のタイトルで説明可能な用語としてよく見られる。 しかしながら、説明可能な人工知能(XAI)の文献では、XAIにおける説明はアプリケーション固有のものであり、特定のアプリケーション問題に対する決定を行うモデルを説明するために使用されるたびに評価が必要であることが示されている。 さらに、ポストホック法、特に特徴属性法のパフォーマンスは、AI説明可能性のソリューションを表現していないことを著しく示唆している。 したがって、XAI手法を使用する場合、その情報出力の品質と適合性を、特定のアプリケーション内で評価する必要がある。 これらの理由から,aiモデルを適用した論文を調査し,そのモデルを参照しながらポストホックな説明を生成する手法を適用した。 本稿では,ポストホックxai法を取り入れて説明可能なモデルを特徴付けることを前提として,説明可能なモデルが著者によって採用されているかどうかについて検討する。 この問題を調べるために,本論文が評価を行ったかどうかについて検討した。 説明可能なモデルとしてアプローチを引用するアプリケーション論文の81%は、使用したXAI手法についていかなる評価も行っていないことがわかった。

We often see the term explainable in the titles of papers that describe applications based on artificial intelligence (AI). However, the literature in explainable artificial intelligence (XAI) indicates that explanations in XAI are application- and domain-specific, hence requiring evaluation whenever they are employed to explain a model that makes decisions for a specific application problem. Additionally, the literature reveals that the performance of post-hoc methods, particularly feature attribution methods, varies substantially hinting that they do not represent a solution to AI explainability. Therefore, when using XAI methods, the quality and suitability of their information outputs should be evaluated within the specific application. For these reasons, we used a scoping review methodology to investigate papers that apply AI models and adopt methods to generate post-hoc explanations while referring to said models as explainable. This paper investigates whether the term explainable model is adopted by authors under the assumption that incorporating a post-hoc XAI method suffices to characterize a model as explainable. To inspect this problem, our review analyzes whether these papers conducted evaluations. We found that 81% of the application papers that refer to their approaches as an explainable model do not conduct any form of evaluation on the XAI method they used.
翻訳日:2023-08-29 22:52:38 公開日:2023-08-28
# Latent Jailbreak: 大規模言語モデルのテキスト安全性と出力ロバスト性を評価するベンチマーク

Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output Robustness of Large Language Models ( http://arxiv.org/abs/2307.08487v3 )

ライセンス: Link先を確認
Huachuan Qiu, Shuai Zhang, Anqi Li, Hongliang He, Zhenzhong Lan(参考訳) 大規模な言語モデル(LLM)が人間の価値と一致し、安全なテキストを生成することを保証するために、考慮すべき研究努力が注がれている。 しかしながら、特定のトピックに対する過度な関心は、次の命令でモデルの堅牢性を損なう可能性があるため、タスクの完了時の全体的なパフォーマンスに影響を及ぼす。 ジェイルブレイク LLM の以前のベンチマークは主に、堅牢性を考慮せずにモデルの安全性を評価することに重点を置いている。 本稿では,LLMの安全性とロバスト性を評価するベンチマークを提案し,バランスの取れたアプローチの必要性を強調した。 テキストの安全性と出力堅牢性を包括的に研究するために、悪意のある命令埋め込みを含む潜伏ジェイルブレイクプロンプトデータセットを導入する。 具体的には、悪意のある命令を含むテキストを翻訳して、翻訳などの通常のタスクを完了するようモデルに指示する。 安全性と堅牢性をさらに分析するため,階層型アノテーションフレームワークを設計する。 本稿では,明示的正規命令の位置,単語置換(明示的正規命令のバーブ,悪意のある命令のターゲットグループ,明示的正規命令のキューワード),命令置換(異なる明示的正規命令)に関するllmの安全性とロバスト性に関する系統的分析を行う。 以上の結果から,現在のLLMは特定の命令動詞を優先するだけでなく,明示的な正規命令で異なる命令動詞に対して異なるジェイルブレイク率を示すことが明らかとなった。 コードとデータはhttps://github.com/qiuhuachuan/latent-jailbreakで入手できる。

Considerable research efforts have been devoted to ensuring that large language models (LLMs) align with human values and generate safe text. However, an excessive focus on sensitivity to certain topics can compromise the model's robustness in following instructions, thereby impacting its overall performance in completing tasks. Previous benchmarks for jailbreaking LLMs have primarily focused on evaluating the safety of the models without considering their robustness. In this paper, we propose a benchmark that assesses both the safety and robustness of LLMs, emphasizing the need for a balanced approach. To comprehensively study text safety and output robustness, we introduce a latent jailbreak prompt dataset, each involving malicious instruction embedding. Specifically, we instruct the model to complete a regular task, such as translation, with the text to be translated containing malicious instructions. To further analyze safety and robustness, we design a hierarchical annotation framework. We present a systematic analysis of the safety and robustness of LLMs regarding the position of explicit normal instructions, word replacements (verbs in explicit normal instructions, target groups in malicious instructions, cue words for explicit normal instructions), and instruction replacements (different explicit normal instructions). Our results demonstrate that current LLMs not only prioritize certain instruction verbs but also exhibit varying jailbreak rates for different instruction verbs in explicit normal instructions. Code and data are available at https://github.com/qiuhuachuan/latent-jailbreak.
翻訳日:2023-08-29 22:52:19 公開日:2023-08-28
# ソフトウェア開発のためのコミュニケーションエージェント

Communicative Agents for Software Development ( http://arxiv.org/abs/2307.07924v3 )

ライセンス: Link先を確認
Chen Qian and Xin Cong and Wei Liu and Cheng Yang and Weize Chen and Yusheng Su and Yufan Dang and Jiahao Li and Juyuan Xu and Dahai Li and Zhiyuan Liu and Maosong Sun(参考訳) ソフトウェア工学は複雑な意思決定プロセスによって特徴づけられる領域であり、しばしば微妙な直観とコンサルティングに依存している。 ディープラーニングの最近の進歩は、ソフトウェア開発のさまざまなステージで実装された精巧な設計を通じて、ソフトウェアエンジニアリングプラクティスを革新し始めている。 本稿では,ソフトウェア開発プロセス全体を通じて大規模言語モデル(LLM)を活用し,自然言語通信によるキープロセスの合理化と統一を実現し,各フェーズにおける特化モデルの必要性を解消する,革新的なパラダイムを提案する。 このパラダイムの中核であるChatDevは、確立したウォーターフォールモデルを模倣し、開発プロセスを慎重に4つの異なる時系列ステージ(設計、コーディング、テスト、ドキュメント)に分割する仮想チャットベースのソフトウェア開発会社です。 各ステージはプログラマ、コードレビュアー、テストエンジニアといったエージェントのチームが参加し、共同対話を促進し、シームレスなワークフローを促進する。 チャットチェーンはファシリテーターとして働き、各ステージをアトミックなサブタスクに分解する。 これによりデュアルロールが可能になり、コンテキスト認識通信によるソリューションの提案と検証が可能になり、特定のサブタスクの効率的な解決につながる。 ChatDevのインストゥルメンタル分析は、ソフトウェア生成における顕著な効果を強調し、1ドル以下のコストで、ソフトウェア開発プロセス全体の完了を7分以内で可能にする。 潜在的な脆弱性を特定し、緩和するだけでなく、満足できる効率とコスト効率を維持しながら、潜在的な幻覚を是正する。 ChatDevのポテンシャルは、LLMをソフトウェア開発領域に統合する新たな可能性を明らかにしている。

Software engineering is a domain characterized by intricate decision-making processes, often relying on nuanced intuition and consultation. Recent advancements in deep learning have started to revolutionize software engineering practices through elaborate designs implemented at various stages of software development. In this paper, we present an innovative paradigm that leverages large language models (LLMs) throughout the entire software development process, streamlining and unifying key processes through natural language communication, thereby eliminating the need for specialized models at each phase. At the core of this paradigm lies ChatDev, a virtual chat-powered software development company that mirrors the established waterfall model, meticulously dividing the development process into four distinct chronological stages: designing, coding, testing, and documenting. Each stage engages a team of agents, such as programmers, code reviewers, and test engineers, fostering collaborative dialogue and facilitating a seamless workflow. The chat chain acts as a facilitator, breaking down each stage into atomic subtasks. This enables dual roles, allowing for proposing and validating solutions through context-aware communication, leading to efficient resolution of specific subtasks. The instrumental analysis of ChatDev highlights its remarkable efficacy in software generation, enabling the completion of the entire software development process in under seven minutes at a cost of less than one dollar. It not only identifies and alleviates potential vulnerabilities but also rectifies potential hallucinations while maintaining commendable efficiency and cost-effectiveness. The potential of ChatDev unveils fresh possibilities for integrating LLMs into the realm of software development.
翻訳日:2023-08-29 22:51:51 公開日:2023-08-28
# 経済非線形モデル予測制御のためのkoopmanモデルのエンドツーエンド強化学習

End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control ( http://arxiv.org/abs/2308.01674v2 )

ライセンス: Link先を確認
Daniel Mayfrank, Alexander Mitsos, Manuel Dahmen(参考訳) (経済)非線形モデル予測制御((e)NMPC)は、すべての状態空間領域において十分に正確な動的システムモデルを必要とする。 これらのモデルは、リアルタイムのトラクタビリティを確保するのに十分な計算コストも必要である。 機械モデルのためのデータ駆動サーロゲートモデルは、(e)nmpcの計算負荷を軽減するために用いられるが、シミュレーションサンプルにおける最大平均予測精度のためにシステム同定によって訓練され、実際の(e)nmpcの一部として最適化される。 本稿では,(e)NMPCアプリケーションにおける動的サロゲートモデルのエンドツーエンド強化学習手法を提案する。 提案手法は, 確立された非線形連続発振タンク反応器モデルから導出した2つの応用について検証する。 最大予測精度パラダイムで訓練されたモデルと、強化学習を用いて訓練されたモデルフリーニューラルネットワークコントローラを用いて、制御性能をMPCと比較する。 本手法は,モデルフリーニューラルネットワークコントローラの性能に適合すると同時に,システム同定に基づくモデルよりも高い性能を発揮できることを示す。 さらに,mpcポリシが再トレーニングすることなく,制御設定の変更に対応できることを示す。

(Economic) nonlinear model predictive control ((e)NMPC) requires dynamic system models that are sufficiently accurate in all relevant state-space regions. These models must also be computationally cheap enough to ensure real-time tractability. Data-driven surrogate models for mechanistic models can be used to reduce the computational burden of (e)NMPC; however, such models are typically trained by system identification for maximum average prediction accuracy on simulation samples and perform suboptimally as part of actual (e)NMPC. We present a method for end-to-end reinforcement learning of dynamic surrogate models for optimal performance in (e)NMPC applications, resulting in predictive controllers that strike a favorable balance between control performance and computational demand. We validate our method on two applications derived from an established nonlinear continuous stirred-tank reactor model. We compare the controller performance to that of MPCs utilizing models trained by the prevailing maximum prediction accuracy paradigm, and model-free neural network controllers trained using reinforcement learning. We show that our method matches the performance of the model-free neural network controllers while consistently outperforming models derived from system identification. Additionally, we show that the MPC policies can react to changes in the control setting without retraining.
翻訳日:2023-08-29 21:05:49 公開日:2023-08-28
# 自己監督型画像デノイングのパワーを解き放つ:総合的なレビュー

Unleashing the Power of Self-Supervised Image Denoising: A Comprehensive Review ( http://arxiv.org/abs/2308.00247v3 )

ライセンス: Link先を確認
Dan Zhang, Fangfang Zhou, Xiao Yang, Yuan Gu(参考訳) ディープラーニングの出現は、画像のデノイジング技術に革命的な変革をもたらした。 しかし、現実のシナリオにおける教師付き手法のためのノイズクリーンペアの獲得という永続的な課題は、より実践的な自己監督型イメージデノイングの探索を必要としている。 本稿では,この問題に対する効果的な解決法を提供する,自己教師付き画像分類法に着目した。 本総括的レビューでは,自己教師付き画像分割手法の最近の進歩を,一般法,ブラインドスポットネットワーク(bsn)に基づく方法,トランスフォーマティブ法という3つの異なるクラスに分類した。 各クラスについて,その実践的応用とともに簡潔な理論解析を提供する。 これらの手法の有効性を評価するため,古典的アルゴリズムをベンチマークとして,様々なデータセットに対して定量的および定性的な実験結果を示す。 また,本手法の限界を批判的に議論し,今後の研究に期待できる方向性を提案する。 自己監督型イメージデノベーションの最近の展開を概観することにより、このレビューはこの分野の研究者や実践者にとって貴重な情報源となり、この新興領域の理解を深め、さらなる進歩を促す。

The advent of deep learning has brought a revolutionary transformation to image denoising techniques. However, the persistent challenge of acquiring noise-clean pairs for supervised methods in real-world scenarios remains formidable, necessitating the exploration of more practical self-supervised image denoising. This paper focuses on self-supervised image denoising methods that offer effective solutions to address this challenge. Our comprehensive review thoroughly analyzes the latest advancements in self-supervised image denoising approaches, categorizing them into three distinct classes: General methods, Blind Spot Network (BSN)-based methods, and Transformer-based methods. For each class, we provide a concise theoretical analysis along with their practical applications. To assess the effectiveness of these methods, we present both quantitative and qualitative experimental results on various datasets, utilizing classical algorithms as benchmarks. Additionally, we critically discuss the current limitations of these methods and propose promising directions for future research. By offering a detailed overview of recent developments in self-supervised image denoising, this review serves as an invaluable resource for researchers and practitioners in the field, facilitating a deeper understanding of this emerging domain and inspiring further advancements.
翻訳日:2023-08-29 21:04:54 公開日:2023-08-28
# mindmap: 知識グラフプロンプト - 大規模言語モデルにおける思考グラフの火花

MindMap: Knowledge Graph Prompting Sparks Graph of Thoughts in Large Language Models ( http://arxiv.org/abs/2308.09729v3 )

ライセンス: Link先を確認
Yilin Wen, Zifeng Wang, Jimeng Sun(参考訳) LLMは、通常、新しい知識を取り入れる能力、幻覚の生成、意思決定プロセスの透明性の限界を示す。 本稿では,LLMを知識グラフ(KG)で促進する方法について検討し,LLMを最新の知識で活用し,LLMから推論経路を引き出すための対策として機能する。 具体的には、KG入力を解釈し、暗黙の知識と抽出した外部知識を組み合わせて推論する能力を備えたLLMを実現するプロンプトパイプラインを構築する。 さらに,LLMが推論を行うマインドマップを抽出し,回答を生成する。 生成したマインドマップは、知識のオントロジーに基づくLLMの推論経路を示しており、それによって、生産におけるLLM推論の探索と拡大の見通しがもたらされる。 3つの質問と回答データセットに関する実験では、マインドマップのプロンプトが経験的な成果をもたらすことも示されている。 例えば、MindMap で GPT-3.5 をプロンプトすると、GPT-4 よりも圧倒的なパフォーマンスが得られる。 また、KGから抽出した構造化事実により、MindMapは、KGsのより正確で簡潔で包括的な知識の恩恵を受けながら、一連のプロンプト・ウィズ・ドキュメンテーション・検索手法より優れていることを示す。

LLMs usually exhibit limitations in their ability to incorporate new knowledge, the generation of hallucinations, and the transparency of their decision-making process. In this paper, we explore how to prompt LLMs with knowledge graphs (KG), working as a remedy to engage LLMs with up-to-date knowledge and elicit the reasoning pathways from LLMs. Specifically, we build a prompting pipeline that endows LLMs with the capability of comprehending KG inputs and inferring with a combined implicit knowledge and the retrieved external knowledge. In addition, we investigate eliciting the mind map on which LLMs perform the reasoning and generate the answers. It is identified that the produced mind map exhibits the reasoning pathways of LLMs grounded on the ontology of knowledge, hence bringing the prospects of probing and gauging LLM inference in production. The experiments on three question & answering datasets also show that MindMap prompting leads to a striking empirical gain. For instance, prompting a GPT-3.5 with MindMap yields an overwhelming performance over GPT-4 consistently. We also demonstrate that with structured facts retrieved from KG, MindMap can outperform a series of prompting-with-document-retrieval methods, benefiting from more accurate, concise, and comprehensive knowledge from KGs.
翻訳日:2023-08-29 20:58:21 公開日:2023-08-28
# 凸最適化によるニューラルネットワークシステムの安全フィルタ設計

Safety Filter Design for Neural Network Systems via Convex Optimization ( http://arxiv.org/abs/2308.08086v2 )

ライセンス: Link先を確認
Shaoru Chen, Kong Yao Chee, Nikolai Matni, M. Ani Hsieh, George J. Pappas(参考訳) データ可用性の向上に伴い、ニューラルネットワーク(NN)がデータ駆動方式で複雑なシステムダイナミクスを正確にキャプチャできることが広く実証されている。 しかし、NNのアーキテクチャ上の複雑さと非線形性は、確実に安全なコントローラの合成を困難にしている。 本研究では, モデル誤差をキャプチャできる付加的外乱に対して, nnシステムの安全性を確保するため, 凸最適化に依存する新しい安全フィルタを提案する。 提案手法は, NN検証から線形境界を持つ過近似NN力学へのツールを応用し, 続いて, 頑健な制約満足度を保証できる制御器の探索に頑健な線形MPCを適用した。 非線形振り子系における提案手法の有効性を数値的に示す。

With the increase in data availability, it has been widely demonstrated that neural networks (NN) can capture complex system dynamics precisely in a data-driven manner. However, the architectural complexity and nonlinearity of the NNs make it challenging to synthesize a provably safe controller. In this work, we propose a novel safety filter that relies on convex optimization to ensure safety for a NN system, subject to additive disturbances that are capable of capturing modeling errors. Our approach leverages tools from NN verification to over-approximate NN dynamics with a set of linear bounds, followed by an application of robust linear MPC to search for controllers that can guarantee robust constraint satisfaction. We demonstrate the efficacy of the proposed framework numerically on a nonlinear pendulum system.
翻訳日:2023-08-29 20:57:57 公開日:2023-08-28
# EcomGPT:Eコマースにおけるタスクの連鎖を伴う大規模言語モデル指導

EcomGPT: Instruction-tuning Large Language Models with Chain-of-Task Tasks for E-commerce ( http://arxiv.org/abs/2308.06966v2 )

ライセンス: Link先を確認
Yangning Li, Shirong Ma, Xiaobin Wang, Shen Huang, Chengyue Jiang, Hai-Tao Zheng, Pengjun Xie, Fei Huang, Yong Jiang(参考訳) 近年,ChatGPTで表される命令追従型Large Language Models (LLMs) は,自然言語処理(NLP)タスクにおいて例外的な性能を示した。 しかし、Eコマースデータの特徴は、一般のLLMにとって大きな課題となっている。 堅牢なクロスデータセット/タスクの一般化機能を持つEコマースシナリオに特化して設計されたLLMは、迫力のある必需品である。 この問題を解決するため,本研究では,約250万のインストラクションデータを持つ電子商取引指導データセットであるEcomInstructを提案する。 EcomInstructは、製品情報やユーザレビューなど、Eコマースの基本データタイプでアトミックタスクを構築することで、データサイズとタスクの多様性をスケールアップする。 アトミックタスクは、最終タスクの解決に暗黙的に関与する中間タスクとして定義されます。 バックボーンモデルBLOOMZをEcom Instructでトレーニングすることにより,パラメータスケールの異なるEcomGPTを開発した。 Chain-of-Taskタスクから得られる基本的な意味理解機能から恩恵を受け、EcomGPTは優れたゼロショット一般化能力を示す。 大規模な実験と人的評価により、E-Commerceタスクにおけるクロスデータセット/タスクの一般化の観点から、EcomGPTがChatGPTより優れていることが示された。

Recently, instruction-following Large Language Models (LLMs) , represented by ChatGPT, have exhibited exceptional performance in general Natural Language Processing (NLP) tasks. However, the unique characteristics of E-commerce data pose significant challenges to general LLMs. An LLM tailored specifically for E-commerce scenarios, possessing robust cross-dataset/task generalization capabilities, is a pressing necessity. To solve this issue, in this work, we proposed the first e-commerce instruction dataset EcomInstruct, with a total of 2.5 million instruction data. EcomInstruct scales up the data size and task diversity by constructing atomic tasks with E-commerce basic data types, such as product information, user reviews. Atomic tasks are defined as intermediate tasks implicitly involved in solving a final task, which we also call Chain-of-Task tasks. We developed EcomGPT with different parameter scales by training the backbone model BLOOMZ with the EcomInstruct. Benefiting from the fundamental semantic understanding capabilities acquired from the Chain-of-Task tasks, EcomGPT exhibits excellent zero-shot generalization capabilities. Extensive experiments and human evaluations demonstrate that EcomGPT outperforms ChatGPT in term of cross-dataset/task generalization on E-commerce tasks.
翻訳日:2023-08-29 20:57:05 公開日:2023-08-28
# CLE拡散:制御可能な光強調拡散モデル

CLE Diffusion: Controllable Light Enhancement Diffusion Model ( http://arxiv.org/abs/2308.06725v2 )

ライセンス: Link先を確認
Yuyang Yin, Dejia Xu, Chuangchuang Tan, Ping Liu, Yao Zhao, Yunchao Wei(参考訳) 低光度エンハンスメントは、視覚創造と編集の急速な発展によって重要性を増している。 しかし、既存の拡張アルゴリズムのほとんどは、画像の輝度を予め定義された範囲まで均等に増やすように設計されており、ユーザエクスペリエンスを制限している。 この問題に対処するために,ユーザに対してリッチな制御性を提供する新しい拡散フレームワークであるCLE拡散(CLE Diffusion)を提案する。 条件拡散モデルを用いて構築し,ユーザが所望の明るさレベルを制御できるように照明埋め込みを導入する。 さらにsegment-anything model(sam)を組み込んで,ユーザがオブジェクトをクリックして拡張したい領域を指定することで,ユーザフレンドリなリージョン管理を可能にする。 大規模な実験により、CLE拡散は定量的メトリクス、質的結果、多目的制御性に関する競争性能を達成できることが示された。 プロジェクトページ: https://yuyangyin.github.io/clediffusion/

Low light enhancement has gained increasing importance with the rapid development of visual creation and editing. However, most existing enhancement algorithms are designed to homogeneously increase the brightness of images to a pre-defined extent, limiting the user experience. To address this issue, we propose Controllable Light Enhancement Diffusion Model, dubbed CLE Diffusion, a novel diffusion framework to provide users with rich controllability. Built with a conditional diffusion model, we introduce an illumination embedding to let users control their desired brightness level. Additionally, we incorporate the Segment-Anything Model (SAM) to enable user-friendly region controllability, where users can click on objects to specify the regions they wish to enhance. Extensive experiments demonstrate that CLE Diffusion achieves competitive performance regarding quantitative metrics, qualitative results, and versatile controllability. Project page: https://yuyangyin.github.io/CLEDiffusion/
翻訳日:2023-08-29 20:56:17 公開日:2023-08-28
# BarlowRL:データ効率の良い強化学習のためのバローツイン

BarlowRL: Barlow Twins for Data-Efficient Reinforcement Learning ( http://arxiv.org/abs/2308.04263v2 )

ライセンス: Link先を確認
Omer Veysel Cagatan, Baris Akgun(参考訳) 本稿では,Barlow Twins自己教師型学習フレームワークとDER(Data-Efficient Rainbow)アルゴリズムを組み合わせたデータ効率強化学習エージェントBarlowRLを紹介する。 BarlowRLはAtari 100kベンチマークでDERとそれと対照的なCURLの両方を上回っている。 BarlowRLは空間全体に広がる情報を強制することによって次元的崩壊を避ける。 これにより、RLアルゴリズムは、最終的に顕著なパフォーマンスをもたらす一様拡散状態表現を利用することができる。 Barlow TwinsとDERの統合により、データ効率が向上し、RLタスクのパフォーマンスが向上する。 BarlowRLは、RLアルゴリズムを改善するために自己教師付き学習技術を導入する可能性を示している。

This paper introduces BarlowRL, a data-efficient reinforcement learning agent that combines the Barlow Twins self-supervised learning framework with DER (Data-Efficient Rainbow) algorithm. BarlowRL outperforms both DER and its contrastive counterpart CURL on the Atari 100k benchmark. BarlowRL avoids dimensional collapse by enforcing information spread to the whole space. This helps RL algorithms to utilize uniformly spread state representation that eventually results in a remarkable performance. The integration of Barlow Twins with DER enhances data efficiency and achieves superior performance in the RL tasks. BarlowRL demonstrates the potential of incorporating self-supervised learning techniques to improve RL algorithms.
翻訳日:2023-08-29 20:55:17 公開日:2023-08-28
# ギャップのブリッジ:大言語モデルを用いた語彙データの解読

Bridging the Gap: Deciphering Tabular Data Using Large Language Model ( http://arxiv.org/abs/2308.11891v2 )

ライセンス: Link先を確認
Hengyuan Zhang, Peng Chang, Zongcheng Ji(参考訳) 自然言語処理の領域では、表形式のデータの理解は学術的な調査の焦点として永久に立っていた。 ChatGPTなどによって実証された拡張言語モデルの出現は、研究者がテーブルベースの質問応答に関連するタスクにこれらのモデルを活用しようとする努力の波を巻き起こしている。 私たちの調査的追求の中心は、このような大きな言語モデルの適性を増幅し、表の構造的複雑さと固有の内容の両方を識別し、最終的には関連するクエリにインフォームドレスポンスを提供する能力を促進する方法論の解明です。 この目的のために,拡張言語モデルとのシームレスな統合を目的としたテーブルのシリアライゼーション専用のモジュールを設計した。 さらに,モデル内で潜在的な不正確性を正すための修正機構を考案した。 実験結果から,提案手法はSOTAを約11.7%追従するが,特定のデータセットに対するテストでは約1.2%のSOTAを超えることがわかった。 本研究は,大規模言語モデルを表型質問応答タスクに適用し,表構造と内容の理解を深めた最初の事例である。

In the realm of natural language processing, the understanding of tabular data has perpetually stood as a focal point of scholarly inquiry. The emergence of expansive language models, exemplified by the likes of ChatGPT, has ushered in a wave of endeavors wherein researchers aim to harness these models for tasks related to table-based question answering. Central to our investigative pursuits is the elucidation of methodologies that amplify the aptitude of such large language models in discerning both the structural intricacies and inherent content of tables, ultimately facilitating their capacity to provide informed responses to pertinent queries. To this end, we have architected a distinctive module dedicated to the serialization of tables for seamless integration with expansive language models. Additionally, we've instituted a corrective mechanism within the model to rectify potential inaccuracies. Experimental results indicate that, although our proposed method trails the SOTA by approximately 11.7% in overall metrics, it surpasses the SOTA by about 1.2% in tests on specific datasets. This research marks the first application of large language models to table-based question answering tasks, enhancing the model's comprehension of both table structures and content.
翻訳日:2023-08-29 20:47:52 公開日:2023-08-28
# 歩行認識のためのフリーランチ:新しい関係記述子

Free Lunch for Gait Recognition: A Novel Relation Descriptor ( http://arxiv.org/abs/2308.11487v2 )

ライセンス: Link先を確認
Jilong Wang, Saihui Hou, Yan Huang, Chunshui Cao, Xu Liu, Yongzhen Huang, Liang Wang(参考訳) 歩行認識は、独自の歩行パターンによってクエリ個人に適切なマッチングを求めることである。 しかし、現在の手法は個人特有の特徴を抽出することだけに重点を置いており、対人関係を見下ろしている。 本稿では,個々の特徴だけでなく,テスト歩行と事前選択されたアンカー歩行の関係も捉える,新しい$\textbf{relation descriptor}$を提案する。 具体的には,分類器重みをアンカー付き歩行として再解釈し,テスト特徴とこれらのアンカー間の類似度スコアを計算し,個々の歩行特徴を類似度関係分布に再表現する。 本質的に、リレーション・ディスクリプタは分類器の重みの中に格納された集合的知識を活用し、有意義なパターンを強調し、堅牢性を高める包括的視点を提供する。 その可能性にもかかわらず、関係記述子は、その次元がトレーニングセットのアイデンティティ数に依存するため、次元的課題を提起する。 これを解決するために,最も差別的なアンカー・ゲイト選択法と,アンカー・ゲイト内の多様性を高めるために直交正規化法を提案する。 バックボーンから抽出した個々の特徴と比較して、我々の関係記述子は余分なコストを伴わずに性能を向上させることができる。 我々は,GREW,Gait3D,CASIA-B,OU-MVLPに対する提案手法の有効性を評価し,本手法がベースラインを一貫して上回り,最先端の性能を達成することを示す。

Gait recognition is to seek correct matches for query individuals by their unique walking patterns. However, current methods focus solely on extracting individual-specific features, overlooking inter-personal relationships. In this paper, we propose a novel $\textbf{Relation Descriptor}$ that captures not only individual features but also relations between test gaits and pre-selected anchored gaits. Specifically, we reinterpret classifier weights as anchored gaits and compute similarity scores between test features and these anchors, which re-expresses individual gait features into a similarity relation distribution. In essence, the relation descriptor offers a holistic perspective that leverages the collective knowledge stored within the classifier's weights, emphasizing meaningful patterns and enhancing robustness. Despite its potential, relation descriptor poses dimensionality challenges since its dimension depends on the training set's identity count. To address this, we propose the Farthest Anchored-gait Selection to identify the most discriminative anchored gaits and an Orthogonal Regularization to increase diversity within anchored gaits. Compared to individual-specific features extracted from the backbone, our relation descriptor can boost the performances nearly without any extra costs. We evaluate the effectiveness of our method on the popular GREW, Gait3D, CASIA-B, and OU-MVLP, showing that our method consistently outperforms the baselines and achieves state-of-the-art performances.
翻訳日:2023-08-29 20:47:20 公開日:2023-08-28
# ProAgent: 大規模言語モデルによる積極的な協調AIの構築

ProAgent: Building Proactive Cooperative AI with Large Language Models ( http://arxiv.org/abs/2308.11339v2 )

ライセンス: Link先を確認
Ceyao Zhang, Kaijie Yang, Siyi Hu, Zihao Wang, Guanghe Li, Yihang Sun, Cheng Zhang, Zhaowei Zhang, Anji Liu, Song-Chun Zhu, Xiaojun Chang, Junge Zhang, Feng Yin, Yitao Liang, Yaodong Yang(参考訳) 人間とAIの協力の下で適応的な行動を持つAIを構築することは、AGI研究において重要な焦点となっている。 現在の協調エージェントの開発方法は、主に学習に基づく方法に依存しており、政策の一般化は、特定のチームメイトとの過去のやりとりに大きく依存している。 これらのアプローチは、新しいチームメイトと向き合うと、エージェントの戦略を再検討する能力を制限する。 本稿では,チームメイトの今後の決定を予測し,拡張計画の策定を行う能力を備えた,大規模言語モデル(LLM)を活用した,新たなフレームワークである‘textbf{ProAgent}を提案する。 ProAgentは協力的な推論に優れ、その振る舞いを動的に適応し、チームメイトとの共同作業を強化する能力を持つ。 さらに、proagentフレームワークは高度なモジュール性と解釈性を示し、シームレスな統合を容易にし、幅広い協調シナリオに対処する。 textit{Overcook-AI} の枠組みで実施した実験により,ProAgent の卓越した性能向上が明らかになり,AI エージェントと連携して,自己プレイと集団ベーストレーニングに基づく5つの手法が達成された。 さらに、人間のプロキシモデルと協調する場合、その性能は現在の最先端のCOLEに比べて平均10倍以上の改善を示す。 この進歩は、様々な特徴を持つAIエージェントと人間のエージェントとの相互作用を含む様々なシナリオで一貫して観察された。 これらの発見は、人間とロボットのコラボレーションに将来の研究を刺激する。 実演は \url{https://pku-proagent.github.io}を参照。

Building AIs with adaptive behaviors in human-AI cooperation stands as a pivotal focus in AGI research. Current methods for developing cooperative agents predominantly rely on learning-based methods, where policy generalization heavily hinges on past interactions with specific teammates. These approaches constrain the agent's capacity to recalibrate its strategy when confronted with novel teammates. We propose \textbf{ProAgent}, a novel framework that harnesses large language models (LLMs) to fashion a \textit{pro}active \textit{agent} empowered with the ability to anticipate teammates' forthcoming decisions and formulate enhanced plans for itself. ProAgent excels at cooperative reasoning with the capacity to dynamically adapt its behavior to enhance collaborative efforts with teammates. Moreover, the ProAgent framework exhibits a high degree of modularity and interpretability, facilitating seamless integration to address a wide array of coordination scenarios. Experimental evaluations conducted within the framework of \textit{Overcook-AI} unveil the remarkable performance superiority of ProAgent, outperforming five methods based on self-play and population-based training in cooperation with AI agents. Further, when cooperating with human proxy models, its performance exhibits an average improvement exceeding 10\% compared to the current state-of-the-art, COLE. The advancement was consistently observed across diverse scenarios involving interactions with both AI agents of varying characteristics and human counterparts. These findings inspire future research for human-robot collaborations. For a hands-on demonstration, please visit \url{https://pku-proagent.github.io}.
翻訳日:2023-08-29 20:46:55 公開日:2023-08-28
# アクションと言語によるエージェントコミュニケーションと学習の促進

Enhancing Agent Communication and Learning through Action and Language ( http://arxiv.org/abs/2308.10842v2 )

ライセンス: Link先を確認
Hugo Caselles-Dupr\'e, Olivier Sigaud, Mohamed Chetouani(参考訳) 教師と学習者の両方として機能するgcエージェントの新たなカテゴリを提案する。 アクションベースのデモンストレーションと言語ベースの命令を活用することで、これらのエージェントはコミュニケーション効率を高める。 教育学とプラグマティズム,人間のコミュニケーションと目標達成に不可欠な要素,エージェントの指導と学習能力の向上について検討した。 さらに,コミュニケーションモード(行動と言語)の組み合わせが学習結果に与える影響についても検討し,マルチモーダルアプローチのメリットを強調した。

We introduce a novel category of GC-agents capable of functioning as both teachers and learners. Leveraging action-based demonstrations and language-based instructions, these agents enhance communication efficiency. We investigate the incorporation of pedagogy and pragmatism, essential elements in human communication and goal achievement, enhancing the agents' teaching and learning capabilities. Furthermore, we explore the impact of combining communication modes (action and language) on learning outcomes, highlighting the benefits of a multi-modal approach.
翻訳日:2023-08-29 20:46:28 公開日:2023-08-28
# ソフトウェア工学のための大規模言語モデル:体系的文献レビュー

Large Language Models for Software Engineering: A Systematic Literature Review ( http://arxiv.org/abs/2308.10620v2 )

ライセンス: Link先を確認
Xinyi Hou, Yanjie Zhao, Yue Liu, Zhou Yang, Kailong Wang, Li Li, Xiapu Luo, David Lo, John Grundy, Haoyu Wang(参考訳) 大規模言語モデル(llm)は、ソフトウェア工学(se)を含む多くのドメインに大きな影響を与えてきた。 最近の多くの出版物は、様々なSEタスクや応用に適用されたLSMを探索している。 それでも、SE 上の LLM の応用、効果、および可能な制限に関する包括的な理解はまだ初期段階にある。 このギャップを埋めるため,我々はllmとseの交点に関する体系的文献レビューを行い,特にプロセスと成果を最適化するためにseでllmをどのように活用できるかを理解することに焦点を当てた。 2017年から2023年までの229の研究論文を収集・分析し,4つの研究課題(rqs)に回答した。 RQ1では、SEタスクに使われている異なるLLMを分類し、比較分析し、それらの特徴と用途を特徴付ける。 RQ2では、データ収集、前処理、アプリケーションで使われる手法を分析し、SE実装を成功させるために、堅牢でよく計算されたデータセットの役割を強調します。 RQ3 では,SE における LLM の性能を最適化・評価するための戦略と,迅速な最適化に関する共通技術について検討している。 最後に、RQ4は、LLMがこれまで成功してきた特定のSEタスクを調べ、その分野への実践的な貢献を説明する。 これらのRQに対する回答から、現状とトレンド、既存の研究のギャップの特定、今後の研究に期待できる領域のフラグ付けなどについて議論する。

Large Language Models (LLMs) have significantly impacted numerous domains, including Software Engineering (SE). Many recent publications have explored LLMs applied to various SE tasks and applications. Nevertheless, a comprehensive understanding of the application, effects, and possible limitations of LLMs on SE is still in its early stages. To bridge this gap, we conducted a systematic literature review on the intersection of LLMs and SE, with a particular focus on understanding how LLMs can be exploited in SE to optimize processes and outcomes. We collect and analyze a total of 229 research papers from 2017 to 2023 to answer four key research questions (RQs). In RQ1, we categorize and provide a comparative analysis of different LLMs that have been employed in SE tasks, characterising their distinctive features and uses. In RQ2, we analyse the methods used in data collection, preprocessing, and application highlighting the role of robust, well-curated datasets for successful LLM for SE implementation. RQ3 investigates the strategies employed to optimize and evaluate the performance of LLMs in SE, as well as the common techniques related to prompt optimization. Finally, RQ4 examines the specific SE tasks where LLMs have shown success to date, illustrating their practical contributions to the field. From the answers to these RQs, we discuss the current state-of-the-art and trends, identifying gaps in existing research, and flagging promising areas for future study.
翻訳日:2023-08-29 20:46:21 公開日:2023-08-28
# 条件分布のためのwasserstein測地線発生器

Wasserstein Geodesic Generator for Conditional Distributions ( http://arxiv.org/abs/2308.10145v3 )

ライセンス: Link先を確認
Young-geun Kim, Kyungbok Lee, Youngwon Choi, Joong-Ho Won, Myunghee Cho Paik(参考訳) 特定のラベルが与えられたサンプルを生成するには、条件分布を推定する必要がある。 条件分布間のワッサーシュタイン距離のトラクタブルな上限を導出し、条件分布を学習するための理論的な基礎となる。 この結果に基づいて,統計的距離によって定義される距離空間によって条件分布が完全に特徴づけられる新しい条件生成アルゴリズムを提案する。 最適輸送理論を用いて,wasserstein geodesic generator(wasserstein geodesic generator,wasserstein geodesicを学習する条件付き発電機)を提案する。 提案手法は観測領域の条件分布とそれらの間の最適輸送マップの両方を学習する。 観測されていない中間領域が与えられた条件分布は、2つの観測された領域ラベルが与えられた条件分布の間のワッサーシュタイン測地線上にある。 ドメインラベルとして光条件の顔画像を用いた実験により,提案手法の有効性が示された。

Generating samples given a specific label requires estimating conditional distributions. We derive a tractable upper bound of the Wasserstein distance between conditional distributions to lay the theoretical groundwork to learn conditional distributions. Based on this result, we propose a novel conditional generation algorithm where conditional distributions are fully characterized by a metric space defined by a statistical distance. We employ optimal transport theory to propose the Wasserstein geodesic generator, a new conditional generator that learns the Wasserstein geodesic. The proposed method learns both conditional distributions for observed domains and optimal transport maps between them. The conditional distributions given unobserved intermediate domains are on the Wasserstein geodesic between conditional distributions given two observed domain labels. Experiments on face images with light conditions as domain labels demonstrate the efficacy of the proposed method.
翻訳日:2023-08-29 20:44:43 公開日:2023-08-28
# out of the cage: サイバーセキュリティ環境での確率的オウムの勝利

Out of the Cage: How Stochastic Parrots Win in Cyber Security Environments ( http://arxiv.org/abs/2308.12086v2 )

ライセンス: Link先を確認
Maria Rigaki, Ond\v{r}ej Luk\'a\v{s}, Carlos A. Catania, Sebastian Garcia(参考訳) 大規模言語モデル(llm)は、テキスト生成、要約、様々な自然言語処理タスクを含む様々なドメインで広く普及している。 固有の制限にもかかわらず、llmベースの設計は、オープンワールドシナリオの計画とナビゲートに有望な能力を示している。 本稿では,サイバーセキュリティネットワーク環境におけるエージェントとして,事前学習型LLMの新たな応用について紹介する。 本稿では,2つの強化学習環境における攻撃エージェントとして,事前学習したLLMを活用するアプローチを提案する。 提案するエージェントは,ほとんどのシナリオや構成において,数千エピソードのトレーニングを受けた最先端エージェントに対して,同様の,あるいはより優れたパフォーマンスを示す。 さらに、最高のLLMエージェントは、追加のトレーニングプロセスなしで、環境の人間テスターと同じような動作をする。 この設計は、サイバーセキュリティにおける複雑な意思決定タスクに効率的に対処するLLMの可能性を強調している。 さらに,NetSecGameという新しいネットワークセキュリティ環境を導入する。 この環境は最終的にネットワークセキュリティ領域内の複雑なマルチエージェントシナリオをサポートするように設計されている。 提案する環境は実際のネットワーク攻撃を模倣し,様々なシナリオに対して高度にモジュール化され適応できるように設計されている。

Large Language Models (LLMs) have gained widespread popularity across diverse domains involving text generation, summarization, and various natural language processing tasks. Despite their inherent limitations, LLM-based designs have shown promising capabilities in planning and navigating open-world scenarios. This paper introduces a novel application of pre-trained LLMs as agents within cybersecurity network environments, focusing on their utility for sequential decision-making processes. We present an approach wherein pre-trained LLMs are leveraged as attacking agents in two reinforcement learning environments. Our proposed agents demonstrate similar or better performance against state-of-the-art agents trained for thousands of episodes in most scenarios and configurations. In addition, the best LLM agents perform similarly to human testers of the environment without any additional training process. This design highlights the potential of LLMs to efficiently address complex decision-making tasks within cybersecurity. Furthermore, we introduce a new network security environment named NetSecGame. The environment is designed to eventually support complex multi-agent scenarios within the network security domain. The proposed environment mimics real network attacks and is designed to be highly modular and adaptable for various scenarios.
翻訳日:2023-08-29 20:36:57 公開日:2023-08-28
# コールド原子 SO(5) ディラック場上の高次位相ねじれ

A higher-order topological twist on cold-atom SO(5) Dirac fields ( http://arxiv.org/abs/2308.12051v2 )

ライセンス: Link先を確認
A. Bermudez, D. Gonz\'alez-Cuadra, S. Hands(参考訳) スピン-3/2原子の超低温フェルミガスは、実験室における4-フェルミ相互作用のSO(5)モデルを実現するためのクリーンなプラットフォームを提供する。 2次元ラマン格子内の原子を閉じ込めることで、この系をディラック量子場理論(qfts)のフレキシブル量子シミュレータとして利用し、グロスネベとチリングの相互作用を高次位相的ねじれと組み合わせる方法を示す。 格子モデルは、このQFTの正則化に異方性ツイストウィルソン質量で対応することを示す。 これにより、格子の離散化によって明確に破れていない4-フェルミ相互作用の原回転対称性の残余である隠れSO(5)対称性で保護された高次の位相状態にアクセスすることができる。 大$N$法を用いることで、4-フェルミ相互作用が様々な競合するフェルミオン凝縮体を持つリッチ位相図へと導くことを示す。 我々の研究は、D = 2 + 1$次元のディラックフェルミオンの非自明な相対論的QFTに興味深い接続を持つ調整可能な相互作用を持つ高次位相状態の実装のための経路を開く。

Ultracold Fermi gases of spin-3/2 atoms provide a clean platform to realise SO(5) models of 4-Fermi interactions in the laboratory. By confining the atoms in a two-dimensional Raman lattice, we show how this system can be used as a flexible quantum simulator of Dirac quantum field theories (QFTs) that combine Gross-Neveu and Thirring interactions with a higher-order topological twist. We show that the lattice model corresponds to a regularization of this QFT with an anisotropic twisted Wilson mass. This allows us to access higher-order topological states protected by a hidden SO(5) symmetry, a remnant of the original rotational symmetry of the 4-Fermi interactions that is not explicitly broken by the lattice discretization. Using large-$N$ methods, we show that the 4-Fermi interactions lead to a rich phase diagram with various competing fermion condensates. Our work opens a route for the implementation of correlated higher-order topological states with tunable interactions that has interesting connections to non-trivial relativistic QFTs of Dirac fermions in $D = 2 + 1$ dimensions.
翻訳日:2023-08-29 20:36:39 公開日:2023-08-28
# MKL-$L_{0/1}$-SVM

MKL-$L_{0/1}$-SVM ( http://arxiv.org/abs/2308.12016v2 )

ライセンス: Link先を確認
Bin Zhu and Yijie Shi(参考訳) 本稿では,$(0, 1)$損失関数を持つサポートベクターマシン(svm)のためのマルチカーネル学習(mkl)フレームワークを提案する。 いくつかのKKTのような一階最適条件が提供され、非滑らかな非凸最適化問題を解決するために高速ADMMアルゴリズムを開発するために利用される。 合成および実データ集合に関する数値実験により、我々のmkl-$l_{0/1}$-svmの性能は、rakotomamonjy、bach、canu、grandvaletによって開発されたsimplemklと呼ばれる主要なアプローチの1つに匹敵することが示された(journal of machine learning research, vol.~9, pp.~2491-2521, 2008)。

This paper presents a Multiple Kernel Learning (abbreviated as MKL) framework for the Support Vector Machine (SVM) with the $(0, 1)$ loss function. Some KKT-like first-order optimality conditions are provided and then exploited to develop a fast ADMM algorithm to solve the nonsmooth nonconvex optimization problem. Numerical experiments on synthetic and real datasets show that the performance of our MKL-$L_{0/1}$-SVM is comparable with the one of the leading approaches called SimpleMKL developed by Rakotomamonjy, Bach, Canu, and Grandvalet [Journal of Machine Learning Research, vol.~9, pp.~2491--2521, 2008].
翻訳日:2023-08-29 20:36:19 公開日:2023-08-28
# 消費者ウェアラブルデバイスを用いた感情認識への個人化・一般化アプローチの比較:機械学習による研究

A Comparison of Personalized and Generalized Approaches to Emotion Recognition Using Consumer Wearable Devices: Machine Learning Study ( http://arxiv.org/abs/2308.14245v1 )

ライセンス: Link先を確認
Joe Li, Peter Washington(参考訳) 背景:研究は、頭痛から心血管疾患まで、長期のネガティブな感情と慢性的なストレスに関連する潜在的な健康影響を示している。 多くのストレスの指標は観察者には認識できないため、ストレスの早期発見と介入は医学的ニーズに迫られている。 生理学的信号は、感情を監視する非侵襲的な方法を提供し、スマートウォッチによって容易に収集される。 既存の研究は主に感情分類のための一般化機械学習ベースのモデルの開発に焦点を当てている。 目的: ウェアラブルバイオサインデータを用いた3段階感情分類(中性, ストレス, 娯楽)のためのパーソナライズされた機械学習モデルと一般化された機械学習モデルの違いについて検討すること。 方法: 生理的信号が15名を対象としたマルチモーダルデータセットであるwesadのデータを用いて, 3段階感情分類問題のための畳み込みエンコーダを開発した。 主観的一般化,主観的一般化,パーソナライズモデルの比較を行った。 結果:3類分類問題では,パーソナライズドモデルの平均精度は95.06%,f1-scoreは91.71,主観的一般化モデルは66.95%,f1-scoreは42.50,主観的一般化モデルは67.65%,f1-scoreは43.05であった。 結論:本研究は,特定の文脈において一般化されたモデルよりもパーソナライズされた感情認識モデルにおける研究の必要性を強調する。 また、感情分類のためのパーソナライズされた機械学習モデルが実現可能であり、高いパフォーマンスを達成できることを実証する。

Background: Studies have shown the potential adverse health effects, ranging from headaches to cardiovascular disease, associated with long-term negative emotions and chronic stress. Since many indicators of stress are imperceptible to observers, the early detection and intervention of stress remains a pressing medical need. Physiological signals offer a non-invasive method of monitoring emotions and are easily collected by smartwatches. Existing research primarily focuses on developing generalized machine learning-based models for emotion classification. Objective: We aim to study the differences between personalized and generalized machine learning models for three-class emotion classification (neutral, stress, and amusement) using wearable biosignal data. Methods: We developed a convolutional encoder for the three-class emotion classification problem using data from WESAD, a multimodal dataset with physiological signals for 15 subjects. We compared the results between a subject-exclusive generalized, subject-inclusive generalized, and personalized model. Results: For the three-class classification problem, our personalized model achieved an average accuracy of 95.06% and F1-score of 91.71, our subject-inclusive generalized model achieved an average accuracy of 66.95% and F1-score of 42.50, and our subject-exclusive generalized model achieved an average accuracy of 67.65% and F1-score of 43.05. Conclusions: Our results emphasize the need for increased research in personalized emotion recognition models given that they outperform generalized models in certain contexts. We also demonstrate that personalized machine learning models for emotion classification are viable and can achieve high performance.
翻訳日:2023-08-29 16:06:31 公開日:2023-08-28
# HoloFusion: フォトリアリスティックな3D生成モデリングを目指して

HoloFusion: Towards Photo-realistic 3D Generative Modeling ( http://arxiv.org/abs/2308.14244v1 )

ライセンス: Link先を確認
Animesh Karnewar and Niloy J. Mitra and Andrea Vedaldi and David Novotny(参考訳) 既存の拡散法は、低解像度だが3D一貫性のある出力を生成するか、3Dオブジェクトの詳細な2Dビューを生成することができるが、潜在的な構造的欠陥があり、ビューの一貫性やリアリズムに欠ける。 本研究では,多視点2次元画像の収集から学習しながら,高忠実性,再現性,多彩な3dサンプルを生成する手法であるホロフュージョンを提案する。 この方法は,最近提案されたHoloDiffusion ジェネレータの変種を用いて,まず粗い3Dサンプルを生成する。 そして、粗い3Dモデルの多くのビューを独立してレンダリングし、それを超解して詳細を追加し、それらを単一の高忠実な暗黙の3D表現に蒸留し、最終レンダリングのビュー一貫性を確保する。 超解像ネットワークはホロフュージョンの不可欠な部分として訓練され、最終蒸留では新しいサンプリングスキームを使用して超解像信号の空間を捕捉する。 この手法をdreamfusion, get3d, eg3d, holodiffusionなどの既存のベースラインと比較し, 挑戦的なco3dv2データセット上で最も現実的な結果を得る。

Diffusion-based image generators can now produce high-quality and diverse samples, but their success has yet to fully translate to 3D generation: existing diffusion methods can either generate low-resolution but 3D consistent outputs, or detailed 2D views of 3D objects but with potential structural defects and lacking view consistency or realism. We present HoloFusion, a method that combines the best of these approaches to produce high-fidelity, plausible, and diverse 3D samples while learning from a collection of multi-view 2D images only. The method first generates coarse 3D samples using a variant of the recently proposed HoloDiffusion generator. Then, it independently renders and upsamples a large number of views of the coarse 3D model, super-resolves them to add detail, and distills those into a single, high-fidelity implicit 3D representation, which also ensures view consistency of the final renders. The super-resolution network is trained as an integral part of HoloFusion, end-to-end, and the final distillation uses a new sampling scheme to capture the space of super-resolved signals. We compare our method against existing baselines, including DreamFusion, Get3D, EG3D, and HoloDiffusion, and achieve, to the best of our knowledge, the most realistic results on the challenging CO3Dv2 dataset.
翻訳日:2023-08-29 16:06:00 公開日:2023-08-28
# 大規模言語モデルの文化心理学:chatgptは全体的か分析的思考者か?

The Cultural Psychology of Large Language Models: Is ChatGPT a Holistic or Analytic Thinker? ( http://arxiv.org/abs/2308.14242v1 )

ライセンス: Link先を確認
Chuanyang Jin, Songyang Zhang, Tianmin Shu, and Zhihan Cui(参考訳) LLM(Large Language Models)の使用は、その精神モデルの研究を必要としており、重要な理論的および実践的な意味を持つ。 現在の研究では、ChatGPTのような最先端のLLMは、精神能力の特定の理論を示し、比較的安定したBig FiveやMBTIの性格特性を持っていることが示されている。 さらに、認知過程の特徴はこれらの精神モデルの本質的な構成要素を形成する。 文化心理学では,情報処理や判断の過程において,東西の認知過程に有意な差が認められた。 西洋人は環境から物事を分離して自然を独立に分析する分析的思考を主に示しているのに対し、東洋人は全体論的思考を示し、関係を強調し、世界的視点を採用する。 本研究では,ChatGPTの文化的認知特性について検討した。 我々は,認知過程を直接測定する2つの尺度,AHS(Analytic-Holism Scale)とTCT(Triadic Categorization Task)を採用した。 さらに、文化的な思考によって形成される価値の相違を調査する尺度として、DESとSCS(Self-Construal Scale)の2つを用いた。 認知プロセステスト(AHS/TCT)では、ChatGPTは一貫して東方全体主義的思考に傾いているが、価値判断(DSS/SCS)に関しては、ChatGPTは東方や西方へ大きく傾いているわけではない。 この結果は, LLM 開発におけるトレーニングパラダイムとトレーニングデータの両方に起因する可能性が示唆された。 我々は、ai研究におけるこの発見の潜在的価値と今後の研究の方向性について論じる。

The prevalent use of Large Language Models (LLMs) has necessitated studying their mental models, yielding noteworthy theoretical and practical implications. Current research has demonstrated that state-of-the-art LLMs, such as ChatGPT, exhibit certain theory of mind capabilities and possess relatively stable Big Five and/or MBTI personality traits. In addition, cognitive process features form an essential component of these mental models. Research in cultural psychology indicated significant differences in the cognitive processes of Eastern and Western people when processing information and making judgments. While Westerners predominantly exhibit analytical thinking that isolates things from their environment to analyze their nature independently, Easterners often showcase holistic thinking, emphasizing relationships and adopting a global viewpoint. In our research, we probed the cultural cognitive traits of ChatGPT. We employed two scales that directly measure the cognitive process: the Analysis-Holism Scale (AHS) and the Triadic Categorization Task (TCT). Additionally, we used two scales that investigate the value differences shaped by cultural thinking: the Dialectical Self Scale (DSS) and the Self-construal Scale (SCS). In cognitive process tests (AHS/TCT), ChatGPT consistently tends towards Eastern holistic thinking, but regarding value judgments (DSS/SCS), ChatGPT does not significantly lean towards the East or the West. We suggest that the result could be attributed to both the training paradigm and the training data in LLM development. We discuss the potential value of this finding for AI research and directions for future research.
翻訳日:2023-08-29 16:05:36 公開日:2023-08-28
# 次世代貯留層計算 : 量子ダイナミクス予測のための効率的な量子アルゴリズム

Quantum Next Generation Reservoir Computing: An Efficient Quantum Algorithm for Forecasting Quantum Dynamics ( http://arxiv.org/abs/2308.14239v1 )

ライセンス: Link先を確認
Apimuk Sornsaeng, Ninnat Dangniam, Thiparat Chotibut(参考訳) 次世代リザーバコンピューティング(ng-rc)は、動的システムによって生成された時系列データの正確な予測を可能にする、モデルフリー機械学習の現代クラスである。 NG-RCは、従来の貯水池計算の応用である可観測物の力学にのみ集中するのではなく、完全に多体量子力学を正確に予測できることを実証する。 また,中間状態に関する情報を抽出することなく,遠未来状態を正確に予測するために,先をスキップする手法を適用する。 しかし、古典的なNG-RCを多体量子力学予測に適用することは、サンプル入力データの大きなヒルベルト空間のために計算的に禁止される。 本研究では,ブロックエンコーディングによる量子計算速度アップを用いた多体量子力学予測のためのエンドツーエンド量子アルゴリズムを提案する。 本提案では,モデルベースアプローチによる帰納バイアスを回避し,量子力学をコヒーレントに予測する効率的なモデルフリー量子スキームを提案する。

Next Generation Reservoir Computing (NG-RC) is a modern class of model-free machine learning that enables an accurate forecasting of time series data generated by dynamical systems. We demonstrate that NG-RC can accurately predict full many-body quantum dynamics, instead of merely concentrating on the dynamics of observables, which is the conventional application of reservoir computing. In addition, we apply a technique which we refer to as skipping ahead to predict far future states accurately without the need to extract information about the intermediate states. However, adopting a classical NG-RC for many-body quantum dynamics prediction is computationally prohibitive due to the large Hilbert space of sample input data. In this work, we propose an end-to-end quantum algorithm for many-body quantum dynamics forecasting with a quantum computational speedup via the block-encoding technique. This proposal presents an efficient model-free quantum scheme to forecast quantum dynamics coherently, bypassing inductive biases incurred in a model-based approach.
翻訳日:2023-08-29 16:05:07 公開日:2023-08-28
# 人間-ロボットインタラクションにおけるムード誘発背景音楽の利用

Utilizing Mood-Inducing Background Music in Human-Robot Interaction ( http://arxiv.org/abs/2308.14269v1 )

ライセンス: Link先を確認
Elad Liebman, Peter Stone(参考訳) 過去の研究は、音楽が気分に影響を与え、気分が感情や認知の処理に影響を与え、意思決定に影響を及ぼすことを明確に証明してきた。 また、人間と対話するロボットが、その人の行動を予測する必要がある場合、演技時に聴いている音楽の知識は、潜在的に関連性のある特徴である。 しかし、現在に至るまで、ロボットが聴いているものを考慮し、人間の対話的意思決定を改善するという具体的な証拠は存在していない。 本研究は、人間の被験者がバックグラウンド音楽を聴きながら自律的なエージェントの存在下でタスクを完了させる実験の結果を報告することにより、このギャップを埋めるものである。 具体的には、参加者は音楽を聴きながら交差点をシミュレートした車を運転した。 交差点は空ではなかったが、別の模擬車両が自律的に制御され、異なる方向に交差点を横断していた。 これらの背景情報をエージェントの世界表現に効果的に組み込むことにより,人々の行動をより正確に予測できることを示す。 その後,音楽の知識が参加者行動と学習方針の両方に与える影響を分析した。 この論文の素材の初期のバージョンは、もともと最初の著者のPh.D.に登場した。 Dissertation~\cite{liebman 2020sequential} しかし、pear-reviewedカンファレンスやジャーナルには登場していない。 }

Past research has clearly established that music can affect mood and that mood affects emotional and cognitive processing, and thus decision-making. It follows that if a robot interacting with a person needs to predict the person's behavior, knowledge of the music the person is listening to when acting is a potentially relevant feature. To date, however, there has not been any concrete evidence that a robot can improve its human-interactive decision-making by taking into account what the person is listening to. This research fills this gap by reporting the results of an experiment in which human participants were required to complete a task in the presence of an autonomous agent while listening to background music. Specifically, the participants drove a simulated car through an intersection while listening to music. The intersection was not empty, as another simulated vehicle, controlled autonomously, was also crossing the intersection in a different direction. Our results clearly indicate that such background information can be effectively incorporated in an agent's world representation in order to better predict people's behavior. We subsequently analyze how knowledge of music impacted both participant behavior and the resulting learned policy.\setcounter{footnote}{2}\footnote{An earlier version of part of the material in this paper appeared originally in the first author's Ph.D. Dissertation~\cite{liebman2020sequential} but it has not appeared in any pear-reviewed conference or journal.}
翻訳日:2023-08-29 15:56:36 公開日:2023-08-28
# unleash model potential: ブートストラップされたメタ自己教師付き学習

Unleash Model Potential: Bootstrapped Meta Self-supervised Learning ( http://arxiv.org/abs/2308.14267v1 )

ライセンス: Link先を確認
Jingyao Wang, Zeen Song, Wenwen Qiang, Changwen Zheng(参考訳) 機械学習の長期的な目標は、人間の認知の3つの利点を模倣して、少数のデータから一般的な視覚表現を学ぶことである。 i) ラベルは不要。 二 データの不足に対する堅牢性及び iii)経験から学ぶこと。 自己監督学習とメタ学習は、この目標を達成するための2つの有望なテクニックであるが、どちらも部分的に利点を捉え、すべての問題に対処できない。 自己教師付き学習は、学習と一般化を促進する事前知識を無視しながら、データの不足の欠点を克服するために苦労する。 メタラーニングは教師付き情報に依存し、不十分な学習のボトルネックに苦しむ。 これらの課題に対処するために,人間の学習プロセスをシミュレートすることを目的とした,Bootstrapped Meta Self-Supervised Learning (BMSSL) フレームワークを提案する。 まず,メタ学習と自己指導学習の密接な関係を分析する。 この知見に基づいて、我々は両方のパラダイムの強みを活用し、iとiiの利点を達成するためにタスクを再構築する。 さらに、学習能力(第1レベル)で特定のタスクを解くことと、この能力(第2レベル)を改善することを交互に行う、双方向最適化フレームワークを採用しています。 そのパワーをフル活用するために、メタグラディエントに基づくブートストラップ型ターゲットを導入し、モデルを独自の教師にする。 提案手法の有効性を理論的および実証的研究により検証した。

The long-term goal of machine learning is to learn general visual representations from a small amount of data without supervision, mimicking three advantages of human cognition: i) no need for labels, ii) robustness to data scarcity, and iii) learning from experience. Self-supervised learning and meta-learning are two promising techniques to achieve this goal, but they both only partially capture the advantages and fail to address all the problems. Self-supervised learning struggles to overcome the drawbacks of data scarcity, while ignoring prior knowledge that can facilitate learning and generalization. Meta-learning relies on supervised information and suffers from a bottleneck of insufficient learning. To address these issues, we propose a novel Bootstrapped Meta Self-Supervised Learning (BMSSL) framework that aims to simulate the human learning process. We first analyze the close relationship between meta-learning and self-supervised learning. Based on this insight, we reconstruct tasks to leverage the strengths of both paradigms, achieving advantages i and ii. Moreover, we employ a bi-level optimization framework that alternates between solving specific tasks with a learned ability (first level) and improving this ability (second level), attaining advantage iii. To fully harness its power, we introduce a bootstrapped target based on meta-gradient to make the model its own teacher. We validate the effectiveness of our approach with comprehensive theoretical and empirical study.
翻訳日:2023-08-29 15:56:16 公開日:2023-08-28
# SalesBot 2.0:人間らしいインテントガイド付きチップチャットデータセット

SalesBot 2.0: A Human-Like Intent-Guided Chit-Chat Dataset ( http://arxiv.org/abs/2308.14266v1 )

ライセンス: Link先を確認
Wen-Yu Chang, Yun-Nung Chen(参考訳) 近年,対話システムとコーパスの研究において,タスク指向(TOD)とオープンドメイン(チップチャット)の2つの異なるカテゴリに注目が集まっている。 TODシステムは、見る映画を見つけるなどの特定のユーザー目標を達成することを目的としており、一方、オープンドメインシステムは、主にエンゲージメントな会話を生成することに焦点を当てている。 chiuらによる最近の研究(2022年)では、chit-chatからタスク指向の対話へワンターンで遷移するシミュレータとデータセットを提供するsalesbotが紹介されている。 しかし、以前に生成されたデータはBlenderBotにのみ依存しており、会話中にその長期的な自然性と一貫性に関する懸念が持ち上がった。 本論文は,大規模言語モデル(LLM)の共通知識を適切なプロンプトによって活用することにより,公開データの改訂版であるSalesBot 2.0を構築することを目的とする。 目的は、チトチャットとTODのギャップを徐々に埋めて、自然性と一貫性を向上することにある。 詳細なアノテーションを備えた新たにリリースされた大規模なデータセットは、トピック間のスムーズな移行を示し、自然性や一貫性の観点からは人間らしくなっている。 学術研究と商業応用の双方にとって貴重な資源として機能する。 さらに,提案手法を応用して,ターゲット意図の多種多様な対話を生成することができる。

In recent research on dialogue systems and corpora, there has been a significant focus on two distinct categories: task-oriented (TOD) and open-domain (chit-chat) dialogues. TOD systems aim to satisfy specific user goals, such as finding a movie to watch, whereas open-domain systems primarily focus on generating engaging conversations. A recent study by Chiu et al. (2022) introduced SalesBot, which provides simulators and a dataset with one-turn transition from chit-chat to task-oriented dialogues. However, the previously generated data solely relied on BlenderBot, which raised concerns about its long-turn naturalness and consistency during a conversation. To address this issue, this paper aims to build SalesBot 2.0, a revised version of the published data, by leveraging the commonsense knowledge of large language models (LLMs) through proper prompting. The objective is to gradually bridge the gap between chit-chat and TOD towards better naturalness and consistency. The newly released large-scale dataset with detailed annotations exhibits smoother transitions between topics and is more human-like in terms of naturalness and consistency. It can serve as a valuable resource for both academic research and commercial applications. Furthermore, our proposed framework can be applied to generate numerous dialogues with various target intents.
翻訳日:2023-08-29 15:55:51 公開日:2023-08-28
# 量子超チャネルの実験シミュレーション

Experimental simulation of quantum superchannels ( http://arxiv.org/abs/2308.14262v1 )

ライセンス: Link先を確認
Hang Li, Kai Wang, Shijie Wei, Fan Yang, Xinyu Chen, Barry C. Sanders, Dong-Sheng Wang, and Gui-Lu Long(参考訳) 量子物理過程のシミュレーションは、量子情報科学の主要な動機の1つである。 量子チャネルは完全に正の保存過程であり、量子進化を記述するための標準的な数学的言語であり、近年では量子スーパーチャネルが実質的な拡張として出現している。 超チャネルは量子記憶と非マルコフ性の効果をより正確に捉え、普遍モデル、アルゴリズム、メトロロジー、識別タスクなどに広く応用されている。 本稿では,最近開発されたスーパーチャネルシミュレーションのための量子アルゴリズムに基づいて,核磁気共鳴(nmr)システム内の量子ビットスーパーチャネルを高精度にシミュレーションする。 提案アルゴリズムは任意のターゲット超チャネルに適用し,実験によりNMRシミュレータの短期使用における高品質性を示す。 我々のアプローチは他の実験システムにも適用でき、スーパーチャネルのさらなる応用の可能性を示す。

Simulating quantum physical processes has been one of the major motivations for quantum information science. Quantum channels, which are completely positive and trace preserving processes, are the standard mathematical language to describe quantum evolution, while in recent years quantum superchannels have emerged as the substantial extension. Superchannels capture effects of quantum memory and non-Markovianality more precisely, and have found broad applications in universal models, algorithm, metrology, discrimination tasks, as examples. Here, we report an experimental simulation of qubit superchannels in a nuclear magnetic resonance (NMR) system with high accuracy, based on a recently developed quantum algorithm for superchannel simulation. Our algorithm applies to arbitrary target superchannels, and our experiment shows the high quality of NMR simulators for near-term usage. Our approach can also be adapted to other experimental systems and demonstrates prospects for more applications of superchannels.
翻訳日:2023-08-29 15:55:30 公開日:2023-08-28
# ブレーキング境界: スケーラブルな物理インフォームドニューラルPDE解を用いた分散ドメイン分解

Breaking Boundaries: Distributed Domain Decomposition with Scalable Physics-Informed Neural PDE Solvers ( http://arxiv.org/abs/2308.14258v1 )

ライセンス: Link先を確認
Arthur Feeney, Zitong Li, Ramin Bostanabad, Aparna Chandramowlishwaran(参考訳) Mosaic Flowは、物理インフォームドニューラルネットワークPDEソルバを大規模ドメインに拡張するために設計された、新しい領域分解法である。 その一意なアプローチは、小さな領域上の事前学習されたネットワークを利用して、純粋に推論によって大きな領域上の偏微分方程式を解き、高い再利用性をもたらす。 本稿では,大規模問題の推論にデータ並列トレーニングとドメイン並列性を組み合わせた,モザイクフローのエンドツーエンド並列化を提案する。 ネットワークアーキテクチャとデータ並列トレーニングを最適化することにより、32GPU上でラプラシア演算子を学習するためのトレーニング時間を数分に短縮する。 さらに、分散ドメイン分解アルゴリズムにより、トレーニングドメインの4096倍のドメイン上でLaplace方程式を解くためのスケーラブルな推論を可能にし、32GPU上での精度を維持しながら、強力なスケーリングを示す。 モザイクフローの再利用性は、分散メモリアルゴリズムによる性能向上と相まって、複雑な物理現象のモデル化と科学的発見の促進に有望なツールとなっている。

Mosaic Flow is a novel domain decomposition method designed to scale physics-informed neural PDE solvers to large domains. Its unique approach leverages pre-trained networks on small domains to solve partial differential equations on large domains purely through inference, resulting in high reusability. This paper presents an end-to-end parallelization of Mosaic Flow, combining data parallel training and domain parallelism for inference on large-scale problems. By optimizing the network architecture and data parallel training, we significantly reduce the training time for learning the Laplacian operator to minutes on 32 GPUs. Moreover, our distributed domain decomposition algorithm enables scalable inferences for solving the Laplace equation on domains 4096 times larger than the training domain, demonstrating strong scaling while maintaining accuracy on 32 GPUs. The reusability of Mosaic Flow, combined with the improved performance achieved through the distributed-memory algorithms, makes it a promising tool for modeling complex physical phenomena and accelerating scientific discovery.
翻訳日:2023-08-29 15:55:16 公開日:2023-08-28
# FaceChain: アイデンティティを保存するポートレート生成のためのプレイグラウンド

FaceChain: A Playground for Identity-Preserving Portrait Generation ( http://arxiv.org/abs/2308.14256v1 )

ライセンス: Link先を確認
Yang Liu, Cheng Yu, Lei Shang, Ziheng Wu, Xingjun Wang, Yuze Zhao, Lin Zhu, Chen Cheng, Weitao Chen, Chao Xu, Haoyu Xie, Yuan Yao, Wenmeng Zhou, Yingda Chen, Xuansong Xie, Baigui Sun(参考訳) 最近のパーソナライズ画像生成の進歩により、肖像画画像の集合から身元情報を学ぶための事前学習されたテキストから画像へのモデルの興味をそそる能力が明らかになった。 しかし、既存のソリューションは真に詳しい情報を生み出すのに脆弱であり、通常いくつかの欠陥に悩まされる。 (i)生成した顔は独自の特徴を有しており、顔の形状や顔の特徴位置が入力のキー特性に似ていない場合がある。 (ii)合成顔は、反り、ぼやけたり、腐敗した領域を含むことができる。 本稿では、一連のカスタマイズされた画像生成モデルと、顔検出、深層顔埋め込み抽出、顔属性認識などの顔関連理解モデルを組み合わせた、パーソナライズされたポートレート生成フレームワークFaceChainを紹介し、上記の課題に対処し、少数のポートレートイメージを入力として、真にパーソナライズされたポートレートを生成する。 具体的には、複数のSOTAフェースモデルを生成手順に注入し、DreamBooth ~\cite{ruiz2023dreambooth} 、InstantBooth ~\cite{shi2023instantbooth} 、その他のLoRAのみのアプローチ ~\cite{hu2021lora} といった従来のソリューションと比較して、より効率的なラベルタグ付け、データ処理、モデル後処理を実現する。 FaceChainの開発を通じて、我々はFace/Human-Centric AIGC研究および応用の開発を加速するためのいくつかの潜在的方向を特定した。 私たちは、様々なスタイルやパーソナライズされたニーズに合わせて容易に調整できるプラグイン可能なコンポーネントで構成されるフレームワークとして、FaceChainを設計しました。 コミュニティの急成長するニーズに応えられるように成長できることを願っています。 facechainは、apache-2.0ライセンス下で、 \url{https://github.com/modelscope/facechain}でオープンソースである。

Recent advancement in personalized image generation have unveiled the intriguing capability of pre-trained text-to-image models on learning identity information from a collection of portrait images. However, existing solutions can be vulnerable in producing truthful details, and usually suffer from several defects such as (i) The generated face exhibit its own unique characteristics, \ie facial shape and facial feature positioning may not resemble key characteristics of the input, and (ii) The synthesized face may contain warped, blurred or corrupted regions. In this paper, we present FaceChain, a personalized portrait generation framework that combines a series of customized image-generation model and a rich set of face-related perceptual understanding models (\eg, face detection, deep face embedding extraction, and facial attribute recognition), to tackle aforementioned challenges and to generate truthful personalized portraits, with only a handful of portrait images as input. Concretely, we inject several SOTA face models into the generation procedure, achieving a more efficient label-tagging, data-processing, and model post-processing compared to previous solutions, such as DreamBooth ~\cite{ruiz2023dreambooth} , InstantBooth ~\cite{shi2023instantbooth} , or other LoRA-only approaches ~\cite{hu2021lora} . Through the development of FaceChain, we have identified several potential directions to accelerate development of Face/Human-Centric AIGC research and application. We have designed FaceChain as a framework comprised of pluggable components that can be easily adjusted to accommodate different styles and personalized needs. We hope it can grow to serve the burgeoning needs from the communities. FaceChain is open-sourced under Apache-2.0 license at \url{https://github.com/modelscope/facechain}.
翻訳日:2023-08-29 15:54:57 公開日:2023-08-28
# 人工知能の約束と限界 - Violet Teamingはバランスの取れた道を提供する

The Promise and Peril of Artificial Intelligence -- Violet Teaming Offers a Balanced Path Forward ( http://arxiv.org/abs/2308.14253v1 )

ライセンス: Link先を確認
Alexander J. Titus and Adam H. Russell(参考訳) ai(artificial intelligence, 人工知能)は、セクターにまたがる大きな利益を約束する一方で、デュアルユースポテンシャル、バイアス、意図しない行動からリスクを負う。 本稿では、不透明で制御不能なAIシステムにおける新興問題についてレビューし、信頼性と責任を負うAIを開発するために、紫外チームと呼ばれる統合的フレームワークを提案する。 violet teamingは、倫理と社会的利益を優先しながら、敵対的脆弱性調査(red teaming)と安全性とセキュリティのためのソリューション(blue teaming)を組み合わせる。 それは、設計によって積極的にリスクを管理するAI安全研究から生まれた。 論文は、バイオレットチームに向けた赤、青、紫の進化を追跡し、バイオテクノロジーにおけるaiのバイオセキュリティリスクに対処するためのバイオレット技術の適用について論じている。 追加のセクションでは、法、倫理、サイバーセキュリティ、マクロストラテジー、そして、包括的な技術的および社会的考慮を通じて責任あるAIを運用するために不可欠な業界のベストプラクティスに関する重要な視点をレビューする。 Violet Teamingは、AIトラジェクトリを社会的善に操る哲学と方法の両方を提供する。 良心と知恵によって、AIの異常な能力は人類を豊かにする。 しかし十分な予防策がなければ、そのリスクは破滅的になる可能性がある。 バイオレット・チーム(violet teaming)は、社会福祉のための道徳技術を強化することを目的としている。

Artificial intelligence (AI) promises immense benefits across sectors, yet also poses risks from dual-use potentials, biases, and unintended behaviors. This paper reviews emerging issues with opaque and uncontrollable AI systems and proposes an integrative framework called violet teaming to develop reliable and responsible AI. Violet teaming combines adversarial vulnerability probing (red teaming) with solutions for safety and security (blue teaming) while prioritizing ethics and social benefit. It emerged from AI safety research to manage risks proactively by design. The paper traces the evolution of red, blue, and purple teaming toward violet teaming, and then discusses applying violet techniques to address biosecurity risks of AI in biotechnology. Additional sections review key perspectives across law, ethics, cybersecurity, macrostrategy, and industry best practices essential for operationalizing responsible AI through holistic technical and social considerations. Violet teaming provides both philosophy and method for steering AI trajectories toward societal good. With conscience and wisdom, the extraordinary capabilities of AI can enrich humanity. But without adequate precaution, the risks could prove catastrophic. Violet teaming aims to empower moral technology for the common welfare.
翻訳日:2023-08-29 15:54:20 公開日:2023-08-28
# ニオブリチウム非線形メタサーフェスからの絡み合った光子の偏光工学

Polarization engineering of entangled photons from a lithium niobate nonlinear metasurface ( http://arxiv.org/abs/2308.14251v1 )

ライセンス: Link先を確認
Jinyong Ma, Jihua Zhang, Yuxin Jiang, Tongmiao Fan, Matthew Parry, Dragomir N. Neshev, Andrey A. Sukhorukov(参考訳) 光子対の複素偏光状態は、様々な量子技術において不可欠である。 所望の2光子偏光状態を作成する従来の方法は、偏光性によって生成した量子状態の汎用性とチューニング性を制限できるバルク非線形結晶によって実現される。 本稿では,300ナノメートル厚さのニオブ酸リチウム膜上に多重化シリカを付加した非線形メタサーフェスを用いる。 同一共振波長の単一基板上に2つの直交転移を作製することにより、発光した光子のスペクトル不一致を可能とし、2光子偏光状態が転移配向によって形成できることを実験で実証した。 この本質的性質を生かして, 1つのメタサーフェス上の3つのメタグレーティングを組み合わせることで任意の分極エンタングル量子トリット状態を生成する理論的アプローチを定式化し, 所望の量子状態や情報のエンコーディングを可能にする。 本研究は超薄型メタサーフェスを偏光子源として用いた小型光制御量子デバイスを実現する。

Complex polarization states of photon pairs are indispensable in various quantum technologies. Conventional methods for preparing desired two-photon polarization states are realized through bulky nonlinear crystals, which can restrict the versatility and tunability of the generated quantum states due to the fixed crystal nonlinear susceptibility. Here we present a solution using a nonlinear metasurface incorporating multiplexed silica metagratings on a lithium niobate film of 300 nanometer thickness. We fabricate two orthogonal metagratings on a single substrate with an identical resonant wavelength, thereby enabling the spectral indistinguishability of the emitted photons, and demonstrate in experiments that the two-photon polarization states can be shaped by the metagrating orientation. Leveraging this essential property, we formulate a theoretical approach for generating arbitrary polarization-entangled qutrit states by combining three metagratings on a single metasurface, allowing the encoding of desired quantum states or information. Our findings enable miniaturized optically controlled quantum devices using ultrathin metasurfaces as polarization-entangled photon sources.
翻訳日:2023-08-29 15:53:59 公開日:2023-08-28
# ルールに基づく動作軌跡分類の誤り検出と補正

Rule-Based Error Detection and Correction to Operationalize Movement Trajectory Classification ( http://arxiv.org/abs/2308.14250v1 )

ライセンス: Link先を確認
Bowen Xi, Kevin Scaria, Paulo Shakarian(参考訳) 移動軌道の分類は輸送に多くの応用がある。 スーパービジョンされたニューラルモデルは現在の最先端を表現している。 近年のセキュリティアプリケーションは、トレーニングデータが少ないようなモデルをトレーニングするのに使用されるデータとは異なる環境において、このタスクを迅速に採用する必要がある。 我々は,これらのモデルの誤り訂正と検出を行い,最終的なセキュリティアプリケーションへの展開を支援するニューロシンボリックルールベースのフレームワークを提供する。 我々は、最近のいくつかのモデルと最先端モデルに関する一連の実験を行い、全てのクラスが訓練中に存在する場合のSOTAモデルに対して1.7%の精度向上を示し、40%のクラスがトレーニングから省略された場合、ベースモデルの再訓練に頼らずに、SOTAモデルに対して5.2%の改善(ゼロショット)と23.9%の改善(ファウショット)を得る。

Classification of movement trajectories has many applications in transportation. Supervised neural models represent the current state-of-the-art. Recent security applications require this task to be rapidly employed in environments that may differ from the data used to train such models for which there is little training data. We provide a neuro-symbolic rule-based framework to conduct error correction and detection of these models to support eventual deployment in security applications. We provide a suite of experiments on several recent and state-of-the-art models and show an accuracy improvement of 1.7% over the SOTA model in the case where all classes are present in training and when 40% of classes are omitted from training, we obtain a 5.2% improvement (zero-shot) and 23.9% (few-shot) improvement over the SOTA model without resorting to retraining of the base model.
翻訳日:2023-08-29 15:53:39 公開日:2023-08-28
# ナノケルビン量子温度計によるボース・アインシュタイン凝縮体中の時間的アンルー効果の検出

Using nanokelvin quantum thermometry to detect timelike Unruh effect in a Bose-Einstein condensate ( http://arxiv.org/abs/2308.14246v1 )

ライセンス: Link先を確認
Zehua Tian, and Jiliang Jing(参考訳) ウンルー効果は、左と右のリンドラー・ウェッジにまたがる2つのモード間の絡み合いから生じるだけでなく、未来と過去の光円錐にまたがるモードからも生じる。 さらに、これらのコーンの1つにおける時空軌道に沿った慣性unruh-dewitt検出器は、リンドラーウェッジに閉じ込められた加速検出器と同じ熱応答を示すことができる。 この機能は、対応する時間的unruh効果と呼ばれる`unruh効果を検証する代替候補となる可能性がある。 本稿では,Bose-Einstein condensate (BEC) に浸漬した不純物を用いて,時間的アンルー効果を検出することを提案する。 不純物は凝縮体の密度変動と相互作用する検出器として働き、効果的な量子場として機能する。 量子温度測定の新たな分野のパラダイムに従うと、量子パラメータ推定理論とオープン量子系の理論を組み合わせることで、ナノケルビン(nK)系における非劣化アンルー温度測定を実現する。 以上の結果から, 時間依存エネルギーギャップを現在のbecに浸漬した定常2レベル不純物を用いて, 時間的unruh効果を探究できることを示した。

It is found that the Unruh effect can not only arise out of the entanglement between two sets of modes spanning the left and right Rindler wedges, but also between modes spanning the future and past light cones. Furthermore, an inertial Unruh-DeWitt detector along a spacetime trajectory in one of these cones may exhibit the same thermal response to the vacuum as that of an accelerated detector confined in the Rindler wedge. This feature thus could be an alternative candidate to verify the ``Unruh effect", termed as the timelike Unruh effect correspondingly. In this paper we propose to detect the timelike Unruh effect by using an impurity immersed in a Bose-Einstein condensate (BEC). The impurity acts as the detector which interacts with the density fluctuations in the condensate, working as an effective quantum field. Following the paradigm of the emerging field of quantum thermometry, we combine quantum parameter estimation theory with the theory of open quantum systems to realize a nondemolition Unruh temperature measurement in the nanokelvin (nK) regime. Our results demonstrate that the timelike Unruh effect can be probed using a stationary two-level impurity with time-dependent energy gap immersed in a BEC within current technologies.
翻訳日:2023-08-29 15:53:22 公開日:2023-08-28
# プレコンディショナーによる注意カーネル回帰問題の解法

Solving Attention Kernel Regression Problem via Pre-conditioner ( http://arxiv.org/abs/2308.14304v1 )

ライセンス: Link先を確認
Zhao Song, Junze Yin, Lichen Zhang(参考訳) 大規模な言語モデルは、多くのタスクで素晴らしいパフォーマンスを示している。 計算の観点からの大きな特徴の1つは注意行列の計算である。 以前の作品(ザンディー、ハン、ダリリ、カルバ2023、アルマン、ソン2023)は、注意行列の近似の可能性と不可能性を正式に研究している。 本研究では,注意核回帰問題と呼ばれる新しい問題を定義し,研究する。 本稿では,データ行列の入力スパーシティ時間における注意核回帰の解法を示す。

Large language models have shown impressive performance in many tasks. One of the major features from the computation perspective is computing the attention matrix. Previous works [Zandieh, Han, Daliri, and Karba 2023, Alman and Song 2023] have formally studied the possibility and impossibility of approximating the attention matrix. In this work, we define and study a new problem which is called the attention kernel regression problem. We show how to solve the attention kernel regression in the input sparsity time of the data matrix.
翻訳日:2023-08-29 15:45:51 公開日:2023-08-28
# キャリアカウンセリングにおける人工知能 : ResumAIを用いたテスト事例

Artificial Intelligence in Career Counseling: A Test Case with ResumAI ( http://arxiv.org/abs/2308.14301v1 )

ライセンス: Link先を確認
Muhammad Rahman, Sachi Figliolini, Joyce Kim, Eivy Cedeno, Charles Kleier, Chirag Shah, Aman Chadha(参考訳) 人工知能(AI)の台頭は、タスクにおける効率性の提供を目的としたAIの統合の様々な手段をもたらし、その1つはキャリアカウンセリングである。 仕事を得る上で重要な部分は、プログラムとリクルーターの第1ラウンドを通過する堅実な履歴書を持つことだ。 特定の役割の履歴書の編集を手伝うために、良いリソースを見つけたり、キャリアカウンセラーと予定を立てたりすることは困難である。 ChatGPTやBard、その他いくつかのAIチャットプログラムの台頭により、さまざまな関心事に対する具体的な自動フィードバックを提供して、キャリアカウンセリングのコンテキスト内で改善すべき場所を提案することが可能になる。 本稿では,キャリアカウンセリングにおけるAIの倫理的考察と限界について,簡単な文献レビューから始める。 著者らは、AIキャリアカウンセラーの機能のテストとレビューを行うために、独自のWebサイトサービスResumAIも開発した。 本研究の結果は,チャットAI ResumAIレビュアプログラムやサイトに対する理解に寄与する。 キャリアカウンセリング、ai開発、倫理的実践の分野における調査結果の意義について考察する。

The rise of artificial intelligence (AI) has led to various means of integration of AI aimed to provide efficiency in tasks, one of which is career counseling. A key part of getting a job is having a solid resume that passes through the first round of programs and recruiters. It is difficult to find good resources or schedule an appointment with a career counselor to help with editing a resume for a specific role. With the rise of ChatGPT, Bard, and several other AI chat programs it is possible to provide specific, automated feedback on various concerns to suggest places for improvement within the context of career counseling. This paper begins with a quick literature review on the ethical considerations and limitations of AI in career counseling. The authors also have created their own website service, called ResumAI, to test and review the functionality of an AI career counselor. The findings of this study will contribute to the understanding of chat AI ResumAI reviewer programs and sites. The implications of the findings for the field of career counseling, AI development, and ethical practice will be discussed.
翻訳日:2023-08-29 15:45:24 公開日:2023-08-28
# 直接初期軌道決定

Direct initial orbit determination ( http://arxiv.org/abs/2308.14298v1 )

ライセンス: Link先を確認
Chee-Kheng Chng, Trent Jansen-Sturgeon, Timothy Payne, Tat-Jun Chin(参考訳) 初期軌道決定 (iod) は、居住する宇宙物体の複数の光学観測を理解・調整するプロセスチェーンにおいて重要な初期段階である。 IOD法は一般的に、物体の画像から抽出されたLOSベクトルで動作するため、LOSベクトルは生光学測定の離散点サンプルとして見ることができる。 通常、IOD法で使用されるLOSベクトルの数は、利用可能な測定値(ピクセル強度値の集合)よりもはるかに小さいため、現在のIOD法は、データに存在するリッチな情報を過小評価する。 本稿では、LOS抽出を必要とせず、観測されたストリーク画像に直接軌道パラメータを適合させるD-IODと呼ばれるemph{direct} IOD法を提案する。 LOSベクトルを使わないため、D-IODは不完全なLOS抽出ステップによる潜在的な不正確さやエラーを避ける。 まず、候補軌道生成ストレーク画像と観測されたストレーク画像の損失を計算する非線形最小二乗関数を導入する。 第2に,対象関数は勾配降下法によって最小化され,この手法はstreak画像に対して提案する最適化戦略に組み込まれている。 本研究では,d-iodの有効性を,様々なシミュレーションシナリオで実証し,実像に挑戦する。

Initial orbit determination (IOD) is an important early step in the processing chain that makes sense of and reconciles the multiple optical observations of a resident space object. IOD methods generally operate on line-of-sight (LOS) vectors extracted from images of the object, hence the LOS vectors can be seen as discrete point samples of the raw optical measurements. Typically, the number of LOS vectors used by an IOD method is much smaller than the available measurements (\ie, the set of pixel intensity values), hence current IOD methods arguably under-utilize the rich information present in the data. In this paper, we propose a \emph{direct} IOD method called D-IOD that fits the orbital parameters directly on the observed streak images, without requiring LOS extraction. Since it does not utilize LOS vectors, D-IOD avoids potential inaccuracies or errors due to an imperfect LOS extraction step. Two innovations underpin our novel orbit-fitting paradigm: first, we introduce a novel non-linear least-squares objective function that computes the loss between the candidate-orbit-generated streak images and the observed streak images. Second, the objective function is minimized with a gradient descent approach that is embedded in our proposed optimization strategies designed for streak images. We demonstrate the effectiveness of D-IOD on a variety of simulated scenarios and challenging real streak images.
翻訳日:2023-08-29 15:44:47 公開日:2023-08-28
# RecMind:リコメンデーションのための大規模言語モデルパワードエージェント

RecMind: Large Language Model Powered Agent For Recommendation ( http://arxiv.org/abs/2308.14296v1 )

ライセンス: Link先を確認
Yancheng Wang, Ziyan Jiang, Zheng Chen, Fan Yang, Yingxue Zhou, Eunah Cho, Xing Fan, Xiaojiang Huang, Yanbin Lu, Yingzhen Yang(参考訳) 大規模言語モデル(LLM)に外部ツールの利用と多段階計画の実行を指示する最近の進歩は、数学的問題から創造的記述まで、複雑なタスクを解く能力を大幅に強化した。 しかし、レコメンデーション要求などのパーソナライズされたクエリに応答するLLMの能力について、注目すべきギャップがある。 このギャップを埋めるため,我々は,注意深い計画によるパーソナライズドレコメンデーション,外部知識獲得ツールの利用,個人データの活用が可能な,llmを活用した自律型レコメンデーションエージェントremindを設計した。 LLMエージェントの計画能力を向上させるための新しいアルゴリズムであるSelf-Inspireを提案する。 それぞれの中間計画ステップにおいて、llmは、以前に検討されたすべての州を次のステップに計画することを「自己刺激」する。 このメカニズムは、過去の計画情報を理解し、活用するモデルの能力を大幅に改善する。 評価予測,逐次推薦,直接推薦,説明生成,要約など,さまざまなレコメンデーションシナリオにおけるremindの性能評価を行った。 我々の実験では,RecMind は既存のゼロ/ファウショット LLM ベースのレコメンデーションメソッドを異なるレコメンデーションタスクで上回り,最近のモデル P5 と競合する性能を達成し,レコメンデーションタスクに完全に事前訓練を必要とする。

Recent advancements in instructing Large Language Models (LLMs) to utilize external tools and execute multi-step plans have significantly enhanced their ability to solve intricate tasks, ranging from mathematical problems to creative writing. Yet, there remains a notable gap in studying the capacity of LLMs in responding to personalized queries such as a recommendation request. To bridge this gap, we have designed an LLM-powered autonomous recommender agent, RecMind, which is capable of providing precise personalized recommendations through careful planning, utilizing tools for obtaining external knowledge, and leveraging individual data. We propose a novel algorithm, Self-Inspiring, to improve the planning ability of the LLM agent. At each intermediate planning step, the LLM 'self-inspires' to consider all previously explored states to plan for next step. This mechanism greatly improves the model's ability to comprehend and utilize historical planning information for recommendation. We evaluate RecMind's performance in various recommendation scenarios, including rating prediction, sequential recommendation, direct recommendation, explanation generation, and review summarization. Our experiment shows that RecMind outperforms existing zero/few-shot LLM-based recommendation methods in different recommendation tasks and achieves competitive performance to a recent model P5, which requires fully pre-train for the recommendation tasks.
翻訳日:2023-08-29 15:44:25 公開日:2023-08-28
# 強化学習による交通光制御

Traffic Light Control with Reinforcement Learning ( http://arxiv.org/abs/2308.14295v1 )

ライセンス: Link先を確認
Taoyu Pan(参考訳) 交通光制御は都市交通システムにおける混雑軽減に重要である。 本稿では,ディープq学習を用いたリアルタイム交通光制御手法を提案する。 提案手法では,待ち時間,遅延,移動時間,スループットを考慮した報酬関数を組み込んだ。 モデルは現在の交通条件に基づいて動的に位相変化を決定する。 ディープQネットワークのトレーニングには、事前生成したデータから固定スケジュールのオフラインステージと、リアルタイムトラフィックデータを使用したオンラインステージが含まれる。 位相ゲート」コンポーネントを備えた深Qネットワーク構造を用いて、異なる位相下でのモデルの学習タスクを簡素化する。 トレーニングプロセス中にサンプルの不均衡に対処するために"メモリパレス"メカニズムが使用される。 中国杭州市で交差する道路における合成交通流データと実世界の交通流データを用いて,我々のアプローチを検証する。 その結果、車両待ち時間(57.1%から100%)、待ち行列長(40.9%から100%)、総走行時間(16.8%から68.0%)を従来の固定信号計画と比較して大幅に改善した。

Traffic light control is important for reducing congestion in urban mobility systems. This paper proposes a real-time traffic light control method using deep Q learning. Our approach incorporates a reward function considering queue lengths, delays, travel time, and throughput. The model dynamically decides phase changes based on current traffic conditions. The training of the deep Q network involves an offline stage from pre-generated data with fixed schedules and an online stage using real-time traffic data. A deep Q network structure with a "phase gate" component is used to simplify the model's learning task under different phases. A "memory palace" mechanism is used to address sample imbalance during the training process. We validate our approach using both synthetic and real-world traffic flow data on a road intersecting in Hangzhou, China. Results demonstrate significant performance improvements of the proposed method in reducing vehicle waiting time (57.1% to 100%), queue lengths (40.9% to 100%), and total travel time (16.8% to 68.0%) compared to traditional fixed signal plans.
翻訳日:2023-08-29 15:43:57 公開日:2023-08-28
# スケーラブルCMOSプラットフォームによるスピン光子界面の不均一結合

Heterogeneous integration of spin-photon interfaces with a scalable CMOS platform ( http://arxiv.org/abs/2308.14289v1 )

ライセンス: Link先を確認
Linsen Li, Lorenzo De Santis, Isaac Harris, Kevin C. Chen, Ian Christen, Matthew Trusheim, Yixuan Song, Yihuai Gao, Carlos Errando-Herranz, Jiahui Du, Genevieve Clark, Mohamed I. Ibrahim, Gerald Gilbert, Ruonan Han and Dirk Englund(参考訳) ダイアモンドのカラーセンターは、ディヴィンチェンツォの基準を満たし、最近秘密鍵分布における量子優位を達成した量子技術の発展のための主要な固体プラットフォームとして登場した。 最近の理論的研究は、局所的な量子通信ネットワークを用いた汎用量子コンピューティングは数千の論理量子ビットを符号化するために数百万の物理量子ビットを必要とすると見積もっている。 未解決のスケーリング問題に対処するため,我々はまず,低温アプリケーション専用集積回路(ASIC)上に,スズ空き(SnV-)スピンキュービットを含むコンパクトな2次元配列 "量子マイクロチップ" (QMC) を備えたスケーラブルなハードウェアモジュールアーキテクチャ "Quantum System-on-Chip" (QSoC) を導入する。 1) 大規模異種統合のためのロック・アンド・リリース法によるqsoc生成, (2) スピン量子ビットスペクトル不均質登録のためのqsocの高スループットキャリブレーション, 3) スピン量子ビットスペクトル調整機能による不均質補償, (4) スピン状態の効率的な作成と測定, スピンおよび光学特性の改善など, 重要なアーキテクチャサブコンポーネントを実証する。 QSoCアーキテクチャは、異なる共振周波数の量子メモリアレイの完全な接続をサポートし、より大きく密度の高いQMCアレイと光周波数多重ネットワークを介して、固体物理量子ビットの数をさらにスケーリングすることを可能にする。

Color centers in diamonds have emerged as a leading solid-state platform for advancing quantum technologies, satisfying the DiVincenzo criteria and recently achieving a quantum advantage in secret key distribution. Recent theoretical works estimate that general-purpose quantum computing using local quantum communication networks will require millions of physical qubits to encode thousands of logical qubits, which presents a substantial challenge to the hardware architecture at this scale. To address the unanswered scaling problem, in this work, we first introduce a scalable hardware modular architecture "Quantum System-on-Chip" (QSoC) that features compact two-dimensional arrays "quantum microchiplets" (QMCs) containing tin-vacancy (SnV-) spin qubits integrated on a cryogenic application-specific integrated circuit (ASIC). We demonstrate crucial architectural subcomponents, including (1) QSoC fabrication via a lock-and-release method for large-scale heterogeneous integration; (2) a high-throughput calibration of the QSoC for spin qubit spectral inhomogenous registration; (3) spin qubit spectral tuning functionality for inhomogenous compensation; (4) efficient spin-state preparation and measurement for improved spin and optical properties. QSoC architecture supports full connectivity for quantum memory arrays in a set of different resonant frequencies and offers the possibility for further scaling the number of solid-state physical qubits via larger and denser QMC arrays and optical frequency multiplexing networking.
翻訳日:2023-08-29 15:43:41 公開日:2023-08-28
# 高密度物体検出における蒸留用クロスタスクプロトコルの不整合のブリッジング

Bridging Cross-task Protocol Inconsistency for Distillation in Dense Object Detection ( http://arxiv.org/abs/2308.14286v1 )

ライセンス: Link先を確認
Longrong Yang, Xianpan Zhou, Xuewei Li, Liang Qiao, Zheyang Li, Ziwei Yang, Gaoang Wang, Xi Li(参考訳) 知識蒸留(kd)は高密度物体検出においてコンパクトモデルを学ぶ可能性を示した。 しかし、一般的に用いられるソフトマックスベースの蒸留は、個々のカテゴリの絶対的な分類スコアを無視している。 したがって、蒸留損失の最適化は、高密度物体検出器の最適学生分類スコアを必ずしも生かさない。 このクロスタスクプロトコルの不整合は、特に高密度物体検出器では、フォアグラウンドのカテゴリーは極めて不均衡である。 蒸留と分類のプロトコルの違いに対処するため,高密度物体検出に適したクロスタスク一貫したプロトコルを用いた新しい蒸留法を提案する。 分類蒸留では,教師モデルと学生モデルの両方の分類ロジットマップを複数の二分分類マップとして定式化し,各地図に二分分類蒸留損失を適用することで,クロスタスクプロトコルの不整合問題に対処する。 ローカル化蒸留では, 特定のネットワーク構造を伴わず, 既存のローカライゼーション蒸留損失と比較可能な, IoUベースのローカライゼーション蒸留損失を設計する。 提案手法は単純だが有効であり,既存の手法よりも優れていることを示す実験結果である。 コードはhttps://github.com/TinyTigerPan/BCKDで入手できる。

Knowledge distillation (KD) has shown potential for learning compact models in dense object detection. However, the commonly used softmax-based distillation ignores the absolute classification scores for individual categories. Thus, the optimum of the distillation loss does not necessarily lead to the optimal student classification scores for dense object detectors. This cross-task protocol inconsistency is critical, especially for dense object detectors, since the foreground categories are extremely imbalanced. To address the issue of protocol differences between distillation and classification, we propose a novel distillation method with cross-task consistent protocols, tailored for the dense object detection. For classification distillation, we address the cross-task protocol inconsistency problem by formulating the classification logit maps in both teacher and student models as multiple binary-classification maps and applying a binary-classification distillation loss to each map. For localization distillation, we design an IoU-based Localization Distillation Loss that is free from specific network structures and can be compared with existing localization distillation losses. Our proposed method is simple but effective, and experimental results demonstrate its superiority over existing methods. Code is available at https://github.com/TinyTigerPan/BCKD.
翻訳日:2023-08-29 15:43:04 公開日:2023-08-28
# LLMによる交通信号制御のためのSim-to-real転送

LLM Powered Sim-to-real Transfer for Traffic Signal Control ( http://arxiv.org/abs/2308.14284v1 )

ライセンス: Link先を確認
Longchao Da, Minchiuan Gao, Hao Mei, Hua Wei(参考訳) 交通信号制御(TSC)の課題に対して,効率的な輸送と渋滞の軽減を目的とした多くの解決策が提案されている。 近年,シミュレータの試行錯誤による強化学習 (Reinforcement Learning, RL) 手法によって有望な結果が得られ,都市での混雑頭痛の解決に自信が持たれている。 しかし、シミュレータ訓練されたポリシーが現実世界にデプロイされる際には、まだパフォーマンスのギャップが残っている。 この問題は主に、トレーニングシミュレータと実環境とのシステムの動的差異によって引き起こされる。 大規模言語モデル(LLM)は大量知識に基づいて訓練されており、驚くべき推論能力を備えていることが判明した。 本研究では,llmを利用して,プロンプトベースの接地行動変換によるシステムダイナミクスの理解とプロファイルを行う。 クローズプロンプトテンプレートを受信し、アクセス可能なコンテキストに基づいて回答を入力し、事前学習したLCMの推論能力を利用して、気象条件、交通状況、道路タイプが交通力学にどのように影響するかを理解し、これを認識し、現実的なダイナミクスに基づいてポリシーのアクションを取り込み、グラウンドドするので、エージェントはより現実的なポリシーを学ぶのに役立つ。 我々はDQNを用いてシミュレーションから現実(シミュレート・トゥ・リアル)までの性能ギャップを緩和するPromptGATの有効性を示す実験を行った。

Numerous solutions are proposed for the Traffic Signal Control (TSC) tasks aiming to provide efficient transportation and mitigate congestion waste. In recent, promising results have been attained by Reinforcement Learning (RL) methods through trial and error in simulators, bringing confidence in solving cities' congestion headaches. However, there still exist performance gaps when simulator-trained policies are deployed to the real world. This issue is mainly introduced by the system dynamic difference between the training simulator and the real-world environments. The Large Language Models (LLMs) are trained on mass knowledge and proved to be equipped with astonishing inference abilities. In this work, we leverage LLMs to understand and profile the system dynamics by a prompt-based grounded action transformation. Accepting the cloze prompt template, and then filling in the answer based on accessible context, the pre-trained LLM's inference ability is exploited and applied to understand how weather conditions, traffic states, and road types influence traffic dynamics, being aware of this, the policies' action is taken and grounded based on realistic dynamics, thus help the agent learn a more realistic policy. We conduct experiments using DQN to show the effectiveness of the proposed PromptGAT's ability in mitigating the performance gap from simulation to reality (sim-to-real).
翻訳日:2023-08-29 15:42:43 公開日:2023-08-28
# fonmtl: fon言語のためのマルチタスク学習に向けて

FonMTL: Towards Multitask Learning for the Fon Language ( http://arxiv.org/abs/2308.14280v1 )

ライセンス: Link先を確認
Bonaventure F. P. Dossou, Iffanice Houndayi, Pamely Zantou, Gilles Hacheme(参考訳) 平均200万人が話すFon言語は、本当に低リソースのアフリカの言語で、オンラインプレゼンスに制限があり、既存のデータセット(名前だけ)がある。 マルチタスク学習(multitask learning)は、異なるが関連するタスク間で知識を共有することによって、モデルの一般化能力を向上させることを目的とした学習パラダイムである。 本稿では,fon言語の自然言語処理におけるモデル能力向上のためのマルチタスク学習への最初の探索的アプローチを提案する。 具体的には、Fon における Named Entity Recognition (NER) と Part of Speech Tagging (POS) のタスクについて検討する。 我々は2つの言語モデルヘッドをエンコーダとして利用して入力の共有表現を構築し,各タスクに対して線形層ブロックを用いて分類する。 fonのnerタスクとposタスクの結果は,単一タスクで微調整された複数の多言語事前学習言語モデルと比較して,競争力(あるいは優れた)パフォーマンスを示している。 さらに,2つの損失組合せ戦略の効率性を活用し,同値損失重み付け手法が最適であることを示すために,いくつかのアブレーション研究を行った。 私たちのコードはhttps://github.com/bonaventuredossou/multitask_fonでオープンソースです。

The Fon language, spoken by an average 2 million of people, is a truly low-resourced African language, with a limited online presence, and existing datasets (just to name but a few). Multitask learning is a learning paradigm that aims to improve the generalization capacity of a model by sharing knowledge across different but related tasks: this could be prevalent in very data-scarce scenarios. In this paper, we present the first explorative approach to multitask learning, for model capabilities enhancement in Natural Language Processing for the Fon language. Specifically, we explore the tasks of Named Entity Recognition (NER) and Part of Speech Tagging (POS) for Fon. We leverage two language model heads as encoders to build shared representations for the inputs, and we use linear layers blocks for classification relative to each task. Our results on the NER and POS tasks for Fon, show competitive (or better) performances compared to several multilingual pretrained language models finetuned on single tasks. Additionally, we perform a few ablation studies to leverage the efficiency of two different loss combination strategies and find out that the equal loss weighting approach works best in our case. Our code is open-sourced at https://github.com/bonaventuredossou/multitask_fon.
翻訳日:2023-08-29 15:42:18 公開日:2023-08-28
# グッドハートの法則がNLPの説明基準に適用される

Goodhart's Law Applies to NLP's Explanation Benchmarks ( http://arxiv.org/abs/2308.14272v1 )

ライセンス: Link先を確認
Jennifer Hsia, Danish Pruthi, Aarti Singh, Zachary C. Lipton(参考訳) 敬礼に基づく説明の人気は高まっているが、研究コミュニティは、彼らの目的、有効性、そして互いに矛盾する傾向に疑問を呈し、相容れないままである。 共通目標に関するコミュニティの取り組みをまとめるために、いくつかの最近の研究が評価指標を提案している。 本稿では,ERASERメトリクス(包括性と充足性)とEVAL-Xメトリクスの2つの尺度を批判的に検討し,自然言語処理に関する調査に焦点をあてる。 まず,実験結果の予測や説明を変えることなく,モデルの包括性と充足率を劇的に向上させることができることを示す。 筆者らの戦略は, 抽出された説明文とその補完文が相互に「支持外」である傾向と, 分配内入力を生かしている。 次に、EVAL-Xの指標をラベルを符号化する単純な方法により任意の方法でインフレーションできることを実証する。 我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。

Despite the rising popularity of saliency-based explanations, the research community remains at an impasse, facing doubts concerning their purpose, efficacy, and tendency to contradict each other. Seeking to unite the community's efforts around common goals, several recent works have proposed evaluation metrics. In this paper, we critically examine two sets of metrics: the ERASER metrics (comprehensiveness and sufficiency) and the EVAL-X metrics, focusing our inquiry on natural language processing. First, we show that we can inflate a model's comprehensiveness and sufficiency scores dramatically without altering its predictions or explanations on in-distribution test inputs. Our strategy exploits the tendency for extracted explanations and their complements to be "out-of-support" relative to each other and in-distribution inputs. Next, we demonstrate that the EVAL-X metrics can be inflated arbitrarily by a simple method that encodes the label, even though EVAL-X is precisely motivated to address such exploits. Our results raise doubts about the ability of current metrics to guide explainability research, underscoring the need for a broader reassessment of what precisely these metrics are intended to capture.
翻訳日:2023-08-29 15:41:58 公開日:2023-08-28
# 生成型aiのための強化学習:調査

Reinforcement Learning for Generative AI: A Survey ( http://arxiv.org/abs/2308.14328v1 )

ライセンス: Link先を確認
Yuanjiang Cao and Lina Yao and Julian McAuley and Quan Z. Sheng(参考訳) Deep Generative AIは、テキスト生成やコンピュータビジョンなど、多くのアプリケーション領域に影響を与える可能性がある、機械学習コミュニティにおいて、長年にわたって重要なトピックだった。 生成モデルを学ぶための主要なパラダイムは、モデル分布とターゲット分布との分岐を減少させることで、学習者が目標データ分布をキャプチャし、近似するように促す最大確率推定である。 この定式化は、ユーザが生成モデルから期待する全ての要件を満たすことができないにもかかわらず、生成タスクの目的をうまく確立する。 強化学習は、新しい信号を利用する新しい目標を作成することで、新しい訓練信号を注入する競争的選択肢として機能し、敵対的学習、手作りルール、学習報酬モデルなど、複数の角度から人間の帰納バイアスを組み込む能力と柔軟性を実証した。 これにより、強化学習はトレンド研究分野となり、モデル設計と応用の両方における生成AIの限界を拡大した。 近年の進歩を包括的レビューで要約し、結論付けるのが妥当である。 最近、さまざまなアプリケーション領域で調査が行われていますが、この調査は、さまざまなアプリケーション領域にまたがるハイレベルなレビューに光を当てることを目的としています。 この領域では厳密な分類法を提供し、様々なモデルや応用について十分なカバレッジを提供している。 特に,開発速度の速い大規模言語モデル領域についても調査した。 この調査は、現在のモデルの限界に対処し、生成AIのフロンティアを拡大する可能性のある潜在的方向を示すことで締めくくられる。

Deep Generative AI has been a long-standing essential topic in the machine learning community, which can impact a number of application areas like text generation and computer vision. The major paradigm to train a generative model is maximum likelihood estimation, which pushes the learner to capture and approximate the target data distribution by decreasing the divergence between the model distribution and the target distribution. This formulation successfully establishes the objective of generative tasks, while it is incapable of satisfying all the requirements that a user might expect from a generative model. Reinforcement learning, serving as a competitive option to inject new training signals by creating new objectives that exploit novel signals, has demonstrated its power and flexibility to incorporate human inductive bias from multiple angles, such as adversarial learning, hand-designed rules and learned reward model to build a performant model. Thereby, reinforcement learning has become a trending research field and has stretched the limits of generative AI in both model design and application. It is reasonable to summarize and conclude advances in recent years with a comprehensive review. Although there are surveys in different application areas recently, this survey aims to shed light on a high-level review that spans a range of application areas. We provide a rigorous taxonomy in this area and make sufficient coverage on various models and applications. Notably, we also surveyed the fast-developing large language model area. We conclude this survey by showing the potential directions that might tackle the limit of current models and expand the frontiers for generative AI.
翻訳日:2023-08-29 15:33:37 公開日:2023-08-28
# ネットワークグラフを用いた存在論的不協和の解法

Towards solving ontological dissonance using network graphs ( http://arxiv.org/abs/2308.14326v1 )

ライセンス: Link先を確認
Maximilian Staebler, Frank Koester, Christoph Schlueter-Langdon(参考訳) データ空間は、データベースのアプリケーションとビジネスモデルの信頼できる実装のための新しい概念であり、すべての利害関係者に高い柔軟性と主権を提供する。 Data Spacesは現在、モビリティ、ヘルス、フードなどさまざまな領域で登場しているため、これらのData Spacesの技術的相互運用性を保証するためにセマンティックインターフェースを識別および実装する必要がある。 本論文は,13の異なる領域のデータモデルを統合し,それらの領域のオントロジ不協和を解析する。 ネットワークグラフを用いて中央データモデルとオントロジー属性を同定し、それらのドメインの意味的多様性を定性的に記述する。 調査の見通しは、これらの結果がドメイン間の異なるデータ空間の接続にどのように役立つかを説明している。

Data Spaces are an emerging concept for the trusted implementation of data-based applications and business models, offering a high degree of flexibility and sovereignty to all stakeholders. As Data Spaces are currently emerging in different domains such as mobility, health or food, semantic interfaces need to be identified and implemented to ensure the technical interoperability of these Data Spaces. This paper consolidates data models from 13 different domains and analyzes the ontological dissonance of these domains. Using a network graph, central data models and ontology attributes are identified, while the semantic heterogeneity of these domains is described qualitatively. The research outlook describes how these results help to connect different Data Spaces across domains.
翻訳日:2023-08-29 15:33:10 公開日:2023-08-28
# CPFES:カナダのアジリティと運動スキル評価に基づく体力評価

CPFES: Physical Fitness Evaluation Based on Canadian Agility and Movement Skill Assessment ( http://arxiv.org/abs/2308.14324v1 )

ライセンス: Link先を確認
Pengcheng Dong, Xiaojin Mao, Lixia Fan, Wenbo Wan, Jiande Sun(参考訳) 近年,身体教育と統合した基本的な運動能力の評価は,授業実践と評価可能性の両方に焦点が当てられている。 評価対象は多年齢から分断年齢へと変化し,評価内容は複雑で時間のかかるものから簡潔で効率的なものへと変化した。 そこで本研究では,CAMSAに基づく子どもの体力評価システムであるCanadian Agility and Movement Skill Assessment (CAMSA) Physical Fitness Evaluation System (CPFES)を提案する。 我々はランドマーク検出モジュールとポーズ推定モジュールを設計し、また、テスト中の子供の動作を効果的に評価できるCAMSA基準のためのポーズ評価モジュールも設計した。 実験の結果,提案方式の精度が向上した。

In recent years, the assessment of fundamental movement skills integrated with physical education has focused on both teaching practice and the feasibility of assessment. The object of assessment has shifted from multiple ages to subdivided ages, while the content of assessment has changed from complex and time-consuming to concise and efficient. Therefore, we apply deep learning to physical fitness evaluation, we propose a system based on the Canadian Agility and Movement Skill Assessment (CAMSA) Physical Fitness Evaluation System (CPFES), which evaluates children's physical fitness based on CAMSA, and gives recommendations based on the scores obtained by CPFES to help children grow. We have designed a landmark detection module and a pose estimation module, and we have also designed a pose evaluation module for the CAMSA criteria that can effectively evaluate the actions of the child being tested. Our experimental results demonstrate the high accuracy of the proposed system.
翻訳日:2023-08-29 15:32:57 公開日:2023-08-28
# 確率的教師ネットワークに基づく機械学習方法論

Machine Unlearning Methodology base on Stochastic Teacher Network ( http://arxiv.org/abs/2308.14322v1 )

ライセンス: Link先を確認
Xulong Zhang, Jianzong Wang, Ning Cheng, Yifu Sun, Chuanyao Zhang, Jing Xiao(参考訳) 忘れられる権利」という現象が高まり、機械学習の研究が促進され、データ所有者はモデルトレーニングに使われたデータを積極的に取り出す権利を与えられるようになり、モデルへのデータの貢献の排除が求められるようになった。 これを実現するための簡単な方法は、モデルの再トレーニングに残りのデータを使用することだが、トレーニングを継続する他のデータ所有者には受け入れられない。 既存の機械学習手法は、ディープラーニングモデルから知識を素早く取り除くのに効果がないことが判明した。 本稿では,教師としての確率的ネットワークを用いて,忘れられたデータによる影響の軽減を図ることを提案する。 3つのデータセットで実験を行い,提案手法が1時間以内のモデルに対する対象データの影響を効果的に軽減できることを実証した。 これにより、モデルのワンタイム消去と再構築が可能となり、再構成モデルは再訓練されたモデルと同じ性能を達成する。

The rise of the phenomenon of the "right to be forgotten" has prompted research on machine unlearning, which grants data owners the right to actively withdraw data that has been used for model training, and requires the elimination of the contribution of that data to the model. A simple method to achieve this is to use the remaining data to retrain the model, but this is not acceptable for other data owners who continue to participate in training. Existing machine unlearning methods have been found to be ineffective in quickly removing knowledge from deep learning models. This paper proposes using a stochastic network as a teacher to expedite the mitigation of the influence caused by forgotten data on the model. We performed experiments on three datasets, and the findings demonstrate that our approach can efficiently mitigate the influence of target data on the model within a single epoch. This allows for one-time erasure and reconstruction of the model, and the reconstruction model achieves the same performance as the retrained model.
翻訳日:2023-08-29 15:32:41 公開日:2023-08-28
# 診断予測のための大規模言語モデルへの医療知識グラフの活用

Leveraging A Medical Knowledge Graph into Large Language Models for Diagnosis Prediction ( http://arxiv.org/abs/2308.14321v1 )

ライセンス: Link先を確認
Yanjun Gao, Ruizhe Li, John Caskey, Dmitriy Dligach, Timothy Miller, Matthew M. Churpek and Majid Afshar(参考訳) エレクトロニック・ヘルス・レコーズ(EHR)と定期的なドキュメンテーションは患者の日常生活において重要な役割を担い、健康、診断、治療の総合的な記録を提供する。 しかし、複雑で冗長な EHR の物語は医療機関を過負荷にし、診断の不正確さを危険にさらしている。 大規模言語モデル(LLM)は多種多様な言語タスクにおいてその可能性を示したが、医療分野におけるそれらの応用は、診断エラーの最小化と患者の危害の予防を保証する必要がある。 本稿では,医療知識グラフ (KG) と新規グラフモデル (Dr.Knows) の具体化によって達成された,診断自動生成の領域におけるLCMの能力向上のための革新的なアプローチについて概説する。 我々は,国立医学図書館の統一医療言語システム(umls)から,生物医学知識の堅牢な保管庫であるkgを導出する。 本手法は, プレトレーニングの必要性を否定し, 複雑な医療概念の解釈と要約を支援する補助具としてKGを活用する。 実世界の病院データセットを用いて, llmsとkgを組み合わせる手法が, 診断自動生成の精度を向上させる可能性を実証した。 さらに重要なのは、私たちのアプローチが説明可能な診断経路を提供し、AIによる診断決定支援システムの実現に近づいていることです。

Electronic Health Records (EHRs) and routine documentation practices play a vital role in patients' daily care, providing a holistic record of health, diagnoses, and treatment. However, complex and verbose EHR narratives overload healthcare providers, risking diagnostic inaccuracies. While Large Language Models (LLMs) have showcased their potential in diverse language tasks, their application in the healthcare arena needs to ensure the minimization of diagnostic errors and the prevention of patient harm. In this paper, we outline an innovative approach for augmenting the proficiency of LLMs in the realm of automated diagnosis generation, achieved through the incorporation of a medical knowledge graph (KG) and a novel graph model: Dr.Knows, inspired by the clinical diagnostic reasoning process. We derive the KG from the National Library of Medicine's Unified Medical Language System (UMLS), a robust repository of biomedical knowledge. Our method negates the need for pre-training and instead leverages the KG as an auxiliary instrument aiding in the interpretation and summarization of complex medical concepts. Using real-world hospital datasets, our experimental results demonstrate that the proposed approach of combining LLMs with KG has the potential to improve the accuracy of automated diagnosis generation. More importantly, our approach offers an explainable diagnostic pathway, edging us closer to the realization of AI-augmented diagnostic decision support systems.
翻訳日:2023-08-29 15:32:24 公開日:2023-08-28
# UniPT: 効率的なパラメータとメモリを用いた伝達学習のためのユニバーサル並列チューニング

UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory ( http://arxiv.org/abs/2308.14316v1 )

ライセンス: Link先を確認
Haiwen Diao, Bo Wan, Ying Zhang, Xu Jia, Huchuan Lu, Long Chen(参考訳) ファインチューニングされた事前学習モデルは、既存の膨大な知識を活用し、下流タスクで顕著なパフォーマンスを達成する能力のため、多くの領域で強力な技術として登場した。 しかし、ネットワーク全体のパラメータの更新は計算集約的である。 PETL(State-of-the-the-art parameter- efficient transfer learning)法はトレーニング可能なパラメータとストレージの需要を大幅に削減するが、ほとんどすべてのパラメータは、大きなトレーニング済みネットワークを通じて勾配をバックプロパタイズする必要がある。 このメモリ集約特性は、実世界のシナリオにおけるPETL法の適用性を極めて制限する。 そこで本稿では,新しいメモリ効率のpetl戦略であるuniversal parallel tuning (unipt)を提案する。 具体的には,2つのモジュールからなる軽量学習可能な並列ネットワークによる転送プロセスを容易にする。 1) 本質的にシーケンシャルな接続を分離し、プリトレーニングされたネットワークから分離して中間のアクティベーションを処理する並列インタラクションモジュール。 2) 層間機能統合のための最適戦略を適応的に学習する信頼集約モジュール。 異なるバックボーン(例えば、vse$\infty$, clip4clip, clip-vil, mdetr)のユニプトを5つの難解なヴィジュアル・アンド・ランゲージタスク(画像・テキスト検索、ビデオテキスト検索、ビジュアル質問応答、構成的質問応答、ビジュアル・グラウンド)で評価する。 10のデータセットに対する大規模な改善により、我々のUniPTはメモリ消費を劇的に減らし、最高のメモリ効率の競争相手に勝るだけでなく、異なるアーキテクチャの低メモリシナリオにおいて既存のPETLメソッドよりも高いパフォーマンスを実現することができることが実証された。 私たちのコードは、https://github.com/Paranioar/UniPTで公開されています。

Fine-tuning pre-trained models has emerged as a powerful technique in numerous domains, owing to its ability to leverage enormous pre-existing knowledge and achieve remarkable performance on downstream tasks. However, updating the parameters of entire networks is computationally intensive. Although state-of-the-art parameter-efficient transfer learning (PETL) methods significantly reduce the trainable parameters and storage demand, almost all of them still need to back-propagate the gradients through large pre-trained networks. This memory-extensive characteristic extremely limits the applicability of PETL methods in real-world scenarios. To this end, we propose a new memory-efficient PETL strategy, dubbed Universal Parallel Tuning (UniPT). Specifically, we facilitate the transfer process via a lightweight learnable parallel network, which consists of two modules: 1) A parallel interaction module that decouples the inherently sequential connections and processes the intermediate activations detachedly of the pre-trained network. 2) A confidence aggregation module that learns optimal strategies adaptively for integrating cross-layer features. We evaluate UniPT with different backbones (e.g., VSE$\infty$, CLIP4Clip, Clip-ViL, and MDETR) on five challenging vision-and-language tasks (i.e., image-text retrieval, video-text retrieval, visual question answering, compositional question answering, and visual grounding). Extensive ablations on ten datasets have validated that our UniPT can not only dramatically reduce memory consumption and outperform the best memory-efficient competitor, but also achieve higher performance than existing PETL methods in a low-memory scenario on different architectures. Our code is publicly available at: https://github.com/Paranioar/UniPT.
翻訳日:2023-08-29 15:32:00 公開日:2023-08-28
# ソースフリー領域適応医用画像セグメンテーションのための局所的グローバル擬似ラベル補正

Local-Global Pseudo-label Correction for Source-free Domain Adaptive Medical Image Segmentation ( http://arxiv.org/abs/2308.14312v1 )

ライセンス: Link先を確認
Yanyu Ye, Zhengxi Zhang, Chunna Tianb, Wei wei(参考訳) ドメインシフトは、主に画像装置とデータソースのバリエーションによって引き起こされる、医療画像ソリューションでよく発生する問題である。 この問題を軽減するため、教師なしドメイン適応技術が採用されている。 しかし、患者のプライバシや画像品質の劣化に関する懸念は、ソースフリーなドメイン適応に焦点を合わせている。 本研究では,自己学習に基づく領域適応型医用画像分割法における偽ラベルの問題に対処する。 疑似ラベルの誤りを正すため,ソースレス領域適応医療画像分割のためのローカル・グローバル・擬似ラベル補正法(LGDA)を提案する。 本手法は,画像空間における局所的コンテキスト類似性を利用したオフラインのローカルコンテキストに基づく擬似ラベル補正手法である。 また,クラスプロトタイプに基づくオンラインのグローバルな擬似ラベル補正手法により,画素ワイド特徴ベクトルとプロトタイプベクトルとの相対距離を考慮し,誤予測された擬似ラベルを補正する。 我々は,光学ディスクとカップセグメンテーションのための3つのベンチマークベース画像データセットの性能評価を行った。 本手法は,ソースデータを用いなくても,最先端手法と比較して優れた性能を実現する。

Domain shift is a commonly encountered issue in medical imaging solutions, primarily caused by variations in imaging devices and data sources. To mitigate this problem, unsupervised domain adaptation techniques have been employed. However, concerns regarding patient privacy and potential degradation of image quality have led to an increased focus on source-free domain adaptation. In this study, we address the issue of false labels in self-training based source-free domain adaptive medical image segmentation methods. To correct erroneous pseudo-labels, we propose a novel approach called the local-global pseudo-label correction (LGDA) method for source-free domain adaptive medical image segmentation. Our method consists of two components: An offline local context-based pseudo-label correction method that utilizes local context similarity in image space. And an online global pseudo-label correction method based on class prototypes, which corrects erroneously predicted pseudo-labels by considering the relative distance between pixel-wise feature vectors and prototype vectors. We evaluate the performance of our method on three benchmark fundus image datasets for optic disc and cup segmentation. Our method achieves superior performance compared to the state-of-the-art approaches, even without using of any source data.
翻訳日:2023-08-29 15:31:26 公開日:2023-08-28
# 階層的強化学習に基づく未知ネットワーク上のスプレッド制御法

Spread Control Method on Unknown Networks Based on Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2308.14311v1 )

ライセンス: Link先を確認
Wenxiang Dong and H.Vicky Zhao(参考訳) ネットワーク上での伝染病、噂、有害な言論の拡散は、重大な損失をもたらし、そのような有害事象の抑制方法を研究することの重要性を強調している。 しかし、以前の研究ではネットワーク構造の完全な知識を仮定することが多く、現実のシナリオではそうではないことが多い。 本稿では,ネットワーク構造が不明なノードを除去することで,有害事象の伝播を制御するという課題に対処する。 そこで本研究では,この問題に対処するために,行動空間を劇的に削減し,問題を解決可能にする階層的強化学習手法を提案する。 シミュレーション実験により,本手法がベースライン法よりも優れていることを示す。 また,本手法はネットワーク構造に関する知識を豊富に持っているが,本手法には事前情報がないため,より優れた結果が得られる。

The spread of infectious diseases, rumors, and harmful speech in networks can result in substantial losses, underscoring the significance of studying how to suppress such hazardous events. However, previous studies often assume full knowledge of the network structure, which is often not the case in real-world scenarios. In this paper, we address the challenge of controlling the propagation of hazardous events by removing nodes when the network structure is unknown. To tackle this problem, we propose a hierarchical reinforcement learning method that drastically reduces the action space, making the problem feasible to solve. Simulation experiments demonstrate the superiority of our method over the baseline methods. Remarkably, even though the baseline methods possess extensive knowledge of the network structure, while our method has no prior information about it, our approach still achieves better results.
翻訳日:2023-08-29 15:31:07 公開日:2023-08-28
# 協力エージェントの政策多様性

Policy Diversity for Cooperative Agents ( http://arxiv.org/abs/2308.14308v1 )

ライセンス: Link先を確認
Mingxi Tan, Andong Tian and Ludovic Denoyer(参考訳) 標準協調型マルチエージェント強化学習(MARL)手法は,タスク完了のための最適なチーム協調政策を見つけることを目的としている。 しかし、複数の異なる協調方法が存在し、通常はドメインの専門家が非常に必要とします。 したがって、著しく異なるポリシーのセットを特定することは、それらのタスクの複雑さを軽減することができる。 残念なことに、マルチエージェントドメイン用に特別に設計された効果的なポリシーの多様性アプローチが欠如している。 本研究では,この問題を軽減するために,モーメントマッチング政策の多様性という手法を提案する。 この方法は、選択されたエージェントの行動の違いとしてチームポリシーの違いを定式化することで、異なる程度に異なるチームポリシーを生成することができる。 理論上,本手法は最大平均偏差を用いて2つの軌道分布間の差を定式化する制約付き最適化問題を実現するための簡単な方法であることを示す。 我々のアプローチの有効性は、挑戦的なチームベースのシューティングで実証される。

Standard cooperative multi-agent reinforcement learning (MARL) methods aim to find the optimal team cooperative policy to complete a task. However there may exist multiple different ways of cooperating, which usually are very needed by domain experts. Therefore, identifying a set of significantly different policies can alleviate the task complexity for them. Unfortunately, there is a general lack of effective policy diversity approaches specifically designed for the multi-agent domain. In this work, we propose a method called Moment-Matching Policy Diversity to alleviate this problem. This method can generate different team policies to varying degrees by formalizing the difference between team policies as the difference in actions of selected agents in different policies. Theoretically, we show that our method is a simple way to implement a constrained optimization problem that regularizes the difference between two trajectory distributions by using the maximum mean discrepancy. The effectiveness of our approach is demonstrated on a challenging team-based shooter.
翻訳日:2023-08-29 15:30:53 公開日:2023-08-28
# 大規模言語モデルの命令に対するロバスト性の評価

Evaluating the Robustness to Instructions of Large Language Models ( http://arxiv.org/abs/2308.14306v1 )

ライセンス: Link先を確認
Yuansheng Ni, Sichao Jiang, Xinyu wu, Hui Shen, Yuli Zhou(参考訳) 近年,Large Language Models (LLMs) のゼロショット能力を向上するための潜在的な手法として,インストラクションの微調整が注目されている。 この技術は中程度のLLMの性能を向上する能力を示しており、時にはより大型のモデルに匹敵する性能にまで達することもある。 焦点は、目に見えるタスクや目に見えないタスクに対する、命令付きLLMの堅牢性である。 実世界関係抽出データセットをケーススタディとして,alpaca,vicuna,wizardlm,従来のタスク指向モデル(flan-t5-xl/xxl,t0++)を含む6モデルを調査した。 オープンドメイン命令とタスク指向命令に基づいて調整されたこれらの命令追従 LLM の総合評価を行った。 主な議論は、命令に対するパフォーマンスと堅牢性である。 その結果、ほとんどの場合、未知の命令を扱う際のモデルの性能は著しく悪化する傾向にあり、RE命令の頑健性はQAと比較して低下することがわかった。 さらに,パラメータサイズしきい値(3b)まで,パラメータ数の増加に伴い,flan-t5モデルの性能が向上することが分かった。 異なるスケールのFLAN-T5モデルのRE命令に対する堅牢性は、QA命令に対する堅牢性よりも悪い。

Recently, Instruction fine-tuning has risen to prominence as a potential method for enhancing the zero-shot capabilities of Large Language Models (LLMs) on novel tasks. This technique has shown an exceptional ability to boost the performance of moderately sized LLMs, sometimes even reaching performance levels comparable to those of much larger model variants. The focus is on the robustness of instruction-tuned LLMs to seen and unseen tasks. We conducted an exploration of six models including Alpaca, Vicuna, WizardLM, and Traditional Task-oriented Models(Flan-T5-XL/XXL, T0++) using real-world relation extraction datasets as case studies. We carried out a comprehensive evaluation of these instruction-following LLMs which have been tuned based on open-domain instructions and task-oriented instructions. The main discussion is their performance and robustness towards instructions. We have observed that in most cases, the model's performance in dealing with unfamiliar instructions tends to worsen significantly, and the robustness of the model for RE instructions deteriorates compared to QA. Further, we discovered that up until a certain parameter size threshold (3B), the performance of the FLAN-T5 model improves as the parameter count increases. The robustness of different scales of FLAN-T5 models to RE instruction is worse than the robustness to QA instruction.
翻訳日:2023-08-29 15:30:38 公開日:2023-08-28
# DISC-MedLLM: 汎用大規模言語モデルと実世界の医療相談

DISC-MedLLM: Bridging General Large Language Models and Real-World Medical Consultation ( http://arxiv.org/abs/2308.14346v1 )

ライセンス: Link先を確認
Zhijie Bao, Wei Chen, Shengze Xiao, Kuang Ren, Jiaao Wu, Cheng Zhong, Jiajie Peng, Xuanjing Huang, Zhongyu Wei(参考訳) エンド・ツー・エンドの会話型医療サービスにおいて,Large Language Models (LLMs) を利用する包括的ソリューションであるdisC-MedLLMを提案する。 高品質の教師付き微調整(sft)データセットを構築するために、医療知識グラフの活用、現実世界の対話の再構築、人間ガイドによる選好再現の3つの戦略を用いる。 これらのデータセットは、DEC-MedLLMのトレーニングに役立ち、シングルターンおよびマルチターンのコンサルティングシナリオにおいて、既存の医療用LLMを上回る。 汎用言語モデルと実世界の医療相談との橋渡しにおける提案モデルの有効性を広範な実験により実証した。 さらに、構築したデータセットとモデル重み付けをリリースし、研究と開発にさらに貢献します。 詳細とリソースはhttps://github.com/FudanDISC/DISC-MedLLMで確認できる。

We propose DISC-MedLLM, a comprehensive solution that leverages Large Language Models (LLMs) to provide accurate and truthful medical response in end-to-end conversational healthcare services. To construct high-quality Supervised Fine-Tuning (SFT) datasets, we employ three strategies: utilizing medical knowledge-graphs, reconstructing real-world dialogues, and incorporating human-guided preference rephrasing. These datasets are instrumental in training DISC-MedLLM, surpassing existing medical LLMs in both single-turn and multi-turn consultation scenarios. Extensive experimental results demonstrate the effectiveness of the proposed model in bridging the gap between general language models and real-world medical consultation. Additionally, we release the constructed dataset and model weights to further contribute to research and development. Further details and resources can be found at https://github.com/FudanDISC/DISC-MedLLM
翻訳日:2023-08-29 15:23:53 公開日:2023-08-28
# いつ買う? サバイバル機械学習モデルによる購入タイミングの比較

Buy when? Survival machine learning model comparison for purchase timing ( http://arxiv.org/abs/2308.14343v1 )

ライセンス: Link先を確認
Diego Vallarino(参考訳) 生データの価値は、意思決定を駆動する情報と知識に変換することでアンロックされる。 機械学習(ML)アルゴリズムは、大規模なデータセットを分析し、正確な予測を行うことができる。 マーケットセグメンテーション、クライアントの生涯価値、マーケティング技術はすべて機械学習を利用している。 本稿では,サポートベクトルマシン,遺伝的アルゴリズム,ディープラーニング,K平均といったマーケティング機械学習技術について検討する。 mlは消費者の行動を分析し、アイテムを提案し、製品やサービスを購入するかどうかについて他の顧客選択を行うために使用されるが、商品や商品のバスケットを購入するタイミングを予測するためにはほとんど使われない。 本稿では,サバイバルモデルカーネルsvm,deepsurv,サバイバルランダムフォレスト,mtlrを用いて,チン購入の個人決定を予測する。 分析によると、ジェンダー、インカム、ロケーション、購入履歴、オンライン行動、興味、プロモーションディスカウント、顧客体験はすべて購入時間に影響を与える。 この研究は、deepsurvモデルが購入完了を予測したことを示している。 これらの洞察はマーケターのコンバージョン率の向上に役立つ。

The value of raw data is unlocked by converting it into information and knowledge that drives decision-making. Machine Learning (ML) algorithms are capable of analysing large datasets and making accurate predictions. Market segmentation, client lifetime value, and marketing techniques have all made use of machine learning. This article examines marketing machine learning techniques such as Support Vector Machines, Genetic Algorithms, Deep Learning, and K-Means. ML is used to analyse consumer behaviour, propose items, and make other customer choices about whether or not to purchase a product or service, but it is seldom used to predict when a person will buy a product or a basket of products. In this paper, the survival models Kernel SVM, DeepSurv, Survival Random Forest, and MTLR are examined to predict tine-purchase individual decisions. Gender, Income, Location, PurchaseHistory, OnlineBehavior, Interests, PromotionsDiscounts and CustomerExperience all have an influence on purchasing time, according to the analysis. The study shows that the DeepSurv model predicted purchase completion the best. These insights assist marketers in increasing conversion rates.
翻訳日:2023-08-29 15:23:38 公開日:2023-08-28
# HRGCN:階層型グラフニューラルネットワークを用いた不均一グラフレベルの異常検出

HRGCN: Heterogeneous Graph-level Anomaly Detection with Hierarchical Relation-augmented Graph Neural Networks ( http://arxiv.org/abs/2308.14340v1 )

ライセンス: Link先を確認
Jiaxi Li, Guansong Pang, Ling Chen, Mohammad-Reza Namazi-Rad(参考訳) 本研究は,不均質なグラフレベルの異常検出の問題を考える。 不均一グラフは、複雑な産業システムにおける様々なタイプのエンティティ間の振る舞いを表現し、できるだけ多くのシステム操作に関する情報を取得するために一般的に用いられる。 オンラインweb/モバイルサービスやクラウドアクセス制御など,実世界の多くのアプリケーションでは,システム動作グラフの大規模な集合から異常な異種グラフを検出することが重要である。 そこで本研究では,非教師付き深部ヘテロジニアスグラフニューラルネットワークであるHRGCNを提案し,これらの異常な挙動グラフを効果的に同定するために,システム内の異なるエンティティ間の複雑なヘテロジニアス関係をモデル化する。 HRGCNは階層的関係強化ヘテロジニアスグラフニューラルネットワーク(HetGNN)を訓練し、全てのシステムエンティティ間の相互作用をモデル化し、ソース・トゥ・デスティネーション・エンティティ(ノード)タイプとそれらの関係(エッジ)タイプの両方を考慮してグラフ表現を改善する。 2つの実世界のアプリケーションデータセットの大規模な評価は、HRGCNが最先端の競合する異常検出アプローチより優れていることを示している。 さらに,モバイル通信サービスにおける異常(混雑)ネットワークデバイスの検出におけるHRGCNの有効性を正当化する実世界の産業ケーススタディを提案する。 HRGCNはhttps://github.com/jiaxililearn/HRGCNで入手できる。

This work considers the problem of heterogeneous graph-level anomaly detection. Heterogeneous graphs are commonly used to represent behaviours between different types of entities in complex industrial systems for capturing as much information about the system operations as possible. Detecting anomalous heterogeneous graphs from a large set of system behaviour graphs is crucial for many real-world applications like online web/mobile service and cloud access control. To address the problem, we propose HRGCN, an unsupervised deep heterogeneous graph neural network, to model complex heterogeneous relations between different entities in the system for effectively identifying these anomalous behaviour graphs. HRGCN trains a hierarchical relation-augmented Heterogeneous Graph Neural Network (HetGNN), which learns better graph representations by modelling the interactions among all the system entities and considering both source-to-destination entity (node) types and their relation (edge) types. Extensive evaluation on two real-world application datasets shows that HRGCN outperforms state-of-the-art competing anomaly detection approaches. We further present a real-world industrial case study to justify the effectiveness of HRGCN in detecting anomalous (e.g., congested) network devices in a mobile communication service. HRGCN is available at https://github.com/jiaxililearn/HRGCN.
翻訳日:2023-08-29 15:23:20 公開日:2023-08-28
# 補助集合を用いたフェアショット学習

Fair Few-shot Learning with Auxiliary Sets ( http://arxiv.org/abs/2308.14338v1 )

ライセンス: Link先を確認
Song Wang, Jing Ma, Lu Cheng, Jundong Li(参考訳) 最近は、公平性を促進する機械学習(ml)モデルの開発、すなわち特定の人口(例えば特定の人口集団の個人)に対する偏りのある予測を排除することへの関心が高まっている。 既存の作品の多くは、最適化において適切に設計された公平性制約に基づいてそのようなモデルを学習する。 しかしながら、多くの実践的なMLタスクでは、ラベル付きデータサンプルを収集できるのはごくわずかであり、フェアネス性能が劣る可能性がある。 これは、既存のフェアネス制約が、異なる感度群間の予測格差を制限するように設計されているためであるが、サンプルが少ないため、その差を正確に測定することが難しくなり、非効率なフェアネス最適化が生じる。 本稿では,訓練サンプルを限定したフェアネス対応学習課題を,emph{fair few-shot learning}問題として定義する。 この問題に対処するために、我々は、異なるメタトレーニングタスクにまたがる公平さを意識した知識を蓄積し、学習した知識をメタテストタスクに一般化する、新しいフレームワークを考案する。 不十分なトレーニングサンプルを補うため,メタテストタスク毎に補助セットを選択し,活用するための重要な戦略を提案する。 これらの補助セットにはいくつかのラベル付きトレーニングサンプルが含まれており、それによってメタテストタスクのフェアネスに関するモデルパフォーマンスが向上し、学習された有用なフェアネス指向の知識をメタテストタスクに移すことができる。 さらに,3つの実世界のデータセットを用いて,最先端のベースラインに対するフレームワークの優位性を検証した。

Recently, there has been a growing interest in developing machine learning (ML) models that can promote fairness, i.e., eliminating biased predictions towards certain populations (e.g., individuals from a specific demographic group). Most existing works learn such models based on well-designed fairness constraints in optimization. Nevertheless, in many practical ML tasks, only very few labeled data samples can be collected, which can lead to inferior fairness performance. This is because existing fairness constraints are designed to restrict the prediction disparity among different sensitive groups, but with few samples, it becomes difficult to accurately measure the disparity, thus rendering ineffective fairness optimization. In this paper, we define the fairness-aware learning task with limited training samples as the \emph{fair few-shot learning} problem. To deal with this problem, we devise a novel framework that accumulates fairness-aware knowledge across different meta-training tasks and then generalizes the learned knowledge to meta-test tasks. To compensate for insufficient training samples, we propose an essential strategy to select and leverage an auxiliary set for each meta-test task. These auxiliary sets contain several labeled training samples that can enhance the model performance regarding fairness in meta-test tasks, thereby allowing for the transfer of learned useful fairness-oriented knowledge to meta-test tasks. Furthermore, we conduct extensive experiments on three real-world datasets to validate the superiority of our framework against the state-of-the-art baselines.
翻訳日:2023-08-29 15:22:57 公開日:2023-08-28
# 大規模言語モデルにおける認知効果

Cognitive Effects in Large Language Models ( http://arxiv.org/abs/2308.14337v1 )

ライセンス: Link先を確認
Jonathan Shaki, Sarit Kraus, Michael Wooldridge(参考訳) ChatGPTのような大規模言語モデル(LLM)は、過去1年で大きな注目を集め、今では毎日数億人の人々が利用しています。 この技術の急速な普及は、モデルが示す可能性のあるバイアスに関する疑問を自然に提起する。 本研究では,人間の認知課題によく見られる体系的パターンである認知効果について,これらのモデル(gpt-3)の1つをテストした。 LLMは確かに、いくつかの人間の認知的影響を受けやすいことがわかりました。 具体的には, プライミング, 距離, SNARC, サイズ共役効果をGPT-3で示し, アンカー効果は欠如していた。 本手法,特に実世界の実験をテキストベースの実験に変換する方法について述べる。 最後に、gpt-3がこれらの効果を示す理由を推測し、それが模倣されたか再発明されたかについて議論する。

Large Language Models (LLMs) such as ChatGPT have received enormous attention over the past year and are now used by hundreds of millions of people every day. The rapid adoption of this technology naturally raises questions about the possible biases such models might exhibit. In this work, we tested one of these models (GPT-3) on a range of cognitive effects, which are systematic patterns that are usually found in human cognitive tasks. We found that LLMs are indeed prone to several human cognitive effects. Specifically, we show that the priming, distance, SNARC, and size congruity effects were presented with GPT-3, while the anchoring effect is absent. We describe our methodology, and specifically the way we converted real-world experiments to text-based experiments. Finally, we speculate on the possible reasons why GPT-3 exhibits these effects and discuss whether they are imitated or reinvented.
翻訳日:2023-08-29 15:22:33 公開日:2023-08-28
# 2段階サンプリングによるカーネル分布回帰の学習理論の改善

Improved learning theory for kernel distribution regression with two-stage sampling ( http://arxiv.org/abs/2308.14335v1 )

ライセンス: Link先を確認
Fran\c{c}ois Bachoc and Louis B\'ethune and Alberto Gonz\'alez-Sanz and Jean-Michel Loubes(参考訳) 分散回帰問題は、多くの重要な統計と機械学習タスクを含み、広範囲のアプリケーションで発生する。 この問題を解決するための既存の様々なアプローチの中で、カーネルメソッドは選択方法となっている。 実際、カーネル分布の回帰は計算上有利であり、最近の学習理論によって支持されている。 この理論は、2段階のサンプリング設定にも取り組み、入力分布からのサンプルのみが利用できる。 本稿では,カーネル分布回帰の学習理論を改善する。 我々は、既存のアプローチの大部分を包含するヒルベルトの埋め込みに基づくカーネルに対処する。 新たな解析により, 2段階サンプリングの効果に新たな誤差境界を与えることができる, ヒルベルト埋め込みに対する近似偏り条件を導入する。 この条件は、最適輸送と平均埋め込みに基づくカーネルの3つの重要なクラスに対して成り立つことを示す。 その結果、これらのカーネルの既存の収束率を厳密に改善する。 我々の設定と結果は数値実験によって示される。

The distribution regression problem encompasses many important statistics and machine learning tasks, and arises in a large range of applications. Among various existing approaches to tackle this problem, kernel methods have become a method of choice. Indeed, kernel distribution regression is both computationally favorable, and supported by a recent learning theory. This theory also tackles the two-stage sampling setting, where only samples from the input distributions are available. In this paper, we improve the learning theory of kernel distribution regression. We address kernels based on Hilbertian embeddings, that encompass most, if not all, of the existing approaches. We introduce the novel near-unbiased condition on the Hilbertian embeddings, that enables us to provide new error bounds on the effect of the two-stage sampling, thanks to a new analysis. We show that this near-unbiased condition holds for three important classes of kernels, based on optimal transport and mean embedding. As a consequence, we strictly improve the existing convergence rates for these kernels. Our setting and results are illustrated by numerical experiments.
翻訳日:2023-08-29 15:22:18 公開日:2023-08-28
# MetaWeather: 劣化パターンマッチングによる気象劣化画像復元

MetaWeather: Few-Shot Weather-Degraded Image Restoration via Degradation Pattern Matching ( http://arxiv.org/abs/2308.14334v1 )

ライセンス: Link先を確認
Youngrae Kim, Younggeol Cho, Thanh-Tung Nguyen, Dongman Lee(参考訳) 実世界の視覚タスクは、キャプチャー画像の雨、霧、雪、雨滴などの悪天候の出現にしばしば悩まされる。 近年, 気象劣化画像の復元手法がいくつか提案されており, 画像中の悪天候の影響を除去することを目的としている。 しかし、これらの方法は気象を離散的で相互排他的な変数とみなしており、雨、霧、雨滴の同時発生のような訓練データの範囲を超えて予測できない気象条件の一般化に失敗している。 この目的のために、気象劣化画像復元モデルは、信頼性と最適な性能を確保するために、現在の未知の気象条件に柔軟に対応できるべきである。 また,適応手法は実世界の適応のためのデータ不足にも対処できる。 本稿では,任意の気象条件に対する数ショットの気象劣化画像復元手法であるMetaWeatherを提案する。 そこで我々は,新しい気象条件下での入力画像とサンプル画像のマッチングによって,数ショットのサポートセットからの表現を活用する,DPMM(Degradation Pattern Matching Module)というMetaWeatherのコアピースを考案した。 さらに,MetaWeatherアーキテクチャ上にメタ知識とエピソードメタ学習を構築し,柔軟な適応性を実現する。 メタテストフェーズでは,事前に構築した知識を保存し,オーバーフィッティング問題を回避するためにパラメータ効率のよい微調整手法を採用する。 BIDタスクIIにおける実験結果から,PSNRとSSIMでは最新の画像復元法と比較して最高の性能を示す。 コードは (tba) で利用可能である。

Real-world vision tasks frequently suffer from the appearance of adverse weather conditions including rain, fog, snow, and raindrops in captured images. Recently, several generic methods for restoring weather-degraded images have been proposed, aiming to remove multiple types of adverse weather effects present in the images. However, these methods have considered weather as discrete and mutually exclusive variables, leading to failure in generalizing to unforeseen weather conditions beyond the scope of the training data, such as the co-occurrence of rain, fog, and raindrops. To this end, weather-degraded image restoration models should have flexible adaptability to the current unknown weather condition to ensure reliable and optimal performance. The adaptation method should also be able to cope with data scarcity for real-world adaptation. This paper proposes MetaWeather, a few-shot weather-degraded image restoration method for arbitrary weather conditions. For this, we devise the core piece of MetaWeather, coined Degradation Pattern Matching Module (DPMM), which leverages representations from a few-shot support set by matching features between input and sample images under new weather conditions. In addition, we build meta-knowledge with episodic meta-learning on top of our MetaWeather architecture to provide flexible adaptability. In the meta-testing phase, we adopt a parameter-efficient fine-tuning method to preserve the prebuilt knowledge and avoid the overfitting problem. Experiments on the BID Task II.A dataset show our method achieves the best performance on PSNR and SSIM compared to state-of-the-art image restoration methods. Code is available at (TBA).
翻訳日:2023-08-29 15:22:04 公開日:2023-08-28
# DiffSmooth: 拡散モデルと局所平滑化によるロバスト学習

DiffSmooth: Certifiably Robust Learning via Diffusion Models and Local Smoothing ( http://arxiv.org/abs/2308.14333v1 )

ライセンス: Link先を確認
Jiawei Zhang, Zhongzhu Chen, Huan Zhang, Chaowei Xiao, Bo Li(参考訳) 拡散モデルは、逆の浄化を行うために利用され、標準モデルに実証的かつ認定された堅牢性を提供する。 一方で、異なるロバストトレーニングされたスムースモデルが、認定ロバスト性を改善するために研究されている。 拡散モデルは、堅牢に訓練されたスムーズなモデルに対して、信頼性の高いロバスト性を達成するために使用できるか? 本研究では,まず,拡散モデルによる回復インスタンスが元のインスタンスの有界近傍に高い確率で存在していることを理論的に示す。また,拡散確率モデル(DDPM)は,元のインスタンスを穏やかな条件下で近似した連続時間拡散モデルの生成分布の平均を近似することができる。 そこで本研究では,まず拡散モデルによる対向的浄化を行い,その後,単純で効果的な局所的平滑化戦略により,精製されたインスタンスを共通領域にマップするDiffSmoothを提案する。 DiffSmoothは8つのベースラインと比較してSOTA認証されたロバスト性を達成することを示す。 例えば、DiffSmoothはSOTA認証の精度を$36.0\%$から$53.0\%$で$\ell_2$ radius $1.5$に改善している。 コードは[https://github.com/javyduck/DiffSmooth]で入手できる。

Diffusion models have been leveraged to perform adversarial purification and thus provide both empirical and certified robustness for a standard model. On the other hand, different robustly trained smoothed models have been studied to improve the certified robustness. Thus, it raises a natural question: Can diffusion model be used to achieve improved certified robustness on those robustly trained smoothed models? In this work, we first theoretically show that recovered instances by diffusion models are in the bounded neighborhood of the original instance with high probability; and the "one-shot" denoising diffusion probabilistic models (DDPM) can approximate the mean of the generated distribution of a continuous-time diffusion model, which approximates the original instance under mild conditions. Inspired by our analysis, we propose a certifiably robust pipeline DiffSmooth, which first performs adversarial purification via diffusion models and then maps the purified instances to a common region via a simple yet effective local smoothing strategy. We conduct extensive experiments on different datasets and show that DiffSmooth achieves SOTA-certified robustness compared with eight baselines. For instance, DiffSmooth improves the SOTA-certified accuracy from $36.0\%$ to $53.0\%$ under $\ell_2$ radius $1.5$ on ImageNet. The code is available at [https://github.com/javyduck/DiffSmooth].
翻訳日:2023-08-29 15:21:18 公開日:2023-08-28
# image-to-point cloud saliency transferを用いた注意誘導ライダーセグメンテーションとオドメトリ

Attention-Guided Lidar Segmentation and Odometry Using Image-to-Point Cloud Saliency Transfer ( http://arxiv.org/abs/2308.14332v1 )

ライセンス: Link先を確認
Guanqun Ding and Nevrez Imamoglu and Ali Caglayan and Masahiro Murakawa and Ryosuke Nakamura(参考訳) LiDAR計測と3Dセマンティックセグメンテーションは自動運転に不可欠であり、近年顕著な進歩を遂げている。 しかし,これらの課題は,3次元セマンティックセグメンテーションの異なるセマンティックカテゴリにおけるポイントの不均衡や,LiDAR odometry 推定における動的オブジェクトの影響により,ロバストな特徴学習のための参照ポイントとして代表/サレントなランドマークを使用することの重要性が高まっているため,課題である。 そこで本研究では,lidarのオドメトリ推定とセマンティクスセグメンテーションモデルの性能向上のために注意情報を活用するサリエンシー誘導手法を提案する。 画像領域とは異なり、注釈付きトレーニングデータがないため、ポイントクラウドのサリエンシ情報に対処した研究はごくわずかである。 これを緩和するために,まず,カラー画像からポイントクラウドへサリエンシー分布知識を転送する普遍的な枠組みを提案し,これを用いてポイントクラウドのための擬似サリエンシーデータセット(フォードサリエンシ)を構築する。 次に,提案するsallidarモジュールが続く疑似saliencyラベルからsaliency分布を学ぶために,point cloudベースのバックボーンを採用する。 sallidarはsaliency-guided 3d semantic segmentation modelであり、saliency informationを統合してセグメント化性能を向上させる。 最後に、SalLiDARのセマンティックおよびサリエンシ予測を用いて、より優れたオドメトリー推定を実現する自己教師型サリエンシ誘導型LiDARオドメトリーネットワークであるSalLONetを紹介する。 提案したSalLiDARモデルとSalLONetモデルが既存の手法に対する最先端性能を実現し,画像からLiDARへのサリエンシ知識伝達の有効性を明らかにした。 ソースコードはhttps://github.com/nevrez/SalLONet.comで入手できる。

LiDAR odometry estimation and 3D semantic segmentation are crucial for autonomous driving, which has achieved remarkable advances recently. However, these tasks are challenging due to the imbalance of points in different semantic categories for 3D semantic segmentation and the influence of dynamic objects for LiDAR odometry estimation, which increases the importance of using representative/salient landmarks as reference points for robust feature learning. To address these challenges, we propose a saliency-guided approach that leverages attention information to improve the performance of LiDAR odometry estimation and semantic segmentation models. Unlike in the image domain, only a few studies have addressed point cloud saliency information due to the lack of annotated training data. To alleviate this, we first present a universal framework to transfer saliency distribution knowledge from color images to point clouds, and use this to construct a pseudo-saliency dataset (i.e. FordSaliency) for point clouds. Then, we adopt point cloud-based backbones to learn saliency distribution from pseudo-saliency labels, which is followed by our proposed SalLiDAR module. SalLiDAR is a saliency-guided 3D semantic segmentation model that integrates saliency information to improve segmentation performance. Finally, we introduce SalLONet, a self-supervised saliency-guided LiDAR odometry network that uses the semantic and saliency predictions of SalLiDAR to achieve better odometry estimation. Our extensive experiments on benchmark datasets demonstrate that the proposed SalLiDAR and SalLONet models achieve state-of-the-art performance against existing methods, highlighting the effectiveness of image-to-LiDAR saliency knowledge transfer. Source code will be available at https://github.com/nevrez/SalLONet.
翻訳日:2023-08-29 15:20:36 公開日:2023-08-28
# カメラとLiDARデータを用いた自己監督的模倣学習によるエンドツーエンド運転

End-to-End Driving via Self-Supervised Imitation Learning Using Camera and LiDAR Data ( http://arxiv.org/abs/2308.14329v1 )

ライセンス: Link先を確認
Jin Bok Park, Jinkyu Lee, Muhyun Back, Hyunmin Han, David T. Ma, Sang Min Won, Sung Soo Hwang, Il Yong Chun(参考訳) 自動運転では、センサデータから直接車両制御信号を予測するエンドツーエンド(E2E)運転アプローチが急速に注目されている。 安全なE2E運転システムを学ぶには、大量の運転データと人間の介入が必要である。 車両制御データは人間の運転時間によって構築されており、大型車両制御データセットの構築は困難である。 一般に利用可能な運転データセットは限られた運転シーンで収集され、車両メーカーによってのみ収集される。 これらの課題に対処するために,コマンドデータを使わずにE2E駆動ネットワークを学習可能な,初の自己教師型学習フレームワークである自己教師型模倣学習(SSIL)を提案する。 擬似ステアリング角データを構築するため,提案したSSILは,光検出および測光センサを用いて推定される現在および過去の時刻における車両の姿勢から擬似目標を予測する。 数値実験により,提案するSSILフレームワークは,教師付き学習フレームワークと同等のE2E運転精度を達成できることを示した。 さらに,従来の視覚的説明ツールを用いた質的分析により,提案したSSILと監督対象によるNNのトレーニングが,類似のオブジェクトに適応して予測を行うことを示した。

In autonomous driving, the end-to-end (E2E) driving approach that predicts vehicle control signals directly from sensor data is rapidly gaining attention. To learn a safe E2E driving system, one needs an extensive amount of driving data and human intervention. Vehicle control data is constructed by many hours of human driving, and it is challenging to construct large vehicle control datasets. Often, publicly available driving datasets are collected with limited driving scenes, and collecting vehicle control data is only available by vehicle manufacturers. To address these challenges, this paper proposes the first self-supervised learning framework, self-supervised imitation learning (SSIL), that can learn E2E driving networks without using driving command data. To construct pseudo steering angle data, proposed SSIL predicts a pseudo target from the vehicle's poses at the current and previous time points that are estimated with light detection and ranging sensors. Our numerical experiments demonstrate that the proposed SSIL framework achieves comparable E2E driving accuracy with the supervised learning counterpart. In addition, our qualitative analyses using a conventional visual explanation tool show that trained NNs by proposed SSIL and the supervision counterpart attend similar objects in making predictions.
翻訳日:2023-08-29 15:19:49 公開日:2023-08-28
# デジタルマンモグラムにおける病変容積測定の改善

Improving Lesion Volume Measurements on Digital Mammograms ( http://arxiv.org/abs/2308.14369v1 )

ライセンス: Link先を確認
Nikita Moriakov, Jim Peters, Ritse Mann, Nico Karssemeijer, Jos van Dijck, Mireille Broeders, Jonas Teuwen(参考訳) 病変容積は乳癌の予後の重要な予測因子である。 本研究は, 乳がん検診, 乳がん検診において, 放射線科医が日常的に用いている画像であり, 医療センターで利用可能である, 加工マンモグラムの病変量を推定できるモデルを開発することにより, デジタルマンモグラムのより正確な病変量測定に向けて一歩進めるものである。 処理されたマンモグラムは、特定のベンダー固有の非線形変換を適用することにより、スキャナから直接来るX線データである生マンモグラムから得られる。 我々の体積推定法の中核は,生マンモグラム上の病変量を測定する物理に基づくアルゴリズムである。 このアルゴリズムを深層学習画像から画像への変換モデルを用いて, マルチベンダ環境下で処理したマンモグラムから合成生マンモグラムを生成する。 本手法の信頼性と妥当性を注釈付き1778個のマンモグラムを用いて評価した。 まず,側方斜視から算出した病変量と頭蓋骨視の相関について検討し,Pearsonの相関は0.93[95%信頼区間 (CI) 0.920.93]であった。 次に, 真および合成生データから得られた病変量と, パーソン相関値 0.998 [95% CI 0.998 - 0.998] を比較した。 最後に, 悪性腫瘍とMRI検査を併用した100個のマンモグラムのサブセットについて, マンモグラフィとMRIの病変量との一致を解析した結果, 一貫性は0.81[95% CI 0.73 - 0.87], 絶対一致は0.78[95% CI 0.66 - 0.86]となった。 以上の結果から,MRIを基礎的真理として用いる際に,高い信頼性と有効性を有するマンモグラフィ病変量を測定するアルゴリズムを開発した。

Lesion volume is an important predictor for prognosis in breast cancer. We make a step towards a more accurate lesion volume measurement on digital mammograms by developing a model that allows to estimate lesion volumes on processed mammograms, which are the images routinely used by radiologists in clinical practice as well as in breast cancer screening and are available in medical centers. Processed mammograms are obtained from raw mammograms, which are the X-ray data coming directly from the scanner, by applying certain vendor-specific non-linear transformations. At the core of our volume estimation method is a physics-based algorithm for measuring lesion volumes on raw mammograms. We subsequently extend this algorithm to processed mammograms via a deep learning image-to-image translation model that produces synthetic raw mammograms from processed mammograms in a multi-vendor setting. We assess the reliability and validity of our method using a dataset of 1778 mammograms with an annotated mass. Firstly, we investigate the correlations between lesion volumes computed from mediolateral oblique and craniocaudal views, with a resulting Pearson correlation of 0.93 [95% confidence interval (CI) 0.92 - 0.93]. Secondly, we compare the resulting lesion volumes from true and synthetic raw data, with a resulting Pearson correlation of 0.998 [95% CI 0.998 - 0.998] . Finally, for a subset of 100 mammograms with a malign mass and concurrent MRI examination available, we analyze the agreement between lesion volume on mammography and MRI, resulting in an intraclass correlation coefficient of 0.81 [95% CI 0.73 - 0.87] for consistency and 0.78 [95% CI 0.66 - 0.86] for absolute agreement. In conclusion, we developed an algorithm to measure mammographic lesion volume that reached excellent reliability and good validity, when using MRI as ground truth.
翻訳日:2023-08-29 15:14:45 公開日:2023-08-28
# 強化学習を用いた目標非依存XLA最適化

Target-independent XLA optimization using Reinforcement Learning ( http://arxiv.org/abs/2308.14364v1 )

ライセンス: Link先を確認
Milan Ganai, Haichen Li, Theodore Enns, Yida Wang, Randy Huang(参考訳) XLAのような機械学習コンパイラにおける重要な課題は、マルチパス最適化と分析である。 近年、XLAはグラフレベル、サブグラフレベル、カーネルレベルの最適化に主に関心を寄せている。 我々のアプローチは、ターゲット依存最適化から切り離されたコンパイラ最適化パスの最適なシーケンスを見つけることを目的としています。 しかしながら、XLA HLOのパスオーダにおけるドメイン特異的な研究はほとんどない。 そこで本研究では, 深層強化学習(RL)に基づく最適XLA HLOパスの探索を提案する。 また,深部RLアルゴリズムの改良により,探索性能をさらに向上し,ドメイン固有のRL指導のための研究方向を開放する。 我々は,最適化をパスするコンパイラとRLアルゴリズムが対話し,エージェントを訓練するためのツールとして,XLA Gym実験フレームワークを開発した。 全体として、実験では、gpt-2トレーニンググラフのベンチマークで平均13.3\%$の改善と、gpt-2、bert、resnetグラフを含む多様なベンチマークで10.4\%$の改善を、コンパイラのデフォルトのフェーズ順序よりも提案するアプローチを用いて観察した。

An important challenge in Machine Learning compilers like XLA is multi-pass optimization and analysis. There has been recent interest chiefly in XLA target-dependent optimization on the graph-level, subgraph-level, and kernel-level phases. We specifically focus on target-independent optimization XLA HLO pass ordering: our approach aims at finding the optimal sequence of compiler optimization passes, which is decoupled from target-dependent optimization. However, there is little domain specific study in pass ordering for XLA HLO. To this end, we propose introducing deep Reinforcement Learning (RL) based search for optimal XLA HLO pass ordering. We also propose enhancements to the deep RL algorithms to further improve optimal search performance and open the research direction for domain-specific guidance for RL. We create an XLA Gym experimentation framework as a tool to enable RL algorithms to interact with the compiler for passing optimizations and thereby train agents. Overall, in our experimentation we observe an average of $13.3\%$ improvement in operation count reduction on a benchmark of GPT-2 training graphs and $10.4\%$ improvement on a diverse benchmark including GPT-2, BERT, and ResNet graphs using the proposed approach over the compiler's default phase ordering.
翻訳日:2023-08-29 15:14:08 公開日:2023-08-28
# LLM時代のモバイルAIエコシステムの再考

Rethinking Mobile AI Ecosystem in the LLM Era ( http://arxiv.org/abs/2308.14363v1 )

ライセンス: Link先を確認
Jinliang Yuan, Chen Yang, Dongqi Cai, Shihe Wang, Xin Yuan, Zeling Zhang, Xiang Li, Dingge Zhang, Hanzi Mei, Xianqing Jia, Shangguang Wang, Mengwei Xu(参考訳) 今日の状況では、スマートフォンはローカル実行を目的とした多数のディープラーニングモデルをホストするハブへと進化してきた。 この研究の鍵となる実現は、様々なアーキテクチャ、演算子、実装によって特徴づけられるこれらのモデルの中で注目すべき断片化である。 この断片化は、ハードウェア、システム設定、アルゴリズムの包括的な最適化に多大な負担を課す。 モバイルOSとハードウェアの協調管理アプローチであり、すべてではないとしても、モバイルAIタスクの幅広い範囲で機能する基本モデルを監督する。 この基礎モデルはNPU内に存在し、ファームウェアと同様、アプリやOSのリビジョンには不必要である。 同時に、各アプリは、異なる下流タスクに合わせて、簡潔でオフラインで調整された"アダプタ"を提供する。 この概念から、asysとして知られる具体的なインスタンス化が生まれる。 公開されているLarge Language Models (LLMs) のキュレートされた選択と、ダイナミックなデータフローを容易にする。 この概念の有効性は、コンピュータビジョン(cv)、自然言語処理(nlp)、オーディオ、センシング、マルチモーダル入力などを含む50のデータセットにまたがる38のモバイルaiタスクをカバーする、徹底したベンチマークの作成によって証明される。 このベンチマークで、Shasysは素晴らしいパフォーマンスを披露した。 タスクの85倍の精度で正確性を実現し、ストレージとメモリのスケーラビリティの向上を実証し、NPUサポートで強化された商用オフ・ザ・シェルフ(COTS)モバイルデバイスで十分な推論速度を提供する。 これは、個々のアプリケーションに適したタスク固有のモデルとは対照的である。

In today's landscape, smartphones have evolved into hubs for hosting a multitude of deep learning models aimed at local execution. A key realization driving this work is the notable fragmentation among these models, characterized by varied architectures, operators, and implementations. This fragmentation imposes a significant burden on the comprehensive optimization of hardware, system settings, and algorithms. Buoyed by the recent strides in large foundation models, this work introduces a pioneering paradigm for mobile AI: a collaborative management approach between the mobile OS and hardware, overseeing a foundational model capable of serving a broad spectrum of mobile AI tasks, if not all. This foundational model resides within the NPU and remains impervious to app or OS revisions, akin to firmware. Concurrently, each app contributes a concise, offline fine-tuned "adapter" tailored to distinct downstream tasks. From this concept emerges a concrete instantiation known as \sys. It amalgamates a curated selection of publicly available Large Language Models (LLMs) and facilitates dynamic data flow. This concept's viability is substantiated through the creation of an exhaustive benchmark encompassing 38 mobile AI tasks spanning 50 datasets, including domains such as Computer Vision (CV), Natural Language Processing (NLP), audio, sensing, and multimodal inputs. Spanning this benchmark, \sys unveils its impressive performance. It attains accuracy parity in 85\% of tasks, demonstrates improved scalability in terms of storage and memory, and offers satisfactory inference speed on Commercial Off-The-Shelf (COTS) mobile devices fortified with NPU support. This stands in stark contrast to task-specific models tailored for individual applications.
翻訳日:2023-08-29 15:13:45 公開日:2023-08-28
# instructme:潜在拡散モデルを用いた指導型音楽編集・リミックスフレームワーク

InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models ( http://arxiv.org/abs/2308.14360v1 )

ライセンス: Link先を確認
Bing Han, Junyu Dai, Xuchen Song, Weituo Hao, Xinyan He, Dong Guo, Jitong Chen, Yuxuan Wang and Yanmin Qian(参考訳) 音楽編集は、主に楽器のトラックの修正や全体のリミックスを伴い、一連の操作を通じてオリジナル曲の新たな再解釈を提供する。 これらの音楽処理手法は様々な応用において大きな可能性を秘めているが、かなりの専門知識を必要とする。 以前の手法は、画像や音声の修正に効果があるが、直接音楽に適用すると劣化する。 これは音楽の独特なデータの性質に起因しており、そのような手法は音楽の本質的な調和とコヒーレンスを必然的に損なうことができる。 本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。 本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。 さらに,コンディション情報としてコード進行行列を導入し,それを意味空間に組み込んで,編集中の旋律調和を改善する。 拡張された楽曲に合わせてinstructmeはチャンクトランスフォーマを使用して、音楽シーケンス内の長期的な時間依存を識別する。 instructmeをインスツルメンテーション,リミックス,マルチラウンド編集でテストした。 主観的評価と客観的評価は,提案手法が音楽品質,テキスト関連性,調和性において先行するシステムを大幅に上回ることを示している。 デモサンプルはhttps://musicedit.github.io/で入手できる。

Music editing primarily entails the modification of instrument tracks or remixing in the whole, which offers a novel reinterpretation of the original piece through a series of operations. These music processing methods hold immense potential across various applications but demand substantial expertise. Prior methodologies, although effective for image and audio modifications, falter when directly applied to music. This is attributed to music's distinctive data nature, where such methods can inadvertently compromise the intrinsic harmony and coherence of music. In this paper, we develop InstructME, an Instruction guided Music Editing and remixing framework based on latent diffusion models. Our framework fortifies the U-Net with multi-scale aggregation in order to maintain consistency before and after editing. In addition, we introduce chord progression matrix as condition information and incorporate it in the semantic space to improve melodic harmony while editing. For accommodating extended musical pieces, InstructME employs a chunk transformer, enabling it to discern long-term temporal dependencies within music sequences. We tested InstructME in instrument-editing, remixing, and multi-round editing. Both subjective and objective evaluations indicate that our proposed method significantly surpasses preceding systems in music quality, text relevance and harmony. Demo samples are available at https://musicedit.github.io/
翻訳日:2023-08-29 15:13:17 公開日:2023-08-28
# 非意味的音声課題に対する注意と自己教師付き音声埋め込みの効果

Effect of Attention and Self-Supervised Speech Embeddings on Non-Semantic Speech Tasks ( http://arxiv.org/abs/2308.14359v1 )

ライセンス: Link先を確認
Payal Mohapatra, Akash Pandey, Yueyuan Sui, Qi Zhu(参考訳) 人間の感情理解は会話型テクノロジーを主流にする上で重要である。 我々は、音声の感情理解を、より現実的な認識課題と見なしている。 さまざまな状況(言語、人口統計など)において、異なる人々のシェアは、非満場一致の感情と同じ音声セグメントを知覚する。 ACM Multimedia 2023 Computational Paralinguistics ChallengE (ComParE) in the EMotion Share Trackでは、多言語話者の豊富なデータセットと「感情共有」のマルチラベル回帰目標を活用。 異なる基礎モデルのトレーニングスキームは、音声認識以外のタスク、特に感情理解のような非意味的な音声タスクに有効であることを示す。 これは、多言語話者、ターゲットラベルのばらつき、回帰データセットの固有の不均衡による非常に複雑なタスクである。 以上の結果から,hubert-largeは自己着眼に基づく軽量シーケンスモデルにより,ベースラインの4.6%向上した。

Human emotion understanding is pivotal in making conversational technology mainstream. We view speech emotion understanding as a perception task which is a more realistic setting. With varying contexts (languages, demographics, etc.) different share of people perceive the same speech segment as a non-unanimous emotion. As part of the ACM Multimedia 2023 Computational Paralinguistics ChallengE (ComParE) in the EMotion Share track, we leverage their rich dataset of multilingual speakers and multi-label regression target of 'emotion share' or perception of that emotion. We demonstrate that the training scheme of different foundation models dictates their effectiveness for tasks beyond speech recognition, especially for non-semantic speech tasks like emotion understanding. This is a very complex task due to multilingual speakers, variability in the target labels, and inherent imbalance in the regression dataset. Our results show that HuBERT-Large with a self-attention-based light-weight sequence model provides 4.6% improvement over the reported baseline.
翻訳日:2023-08-29 15:12:56 公開日:2023-08-28
# TransformerとGNNはお互いに助け合うか?

Can Transformer and GNN Help Each Other? ( http://arxiv.org/abs/2308.14355v1 )

ライセンス: Link先を確認
Peiyan Zhang, Yuchen Yan, Chaozhuo Li, Senzhang Wang, Xing Xie, Sunghun Kim(参考訳) トランスフォーマーは自然言語処理とコンピュータビジョンで大きな成功を収めているが、中規模および大規模グラフデータへの一般化は2つの重要な理由から困難である。 (i)複雑度が高い。 (ii)複雑で絡み合った構造情報を捉えられないこと。 グラフ表現学習では、グラフニューラルネットワーク(GNN)はグラフ構造とノード属性を融合するが、受容場は限定的である。 そこで我々は,TransformerとGNNを組み合わせることで相互に助け合うことができるのか疑問を呈する。 本稿では,トランスフォーマー層とgnn層を交互に利用し,相互に改良を行う新しいモデルであるtransgnnを提案する。 具体的には,レセプティブフィールドを拡張し,エッジから情報アグリゲーションを分離するために,より関連するノードの情報を集約してgnnのメッセージパッシングを改善するトランスフォーマを提案する。 さらに、グラフ構造情報をキャプチャするために、位置符号化とGNN層を利用して、構造をノード属性に融合させ、グラフデータのトランスフォーマーを改善する。 また、Transformerの最も関連性の高いノードをサンプリングし、複雑さを低減するために2つの効率的なサンプル更新戦略を提案する。 最終的に、理論上、TransGNNは余分な線形複雑性を持つGNNよりも表現力が高いことを証明した。 8つのデータセットの実験は、ノード分類タスクとグラフ分類タスクにおけるTransGNNの有効性を裏付けるものである。

Although Transformer has achieved great success in natural language process and computer vision, it has difficulty generalizing to medium and large-scale graph data for two important reasons: (i) High complexity. (ii) Failing to capture the complex and entangled structure information. In graph representation learning, Graph Neural Networks(GNNs) can fuse the graph structure and node attributes but have limited receptive fields. Therefore, we question whether can we combine Transformers and GNNs to help each other. In this paper, we propose a new model named TransGNN where the Transformer layer and GNN layer are used alternately to improve each other. Specifically, to expand the receptive field and disentangle the information aggregation from edges, we propose using Transformer to aggregate more relevant nodes' information to improve the message passing of GNNs. Besides, to capture the graph structure information, we utilize positional encoding and make use of the GNN layer to fuse the structure into node attributes, which improves the Transformer in graph data. We also propose to sample the most relevant nodes for Transformer and two efficient samples update strategies to lower the complexity. At last, we theoretically prove that TransGNN is more expressive than GNNs only with extra linear complexity. The experiments on eight datasets corroborate the effectiveness of TransGNN on node and graph classification tasks.
翻訳日:2023-08-29 15:12:36 公開日:2023-08-28
# ZhuJiu: 大規模言語モデルのための多次元多面中国語ベンチマーク

ZhuJiu: A Multi-dimensional, Multi-faceted Chinese Benchmark for Large Language Models ( http://arxiv.org/abs/2308.14353v1 )

ライセンス: Link先を確認
Baoli Zhang, Haining Xie, Pengfan Du, Junhao Chen, Pengfei Cao, Yubo Chen, Shengping Liu, Kang Liu, Jun Zhao(参考訳) 大規模言語モデル(LLM)の先例のない性能は、包括的かつ正確な評価を必要とする。 LLMの評価には、ベンチマークは包括的で体系的である必要がある、と我々は主張する。 1) 多次元能力カバレッジ: 51タスクをカバーする7つの能力範囲にわたるllmを包括的に評価する。 特に,LLMの知識能力に着目した新しいベンチマークを提案する。 2) 多面的評価手法の協調:3つの異なる相補的評価手法を用いてLCMを総合的に評価し,評価結果の信頼性と精度を確保する。 3) 総合的な中国のベンチマーク: ZhuJiuは中国語でLLMを十分に評価する先駆的なベンチマークであり、英語でも同様に堅牢な評価能力を提供する。 (4) 潜在的なデータ漏洩を回避するために,37タスクを対象とした評価データを構築する。 現在10のLLMを評価し,その結果の詳細な議論と分析を行う。 ZhuJiuベンチマークとオープンパーティのリーダーボードはhttp://www.zhujiu-benchmark.com/で公開されている。

The unprecedented performance of large language models (LLMs) requires comprehensive and accurate evaluation. We argue that for LLMs evaluation, benchmarks need to be comprehensive and systematic. To this end, we propose the ZhuJiu benchmark, which has the following strengths: (1) Multi-dimensional ability coverage: We comprehensively evaluate LLMs across 7 ability dimensions covering 51 tasks. Especially, we also propose a new benchmark that focuses on knowledge ability of LLMs. (2) Multi-faceted evaluation methods collaboration: We use 3 different yet complementary evaluation methods to comprehensively evaluate LLMs, which can ensure the authority and accuracy of the evaluation results. (3) Comprehensive Chinese benchmark: ZhuJiu is the pioneering benchmark that fully assesses LLMs in Chinese, while also providing equally robust evaluation abilities in English. (4) Avoiding potential data leakage: To avoid data leakage, we construct evaluation data specifically for 37 tasks. We evaluate 10 current mainstream LLMs and conduct an in-depth discussion and analysis of their results. The ZhuJiu benchmark and open-participation leaderboard are publicly released at http://www.zhujiu-benchmark.com/ and we also provide a demo video at https://youtu.be/qypkJ89L1Ic.
翻訳日:2023-08-29 15:12:14 公開日:2023-08-28
# EdgeMoE: MoEベースの大規模言語モデルのデバイス上での高速推論

EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models ( http://arxiv.org/abs/2308.14352v1 )

ライセンス: Link先を確認
Rongjie Yi, Liwei Guo, Shiyun Wei, Ao Zhou, Shangguang Wang, Mengwei Xu(参考訳) gptsやllamaといった大規模言語モデル(llm)は、さまざまな機械学習タスクで非常に優れた能力を備えているため、マシンラーニングの革命を導いてきた。 しかし、データセンターからエッジデバイスへのLSMの移行は、いくつかの課題と機会をもたらしている。 このシフトによってプライバシと可用性が向上するが、これらのモデルの膨大なパラメータサイズによって妨げられ、実行コストが非現実的になる。 これらの考察を踏まえ、パラメータサイズスケールとしてほぼ一定の計算複雑性を示すスパースLSMの一般的な変種である、MEM(Mix-of-expert)用に調整された最初のデバイス推論エンジンであるEdgeMoEを紹介する。 EdgeMoEは、ストレージ階層間でモデルを戦略的に分割することで、メモリと計算効率の両方を達成する。 具体的には、非熟練重量はデバイスのメモリに格納され、専門家重量は外部ストレージに保存され、アクティベートされた時にのみメモリにフェッチされる。 この設計は、専門家の重みは、輝かしいものの、ほとんどアクティベーションパターンのためにアクセスされないという重要な洞察によって基づいている。 エキスパートI/Oスワップに伴うオーバーヘッドを軽減するために、EdgeMoEは、2つの革新的なテクニックを取り入れている。 2) エキスパート管理: 事前にアクティベートされる専門家を予測し、compute-i/oパイプラインにプリロードすることで、プロセスをさらに最適化する。 確立されたMoE LLMと各種エッジデバイスで実施した実証的な評価では、EdgeMoEは競合するベースラインソリューションと比較してメモリ節約とパフォーマンスが大幅に向上している。

Large Language Models (LLMs) such as GPTs and LLaMa have ushered in a revolution in machine intelligence, owing to their exceptional capabilities in a wide range of machine learning tasks. However, the transition of LLMs from data centers to edge devices presents a set of challenges and opportunities. While this shift can enhance privacy and availability, it is hampered by the enormous parameter sizes of these models, leading to impractical runtime costs. In light of these considerations, we introduce EdgeMoE, the first on-device inference engine tailored for mixture-of-expert (MoE) LLMs, a popular variant of sparse LLMs that exhibit nearly constant computational complexity as their parameter size scales. EdgeMoE achieves both memory and computational efficiency by strategically partitioning the model across the storage hierarchy. Specifically, non-expert weights are stored in the device's memory, while expert weights are kept in external storage and are fetched into memory only when they are activated. This design is underpinned by a crucial insight that expert weights, though voluminous, are infrequently accessed due to sparse activation patterns. To further mitigate the overhead associated with expert I/O swapping, EdgeMoE incorporates two innovative techniques: (1) Expert-wise bitwidth adaptation: This method reduces the size of expert weights with an acceptable level of accuracy loss. (2) Expert management: It predicts the experts that will be activated in advance and preloads them into the compute-I/O pipeline, thus further optimizing the process. In empirical evaluations conducted on well-established MoE LLMs and various edge devices, EdgeMoE demonstrates substantial memory savings and performance improvements when compared to competitive baseline solutions.
翻訳日:2023-08-29 15:11:53 公開日:2023-08-28
# 一般化重み付き平均値によるuper confidence boundアルゴリズムの単純修正

Simple Modification of the Upper Confidence Bound Algorithm by Generalized Weighted Averages ( http://arxiv.org/abs/2308.14350v1 )

ライセンス: Link先を確認
Nobuhito Manome, Shuji Shinohara, Ung-il Chung(参考訳) マルチアームバンディット問題(MAB)は、強化学習の不確実性の下で連続的な意思決定をモデル化する古典的な問題である。 本研究では、一般化重み付き平均を用いて、MAB問題の代表的なアルゴリズムであるUPB1を拡張することで、新しい一般化上信頼境界アルゴリズム(GWA-UCB1)を提案し、様々な問題設定に有効なアルゴリズムを提案する。 GWA-UCB1 は UCB1 における探索と利用のバランスの2パラメータ一般化であり、UCB1 の公式の簡単な修正で実装することができる。 したがって、このアルゴリズムはUCBに基づく強化学習モデルに容易に適用できる。 予備実験では,両腕の確率的mab問題において,簡単な一般化ucb1(g-ucb1)とgwa-ucb1の最適パラメータを検討した。 その後, アーム報酬確率を均一分布, 正規分布からサンプリングした場合の確率的MAB問題と, より現実的な状況を想定した生存的MAB問題に対するアルゴリズムの性能を確認した。 GWA-UCB1 は G-UCB1 や UCB1-Tuned 、Thompson よりも多くの問題設定で優れており、多くの状況で有用である。 コードはhttps://github.com/manome/python-mabで入手できる。

The multi-armed bandit (MAB) problem is a classical problem that models sequential decision-making under uncertainty in reinforcement learning. In this study, we propose a new generalized upper confidence bound (UCB) algorithm (GWA-UCB1) by extending UCB1, which is a representative algorithm for MAB problems, using generalized weighted averages, and present an effective algorithm for various problem settings. GWA-UCB1 is a two-parameter generalization of the balance between exploration and exploitation in UCB1 and can be implemented with a simple modification of the UCB1 formula. Therefore, this algorithm can be easily applied to UCB-based reinforcement learning models. In preliminary experiments, we investigated the optimal parameters of a simple generalized UCB1 (G-UCB1), prepared for comparison and GWA-UCB1, in a stochastic MAB problem with two arms. Subsequently, we confirmed the performance of the algorithms with the investigated parameters on stochastic MAB problems when arm reward probabilities were sampled from uniform or normal distributions and on survival MAB problems assuming more realistic situations. GWA-UCB1 outperformed G-UCB1, UCB1-Tuned, and Thompson sampling in most problem settings and can be useful in many situations. The code is available at https://github.com/manome/python-mab.
翻訳日:2023-08-29 15:11:22 公開日:2023-08-28
# 宇宙空間統合ネットワークにおけるラベルなしディープラーニング駆動型セキュアアクセス選択

Label-free Deep Learning Driven Secure Access Selection in Space-Air-Ground Integrated Networks ( http://arxiv.org/abs/2308.14348v1 )

ライセンス: Link先を確認
Zhaowei Wang, Zhisheng Yin, Xiucheng Wang, Nan Cheng, Yuan Zhang, Tom H. Luan(参考訳) スペース・エア・グラウンド統合ネットワーク(SAGIN)では、固有のオープン性と広範な放送がこれらのネットワークを盗聴の脅威に晒している。 SAGINにおける多層アクセスネットワーク間のスペクトル共有による固有の共チャネル干渉を考慮すると、異種伝送における物理層セキュリティを支援することができる。 しかし、異種資源と異なる盗聴モデルの両方のため、機密指向のアクセス戦略を行うことは困難である。 本稿では,衛星や無人航空機,基地局などにアクセス可能なマルチモードユーザによる盗聴者の存在下での安全なアクセス選択について検討する。 特に,qネットワーク近似に基づくディープ・ラーニング・アプローチを提案し,サム・シークレットレートを最大化するための最適アクセス戦略を提案する。 一方,非教師付き学習手法により,秘密性向上のための電力最適化も実施されている。 注目すべきは、2つのニューラルネットワークが教師なし学習とQ-ネットワーク近似によってトレーニングされることだ。 その結果,提案する電力最適化手法とアクセス戦略の効率性が検証され,安全な伝送性能が向上した。

In Space-air-ground integrated networks (SAGIN), the inherent openness and extensive broadcast coverage expose these networks to significant eavesdropping threats. Considering the inherent co-channel interference due to spectrum sharing among multi-tier access networks in SAGIN, it can be leveraged to assist the physical layer security among heterogeneous transmissions. However, it is challenging to conduct a secrecy-oriented access strategy due to both heterogeneous resources and different eavesdropping models. In this paper, we explore secure access selection for a scenario involving multi-mode users capable of accessing satellites, unmanned aerial vehicles, or base stations in the presence of eavesdroppers. Particularly, we propose a Q-network approximation based deep learning approach for selecting the optimal access strategy for maximizing the sum secrecy rate. Meanwhile, the power optimization is also carried out by an unsupervised learning approach to improve the secrecy performance. Remarkably, two neural networks are trained by unsupervised learning and Q-network approximation which are both label-free methods without knowing the optimal solution as labels. Numerical results verify the efficiency of our proposed power optimization approach and access strategy, leading to enhanced secure transmission performance.
翻訳日:2023-08-29 15:10:56 公開日:2023-08-28
# スパースペナルティによるビクラスタリング法

Biclustering Methods via Sparse Penalty ( http://arxiv.org/abs/2308.14388v1 )

ライセンス: Link先を確認
Jiqiang Wang(参考訳) 本稿では,遺伝子発現データにおいて最も重要なクラスターを同定するために用いられる複数のバイクラスタ法を初めて検討した。 そこで我々は主にSSVD(sparse SVD)法に焦点をあて,スパース解析にのみ用いられる「プレネットペナルティ」という新たなスパースペナルティを試行した。 次に, シミュレーション研究において, 異なる種類の生成データセットを実験し, 非オーバーラップデータに対して, 混合プリネットペナルティが極めて有効であることを示すk層に対して, 1層近似を試みた。 最後に,本手法の動作を示すために,実際の遺伝子発現データを用いた。

In this paper, we first reviewed several biclustering methods that are used to identify the most significant clusters in gene expression data. Here we mainly focused on the SSVD(sparse SVD) method and tried a new sparse penalty named "Prenet penalty" which has been used only in factor analysis to gain sparsity. Then in the simulation study, we tried different types of generated datasets (with different sparsity and dimension) and tried 1-layer approximation then for k-layers which shows the mixed Prenet penalty is very effective for non-overlapped data. Finally, we used some real gene expression data to show the behavior of our methods.
翻訳日:2023-08-29 15:02:53 公開日:2023-08-28
# 量子ビット同期型コスト効率量子アクセスネットワーク

A cost-efficient quantum access network with qubit-based synchronization ( http://arxiv.org/abs/2308.14385v1 )

ライセンス: Link先を確認
Chunfeng Huang, Ye Chen, Tingting Luo, Wenjie He, Xin Liu, Zhenrong Zhang, and Kejin Wei(参考訳) 量子鍵分配(Quantum Key Distribution, QKD)は、2つの異なるパーティが秘密鍵と情報理論のセキュリティを交換できる物理層暗号化技術である。 過去20年間、QKDは研究所の研究から、マルチユーザ量子アクセスネットワーク(QAN)を含む現実世界のアプリケーションへと移行してきた。 このネットワーク構造により、タイムディビジョン多重化により、単一光子検出器をネットワークノードで共有することができ、ネットワークコストを大幅に削減できる。 しかし、現在のQAN実装では、時間同期のような補助的なタスクのために追加のハードウェアが必要である。 この問題に対処するため,量子ビット同期を用いたコスト効率の高いqanを提案する。 このアプローチでは、送信されたキュービットは同期ハードウェアの必要性をなくし、時間同期を容易にする。 当社では,2ユーザ用のネットワークを実装して,50kmの商用ファイバースプール上で,平均安全キーレート53.84$ kbpsと711.90$ kbpsを達成した。 さらに,クロストークおよび損失条件下でのアクセスネットワークの容量について検討した。 シミュレーションの結果,キーレートが最大1070~bpsの64ユーザのqanをサポートすることができた。 本研究は,マルチユーザQKDネットワークを実現するための実現可能で費用対効果の高い方法を提供し,QKDの普及を促進する。

Quantum Key Distribution (QKD) is a physical layer encryption technique that enables two distant parties to exchange secure keys with information-theoretic security. In the last two decades, QKD has transitioned from laboratory research to real-world applications, including multi-user quantum access networks (QANs). This network structure allows users to share single-photon detectors at a network node through time-division multiplexing, thereby significantly reducing the network cost. However, current QAN implementations require additional hardware for auxiliary tasks such as time synchronization. To address this issue, we propose a cost-efficient QAN that uses qubit-based synchronization. In this approach, the transmitted qubits facilitate time synchronization, eliminating the need for synchronization hardware. We tested our scheme by implementing a network for two users and successfully achieved average secure key rates of $53.84$ kbps and $71.90$ kbps for each user over a 50-km commercial fiber spool. In addition, we investigated the capacity of the access network under cross-talk and loss conditions. The simulation results demonstrate that this scheme can support a QAN with 64 users with key rates up to 1070~bps. Our work provides a feasible and cost-effective way to implement a multi-user QKD network, further promoting the widespread application of QKD.
翻訳日:2023-08-29 15:02:41 公開日:2023-08-28
# 軽量ToFセンサを用いた単分子密度SLAMのためのマルチモードニューラルレーダランス場

Multi-Modal Neural Radiance Field for Monocular Dense SLAM with a Light-Weight ToF Sensor ( http://arxiv.org/abs/2308.14383v1 )

ライセンス: Link先を確認
Xinyang Liu, Yijin Li, Yanbin Teng, Hujun Bao, Guofeng Zhang, Yinda Zhang, Zhaopeng Cui(参考訳) 軽量飛行時間(ToF)深度センサはコンパクトでコスト効率が良く、オートフォーカスや障害物検出などのタスクにモバイルデバイスで広く利用されている。 しかし、細くノイズの多い深さ測定のため、これらのセンサーが密度の高い幾何学的再構成のために考慮されることは稀である。 本研究では,モノクラーカメラと軽量ToFセンサを備えた初の高密度SLAMシステムを提案する。 具体的には、rgbカメラからの信号と、生のセンサ入力と比較して最適化を駆動する軽量なtofセンサの両方のレンダリングをサポートするマルチモーダル暗黙的シーン表現を提案する。 さらに,ポーズ追跡と再構築を成功させるために,予測深度を中間監督として活用し,暗黙表現の効率的な学習のための粗粒度最適化戦略を開発する。 最後に、時間情報を明示的に利用して、軽量のToFセンサーからのノイズ信号に対処し、システムの精度と堅牢性を改善する。 実験により,本システムは軽量tofセンサの信号を十分に活用し,カメラトラッキングと高密度シーン再構成の両立を実現した。 プロジェクトページ: \url{https://zju3dv.github.io/tof_slam/}。

Light-weight time-of-flight (ToF) depth sensors are compact and cost-efficient, and thus widely used on mobile devices for tasks such as autofocus and obstacle detection. However, due to the sparse and noisy depth measurements, these sensors have rarely been considered for dense geometry reconstruction. In this work, we present the first dense SLAM system with a monocular camera and a light-weight ToF sensor. Specifically, we propose a multi-modal implicit scene representation that supports rendering both the signals from the RGB camera and light-weight ToF sensor which drives the optimization by comparing with the raw sensor inputs. Moreover, in order to guarantee successful pose tracking and reconstruction, we exploit a predicted depth as an intermediate supervision and develop a coarse-to-fine optimization strategy for efficient learning of the implicit representation. At last, the temporal information is explicitly exploited to deal with the noisy signals from light-weight ToF sensors to improve the accuracy and robustness of the system. Experiments demonstrate that our system well exploits the signals of light-weight ToF sensors and achieves competitive results both on camera tracking and dense scene reconstruction. Project page: \url{https://zju3dv.github.io/tof_slam/}.
翻訳日:2023-08-29 15:02:18 公開日:2023-08-28
# 教師なし異常検出のためのセルフスーパービジョン:落とし穴と機会

Self-Supervision for Tackling Unsupervised Anomaly Detection: Pitfalls and Opportunities ( http://arxiv.org/abs/2308.14380v1 )

ライセンス: Link先を確認
Leman Akoglu and Jaemin Yoo(参考訳) 自己教師付き学習(SSL)は、機械学習とその多くの現実世界の応用を、自己生成の監視信号を通じて大量の未ラベルデータから学習することによって、成長するトレントである。 非教師なし異常検出(AD)は、さまざまなデータ拡張機能や外部データ露出を通じて擬似異常を自己生成することでSSLにも乗じている。 本稿ではまず,AD文献から証拠や研究を提示することにより,ADパフォーマンスに対するSSL戦略の選択の重要性を概説する。 SSL が様々なハイパーパラメータ (HP) を注意深く調整する,という理解に基づいて,SSL ベースの AD のための教師なしモデル選択と拡張チューニングに関する最近の研究を報告する。 次に、新たなプレテキストタスクやデータモダリティの拡張関数の設計、SSL HPを体系的にチューニングするための新しいモデル選択ソリューションの作成、および効果的な密度推定によるAD上での事前学習基盤モデルの可能性の活用など、新たな課題と今後の可能性を強調した。

Self-supervised learning (SSL) is a growing torrent that has recently transformed machine learning and its many real world applications, by learning on massive amounts of unlabeled data via self-generated supervisory signals. Unsupervised anomaly detection (AD) has also capitalized on SSL, by self-generating pseudo-anomalies through various data augmentation functions or external data exposure. In this vision paper, we first underline the importance of the choice of SSL strategies on AD performance, by presenting evidences and studies from the AD literature. Equipped with the understanding that SSL incurs various hyperparameters (HPs) to carefully tune, we present recent developments on unsupervised model selection and augmentation tuning for SSL-based AD. We then highlight emerging challenges and future opportunities; on designing new pretext tasks and augmentation functions for different data modalities, creating novel model selection solutions for systematically tuning the SSL HPs, as well as on capitalizing on the potential of pretrained foundation models on AD through effective density estimation.
翻訳日:2023-08-29 15:01:57 公開日:2023-08-28
# gkgnet:マルチラベル画像認識のためのグループk-nearest近傍グラフ畳み込みネットワーク

GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition ( http://arxiv.org/abs/2308.14378v1 )

ライセンス: Link先を確認
Ruijie Yao, Sheng Jin, Lumin Xu, Wang Zeng, Wentao Liu, Chen Qian, Ping Luo, Ji Wu(参考訳) マルチラベル画像認識(MLIR)は、ラベルと画像領域の間の複雑な関係をモデル化しながら、単一のイメージ内で複数のオブジェクトラベルを予測することを目的とした課題である。 畳み込みニューラルネットワークと視覚トランスフォーマーは、ピクセルやパッチの通常のグリッドとして画像を処理することに成功したが、これらの表現は不規則で不連続な領域を捉えるのに最適ではない。 本稿では,グループK-アネレス近傍のグラフ畳み込みネットワーク (GKGNet) を初めて提案し, セマンティックラベルの埋め込みと画像パッチの接続を柔軟で統一されたグラフ構造でモデル化する。 異なるオブジェクトのスケール分散に対処し、複数の視点から情報を取得するために、動的グラフ構築とメッセージパッシングのためのグループKGCNモジュールを提案する。 実験により,GKGNetは,挑戦的なマルチラベルデータセットである \ie MS-COCO と VOC2007 のデータセットに対して,計算コストを大幅に削減して,最先端の性能を実現することを示した。 この領域における将来の研究を促進するために、コードとモデルをリリースします。

Multi-Label Image Recognition (MLIR) is a challenging task that aims to predict multiple object labels in a single image while modeling the complex relationships between labels and image regions. Although convolutional neural networks and vision transformers have succeeded in processing images as regular grids of pixels or patches, these representations are sub-optimal for capturing irregular and discontinuous regions of interest. In this work, we present the first fully graph convolutional model, Group K-nearest neighbor based Graph convolutional Network (GKGNet), which models the connections between semantic label embeddings and image patches in a flexible and unified graph structure. To address the scale variance of different objects and to capture information from multiple perspectives, we propose the Group KGCN module for dynamic graph construction and message passing. Our experiments demonstrate that GKGNet achieves state-of-the-art performance with significantly lower computational costs on the challenging multi-label datasets, \ie MS-COCO and VOC2007 datasets. We will release the code and models to facilitate future research in this area.
翻訳日:2023-08-29 15:01:37 公開日:2023-08-28
# 交通予測のためのメタ注意グラフ畳み込みリカレントネットワーク

Meta Attentive Graph Convolutional Recurrent Network for Traffic Forecasting ( http://arxiv.org/abs/2308.14377v1 )

ライセンス: Link先を確認
Adnan Zeb, Yongchao Ye, Shiyao Zhang and James J. Q. Yu(参考訳) 交通予測はインテリジェント交通システムにおける根本的な問題である。 既存の交通予測器は、交通データの複雑な空間的-時間的依存性をモデル化する表現力によって制限される。 第一に、ほとんどのアプローチは、主にローカル共有パターンをモデル化するために設計されており、各ノードに関連する特定のパターンをグローバルにキャプチャするには不十分である。 したがって、各ノードのユニークな特性と多様化したパターンを学習できない。 第二に、既存のアプローチのほとんどは、短期依存と長期依存の両方を正確にモデル化するのに苦労している。 本稿では,新しい交通予測器であるMeta Attentive Graph Convolutional Recurrent Network (MAGCRN)を提案する。 MAGCRNは、グラフ畳み込みリカレントネットワーク(GCRN)をコアモジュールとして使用し、ローカル依存をモデル化し、2つの新しいモジュールで操作を改善する。 1) ノード固有パターンをグローバルにキャプチャするnmpl(node-specific meta pattern learning)モジュール 2) ノード固有の機能とGCRN操作中の各ステップで最初に学習したものを接続することにより、短期および長期の依存関係をキャプチャするノード注意重み生成モジュール(NAWG)。 6つの実世界のトラフィックデータセットの実験により、NMPLとNAWGが共に、MAGCRNが短期および長期の予測において最先端のベースラインを上回ることを実証した。

Traffic forecasting is a fundamental problem in intelligent transportation systems. Existing traffic predictors are limited by their expressive power to model the complex spatial-temporal dependencies in traffic data, mainly due to the following limitations. Firstly, most approaches are primarily designed to model the local shared patterns, which makes them insufficient to capture the specific patterns associated with each node globally. Hence, they fail to learn each node's unique properties and diversified patterns. Secondly, most existing approaches struggle to accurately model both short- and long-term dependencies simultaneously. In this paper, we propose a novel traffic predictor, named Meta Attentive Graph Convolutional Recurrent Network (MAGCRN). MAGCRN utilizes a Graph Convolutional Recurrent Network (GCRN) as a core module to model local dependencies and improves its operation with two novel modules: 1) a Node-Specific Meta Pattern Learning (NMPL) module to capture node-specific patterns globally and 2) a Node Attention Weight Generation Module (NAWG) module to capture short- and long-term dependencies by connecting the node-specific features with the ones learned initially at each time step during GCRN operation. Experiments on six real-world traffic datasets demonstrate that NMPL and NAWG together enable MAGCRN to outperform state-of-the-art baselines on both short- and long-term predictions.
翻訳日:2023-08-29 15:01:16 公開日:2023-08-28
# 既存のネットワーク侵入検知技術は適用可能か?

Are Existing Out-Of-Distribution Techniques Suitable for Network Intrusion Detection? ( http://arxiv.org/abs/2308.14376v1 )

ライセンス: Link先を確認
Andrea Corsini and Shanchieh Jay Yang(参考訳) 機械学習(ml)は、ネットワーク侵入検出でますます普及している。 しかしながら、mlベースのソリューションは、入力データが既知のパターンを反映するかどうかに関わらず常に応答する。 他分野のOOD(Out-Of-Distribution)の検出にはいくつかの提案があるが,これらの手法がネットワークセキュリティの新たな侵入形態を効果的に特定できるかどうかは不明である。 新しい攻撃は必ずしも全体の分布に影響を及ぼさないが、OODが明確であることは保証されておらず、新しいクラスを描写した画像はコンピュータビジョンにある。 本研究では,他のフィールドからのOOD検出器が未知の悪意のあるトラフィックを識別できるかどうかを検討する。 さらに,コントラスト学習やマルチクラスタスクで作成されたような,モデル内のより識別的かつ意味的にリッチな埋め込み空間が,メリット検出に有効かどうかについても検討する。 本研究は, 検出戦略の異なる6種類のOOD技術について報告する。 これらのテクニックは、さまざまな方法でトレーニングされたモデルに適用され、その後、同じおよび異なるデータセット(ネットワーク環境)から未知の悪意のあるトラフィックにさらされる。 以上の結果から,既存の検知器は,新たな悪質なトラフィックの一貫性のある部分を特定し,埋め込み空間の改善により検出性が向上することが示唆された。 また、特定の検出器の単純な組み合わせによって、テストシナリオにおいてほぼ100%の悪意のあるトラフィックを特定できることを示す。

Machine learning (ML) has become increasingly popular in network intrusion detection. However, ML-based solutions always respond regardless of whether the input data reflects known patterns, a common issue across safety-critical applications. While several proposals exist for detecting Out-Of-Distribution (OOD) in other fields, it remains unclear whether these approaches can effectively identify new forms of intrusions for network security. New attacks, not necessarily affecting overall distributions, are not guaranteed to be clearly OOD as instead, images depicting new classes are in computer vision. In this work, we investigate whether existing OOD detectors from other fields allow the identification of unknown malicious traffic. We also explore whether more discriminative and semantically richer embedding spaces within models, such as those created with contrastive learning and multi-class tasks, benefit detection. Our investigation covers a set of six OOD techniques that employ different detection strategies. These techniques are applied to models trained in various ways and subsequently exposed to unknown malicious traffic from the same and different datasets (network environments). Our findings suggest that existing detectors can identify a consistent portion of new malicious traffic, and that improved embedding spaces enhance detection. We also demonstrate that simple combinations of certain detectors can identify almost 100% of malicious traffic in our tested scenarios.
翻訳日:2023-08-29 15:00:56 公開日:2023-08-28
# 階層的ラベル展開に関するオンライン連続学習

Online Continual Learning on Hierarchical Label Expansion ( http://arxiv.org/abs/2308.14374v1 )

ライセンス: Link先を確認
Byung Hyun Lee, Okchul Jung, Jonghyun Choi, Se Young Chun(参考訳) 連続学習(continual learning, cl)は、モデルが新しいタスクや環境に適応することを可能にする。 現在のCLセットアップでは、過去のタスクのラベルと小さなタスクの重複の有無に関わらず新しいタスクの関係は無視されているが、現実のシナリオでは、古いタスクと新しいタスクの階層的な関係が伴うことが多く、従来のCLアプローチには別の課題が生じる。 この課題に対処するために,階層ラベル拡張(HLE)と呼ばれるオンライン学習制約を備えた,階層型階層型インクリメンタルタスク構成を提案する。 我々の構成では、ネットワークはまず粗粒度クラスを学習し、データラベルは様々な階層深さでより細粒度なクラスへと継続的に拡張されます。 そこで本研究では,階層認識型擬似ラベルを用いて階層クラス情報を組み込むリハーサルベース手法を提案する。 さらに,新たに遭遇したクラスのサンプルを選択的に採用する,単純かつ効果的なメモリ管理およびサンプリング戦略を提案する。 提案手法はhleの階層構造を効果的に活用し,深さやクラス不均衡比にかかわらず階層全体の分類精度を向上し,従来の不一致やぼやけ,i-blurryのcl設定よりも高いマージンで先行手法よりも優れていることを示す。

Continual learning (CL) enables models to adapt to new tasks and environments without forgetting previously learned knowledge. While current CL setups have ignored the relationship between labels in the past task and the new task with or without small task overlaps, real-world scenarios often involve hierarchical relationships between old and new tasks, posing another challenge for traditional CL approaches. To address this challenge, we propose a novel multi-level hierarchical class incremental task configuration with an online learning constraint, called hierarchical label expansion (HLE). Our configuration allows a network to first learn coarse-grained classes, with data labels continually expanding to more fine-grained classes in various hierarchy depths. To tackle this new setup, we propose a rehearsal-based method that utilizes hierarchy-aware pseudo-labeling to incorporate hierarchical class information. Additionally, we propose a simple yet effective memory management and sampling strategy that selectively adopts samples of newly encountered classes. Our experiments demonstrate that our proposed method can effectively use hierarchy on our HLE setup to improve classification accuracy across all levels of hierarchies, regardless of depth and class imbalance ratio, outperforming prior state-of-the-art works by significant margins while also outperforming them on the conventional disjoint, blurry and i-Blurry CL setups.
翻訳日:2023-08-29 15:00:33 公開日:2023-08-28
# SuperUDF:表面再構成のための自己監督型UDF推定

SuperUDF: Self-supervised UDF Estimation for Surface Reconstruction ( http://arxiv.org/abs/2308.14371v1 )

ライセンス: Link先を確認
Hui Tian, Chenyang Zhu, Yifei Shi, Kai Xu(参考訳) 非符号距離関数(UDF)に基づく学習に基づく表面再構成は、開面の扱いなど多くの利点がある。 効率的なトレーニングのために学習した幾何を利用した自己教師付きUDF学習のSuperUDFと,スパースサンプリングのためのロバストネスの新しい正規化を提案する。 SuperUDFのコアアイデアは、局所最適射影(LOP)の古典曲面近似演算子からインスピレーションを得ている。 重要な洞察は、UDFが正しく推定された場合、3DポイントはUDFの勾配に従って下面に局所的に投影されるべきであるということである。 これにより、udf幾何上の多くの帰納的バイアスと事前学習済み幾何が考案され、udf推定を効率的に学習する。 superudfをスパースサンプリングに頑健にする新しい正規化損失を提案する。 さらに,推定UDFからの学習に基づくメッシュ抽出にも貢献する。 大規模な評価では、SuperUDFは品質と効率の両面で、いくつかの公開データセットで芸術の状態を上回ります。 コードはアクセプタンス後にリリースされる。

Learning-based surface reconstruction based on unsigned distance functions (UDF) has many advantages such as handling open surfaces. We propose SuperUDF, a self-supervised UDF learning which exploits a learned geometry prior for efficient training and a novel regularization for robustness to sparse sampling. The core idea of SuperUDF draws inspiration from the classical surface approximation operator of locally optimal projection (LOP). The key insight is that if the UDF is estimated correctly, the 3D points should be locally projected onto the underlying surface following the gradient of the UDF. Based on that, a number of inductive biases on UDF geometry and a pre-learned geometry prior are devised to learn UDF estimation efficiently. A novel regularization loss is proposed to make SuperUDF robust to sparse sampling. Furthermore, we also contribute a learning-based mesh extraction from the estimated UDFs. Extensive evaluations demonstrate that SuperUDF outperforms the state of the arts on several public datasets in terms of both quality and efficiency. Code will be released after accteptance.
翻訳日:2023-08-29 15:00:06 公開日:2023-08-28
# 位置-チャネルマッピングのためのモデルベース学習

Model-based learning for location-to-channel mapping ( http://arxiv.org/abs/2308.14370v1 )

ライセンス: Link先を確認
Baptiste Chatelier (IETR, MERCE-France, INSA Rennes), Luc Le Magoarou (IETR, INSA Rennes), Vincent Corlay (MERCE-France), Matthieu Crussi\`ere (IETR, INSA Rennes)(参考訳) 現代の通信システムは、効率的な情報伝達を実現するために正確なチャネル推定に依存している。 通信チャネル応答はユーザの位置と高度に関連しているため、ニューラルネットワークを使用してユーザの空間座標をチャネル係数にマッピングすることができる。 しかし、これらの後者は、波長の順に、位置の関数として急速に変化する。 古典的ニューラルアーキテクチャは低周波関数(スペクトルバイアス)の学習に偏っているため、そのようなマッピングは特に学習が難しい。 本稿では,この制限を克服するために,低周波をターゲットマッピング関数の高周波成分と分離するモデルベースネットワークを提案する。 これによりハイパーネットワークアーキテクチャが実現され、ニューラルネットワークは高周波成分の辞書で低周波スパース係数のみを学習する。 シミュレーションの結果,提案したニューラルネットワークは,現実的な合成データに対する標準的なアプローチよりも優れていた。

Modern communication systems rely on accurate channel estimation to achieve efficient and reliable transmission of information. As the communication channel response is highly related to the user's location, one can use a neural network to map the user's spatial coordinates to the channel coefficients. However, these latter are rapidly varying as a function of the location, on the order of the wavelength. Classical neural architectures being biased towards learning low frequency functions (spectral bias), such mapping is therefore notably difficult to learn. In order to overcome this limitation, this paper presents a frugal, model-based network that separates the low frequency from the high frequency components of the target mapping function. This yields an hypernetwork architecture where the neural network only learns low frequency sparse coefficients in a dictionary of high frequency components. Simulation results show that the proposed neural network outperforms standard approaches on realistic synthetic data.
翻訳日:2023-08-29 14:59:48 公開日:2023-08-28
# 機械学習による漏洩フォトニック格子のトポロジー同定

Identifying topology of leaky photonic lattices with machine learning ( http://arxiv.org/abs/2308.14407v1 )

ライセンス: Link先を確認
Ekaterina O. Smolina, Lev A. Smirnov, Daniel Leykam, Franco Nori, Daria A. Smirnova(参考訳) リークフォトニック格子の位相相の分類には,限られた測定データを用いて機械学習手法を応用できることを示す。 本稿では,バルク強度測定のみに基づく手法を提案する。 特に,空間的局所化初期励起を有限距離で伝播させた後,拡散導波路アレイの出力強度分布から位相特性を正確に決定する完全連結ニューラルネットワークを,現実的な実験条件を密にエミュレートした環境で設計する。

We show how machine learning techniques can be applied for the classification of topological phases in leaky photonic lattices using limited measurement data. We propose an approach based solely on bulk intensity measurements, thus exempt from the need for complicated phase retrieval procedures. In particular, we design a fully connected neural network that accurately determines topological properties from the output intensity distribution in dimerized waveguide arrays with leaky channels, after propagation of a spatially localized initial excitation at a finite distance, in a setting that closely emulates realistic experimental conditions.
翻訳日:2023-08-29 14:53:03 公開日:2023-08-28
# 情報マス

Infomathic ( http://arxiv.org/abs/2308.14406v1 )

ライセンス: Link先を確認
Karim Zayana (M.E.N.E.S.R., COMELEC), R\'egis Queruel, Pierre Michalak(参考訳) その存在以来、コンピュータツールは、近似法(積分の根の数値計算、...)を実装するか、あるいは現象(自然の幾何学的、確率論的、...)をシミュレートして予想を検証または確立するか、数学者を支援してきた。 しかし、これは私たちがここで注意を集中する別のポイントであり、コンピューティングは特定の推論を刺激したり、デモンストレーションの全セクションを担当することによって、数学の原因にも役立ちます。 私たちはこの実りあるパートナーシップを、高校からアクセスできない2つの例で説明します。

Since its existence, the computer tool has often supported mathematicians, whether it is to implement an approximation method (numerical calculation of a root, of an integral, ...) or to simulate a phenomenon (geometric in nature, probabilistic, ...) to verify or establish a conjecture. But, and this is another point on which we will concentrate our attention here, computing will also have served the cause of mathematics by inspiring certain reasoning or by taking charge of whole sections of a demonstration. We will illustrate this fruitful partnership with two example saccessible from high school.
翻訳日:2023-08-29 14:52:53 公開日:2023-08-28
# 光子統計のキャラクタリゼーションによるソース側チャネル脆弱性の軽減

Mitigating the source-side channel vulnerability by characterization of photon statistics ( http://arxiv.org/abs/2308.14402v1 )

ライセンス: Link先を確認
Tanya Sharma, Ayan Biswas, Jayanth Ramakrishnan, Pooja Chandravanshi, and Ravindra P. Singh(参考訳) 量子鍵分布(QKD)は理論的には無条件のセキュリティを提供する。 残念ながら、理論と実践のギャップは、実用的なQKDシステムに対するサイドチャネル攻撃を脅かす。 多くの有名なqkdプロトコルは弱いコヒーレントレーザーパルスを使って量子情報を符号化している。 これらの源は理想的な単一光子源と異なり、ポアソン統計に従う。 デコイ状態や偶然検出プロトコルなどの多くのプロトコルは、情報漏洩を検出するために光子統計の監視に依存している。 光子統計の正確な測定とキャラクタリゼーションにより、敵攻撃の検出と安全な鍵レートの推定が可能になり、QKDシステムの全体的なセキュリティが強化される。 我々は、単一検出器による測定と比較するために複数の検出器を用いて平均光子数を推定するために、光源を厳格に特徴付ける。 さらに, 状態準備欠陥による潜在的な情報漏洩を識別し緩和するために, 強度変動の研究も行なっている。 我々は情報理論のセキュリティを達成するために理論と実践のギャップを埋めることを目指している。

Quantum key distribution (QKD) theoretically offers unconditional security. Unfortunately, the gap between theory and practice threatens side-channel attacks on practical QKD systems. Many well-known QKD protocols use weak coherent laser pulses to encode the quantum information. These sources differ from ideal single photon sources and follow Poisson statistics. Many protocols, such as decoy state and coincidence detection protocols, rely on monitoring the photon statistics to detect any information leakage. The accurate measurement and characterization of photon statistics enable the detection of adversarial attacks and the estimation of secure key rates, strengthening the overall security of the QKD system. We have rigorously characterized our source to estimate the mean photon number employing multiple detectors for comparison against measurements made with a single detector. Furthermore, we have also studied intensity fluctuations to help identify and mitigate any potential information leakage due to state preparation flaws. We aim to bridge the gap between theory and practice to achieve information-theoretic security.
翻訳日:2023-08-29 14:52:43 公開日:2023-08-28
# CodeMark: ニューラルコード補完モデルに対するコードデータセットに対する許容できない透かし

CodeMark: Imperceptible Watermarking for Code Datasets against Neural Code Completion Models ( http://arxiv.org/abs/2308.14401v1 )

ライセンス: Link先を確認
Zhensu Sun, Xiaoning Du, Fu Song, Li Li(参考訳) コードデータセットは、ニューラルネットワークベースのコード補完モデルのトレーニングに非常に価値があり、企業や組織がこれらのデータセットの確立と処理に多大な投資をしている。 幸いなことに、これらのデータセットはプロプライエタリあるいはパブリックな使用のために構築され、データ漏洩やライセンス違反などによる不正なエクスプロイトのリスクが高い。 さらに悪いことに、'black-box'というニューラルモデルの性質は、外部者がトレーニングデータセットを監査する際の障壁を高く設定する。 現在、画像および自然言語データセットの不適切な使用を禁止するための透かし手法が提案されている。 しかし、ドメイン固有のため、これらはコードデータセットに直接適用できないため、この新しく重要なコードデータの著作権保護が脅威にさらされているままである。 このギャップを埋めるために,ユーザ定義の知覚不能な透かしをコードデータセットに埋め込んで,ニューラルネットワーク補完モデルのトレーニングに使用する手法であるCodeMarkを提案する。 CodeMarkはアダプティブなセマンティック保存変換に基づいており、コードデータの正確な機能を保持し、変更をルールブレーカから隠蔽する。 ツールキットにCodeMarkを実装し、コード補完モデルの広範な評価を行う。 CodeMarkは、モデル精度、検証可能性、堅牢性、非受容性など、実用的な透かしのすべての望ましい特性を満たすために検証されている。

Code datasets are of immense value for training neural-network-based code completion models, where companies or organizations have made substantial investments to establish and process these datasets. Unluckily, these datasets, either built for proprietary or public usage, face the high risk of unauthorized exploits, resulting from data leakages, license violations, etc. Even worse, the ``black-box'' nature of neural models sets a high barrier for externals to audit their training datasets, which further connives these unauthorized usages. Currently, watermarking methods have been proposed to prohibit inappropriate usage of image and natural language datasets. However, due to domain specificity, they are not directly applicable to code datasets, leaving the copyright protection of this emerging and important field of code data still exposed to threats. To fill this gap, we propose a method, named CodeMark, to embed user-defined imperceptible watermarks into code datasets to trace their usage in training neural code completion models. CodeMark is based on adaptive semantic-preserving transformations, which preserve the exact functionality of the code data and keep the changes covert against rule-breakers. We implement CodeMark in a toolkit and conduct an extensive evaluation of code completion models. CodeMark is validated to fulfill all desired properties of practical watermarks, including harmlessness to model accuracy, verifiability, robustness, and imperceptibility.
翻訳日:2023-08-29 14:52:29 公開日:2023-08-28
# 共生トランスフォーマーとnearfarmix拡張を用いた半教師付き意味深さ推定

Semi-Supervised Semantic Depth Estimation using Symbiotic Transformer and NearFarMix Augmentation ( http://arxiv.org/abs/2308.14400v1 )

ライセンス: Link先を確認
Md Awsafur Rahman and Shaikh Anowarul Fattah(参考訳) コンピュータービジョンでは、ロボット工学、自動運転車、拡張現実、仮想現実といった分野において、深さ推定が不可欠である。 セマンティクスと奥行きの統合は、相互情報共有によるシーン理解を促進する。 しかし、データセットにおける意味情報の不足は課題となる。 限定的な局所受容場を持つ既存の畳み込みアプローチは、深さと意味論の間の共生ポテンシャルのフル活用を妨げる。 本稿では,セマンティクス情報の不足に対処するためのデータセット不変半教師付き戦略を提案する。 情報交換による包括的相互認識を実現するために, 共生トランスフォーマーを利用したDepth Semantics Symbiosisモジュールを提案する。 さらに、新しい拡張であるNearFarMixは、2つの画像から領域を戦略的にマージし、多様で構造的に一貫したサンプルを高機能な制御で生成することで、両方の深度セマンティックタスクをオーバーフィッティングし補償するために導入された。 NYU-Depth-V2およびKITTIデータセットの大規模な実験は、提案手法が屋内および屋外環境において優れていることを示す。

In computer vision, depth estimation is crucial for domains like robotics, autonomous vehicles, augmented reality, and virtual reality. Integrating semantics with depth enhances scene understanding through reciprocal information sharing. However, the scarcity of semantic information in datasets poses challenges. Existing convolutional approaches with limited local receptive fields hinder the full utilization of the symbiotic potential between depth and semantics. This paper introduces a dataset-invariant semi-supervised strategy to address the scarcity of semantic information. It proposes the Depth Semantics Symbiosis module, leveraging the Symbiotic Transformer for achieving comprehensive mutual awareness by information exchange within both local and global contexts. Additionally, a novel augmentation, NearFarMix is introduced to combat overfitting and compensate both depth-semantic tasks by strategically merging regions from two images, generating diverse and structurally consistent samples with enhanced control. Extensive experiments on NYU-Depth-V2 and KITTI datasets demonstrate the superiority of our proposed techniques in indoor and outdoor environments.
翻訳日:2023-08-29 14:52:03 公開日:2023-08-28
# ロバストバングラ文書レイアウト分割のためのアンカーフリーモデルの組合わせ

Ensemble of Anchor-Free Models for Robust Bangla Document Layout Segmentation ( http://arxiv.org/abs/2308.14397v1 )

ライセンス: Link先を確認
U Mong Sain Chak, Md. Asib Rahman(参考訳) 本稿では,バングラ文書のレイアウトを分割する目的で設計された革新的なシステムを提案する。 我々の手法は、Banglaドキュメントレイアウトセグメンテーションを中心にしたDL Sprint 2.0 - BUET CSE Fest 2023コンペティションに細心の注意を払って適合したYOLOv8モデルの洗練されたコレクションを利用する。 私たちの主な焦点は、画像強化、モデルアーキテクチャ、モデルアンサンブルの使用など、タスクのさまざまな要素の上昇にあります。 ドキュメントイメージのサブセットの品質を意図的に低下させて,モデルトレーニングのレジリエンスを高めることにより,クロスバリデーションスコアが向上した。 ベイズ最適化を用いて、モデルアンサンブルの最適信頼度とIoU閾値を決定する。 提案手法により,バングラ文書におけるロバストなレイアウトセグメンテーションを実現するために,アンカーフリーモデルとのマッチングの有効性を実証した。

In this research paper, we present an innovative system designed for the purpose of segmenting the layout of Bangla documents. Our methodology involves utilizing a sophisticated collection of YOLOv8 models, meticulously adapted for the DL Sprint 2.0 - BUET CSE Fest 2023 Competition that centers around Bangla document layout segmentation. Our primary focus lies in elevating various elements of the task, including techniques like image augmentation, model architecture, and the use of model ensembles. We intentionally lower the quality of a subset of document images to enhance the resilience of model training, consequently leading to an improvement in our cross-validation score. Employing Bayesian optimization, we determine the optimal confidence and IoU thresholds for our model ensemble. Through our approach, we successfully showcase the effectiveness of amalgamating anchor-free models to achieve robust layout segmentation in Bangla documents.
翻訳日:2023-08-29 14:51:46 公開日:2023-08-28
# UMMAFormer: テンポラルフォージェリーローカライゼーションのためのユニバーサルマルチモーダル適応トランスフォーマフレームワーク

UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for Temporal Forgery Localization ( http://arxiv.org/abs/2308.14395v1 )

ライセンス: Link先を確認
Rui Zhang, Hongxia Wang, Mingshan Du, Hanqing Liu, Yang Zhou, Qiang Zeng(参考訳) 人工知能生成コンテンツ(AIGC)の出現は、様々な分野におけるマルチメディアコンテンツの信頼性を懸念している。 しかし、既存の偽コンテンツ検出の研究は、主に産業環境での応用性に制限がある完全ビデオのバイナリ分類タスクに焦点を当てている。 このギャップに対処するために,マルチモーダル適応による偽造セグメントの予測を行う,時間的偽造ローカライゼーション(tfl)のための汎用トランスフォーマフレームワークummaformerを提案する。 本手法では、時間的特徴再構成に基づく時間的特徴異常注意(TFAA)モジュールを導入し、時間的差異の検出を強化する。 また、特徴ピラミッドネットワーク(FPN)を微妙な特徴拡張のために最適化するために、並列横断特徴ピラミッドネットワーク(PCA-FPN)を設計する。 提案手法を評価するため,ビデオのインペイントシーンに特化して最適化されたTVILデータセットを新たに提案する。 提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセット上での最先端性能を実現し,従来の手法よりも優れていた。 コードとデータはhttps://github.com/ymhzyj/ummaformer/で入手できる。

The emergence of artificial intelligence-generated content (AIGC) has raised concerns about the authenticity of multimedia content in various fields. However, existing research for forgery content detection has focused mainly on binary classification tasks of complete videos, which has limited applicability in industrial settings. To address this gap, we propose UMMAFormer, a novel universal transformer framework for temporal forgery localization (TFL) that predicts forgery segments with multimodal adaptation. Our approach introduces a Temporal Feature Abnormal Attention (TFAA) module based on temporal feature reconstruction to enhance the detection of temporal differences. We also design a Parallel Cross-Attention Feature Pyramid Network (PCA-FPN) to optimize the Feature Pyramid Network (FPN) for subtle feature enhancement. To evaluate the proposed method, we contribute a novel Temporal Video Inpainting Localization (TVIL) dataset specifically tailored for video inpainting scenes. Our experiments show that our approach achieves state-of-the-art performance on benchmark datasets, including Lav-DF, TVIL, and Psynd, significantly outperforming previous methods. The code and data are available at https://github.com/ymhzyj/UMMAFormer/.
翻訳日:2023-08-29 14:51:31 公開日:2023-08-28
# 第5回 LSVOS チャレンジの第1位: ビデオインスタンスのセグメンテーション

1st Place Solution for the 5th LSVOS Challenge: Video Instance Segmentation ( http://arxiv.org/abs/2308.14392v1 )

ライセンス: Link先を確認
Tao Zhang, Xingye Tian, Yikang Zhou, Yu Wu, Shunping Ji, Cilin Yan, Xuebo Wang, Xin Tao, Yuan Zhang, Pengfei Wan(参考訳) ビデオインスタンスのセグメンテーションは、ビデオ編集や自動運転など、多くのダウンストリームアプリケーションの基盤となる、困難なタスクである。 本稿では,SOTA VIS法,DVISのさらなる改良について述べる。 まず,トレーニング可能なトラッカに対して,より安定して正確なオブジェクトトラッキングを実現するための,高精細なトレーニング戦略を導入する。 さらに,映像インスタンスセグメンテーションにおける視覚基盤モデルの役割について検討する。 DINO v2で事前訓練された凍結VIT-Lモデルを利用することで、DVISは顕著な性能向上を示す。 これらの改良により,開発段階と試験段階において57.9 apと56.0 apをそれぞれ達成し,最終的に第5回lsvosチャレンジのvisトラックで1位にランクインした。 コードはhttps://github.com/zhang-tao-whu/dvisで入手できる。

Video instance segmentation is a challenging task that serves as the cornerstone of numerous downstream applications, including video editing and autonomous driving. In this report, we present further improvements to the SOTA VIS method, DVIS. First, we introduce a denoising training strategy for the trainable tracker, allowing it to achieve more stable and accurate object tracking in complex and long videos. Additionally, we explore the role of visual foundation models in video instance segmentation. By utilizing a frozen VIT-L model pre-trained by DINO v2, DVIS demonstrates remarkable performance improvements. With these enhancements, our method achieves 57.9 AP and 56.0 AP in the development and test phases, respectively, and ultimately ranked 1st in the VIS track of the 5th LSVOS Challenge. The code will be available at https://github.com/zhang-tao-whu/DVIS.
翻訳日:2023-08-29 14:51:07 公開日:2023-08-28
# FIRE:食品画像から世代を再現する

FIRE: Food Image to REcipe generation ( http://arxiv.org/abs/2308.14391v1 )

ライセンス: Link先を確認
Prateek Chhikara, Dhiraj Chaurasia, Yifan Jiang, Omkar Masur, Filip Ilievski(参考訳) 近年,食品科学は多分野の研究分野として注目されている。 フードコンピューティングの野心的な目標は、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することである。 現在の画像からレシピへの手法は検索ベースであり、その成功はデータセットのサイズと多様性、そして学習された埋め込みの品質に大きく依存する。 一方、強力な注意力に基づく視覚と言語モデルの出現は、正確で一般化可能なレシピ生成のための有望な道を示す。 本稿では,食品情報処理領域におけるレシピ生成に適した新しいマルチモーダル手法であるfireを提案する。 FIREはBLIPモデルを利用してタイトルを生成し、Vision Transformerとデコーダを使って材料抽出を行い、T5モデルを使用してタイトルと材料を入力として組み込んだレシピを生成する。 本稿では,FIREを大規模言語モデルに統合することで,レシピをユーザの好みに適合させるレシピカスタマイズと,自動調理プロセスを実現するレシピ・ツー・コード変換という2つの実践的応用を紹介した。 提案手法の有効性を実験的に検証し,今後の進歩と食品コンピューティングへの普及の可能性を明らかにした。

Food computing has emerged as a prominent multidisciplinary field of research in recent years. An ambitious goal of food computing is to develop end-to-end intelligent systems capable of autonomously producing recipe information for a food image. Current image-to-recipe methods are retrieval-based and their success depends heavily on the dataset size and diversity, as well as the quality of learned embeddings. Meanwhile, the emergence of powerful attention-based vision and language models presents a promising avenue for accurate and generalizable recipe generation, which has yet to be extensively explored. This paper proposes FIRE, a novel multimodal methodology tailored to recipe generation in the food computing domain, which generates the food title, ingredients, and cooking instructions based on input food images. FIRE leverages the BLIP model to generate titles, utilizes a Vision Transformer with a decoder for ingredient extraction, and employs the T5 model to generate recipes incorporating titles and ingredients as inputs. We showcase two practical applications that can benefit from integrating FIRE with large language model prompting: recipe customization to fit recipes to user preferences and recipe-to-code transformation to enable automated cooking processes. Our experimental findings validate the efficacy of our proposed approach, underscoring its potential for future advancements and widespread adoption in food computing.
翻訳日:2023-08-29 14:50:52 公開日:2023-08-28
# ASCAPE: がん患者の生活の質を支えるオープンAIエコシステム

ASCAPE: An open AI ecosystem to support the quality of life of cancer patients ( http://arxiv.org/abs/2308.14390v1 )

ライセンス: Link先を確認
Konstantinos Lampropoulos, Thanos Kosmidis, Serge Autexier, Milos Savic, Manos Athanatos, Miltiadis Kokkonidis, Tzortzia Koutsouri, Anamaria Vizitiu, Antonios Valachis, Miriam Quintero Padron(参考訳) 最新のがん統計は、がん関連の死亡率の低下を示している。 しかし、人口の増加と高齢化により、がんに罹患する人々の絶対数は増え続けている。 本稿では、人工知能(AI)と機械学習(ML)の最近の進歩を利用して、がん患者のQoL(QoL)を支援するオープンなAI基盤であるASCAPEを提案する。 ASCAPEの医療ステークホルダー(例えば病院)は、プライベートな医療データをローカルに処理し、オープンなAIインフラストラクチャを通じて生成された知識(MLモデル)を共有することができる。

The latest cancer statistics indicate a decrease in cancer-related mortality. However, due to the growing and ageing population, the absolute number of people living with cancer is set to keep increasing. This paper presents ASCAPE, an open AI infrastructure that takes advantage of the recent advances in Artificial Intelligence (AI) and Machine Learning (ML) to support cancer patients quality of life (QoL). With ASCAPE health stakeholders (e.g. hospitals) can locally process their private medical data and then share the produced knowledge (ML models) through the open AI infrastructure.
翻訳日:2023-08-29 14:50:29 公開日:2023-08-28
# TextrolSpeech:コーデック言語テキスト音声モデルを用いたテキストスタイル制御音声コーパス

TextrolSpeech: A Text Style Control Speech Corpus With Codec Language Text-to-Speech Models ( http://arxiv.org/abs/2308.14430v1 )

ライセンス: Link先を確認
Shengpeng Ji, Jialong Zuo, Minghui Fang, Ziyue Jiang, Feiyang Chen, Xinyu Duan, Baoxing Huai, Zhou Zhao(参考訳) 近年,tts (controllable text-to-speech) の分野への関心が高まっている。 従来の研究は、音響知識に基づく特定のスタイルファクターを提供するユーザや、特定の要件を満たす参照音声を選択するユーザに依存してきたが、自然文のプロンプトからのみ音声を生成することが、研究者にとって新たな課題となっている。 この課題は、自然テキストスタイルプロンプトによる高品質な音声データセットの不足と、高度なテキスト制御可能なttsモデルがないことに起因する。 これに照らして。 1) リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。 データセットは、自然文記述における236,220組のスタイルプロンプトと、5つのスタイル要素と対応する音声サンプルからなる。 本稿では,多段階のプロンプトプログラミング手法を提案し,gptモデルを用いて大規模自然記述を生成する。 2)より多様なスタイルでオーディオを生成する必要性に対応するため,salleと呼ばれる効率的なアーキテクチャを提案する。 このアーキテクチャは、テキスト制御可能なTSを言語モデルタスクとして扱い、音声コーデックコードを中間表現として利用して従来のメルスペクトルを置き換える。 最後に,制御可能なttsタスクで同等の性能を示すことで,提案モデルの能力の実証に成功した。 オーディオサンプルはhttps://sall-e.github.io/で入手できる。

Recently, there has been a growing interest in the field of controllable Text-to-Speech (TTS). While previous studies have relied on users providing specific style factor values based on acoustic knowledge or selecting reference speeches that meet certain requirements, generating speech solely from natural text prompts has emerged as a new challenge for researchers. This challenge arises due to the scarcity of high-quality speech datasets with natural text style prompt and the absence of advanced text-controllable TTS models. In light of this, 1) we propose TextrolSpeech, which is the first large-scale speech emotion dataset annotated with rich text attributes. The dataset comprises 236,220 pairs of style prompt in natural text descriptions with five style factors and corresponding speech samples. Through iterative experimentation, we introduce a multi-stage prompt programming approach that effectively utilizes the GPT model for generating natural style descriptions in large volumes. 2) Furthermore, to address the need for generating audio with greater style diversity, we propose an efficient architecture called Salle. This architecture treats text controllable TTS as a language model task, utilizing audio codec codes as an intermediate representation to replace the conventional mel-spectrogram. Finally, we successfully demonstrate the ability of the proposed model by showing a comparable performance in the controllable TTS task. Audio samples are available at https://sall-e.github.io/
翻訳日:2023-08-29 14:41:56 公開日:2023-08-28
# バイオメディカルエンティティとトリプルアウェアプレトレーニング

Biomedical Entity Linking with Triple-aware Pre-Training ( http://arxiv.org/abs/2308.14429v1 )

ライセンス: Link先を確認
Xi Yan, Cedric M\"oller and Ricardo Usbeck(参考訳) バイオメディカルエンティティのリンクは、テキストマイニングや質問応答といったバイオメディカル自然言語処理タスクにおいて重要な側面である。 しかし、一般的なコーパスで訓練された現在の大規模言語モデル(LLM)を用いて生物医学的な実体をリンクすることの難しさは、生物医学的な実体がテキストにほとんど分散されていないため、LCMによるトレーニング中にはほとんど見られていないことである。 同時に、これらのllmは、異なる生物医学的実体間のハイレベルな意味的関係を意識していない。 上記の問題に対処するため、最近の研究は知識グラフ情報をLSMに注入することに焦点を当てている。 しかし、古い手法は実体の関連知識を無視したり、破滅的な忘れを招いたりする。 そこで本研究では,KGから合成したコーパスを用いて,強力な生成LDMを事前学習するための新しい枠組みを提案する。 評価では、同義語、説明、関係情報を含む利点は確認できない。

Linking biomedical entities is an essential aspect in biomedical natural language processing tasks, such as text mining and question answering. However, a difficulty of linking the biomedical entities using current large language models (LLM) trained on a general corpus is that biomedical entities are scarcely distributed in texts and therefore have been rarely seen during training by the LLM. At the same time, those LLMs are not aware of high level semantic connection between different biomedical entities, which are useful in identifying similar concepts in different textual contexts. To cope with aforementioned problems, some recent works focused on injecting knowledge graph information into LLMs. However, former methods either ignore the relational knowledge of the entities or lead to catastrophic forgetting. Therefore, we propose a novel framework to pre-train the powerful generative LLM by a corpus synthesized from a KG. In the evaluations we are unable to confirm the benefit of including synonym, description or relational information.
翻訳日:2023-08-29 14:41:33 公開日:2023-08-28
# ハイブリッドシステムのためのシールド強化学習

Shielded Reinforcement Learning for Hybrid Systems ( http://arxiv.org/abs/2308.14424v1 )

ライセンス: Link先を確認
Asger Horn Brorholt and Peter Gj{\o}l Jensen and Kim Guldstrand Larsen and Florian Lorber and Christian Schilling(参考訳) 差動方程式と系の状態の離散的な変化を組み合わせた切替制御ハイブリッドシステムの安全かつ最適な制御系合成は複雑に難しいことが知られている。 強化学習は、最適に近いコントローラを構築するために活用されているが、報酬工学によって奨励されたとしても、その振る舞いは安全であると保証されていない。 学習したコントローラーに安全を課す方法の1つは、設計によって正しいシールドを使用することである。 しかし、非線形環境とハイブリッド環境のシールドを得ること自体が困難である。 本稿では,真の遷移関数を体系的に抽出したサンプルを用いて,基礎となるパーティションベースの2人プレイヤー安全ゲームの近似有限表現を抽出した,いわゆるバーバリ法を用いたシールドの構成を提案する。 ハードセーフティ保証は手に入らないが,プロトタイプ実装とUPPAAL STRATEGOによる統計的安全性保証を実験的に実証する。 さらに,プレシールド(コントローラ学習前に適用)またはポストシールド(コントローラ学習後にのみ適用)として適用した場合の合成シールドの影響について検討した。 先行シールド方式の優位性を実験的に実証する。 本手法は,2つの産業事例を含む多様な事例研究に応用し,ポストシールドアプローチの最適化後のさらなる研究を行う。

Safe and optimal controller synthesis for switched-controlled hybrid systems, which combine differential equations and discrete changes of the system's state, is known to be intricately hard. Reinforcement learning has been leveraged to construct near-optimal controllers, but their behavior is not guaranteed to be safe, even when it is encouraged by reward engineering. One way of imposing safety to a learned controller is to use a shield, which is correct by design. However, obtaining a shield for non-linear and hybrid environments is itself intractable. In this paper, we propose the construction of a shield using the so-called barbaric method, where an approximate finite representation of an underlying partition-based two-player safety game is extracted via systematically picked samples of the true transition function. While hard safety guarantees are out of reach, we experimentally demonstrate strong statistical safety guarantees with a prototype implementation and UPPAAL STRATEGO. Furthermore, we study the impact of the synthesized shield when applied as either a pre-shield (applied before learning a controller) or a post-shield (only applied after learning a controller). We experimentally demonstrate superiority of the pre-shielding approach. We apply our technique on a range of case studies, including two industrial examples, and further study post-optimization of the post-shielding approach.
翻訳日:2023-08-29 14:41:14 公開日:2023-08-28
# GADePo:文書レベル関係抽出のためのグラフ支援宣言型ポーリング変換器

GADePo: Graph-Assisted Declarative Pooling Transformers for Document-Level Relation Extraction ( http://arxiv.org/abs/2308.14423v1 )

ライセンス: Link先を確認
Andrei C. Coman, Christos Theodoropoulos, Marie-Francine Moens, James Henderson(参考訳) 文書レベルの関係抽出は、文書内のエンティティ間の関係を識別することを目的としている。 現在の手法はテキストベースのエンコーダに依存しており、エンティティの参照や関連するコンテキストから情報を集約するために様々な手書きプーリングヒューリスティックを使用している。 本稿では,これらの厳密なプーリング関数を,トランスフォーマーモデルの固有グラフ処理機能を利用して明示的なグラフ関係に置き換える。 本稿では,共同テキストグラフ変換モデルと,情報集約のための明示的かつ高レベルな命令を提供する入力のグラフ支援宣言プール(GADePo)仕様を提案する。 これにより、プーリングプロセスはドメイン固有の知識や望ましい結果によって導かれるが、トランスフォーマーによっても学習され、より柔軟でカスタマイズ可能なプーリング戦略につながる。 提案手法は多様なデータセットやモデルにまたがって広範に評価され,手作業によるプール機能に匹敵する有望な結果が得られることを示す。

Document-level relation extraction aims to identify relationships between entities within a document. Current methods rely on text-based encoders and employ various hand-coded pooling heuristics to aggregate information from entity mentions and associated contexts. In this paper, we replace these rigid pooling functions with explicit graph relations by leveraging the intrinsic graph processing capabilities of the Transformer model. We propose a joint text-graph Transformer model, and a graph-assisted declarative pooling (GADePo) specification of the input which provides explicit and high-level instructions for information aggregation. This allows the pooling process to be guided by domain-specific knowledge or desired outcomes but still learned by the Transformer, leading to more flexible and customizable pooling strategies. We extensively evaluate our method across diverse datasets and models, and show that our approach yields promising results that are comparable to those achieved by the hand-coded pooling functions.
翻訳日:2023-08-29 14:40:54 公開日:2023-08-28
# デジタルコミュニケーション時代における倫理入門

Introduction to ethics in the age of digital communication ( http://arxiv.org/abs/2308.14421v1 )

ライセンス: Link先を確認
Rebekah Rousi, Ville Vakkuri(参考訳) 倫理、または道徳哲学は、人類の歴史を通じて存在した。 倫理学は、善と悪、善と悪の研究として簡潔に表現することができる。 現代の社会的な言説には、倫理の行動的理解や倫理的実践がある。 コミュニケーション、デザイン、技術開発の分野で活動する個人にとって、倫理とは何か、どのように関連し、特定のドメインに適用するか、基本的な原則や類似性が文脈から文脈へ、そして違いがあるかもしれないかを理解することは不可欠である。 本稿ではデジタルコミュニケーションの分野における倫理の紹介として機能する。 実践的倫理分野としての応用倫理を概観し、実践的・研究的・理論的観点から現代専門職の実践における倫理を観察するとともに、コミュニケーション分野における倫理の性質が変化し、これらの変化に対する新興技術の影響についても論じる。

Ethics, or moral philosophy, have existed throughout civil human history. Ethics can be described simplistically as the study of what is good and bad or good and evil. More relevant for contemporary societal discourses, are behavioural understandings of ethics, and ethical practice. It is integral for individuals operating in the fields of communications, design and technological development to grasp what ethics are, how they relate and apply to specific domains, where basic principles or similarities lie from context to context, and where there may be differences. This article serves as an introduction to ethics in the field of digital communication. It gives a brief overview of applied ethics as a practical sub-field of ethics and observes ethics in contemporary professional practice from practical, research, and theoretical perspectives.The article also discusses the ways in which the nature of ethics in the field of communication has been changing, and the impact of emerging technology on these changes.
翻訳日:2023-08-29 14:40:37 公開日:2023-08-28
# 高速物体認識のためのグラフベース非同期イベント処理

Graph-based Asynchronous Event Processing for Rapid Object Recognition ( http://arxiv.org/abs/2308.14419v1 )

ライセンス: Link先を確認
Yijin Li, Han Zhou, Bangbang Yang, Ye Zhang, Zhaopeng Cui, Hujun Bao, Guofeng Zhang(参考訳) 従来のビデオカメラとは異なり、イベントカメラは、各イベントがピクセルの位置、トリガー時間、明るさの極性をエンコードする非同期イベントストリームをキャプチャする。 本稿では,SlideGCNというイベントカメラのための新しいグラフベースのフレームワークを提案する。 イベントのグループを入力として使用する最近のグラフベースの手法とは異なり、このアプローチはイベント毎のデータを効率的に処理し、グラフの構造を内部的に維持しながら、イベントデータの低レイテンシ特性を解き放つことができる。 高速グラフ構築のために,k-d木に基づく汎用手法に対してイベントクラウドの部分正則構造をよりよく活用する半径探索アルゴリズムを開発した。 実験により,現在のグラフベース手法の計算複雑性を最大100倍低減し,オブジェクト認識に最先端の性能を維持できることを示した。 さらに,本手法によるイベントワイド処理の優位性を検証する。 状態が安定すると、高い信頼度で予測を行い、早期に認識することができる。 プロジェクトページ: \url{https://zju3dv.github.io/slide_gcn/}

Different from traditional video cameras, event cameras capture asynchronous events stream in which each event encodes pixel location, trigger time, and the polarity of the brightness changes. In this paper, we introduce a novel graph-based framework for event cameras, namely SlideGCN. Unlike some recent graph-based methods that use groups of events as input, our approach can efficiently process data event-by-event, unlock the low latency nature of events data while still maintaining the graph's structure internally. For fast graph construction, we develop a radius search algorithm, which better exploits the partial regular structure of event cloud against k-d tree based generic methods. Experiments show that our method reduces the computational complexity up to 100 times with respect to current graph-based methods while keeping state-of-the-art performance on object recognition. Moreover, we verify the superiority of event-wise processing with our method. When the state becomes stable, we can give a prediction with high confidence, thus making an early recognition. Project page: \url{https://zju3dv.github.io/slide_gcn/}.
翻訳日:2023-08-29 14:40:22 公開日:2023-08-28
# 領域一般化のための多層・多層コントラスト学習

Multi-Scale and Multi-Layer Contrastive Learning for Domain Generalization ( http://arxiv.org/abs/2308.14418v1 )

ライセンス: Link先を確認
Aristotelis Ballas and Christos Diou(参考訳) 過去10年間、ディープニューラルネットワークは、学界と産業の両方において、急速に進歩し、コンピュータビジョンの問題に大きな成果をもたらしてきた。 しかし、その成功にもかかわらず、最先端の画像分類アプローチは、多くの現実世界のアプリケーションで要求されるように、これまで見えなかった視覚的コンテキストにおいてうまく一般化できない。 本稿では,この領域一般化(DG)問題に着目し,ネットワークの多層およびマルチスケール表現を活用することにより,深層畳み込みニューラルネットワークの一般化能力を向上できると主張している。 本稿では,低レベルの特徴と高レベルの特徴を複数スケールで組み合わせることで,画像分類器の領域一般化をめざすフレームワークを紹介し,その潜在空間における表現を暗黙的に歪め,表現対象のドメイン不変属性を学習することを可能にする。 さらに,より頑健な表現学習を促進するために,分布シフト下で不変な表現を制約することを目的とした,コントラスト学習に触発された新しい目的関数を提案する。 PACS, VLCS, Office-Home, NICOの領域一般化データセットを用いて, 本手法の有効性を示す。 大規模な実験を通して、我々のモデルは従来のDG手法よりも優れており、全てのデータセットにおいて競争力と最先端の結果を連続的に生成できることを示す。

During the past decade, deep neural networks have led to fast-paced progress and significant achievements in computer vision problems, for both academia and industry. Yet despite their success, state-of-the-art image classification approaches fail to generalize well in previously unseen visual contexts, as required by many real-world applications. In this paper, we focus on this domain generalization (DG) problem and argue that the generalization ability of deep convolutional neural networks can be improved by taking advantage of multi-layer and multi-scaled representations of the network. We introduce a framework that aims at improving domain generalization of image classifiers by combining both low-level and high-level features at multiple scales, enabling the network to implicitly disentangle representations in its latent space and learn domain-invariant attributes of the depicted objects. Additionally, to further facilitate robust representation learning, we propose a novel objective function, inspired by contrastive learning, which aims at constraining the extracted representations to remain invariant under distribution shifts. We demonstrate the effectiveness of our method by evaluating on the domain generalization datasets of PACS, VLCS, Office-Home and NICO. Through extensive experimentation, we show that our model is able to surpass the performance of previous DG methods and consistently produce competitive and state-of-the-art results in all datasets.
翻訳日:2023-08-29 14:40:06 公開日:2023-08-28
# INF:LiDARとカメラのための神経核融合

INF: Implicit Neural Fusion for LiDAR and Camera ( http://arxiv.org/abs/2308.14414v1 )

ライセンス: Link先を確認
Shuyi Zhou, Shuxiang Xie, Ryoichi Ishikawa, Ken Sakurada, Masaki Onishi, Takeshi Oishi(参考訳) センサー融合はロボティクスにおいて一般的な話題となっている。 しかし,従来の融合法では,データ表現の違い,センサの変動,外因性キャリブレーションなど,多くの困難に直面している。 例えば、LiDAR-カメラ融合に使用されるキャリブレーション法は手動操作と補助キャリブレーションターゲットを必要とすることが多い。 Inlicit Neural representations (INR) は3次元シーン向けに開発されており、INRに関わる体積密度分布は、異なる種類のセンサーによって得られたシーン情報を統一する。 そこで我々は,LiDARとカメラのための暗黙的ニューラルフュージョン(INF)を提案する。 INFはまず、LiDARフレームを使用してターゲットシーンの神経密度場をトレーニングする。 そして、カメラ画像と訓練された神経密度フィールドを用いて、別個の神経色フィールドを訓練する。 INFはトレーニングプロセスとともに、LiDARのポーズを推定し、外部パラメータを最適化する。 本実験は,提案手法の高精度かつ安定した性能を示すものである。

Sensor fusion has become a popular topic in robotics. However, conventional fusion methods encounter many difficulties, such as data representation differences, sensor variations, and extrinsic calibration. For example, the calibration methods used for LiDAR-camera fusion often require manual operation and auxiliary calibration targets. Implicit neural representations (INRs) have been developed for 3D scenes, and the volume density distribution involved in an INR unifies the scene information obtained by different types of sensors. Therefore, we propose implicit neural fusion (INF) for LiDAR and camera. INF first trains a neural density field of the target scene using LiDAR frames. Then, a separate neural color field is trained using camera images and the trained neural density field. Along with the training process, INF both estimates LiDAR poses and optimizes extrinsic parameters. Our experiments demonstrate the high accuracy and stable performance of the proposed method.
翻訳日:2023-08-29 14:39:43 公開日:2023-08-28
# タスク対応機械の学習と負荷予測への応用

Task-Aware Machine Unlearning and Its Application in Load Forecasting ( http://arxiv.org/abs/2308.14412v1 )

ライセンス: Link先を確認
Wangkun Xu, Fei Teng(参考訳) データプライバシとセキュリティは、負荷予測において無視できない要素になっている。 これまでの研究は主に訓練段階の強化に焦点が当てられている。 しかし、一度モデルをトレーニングしてデプロイすると、データが悪意のあるものであるか、あるいはデータ所有者が要求したように、トレーニングデータの'forget'(すなわち、影響を取り除かなければならない)が必要になる。 本稿では,すでに訓練済みの予測器に対する元のデータセットの一部の影響を除去するマシンアンラーニングアルゴリズムを提案する。 しかし、直接学習は必然的にモデルの一般化能力を低下させる。 非学習完全性と性能低下のバランスをとるために,局所モデルパラメータ変化の感度をインフルエンス関数とサンプル再重み付けを用いて評価し,性能認識アルゴリズムを提案する。 さらに,ダウンストリームタスクの運用コストを,統計基準が完全に反映できないことも確認した。 そこで本研究では,三段階最適化を目標としたタスク認識マシンのアンラーニングを提案する。 このような目的の勾配の存在を理論的に証明し、残りのサンプルを再重み付けする鍵となる。 リアルな負荷データセットを持つ線形およびニューラルネットワーク負荷予測器上で、未学習アルゴリズムをテストする。 シミュレーションは、未学習の完全性と運用コストのバランスを示す。 すべてのコードはhttps://github.com/xuwkk/task_aware_machine_unlearningにある。

Data privacy and security have become a non-negligible factor in load forecasting. Previous researches mainly focus on training stage enhancement. However, once the model is trained and deployed, it may need to `forget' (i.e., remove the impact of) part of training data if the data is found to be malicious or as requested by the data owner. This paper introduces machine unlearning algorithm which is specifically designed to remove the influence of part of the original dataset on an already trained forecaster. However, direct unlearning inevitably degrades the model generalization ability. To balance between unlearning completeness and performance degradation, a performance-aware algorithm is proposed by evaluating the sensitivity of local model parameter change using influence function and sample re-weighting. Moreover, we observe that the statistic criterion cannot fully reflect the operation cost of down-stream tasks. Therefore, a task-aware machine unlearning is proposed whose objective is a tri-level optimization with dispatch and redispatch problems considered. We theoretically prove the existence of the gradient of such objective, which is key to re-weighting the remaining samples. We test the unlearning algorithms on linear and neural network load forecasters with realistic load dataset. The simulation demonstrates the balance on unlearning completeness and operational cost. All codes can be found at https://github.com/xuwkk/task_aware_machine_unlearning.
翻訳日:2023-08-29 14:39:29 公開日:2023-08-28
# 画像逆問題における分布外適応のための定常拡散

Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Imaging Inverse Problems ( http://arxiv.org/abs/2308.14409v1 )

ライセンス: Link先を確認
Riccardo Barbano, Alexander Denker, Hyungjin Chung, Tae Hoon Roh, Simon Arrdige, Peter Maass, Bangti Jin, Jong Chul Ye(参考訳) 画像の逆問題を解くためのgo-toフレームワークとしてデノイジン拡散モデルが登場している。 これらのモデルに対する重要な懸念は、アウト・オブ・ディストリビューション(OOD)タスクのパフォーマンスである。 トレーニングデータセットに特有の画像特徴を幻覚させることにより、測定データと矛盾する現実的な再構成を生成することができる。 データ一貫性とデータ駆動優先性を同時に活用するために,ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを提案する。 このフレームワークは、利用可能な測定データに特化ネットワークを適応させる。 提案手法を用いて,様々な画像モダリティにまたがるOOD性能の大幅な向上を実現し,実世界のアプリケーションにおけるデノナイズ拡散モデルのロバスト展開を推し進める。

Denoising diffusion models have emerged as the go-to framework for solving inverse problems in imaging. A critical concern regarding these models is their performance on out-of-distribution (OOD) tasks, which remains an under-explored challenge. Realistic reconstructions inconsistent with the measured data can be generated, hallucinating image features that are uniquely present in the training dataset. To simultaneously enforce data-consistency and leverage data-driven priors, we introduce a novel sampling framework called Steerable Conditional Diffusion. This framework adapts the denoising network specifically to the available measured data. Utilising our proposed method, we achieve substantial enhancements in OOD performance across diverse imaging modalities, advancing the robust deployment of denoising diffusion models in real-world applications.
翻訳日:2023-08-29 14:39:08 公開日:2023-08-28
# 画像の高分解能化と個人化のための画素認識安定拡散

Pixel-Aware Stable Diffusion for Realistic Image Super-resolution and Personalized Stylization ( http://arxiv.org/abs/2308.14469v1 )

ライセンス: Link先を確認
Tao Yang, Peiran Ren, Xuansong Xie, Lei Zhang(参考訳) リアル画像超解像(Real-ISR)は、低品質の入力から知覚的にリアルな画像の詳細を再現することを目的としている。 一般的に用いられる対向訓練に基づくReal-ISR法は、不自然な視覚的アーティファクトを導入し、自然なシーン画像の現実的なテクスチャを生成するのに失敗することが多い。 最近開発された生成的安定拡散モデルは、事前学習された強い画像プリエントを持つ実isrの潜在的な解決策を提供する。 しかし、この線に沿った既存の手法は、忠実なピクセル単位での画像構造を維持するのに失敗するか、詳細を再現するために余分にスキップされた接続に頼るかのどちらかであり、画像空間における追加のトレーニングを必要とし、画像スタイライゼーションのような潜在空間における他の関連タスクへの拡張を制限する。 本研究では,ロバストなReal-ISRとパーソナライズされたスタイリングを実現するために,画素対応安定拡散(PASD)ネットワークを提案する。 具体的には、画像局所構造を画素単位で知覚する拡散モデルを可能にするために、画素対応クロスアテンションモジュールを導入し、劣化除去モジュールを用いて劣化不感な特徴を抽出し、画像高レベル情報とともに拡散過程を導出する。 ベース拡散モデルをパーソナライズしたモデルに置き換えるだけで,ペアワイズトレーニングデータの収集を必要とせず,多様なスタイライゼーション画像を生成することができる。 PASDは、安定拡散のような既存の拡散モデルに容易に統合できる。 実isrとパーソナライズされたスタイライゼーション実験は,提案手法の有効性を示す。 ソースコードとモデルは \url{https://github.com/yangxy/PASD} で見ることができる。

Realistic image super-resolution (Real-ISR) aims to reproduce perceptually realistic image details from a low-quality input. The commonly used adversarial training based Real-ISR methods often introduce unnatural visual artifacts and fail to generate realistic textures for natural scene images. The recently developed generative stable diffusion models provide a potential solution to Real-ISR with pre-learned strong image priors. However, the existing methods along this line either fail to keep faithful pixel-wise image structures or resort to extra skipped connections to reproduce details, which requires additional training in image space and limits their extension to other related tasks in latent space such as image stylization. In this work, we propose a pixel-aware stable diffusion (PASD) network to achieve robust Real-ISR as well as personalized stylization. In specific, a pixel-aware cross attention module is introduced to enable diffusion models perceiving image local structures in pixel-wise level, while a degradation removal module is used to extract degradation insensitive features to guide the diffusion process together with image high level information. By simply replacing the base diffusion model with a personalized one, our method can generate diverse stylized images without the need to collect pairwise training data. PASD can be easily integrated into existing diffusion models such as Stable Diffusion. Experiments on Real-ISR and personalized stylization demonstrate the effectiveness of our proposed approach. The source code and models can be found at \url{https://github.com/yangxy/PASD}.
翻訳日:2023-08-29 14:34:03 公開日:2023-08-28
# ラベル分布保存による物体検出性能の向上

Improving the performance of object detection by preserving label distribution ( http://arxiv.org/abs/2308.14466v1 )

ライセンス: Link先を確認
Heewon Lee, Sangtae Ahn(参考訳) オブジェクト検出は、画像やビデオ内のオブジェクトの位置識別とラベル分類を行うタスクである。 このプロセスによって得られた情報は、コンピュータビジョンの分野で様々なタスクにおいて重要な役割を果たす。 オブジェクト検出では、トレーニングや検証に使用されるデータは、一般的に、イメージ内の各クラスに登録されたオブジェクトの数でバランスの取れた公開データセットに由来する。 しかし、現実のシナリオでは、クラス不均衡、すなわち各クラスで非常に異なる数のオブジェクトを持つデータセットを扱うのがより一般的であり、この不均衡は、見当たらないテスト画像を予測する際のオブジェクト検出のパフォーマンスを低下させる可能性がある。 そこで本研究では,画像中のクラスを均等に分散してトレーニングと検証を行い,オブジェクト検出におけるクラス不均衡を解消する手法を提案する。 提案手法は,マルチラベル階層化による一様クラス分布の維持を目的とする。 提案手法は,バランスの取れたクラス分散を示す公開データセットだけでなく,バランスの取れないクラス分散を持つカスタムデータセット上でもテストした。 提案手法は,重度不均衡と少ないデータを含むデータセットに対してより有効であることがわかった。 提案手法は,かなり不均衡なクラス分布を持つデータセットに対して有効に利用できることを示す。

Object detection is a task that performs position identification and label classification of objects in images or videos. The information obtained through this process plays an essential role in various tasks in the field of computer vision. In object detection, the data utilized for training and validation typically originate from public datasets that are well-balanced in terms of the number of objects ascribed to each class in an image. However, in real-world scenarios, handling datasets with much greater class imbalance, i.e., very different numbers of objects for each class , is much more common, and this imbalance may reduce the performance of object detection when predicting unseen test images. In our study, thus, we propose a method that evenly distributes the classes in an image for training and validation, solving the class imbalance problem in object detection. Our proposed method aims to maintain a uniform class distribution through multi-label stratification. We tested our proposed method not only on public datasets that typically exhibit balanced class distribution but also on custom datasets that may have imbalanced class distribution. We found that our proposed method was more effective on datasets containing severe imbalance and less data. Our findings indicate that the proposed method can be effectively used on datasets with substantially imbalanced class distribution.
翻訳日:2023-08-29 14:33:33 公開日:2023-08-28
# 実地図上の量子アニールを用いた交通信号の最適化

Traffic signal optimization using quantum annealing on real map ( http://arxiv.org/abs/2308.14462v1 )

ライセンス: Link先を確認
Reo Shikanai, Masayuki Ohzeki and Kazuyuki Tanaka(参考訳) d-waveシステムによって製造される量子アニーリングマシンは、qubo(quadratic unconstrained binary optimization)の最適解を正確かつ迅速に求めることが期待されている。 これは、リアルタイム計算が必要な将来のアプリケーションで役立つだろう。 そのような応用の1つは交通信号の最適化である。 このために量子アニールを用いる研究もある。 しかし、それらは地図上のクロスロードのような非現実的な設定で定式化されている。 そこで本研究では,Tジャンクションや多分岐道路に対応可能なQUBOを提案する。 提案手法の有効性を検証するため,SUMO(Simulation of Urban Mobility)を用いた。 これにより、現実世界に非常に近い地理情報データを実験することができる。 実験では, gurobiオプティマイザを用いた結果と比較し, 量子アニーリングによる基底状態の確認を行った。 その結果、量子アニーリングは基底状態を見つけることはできないが、我々のモデルは車両が赤信号で待つ時間を減らすことができる。 また、計算時間ではグロビ最適化器よりも劣る。 これは、D-Waveマシンのハードウェアの限界と環境温度などのノイズの影響によると思われる。 これらの問題が解決され、量子ビットの数が増加すると、最適解を計算する速度の点で量子アニールの使用が優れている可能性が高い。

The quantum annealing machine manufactured by D-Wave Systems is expected to find the optimal solution for QUBO (Quadratic Unconstrained Binary Optimization) accurately and quickly. This would be useful in future applications where real-time calculation is needed. One such application is traffic signal optimization. Some studies use quantum annealing for this. However, they are formulated in unrealistic settings, such as only crossroads on the map. Therefore, we suggest a QUBO, which can deal with T-junctions and multi-forked roads. To validate the efficiency of our approach, SUMO (Simulation of Urban MObility) is used. This enables us to experiment with geographic information data very close to the real world. We compared results with those using the Gurobi Optimizer in the experiment to confirm that quantum annealing can find a ground state. The results show that the quantum annealing cannot find the ground state, but our model can reduce the time that vehicles wait at a red light. It is also inferior to the Gurobi Optimizer in calculation time. This seems to be due to the D-Wave machine's hardware limitations and noise effects, such as ambient temperature. If these problems are solved, and the number of qubits is increased, the use of quantum annealing is likely to be superior in terms of the speed of calculating an optimal solution.
翻訳日:2023-08-29 14:33:15 公開日:2023-08-28
# 深層学習による患者由来オルガノイドビデオの時空間分析による薬物効用予測

Spatio-Temporal Analysis of Patient-Derived Organoid Videos Using Deep Learning for the Prediction of Drug Efficacy ( http://arxiv.org/abs/2308.14461v1 )

ライセンス: Link先を確認
Leo Fillioux, Emilie Gontran, J\'er\^ome Cartry, Jacques RR Mathieu, Sabrina Bedja, Alice Boil\`eve, Paul-Henry Courn\`ede, Fanny Jaulin, Stergios Christodoulidis, Maria Vakalopoulou(参考訳) 過去10年間で、患者由来のオルガノイド(pdos)が、生き生きとした腫瘍アバターを生成する最も信頼できる技術として出現した。 PDOは元の腫瘍の主な特徴を保ち、前臨床および臨床研究のためのシステムとして選択される。 特にpdosは、特定の患者からの生きた腫瘍細胞(例えばpdos)が抗がん剤のパネルに曝露される、前生存中の薬物試験に基づく機能的精密医学(fpm)の分野に関心を寄せている。 現在、アデノシン三リン酸(ATP)ベースの細胞生存測定は、薬物に対するPDOの感受性を評価するための金標準試験である。 読み出しは、全世界のPDO集団からのアッセイの最後に測定され、従って単一のPDO応答を捉えず、薬物効果の時間分解を提供しない。 そこで本研究では,pdoデータの自動処理に強力な大規模基礎モデルを用いることを初めて検討する。 特に,pdosのタイムラプス顕微鏡映像からリアルタイム薬物有効性を評価するための画像ベースの高スループットスクリーニング手法を提案する。 最近提案されたセグメンテーションとDINOv2モデルのためのSAMアルゴリズムは、PDO顕微鏡フレームを処理するための包括的なパイプラインに適応している。 さらに,複数インスタンス学習環境で時間的特徴と空間的特徴を融合してatpを予測するための注意機構を提案する。 他の非時間分解法よりも良好な結果を報告し,データの時間性がatpの予測に重要な要因であることを示した。 大規模な改善は、実験的な設定を最適化し、リアルタイムと予測の両方で予測を自動化することに光を当てた。

Over the last ten years, Patient-Derived Organoids (PDOs) emerged as the most reliable technology to generate ex-vivo tumor avatars. PDOs retain the main characteristics of their original tumor, making them a system of choice for pre-clinical and clinical studies. In particular, PDOs are attracting interest in the field of Functional Precision Medicine (FPM), which is based upon an ex-vivo drug test in which living tumor cells (such as PDOs) from a specific patient are exposed to a panel of anti-cancer drugs. Currently, the Adenosine Triphosphate (ATP) based cell viability assay is the gold standard test to assess the sensitivity of PDOs to drugs. The readout is measured at the end of the assay from a global PDO population and therefore does not capture single PDO responses and does not provide time resolution of drug effect. To this end, in this study, we explore for the first time the use of powerful large foundation models for the automatic processing of PDO data. In particular, we propose a novel imaging-based high-throughput screening method to assess real-time drug efficacy from a time-lapse microscopy video of PDOs. The recently proposed SAM algorithm for segmentation and DINOv2 model are adapted in a comprehensive pipeline for processing PDO microscopy frames. Moreover, an attention mechanism is proposed for fusing temporal and spatial features in a multiple instance learning setting to predict ATP. We report better results than other non-time-resolved methods, indicating that the temporality of data is an important factor for the prediction of ATP. Extensive ablations shed light on optimizing the experimental setting and automating the prediction both in real-time and for forecasting.
翻訳日:2023-08-29 14:32:57 公開日:2023-08-28
# 音声自己監督型表現ベンチマーク:より大きい頭部の1例

Speech Self-Supervised Representations Benchmarking: a Case for Larger Probing Heads ( http://arxiv.org/abs/2308.14456v1 )

ライセンス: Link先を確認
Salah Zaiem, Youcef Kemiche, Titouan Parcollet, Slim Essid, Mirco Ravanelli(参考訳) 自己教師付き学習(SSL)は、ラベルなし音声の大きなデータセットを活用して、注釈付きデータの少ない量で印象的なパフォーマンスを達成する。 提案手法の多さは、音声信号の様々な側面を探索する一連の下流タスクにおける性能を評価する包括的なベンチマークの出現を促した。 しかしながら、考慮されたタスクの数が増えている一方で、ほとんどの提案は、凍結したSSL表現をタスクラベルにマップする単一のダウンストリームアーキテクチャに依存している。 本研究では,調査ヘッドアーキテクチャの変化がベンチマーク結果に与える影響について検討する。 興味深いことに、下流構造の変化は、評価されたモデルの性能ランキングに大きな変動をもたらすことがわかった。 音声sslベンチマークの一般的なプラクティスに対して,大容量検索ヘッドの評価を行い,その性能,推論コスト,一般化,マルチレベル機能活用への影響を示す。

Self-supervised learning (SSL) leverages large datasets of unlabeled speech to reach impressive performance with reduced amounts of annotated data. The high number of proposed approaches fostered the emergence of comprehensive benchmarks that evaluate their performance on a set of downstream tasks exploring various aspects of the speech signal. However, while the number of considered tasks has been growing, most proposals rely upon a single downstream architecture that maps the frozen SSL representations to the task labels. This study examines how benchmarking results are affected by changes in the probing head architecture. Interestingly, we found that altering the downstream architecture structure leads to significant fluctuations in the performance ranking of the evaluated models. Against common practices in speech SSL benchmarking, we evaluate larger-capacity probing heads, showing their impact on performance, inference costs, generalization and multi-level feature exploitation.
翻訳日:2023-08-29 14:32:31 公開日:2023-08-28
# ExpCLIP:意味的アライメントによるテキストと表情のブリッジ

ExpCLIP: Bridging Text and Facial Expressions via Semantic Alignment ( http://arxiv.org/abs/2308.14448v1 )

ライセンス: Link先を確認
Yicheng Zhong, Huawei Wei, Peiji Yang, Zhisheng Wang(参考訳) スタイリッシュな音声駆動顔アニメーションの目的は、特定の感情表現をカプセル化したアニメーションを作ることである。 既存の方法は、しばしば事前に確立された感情ラベルや表情テンプレートに依存し、ユーザーの意図を正確に伝達するために必要な柔軟性を制限する。 本研究では,自然言語を感情刺激として活用することにより,任意のスタイルを制御できる手法を提案する。 このテクニックは柔軟性とユーザフレンドリという両面でメリットをもたらします。 この目的を達成するために、まずテキスト表現アライメントデータセット(TEAD)を構築し、各表情を複数のプロンプト的な記述と組み合わせ、大規模言語モデル(LLM)がサポートする革新的な自動アノテーション手法を提案し、データセット構築を高速化し、手動アノテーションの大幅なコストを削減した。 これに続いて、TEADを用いてCLIPベースのモデルであるExpCLIPをトレーニングし、テキストと表情を意味的に整合したスタイルの埋め込みにエンコードする。 埋め込みはその後、表情アニメーションジェネレータに統合され、表現的で制御可能な顔アニメーションが得られる。 既存の音声駆動型顔アニメーション訓練データにおいて、表情感情の多様性が限定されていることを考慮し、アニメーション生成がスタイル制御における前代未聞の豊かさをサポートできるように、効果的な表現プロンプト増強(EPA)機構を導入する。 包括的実験により,提案手法は表現力のある顔のアニメーション生成を実現し,所望のスタイルを効果的に伝達する柔軟性の向上を図っている。

The objective of stylized speech-driven facial animation is to create animations that encapsulate specific emotional expressions. Existing methods often depend on pre-established emotional labels or facial expression templates, which may limit the necessary flexibility for accurately conveying user intent. In this research, we introduce a technique that enables the control of arbitrary styles by leveraging natural language as emotion prompts. This technique presents benefits in terms of both flexibility and user-friendliness. To realize this objective, we initially construct a Text-Expression Alignment Dataset (TEAD), wherein each facial expression is paired with several prompt-like descriptions.We propose an innovative automatic annotation method, supported by Large Language Models (LLMs), to expedite the dataset construction, thereby eliminating the substantial expense of manual annotation. Following this, we utilize TEAD to train a CLIP-based model, termed ExpCLIP, which encodes text and facial expressions into semantically aligned style embeddings. The embeddings are subsequently integrated into the facial animation generator to yield expressive and controllable facial animations. Given the limited diversity of facial emotions in existing speech-driven facial animation training data, we further introduce an effective Expression Prompt Augmentation (EPA) mechanism to enable the animation generator to support unprecedented richness in style control. Comprehensive experiments illustrate that our method accomplishes expressive facial animation generation and offers enhanced flexibility in effectively conveying the desired style.
翻訳日:2023-08-29 14:32:15 公開日:2023-08-28
# 有効非線形エレンフェストハイブリッド量子古典力学

Effective nonlinear Ehrenfest hybrid quantum-classical dynamics ( http://arxiv.org/abs/2308.14440v1 )

ライセンス: Link先を確認
J. L. Alonso, C. Bouthelier-Madre, J. Clemente-Gallardo, D. Mart\'inez-Crespo and J. Pomar(参考訳) 統計ハイブリッド量子古典系に対する一貫した進化方程式の定義は、まだ未解決の問題である。 本稿では,確率密度によって定義される系におけるehrenfest dynamicsの事例を分析し,分布の最初の量子モーメントに対する一貫したダイナミクスを定義するための障害とダイナミクスの非線形性の関係を同定する。 この最初の量子モーメントは、古典的パラメータ化された密度行列 $\hat \rho(\xi)$, for $\xi$ a classical point の族として物理状態を表し、文学におけるハイブリッドシステムの最も一般的な表現である。 この障害のため、高次量子モーメントを考え、それらの有限個の数だけが物理的に測定可能であると主張する。 そこで我々は,これらのモーメントによる分布の近似とそれらによる状態の表現に基づくハイブリッド力学問題に対する効果的な解を提案する。

The definition of a consistent evolution equation for statistical hybrid quantum-classical systems is still an open problem. In this paper we analyze the case of Ehrenfest dynamics on systems defined by a probability density and identify the relations of the non-linearity of the dynamics with the obstructions to define a consistent dynamics for the first quantum moment of the distribution. This first quantum moment represents the physical states as a family of classically-parametrized density matrices $\hat \rho(\xi)$, for $\xi$ a classical point; and it is the most common representation of hybrid systems in the literature. Due to this obstruction, we consider higher order quantum moments, and argue that only a finite number of them are physically measurable. Because of this, we propose an effective solution for the hybrid dynamics problem based on approximating the distribution by those moments and representing the states by them.
翻訳日:2023-08-29 14:31:47 公開日:2023-08-28
# 安定な超スパースCT再構成のためのデータ定位最適化スコアモデル

Data-iterative Optimization Score Model for Stable Ultra-Sparse-View CT Reconstruction ( http://arxiv.org/abs/2308.14437v1 )

ライセンス: Link先を確認
Weiwen Wu, Yanyang Wang(参考訳) スコアベース生成モデル (SGM) は, 複雑な分布の正確なサンプリングのために, スパースビューCT再構成において注目されている。 SGMに基づく再構成では、スコアベース拡散モデルにおけるデータの一貫性は、画像の品質向上に不可欠である観測データ分布への生成サンプルの密着性を保証する。 データ一貫性の欠点は3つの側面に現れます。 まず、最適化プロセスからのデータは、再構成された画像のアーティファクトにつながる可能性がある。 第二に、生成モデルと元のデータ制約が独立して完成し、統一性が断片化されることをしばしば無視する。 第3に、理想的な実画像ではなく、逆サンプリングプロセスにおける中間結果の制約に焦点を当てている。 そこで本研究では反復最適化データスコアリングモデルを提案する。 本稿では,データ定位最適化スコアベースモデル(DOSM)を導入し,新しいデータ一貫性をStochastic Differential Equationに統合する。 このデータ整合性要素の新規性は、生成結果を限定するために元の測定データにのみ依存し、測定データと生成モデルの制約を効果的にバランスさせることにある。 さらに,現在のイテレーション結果から理想的真実までさかのぼる推論戦略を開拓し,復元安定性を高めた。 我々は従来の反復手法を利用してdosm更新を最適化する。 数値的および臨床的心的データセットの23点からの定量的および定性的な結果は、DOSMが他の方法よりも優れていることを示している。 10ビューであっても,本手法は優れた性能を発揮する。

Score-based generative models (SGMs) have gained prominence in sparse-view CT reconstruction for their precise sampling of complex distributions. In SGM-based reconstruction, data consistency in the score-based diffusion model ensures close adherence of generated samples to observed data distribution, crucial for improving image quality. Shortcomings in data consistency characterization manifest in three aspects. Firstly, data from the optimization process can lead to artifacts in reconstructed images. Secondly, it often neglects that the generation model and original data constraints are independently completed, fragmenting unity. Thirdly, it predominantly focuses on constraining intermediate results in the inverse sampling process, rather than ideal real images. Thus, we propose an iterative optimization data scoring model. This paper introduces the data-iterative optimization score-based model (DOSM), integrating innovative data consistency into the Stochastic Differential Equation, a valuable constraint for ultra-sparse-view CT reconstruction. The novelty of this data consistency element lies in its sole reliance on original measurement data to confine generation outcomes, effectively balancing measurement data and generative model constraints. Additionally, we pioneer an inference strategy that traces back from current iteration results to ideal truth, enhancing reconstruction stability. We leverage conventional iteration techniques to optimize DOSM updates. Quantitative and qualitative results from 23 views of numerical and clinical cardiac datasets demonstrate DOSM's superiority over other methods. Remarkably, even with 10 views, our method achieves excellent performance.
翻訳日:2023-08-29 14:31:33 公開日:2023-08-28
# KB-Textギャップのブリッジ: KBQAのための構造化知識認識事前学習の活用

Bridging the KB-Text Gap: Leveraging Structured Knowledge-aware Pre-training for KBQA ( http://arxiv.org/abs/2308.14436v1 )

ライセンス: Link先を確認
Guanting Dong, Rumei Li, Sirui Wang, Yupeng Zhang, Yunsen Xian and Weiran Xu(参考訳) Knowledge Base Question Answering (KBQA) は、自然言語の質問に対して、KBの実体や関係などの事実情報で答えることを目的としている。 しかしながら、従来の事前学習言語モデル(plm)は、大規模自然言語コーパス上で直接事前学習されており、構造化kbにおける複雑なサブグラフの理解と表現に課題がある。 テキストと構造化KBのギャップを埋めるために,構造化知識認識事前学習法(SKP)を提案する。 事前学習段階では,2つの新しい構造的知識認識タスクを導入し,暗黙的関係を効果的に学習するためのモデルと,複雑な部分グラフの表現の改善を導く。 下流KBQAタスクでは、より効率的な線形化戦略とインターバルアテンション機構を設計し、複雑なサブグラフをよりよくエンコードし、推論中に無関係なサブグラフの干渉を遮蔽する。 WebQSPに関する詳細な実験と分析は、SKPの有効性、特にサブグラフ検索の大幅な改善(+4.08% H@10)を検証する。

Knowledge Base Question Answering (KBQA) aims to answer natural language questions with factual information such as entities and relations in KBs. However, traditional Pre-trained Language Models (PLMs) are directly pre-trained on large-scale natural language corpus, which poses challenges for them in understanding and representing complex subgraphs in structured KBs. To bridge the gap between texts and structured KBs, we propose a Structured Knowledge-aware Pre-training method (SKP). In the pre-training stage, we introduce two novel structured knowledge-aware tasks, guiding the model to effectively learn the implicit relationship and better representations of complex subgraphs. In downstream KBQA task, we further design an efficient linearization strategy and an interval attention mechanism, which assist the model to better encode complex subgraphs and shield the interference of irrelevant subgraphs during reasoning respectively. Detailed experiments and analyses on WebQSP verify the effectiveness of SKP, especially the significant improvement in subgraph retrieval (+4.08% H@10).
翻訳日:2023-08-29 14:30:54 公開日:2023-08-28
# 静的アプリケーションセキュリティテストツールとしてのChatGPTの使用

Using ChatGPT as a Static Application Security Testing Tool ( http://arxiv.org/abs/2308.14434v1 )

ライセンス: Link先を確認
Atieh Bakhshandeh, Abdalsamad Keramatfar, Amir Norouzi, and Mohammad Mahdi Chekidehkhoun(参考訳) 近年、人工知能は人生のほとんどあらゆる面において顕著な成長を遂げている。 最も適用可能な分野のひとつはセキュリティコードレビューであり、AIベースのツールやアプローチが数多く提案されている。 近年,ChatGPT は命令の追従と詳細な応答の提供において,その顕著な性能に注目が集まっている。 本稿では、自然言語とコードの類似性について、Pythonソースコードの脆弱性検出にChatGPTを使用することの可能性を検討する。 この目標に向けて、ChatGPTに脆弱性のあるデータとともに適切なプロンプトを与え、その結果を2つのデータセットで比較し、広く使用されている3つの静的アプリケーションセキュリティテストツール(Bandit、Semgrep、SonarQube)の結果と比較する。 この結果から,ChatGPTは偽陰性率と偽陰性率を低減し,Pythonソースコードの脆弱性検出に利用できる可能性が示唆された。

In recent years, artificial intelligence has had a conspicuous growth in almost every aspect of life. One of the most applicable areas is security code review, in which a lot of AI-based tools and approaches have been proposed. Recently, ChatGPT has caught a huge amount of attention with its remarkable performance in following instructions and providing a detailed response. Regarding the similarities between natural language and code, in this paper, we study the feasibility of using ChatGPT for vulnerability detection in Python source code. Toward this goal, we feed an appropriate prompt along with vulnerable data to ChatGPT and compare its results on two datasets with the results of three widely used Static Application Security Testing tools (Bandit, Semgrep and SonarQube). We implement different kinds of experiments with ChatGPT and the results indicate that ChatGPT reduces the false positive and false negative rates and has the potential to be used for Python source code vulnerability detection.
翻訳日:2023-08-29 14:29:58 公開日:2023-08-28
# ポイントHPS:3次元人物図と点雲からの形状推定

PointHPS: Cascaded 3D Human Pose and Shape Estimation from Point Clouds ( http://arxiv.org/abs/2308.14492v1 )

ライセンス: Link先を確認
Zhongang Cai, Liang Pan, Chen Wei, Wanqi Yin, Fangzhou Hong, Mingyuan Zhang, Chen Change Loy, Lei Yang, Ziwei Liu(参考訳) 近年,ヒトのポーズと形状推定(HPS)が注目されている。 既存の研究は、2D画像やビデオの奥行きのあいまいさに重点を置いているが、深度センサーが商用機器で頻繁に使われているため、3Dポイントの雲からHPSを調べる必要がある。 しかし、現実世界の感覚3dポイントは通常騒がしく不完全であり、人間の体は高い多様性の異なるポーズを持つ可能性がある。 これらの課題に対処するために,実環境で捉えた点雲から正確な3次元HPSを実現するための,原則的フレームワークであるPointHPSを提案する。 具体的には、PointHPSの各ステージは、ローカルおよびグローバルの両方のキューを抽出および照合するために一連のダウンサンプリングおよびアップサンプリングを行い、2つの新しいモジュールによってさらに強化される。 1)情報伝達を効果的に行うマルチスケール特徴伝搬のためのクロスステージ特徴融合(CFF) 2)各段階の後に機能品質を向上させる身体認識機能集約のための中間機能強化(ife)。 様々なシナリオ下での総合的な研究を容易にするため、我々は2つの大規模ベンチマークで実験を行った。 一 実験室の環境において、実際の商業センサで捉えた多様な主題及び行動を示すデータセット 二 混雑した屋外の場面において、衣服を被った人間等の現実的な配慮で生成された合成データを制御すること。 広範な実験により、pointhpsは強力な点特徴抽出および処理スキームを持ち、最先端の手法をボード全体のかなりのマージンで上回っていることが示されている。 ホームページ: https://caizhongang.github.io/projects/pointhps/

Human pose and shape estimation (HPS) has attracted increasing attention in recent years. While most existing studies focus on HPS from 2D images or videos with inherent depth ambiguity, there are surging need to investigate HPS from 3D point clouds as depth sensors have been frequently employed in commercial devices. However, real-world sensory 3D points are usually noisy and incomplete, and also human bodies could have different poses of high diversity. To tackle these challenges, we propose a principled framework, PointHPS, for accurate 3D HPS from point clouds captured in real-world settings, which iteratively refines point features through a cascaded architecture. Specifically, each stage of PointHPS performs a series of downsampling and upsampling operations to extract and collate both local and global cues, which are further enhanced by two novel modules: 1) Cross-stage Feature Fusion (CFF) for multi-scale feature propagation that allows information to flow effectively through the stages, and 2) Intermediate Feature Enhancement (IFE) for body-aware feature aggregation that improves feature quality after each stage. To facilitate a comprehensive study under various scenarios, we conduct our experiments on two large-scale benchmarks, comprising i) a dataset that features diverse subjects and actions captured by real commercial sensors in a laboratory environment, and ii) controlled synthetic data generated with realistic considerations such as clothed humans in crowded outdoor scenes. Extensive experiments demonstrate that PointHPS, with its powerful point feature extraction and processing scheme, outperforms State-of-the-Art methods by significant margins across the board. Homepage: https://caizhongang.github.io/projects/PointHPS/.
翻訳日:2023-08-29 14:21:59 公開日:2023-08-28
# 分散化と分散化を最小化するソーシャルフィードの再バランス

Rebalancing Social Feed to Minimize Polarization and Disagreement ( http://arxiv.org/abs/2308.14486v1 )

ライセンス: Link先を確認
Federico Cinus, Aristides Gionis, Francesco Bonchi(参考訳) ソーシャルメディアは、重要な社会問題に関する公開談話を可能にする大きな可能性を秘めている。 しかし、偏光やエコーチャンバーのような副作用は、ソーシャルメディアの利点に大きな影響を与え、これらの効果を緩和するアルゴリズムを呼び出す。 本稿では,ユーザのソーシャルフィードをわずかにヌードすることを目的とした,関連性と多様性のバランスを保ち,フィードの品質を低下させることなく,偏光の発生を緩和する新たな問題定式化を提案する。 本手法は,ユーザがフォローするアカウントの相対的重要性を再重み付けすることで,ユーザに対して様々なアカウントが生成するコンテンツの頻度を校正する。 本研究では,問題の凸性を解析し,対象関数の非行列凸性と実現可能な集合の凸性を示す。 この問題を効率的に解決するために,投影勾配降下に基づくスケーラブルなアルゴリズムを開発した。 また,提案手法を無向ソーシャルネットワークにも適用できるように,問題文が無向ケース問題の適切な一般化であることを証明した。 非方向性の場合の比較のベースラインとして、最適解を提供する半定値プログラミングアプローチを開発する。 合成および実世界のデータセットに関する広範な実験を通じて、我々のアプローチの有効性を検証し、非自明なベースラインを上回り、より健康的でより密着的なオンラインコミュニティを育む能力を強調します。

Social media have great potential for enabling public discourse on important societal issues. However, adverse effects, such as polarization and echo chambers, greatly impact the benefits of social media and call for algorithms that mitigate these effects. In this paper, we propose a novel problem formulation aimed at slightly nudging users' social feeds in order to strike a balance between relevance and diversity, thus mitigating the emergence of polarization, without lowering the quality of the feed. Our approach is based on re-weighting the relative importance of the accounts that a user follows, so as to calibrate the frequency with which the content produced by various accounts is shown to the user. We analyze the convexity properties of the problem, demonstrating the non-matrix convexity of the objective function and the convexity of the feasible set. To efficiently address the problem, we develop a scalable algorithm based on projected gradient descent. We also prove that our problem statement is a proper generalization of the undirected-case problem so that our method can also be adopted for undirected social networks. As a baseline for comparison in the undirected case, we develop a semidefinite programming approach, which provides the optimal solution. Through extensive experiments on synthetic and real-world datasets, we validate the effectiveness of our approach, which outperforms non-trivial baselines, underscoring its ability to foster healthier and more cohesive online communities.
翻訳日:2023-08-29 14:21:31 公開日:2023-08-28
# トランスフォーマーを用いたtwitterにおけるソーシャルスパムボットのマルチモーダル検出

Multimodal Detection of Social Spambots in Twitter using Transformers ( http://arxiv.org/abs/2308.14484v1 )

ライセンス: Link先を確認
Loukas Ilias, Ioannis Michail Kazelidis, Dimitris Askounis(参考訳) 全てのボットは悪意があるわけではないが、ほとんどのボットは誤報を広め、いくつかの問題(選挙など)に関する世論を操作する責任がある。 そのため,ソーシャルスパムボットの早期発見が重要である。 ソーシャルメディア上でボットを検出する方法が提案されているが、依然としてかなりの制限がある。 例えば、既存の研究イニシアチブは依然として多数の機能を抽出し、従来の機械学習アルゴリズムをトレーニングしたり、GloVe埋め込みを使用してLSTMをトレーニングします。 しかし、機能抽出はドメインの専門知識を必要とする退屈な手続きです。 また、トランスを用いた言語モデルはLSTMよりも優れていることが証明されている。 他のアプローチでは、大きなグラフを作成し、この方法で計算リソースのトレーニングとアクセスに何時間も要するグラフニューラルネットワークをトレーニングする。 これらの制限に対処するため、ユーザーによるツイートのタイプと内容を表す3つのチャンネルのユーザ記述フィールドと画像のみを用いた最初の研究である。 まず、デジタルDNA配列を作成し、3D画像に変換し、EfficientNet、AlexNet、VGG16などを含む視覚領域の事前訓練されたモデルを適用する。 次に、ユーザ記述フィールドのテキスト表現を得るためにTwHIN-BERTを用い、画像モダリティの視覚表現を得るためにVGG16を用いるマルチモーダルアプローチを提案する。 本稿では, 結合, ゲートマルチモーダルユニット, クロスモーダルアテンションの3つの異なる融合法を提案し, 異なるモダリティを融合させ, それらの性能を比較する。 Cresci '17データセットで実施された大規模な実験では、最先端のデータセットよりも99.98%まで精度が向上した。

Although not all bots are malicious, the vast majority of them are responsible for spreading misinformation and manipulating the public opinion about several issues, i.e., elections and many more. Therefore, the early detection of social spambots is crucial. Although there have been proposed methods for detecting bots in social media, there are still substantial limitations. For instance, existing research initiatives still extract a large number of features and train traditional machine learning algorithms or use GloVe embeddings and train LSTMs. However, feature extraction is a tedious procedure demanding domain expertise. Also, language models based on transformers have been proved to be better than LSTMs. Other approaches create large graphs and train graph neural networks requiring in this way many hours for training and access to computational resources. To tackle these limitations, this is the first study employing only the user description field and images of three channels denoting the type and content of tweets posted by the users. Firstly, we create digital DNA sequences, transform them to 3d images, and apply pretrained models of the vision domain, including EfficientNet, AlexNet, VGG16, etc. Next, we propose a multimodal approach, where we use TwHIN-BERT for getting the textual representation of the user description field and employ VGG16 for acquiring the visual representation for the image modality. We propose three different fusion methods, namely concatenation, gated multimodal unit, and crossmodal attention, for fusing the different modalities and compare their performances. Extensive experiments conducted on the Cresci '17 dataset demonstrate valuable advantages of our introduced approaches over state-of-the-art ones reaching Accuracy up to 99.98%.
翻訳日:2023-08-29 14:21:07 公開日:2023-08-28
# エンドツーエンド音声テキスト翻訳における一貫性規則化の実証的研究

An Empirical Study of Consistency Regularization for End-to-End Speech-to-Text Translation ( http://arxiv.org/abs/2308.14482v1 )

ライセンス: Link先を確認
Pengzhi Gao, Ruiqing Zhang, Zhongjun He, Hua Wu, Haifeng Wang(参考訳) R-Drop(Liang et al., 2021)やCrossConST(Gao et al., 2023)のような一貫性正規化手法は、ニューラルネットワーク翻訳(NMT)分野において、目覚ましい教師付きおよびゼロショットのパフォーマンスを達成した。 整合性正規化を利用して、エンドツーエンド(E2E)音声テキスト翻訳(ST)を向上できるだろうか? 本稿では,モード内およびクロスモーダル間の一貫性に関する実証研究を行い,e2e stのsimregcrとsimzerocrの2つのトレーニング戦略を提案する。 MuST-Cベンチマーク実験により,本手法はほとんどの翻訳方向において最先端(SOTA)性能を実現することが示された。 解析により,モード間整合性による正則化は標準E2E STにとって重要であり,クロスモーダル整合性はモダリティギャップを閉鎖し,ゼロショットE2E STの性能を高めることができることが示された。

Consistency regularization methods, such as R-Drop (Liang et al., 2021) and CrossConST (Gao et al., 2023), have achieved impressive supervised and zero-shot performance in the neural machine translation (NMT) field. Can we also boost end-to-end (E2E) speech-to-text translation (ST) by leveraging consistency regularization? In this paper, we conduct empirical studies on intra-modal and cross-modal consistency and propose two training strategies, SimRegCR and SimZeroCR, for E2E ST in regular and zero-shot scenarios. Experiments on the MuST-C benchmark show that our approaches achieve state-of-the-art (SOTA) performance in most translation directions. The analyses prove that regularization brought by the intra-modal consistency, instead of modality gap, is crucial for the regular E2E ST, and the cross-modal consistency could close the modality gap and boost the zero-shot E2E ST performance.
翻訳日:2023-08-29 14:20:41 公開日:2023-08-28
# クエリに基づくオブジェクト検出と追跡のためのグループ回帰

Group Regression for Query Based Object Detection and Tracking ( http://arxiv.org/abs/2308.14481v1 )

ライセンス: Link先を確認
Felicia Ruppel, Florian Faion, Claudius Gl\"aser and Klaus Dietmayer(参考訳) グループ回帰は3次元オブジェクト検出において、非常に異なるクラスを分離しながら類似性の恩恵を受けるために、結合ヘッド内の類似クラスのボックスパラメータを予測するために一般的に用いられる。 クエリベースの認識手法では、今のところこれは実現不可能である。 我々はこのギャップを埋め、特に自律運転における3次元領域のために設計されたマルチクラスグループ回帰を既存の注意とクエリに基づく知覚アプローチに組み込む方法を提案する。 本手法によりトランスを用いた共同物体検出・追跡モデルを強化し,その挙動と性能を徹底的に評価する。 グループ回帰では、nuscenesデータセットのクラスは、類似した形状と頻度の6つのグループに分けられ、それぞれが専用のヘッドによってレグレッションされる。 提案手法は, 既存の多くのトランスベース知覚手法に適用可能であり, 潜在的メリットをもたらす可能性がある。 クエリグループ回帰の振る舞いは、例えばクラススイッチングの振る舞いや出力パラメータの分布の観点から、統一回帰ヘッドと比較して徹底的に解析される。 提案手法は, 深層マルチハイポテーゼ追跡の方向など, さらなる研究に多くの可能性をもたらす。

Group regression is commonly used in 3D object detection to predict box parameters of similar classes in a joint head, aiming to benefit from similarities while separating highly dissimilar classes. For query-based perception methods, this has, so far, not been feasible. We close this gap and present a method to incorporate multi-class group regression, especially designed for the 3D domain in the context of autonomous driving, into existing attention and query-based perception approaches. We enhance a transformer based joint object detection and tracking model with this approach, and thoroughly evaluate its behavior and performance. For group regression, the classes of the nuScenes dataset are divided into six groups of similar shape and prevalence, each being regressed by a dedicated head. We show that the proposed method is applicable to many existing transformer based perception approaches and can bring potential benefits. The behavior of query group regression is thoroughly analyzed in comparison to a unified regression head, e.g. in terms of class-switching behavior and distribution of the output parameters. The proposed method offers many possibilities for further research, such as in the direction of deep multi-hypotheses tracking.
翻訳日:2023-08-29 14:20:20 公開日:2023-08-28
# 離散潜在空間における優先中心人間の運動生成

Priority-Centric Human Motion Generation in Discrete Latent Space ( http://arxiv.org/abs/2308.14480v1 )

ライセンス: Link先を確認
Hanyang Kong, Kehong Gong, Dongze Lian, Michael Bi Mi, Xinchao Wang(参考訳) テキスト対モーション生成(text-to-motion generation)は、人間の能力や物理法則に固執しながら、入力テキストに合わせた人間の動きを作り出すことを目的としている。 拡散模型の進歩はあったが、離散空間におけるそれらの応用は未検討のままである。 現在の方法はしばしば異なる動きの様々な重要性を見落とし、それらを一様に扱う。 すべての動きが特定のテキスト記述と同一の関連性を持つとは限らないことを認識することが不可欠である。 より健全で情報的な動きは世代によって優先されるべきである。 そこで我々は,トランスフォーマーをベースとしたVQ-VAEを用いて,簡潔かつ離散的な動作表現を導出し,グローバルな自己認識機構と正規化項を組み込んでコード崩壊に対処する優先性中心運動離散拡散モデル(M2DM)を提案する。 また,全動き列における各動きトークンの重要度によって決定される,革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。 このアプローチは逆拡散過程において最も顕著な動きを保ち、より意味的に豊かで多様な動きをもたらす。 さらに,文字と視覚の指標から,モーショントークンの重要性を計測するための2つの戦略を定式化した。 HumanML3DおよびKIT-MLデータセットに関する総合的な実験により、我々のモデルは、特に複雑なテキスト記述のために、忠実さと多様性の既存の技術を超えることが確認された。

Text-to-motion generation is a formidable task, aiming to produce human motions that align with the input text while also adhering to human capabilities and physical laws. While there have been advancements in diffusion models, their application in discrete spaces remains underexplored. Current methods often overlook the varying significance of different motions, treating them uniformly. It is essential to recognize that not all motions hold the same relevance to a particular textual description. Some motions, being more salient and informative, should be given precedence during generation. In response, we introduce a Priority-Centric Motion Discrete Diffusion Model (M2DM), which utilizes a Transformer-based VQ-VAE to derive a concise, discrete motion representation, incorporating a global self-attention mechanism and a regularization term to counteract code collapse. We also present a motion discrete diffusion model that employs an innovative noise schedule, determined by the significance of each motion token within the entire motion sequence. This approach retains the most salient motions during the reverse diffusion process, leading to more semantically rich and varied motions. Additionally, we formulate two strategies to gauge the importance of motion tokens, drawing from both textual and visual indicators. Comprehensive experiments on the HumanML3D and KIT-ML datasets confirm that our model surpasses existing techniques in fidelity and diversity, particularly for intricate textual descriptions.
翻訳日:2023-08-29 14:20:03 公開日:2023-08-28
# 堅牢クラスタリングにおける諸問題

Some issues in robust clustering ( http://arxiv.org/abs/2308.14478v1 )

ライセンス: Link先を確認
Christian Hennig(参考訳) ロバストクラスタリングにおけるいくつかの重要な問題は、ガウス混合モデルに基づくクラスタリング、すなわち、アウトレーラとクラスタのグループの形式的定義、ロバストクラスタリングとクラスタ数の推定の間の相互作用、チューニング決定に対する(単に)ロバストクラスタリングの本質的依存性、そして、アウトレーラに関する既存のクラスタ安定性の測定の欠点に焦点をあてて議論されている。

Some key issues in robust clustering are discussed with focus on Gaussian mixture model based clustering, namely the formal definition of outliers, ambiguity between groups of outliers and clusters, the interaction between robust clustering and the estimation of the number of clusters, the essential dependence of (not only) robust clustering on tuning decisions, and shortcomings of existing measurements of cluster stability when it comes to outliers.
翻訳日:2023-08-29 14:19:38 公開日:2023-08-28
# 光画像とaiを用いた医用針先端追跡

Medical needle tip tracking based on Optical Imaging and AI ( http://arxiv.org/abs/2308.14477v1 )

ライセンス: Link先を確認
Zhuoqi Cheng, Simon Lyck Bj{\ae}rt S{\o}rensen, Mikkel Werge Olsen, Ren\'e Lynge Eriksen, Thiusius Rajeeth Savarimuthu(参考訳) 標的への深い針の挿入は、しばしば大きな課題となり、専門的なスキル、補助技術、広範囲な訓練を必要とする。 このような専門知識を要求する頻繁に遭遇する医学的シナリオの1つは、大腿血管への針挿入である。 大腿骨血管へのアクセス後、心臓カテーテル化や体外膜酸素化(ECMO)などの様々な医療処置を行うことができる。 しかし、超音波画像の助けを借りても、解剖学と組織変形の複雑さのため、挿入の成功には複数の試みが必要となる。 この課題に対処するため,本論文では針先リアルタイム追跡のための革新的な技術について述べる。 具体的には,光ファイバー付針を用いた散乱画像の作成と,針先端の位置と挿入時の方向をリアルタイムで推定するための畳み込みニューラルネットワーク(CNN)に基づくアルゴリズムについて検討した。 提案技術の有効性を3つの実験により厳格に評価した。 最初の2つの実験では、ゴムとベーコンファントムがグロイン解剖学をシミュレートした。 位置誤差は平均2.3+1.5mmと2.0+1.2mmであり、方向誤差は0.2+0.11radと0.16+0.1radである。 さらに、より複雑な解剖学的構造を模倣した豚のファントムを用いて実験を行い、3.2+3.1mmの位置精度と0.19+0.1radの方位精度を得た。 平均大腿動脈半径が4mmから5mmと推定され,大腿動脈挿入術における針ガイドの精度が高い可能性が示唆された。 さらに、この発見は医療分野におけるシステムのより広範な応用を浮き彫りにしている。

Deep needle insertion to a target often poses a huge challenge, requiring a combination of specialized skills, assistive technology, and extensive training. One of the frequently encountered medical scenarios demanding such expertise includes the needle insertion into a femoral vessel in the groin. After the access to the femoral vessel, various medical procedures, such as cardiac catheterization and extracorporeal membrane oxygenation (ECMO) can be performed. However, even with the aid of Ultrasound imaging, achieving successful insertion can necessitate multiple attempts due to the complexities of anatomy and tissue deformation. To address this challenge, this paper presents an innovative technology for needle tip real-time tracking, aiming for enhanced needle insertion guidance. Specifically, our approach revolves around the creation of scattering imaging using an optical fiber-equipped needle, and uses Convolutional Neural Network (CNN) based algorithms to enable real-time estimation of the needle tip's position and orientation during insertion procedures. The efficacy of the proposed technology was rigorously evaluated through three experiments. The first two experiments involved rubber and bacon phantoms to simulate groin anatomy. The positional errors averaging 2.3+1.5mm and 2.0+1.2mm, and the orientation errors averaging 0.2+0.11rad and 0.16+0.1rad. Furthermore, the system's capabilities were validated through experiments conducted on fresh porcine phantom mimicking more complex anatomical structures, yielding positional accuracy results of 3.2+3.1mm and orientational accuracy of 0.19+0.1rad. Given the average femoral arterial radius of 4 to 5mm, the proposed system is demonstrated with a great potential for precise needle guidance in femoral artery insertion procedures. In addition, the findings highlight the broader potential applications of the system in the medical field.
翻訳日:2023-08-29 14:19:27 公開日:2023-08-28
# 対話型多利プロセスパターン発見

Interactive Multi Interest Process Pattern Discovery ( http://arxiv.org/abs/2308.14475v1 )

ライセンス: Link先を確認
Mozhgan Vazifehdoostirani, Laura Genga, Xixi Lu, Rob Verhoeven, Hanneke van Laarhoven, Remco Dijkman(参考訳) プロセスパターン発見法(PPDM)は,ユーザにとって関心のあるパターンを特定することを目的としている。 既存のPPDMは通常教師なしであり、頻繁なパターンの発見など、単一の関心事に焦点をあてる。 多次元分析目標に応じて最適なパターンを特定することを目的としたプロセスパターン探索のための対話型多目的フレームワークを提案する。 提案手法は反復的かつインタラクティブであり,発見過程において専門家の知識を考慮に入れる。 本論文は、プロセスの成果に影響を与えるプロセスパターンを導出する、具体的な分析目標に焦点を当てている。 実世界のイベントログに対するアプローチを,インタラクティブかつ完全に自動化された設定で評価する。 このアプローチは、対話的な環境で専門家の知識によって検証された有意義なパターンを抽出した。 自動設定で抽出されたパターンは、ユーザ定義のしきい値を必要とせずに、単一の関心次元を考慮したパターンと同等またはそれ以上の予測性能をもたらす。

Process pattern discovery methods (PPDMs) aim at identifying patterns of interest to users. Existing PPDMs typically are unsupervised and focus on a single dimension of interest, such as discovering frequent patterns. We present an interactive multi interest driven framework for process pattern discovery aimed at identifying patterns that are optimal according to a multi-dimensional analysis goal. The proposed approach is iterative and interactive, thus taking experts knowledge into account during the discovery process. The paper focuses on a concrete analysis goal, i.e., deriving process patterns that affect the process outcome. We evaluate the approach on real world event logs in both interactive and fully automated settings. The approach extracted meaningful patterns validated by expert knowledge in the interactive setting. Patterns extracted in the automated settings consistently led to prediction performance comparable to or better than patterns derived considering single interest dimensions without requiring user defined thresholds.
翻訳日:2023-08-29 14:18:58 公開日:2023-08-28
# 因果関係に基づく特徴量定量化法:pn-fi, ps-fi, pns-fi

Causality-Based Feature Importance Quantifying Methods:PN-FI, PS-FI and PNS-FI ( http://arxiv.org/abs/2308.14474v1 )

ライセンス: Link先を確認
Shuxian Du, Yaxiu Sun and Changyi Du(参考訳) 現在のmlフィールドモデルは大きくなり、さらに複雑になってきており、私たちが使用するデータも大きくなり、次元も大きくなっているため、よりよいモデルをトレーニングするために、トレーニング時間と計算リソースを節約するために、前処理段階における優れた機能選択(fs)メソッドが必要です。 特徴選択の基礎であるため、特徴重要度(FI)が非常に重要である。 本稿では,特徴量の重要性を定量化するために因果関係におけるpns(必要可能性と十分性)の計算を創造的に導入し,新たなfi計測手法であるpn-fi,画像認識タスクにおける特徴量の重要性を示すps_fi,画像生成タスクにおける特徴量の重要性を示すps_fi,その両方を測定するpns_fiについて述べる。 本論文の本体は3つのrctであり,ps_fi,pn_fi,pns_fiの3つの特徴(犬の鼻,犬の目,犬の口)を計算した。 FI値は、上と下の境界が狭い間隔である。

In current ML field models are getting larger and more complex, data we use are also getting larger in quantity and higher in dimension, so in order to train better models, save training time and computational resources, a good Feature Selection (FS) method in preprocessing stage is necessary. Feature importance (FI) is of great importance since it is the basis of feature selection. This paper creatively introduces the calculation of PNS(the probability of Necessity and Sufficiency) in Causality into quantifying feature importance and creates new FI measuring methods: PN-FI, which means how much importance a feature has in image recognition tasks, PS_FI that means how much importance a feature has in image generating tasks, and PNS_FI which measures both. The main body of this paper is three RCTs, with whose results we show how PS_FI, PN_FI and PNS_FI of three features: dog nose, dog eyes and dog mouth are calculated. The FI values are intervals with tight upper and lower bounds.
翻訳日:2023-08-29 14:18:45 公開日:2023-08-28
# 言語学習のための大規模言語モデルの音声言語インテリジェンス

Spoken Language Intelligence of Large Language Models for Language Learning ( http://arxiv.org/abs/2308.14536v1 )

ライセンス: Link先を確認
Linkai Peng, Baorian Nuchged and Yingming Gao(参考訳) 人々は長い間、現実の状況を支援する会話システムに期待しており、近年の大規模言語モデル(LLM)の進歩により、このアイデアは現実に近づきつつある。 LLMは性能に優れることが多いが、専門家の知識を必要とする現実のシナリオにおける有効性は未だ不明である。 LLMは、特に人工知能(AI)ベースの仮想教師の開発において、教育において最も可能性と価値を持っていると考えられている。 本研究の目的は,音韻学,音韻学,第二言語習得を包含する音声言語学習の分野において,教育分野におけるllmの有効性を評価することである。 本稿では,言語知識の理解と応用を含む,上記のシナリオにおけるLLMの有効性を評価するための,新しい複数選択質問データセットを提案する。 さらに,ゼロショットやマイナショット方式(質問者による質問の前処理),チェーン・オブ・マインド(cot,think-by-step,in-domain exampler,外部ツール(google,wikipedia)など,さまざまなプロンプト手法の影響について検討した。 これらの手法を用いてLLM(20種類の異なるモデル)の大規模評価を行った。 GPT-3.5, 49.1% -> 63.1%, LLaMA2-70B-Chat, 42.2% -> 48.6%) におけるゼロショットベースラインと比較して, 大幅な性能向上を実現した。 音韻学,音韻学,第二言語習得における概念の理解は異なるが,実世界の問題に対する推論には限界があることがわかった。 さらに,会話コミュニケーションに関する予備的な知見についても検討する。

People have long hoped for a conversational system that can assist in real-life situations, and recent progress on large language models (LLMs) is bringing this idea closer to reality. While LLMs are often impressive in performance, their efficacy in real-world scenarios that demand expert knowledge remains unclear. LLMs are believed to hold the most potential and value in education, especially in the development of Artificial intelligence (AI) based virtual teachers capable of facilitating language learning. Our focus is centered on evaluating the efficacy of LLMs in the realm of education, specifically in the areas of spoken language learning which encompass phonetics, phonology, and second language acquisition. We introduce a new multiple-choice question dataset to evaluate the effectiveness of LLMs in the aforementioned scenarios, including understanding and application of spoken language knowledge. In addition, we investigate the influence of various prompting techniques such as zero- and few-shot method (prepending the question with question-answer exemplars), chain-of-thought (CoT, think step-by-step), in-domain exampler and external tools (Google, Wikipedia). We conducted large-scale evaluation on popular LLMs (20 distinct models) using these methods. We achieved significant performance improvements compared to the zero-shot baseline in the practical questions reasoning (GPT-3.5, 49.1% -> 63.1%; LLaMA2-70B-Chat, 42.2% -> 48.6%). We found that models of different sizes have good understanding of concepts in phonetics, phonology, and second language acquisition, but show limitations in reasoning for real-world problems. Additionally, we also explore preliminary findings on conversational communication.
翻訳日:2023-08-29 14:08:37 公開日:2023-08-28
# マイトショットナーのためのタスク特化事前学習を伴うマルチタスク意味分解フレームワーク

A Multi-Task Semantic Decomposition Framework with Task-specific Pre-training for Few-Shot NER ( http://arxiv.org/abs/2308.14533v1 )

ライセンス: Link先を確認
Guanting Dong, Zechen Wang, Jinxu Zhao, Gang Zhao, Daichi Guo, Dayuan Fu, Tingfeng Hui, Chen Zeng, Keqing He, Xuefeng Li, Liwen Wang, Xinyue Cui, Weiran Xu(参考訳) 名前付きエンティティ認識の目的は、ラベル付きインスタンスに制限された名前付きエンティティを特定することである。 これまでの研究は、NERデータ特性に基づく情報の探索を無視しながら、従来のトークン単位の分類フレームワークの最適化に重点を置いてきた。 この問題に対処するため,数発のNERのためのMulti-Task Semantic Decomposition Framework(MSDP)を提案する。 デモベースとコントラスト学習からインスピレーションを得た上で,実証ベースマスケッド言語モデリング(MLM)とクラスコントラスト識別という2つの新しい事前学習タスクを導入する。 これらのタスクは、エンティティ境界情報を効果的に取り入れ、事前訓練された言語モデル(plm)におけるエンティティ表現を強化する。 下流のメインタスクでは,エンティティ分類のための2つの異なるセマンティック情報の統合を容易にするセマンティックデコンポーザリング手法を用いたマルチタスク共同最適化フレームワークを導入する。 2つの数ショットnerベンチマークの実験結果は、msdpが一貫して強いベースラインを上回ることを示している。 大規模分析によりMSDPの有効性と一般化が検証された。

The objective of few-shot named entity recognition is to identify named entities with limited labeled instances. Previous works have primarily focused on optimizing the traditional token-wise classification framework, while neglecting the exploration of information based on NER data characteristics. To address this issue, we propose a Multi-Task Semantic Decomposition Framework via Joint Task-specific Pre-training (MSDP) for few-shot NER. Drawing inspiration from demonstration-based and contrastive learning, we introduce two novel pre-training tasks: Demonstration-based Masked Language Modeling (MLM) and Class Contrastive Discrimination. These tasks effectively incorporate entity boundary information and enhance entity representation in Pre-trained Language Models (PLMs). In the downstream main task, we introduce a multi-task joint optimization framework with the semantic decomposing method, which facilitates the model to integrate two different semantic information for entity classification. Experimental results of two few-shot NER benchmarks demonstrate that MSDP consistently outperforms strong baselines by a large margin. Extensive analyses validate the effectiveness and generalization of MSDP.
翻訳日:2023-08-29 14:08:06 公開日:2023-08-28
# 視覚鳥の目視意味セグメンテーションのための半教師あり学習

Semi-Supervised Learning for Visual Bird's Eye View Semantic Segmentation ( http://arxiv.org/abs/2308.14525v1 )

ライセンス: Link先を確認
Junyu Zhu, Lina Liu, Yu Tang, Feng Wen, Wanlong Li and Yong Liu(参考訳) 視覚鳥の目視(BEV)セマンティックセグメンテーションは、自動運転車が周囲の環境を静的な要素(道路など)や動的要素(自動車、歩行者など)を含む画像からのみ理解するのに役立つ。 しかし、フル教師付き手法のアノテーション手順の高コストは、通常HDマップ、3Dオブジェクト境界ボックス、カメラ外部行列を必要とする視覚的BEVセマンティックセグメンテーションの能力を制限している。 本稿では,学習中にラベルなし画像を利用することにより,視覚 bev 意味セグメンテーションを実現するための,新しい半教師付きフレームワークを提案する。 次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティック予測だけでなく、BEV機能にもモデルを制約する。 さらに,前景画像とBEVセマンティックセグメンテーションの幾何学的関係を維持しつつ,データセットを合理的に増強する,結合回転という新しい効果的なデータ拡張手法を提案する。 nuscenesとargoverseデータセットに関する広範な実験は、半教師付きフレームワークが予測精度を効果的に向上できることを示しています。 我々の知る限りでは、未ラベルデータを用いた視覚的BEVセマンティックセマンティックセマンティクス性能の改善を探求する最初の研究である。 コードは公開される予定だ。

Visual bird's eye view (BEV) semantic segmentation helps autonomous vehicles understand the surrounding environment only from images, including static elements (e.g., roads) and dynamic elements (e.g., vehicles, pedestrians). However, the high cost of annotation procedures of full-supervised methods limits the capability of the visual BEV semantic segmentation, which usually needs HD maps, 3D object bounding boxes, and camera extrinsic matrixes. In this paper, we present a novel semi-supervised framework for visual BEV semantic segmentation to boost performance by exploiting unlabeled images during the training. A consistency loss that makes full use of unlabeled data is then proposed to constrain the model on not only semantic prediction but also the BEV feature. Furthermore, we propose a novel and effective data augmentation method named conjoint rotation which reasonably augments the dataset while maintaining the geometric relationship between the front-view images and the BEV semantic segmentation. Extensive experiments on the nuScenes and Argoverse datasets show that our semi-supervised framework can effectively improve prediction accuracy. To the best of our knowledge, this is the first work that explores improving visual BEV semantic segmentation performance using unlabeled data. The code will be publicly available.
翻訳日:2023-08-29 14:07:46 公開日:2023-08-28
# NOMA-URLLCネットワークにおけるアップリンクスケジューリングのための深層強化学習

Deep Reinforcement Learning for Uplink Scheduling in NOMA-URLLC Networks ( http://arxiv.org/abs/2308.14523v1 )

ライセンス: Link先を確認
Beno\^it-Marie Robaglia, Marceau Coupechoux, Dimitrios Tsilimantos(参考訳) 本稿では,さまざまな分野のiot(internet of things, モノのインターネット)アプリケーションによって課される厳格な制約を持つフレームワークである無線ネットワークにおける,超信頼性の低い低レイテンシ通信(urllc)の問題について述べる。 我々は,厳密な期限を含む非直交多重アクセス(NOMA)アップリンクURLLCスケジューリング問題を解決するために,NOMA-PPO(Deep Reinforcement Learning)スケジューリングアルゴリズムを提案する。 NOMAシステムにおけるアップリンクURLLC要求に対処する課題は、複数のデバイスをスケジュールする可能性によるアクション空間の組合せ複雑性と、IoT通信の制約を満たすためにアルゴリズムに課される部分的可観測性制約に関連している。 我々のアプローチは 1) NOMA-URLLC問題を部分観測可能なマルコフ決定プロセス(PMMDP)として定式化し、エージェント状態の導入により過去の観測と行動の十分な統計量となり、PMMDPをマルコフ決定プロセス(MDP)に変換することができる。 2) 近位政策最適化(ppo)アルゴリズムを組合せ作用空間に対応させる。 3)ベイズ政策の導入により,事前知識を学習エージェントに取り入れること。 数値解析の結果,従来のマルチアクセスプロトコルやDRLベンチマークを3GPPのシナリオで上回るだけでなく,様々なチャネルやトラフィック構成下では堅牢であり,固有時間相関を効果的に活用できることが判明した。

This article addresses the problem of Ultra Reliable Low Latency Communications (URLLC) in wireless networks, a framework with particularly stringent constraints imposed by many Internet of Things (IoT) applications from diverse sectors. We propose a novel Deep Reinforcement Learning (DRL) scheduling algorithm, named NOMA-PPO, to solve the Non-Orthogonal Multiple Access (NOMA) uplink URLLC scheduling problem involving strict deadlines. The challenge of addressing uplink URLLC requirements in NOMA systems is related to the combinatorial complexity of the action space due to the possibility to schedule multiple devices, and to the partial observability constraint that we impose to our algorithm in order to meet the IoT communication constraints and be scalable. Our approach involves 1) formulating the NOMA-URLLC problem as a Partially Observable Markov Decision Process (POMDP) and the introduction of an agent state, serving as a sufficient statistic of past observations and actions, enabling a transformation of the POMDP into a Markov Decision Process (MDP); 2) adapting the Proximal Policy Optimization (PPO) algorithm to handle the combinatorial action space; 3) incorporating prior knowledge into the learning agent with the introduction of a Bayesian policy. Numerical results reveal that not only does our approach outperform traditional multiple access protocols and DRL benchmarks on 3GPP scenarios, but also proves to be robust under various channel and traffic configurations, efficiently exploiting inherent time correlations.
翻訳日:2023-08-29 14:07:21 公開日:2023-08-28
# 大規模グラフモデル:展望

Large Graph Models: A Perspective ( http://arxiv.org/abs/2308.14522v1 )

ライセンス: Link先を確認
Ziwei Zhang, Haoyang Li, Zeyang Zhang, Yijian Qin, Xin Wang, Wenwu Zhu(参考訳) 人工知能、特に機械学習における最近の画期的な成果として、大きなモデルが現れている。 しかし、グラフに関して言えば、大きなモデルは自然言語処理やコンピュータビジョンといった他の分野と同様の成功レベルに達していない。 グラフに対する大規模モデルの適用を促進するために,我々は,大規模グラフモデルの開発に伴う課題と機会について議論する。 まず,大規模グラフモデルの望ましい特性について述べる。 次に,表現基底,グラフデータ,グラフモデルという3つの視点から詳細な議論を行う。 それぞれのカテゴリにおいて、最近の進歩の概要を簡潔に述べ、残りの課題をビジョンとともに強調します。 最後に,大規模グラフモデルの有用な応用について論じる。 このパースペクティブペーパーは、大きなグラフモデルに関するさらなる調査を促進することができると信じており、最終的には人工知能(AGI)に一歩近づいた。

Large models have emerged as the most recent groundbreaking achievements in artificial intelligence, and particularly machine learning. However, when it comes to graphs, large models have not achieved the same level of success as in other fields, such as natural language processing and computer vision. In order to promote applying large models for graphs forward, we present a perspective paper to discuss the challenges and opportunities associated with developing large graph models. First, we discuss the desired characteristics of large graph models. Then, we present detailed discussions from three key perspectives: representation basis, graph data, and graph models. In each category, we provide a brief overview of recent advances and highlight the remaining challenges together with our visions. Finally, we discuss valuable applications of large graph models. We believe this perspective paper is able to encourage further investigations into large graph models, ultimately pushing us one step closer towards artificial general intelligence (AGI).
翻訳日:2023-08-29 14:06:53 公開日:2023-08-28
# マルコフ決定過程のエンティティ埋め込みとエージェントアンサンブルによるエージェントポリシーの文脈対応構成

Context-Aware Composition of Agent Policies by Markov Decision Process Entity Embeddings and Agent Ensembles ( http://arxiv.org/abs/2308.14521v1 )

ライセンス: Link先を確認
Nicole Merkle, Ralf Mikut(参考訳) 計算エージェントは生命の多くの領域で人間をサポートし、従って異質な文脈で見られる。 これはエージェントが急速に変化する環境で動作し、巨大な状態とアクションスペースに直面する可能性があることを意味する。 サービスを実行し、目標指向の方法で活動を行うためには、エージェントは事前の知識を必要とし、従ってコンテキスト依存のポリシーを開発し、追求しなければならない。 問題は、特に動的に変化する環境において、事前にポリシーを規定することは限定的で柔軟性がないことである。 さらに、エージェントのコンテキストはアクションの選択を決定する。 エージェントが動作する環境は、状態の数や実行可能なアクションの数の観点から確率的かつ複雑であるため、アクティビティは通常、マルコフ決定プロセスによって単純化された方法でモデル化され、強化学習を持つエージェントは、コンテキストを捉え、アクティビティを最適に実行するために行動するのに役立つポリシーを学ぶことができる。 しかし、強化学習を用いたあらゆる可能な文脈に対する訓練方針は時間がかかる。 エージェントの要件と課題は、素早く戦略を学び、コンテキスト横断環境やアプリケーションで即座に応答することである。 本研究では,シミュレーションに基づく新しい手法を提案する。 イ 知識グラフ及び実体埋め込みによる異質な文脈の表現 b) 並行して実行されるエージェントの集合による需要政策の文脈対応構成 仮想ホーム」データセットで行った評価は、異なるコンテキストをシームレスに切り替える必要があるエージェントが、強化学習を適用するエージェントとは対照的に、これらのポリシーを長いトレーニングステップやエピソードで学ぶことなく、文脈に合った活動の完了につながる、オンザフライで構成されたポリシーを要求できることを示している。

Computational agents support humans in many areas of life and are therefore found in heterogeneous contexts. This means that agents operate in rapidly changing environments and can be confronted with huge state and action spaces. In order to perform services and carry out activities in a goal-oriented manner, agents require prior knowledge and therefore have to develop and pursue context-dependent policies. The problem is that prescribing policies in advance is limited and inflexible, especially in dynamically changing environments. Moreover, the context of an agent determines its choice of actions. Since the environments in which agents operate can be stochastic and complex in terms of the number of states and feasible actions, activities are usually modelled in a simplified way by Markov decision processes so that agents with reinforcement learning are able to learn policies that help to capture the context and act accordingly to optimally perform activities. However, training policies for all possible contexts using reinforcement learning is time-consuming. A requirement and challenge for agents is to learn strategies quickly and respond immediately in cross-context environments and applications. In this work, we propose a novel simulation-based approach that enables a) the representation of heterogeneous contexts through knowledge graphs and entity embeddings and b) the context-aware composition of policies on demand by ensembles of agents running in parallel. The evaluation we performed on the "Virtual Home" dataset indicates that agents that need to seamlessly switch between different contexts, can request on-the-fly composed policies that lead to the successful completion of context-appropriate activities without having to learn these policies in lengthy training steps and episodes, in contrast to agents that apply reinforcement learning.
翻訳日:2023-08-29 14:06:40 公開日:2023-08-28
# 疎位置データによる観光流れの予測

Prediction of Tourism Flow with Sparse Geolocation Data ( http://arxiv.org/abs/2308.14516v1 )

ライセンス: Link先を確認
Julian Lemmel, Zahra Babaiee, Marvin Kleinlehner, Ivan Majic, Philipp Neubauer, Johannes Scholz, Radu Grosu, Sophie A. Neubauer(参考訳) 21世紀の近代観光は多くの課題に直面している。 このうち、歴史的都市や博物館、橋などのボトルネックなど、空間限定の地域を訪れる観光客が急速に増えている。 この文脈では, 環境の持続的処理や過密防止などの訪問者管理課題において, 地域内における観光量と観光フローの適正かつ正確な予測が重要である。 従来の低レベルコントローラのような静的フロー制御手法や過密な場所へのアクセス制限は、まだ問題を解決できなかった。 本稿では,RNN,GNN,Transformerなどの最先端のディープラーニング手法と,古典的な統計的ARIMA手法の性能を実証的に評価する。 観光地が供給する粒度制限データは、個々の観光客の位置情報、天気、休暇などの外因性データによって拡張される。 スパースデータを用いた来訪者フロー予測の分野において、我々は予測の精度を高め、現代の入力特徴処理を取り入れ、また離散poiデータの上に位置情報データをマッピングすることができる。

Modern tourism in the 21st century is facing numerous challenges. Among these the rapidly growing number of tourists visiting space-limited regions like historical cities, museums and bottlenecks such as bridges is one of the biggest. In this context, a proper and accurate prediction of tourism volume and tourism flow within a certain area is important and critical for visitor management tasks such as sustainable treatment of the environment and prevention of overcrowding. Static flow control methods like conventional low-level controllers or limiting access to overcrowded venues could not solve the problem yet. In this paper, we empirically evaluate the performance of state-of-the-art deep-learning methods such as RNNs, GNNs, and Transformers as well as the classic statistical ARIMA method. Granular limited data supplied by a tourism region is extended by exogenous data such as geolocation trajectories of individual tourists, weather and holidays. In the field of visitor flow prediction with sparse data, we are thereby capable of increasing the accuracy of our predictions, incorporating modern input feature handling as well as mapping geolocation data on top of discrete POI data.
翻訳日:2023-08-29 14:05:53 公開日:2023-08-28
# LongBench: コンテキスト理解のためのバイリンガルなマルチタスクベンチマーク

LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding ( http://arxiv.org/abs/2308.14508v1 )

ライセンス: Link先を確認
Yushi Bai, Xin Lv, Jiajie Zhang, Hongchang Lyu, Jiankai Tang, Zhidian Huang, Zhengxiao Du, Xiao Liu, Aohan Zeng, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li(参考訳) 大規模言語モデル(LLM)は多くの言語タスクにおいて素晴らしいパフォーマンスを示すが、ほとんどの言語は数千のトークンしか扱えないため、書籍、レポート、コードベースなどの長いシーケンスインプットにアプリケーションを制限している。 近年、コンテキストウィンドウとより洗練されたメモリ機構を拡張してllmsの長いコンテキスト機能を改善する手法が提案されている。 しかし、長期の文脈理解を評価するための包括的なベンチマークは欠落している。 本稿では,長期文脈理解のための二言語型マルチタスクベンチマークであるLongBenchを紹介し,より厳密な長期文脈理解の評価を可能にする。 LongBenchは英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均長は6,711語(英語)と13,386文字(中国語)である。 これらのタスクは、シングルdoc QA、マルチdoc QA、要約、数ショット学習、合成タスク、コード補完を含む主要な長文アプリケーション領域をカバーする。 LongBenchのすべてのデータセットは統一されたフォーマットに標準化されており、LLMの自動評価を可能にする。 1)商用モデル(GPT-3.5-Turbo-16k)は他のオープンソースモデルよりも優れているが、それでも長いコンテキストで苦戦している。 2)長いシーケンスにおける位置埋め込みと微調整は、長い文脈理解において大幅に改善される。 3)検索などのコンテキスト圧縮技術は,長文の文脈理解能力の弱いモデルに対して改善をもたらすが,長文理解能力の強いモデルにはまだ性能が遅れている。 コードとデータセットはhttps://github.com/THUDM/LongBench.comで公開されている。

Although large language models (LLMs) demonstrate impressive performance for many language tasks, most of them can only handle texts a few thousand tokens long, limiting their applications on longer sequence inputs, such as books, reports, and codebases. Recent works have proposed methods to improve LLMs' long context capabilities by extending context windows and more sophisticated memory mechanisms. However, comprehensive benchmarks tailored for evaluating long context understanding are lacking. In this paper, we introduce LongBench, the first bilingual, multi-task benchmark for long context understanding, enabling a more rigorous evaluation of long context understanding. LongBench comprises 21 datasets across 6 task categories in both English and Chinese, with an average length of 6,711 words (English) and 13,386 characters (Chinese). These tasks cover key long-text application areas including single-doc QA, multi-doc QA, summarization, few-shot learning, synthetic tasks, and code completion. All datasets in LongBench are standardized into a unified format, allowing for effortless automatic evaluation of LLMs. Upon comprehensive evaluation of 8 LLMs on LongBench, we find that: (1) Commercial model (GPT-3.5-Turbo-16k) outperforms other open-sourced models, but still struggles on longer contexts. (2) Scaled position embedding and fine-tuning on longer sequences lead to substantial improvement on long context understanding. (3) Context compression technique such as retrieval brings improvement for model with weak ability on long contexts, but the performance still lags behind models that have strong long context understanding capability. The code and datasets are available at https://github.com/THUDM/LongBench.
翻訳日:2023-08-29 14:05:13 公開日:2023-08-28
# 近似メッセージパッシングによる構造一般化線形モデルのスペクトル推定

Spectral Estimators for Structured Generalized Linear Models via Approximate Message Passing ( http://arxiv.org/abs/2308.14507v1 )

ライセンス: Link先を確認
Yihan Zhang, Hong Chang Ji, Ramji Venkataramanan, Marco Mondelli(参考訳) 一般化線形モデルによる観測からパラメータ推定の問題を考える。 スペクトル法(spectrum method)は、観測を適切に前処理して得られる行列の主固有ベクトルを介してパラメータを推定する、単純かつ効果的な手法である。 広範囲にわたる使用にもかかわらず、スペクトル推定器の厳密な性能評価とデータの事前処理の原則的な方法が、非構造化(すなわちガウスとハール)設計でのみ利用可能である。 対照的に、実世界のデザイン行列は高度に構造化され、非自明な相関を示す。 この問題に対処するために、特徴共分散行列$\Sigma$を介して測定の異方性を取り込む相関ガウス設計を考える。 本研究の主な成果は,スペクトル推定器の性能の高精度な漸近的評価である。 これにより、パラメータを有意に見積もるのに必要なサンプルの数を最小化する最適な前処理を特定できる。 このような最適なスペクトル推定器は、データから一貫して推定できる正規化トレースを通してのみ$\Sigma$に依存する。 従来のヒューリスティック手法に対する原理的アプローチの利点を数値的に示す。 スペクトル推定器の既存の解析は、設計行列の回転不変性に依存する。 この重要な仮定は、相関ガウス設計には当てはまらない。 この難しさを回避するために,不動点が所望のスペクトル推定値と一致する近似メッセージパッシングアルゴリズムを設計・解析する新しい手法を開発した。 提案手法は一般的な手法であり,様々な条件下でのスパイク行列と対応するスペクトル手法の精度評価への道を開く。

We consider the problem of parameter estimation from observations given by a generalized linear model. Spectral methods are a simple yet effective approach for estimation: they estimate the parameter via the principal eigenvector of a matrix obtained by suitably preprocessing the observations. Despite their wide use, a rigorous performance characterization of spectral estimators, as well as a principled way to preprocess the data, is available only for unstructured (i.e., i.i.d. Gaussian and Haar) designs. In contrast, real-world design matrices are highly structured and exhibit non-trivial correlations. To address this problem, we consider correlated Gaussian designs which capture the anisotropic nature of the measurements via a feature covariance matrix $\Sigma$. Our main result is a precise asymptotic characterization of the performance of spectral estimators in this setting. This then allows to identify the optimal preprocessing that minimizes the number of samples needed to meaningfully estimate the parameter. Remarkably, such an optimal spectral estimator depends on $\Sigma$ only through its normalized trace, which can be consistently estimated from the data. Numerical results demonstrate the advantage of our principled approach over previous heuristic methods. Existing analyses of spectral estimators crucially rely on the rotational invariance of the design matrix. This key assumption does not hold for correlated Gaussian designs. To circumvent this difficulty, we develop a novel strategy based on designing and analyzing an approximate message passing algorithm whose fixed point coincides with the desired spectral estimator. Our methodology is general, and opens the way to the precise characterization of spiked matrices and of the corresponding spectral methods in a variety of settings.
翻訳日:2023-08-29 14:04:31 公開日:2023-08-28
# LAC-スケルトンに基づくアクションセグメンテーションのための潜在アクション組成

LAC -- Latent Action Composition for Skeleton-based Action Segmentation ( http://arxiv.org/abs/2308.14500v1 )

ライセンス: Link先を確認
Di Yang, Yaohui Wang, Antitza Dantcheva, Quan Kong, Lorenzo Garattoni, Gianpiero Francesca, Francois Bremond(参考訳) スケルトンベースのアクションセグメンテーションは、未トリミングビデオにおける合成可能なアクションを認識する必要がある。 現在のアプローチでは、まずスケルトン配列から局所的な視覚的特徴を抽出し、時間モデルで処理し、フレームワイズアクションを分類することでこの問題を分離している。 しかし、視覚機能は構成可能なアクションを十分に表現できないため、パフォーマンスは限られている。 本研究では,骨格をベースとしたアクションセグメンテーションのための合成可能な動作から学習することを目的とした,新しい自己教師型フレームワークであるLatent Action composition (LAC)を提案する。 LACは新規な生成モジュールからなり、新しい配列を合成する。 具体的には、原始運動を表現するために発電機内の線形潜在空間を設計する。 複数入力スケルトンシーケンスの潜在表現を算術演算することで、新しい合成動作を合成することができる。 LACは、大きな多様性と複雑さを持つ合成配列を利用して、コントラスト学習を通じて、シーケンスとフレーム空間の両方における骨格の視覚的表現を学習する。 生成したビジュアルエンコーダは表現力が高く、追加の時間モデルを必要としないエンドツーエンドの微調整によりアクションセグメンテーションタスクに効果的に転送できる。 トランスファーラーニングに着目した研究を行い,前訓練されたlacから得られた表現が,津,チャレード,pku-mmdデータセットにおいて,最先端技術よりも大きなマージンを持つことを示した。

Skeleton-based action segmentation requires recognizing composable actions in untrimmed videos. Current approaches decouple this problem by first extracting local visual features from skeleton sequences and then processing them by a temporal model to classify frame-wise actions. However, their performances remain limited as the visual features cannot sufficiently express composable actions. In this context, we propose Latent Action Composition (LAC), a novel self-supervised framework aiming at learning from synthesized composable motions for skeleton-based action segmentation. LAC is composed of a novel generation module towards synthesizing new sequences. Specifically, we design a linear latent space in the generator to represent primitive motion. New composed motions can be synthesized by simply performing arithmetic operations on latent representations of multiple input skeleton sequences. LAC leverages such synthesized sequences, which have large diversity and complexity, for learning visual representations of skeletons in both sequence and frame spaces via contrastive learning. The resulting visual encoder has a high expressive power and can be effectively transferred onto action segmentation tasks by end-to-end fine-tuning without the need for additional temporal models. We conduct a study focusing on transfer-learning and we show that representations learned from pre-trained LAC outperform the state-of-the-art by a large margin on TSU, Charades, PKU-MMD datasets.
翻訳日:2023-08-29 14:04:04 公開日:2023-08-28
# ハイパーエンタングルニュートリノ状態におけるキラルおよびフレーバー振動

Chiral and flavor oscillations in a hyperentangled neutrino state ( http://arxiv.org/abs/2308.14574v1 )

ライセンス: Link先を確認
Victor Bittencourt, Massimo Blasone and Gennaro Zanfardino(参考訳) ディラック二スピノール形式論を用いて、弱い相互作用過程によって生じる(大質量)振動ニュートリノの状態は、風味、キラリティー、スピンの超エンタングル状態であることを示した。 キラル度は保存量ではないため、キラル振動が発生し、風味遷移確率に影響を与える。 完全相補性関係を用いて,システムの異なる自由度間で相関関係とコヒーレンスがどのように再分配されるかを分析する。 同様に、スピンエンタングルドレプトン-反ニュートリノ対を考え、スピン-スピンエンタングルメントの他の自由度間の相関への再分配を記述する。 どちらの場合も、キラル振動の効果は非相対論的状態に関係している。 本解析は,レプトン-アンティニュートリノ対および単一粒子ニュートリノ進化に関わる量子相関の完全な特徴を与え,カイラル振動の解釈と測定の可能な経路に関するさらなる知見を提供する。

By means of the Dirac bispinor formalism, we show that the state of a (massive) oscillating neutrino produced by a weak interaction process, is an hyperentangled state of flavor, chirality, and spin. Since chirality is not a conserved quantity, chiral oscillations take place and affects the flavor transition probability. By means of the complete complementarity relations, we analyze how correlations and coherence are redistributed in time between the different degrees-of-freedoms of the system. In a similar way, we consider a spin entangled lepton-antineutrino pair and describe the redistribution of the spin-spin entanglement into correlations between the other degrees-of-freedom. In both cases the effects of chiral oscillations are relevant in the non-relativistic regime. Our analysis provides a complete characterization of the quantum correlations involved in lepton-antineutrino pairs and in single particle neutrino evolution, and provides a further insight on possible routes to interpret and measure chiral oscillations.
翻訳日:2023-08-29 13:56:24 公開日:2023-08-28
# 非マルコフ量子ブラウン運動における量子熱力学の特性

Characteristics of quantum thermodynamics in non-Markovian quantum Brownian motion ( http://arxiv.org/abs/2308.14572v1 )

ライセンス: Link先を確認
Gourab Bhanja, Devvrat Tiwari, Subhashish Banerjee(参考訳) 量子ブラウン運動は、高調波発振器がボゾン熱浴と相互作用するオープン量子系の研究の基本的なパラダイムとなる。 近年, 環境と高調波発振器の両位置と運動量との結合が発達している。 この目的のために、この一般化された量子ブラウン運動モデルを取り上げて、量子熱力学の観点から研究する。 関心のシステムは、チャージャー(散逸)機構として作用する浴槽と相互作用する量子電池として見なされる。 本研究では, エルゴトロピーとその(イン)コヒーレントな部分と, バッテリーの瞬時および平均パワーを用いて抽出できる最大作業量の問題について検討する。 電池の充電・放電挙動に及ぼす浴温度と運動量結合の影響を検討した。 さらに,充電・放電挙動とシステムのメモリ効果の関係について検討した。

Quantum Brownian motion serves as a fundamental paradigm for investigations in open quantum systems, where a harmonic oscillator interacts with a bosonic thermal bath. A generalized coupling of the environment to the harmonic oscillator system via both its position and momentum was developed in recent times. To this end, we take up this generalized model of quantum Brownian motion and study it from the perspective of quantum thermodynamics. The system of interest is envisaged as a quantum battery interacting with the bath acting as a charger (dissipation) mechanism. We probe into the problem of maximum work that can be extracted through such a system using ergotropy and its (in)-coherent parts along with the instantaneous and average powers of the battery. We examine the effect of bath temperature and momentum coupling on the charging-discharging behavior of the battery. A connection between the memory effects of the system with charging-discharging behavior is further explored.
翻訳日:2023-08-29 13:56:07 公開日:2023-08-28
# SAAN:VHRリモートセンシング画像による変化検出のための類似認識型注意フローネットワーク

SAAN: Similarity-aware attention flow network for change detection with VHR remote sensing images ( http://arxiv.org/abs/2308.14570v1 )

ライセンス: Link先を確認
Haonan Guo, Xin Su, Chen Wu, Bo Du, Liangpei Zhang(参考訳) 変化検出(CD)は、地球観測領域における陸面のダイナミクスを監視するための基本的かつ重要な課題である。 既存のディープラーニングベースのcd手法では、重み共有シアームエンコーダネットワークを用いてバイタイム画像の特徴を抽出し、デコーダネットワークを用いて変化領域を識別する。 しかし、これらのCD手法は、我々が観察する限り、まだ十分に機能していない。 1)ディープエンコーダ層は無関係な背景領域に焦点を当てる 2)変化領域に対するモデルの信頼性は,異なるデコーダの段階で矛盾する。 第1の問題は、深いエンコーダ層が単独の出力管理を用いて、不均衡な変更カテゴリから効果的に学習できないことであり、第2の問題は、明示的なセマンティックな一貫性の維持が欠如していることに起因する。 これらの問題に対処するため、我々は新しい類似性認識型注意フローネットワーク(SAAN)を設計する。 SAANは、効果的な変更検出を実現するために、深い教師付き類似性最適化を備えた類似性誘導型注目フローモジュールを組み込んでいる。 具体的には、ディープエンコーダ層を明示的に誘導し、深い教師付き類似性最適化を用いてバイテンポラル入力画像から意味関係を発見することで、最初の問題に対処する。 抽出された特徴は、変化する領域で意味的に類似し、変化する領域で類似するように最適化される。 第2の欠点は、類似性誘導型注意フローモジュールの提案と、類似性誘導型注意フローモジュールと、モデルが識別チャネルや領域に集中するように誘導する注意フロー機構を組み込んだものである。 提案手法の有効性と一般化について,cdタスクの多岐にわたる実験により評価した。 実験の結果,いくつかのcdタスクにおいて,識別的特徴と意味的一貫性を保った優れた性能が得られることがわかった。

Change detection (CD) is a fundamental and important task for monitoring the land surface dynamics in the earth observation field. Existing deep learning-based CD methods typically extract bi-temporal image features using a weight-sharing Siamese encoder network and identify change regions using a decoder network. These CD methods, however, still perform far from satisfactorily as we observe that 1) deep encoder layers focus on irrelevant background regions and 2) the models' confidence in the change regions is inconsistent at different decoder stages. The first problem is because deep encoder layers cannot effectively learn from imbalanced change categories using the sole output supervision, while the second problem is attributed to the lack of explicit semantic consistency preservation. To address these issues, we design a novel similarity-aware attention flow network (SAAN). SAAN incorporates a similarity-guided attention flow module with deeply supervised similarity optimization to achieve effective change detection. Specifically, we counter the first issue by explicitly guiding deep encoder layers to discover semantic relations from bi-temporal input images using deeply supervised similarity optimization. The extracted features are optimized to be semantically similar in the unchanged regions and dissimilar in the changing regions. The second drawback can be alleviated by the proposed similarity-guided attention flow module, which incorporates similarity-guided attention modules and attention flow mechanisms to guide the model to focus on discriminative channels and regions. We evaluated the effectiveness and generalization ability of the proposed method by conducting experiments on a wide range of CD tasks. The experimental results demonstrate that our method achieves excellent performance on several CD tasks, with discriminative features and semantic consistency preserved.
翻訳日:2023-08-29 13:55:52 公開日:2023-08-28
# スイッチング可能な電場における量子ドット分子を用いた量子リピータのゲートベースプロトコルシミュレーション

Gate-based protocol simulations for quantum repeaters using quantum-dot molecules in switchable electric fields ( http://arxiv.org/abs/2308.14563v1 )

ライセンス: Link先を確認
Steffen Wilksen, Frederik Lohof, Isabell Willmann, Frederik Bopp, Michelle Lienhart, Christopher Thalacker, Jonathan Finley, Matthias Florian, Christopher Gies(参考訳) 電気的に制御可能な量子ドット分子(QDM)は決定論的絡み合い生成のための有望なプラットフォームであり、量子リピータネットワークのためのリソースである。 我々は,時間依存型ブロッホ・レッドフィールド方程式に基づいて,高忠実度で絡み合ったスピン状態の生成をモデル化する顕微鏡的開量子系アプローチを開発した。 状態準備は, 量子リピータへの応用を提案する決定論的光子対生成プロトコルにおける重要なステップである。 我々の理論は、時間依存の電場と電子-フォノン相互作用による散逸によって制御される量子ドット分子の電子的性質を考慮に入れている。 断熱的および非断熱的レジーム間の遷移を定量化し、散逸過程の存在下でのqdm電荷状態の断熱的制御のダイナミクスに関する洞察を与える。 このことから, 異なる実験条件下での交絡状態生成の最大速度を推定し, 達成可能な光子対生成率のシミュレーションに向けた第一歩となる。 発達した形式主義は、リピータプロトコルの実装のデバイスリアリスティックな記述の可能性を開く。

Electrically controllable quantum-dot molecules (QDMs) are a promising platform for deterministic entanglement generation and, as such, a resource for quantum-repeater networks. We develop a microscopic open-quantum-systems approach based on a time-dependent Bloch-Redfield equation to model the generation of entangled spin states with high fidelity. The state preparation is a crucial step in a protocol for deterministic entangled-photon-pair generation that we propose for quantum repeater applications. Our theory takes into account the quantum-dot molecules' electronic properties that are controlled by time-dependent electric fields as well as dissipation due to electron-phonon interaction. We quantify the transition between adiabatic and non-adiabatic regimes, which provides insights into the dynamics of adiabatic control of QDM charge states in the presence of dissipative processes. From this, we infer the maximum speed of entangled-state preparation under different experimental conditions, which serves as a first step towards simulation of attainable entangled photon-pair generation rates. The developed formalism opens the possibility for device-realistic descriptions of repeater protocol implementations.
翻訳日:2023-08-29 13:55:20 公開日:2023-08-28
# エルゴードデータ列で学習したリカレントニューラルネットワークのカーネル限界

Kernel Limit of Recurrent Neural Networks Trained on Ergodic Data Sequences ( http://arxiv.org/abs/2308.14555v1 )

ライセンス: Link先を確認
Samuel Chun-Hei Lam, Justin Sirignano, and Konstantinos Spiliopoulos(参考訳) リカレントニューラルネットワーク(recurrent neural networks, rnn)の漸近性を隠れ単位数、シーケンス内のデータサンプル、隠れ状態更新、トレーニングステップを同時に無限に特徴付ける数学的手法を開発した。 単純化された重み行列を持つ RNN の場合、ランダム代数方程式の固定点に結合した無限次元ODE の解への RNN の収束性を証明する。 この分析では、RNN特有のいくつかの課題に対処する必要がある。 典型的な平均場(例えば、フィードフォワードニューラルネットワーク)では、離散的な更新は等級$\mathcal{O}(\frac{1}{N})$であり、更新の回数は$\mathcal{O}(N)$である。 したがって、システムは適切なODE/PDEのオイラー近似として表すことができ、$N \rightarrow \infty$に収束する。 しかし、RNNの隠されたレイヤ更新は$\mathcal{O}(1)$である。 したがって、RNNはODE/PDEの離散化として表現できず、標準平均場技術は適用できない。 代わりに、RNNメモリ状態の進化に対する固定点解析を開発し、更新ステップ数と隠れユニット数の観点から収束推定を行う。 RNN隠蔽層はソボレフ空間の関数として研究され、その進化はデータシーケンス(マルコフ連鎖)、パラメータ更新、および前回の時間ステップにおけるRNN隠蔽層への依存性によって制御される。 更新間の強い相関のため、ポアソン方程式はその極限方程式の周りにrnnのゆらぎを束縛するために用いられる必要がある。 これらの数学的手法は、データサンプルの数とニューラルネットワークのサイズが無限に増加するにつれて、データシーケンスに基づいてトレーニングされたRNNのニューラルネットワークタンジェントカーネル(NTK)制限を引き起こす。

Mathematical methods are developed to characterize the asymptotics of recurrent neural networks (RNN) as the number of hidden units, data samples in the sequence, hidden state updates, and training steps simultaneously grow to infinity. In the case of an RNN with a simplified weight matrix, we prove the convergence of the RNN to the solution of an infinite-dimensional ODE coupled with the fixed point of a random algebraic equation. The analysis requires addressing several challenges which are unique to RNNs. In typical mean-field applications (e.g., feedforward neural networks), discrete updates are of magnitude $\mathcal{O}(\frac{1}{N})$ and the number of updates is $\mathcal{O}(N)$. Therefore, the system can be represented as an Euler approximation of an appropriate ODE/PDE, which it will converge to as $N \rightarrow \infty$. However, the RNN hidden layer updates are $\mathcal{O}(1)$. Therefore, RNNs cannot be represented as a discretization of an ODE/PDE and standard mean-field techniques cannot be applied. Instead, we develop a fixed point analysis for the evolution of the RNN memory states, with convergence estimates in terms of the number of update steps and the number of hidden units. The RNN hidden layer is studied as a function in a Sobolev space, whose evolution is governed by the data sequence (a Markov chain), the parameter updates, and its dependence on the RNN hidden layer at the previous time step. Due to the strong correlation between updates, a Poisson equation must be used to bound the fluctuations of the RNN around its limit equation. These mathematical methods give rise to the neural tangent kernel (NTK) limits for RNNs trained on data sequences as the number of data samples and size of the neural network grow to infinity.
翻訳日:2023-08-29 13:55:02 公開日:2023-08-28
# 重力誘起量子絡み合い試験用反転振動子

Inverted Oscillators for Testing Gravity-induced Quantum Entanglement ( http://arxiv.org/abs/2308.14552v1 )

ライセンス: Link先を確認
Tomohiro Fujita, Youka Kaku, Akira Matumura and Yuta Michimura(参考訳) 量子重力の探求において、我々は重力の弱さとデコヒーレンスによって妨げられる実験的な検証を欠いている。 近年,ニュートン重力相互作用による量子絡み合いの検証実験が提案されている。 しかし、それらはまだ既存の技術では実現不可能である。 新しい構成を求めるために、重力によって結合された任意の二次ポテンシャルを持つ2つの発振器の対数ネガティリティを計算する。 不安定な逆発振器は、重力によって引き起こされる絡み合いを最も早く発生し、環境変動からデコヒーレンスに耐性がある。 実験的な実現法として,反ばね効果を持つミラーの光浮上のセットアップを提案する。 光子ショットノイズによるデコヒーレンスを回避するため、アンチスプリングを幾何学的に生成するサンドイッチ構成が期待できる。

In the quest for quantum gravity, we have lacked experimental verification, hampered by the weakness of gravity and decoherence. Recently, various experiments have been proposed to verify quantum entanglement induced by Newtonian gravitational interactions. However, they are not yet certainly feasible with existing techniques. To search for a new setup, we compute the logarithmic negativity of two oscillators with arbitrary quadratic potential coupled by gravity. We find that unstable inverted oscillators generate gravity-induced entanglement most quickly and are most resistant to decoherence from environmental fluctuations. As an experimental realization, we propose a setup of the optical levitation of mirrors with the anti-spring effect. To avoid decoherence due to photon shot noise, a sandwich configuration that geometrically creates the anti-spring is promising.
翻訳日:2023-08-29 13:54:29 公開日:2023-08-28
# 因果手がかりの抽出と埋め込み統計の適応による顔提示攻撃検出

Face Presentation Attack Detection by Excavating Causal Clues and Adapting Embedding Statistics ( http://arxiv.org/abs/2308.14551v1 )

ライセンス: Link先を確認
Meiling Fang and Naser Damer(参考訳) 最近の顔提示攻撃検出(PAD)は、未知領域の性能劣化に対処するために、ドメイン適応(DA)とドメイン一般化(DG)技術を活用する。 しかし、DAベースのPAD手法はラベルのないターゲットデータへのアクセスを必要とするが、ほとんどのDGベースのPADソリューションはプリオリ、すなわち既知のドメインラベルに依存している。 さらに、ほとんどのDA-/DGベースの手法は計算集約的であり、複雑なモデルアーキテクチャや多段階のトレーニングプロセスを必要とする。 本稿では,複合dgタスクとして顔パッドをモデル化し,モデル最適化と結びつける手法を提案する。 我々は,ハイレベル表現に隠された因果的要因を,対実的介入によって発掘する。 さらに、ドメイン情報に注目するのではなく、クラス内の機能レベルのデータ分布を豊かにするクラスガイド付きミックススタイルも導入する。 クラス誘導MixStyleと反ファクト介入コンポーネントは、追加のトレーニング可能なパラメータや無視可能な計算リソースを導入しない。 広範なクロスデータセットと解析実験により,本手法の有効性と有効性が実証された。 実装とトレーニングされた重み付けが公開されている。

Recent face presentation attack detection (PAD) leverages domain adaptation (DA) and domain generalization (DG) techniques to address performance degradation on unknown domains. However, DA-based PAD methods require access to unlabeled target data, while most DG-based PAD solutions rely on a priori, i.e., known domain labels. Moreover, most DA-/DG-based methods are computationally intensive, demanding complex model architectures and/or multi-stage training processes. This paper proposes to model face PAD as a compound DG task from a causal perspective, linking it to model optimization. We excavate the causal factors hidden in the high-level representation via counterfactual intervention. Moreover, we introduce a class-guided MixStyle to enrich feature-level data distribution within classes instead of focusing on domain information. Both class-guided MixStyle and counterfactual intervention components introduce no extra trainable parameters and negligible computational resources. Extensive cross-dataset and analytic experiments demonstrate the effectiveness and efficiency of our method compared to state-of-the-art PADs. The implementation and the trained weights are publicly available.
翻訳日:2023-08-29 13:54:15 公開日:2023-08-28
# ReMAV: 自動車のリワードモデリングによる異常事象の発見

ReMAV: Reward Modeling of Autonomous Vehicles for Finding Likely Failure Events ( http://arxiv.org/abs/2308.14550v1 )

ライセンス: Link先を確認
Aizaz Sharif and Dusica Marijan(参考訳) 自動運転車は、様々な敵の攻撃に弱いこと、車両の安全性を損なうこと、他の道路利用者に危険を及ぼすことで知られる高度な運転システムである。 環境と対話することで複雑な敵を積極的に訓練する代わりに、まずは自律走行車の信頼性が低い状態のみに探索スペースをインテリジェントに見つけて削減する必要がある。 本稿では、まず、オフライン軌道を用いたブラックボックステストフレームワークReMAVを提案する。 私たちの報酬モデリング技術は、ベースラインの自律走行車がうまく機能している場合でも、おそらく不確かな行動の領域をハイライトできる行動表現の作成に役立ちます。 このアプローチは、計算と非効率な能動対向学習技術を必要とせず、より効率的なテストを可能にする。 我々は,シングルエージェントとマルチエージェントインタラクションを含む3つの異なる運転シナリオを用いて,高忠実な都市走行環境で実験を行う。 実験では,試験中の自動運転車による車両衝突,道路物体衝突,歩行者衝突,オフロードステアリングイベントの発生が,それぞれ35%,23%,48%,50%の増加を示した。 また,先行テストフレームワークとの比較分析を行い,トレーニングテスト効率,総違反の検出,シミュレーションステップにおいて,アプローチに比較して最初の障害を識別できないことを示した。 その結果,提案手法は,テスト中の自律走行車両の既存の弱点を理解するために,単純摂動モデルから始めて,これらの地域を攻撃することのみに利用できることがわかった。

Autonomous vehicles are advanced driving systems that are well known for being vulnerable to various adversarial attacks, compromising the vehicle's safety, and posing danger to other road users. Rather than actively training complex adversaries by interacting with the environment, there is a need to first intelligently find and reduce the search space to only those states where autonomous vehicles are found less confident. In this paper, we propose a blackbox testing framework ReMAV using offline trajectories first to analyze the existing behavior of autonomous vehicles and determine appropriate thresholds for finding the probability of failure events. Our reward modeling technique helps in creating a behavior representation that allows us to highlight regions of likely uncertain behavior even when the baseline autonomous vehicle is performing well. This approach allows for more efficient testing without the need for computational and inefficient active adversarial learning techniques. We perform our experiments in a high-fidelity urban driving environment using three different driving scenarios containing single and multi-agent interactions. Our experiment shows 35%, 23%, 48%, and 50% increase in occurrences of vehicle collision, road objects collision, pedestrian collision, and offroad steering events respectively by the autonomous vehicle under test, demonstrating a significant increase in failure events. We also perform a comparative analysis with prior testing frameworks and show that they underperform in terms of training-testing efficiency, finding total infractions, and simulation steps to identify the first failure compared to our approach. The results show that the proposed framework can be used to understand existing weaknesses of the autonomous vehicles under test in order to only attack those regions, starting with the simplistic perturbation models.
翻訳日:2023-08-29 13:54:00 公開日:2023-08-28
# 中・極度のオーストラリア森林火災に対する深部グラフィカル回帰

Deep graphical regression for jointly moderate and extreme Australian wildfires ( http://arxiv.org/abs/2308.14547v1 )

ライセンス: Link先を確認
Daniela Cisneros, Jordan Richards, Ashok Dahal, Luigi Lombardo, and Rapha\"el Huser(参考訳) 近年のオーストラリアでの山火事は経済的損失と資産破壊を招き、気候変動がその強度、持続時間、頻度を悪化させる可能性があるとの懸念が高まっている。 極端な山火事の危険性定量化は、効率的な資源配分、有害な効果の緩和、回復活動を促進するため、山火事管理の重要な要素である。 しかし、極端な山火事は概して最も影響を受けやすいが、小火と中火の両方が地域社会や生態系に打撃を与える可能性がある。 したがって,山火事の分布全体を確実にモデル化するために,ロバストな統計手法を開発することが不可欠である。 1999年から2019年にかけて、オーストラリアで発生した山火事の新たなデータセットについて検討し、統計地域レベル1および2(SA1/SA2)に相当する地域を月次で調査した。 野火点火と拡散の複雑な性質を考えると,最近の統計的深層学習と極値理論の進歩を利用して,グラフ畳み込みニューラルネットワークと拡張一般化パレート分布を用いたパラメトリック回帰モデルを構築し,不規則な空間領域で観測される野火の拡散をモデル化する。 我々は,新たに提案したモデルの有効性を強調し,タスマニア,シドニー,メルボルン,パースといったオーストラリアおよび人口密度のコミュニティに対して山火事危険度評価を行う。

Recent wildfires in Australia have led to considerable economic loss and property destruction, and there is increasing concern that climate change may exacerbate their intensity, duration, and frequency. hazard quantification for extreme wildfires is an important component of wildfire management, as it facilitates efficient resource distribution, adverse effect mitigation, and recovery efforts. However, although extreme wildfires are typically the most impactful, both small and moderate fires can still be devastating to local communities and ecosystems. Therefore, it is imperative to develop robust statistical methods to reliably model the full distribution of wildfire spread. We do so for a novel dataset of Australian wildfires from 1999 to 2019, and analyse monthly spread over areas approximately corresponding to Statistical Areas Level 1 and 2 (SA1/SA2) regions. Given the complex nature of wildfire ignition and spread, we exploit recent advances in statistical deep learning and extreme value theory to construct a parametric regression model using graph convolutional neural networks and the extended generalized Pareto distribution, which allows us to model wildfire spread observed on an irregular spatial domain. We highlight the efficacy of our newly proposed model and perform a wildfire hazard assessment for Australia and population-dense communities, namely Tasmania, Sydney, Melbourne, and Perth.
翻訳日:2023-08-29 13:53:33 公開日:2023-08-28
# 多層多セットニューロンネットワーク --mmnn

Multilayer Multiset Neuronal Networks -- MMNNs ( http://arxiv.org/abs/2308.14541v1 )

ライセンス: Link先を確認
Alexandre Benatti, Luciano da Fontoura Costa(参考訳) jaccardとオーバーラップ類似度指標の組み合わせに基づく一致類似度指標は、選択性と感度の向上、本質的正規化、データの摂動と外れ値に対するロバスト性を含むデータの比較と分類において顕著な特性を有する。 これらの特徴により、偶然の類似性操作に基づくマルチセットニューロンは、画像分割の課題を含む効果的なパターン認識アプリケーションを実行することができる。 以前の関連するアプローチでは、各パターンを識別するためにいくつかのプロトタイプポイントが使われており、それぞれが各マルチセットニューロンに関連付けられている。 領域のセグメンテーションは、これらのニューロンの出力を考慮して進行することができる。 本研究は,2層以上の類似性ニューロンを組み込んだ多層神経回路網について述べる。 また,性能向上の手段として,回避すべき画像領域に割り当てられる反プロトタイプ点の利用についても検討した。 このアプローチは, 1つのプロトタイプと1つのカウンタープロトタイプポイントのみを考慮しても, 複雑な領域の効果的なセグメント化を可能にする。 ここで述べたように、後続の層におけるニューロンの重みを特定するために最適化すべきバランスの取れた正確な風景は比較的滑らかであり、典型的には複数のアトラクション盆地を含んでいる。 少なくとも与えられたデータタイプ、パラメータの構成、ネットワークアーキテクチャなど、いくつかのアーキテクチャで検討されたニューラルネットワークを効果的にトレーニングするために、単純な勾配に基づく最適化手法の使用が実証されている。

The coincidence similarity index, based on a combination of the Jaccard and overlap similarity indices, has noticeable properties in comparing and classifying data, including enhanced selectivity and sensitivity, intrinsic normalization, and robustness to data perturbations and outliers. These features allow multiset neurons, which are based on the coincidence similarity operation, to perform effective pattern recognition applications, including the challenging task of image segmentation. A few prototype points have been used in previous related approaches to represent each pattern to be identified, each of them being associated with respective multiset neurons. The segmentation of the regions can then proceed by taking into account the outputs of these neurons. The present work describes multilayer multiset neuronal networks incorporating two or more layers of coincidence similarity neurons. In addition, as a means to improve performance, this work also explores the utilization of counter-prototype points, which are assigned to the image regions to be avoided. This approach is shown to allow effective segmentation of complex regions despite considering only one prototype and one counter-prototype point. As reported here, the balanced accuracy landscapes to be optimized in order to identify the weight of the neurons in subsequent layers have been found to be relatively smooth, while typically involving more than one attraction basin. The use of a simple gradient-based optimization methodology has been demonstrated to effectively train the considered neural networks with several architectures, at least for the given data type, configuration of parameters, and network architecture.
翻訳日:2023-08-29 13:53:07 公開日:2023-08-28
# S-TREK:局所特徴抽出のための逐次翻訳と回転同変キーポイント

S-TREK: Sequential Translation and Rotation Equivariant Keypoints for local feature extraction ( http://arxiv.org/abs/2308.14598v1 )

ライセンス: Link先を確認
Emanuele Santellani, Christian Sormann, Mattia Rossi, Andreas Kuhn, Friedrich Fraundorfer(参考訳) 本稿では,S-TREKについて紹介する。S-TREKは,設計による変換と回転の両同型であるディープキーポイント検出器と,軽量なディープディスクリプタ抽出器を組み合わせた新しいローカル特徴抽出器である。 我々は、強化学習にインスパイアされたフレームワーク内でS-TREKキーポイント検出器を訓練し、シーケンシャル手順を利用して、キーポイントリピータビリティに直接関連する報酬を最大化する。 私たちのディスクリプタネットワークは、すでに訓練済みの検出器によってキーポイントが選択された場所でのみディスクリプタロスを評価する「検出、次に記述」アプローチに従ってトレーニングされます。 複数のベンチマークを用いた広範囲な実験により,提案手法の有効性を確認した。s-trekは,特に平面内回転を扱う場合において,再現性とクオリティの観点から,他の最先端手法よりも優れていることが多い。

In this work we introduce S-TREK, a novel local feature extractor that combines a deep keypoint detector, which is both translation and rotation equivariant by design, with a lightweight deep descriptor extractor. We train the S-TREK keypoint detector within a framework inspired by reinforcement learning, where we leverage a sequential procedure to maximize a reward directly related to keypoint repeatability. Our descriptor network is trained following a "detect, then describe" approach, where the descriptor loss is evaluated only at those locations where keypoints have been selected by the already trained detector. Extensive experiments on multiple benchmarks confirm the effectiveness of our proposed method, with S-TREK often outperforming other state-of-the-art methods in terms of repeatability and quality of the recovered poses, especially when dealing with in-plane rotations.
翻訳日:2023-08-29 13:46:40 公開日:2023-08-28
# 基本的視覚モデルに対する敵対的攻撃

Adversarial Attacks on Foundational Vision Models ( http://arxiv.org/abs/2308.14597v1 )

ライセンス: Link先を確認
Nathan Inkawhich, Gwendolyn McDonald, Ryan Luley(参考訳) CLIP、ALIGN、DINOv2など、大規模で事前訓練されたタスクに依存しない基本的なビジョンモデルの開発において、急速に進歩している。 実際、私たちは、これらのモデルを下流で微調整する必要がなく、単にゼロショットや軽量なプローブヘッドで使用できる点に近づいています。 この規模の作業の複雑さを考えると、世界中の比較的少数の組織がトレーニングを実行し、HuggingFaceや torch.hubのような集中型プラットフォーム上でモデルを共有するというボトルネックがある。 この研究の目的は、将来の設計をより堅牢にするために、これらのモデルのいくつかの主要な敵対的脆弱性を特定することである。 直感的には、我々の攻撃は深い特徴表現を操り、クローズドセットの下流タスクを解決するためにこれらのオープンワールド認識モデルを使用する際に必要とされるOOD(out-of-distriion)検出器を騙す。 提案手法は,超低知識推定脅威モデルに存在しながら,配信内(ID)画像(例えば下流タスク)をOODと予測し,その逆をOODと推定する。 ホワイトボックスやブラックボックスの設定や、基本的なモデルタイプ(クリップによるdinov2攻撃など)間での転送において、攻撃が強力であることを示します! この研究は、敵対的にロバストな基礎的ビジョンモデルへの長い旅の始まりにすぎない。

Rapid progress is being made in developing large, pretrained, task-agnostic foundational vision models such as CLIP, ALIGN, DINOv2, etc. In fact, we are approaching the point where these models do not have to be finetuned downstream, and can simply be used in zero-shot or with a lightweight probing head. Critically, given the complexity of working at this scale, there is a bottleneck where relatively few organizations in the world are executing the training then sharing the models on centralized platforms such as HuggingFace and torch.hub. The goal of this work is to identify several key adversarial vulnerabilities of these models in an effort to make future designs more robust. Intuitively, our attacks manipulate deep feature representations to fool an out-of-distribution (OOD) detector which will be required when using these open-world-aware models to solve closed-set downstream tasks. Our methods reliably make in-distribution (ID) images (w.r.t. a downstream task) be predicted as OOD and vice versa while existing in extremely low-knowledge-assumption threat models. We show our attacks to be potent in whitebox and blackbox settings, as well as when transferred across foundational model types (e.g., attack DINOv2 with CLIP)! This work is only just the beginning of a long journey towards adversarially robust foundational vision models.
翻訳日:2023-08-29 13:46:23 公開日:2023-08-28
# LatentDR: サンプル認識潜在劣化と回復によるモデル一般化の改善

LatentDR: Improving Model Generalization Through Sample-Aware Latent Degradation and Restoration ( http://arxiv.org/abs/2308.14596v1 )

ライセンス: Link先を確認
Ran Liu, Sahil Khose, Jingyun Xiao, Lakshmi Sathidevi, Keerthan Ramnath, Zsolt Kira, Eva L. Dyer(参考訳) ディープラーニングの大幅な進歩にもかかわらず、モデルはしばしば、特にトレーニングデータが制限された場合、新しい未知のドメインにうまく一般化するのに苦労している。 この課題に対処するために,サンプル間の関係を利用して拡張手順を導出する分散対応潜時拡張の新しいアプローチを提案する。 提案手法は,まず潜伏空間で確率的にサンプルを分解し,拡張ラベルにマッピングし,トレーニング中に劣化したバージョンからサンプルを復元する。 このプロセスは分解ステップで分類器を混乱させ、元のサンプルのクラス全体の分布を復元し、クラス内/クロスドメインの多様性を促進する。 我々は、ドメイン一般化ベンチマークや強いドメインシフトを伴う医用画像データセットなど、さまざまなデータセットやタスクに対する我々のアプローチを広範囲に評価し、このアプローチが既存の潜在空間拡張のための方法よりも大幅に改善されていることを示す。 さらに,本手法を長尾認識タスクに柔軟に適用できることを示し,より汎用的なモデルの構築における汎用性を示す。 コードはhttps://github.com/nerdslab/LatentDRで入手できる。

Despite significant advances in deep learning, models often struggle to generalize well to new, unseen domains, especially when training data is limited. To address this challenge, we propose a novel approach for distribution-aware latent augmentation that leverages the relationships across samples to guide the augmentation procedure. Our approach first degrades the samples stochastically in the latent space, mapping them to augmented labels, and then restores the samples from their corrupted versions during training. This process confuses the classifier in the degradation step and restores the overall class distribution of the original samples, promoting diverse intra-class/cross-domain variability. We extensively evaluate our approach on a diverse set of datasets and tasks, including domain generalization benchmarks and medical imaging datasets with strong domain shift, where we show our approach achieves significant improvements over existing methods for latent space augmentation. We further show that our method can be flexibly adapted to long-tail recognition tasks, demonstrating its versatility in building more generalizable models. Code is available at https://github.com/nerdslab/LatentDR.
翻訳日:2023-08-29 13:46:01 公開日:2023-08-28
# 異常検出性能向上のためのニューラルネットワークトレーニング戦略--再構成損失増幅の展望

Neural Network Training Strategy to Enhance Anomaly Detection Performance: A Perspective on Reconstruction Loss Amplification ( http://arxiv.org/abs/2308.14595v1 )

ライセンス: Link先を確認
YeongHyeon Park, Sungho Kang, Myung Jin Kim, Hyeonho Jeong, Hyunkyu Park, Hyeong Seok Kim, Juneho Yi(参考訳) 非教師なし異常検出(UAD)は、まれな異常発生とデータ不均衡により、業界で広く採用されているアプローチである。 UADモデルの望ましい特徴は、見かけの正常なパターンの再構築に優れているが、見えない異常に悩む一般化能力を含むことである。 近年の研究では、ニューラルネットワーク(NN)構造の設計やトレーニング戦略など、さまざまな観点からの再構築において、UDAモデルの一般化能力を含めることが試みられている。 対照的に、再構築における一般化能力の含有は、単に急な形状のロスランドスケープから得ることができる。 そこで我々は,LAMP (Loss AMPlification) と呼ばれる再構成損失を増幅し,損失景観の鮮明化手法を提案する。 ランプは損失景観を急な形状に変形させるため、目に見えない異常の復元誤差が大きくなる。 これにより、NNアーキテクチャを変更することなく異常検出性能が向上する。 以上の結果から, 再構成モデルが異常なサンプルのみを用いてトレーニングされるUAD設定において, LAMPは任意の再構成誤差指標に容易に適用可能であることが示唆された。

Unsupervised anomaly detection (UAD) is a widely adopted approach in industry due to rare anomaly occurrences and data imbalance. A desirable characteristic of an UAD model is contained generalization ability which excels in the reconstruction of seen normal patterns but struggles with unseen anomalies. Recent studies have pursued to contain the generalization capability of their UAD models in reconstruction from different perspectives, such as design of neural network (NN) structure and training strategy. In contrast, we note that containing of generalization ability in reconstruction can also be obtained simply from steep-shaped loss landscape. Motivated by this, we propose a loss landscape sharpening method by amplifying the reconstruction loss, dubbed Loss AMPlification (LAMP). LAMP deforms the loss landscape into a steep shape so the reconstruction error on unseen anomalies becomes greater. Accordingly, the anomaly detection performance is improved without any change of the NN architecture. Our findings suggest that LAMP can be easily applied to any reconstruction error metrics in UAD settings where the reconstruction model is trained with anomaly-free samples only.
翻訳日:2023-08-29 13:45:43 公開日:2023-08-28
# 原子アンサンブルに基づく時間多重量子リピータリンクの原理実証

Proof-of-principle demonstration of temporally multiplexed quantum repeater link based on atomic ensemble ( http://arxiv.org/abs/2308.14587v1 )

ライセンス: Link先を確認
Minjie Wang, Haole Jiao, Jiajin Lu, Wenxin Fan, Zhifang Yang, Mengqi Xi, Shujing Li, Hai Wang(参考訳) Duan-Lukin-Cirac-Zoller 量子リピータプロトコルは、長距離量子通信と大規模量子ネットワークを実装するための実行可能なスキームを提供する。 基本リンク、すなわち2つの原子アンサンブル間の絡み合いは、量子リピータの基本成分である。 実用的な量子リピータでは、基本リンクを高収率で作成でき、原子に蓄積されたスピン波を必要に応じて効率的に光子に変換することが要求される。 しかし、今のところそのような量子リピータリンクは実験では実証されていない。 本稿では,2つの時間多重量子メモリを絡み合うことにより,原理的多重化量子リピータリンクを示す。 単モードリンクと比較して、多重化リンクの成功率は1桁に向上する。 キャビティ強化方式を用いることで、原子スピン波のオンデマンド検索効率を70%に向上させ、隣り合うリンク間の絡み替えに有効である。 時間多重化量子リピータリンクと高い検索効率の実現は、実用的な量子ネットワークの開発の基礎となる。

Duan-Lukin-Cirac-Zoller quantum repeater protocol provides a feasible scheme to implement long-distance quantum communication and large-scale quantum networks. The elementary link, namely the entanglement between two atomic ensembles, is a fundamental component of quantum repeater. For practical quantum repeater, it is required that the elementary link can be prepared with high yield and the spin waves stored in atoms can be efficiently converted into photons on demand. However, so far, such quantum repeater link has not been demonstrated in experiments. Here, we demonstrate a proof-of-principle multiplexed quantum repeater link by entangling two temporally multiplexed quantum memory. Compared with a single-mode link, the successful preparation rate of the multiplexed link is increased by one order of magnitude. By using the cavity-enhanced scheme, the on-demand retrieval efficiency of atomic spin waves is improved to 70%, which is beneficial for the subsequent entanglement swapping between adjacent links. The realization of temporally multiplexed quantum repeater link with high retrieval efficiency lays a foundation for the development of practical quantum networks.
翻訳日:2023-08-29 13:45:24 公開日:2023-08-28
# 翻訳不変な無限量子系の還元状態の集合について

On the set of reduced states of translation invariant, infinite quantum systems ( http://arxiv.org/abs/2308.14585v1 )

ライセンス: Link先を確認
Vjosa Blakaj and Michael M. Wolf(参考訳) 変換不変な無限の量子スピン鎖の2体還元状態の集合は、それぞれ有限系の行列積状態と辺数を用いて内外から近似することができる。 これらは、無限個の補助変数の極限でのみ密になる代数的近似の階層性をもたらす。 これは任意の代数的アンサッツに対して、還元状態の集合が半代数的でないことを証明することによって必ずしもそうである。 また、追加の初等超越関数は有限記述に繋がらないという証拠も提示する。

The set of two-body reduced states of translation invariant, infinite quantum spin chains can be approximated from inside and outside using matrix product states and marginals of finite systems, respectively. These lead to hierarchies of algebraic approximations that become tight only in the limit of infinitely many auxiliary variables. We show that this is necessarily so for any algebraic ansatz by proving that the set of reduced states is not semialgebraic. We also provide evidence that additional elementary transcendental functions cannot lead to a finitary description.
翻訳日:2023-08-29 13:45:07 公開日:2023-08-28
# 合成データからアナログゲージを読むための学習

Learning to Read Analog Gauges from Synthetic Data ( http://arxiv.org/abs/2308.14583v1 )

ライセンス: Link先を確認
Juan Leon-Alcazar, Yazeed Alnumay, Cheng Zheng, Hassane Trigui, Sahejad Patel and Bernard Ghanem(参考訳) 手動でゲージデータの読み取りとロギングは時間的非効率であり、利用可能なゲージの数に応じて労力が増加する。 アナログゲージの読みを自動化したコンピュータビジョンパイプラインを提案する。 本研究では,アナログゲージの重要な構造成分を識別し,角読みを行う2段階cnnパイプラインを提案する。 提案手法の訓練を容易にするため, 合成データセットを生成し, 対応するアノテーションを用いて, リアルなアナログゲージの集合を得る。 提案を検証するために,手作業による4.813画像の収集を行った。 最新の手法と比較すると,平均誤差の4.55パーセントが有意に向上し,相対的に52%改善した。 このプロジェクトのリソースは、https://github.com/fuankarion/automatic-gauge-readingで入手できる。

Manually reading and logging gauge data is time inefficient, and the effort increases according to the number of gauges available. We present a computer vision pipeline that automates the reading of analog gauges. We propose a two-stage CNN pipeline that identifies the key structural components of an analog gauge and outputs an angular reading. To facilitate the training of our approach, a synthetic dataset is generated thus obtaining a set of realistic analog gauges with their corresponding annotation. To validate our proposal, an additional real-world dataset was collected with 4.813 manually curated images. When compared against state-of-the-art methodologies, our method shows a significant improvement of 4.55 in the average error, which is a 52% relative improvement. The resources for this project will be made available at: https://github.com/fuankarion/automatic-gauge-reading.
翻訳日:2023-08-29 13:44:57 公開日:2023-08-28
# HPC統合に向けたクラウド上のフォトニック量子コンピュータの9つの可用性

One nine availability of a Photonic Quantum Computer on the Cloud toward HPC integration ( http://arxiv.org/abs/2308.14582v1 )

ライセンス: Link先を確認
Nicolas Maring, Andreas Fyrillas, Mathias Pont, Edouard Ivanov, Eric Bertasi, Mario Valdivia, Jean Senellart(参考訳) ハイパフォーマンスコンピューティング(HPC)環境における量子コンピュータ(QC)の統合は、両方の計算パラダイムの強みを生かして現実の問題を解決する上で大きな可能性を秘めている。 しかし、複雑なQCプラットフォームをHPCインフラストラクチャに統合することは、非作業環境における運用の安定性やメンテナンスへのアクセス不足など、いくつかの課題を引き起こす。 現在、非常に異質で最先端な技術を採用しているQCは、世界中でごくわずかである。 これらのプラットフォームは主に研究目的で使われており、生産可能で安定的で一貫した性能を持つターンキーマシンよりも、しばしば実験室の組立と類似している。 さらに、そのような量子コンピュータにアクセス可能なパブリッククラウドサービスは少なく、一般的には週に数日に制限されている。 2022年11月、単光子を用いたクラウドアクセス型汎用量子コンピュータを初めて導入した。 主要な目標の1つは、HPCホスティング環境とのシームレスな互換性を期待しながら、プラットフォームの可用性を可能な限り高く維持することであった。 本稿では,クラウドアクセス可能な量子コンピューティングプラットフォームの設計と実装について述べるとともに,オンラインサービスよりも高い6ヶ月間の外部ユーザに対して,9つの可用性(92 %)を実証する。 この研究は、ハイブリッドHPC-QCインフラにおける量子コンピューティングアクセシビリティとユーザビリティの向上の基礎となった。

The integration of Quantum Computers (QC) within High-Performance Computing (HPC) environments holds significant promise for solving real-world problems by leveraging the strengths of both computational paradigms. However, the integration of a complex QC platform in an HPC infrastructure poses several challenges, such as operation stability in non-laboratory like environments, and scarce access for maintenance. Currently, only a few fully-assembled QCs currently exist worldwide, employing highly heterogeneous and cutting-edge technologies. These platforms are mostly used for research purposes, and often bear closer resemblance to laboratory assemblies rather than production-ready, stable, and consistently-performing turnkey machines. Moreover, public cloud services with access to such quantum computers are scarce and their availability is generally limited to few days per week. In November 2022, we introduced the first cloud-accessible general-purpose quantum computer based on single photons. One of the key objectives was to maintain the platform's availability as high as possible while anticipating seamless compatibility with HPC hosting environment. In this article, we describe the design and implementation of our cloud-accessible quantum computing platform, and demonstrate one nine availability (92 %) for external users during a six-month period, higher than most online services. This work lay the foundation for advancing quantum computing accessibility and usability in hybrid HPC-QC infrastructures.
翻訳日:2023-08-29 13:44:44 公開日:2023-08-28
# Turnkey Technology:サイバー戦争のための強力なツール

Turnkey Technology: A Powerful Tool for Cyber Warfare ( http://arxiv.org/abs/2308.14576v1 )

ライセンス: Link先を確認
MA. Bouke, A. Abdullah(参考訳) ターンキー技術は、サイバー戦争におけるゲームチェンジツールとして登場し、州や非州の俳優が高度なサイバー能力に前例のないアクセスを提供する。 ターンキー技術の利点は、迅速な展開と適応性、低コストとリソース要件、サイバー戦争能力の民主化、攻撃戦略と防御戦略の強化である。 しかし、ターンキー技術は、サイバー兵器の拡散、倫理的考慮、潜在的な副次的損害、紛争のエスカレーション、法的な影響など、重大なリスクをもたらす。 本稿では,サイバー戦争におけるターンキー技術の影響について,そのメリット,リスク,課題を明らかにするとともに,これらの懸念を緩和するための潜在的戦略を明らかにする。 この研究の斬新さは、現実世界の事例を調べ、サイバー戦争におけるターンキー技術に関連する課題に対処するための多面的アプローチを提案することである。 このアプローチは、効果的なサイバーセキュリティ対策の開発、国際的な規範と規制の確立、ターンキー技術の責任ある使用と開発、サイバー戦争問題におけるグローバルな協力の強化に焦点を当てている。 この説明責任とバランスの取れたアプローチを採用することで、政府、組織、国際社会は協力してより安全で安定したデジタル環境を構築し、turnkeyテクノロジーの利点を活用し、関連するリスクや課題を最小限に抑えることができる。

Turnkey technology has emerged as a game-changing tool in cyber warfare, offering state and non-state actors unprecedented access to advanced cyber capabilities. The advantages of turnkey technology include rapid deployment and adaptability, lower costs and resource requirements, the democratization of cyber warfare capabilities, and enhanced offensive and defensive strategies. However, turnkey technology also introduces significant risks, such as the proliferation of cyber weapons, ethical considerations, potential collateral damage, escalation of conflicts, and legal ramifications. This paper provides a unique perspective on the implications of turnkey technology in cyber warfare, highlighting its advantages, risks, and challenges, as well as the potential strategies for mitigating these concerns. The research's novelty lies in examining real-world examples and proposing a multifaceted approach to address the challenges associated with turnkey technology in cyber warfare. This approach focuses on developing effective cybersecurity measures, establishing international norms and regulations, promoting responsible use and development of turnkey technology, and enhancing global cooperation on cyber warfare issues. By adopting this accountable and balanced approach, governments, organizations, and the international community can work together to create a more secure and stable digital environment, leveraging the benefits of turnkey technology while minimizing the associated risks and challenges.
翻訳日:2023-08-29 13:44:22 公開日:2023-08-28
# テキストによる画像分割の参照

Referring Image Segmentation Using Text Supervision ( http://arxiv.org/abs/2308.14575v1 )

ライセンス: Link先を確認
Fang Liu, Yuhao Liu, Yuqiu Kong, Ke Xu, Lihe Zhang, Baocai Yin, Gerhard Hancke, Rynson Lau(参考訳) 既存の参照イメージセグメンテーション(RIS)メソッドは、監視のために高価なピクセルレベルまたはボックスレベルのアノテーションを必要とする。 本稿では、RISで使われている参照テキストが、対象オブジェクトをローカライズするのに十分な情報を提供していることを観察する。 そこで本研究では,対象の局所化問題を正と負のテキスト表現を区別する分類プロセスとして定式化する,弱教師付きRISフレームワークを提案する。 画像の参照テキスト表現を正の表現として用いる一方、他の画像からの参照テキスト表現を負の表現として用いることができる。 私たちの枠組みには3つの新しい点がある。 まず,視覚的特徴と言語的特徴の領域差を調和させることにより,分類プロセスを容易にする二者間プロンプト手法を提案する。 第2に,ノイズの少ない背景情報を削減するキャリブレーション手法を提案し,対象物体の定位に対する応答マップの正確性を改善する。 第3に,ris推定のためのセグメンテーションネットワークを訓練するために,強化された応答マップから高品質な擬似ラベルを生成する正の応答マップ選択戦略を提案する。 評価のために,ローカライズ精度を測定するための新しい指標を提案する。 4つのベンチマーク実験により,本フレームワークは既存の完全教師付きRIS手法に対して有望な性能を達成しつつ,関連する領域から適応した最先端の弱教師付き手法より優れた性能を発揮することが示された。 コードはhttps://github.com/fawnliu/trisで入手できる。

Existing Referring Image Segmentation (RIS) methods typically require expensive pixel-level or box-level annotations for supervision. In this paper, we observe that the referring texts used in RIS already provide sufficient information to localize the target object. Hence, we propose a novel weakly-supervised RIS framework to formulate the target localization problem as a classification process to differentiate between positive and negative text expressions. While the referring text expressions for an image are used as positive expressions, the referring text expressions from other images can be used as negative expressions for this image. Our framework has three main novelties. First, we propose a bilateral prompt method to facilitate the classification process, by harmonizing the domain discrepancy between visual and linguistic features. Second, we propose a calibration method to reduce noisy background information and improve the correctness of the response maps for target object localization. Third, we propose a positive response map selection strategy to generate high-quality pseudo-labels from the enhanced response maps, for training a segmentation network for RIS inference. For evaluation, we propose a new metric to measure localization accuracy. Experiments on four benchmarks show that our framework achieves promising performances to existing fully-supervised RIS methods while outperforming state-of-the-art weakly-supervised methods adapted from related areas. Code is available at https://github.com/fawnliu/TRIS.
翻訳日:2023-08-29 13:43:57 公開日:2023-08-28
# VoroMesh: Voronoiダイアグラムによる水密表面メッシュの学習

VoroMesh: Learning Watertight Surface Meshes with Voronoi Diagrams ( http://arxiv.org/abs/2308.14616v1 )

ライセンス: Link先を確認
Nissim Maruani, Roman Klokov, Maks Ovsjanikov, Pierre Alliez, Mathieu Desbrun(参考訳) 画像の場合とは対照的に、簡潔で学習可能な3次元表面の離散表現を見つけることは依然として困難である。 特に、ポリゴンメッシュは幾何処理で使用される最も一般的な表面表現であるが、その不規則かつ組合せ構造は学習ベースのアプリケーションには適さないことが多い。 本稿では,水密な3次元形状曲面の新規かつ微分可能なボロノイに基づく表現であるvoromeshについて述べる。 3dポイントの集合(ジェネレータと呼ばれる)とそれに関連する占有から、私たちは、生成元のボロノイ図を通して境界表現を、2つの関連する(等価な)生成器が反対の占有率を持つボロノイ面のサブセットとして定義する。 ジェネレータの位置を学習するために、VoroLossと呼ばれる新しい損失関数を提案し、この関数は、地上の真面からボロノイ図全体の明示的な構成を必要としないボロノイ図の最も近い面までの距離を最小化する。 Thingi32データセット上のジェネレータを得るためのVorolossの直接最適化は、公理的メッシュアルゴリズムや最近の学習に基づくメッシュ表現と比較して、表現の幾何学的効率を示す。 さらに、abcデータセット上の入力sdfグリッドから学習ベースのメッシュ予測タスクでvoromeshを使用し、自己干渉のないクローズド出力面を保証しながら、最先端手法に匹敵するパフォーマンスを示す。

In stark contrast to the case of images, finding a concise, learnable discrete representation of 3D surfaces remains a challenge. In particular, while polygon meshes are arguably the most common surface representation used in geometry processing, their irregular and combinatorial structure often make them unsuitable for learning-based applications. In this work, we present VoroMesh, a novel and differentiable Voronoi-based representation of watertight 3D shape surfaces. From a set of 3D points (called generators) and their associated occupancy, we define our boundary representation through the Voronoi diagram of the generators as the subset of Voronoi faces whose two associated (equidistant) generators are of opposite occupancy: the resulting polygon mesh forms a watertight approximation of the target shape's boundary. To learn the position of the generators, we propose a novel loss function, dubbed VoroLoss, that minimizes the distance from ground truth surface samples to the closest faces of the Voronoi diagram which does not require an explicit construction of the entire Voronoi diagram. A direct optimization of the Voroloss to obtain generators on the Thingi32 dataset demonstrates the geometric efficiency of our representation compared to axiomatic meshing algorithms and recent learning-based mesh representations. We further use VoroMesh in a learning-based mesh prediction task from input SDF grids on the ABC dataset, and show comparable performance to state-of-the-art methods while guaranteeing closed output surfaces free of self-intersections.
翻訳日:2023-08-29 13:37:04 公開日:2023-08-28
# 測定や後選択を伴わない相互破壊による絡み合い相転移

Entanglement phase transition due to reciprocity breaking without measurement or post-selection ( http://arxiv.org/abs/2308.14614v1 )

ライセンス: Link先を確認
Gideon Lee, Tony Jin, Yu-Xin Wang, Alexander McDonald, Aashish Clerk(参考訳) ボソニック・キタエフ鎖(bkc)は完全なユニタリダイナミクスにもかかわらず、非逆輸送や非エルミート皮膚効果を含む非エルミート物理学の重要な特徴を示す。 ここでは、ハミルトンパラメータ g の関数として生じる BKC の変種における絡み合い相転移 (EPT) の存在が、相反相から非相反相への遷移と一致することを示す。 gが臨界値を下回ると、サイズlのサブシステムの後エンタングルメントエントロピーは、lとしてスケールするボリュームロー位相から、システムサイズnのlnのようにスケールする超ボリュームロー位相へと変化する。 このEPTは、純粋に単体進化するシステムに対して発生し、測定、選択後、障害または散逸を伴わない。 l=1$ と $l/n \ll 1$ のケースの臨界点における絡み合いエントロピーを解析的に導出する。

Despite its fully unitary dynamics, the bosonic Kitaev chain (BKC) displays key hallmarks of non-Hermitian physics including non-reciprocal transport and the non-Hermitian skin effect. Here we demonstrate another remarkable phenomena: the existence of an entanglement phase transition (EPT) in a variant of the BKC that occurs as a function of a Hamiltonian parameter g, and which coincides with a transition from a reciprocal to a non-reciprocal phase. As g is reduced below a critical value, the post-quench entanglement entropy of a subsystem of size l goes from a volume-law phase where it scales as l to a super-volume law phase where it scales like lN with N the total system size. This EPT occurs for a system undergoing purely unitary evolution and does not involve measurements, post-selection, disorder or dissipation. We derive analytically the entanglement entropy out of and at the critical point for the $l=1$ and $l/N \ll 1$ case.
翻訳日:2023-08-29 13:36:35 公開日:2023-08-28
# MS-Net:SAR画像における航空機の細粒度分類のためのマルチモーダル自己教師ネットワーク

MS-Net: A Multi-modal Self-supervised Network for Fine-Grained Classification of Aircraft in SAR Images ( http://arxiv.org/abs/2308.14613v1 )

ライセンス: Link先を確認
Bingying Yue, Jianhao Li, Hao Shi, Yupei Wang, Honghu Zhong(参考訳) 合成開口レーダ(SAR)イメージング技術は、通常24時間の全地球観測に使用される。 SAR画像の航空機は、クラス内での多様性とクラス間の類似性が大きく、有効サンプルの数は不十分であり、注釈を付けることは困難である。 本稿では,航空機の細粒度分類のためのマルチモーダル自己教師ネットワーク(MS-Net)を提案する。 まず,マルチモーダル情報の可能性を完全に活用するために,ターゲットの画像特徴量を高め,テキストモードのドメイン知識特徴を得るために,双方向パス特徴抽出ネットワーク(tsfe-n)を構築した。 第2に,不均衡データから有用なラベル非依存特徴を効果的に学習するために,コントラスト型自己教師付き学習(cssl)フレームワークを用い,ネットワークの過剰フィッティングを回避するために,sploss(sequity per-ception loss)を提案する。 最後に、TSFE-NをCSSLのエンコーダとして使用して分類結果を得る。 多数の実験を通じて、我々のms-netは、類似の航空機の分類の困難を効果的に低減することができる。 ラベルなしの場合、提案アルゴリズムは17種類の航空機分類タスクに対して88.46%の精度を達成し、sar画像における航空機の細粒度分類の分野における先駆的意義を持つ。

Synthetic aperture radar (SAR) imaging technology is commonly used to provide 24-hour all-weather earth observation. However, it still has some drawbacks in SAR target classification, especially in fine-grained classification of aircraft: aircrafts in SAR images have large intra-class diversity and inter-class similarity; the number of effective samples is insufficient and it's hard to annotate. To address these issues, this article proposes a novel multi-modal self-supervised network (MS-Net) for fine-grained classification of aircraft. Firstly, in order to entirely exploit the potential of multi-modal information, a two-sided path feature extraction network (TSFE-N) is constructed to enhance the image feature of the target and obtain the domain knowledge feature of text mode. Secondly, a contrastive self-supervised learning (CSSL) framework is employed to effectively learn useful label-independent feature from unbalanced data, a similarity per-ception loss (SPloss) is proposed to avoid network overfitting. Finally, TSFE-N is used as the encoder of CSSL to obtain the classification results. Through a large number of experiments, our MS-Net can effectively reduce the difficulty of classifying similar types of aircrafts. In the case of no label, the proposed algorithm achieves an accuracy of 88.46% for 17 types of air-craft classification task, which has pioneering significance in the field of fine-grained classification of aircraft in SAR images.
翻訳日:2023-08-29 13:36:15 公開日:2023-08-28
# 天文電波干渉データ再構成のための極座標表現を用いたトランスコンディショニングニューラルネットワークパイプライン

A Transformer-Conditioned Neural Fields Pipeline with Polar Coordinate Representation for Astronomical Radio Interferometric Data Reconstruction ( http://arxiv.org/abs/2308.14610v1 )

ライセンス: Link先を確認
Ruoqi Wang, Qiong Luo, Feng Wang(参考訳) 電波天文学では、電波望遠鏡からの電波信号の測定である可視データは、遠方の天体を観測するための画像に変換される。 しかしながら、これらの結果の画像は通常、信号の間隔やその他の要因のために、実際のソースとアーティファクトの両方を含んでいる。 よりクリーンな画像を得る1つの方法は、撮像前にサンプルを高密度に再構成することである。 残念なことに、既存の可視性再構成手法は周波数データのいくつかのコンポーネントを見逃す可能性があるため、ぼやけたオブジェクトエッジと永続的なアーティファクトがイメージに残っている。 さらに、データスキューによる不規則な可視性サンプルの計算オーバーヘッドも高い。 そこで本研究では,極座標表現を持つトランスフォーマリンコンディショニングニューラルネットワークパイプラインからなる干渉可視データの再構成手法であるpolarrecを提案する。 この表現は、望遠鏡が地球が回転するときに天球領域を観測する方法と一致する。 さらに、極座標系における放射座標を用いて、周波数情報と相関して完全な可視性を再構築する放射周波損失関数を提案する。 また,極座標系における角座標による可視点をグループ化し,変圧器エンコーダを用いた後続符号化の粒度として群を用いる。 これにより,可視化データの特性を効果的かつ効率的に把握することができる。 実験の結果,PolarRecは可視領域内の全周波数成分を忠実に再構成し,計算コストを大幅に削減し,撮像結果を大幅に改善することが示された。

In radio astronomy, visibility data, which are measurements of wave signals from radio telescopes, are transformed into images for observation of distant celestial objects. However, these resultant images usually contain both real sources and artifacts, due to signal sparsity and other factors. One way to obtain cleaner images is to reconstruct samples into dense forms before imaging. Unfortunately, existing visibility reconstruction methods may miss some components of the frequency data, so blurred object edges and persistent artifacts remain in the images. Furthermore, the computation overhead is high on irregular visibility samples due to the data skew. To address these problems, we propose PolarRec, a reconstruction method for interferometric visibility data, which consists of a transformer-conditioned neural fields pipeline with a polar coordinate representation. This representation matches the way in which telescopes observe a celestial area as the Earth rotates. We further propose Radial Frequency Loss function, using radial coordinates in the polar coordinate system to correlate with the frequency information, to help reconstruct complete visibility. We also group visibility sample points by angular coordinates in the polar coordinate system, and use groups as the granularity for subsequent encoding with a Transformer encoder. Consequently, our method can capture the inherent characteristics of visibility data effectively and efficiently. Our experiments demonstrate that PolarRec markedly improves imaging results by faithfully reconstructing all frequency components in the visibility domain while significantly reducing the computation cost.
翻訳日:2023-08-29 13:35:51 公開日:2023-08-28
# AI in the Gray: 対話型大言語モデルにおけるモデレーションポリシと議論トピックにおける人間の回答

AI in the Gray: Exploring Moderation Policies in Dialogic Large Language Models vs. Human Answers in Controversial Topics ( http://arxiv.org/abs/2308.14608v1 )

ライセンス: Link先を確認
Vahid Ghafouri, Vibhor Agarwal, Yong Zhang, Nishanth Sastry, Jose Such, Guillermo Suarez-Tangil(参考訳) chatgptの導入とその後の大型言語モデル(llm)の改善により、情報と意思決定の支援の両方のために、チャットボットの使用に目を向ける人がますます増えている。 しかし、ユーザーがフォローしている情報は、明確でグローバルに受け入れられた回答を提供するのに十分客観的にこれらのチャットボットによって定式化されないことが多い。 宗教」や「性同一性」、「言論の自由」や「平等」といった論争の話題は、偏見や偏見のある答えが先入観を補強したり、偽情報を広めたりすることで対立の源となる。 このような議論の余地のある質問にchatgptを露出させることで、その認識のレベルと、既存のモデルが社会・政治・経済バイアスの対象であるかどうかを理解することを目指している。 また、AIが生成する回答と人間の回答の対比についても検討する。 これを調べるために、私たちはkialoと呼ばれる、ユーザ間でポーラミックな対象に対する人為的なクレームを議論するために作られたソーシャルメディアプラットフォームのデータセットを使用します。 以上の結果から,従来のChatGPTでは議論の的となっているトピックに重要な問題があったが,近年のChatGPT(gpt-3.5-turbo)ではいくつかの知識領域で顕著な偏見がみられなくなった。 特に経済面ではよく調整されている。 しかし、社会的・政治的観点からのモデレーションの増加の必要性を示唆する右派イデアルへの暗黙のリバタリアンの傾倒の程度は維持されている。 論争を巻き起こすトピックに関するドメイン知識に関しては、"哲学的"なカテゴリを除いて、ChatGPTは人間の集合的知識レベルに順応する上で、うまく機能している。 最後に、Bing AIの情報源は人間の回答に比べて、中心にわずかに傾向があることが分かる。 解析はすべて、他の種類のバイアスや領域に一般化可能である。

The introduction of ChatGPT and the subsequent improvement of Large Language Models (LLMs) have prompted more and more individuals to turn to the use of ChatBots, both for information and assistance with decision-making. However, the information the user is after is often not formulated by these ChatBots objectively enough to be provided with a definite, globally accepted answer. Controversial topics, such as "religion", "gender identity", "freedom of speech", and "equality", among others, can be a source of conflict as partisan or biased answers can reinforce preconceived notions or promote disinformation. By exposing ChatGPT to such debatable questions, we aim to understand its level of awareness and if existing models are subject to socio-political and/or economic biases. We also aim to explore how AI-generated answers compare to human ones. For exploring this, we use a dataset of a social media platform created for the purpose of debating human-generated claims on polemic subjects among users, dubbed Kialo. Our results show that while previous versions of ChatGPT have had important issues with controversial topics, more recent versions of ChatGPT (gpt-3.5-turbo) are no longer manifesting significant explicit biases in several knowledge areas. In particular, it is well-moderated regarding economic aspects. However, it still maintains degrees of implicit libertarian leaning toward right-winged ideals which suggest the need for increased moderation from the socio-political point of view. In terms of domain knowledge on controversial topics, with the exception of the "Philosophical" category, ChatGPT is performing well in keeping up with the collective human level of knowledge. Finally, we see that sources of Bing AI have slightly more tendency to the center when compared to human answers. All the analyses we make are generalizable to other types of biases and domains.
翻訳日:2023-08-29 13:35:25 公開日:2023-08-28
# 分散学習におけるプライバシー保護とビザンチン・ロバストネスのトレードオフについて

On the Tradeoff between Privacy Preservation and Byzantine-Robustness in Decentralized Learning ( http://arxiv.org/abs/2308.14606v1 )

ライセンス: Link先を確認
Haoxiang Ye, Heng Zhu, and Qing Ling(参考訳) 本稿では,分散学習におけるプライバシー保護とビザンチン・ロバストネスについて考察する。 分散ネットワークでは、正直なエージェントは所定のアルゴリズムに忠実に従うが、学習プロセス中に受信したメッセージから隣人のプライベートデータを推測することを期待し、不正なエージェントは所定のアルゴリズムに従わず、故意に隣人に間違ったメッセージを分散して学習プロセスにバイアスを与える。 本稿では,プライバシ保護とビザンツの分散化確率勾配降下(SGD)フレームワークについて検討し,プライバシ保護のためにガウスノイズを注入し,ビザンツ攻撃に対するロバストなアグリゲーションルールを適用した。 我々は,その学習誤りとプライバシ保証を分析し,分散学習におけるプライバシー保護とビザンチン・ロバストネスとの間に本質的なトレードオフを見出した。 数値実験を行い,理論的な知見を裏付ける。

This paper jointly considers privacy preservation and Byzantine-robustness in decentralized learning. In a decentralized network, honest-but-curious agents faithfully follow the prescribed algorithm, but expect to infer their neighbors' private data from messages received during the learning process, while dishonest-and-Byzantine agents disobey the prescribed algorithm, and deliberately disseminate wrong messages to their neighbors so as to bias the learning process. For this novel setting, we investigate a generic privacy-preserving and Byzantine-robust decentralized stochastic gradient descent (SGD) framework, in which Gaussian noise is injected to preserve privacy and robust aggregation rules are adopted to counteract Byzantine attacks. We analyze its learning error and privacy guarantee, discovering an essential tradeoff between privacy preservation and Byzantine-robustness in decentralized learning -- the learning error caused by defending against Byzantine attacks is exacerbated by the Gaussian noise added to preserve privacy. Numerical experiments are conducted and corroborate our theoretical findings.
翻訳日:2023-08-29 13:34:48 公開日:2023-08-28
# 構造化プルーニングにおける連続緩和の一般化

A Generalization of Continuous Relaxation in Structured Pruning ( http://arxiv.org/abs/2308.14605v1 )

ライセンス: Link先を確認
Brad Larson, Bishal Upadhyaya, Luke McDermott, Siddha Ganju(参考訳) ディープラーニングは、大規模なニューラルネットワークのトレーニングと評価に、大規模な並列浮動小数点処理を活用する。 トレンドは、パラメータが増加するより深い、より大きなニューラルネットワークが、より小さなニューラルネットワークよりも高い精度を達成することを示している。 この性能改善は、トレーニングと評価の両方に重い計算を必要とすることが多いが、実際的な価値のためにリソース制約のあるハードウェアにうまく翻訳する必要がある。 構造化プルーニングは、大規模ネットワークは複雑なコンピュータビジョン問題の解決策を見つけることができるが、より小さく、計算効率のよいサブネットワークは、モデル精度を維持しながら計算効率を大幅に向上する巨大なニューラルネットワークから派生できると主張する。 ネットワーク拡張, プルーニング, サブネットワーク崩壊, 削除のためのアルゴリズムを用いた構造化プルーニングを一般化する。 さらに, 連続緩和マッチングを用いて推論精度を損なうことなく, 93%の間隔と95%のFLOPを減少させ, あるいはすべての構造化プルーニング法において, 効率よく安定な収束を実証した。 結果としてCNNは計算コストのかかるスパース行列演算なしでGPUハードウェア上で効率的に実行される。 我々は、CIFAR-10、ImageNet、CityScapesのデータセットをResNetおよびU-NETネットワークアーキテクチャを用いて、分類とセグメンテーションに関する定期的な操作で実現している。

Deep learning harnesses massive parallel floating-point processing to train and evaluate large neural networks. Trends indicate that deeper and larger neural networks with an increasing number of parameters achieve higher accuracy than smaller neural networks. This performance improvement, which often requires heavy compute for both training and evaluation, eventually needs to translate well to resource-constrained hardware for practical value. Structured pruning asserts that while large networks enable us to find solutions to complex computer vision problems, a smaller, computationally efficient sub-network can be derived from the large neural network that retains model accuracy but significantly improves computational efficiency. We generalize structured pruning with algorithms for network augmentation, pruning, sub-network collapse and removal. In addition, we demonstrate efficient and stable convergence up to 93% sparsity and 95% FLOPs reduction without loss of inference accuracy using with continuous relaxation matching or exceeding the state of the art for all structured pruning methods. The resulting CNN executes efficiently on GPU hardware without computationally expensive sparse matrix operations. We achieve this with routine automatable operations on classification and segmentation problems using CIFAR-10, ImageNet, and CityScapes datasets with the ResNet and U-NET network architectures.
翻訳日:2023-08-29 13:34:30 公開日:2023-08-28
# SAM-PARSER:パラメータ空間再構成によるファインチューニングSAM

SAM-PARSER: Fine-tuning SAM Efficiently by Parameter Space Reconstruction ( http://arxiv.org/abs/2308.14604v1 )

ライセンス: Link先を確認
Zelin Peng, Zhengqin Xu, Zhilin Zeng, Xiaokang Yang, Wei Shen(参考訳) Segment Anything Model (SAM)は、画像中のオブジェクトのセグメンテーションに強力で汎用的なソリューションを提供するため、注目されている。 しかし、異なるシナリオにおける下流セグメンテーションタスクのための微調整SAMは、様々なシナリオの特徴が自然に多様なモデルパラメータ空間を必要とするため、依然として課題である。 既存の微調整手法の多くは、SAMの元々のパラメータ空間を変更するための新しいパラメータセットを導入することで、異なるシナリオ間のギャップを埋めようとしている。 本稿では,パラメータ空間再構成 (SAM-PARSER) により, 微調整時のほぼゼロなパラメータを導入し, SAMを効率的に微調整する手法を提案する。 SAM-PARSER では,SAM の原パラメータ空間は比較的完全であり,その基底が新しいシナリオのパラメータ空間を再構成することができると仮定する。 行列分解により基底を求め、その係数を微調整し、基底の最適線形結合により新しいシナリオに合わせたパラメータ空間を再構成する。 実験の結果,SAM-PARSERは様々なシナリオにおいて優れたセグメンテーション性能を示し,既存のパラメータ効率の微調整法と比較してトレーニング可能なパラメータの数を290ドル程度削減できることがわかった。

Segment Anything Model (SAM) has received remarkable attention as it offers a powerful and versatile solution for object segmentation in images. However, fine-tuning SAM for downstream segmentation tasks under different scenarios remains a challenge, as the varied characteristics of different scenarios naturally requires diverse model parameter spaces. Most existing fine-tuning methods attempt to bridge the gaps among different scenarios by introducing a set of new parameters to modify SAM's original parameter space. Unlike these works, in this paper, we propose fine-tuning SAM efficiently by parameter space reconstruction (SAM-PARSER), which introduce nearly zero trainable parameters during fine-tuning. In SAM-PARSER, we assume that SAM's original parameter space is relatively complete, so that its bases are able to reconstruct the parameter space of a new scenario. We obtain the bases by matrix decomposition, and fine-tuning the coefficients to reconstruct the parameter space tailored to the new scenario by an optimal linear combination of the bases. Experimental results show that SAM-PARSER exhibits superior segmentation performance across various scenarios, while reducing the number of trainable parameters by $\approx 290$ times compared with current parameter-efficient fine-tuning methods.
翻訳日:2023-08-29 13:34:09 公開日:2023-08-28
# 強化学習を用いたハイブリッド電気自動車のエネルギー管理の最近の進歩

Recent Progress in Energy Management of Connected Hybrid Electric Vehicles Using Reinforcement Learning ( http://arxiv.org/abs/2308.14602v1 )

ライセンス: Link先を確認
Min Hua, Bin Shuai, Quan Zhou, Jinhai Wang, Yinglong He, Hongming Xu(参考訳) ハイブリッド電気自動車(hev)の普及は、輸送エネルギーシステムに革命をもたらす転換的な機会をもたらす。 電気輸送へのシフトは、化石燃料消費に関する環境問題を抑制することを目的としている。 これはエネルギー効率を最適化するために効率的なエネルギー管理システム(EMS)を必要とする。 HEVからコネクテッドハイブリッド電気自動車(CHEV)へのEMSの進化は、重要なシフトを示している。 HEVにとって、EMSはCHEVの複雑なエネルギー協力要件に直面し、経路最適化、充電調整、負荷分散のための高度なアルゴリズムを必要とする。 HEVの最適エネルギー利用、さまざまな車種にわたるCHEVの協調的エコ自動運転制御(CED)など、両方の領域で課題が続いている。 強化学習(RL)は、これらの課題に対処するための有望なツールである。 特に、CHEVの領域内では、CED制御の複雑さに効果的に取り組むための強力なアプローチとしてマルチエージェント強化学習(MARL)の応用が出現する。 広範な研究にもかかわらず、個々の車両から複数車両シナリオまでのレビューは少ない。 このレビューは、将来の持続可能な輸送システムに対するRLベースのソリューションのギャップを橋渡しし、課題、進歩、潜在的貢献を明らかにする。

The growing adoption of hybrid electric vehicles (HEVs) presents a transformative opportunity for revolutionizing transportation energy systems. The shift towards electrifying transportation aims to curb environmental concerns related to fossil fuel consumption. This necessitates efficient energy management systems (EMS) to optimize energy efficiency. The evolution of EMS from HEVs to connected hybrid electric vehicles (CHEVs) represent a pivotal shift. For HEVs, EMS now confronts the intricate energy cooperation requirements of CHEVs, necessitating advanced algorithms for route optimization, charging coordination, and load distribution. Challenges persist in both domains, including optimal energy utilization for HEVs, and cooperative eco-driving control (CED) for CHEVs across diverse vehicle types. Reinforcement learning (RL) stands out as a promising tool for addressing these challenges at hand. Specifically, within the realm of CHEVs, the application of multi-agent reinforcement learning (MARL) emerges as a powerful approach for effectively tackling the intricacies of CED control. Despite extensive research, few reviews span from individual vehicles to multi-vehicle scenarios. This review bridges the gap, highlighting challenges, advancements, and potential contributions of RL-based solutions for future sustainable transportation systems.
翻訳日:2023-08-29 13:33:45 公開日:2023-08-28
# ドメイン認識による公平性:音楽発見における人気バイアスの緩和

Fairness Through Domain Awareness: Mitigating Popularity Bias For Music Discovery ( http://arxiv.org/abs/2308.14601v1 )

ライセンス: Link先を確認
Rebecca Salganik, Fernando Diaz, Golnoosh Farnadi(参考訳) オンライン音楽プラットフォームが成長するにつれて、音楽レコメンデーションシステムは、巨大な音楽データベース内のコンテンツをナビゲートし発見する上で重要な役割を果たす。 この大きな目標に反するのは、人気バイアスの存在であり、アルゴリズムシステムが主流のコンテンツを優先し、より関連性があり、ニッチなアイテムを優先させる。 本研究では,音楽発見と人気バイアスの関係について検討する。 この問題を軽減するために、グラフニューラルネットワーク(gnns)ベースのレコメンダシステムにおける人気バイアスに対処する、ドメイン認識による個別公平性に基づくアプローチを提案する。 われわれのアプローチでは、個々の公正さを基礎的な真理聴取体験、すなわち2つの歌が似ているとすると、この類似性はその表現に反映されるべきである。 それによって,音楽分野に根ざした人気バイアスに頑健な有意義な音楽発見が促進される。 BOOST手法を2つの発見ベースタスクに適用し、プレイリストレベルとユーザレベルの両方でレコメンデーションを実行する。 そこで,本手法は,従来のフェアネスベンチマークを性能と,あまり知られていないコンテンツの推奨の両方で上回っていることを示す。 最後に,提案手法が音楽レコメンダシステムにおける人気バイアスを軽減し,新たなニッチコンテンツの発見を改善するための新規かつ有望なアプローチであることを示す。

As online music platforms grow, music recommender systems play a vital role in helping users navigate and discover content within their vast musical databases. At odds with this larger goal, is the presence of popularity bias, which causes algorithmic systems to favor mainstream content over, potentially more relevant, but niche items. In this work we explore the intrinsic relationship between music discovery and popularity bias. To mitigate this issue we propose a domain-aware, individual fairness-based approach which addresses popularity bias in graph neural network (GNNs) based recommender systems. Our approach uses individual fairness to reflect a ground truth listening experience, i.e., if two songs sound similar, this similarity should be reflected in their representations. In doing so, we facilitate meaningful music discovery that is robust to popularity bias and grounded in the music domain. We apply our BOOST methodology to two discovery based tasks, performing recommendations at both the playlist level and user level. Then, we ground our evaluation in the cold start setting, showing that our approach outperforms existing fairness benchmarks in both performance and recommendation of lesser-known content. Finally, our analysis explains why our proposed methodology is a novel and promising approach to mitigating popularity bias and improving the discovery of new and niche content in music recommender systems.
翻訳日:2023-08-29 13:33:28 公開日:2023-08-28
# 深部強化学習を用いたDAGタスクのエッジ生成スケジューリング

Edge Generation Scheduling for DAG Tasks using Deep Reinforcement Learning ( http://arxiv.org/abs/2308.14647v1 )

ライセンス: Link先を確認
Binqi Sun, Mirco Theile, Ziyuan Qin, Daniele Bernardini, Debayan Roy, Andrea Bastoni, and Marco Caccamo(参考訳) 有向非循環グラフ(dag)タスクは現在、リアルタイムドメインで採用されており、相互通信タスクの連鎖を通じて機能を実装する自動車、アビオニクス、産業ドメインから複雑なアプリケーションをモデル化している。 本稿では,自明なシェジュラビリティの概念に基づく新しいシェジュラビリティテストを提案することにより,リアルタイム dag タスクのスケジューリングの問題について述べる。 このスケジューリング可能性テストを用いて、期限制約を保証しつつエッジを反復的に生成することでDAG幅を最小化する新しいDAGスケジューリングフレームワーク(エッジジェネレーションスケジューリング -- EGS)を提案する。 グラフ表現ニューラルネットワークと組み合わせた深部強化学習アルゴリズムを開発し,ESGの効率的なエッジ生成ポリシーを学習することにより,エッジ生成の効率よく解決する方法を検討する。 我々は,提案アルゴリズムの有効性を,最先端DAGスケジューリングヒューリスティックスと最適混合整数線形プログラミングベースラインとの比較により評価した。 実験の結果,提案アルゴリズムは,同一のDAGタスクをスケジュールするプロセッサを少なくすることで,最先端のアルゴリズムよりも優れていることがわかった。

Directed acyclic graph (DAG) tasks are currently adopted in the real-time domain to model complex applications from the automotive, avionics, and industrial domain that implement their functionalities through chains of intercommunicating tasks. This paper studies the problem of scheduling real-time DAG tasks by presenting a novel schedulability test based on the concept of trivial schedulability. Using this schedulability test, we propose a new DAG scheduling framework (edge generation scheduling -- EGS) that attempts to minimize the DAG width by iteratively generating edges while guaranteeing the deadline constraint. We study how to efficiently solve the problem of generating edges by developing a deep reinforcement learning algorithm combined with a graph representation neural network to learn an efficient edge generation policy for EGS. We evaluate the effectiveness of the proposed algorithm by comparing it with state-of-the-art DAG scheduling heuristics and an optimal mixed-integer linear programming baseline. Experimental results show that the proposed algorithm outperforms the state-of-the-art by requiring fewer processors to schedule the same DAG tasks.
翻訳日:2023-08-29 13:27:27 公開日:2023-08-28
# 産業ロボット協調作業における快適性指数の推定

Human Comfortability Index Estimation in Industrial Human-Robot Collaboration Task ( http://arxiv.org/abs/2308.14644v1 )

ライセンス: Link先を確認
Celal Savur, Jamison Heard, and Ferat Sahin(参考訳) 有能な人間とロボットのコラボレーションは、ロボットのチームメイトが人間の心理生理状態を理解し、学習し、適応する必要がある。 このようなコラボレーションは、人間の快適度を定量的に推定するために、人間の生理的信号を監視するコンピュータシステムを必要としており、この研究では、快適度指数(CI)と不快度指数(unCI)と呼ばれている。 ロボット行動の異なる人間とロボットの協調実験において, 主観的指標(サプライズ, 不安, 退屈, 落ち着き, 快適性)と生理的信号を収集した。 感情周囲モデルは、参加者の定量的データと生理的データからCIを計算するために適合する。 生理的信号からCI/unCIを推定するために,心電図 (ECG) , ガルバニック皮膚反応 (GSR) および瞳孔信号から時間特性を抽出した。 本研究では, 概略モデルにおける「快適性」と「不快性」の位置(軸)と, その位置が概略モデル上で最も近い感情と一致することを示すために, 概略モデルを適用した。 最後に,提案手法は生理的信号から人間の快適性・不快性を推定できることを示した。

Fluent human-robot collaboration requires a robot teammate to understand, learn, and adapt to the human's psycho-physiological state. Such collaborations require a computing system that monitors human physiological signals during human-robot collaboration (HRC) to quantitatively estimate a human's level of comfort, which we have termed in this research as comfortability index (CI) and uncomfortability index (unCI). Subjective metrics (surprise, anxiety, boredom, calmness, and comfortability) and physiological signals were collected during a human-robot collaboration experiment that varied robot behavior. The emotion circumplex model is adapted to calculate the CI from the participant's quantitative data as well as physiological data. To estimate CI/unCI from physiological signals, time features were extracted from electrocardiogram (ECG), galvanic skin response (GSR), and pupillometry signals. In this research, we successfully adapt the circumplex model to find the location (axis) of 'comfortability' and 'uncomfortability' on the circumplex model, and its location match with the closest emotions on the circumplex model. Finally, the study showed that the proposed approach can estimate human comfortability/uncomfortability from physiological signals.
翻訳日:2023-08-29 13:27:08 公開日:2023-08-28
# 超伝導チップ上の受動マイクロ波循環

Passive microwave circulation on a superconducting chip ( http://arxiv.org/abs/2308.14643v1 )

ライセンス: Link先を確認
Arkady Fedorov, N. Pradeep Kumar, Dat Thanh Le, Rohit Navarathna, Prasanna Pakkiam, Thomas M. Stace(参考訳) 大規模な超伝導量子回路を構築するには、小型化とマイクロ波循環器などの支持デバイスの統合が必要となる。 本稿では,3つのトンネル結合型超伝導島と直流制御フィールドからなるループからなる受動オンチップ循環器の実現について報告する。 我々は準粒子トンネルの効果を観察し、システムを異なる準粒子セクターに動的に分類する。 循環に合わせて調整されると、この装置は強い非相互3ポート散乱を示し、2dBのオン共鳴挿入損失、14dBのアイソレーション、−11dBのパワーリフレクタンス、200MHzの帯域幅を有する。

Building large-scale superconducting quantum circuits will require miniaturisation and integration of supporting devices including microwave circulators, which are currently bulky, stand-alone components. Here we report the realisation of a passive on-chip circulator which is made from a loop consisting of three tunnel-coupled superconducting islands, with DC-only control fields. We observe the effect of quasiparticle tunnelling, and we dynamically classify the system into different quasiparticle sectors. When tuned for circulation, the device exhibits strongly non-reciprocal 3-port scattering, with average on-resonance insertion loss of 2 dB, isolation of 14 dB, power reflectance of -11 dB, and a bandwidth of 200 MHz.
翻訳日:2023-08-29 13:26:44 公開日:2023-08-28
# 線形マルコフ決定過程におけるレート最適政策最適化

Rate-Optimal Policy Optimization for Linear Markov Decision Processes ( http://arxiv.org/abs/2308.14642v1 )

ライセンス: Link先を確認
Uri Sherman, Alon Cohen, Tomer Koren, Yishay Mansour(参考訳) 我々はオンラインのエピソディック線形マルコフ決定過程における後悔の最小化を研究し、レートオプティマイズである$\widetilde o (\sqrt k)$ regret を得る。 我々の研究は、政策最適化に基づくアプローチを用いて、確率的設定における最適(w.r.t.~$K$)収束率と、最適(w.r.t.~$K$)速度を、完全な情報フィードバックを備えた対向的な設定で確立した最初のものである。

We study regret minimization in online episodic linear Markov Decision Processes, and obtain rate-optimal $\widetilde O (\sqrt K)$ regret where $K$ denotes the number of episodes. Our work is the first to establish the optimal (w.r.t.~$K$) rate of convergence in the stochastic setting with bandit feedback using a policy optimization based approach, and the first to establish the optimal (w.r.t.~$K$) rate in the adversarial setup with full information feedback, for which no algorithm with an optimal rate guarantee is currently known.
翻訳日:2023-08-29 13:26:30 公開日:2023-08-28
# GPT-3を用いた医療用会話エージェントの課題

Challenges of GPT-3-based Conversational Agents for Healthca ( http://arxiv.org/abs/2308.14641v1 )

ライセンス: Link先を確認
Fabian Lechner and Allison Lahnala and Charles Welch and Lucie Flek(参考訳) 医療専門家が重要なタスクに集中できる一方で、より高速な情報アクセスを提供する可能性は、医療ドメインのダイアログエージェントを魅力的にする。 しかし、これらのエージェントへの大規模言語モデル(LLM)の統合は、深刻な結果をもたらす可能性のあるある種の制限を示す。 本稿では,GPT-3に基づく医療質問応答モデル(MedQA)の課題とリスクについて検討する。 標準医療原則の観点からコンテキスト化されたいくつかの評価を行う。 MedQA システムにおける LLM の高リスク制約をストレステストするために,患者クエリを手動で設計する手法を提案する。 分析の結果、LSMはこれらのクエリに適切に対応できず、誤った医療情報、安全でないレコメンデーション、攻撃的と考えられるコンテンツを生成することがわかった。

The potential to provide patients with faster information access while allowing medical specialists to concentrate on critical tasks makes medical domain dialog agents appealing. However, the integration of large-language models (LLMs) into these agents presents certain limitations that may result in serious consequences. This paper investigates the challenges and risks of using GPT-3-based models for medical question-answering (MedQA). We perform several evaluations contextualized in terms of standard medical principles. We provide a procedure for manually designing patient queries to stress-test high-risk limitations of LLMs in MedQA systems. Our analysis reveals that LLMs fail to respond adequately to these queries, generating erroneous medical information, unsafe recommendations, and content that may be considered offensive.
翻訳日:2023-08-29 13:26:15 公開日:2023-08-28
# ChatGPTで銀行を破る-財務面のテキスト分類は少ない

Breaking the Bank with ChatGPT: Few-Shot Text Classification for Finance ( http://arxiv.org/abs/2308.14634v1 )

ライセンス: Link先を確認
Lefteris Loukas, Ilias Stogiannidis, Prodromos Malakasiotis, Stavros Vassos(参考訳) Banking77データセットを用いて,金融分野における会話型GPTモデルによるテキスト分類を容易かつ短時間で行うことを提案する。 提案手法では,GPT-3.5とGPT-4を用いたテキスト内学習により,必要な技術的専門知識を最小化し,高速かつ正確な結果が得られるとともに,高価なGPUコンピューティングの必要性を解消する。 さらに,最近のコントラスト学習技術であるSetFitを用いて,事前学習されたマスク付き言語モデルを微調整し,フルデータおよび少数ショット設定の両方で最先端の結果を得る。 その結果, GPT-3.5 と GPT-4 のクエリは, より少ない例でも, 微調整, 非生成モデルより優れていることがわかった。 しかし、これらのソリューションに関連するサブスクリプション料金は、小規模組織にとってコストがかかると考えられている。 最後に、生成モデルが与えられたタスクにおいて、ランダムなタスクではなく、人間の専門家によって選択された代表的なサンプルを示す場合、よりよいパフォーマンスを示すことが分かる。 結論として a) 提案手法は,ラベルアベイラビリティに制限のあるデータセットにおける少数タスクに対して実用的なソリューションを提供する。 b) 最先端の成果は,この分野の今後の業績を刺激することができる。

We propose the use of conversational GPT models for easy and quick few-shot text classification in the financial domain using the Banking77 dataset. Our approach involves in-context learning with GPT-3.5 and GPT-4, which minimizes the technical expertise required and eliminates the need for expensive GPU computing while yielding quick and accurate results. Additionally, we fine-tune other pre-trained, masked language models with SetFit, a recent contrastive learning technique, to achieve state-of-the-art results both in full-data and few-shot settings. Our findings show that querying GPT-3.5 and GPT-4 can outperform fine-tuned, non-generative models even with fewer examples. However, subscription fees associated with these solutions may be considered costly for small organizations. Lastly, we find that generative models perform better on the given task when shown representative samples selected by a human expert rather than when shown random ones. We conclude that a) our proposed methods offer a practical solution for few-shot tasks in datasets with limited label availability, and b) our state-of-the-art results can inspire future work in the area.
翻訳日:2023-08-29 13:26:02 公開日:2023-08-28
# 実効検証シナリオを用いた条件モニタリングのためのオートMLとディープラーニング手法の比較

Comparing AutoML and Deep Learning Methods for Condition Monitoring using Realistic Validation Scenarios ( http://arxiv.org/abs/2308.14632v1 )

ライセンス: Link先を確認
Payman Goodarzi, Andreas Sch\"utze, Tizian Schneider(参考訳) 本研究では,AutoMLツールボックスを用いた条件監視タスクにおける従来の機械学習手法とディープラーニングを比較した。 実験では, ランダムなK-フォールドクロスバリデーションシナリオにおいて, 全試験モデルに対して一貫した高い精度を示す。 しかし、同じデータセットでLOGO(Leave-one-group-out)クロスバリデーションを採用すると、明確な勝者は現れず、実際のシナリオにおけるドメインシフトの存在を示す。 さらに,従来の手法とニューラルネットワークのスケーラビリティと解釈可能性についても検討した。 従来の手法では、特徴識別を支援するモジュール構造で説明可能である。 対照的に、ニューラルネットワークは、入力データの重要な領域を視覚化するために、オクルージョンマップのような特殊な解釈技術を必要とする。 最後に,クラスの違いが限定された条件モニタリングタスクにおいて,特徴選択の重要性を強調した。 低複雑さモデルは、入力信号からのいくつかの特徴しか必要としないため、そのようなタスクに十分である。 まとめると、これらの発見は様々なアプローチの強みと限界に対する重要な洞察を提供し、価値のあるベンチマークを提供し、条件監視アプリケーションに適した方法を特定し、現実のシナリオに適用性を高める。

This study extensively compares conventional machine learning methods and deep learning for condition monitoring tasks using an AutoML toolbox. The experiments reveal consistent high accuracy in random K-fold cross-validation scenarios across all tested models. However, when employing leave-one-group-out (LOGO) cross-validation on the same datasets, no clear winner emerges, indicating the presence of domain shift in real-world scenarios. Additionally, the study assesses the scalability and interpretability of conventional methods and neural networks. Conventional methods offer explainability with their modular structure aiding feature identification. In contrast, neural networks require specialized interpretation techniques like occlusion maps to visualize important regions in the input data. Finally, the paper highlights the significance of feature selection, particularly in condition monitoring tasks with limited class variations. Low-complexity models prove sufficient for such tasks, as only a few features from the input signal are typically needed. In summary, these findings offer crucial insights into the strengths and limitations of various approaches, providing valuable benchmarks and identifying the most suitable methods for condition monitoring applications, thereby enhancing their applicability in real-world scenarios.
翻訳日:2023-08-29 13:25:45 公開日:2023-08-28
# VesselShot: 脳血管のセグメンテーションのためのFew-shot Learning

VesselShot: Few-shot learning for cerebral blood vessel segmentation ( http://arxiv.org/abs/2308.14626v1 )

ライセンス: Link先を確認
Mumu Aktar, Hassan Rivaz, Marta Kersten-Oertel, Yiming Xiao(参考訳) アンギオグラフィーは脳血管疾患の診断、診断、治療に広く使われている。 異なる画像モダリティから血管ネットワークを分割する技術が多数提案されているが、ディープラーニング(DL)は有望なアプローチとして現れている。 しかし、既存のdlメソッドはプロプライエタリなデータセットと広範な手動アノテーションに依存することが多い。 また、医療分野や3dボリュームに特化した事前訓練済みネットワークの利用も制限されている。 これらの課題を克服するために,脳血管セグメンテーションのためのVesselShotと呼ばれる数発の学習手法を提案する。 VesselShotは、いくつかの注釈付き支持画像からの知識を活用し、ラベル付きデータの不足と脳血管セグメンテーションにおける広範なアノテーションの必要性を緩和する。 セグメンテーションタスクのための公開可能な tubetk データセットを用いて vesselshot の性能を評価し,平均 dice 係数 (dc) を 0.62(0.03) とした。

Angiography is widely used to detect, diagnose, and treat cerebrovascular diseases. While numerous techniques have been proposed to segment the vascular network from different imaging modalities, deep learning (DL) has emerged as a promising approach. However, existing DL methods often depend on proprietary datasets and extensive manual annotation. Moreover, the availability of pre-trained networks specifically for medical domains and 3D volumes is limited. To overcome these challenges, we propose a few-shot learning approach called VesselShot for cerebrovascular segmentation. VesselShot leverages knowledge from a few annotated support images and mitigates the scarcity of labeled data and the need for extensive annotation in cerebral blood vessel segmentation. We evaluated the performance of VesselShot using the publicly available TubeTK dataset for the segmentation task, achieving a mean Dice coefficient (DC) of 0.62(0.03).
翻訳日:2023-08-29 13:25:25 公開日:2023-08-28
# TRIVEA:ブラックボックスアルゴリズムの視覚的説明を用いた透明ランキング解釈

TRIVEA: Transparent Ranking Interpretation using Visual Explanation of Black-Box Algorithmic Rankers ( http://arxiv.org/abs/2308.14622v1 )

ライセンス: Link先を確認
Jun Yuan, Kaustav Bhattacharjee, Akm Zahirul Islam and Aritra Dasgupta(参考訳) ランク付け方式は、勉強先、採用先、購入先など、多くの現実世界の意思決定を駆動する。 これらの決定の多くは、しばしば高い結果をもたらす。 例えば、大学はトップkリストに載らないと名声が低いと見なすことができ、消費者は購入者に推奨されない製品を探索するかもしれない。 これらの決定の核心は、データエンティティの順序を決定する不透明なランキングスキームであるが、内部ロジックはアクセス不能またはプロプライエタリである。 ランキングの違いに関する推論は、利害関係者(例えば、製品会社のようなランク付けされた団体)や意思決定者(すなわち、買い手のようなランキングを使用する者)に対する推測ゲームのようなものだ。 本稿では,利用可能なデータから学習するアルゴリズムによるランク付けと,説明可能なai (xai) 手法を用いて学習したランク付けの違いを人間による推論を行うことにより,ランク付け解釈の透明性を実現することを目的とする。 この目的を達成するために、人間の利害関係者がモデル適合と属性影響の視覚的説明を用いて、複雑な多属性ランキングデータのサブセットとグループ化を探索できるように、人間とデータ相互作用の探索・説明パラダイムを活用する。 視覚分析システムtriveaでは,この説明パラダイムを透明なランキング解釈のために実現している。 一 利用可能なデータから属性とランキングの関係を学習するアルゴリズム的ランカから導出したモデル適合の可視化 二 異なるランク範囲における属性の相対的影響等、重要なパターンを抽象化するXAI法から派生した視覚的説明。 TRIVEAを使用することで、データサイエンスの訓練を受けていないエンドユーザは、ブラックボックスランキングモデルを開くことなく、グローバルおよびローカルなランキングの振る舞いを透過的に判断し、結果として生じる属性ベースの推論に対する信頼性を高めることができる。 本稿では,様々な分野の専門家による複数のシナリオと主観的フィードバックを用いて,triveaの有効性を示す。 キーワード:ビジュアルアナリティクス、ラーニング・トゥ・ランド、説明可能なML、ランキング

Ranking schemes drive many real-world decisions, like, where to study, whom to hire, what to buy, etc. Many of these decisions often come with high consequences. For example, a university can be deemed less prestigious if not featured in a top-k list, and consumers might not even explore products that do not get recommended to buyers. At the heart of most of these decisions are opaque ranking schemes, which dictate the ordering of data entities, but their internal logic is inaccessible or proprietary. Drawing inferences about the ranking differences is like a guessing game to the stakeholders, like, the rankees (i.e., the entities who are ranked, like product companies) and the decision-makers (i.e., who use the rankings, like buyers). In this paper, we aim to enable transparency in ranking interpretation by using algorithmic rankers that learn from available data and by enabling human reasoning about the learned ranking differences using explainable AI (XAI) methods. To realize this aim, we leverage the exploration-explanation paradigm of human-data interaction to let human stakeholders explore subsets and groupings of complex multi-attribute ranking data using visual explanations of model fit and attribute influence on rankings. We realize this explanation paradigm for transparent ranking interpretation in TRIVEA, a visual analytic system that is fueled by: i) visualizations of model fit derived from algorithmic rankers that learn the associations between attributes and rankings from available data and ii) visual explanations derived from XAI methods that help abstract important patterns, like, the relative influence of attributes in different ranking ranges. Using TRIVEA, end users not trained in data science have the agency to transparently reason about the global and local behavior of the rankings without the need to open black-box ranking models and develop confidence in the resulting attribute-based inferences. We demonstrate the efficacy of TRIVEA using multiple usage scenarios and subjective feedback from researchers with diverse domain expertise. Keywords: Visual Analytics, Learning-to-Rank, Explainable ML, Ranking
翻訳日:2023-08-29 13:25:10 公開日:2023-08-28
# 点雲セグメンテーションにおける領域適応のための構成意味混合

Compositional Semantic Mix for Domain Adaptation in Point Cloud Segmentation ( http://arxiv.org/abs/2308.14619v1 )

ライセンス: Link先を確認
Cristiano Saltori and Fabio Galasso and Giuseppe Fiameni and Nicu Sebe and Fabio Poiesi and Elisa Ricci(参考訳) 3Dポイントクラウドセマンティックセグメンテーションのためのディープラーニングモデルは、異なるセンサーでキャプチャされたデータやドメインシフトによるさまざまな環境でのトレーニングとテストにおいて、限定的な一般化能力を示す。 ドメイン適応手法は、例えば、センサノイズのシミュレーション、ドメインに依存しないジェネレータの開発、あるいはトレーニングポイントクラウド補完ネットワークによって、このドメインシフトを軽減するために使用できる。 これらの手法は、レンジビューマップやマルチモーダル入力を必要とする場合が多い。 対照的に、画像領域におけるドメイン適応は、異なる適応モジュールを使用するのではなく、入力データ操作を強調するサンプルミキシングによって実行される。 本研究では,ポイントクラウド領域適応のための合成的意味的混合を導入し,意味的および幾何学的サンプル混合に基づくポイントクラウドセグメンテーションのための最初の教師なし領域適応手法を示す。 本稿では,ソースドメイン(例えば合成)からポイントクラウドを同時処理し,ターゲットドメイン(例えば実世界)からポイントクラウドを同時処理可能な双方向対称ネットワークアーキテクチャを提案する。 各ブランチは、他のドメインから選択されたデータフラグメントを統合し、ソースラベルとターゲット(擬似)ラベルから派生したセマンティック情報を利用する。 さらに、この手法は限られた数の人間用ポイントレベルアノテーション(semi-supervised)を活用でき、さらなる性能向上が図れる。 我々は、LiDARデータセットを用いて、合成と実の両方のシナリオにおけるアプローチを評価し、教師なしと半教師なしの両方で最先端の手法を著しく上回ることを示す。

Deep-learning models for 3D point cloud semantic segmentation exhibit limited generalization capabilities when trained and tested on data captured with different sensors or in varying environments due to domain shift. Domain adaptation methods can be employed to mitigate this domain shift, for instance, by simulating sensor noise, developing domain-agnostic generators, or training point cloud completion networks. Often, these methods are tailored for range view maps or necessitate multi-modal input. In contrast, domain adaptation in the image domain can be executed through sample mixing, which emphasizes input data manipulation rather than employing distinct adaptation modules. In this study, we introduce compositional semantic mixing for point cloud domain adaptation, representing the first unsupervised domain adaptation technique for point cloud segmentation based on semantic and geometric sample mixing. We present a two-branch symmetric network architecture capable of concurrently processing point clouds from a source domain (e.g. synthetic) and point clouds from a target domain (e.g. real-world). Each branch operates within one domain by integrating selected data fragments from the other domain and utilizing semantic information derived from source labels and target (pseudo) labels. Additionally, our method can leverage a limited number of human point-level annotations (semi-supervised) to further enhance performance. We assess our approach in both synthetic-to-real and real-to-real scenarios using LiDAR datasets and demonstrate that it significantly outperforms state-of-the-art methods in both unsupervised and semi-supervised settings.
翻訳日:2023-08-29 13:24:31 公開日:2023-08-28
# NISQ時代の量子状態の電力関数計算のためのスケーラブルアルゴリズム

Scalable Algorithms for Power Function Calculations of quantum states in NISQ Era ( http://arxiv.org/abs/2308.14675v1 )

ライセンス: Link先を確認
Wencheng Zhao, Tingting Chen, Ruyu Yang(参考訳) 量子コンピューティングは科学の先駆者であり、重ね合わせや絡み合いといった量子力学現象の活用に焦点を当てている。 その目標は、古典的なコンピュータの能力を超えた複雑な問題に対処する革新的な計算モデルを作ることである。 雑音中間スケール量子(NISQ)時代には、密度行列上の非線形関数計算のためのアルゴリズムの開発が最も重要である。 このプロジェクトでは、混合量子状態のパワー関数を計算するスケーラブルなアルゴリズムを設計する。 本研究では,Adamard Test と Gate Set Tomography の2つのアルゴリズムを紹介する。 さらに、ゲートセット・トモグラフィーに基づく手法に固有の誤差の綿密な評価を伴う計算結果の比較も提供される。

Quantum computing stands at the vanguard of science, focused on exploiting quantum mechanical phenomena like superposition and entanglement. Its goal is to create innovative computational models that address intricate problems beyond classical computers' capabilities. In the Noisy Intermediate-Scale Quantum (NISQ) era, developing algorithms for nonlinear function calculations on density matrices is of paramount importance. This project endeavors to design scalable algorithms for calculating power functions of mixed quantum states. This study introduces two algorithms based on the Hadamard Test and Gate Set Tomography. Additionally, a comparison of their computational outcomes is offered, accompanied by a meticulous assessment of errors inherent in the Gate Set Tomography-based approach.
翻訳日:2023-08-29 13:16:56 公開日:2023-08-28
# ANER: Transformer-based Approach を用いたアラビア文字とアラビア文字のエンティティ認識

ANER: Arabic and Arabizi Named Entity Recognition using Transformer-Based Approach ( http://arxiv.org/abs/2308.14669v1 )

ライセンス: Link先を確認
Abdelrahman "Boda" Sadallah, Omar Ahmed, Shimaa Mohamed, Omar Hatem, Doaa Hesham, Ahmed H. Yousef(参考訳) 自然言語処理(NLP)の主なタスクの1つは、名前付きエンティティ認識(NER)である。 多くのアプリケーションで使われ、他のタスクの中間ステップとしても使うことができる。 本稿では、アラビア語とアラビア語のためのWebベースのエンティティ認識器AnERを紹介する。 このモデルは変換器ベースのエンコーダであるBERT上に構築されている。 50の異なるエンティティクラスを認識でき、さまざまな分野をカバーする。 ウィキペディアの記事からなるWikiFANE\_Goldデータセットでモデルをトレーニングした。 我々は,4つのクラスしか持たないANERcorpデータセット上で,CAMeL ToolsのF1スコアの83.%を上回り,F1スコアの88.7\%を達成した。 また、ニュース記事のドメイン外データを含むnewsfane\_goldデータセットで77.7\%のf1スコアを得た。 このシステムはユーザフレンドリーなWebインターフェース上にデプロイされ、アラビア語またはアラビア語でユーザの入力を受け入れる。 ユーザーはテキスト中のエンティティをハイライトすることで探索することができる。 また、ウィキペディアから直接エンティティに関する情報を入手することも可能だ。 当社のモデルを使ったNERやCAMeL ToolsのモデルをWebサイトを通じて追加しました。 ANER は \url{http://www.aner.online} で公開されている。 私たちはまた、開発者がそれをテストして使用できるように、HuggingFaceのhttps://huggingface.co/boda/ANERにモデルをデプロイしました。

One of the main tasks of Natural Language Processing (NLP), is Named Entity Recognition (NER). It is used in many applications and also can be used as an intermediate step for other tasks. We present ANER, a web-based named entity recognizer for the Arabic, and Arabizi languages. The model is built upon BERT, which is a transformer-based encoder. It can recognize 50 different entity classes, covering various fields. We trained our model on the WikiFANE\_Gold dataset which consists of Wikipedia articles. We achieved an F1 score of 88.7\%, which beats CAMeL Tools' F1 score of 83\% on the ANERcorp dataset, which has only 4 classes. We also got an F1 score of 77.7\% on the NewsFANE\_Gold dataset which contains out-of-domain data from News articles. The system is deployed on a user-friendly web interface that accepts users' inputs in Arabic, or Arabizi. It allows users to explore the entities in the text by highlighting them. It can also direct users to get information about entities through Wikipedia directly. We added the ability to do NER using our model, or CAMeL Tools' model through our website. ANER is publicly accessible at \url{http://www.aner.online}. We also deployed our model on HuggingFace at https://huggingface.co/boda/ANER, to allow developers to test and use it.
翻訳日:2023-08-29 13:16:44 公開日:2023-08-28
# 潰瘍性大腸炎におけるニューラルネットワークによる組織学的寛解予測

Neural Network-Based Histologic Remission Prediction In Ulcerative Colitis ( http://arxiv.org/abs/2308.14667v1 )

ライセンス: Link先を確認
Yemin li, Zhongcheng Liu, Xiaoying Lou, Mirigual Kurban, Miao Li, Jie Yang, Kaiwei Che, Jiankun Wang, Max Q.-H Meng, Yan Huang, Qin Guo, Pinjin Hu(参考訳) BACKGROUND & AIMS: 潰瘍性大腸炎(UC)の新しい治療標的として, 組織学的寛解(HR)が提唱されている。 組織学的寛解の診断は現在生検に依存しているが、この過程で患者は出血、感染、生検後の線維化のリスクがある。 また,病理組織学的応答スコアリングは複雑で時間を要するため,病理組織学的に異質性がある。 エンドサイトーシス(英: endocytoscopy、ec)は、腺のin vivo評価に優れた超高倍率内視鏡技術である。 以上の課題に対処するために,心電図を用いてUC内の組織学的疾患活動を評価するニューラルネットワークモデルを提案する。 以上の結果から,本手法は患者の正確な治療と予後評価を支援することができることが示された。 Methods: UC評価のためのニューラルネットワークモデルを構築した。 2022年3月から2023年3月までに中国の中央で心電図治療を受けた87例の腸管154例の計5105枚の画像がGeboesスコアに従って得られた。 その後、トレーニングセットとして103の腸管セグメントを使用し、ニューラルネットワークトレーニングの検証セットとして16の腸管セグメントを使用し、残りの35の腸管セグメントをテストセットとして、検証セットと共にモデルパフォーマンスを測定する。 結果: HRを負のカテゴリとして, 組織活性を正のカテゴリとして扱うことにより, 提案したニューラルネットワークモデルは0.9の精度, 特異度0.95, 感度0.75, 曲線(AUC)0.81の領域を達成できる。 結論: UCの心電図における組織学的寛解/活動を識別できる特定のニューラルネットワークモデルを構築し, 臨床組織学的診断の高速化に有効である。 キーワード:潰瘍性大腸炎、内視鏡、Geboes score、ニューラルネットワーク。

BACKGROUND & AIMS: Histological remission (HR) is advocated and considered as a new therapeutic target in ulcerative colitis (UC). Diagnosis of histologic remission currently relies on biopsy; during this process, patients are at risk for bleeding, infection, and post-biopsy fibrosis. In addition, histologic response scoring is complex and time-consuming, and there is heterogeneity among pathologists. Endocytoscopy (EC) is a novel ultra-high magnification endoscopic technique that can provide excellent in vivo assessment of glands. Based on the EC technique, we propose a neural network model that can assess histological disease activity in UC using EC images to address the above issues. The experiment results demonstrate that the proposed method can assist patients in precise treatment and prognostic assessment. METHODS: We construct a neural network model for UC evaluation. A total of 5105 images of 154 intestinal segments from 87 patients undergoing EC treatment at a center in China between March 2022 and March 2023 are scored according to the Geboes score. Subsequently, 103 intestinal segments are used as the training set, 16 intestinal segments are used as the validation set for neural network training, and the remaining 35 intestinal segments are used as the test set to measure the model performance together with the validation set. RESULTS: By treating HR as a negative category and histologic activity as a positive category, the proposed neural network model can achieve an accuracy of 0.9, a specificity of 0.95, a sensitivity of 0.75, and an area under the curve (AUC) of 0.81. CONCLUSION: We develop a specific neural network model that can distinguish histologic remission/activity in EC images of UC, which helps to accelerate clinical histological diagnosis. keywords: ulcerative colitis; Endocytoscopy; Geboes score; neural network.
翻訳日:2023-08-29 13:16:20 公開日:2023-08-28
# RESTORE: 再構築によるグラフ埋め込みアセスメント

RESTORE: Graph Embedding Assessment Through Reconstruction ( http://arxiv.org/abs/2308.14659v1 )

ライセンス: Link先を確認
Hong Yung Yip, Chidaksh Ravuru, Neelabha Banerjee, Shashwat Jha, Amit Sheth, Aman Chadha, Amitava Das(参考訳) Word2Vecの埋め込みの成功に続いて、グラフ埋め込み(GE)が大きな注目を集めている。 geは下流のアプリケーションで一般的に生成され、評価されるが、トポロジー構造と意味情報の観点からの元のグラフ特性の固有の評価は不足している。 これらの理解は、関連する知識の保存や誤った知識の学習という観点でグラフをベクトル化するときにge法の様々なファミリーの不足を特定するのに役立つ。 これを解決するために,グラフ再構成による固有GE評価フレームワークRESTOREを提案する。 基礎となるgesから元のグラフを再構成すると、与えられたベクトル形式に保存された相対的な情報量についての洞察が得られる。 最初にグラフ再構築タスクを紹介します。 我々は,CommonSense Knowledge Graph (CSKG) を用いて,因子化手法,ランダムウォーク,深層学習(各家族の代表的アルゴリズムを含む)に基づいて,GEを3つのGEファミリーから生成する。 保存における有効性の分析 (a)ホップ数の増加によるノードレベルグラフ再構成の位相構造 b)様々な単語の意味と類似性テストに関する意味情報。 深層学習に基づくgeアルゴリズム(sdne)は全体として保存性が優れていることを示す。 (a)平均平均精度(map)は0.54と0.35で2と3hopで、因子分解に基づくアルゴリズム(hope)はカプセル化が優れている。 (b)平均ユークリッド距離は1, 2, 3ホップのそれぞれ0.14, 0.17, 0.11である。 これらのgesの控えめな性能は、より良いグラフ表現学習に関するさらなる研究の道のりを残している。

Following the success of Word2Vec embeddings, graph embeddings (GEs) have gained substantial traction. GEs are commonly generated and evaluated extrinsically on downstream applications, but intrinsic evaluations of the original graph properties in terms of topological structure and semantic information have been lacking. Understanding these will help identify the deficiency of the various families of GE methods when vectorizing graphs in terms of preserving the relevant knowledge or learning incorrect knowledge. To address this, we propose RESTORE, a framework for intrinsic GEs assessment through graph reconstruction. We show that reconstructing the original graph from the underlying GEs yields insights into the relative amount of information preserved in a given vector form. We first introduce the graph reconstruction task. We generate GEs from three GE families based on factorization methods, random walks, and deep learning (with representative algorithms from each family) on the CommonSense Knowledge Graph (CSKG). We analyze their effectiveness in preserving the (a) topological structure of node-level graph reconstruction with an increasing number of hops and (b) semantic information on various word semantic and analogy tests. Our evaluations show deep learning-based GE algorithm (SDNE) is overall better at preserving (a) with a mean average precision (mAP) of 0.54 and 0.35 for 2 and 3-hop reconstruction respectively, while the factorization-based algorithm (HOPE) is better at encapsulating (b) with an average Euclidean distance of 0.14, 0.17, and 0.11 for 1, 2, and 3-hop reconstruction respectively. The modest performance of these GEs leaves room for further research avenues on better graph representation learning.
翻訳日:2023-08-29 13:15:24 公開日:2023-08-28
# 相互接続型インターネットデバイスにおけるデータ分布の逆予測

Adversarial Predictions of Data Distributions Across Federated Internet-of-Things Devices ( http://arxiv.org/abs/2308.14658v1 )

ライセンス: Link先を確認
Samir Rajani, Dario Dematties, Nathaniel Hudson, Kyle Chard, Nicola Ferrier, Rajesh Sankaran, Peter Beckman(参考訳) フェデレートラーニング(FL)は、分散IoT(Internet-of-Things)デバイス間で機械学習モデルをトレーニングするためのデフォルトのアプローチになりつつある。 FLの主な利点は、生データはネットワーク間で通信されず、直ちにプライバシー層を提供することである。 これにもかかわらず、最近の研究は、ローカルにトレーニングされたモデル更新でデータ再構成が可能であることを実証している。 しかし、これらの作品の多くは、勾配がバックプロパゲーションでどのように計算されるかに関して制限がある。 本研究では, flで共有されるモデル重みが, iotデバイスのローカルデータ分布に関する情報を露呈できることを実証する。 この漏洩は、分散システムの悪意あるアクターに機密情報を暴露する可能性がある。 さらに,モデル重みにノイズを注入することは,グローバルモデルの精度を損なうことなくデータ漏洩を防止するには有効ではないことを示す結果についても考察する。

Federated learning (FL) is increasingly becoming the default approach for training machine learning models across decentralized Internet-of-Things (IoT) devices. A key advantage of FL is that no raw data are communicated across the network, providing an immediate layer of privacy. Despite this, recent works have demonstrated that data reconstruction can be done with the locally trained model updates which are communicated across the network. However, many of these works have limitations with regard to how the gradients are computed in backpropagation. In this work, we demonstrate that the model weights shared in FL can expose revealing information about the local data distributions of IoT devices. This leakage could expose sensitive information to malicious actors in a distributed system. We further discuss results which show that injecting noise into model weights is ineffective at preventing data leakage without seriously harming the global model accuracy.
翻訳日:2023-08-29 13:14:56 公開日:2023-08-28
# DeepHealthNet:ディープラーニングフレームワークに基づく青年期の肥満予測システム

DeepHealthNet: Adolescent Obesity Prediction System Based on a Deep Learning Framework ( http://arxiv.org/abs/2308.14657v1 )

ライセンス: Link先を確認
Ji-Hoon Jeong, In-Gyu Lee, Sung-Kyung Kim, Tae-Eui Kam, Seong-Whan Lee, Euijong Lee(参考訳) 小児および青年の肥満率は、慢性疾患や長期健康リスクに関連するため、世界的に懸念されている。 人工知能技術は、肥満率を正確に予測し、青少年にパーソナライズされたフィードバックを提供する、有望なソリューションとして登場した。 本研究は,肥満関連疾患の早期発見と予防の重要性を強調する。 肥満率の予測とパーソナライズされたフィードバックを提供するためのロバストなアルゴリズムを開発するには,身長,体重,腰回り,カロリー摂取量,身体活動レベル,その他の関連する健康情報などの要因を考慮する必要がある。 そこで, 青少年321人の健康データセットを収集し, 個人別予測と情報的健康判断支援を行う青年期の肥満予測システムを提案した。 提案するディープラーニングフレームワークであるDeepHealthNetは,日々の健康データが制限されている場合でも,データ拡張技術を用いてモデルを効果的に訓練し,予測精度を向上する(acc: 0.8842)。 さらに,男児の肥満率 (acc: 0.9320) と女児の肥満率 (acc: 0.9163) の予測に違いがあることが判明した。 提案するシステムは,小児および青年の肥満に効果的に対処できる可能性が示唆されている。

Childhood and adolescent obesity rates are a global concern because obesity is associated with chronic diseases and long-term health risks. Artificial intelligence technology has emerged as a promising solution to accurately predict obesity rates and provide personalized feedback to adolescents. This study emphasizes the importance of early identification and prevention of obesity-related health issues. Factors such as height, weight, waist circumference, calorie intake, physical activity levels, and other relevant health information need to be considered for developing robust algorithms for obesity rate prediction and delivering personalized feedback. Hence, by collecting health datasets from 321 adolescents, we proposed an adolescent obesity prediction system that provides personalized predictions and assists individuals in making informed health decisions. Our proposed deep learning framework, DeepHealthNet, effectively trains the model using data augmentation techniques, even when daily health data are limited, resulting in improved prediction accuracy (acc: 0.8842). Additionally, the study revealed variations in the prediction of the obesity rate between boys (acc: 0.9320) and girls (acc: 0.9163), allowing the identification of disparities and the determination of the optimal time to provide feedback. The proposed system shows significant potential in effectively addressing childhood and adolescent obesity.
翻訳日:2023-08-29 13:14:41 公開日:2023-08-28
# 教師付きコントラスト学習と自己蒸留による統合的複数意図検出とスロット充填

Joint Multiple Intent Detection and Slot Filling with Supervised Contrastive Learning and Self-Distillation ( http://arxiv.org/abs/2308.14654v1 )

ライセンス: Link先を確認
Nguyen Anh Tu, Hoang Thi Thu Uyen, Tu Minh Phuong, Ngo Xuan Bach(参考訳) マルチインテント検出とスロット充填は、音声言語理解における2つの基本的かつ重要なタスクである。 2つのタスクが密接に関連しているという事実から、各タスクを独立して実行する個々のモデルに対して、意図を検知し、同時にスロットを抽出できるジョイントモデルが好ましい。 ジョイントモデルの精度は、2つのタスク間で情報を転送するモデルの能力に大きく依存し、1つのタスクの結果がもう1つのタスクの結果を補正できる。 さらに、関節モデルには複数の出力があるため、モデルを効果的に訓練する方法も困難である。 本稿では,これらの課題に対処して複数の意図の検出とスロットフィリングを行う手法を提案する。 まず,インテント情報を用いてスロットやスロットの特徴を認識し,インテントを検出する双方向ジョイントモデルを提案する。 第2に,教師付きコントラスト学習と自己蒸留を用いた共同モデルの学習方法を提案する。 MixATISとMixSNIPSの2つのベンチマークデータセットの実験結果から,本手法が両タスクの最先端モデルより優れていることが示された。 また, 双方向設計とトレーニング手法の双方が精度向上に寄与していることも示す。 ソースコードはhttps://github.com/anhtunguyen98/bisluで入手できます。

Multiple intent detection and slot filling are two fundamental and crucial tasks in spoken language understanding. Motivated by the fact that the two tasks are closely related, joint models that can detect intents and extract slots simultaneously are preferred to individual models that perform each task independently. The accuracy of a joint model depends heavily on the ability of the model to transfer information between the two tasks so that the result of one task can correct the result of the other. In addition, since a joint model has multiple outputs, how to train the model effectively is also challenging. In this paper, we present a method for multiple intent detection and slot filling by addressing these challenges. First, we propose a bidirectional joint model that explicitly employs intent information to recognize slots and slot features to detect intents. Second, we introduce a novel method for training the proposed joint model using supervised contrastive learning and self-distillation. Experimental results on two benchmark datasets MixATIS and MixSNIPS show that our method outperforms state-of-the-art models in both tasks. The results also demonstrate the contributions of both bidirectional design and the training method to the accuracy improvement. Our source code is available at https://github.com/anhtunguyen98/BiSLU
翻訳日:2023-08-29 13:14:17 公開日:2023-08-28
# ur10eロボットアームによる視覚追跡学習と深部強化学習による到達

Learning Visual Tracking and Reaching with Deep Reinforcement Learning on a UR10e Robotic Arm ( http://arxiv.org/abs/2308.14652v1 )

ライセンス: Link先を確認
Colin Bellinger, Laurence Lamarche-Cliche(参考訳) 技術が進歩するにつれて、産業用や科学用ロボットは様々な場面でますます使われている。 しかし多くの場合、そのようなタスクを実行するためにロボットをプログラミングするのは技術的に複雑でコストがかかる。 産業や科学におけるロボットの有用性を最大化するためには、あるタスクから別のタスクへ素早く移行する能力が必要である。 強化学習アルゴリズムは、ロボットが直接プログラミングすることなく、最適な解を学習し、新しいタスクを完了させることができる。 しかし、強化学習における現在の最先端は、最適性能を達成するために、一般的に高速なシミュレーションと並列化に依存している。 これらはしばしばロボット工学の応用では不可能である。 したがって、産業用および科学用強化学習ロボットの効率的かつ安全な訓練と展開を促進するために、かなりの量の研究が必要となる。 本技術報告では,産業用UR10eロボットへの深部強化学習の適用について概説する。 本報告では,ユニバーサルロボットのロボットアームであるur10eを用いて,ポリシー学習を容易にするために開発された強化学習環境について述べる。 以上の結果から,近位政策最適化はQ-Learningよりも少ないデータで,より良く,より安定した政策を学習することが示された。 対応するコードは \url{https://github.com/cbellinger27/bendrl_reacher_tracker} で入手できる。

As technology progresses, industrial and scientific robots are increasingly being used in diverse settings. In many cases, however, programming the robot to perform such tasks is technically complex and costly. To maximize the utility of robots in industrial and scientific settings, they require the ability to quickly shift from one task to another. Reinforcement learning algorithms provide the potential to enable robots to learn optimal solutions to complete new tasks without directly reprogramming them. The current state-of-the-art in reinforcement learning, however, generally relies on fast simulations and parallelization to achieve optimal performance. These are often not possible in robotics applications. Thus, a significant amount of research is required to facilitate the efficient and safe, training and deployment of industrial and scientific reinforcement learning robots. This technical report outlines our initial research into the application of deep reinforcement learning on an industrial UR10e robot. The report describes the reinforcement learning environments created to facilitate policy learning with the UR10e, a robotic arm from Universal Robots, and presents our initial results in training deep Q-learning and proximal policy optimization agents on the developed reinforcement learning environments. Our results show that proximal policy optimization learns a better, more stable policy with less data than deep Q-learning. The corresponding code for this work is available at \url{https://github.com/cbellinger27/bendRL_reacher_tracker}
翻訳日:2023-08-29 13:13:44 公開日:2023-08-28
# ベネディクスらによる火星の自動クレーターカタログの比較 (2020年)とリーとホーガン(2021年)

Comparison of automated crater catalogs for Mars from Benedix et al. (2020) and Lee and Hogan (2021) ( http://arxiv.org/abs/2308.14650v1 )

ライセンス: Link先を確認
Christopher Lee(参考訳) ニューラルネットワークやその他の自動化手法を用いたクレーターマッピングは、太陽系の惑星体に適用された自動クレーター検出アルゴリズム(CDA)によって最近増加している。 Benedix et al. (2020) による最近の論文は、類似の自動化CDAと比較して小規模で高い性能を示したが、多くのクレーター候補では正の直径バイアスを示した。 Benedix et al. (2020) と Lee & Hogan (2021) の公開カタログを比較し、報告されたパフォーマンスがカタログをテストするために使用されるメトリクスに敏感であることを示す。 より寛容な比較手法は、より悪い候補クレーターを地中クレーターと一致させることで、高いcda性能を示すことを示す。 私は、benedix et al. (2020)カタログは、緯度の増加によって実質的なパフォーマンス損失を示し、この損失を引き起こす可能性のある画像投影の問題を特定していることを示している。 最後に,大規模な科学データセットを生成するニューラルネットワークの今後の応用について,独立したデータソースやトレーニング方法を備えた二次ネットワークを用いて検証することを提案する。

Crater mapping using neural networks and other automated methods has increased recently with automated Crater Detection Algorithms (CDAs) applied to planetary bodies throughout the solar system. A recent publication by Benedix et al. (2020) showed high performance at small scales compared to similar automated CDAs but with a net positive diameter bias in many crater candidates. I compare the publicly available catalogs from Benedix et al. (2020) and Lee & Hogan (2021) and show that the reported performance is sensitive to the metrics used to test the catalogs. I show how the more permissive comparison methods indicate a higher CDA performance by allowing worse candidate craters to match ground-truth craters. I show that the Benedix et al. (2020) catalog has a substantial performance loss with increasing latitude and identify an image projection issue that might cause this loss. Finally, I suggest future applications of neural networks in generating large scientific datasets be validated using secondary networks with independent data sources or training methods.
翻訳日:2023-08-29 13:13:05 公開日:2023-08-28
# 高速フィードフォワードネットワーク

Fast Feedforward Networks ( http://arxiv.org/abs/2308.14711v1 )

ライセンス: Link先を確認
Peter Belcak and Roger Wattenhofer(参考訳) 我々は、フィードフォワードネットワークに代わる対数時間である高速フィードフォワード(FFF)アーキテクチャを導入することにより、レイヤーサイズと推論コストの線形リンクを断ち切る。 提案手法では,FFFはフィードフォワードネットワークに比例する性能を推論コストの指数的に向上し,熟練ネットワークよりも高速に性能を発揮でき,トランスフォーマーのどちらにでも容易に取って代わることができることを示す。 FFFを絶対限まで押し上げ、フル幅の変種に対してわずか5.8%の性能低下のコストで単一ニューロン推論を行うように、視覚変換器を訓練する。 実装はPythonパッケージとして利用可能で、"pip install fastfeedforward"を使用するだけです。

We break the linear link between the layer size and its inference cost by introducing the fast feedforward (FFF) architecture, a logarithmic-time alternative to feedforward networks. We show that FFFs give comparable performance to feedforward networks at an exponential fraction of their inference cost, are quicker to deliver performance compared to mixture-of-expert networks, and can readily take the place of either in transformers. Pushing FFFs to the absolute limit, we train a vision transformer to perform single-neuron inferences at the cost of only 5.8% performance decrease against the full-width variant. Our implementation is available as a Python package; just use "pip install fastfeedforward".
翻訳日:2023-08-29 13:07:40 公開日:2023-08-28
# VideoCutLER:驚くほどシンプルで教師なしのビデオインスタンスセグメンテーション

VideoCutLER: Surprisingly Simple Unsupervised Video Instance Segmentation ( http://arxiv.org/abs/2308.14710v1 )

ライセンス: Link先を確認
Xudong Wang and Ishan Misra and Ziyun Zeng and Rohit Girdhar and Trevor Darrell(参考訳) 教師なしビデオインスタンスのセグメンテーションに対する既存のアプローチは、通常、動きの推定と、小さい、あるいは異なる動きを追跡する困難さに依存している。 本研究では,光流や自然映像の学習といった動きに基づく学習信号を使わずに,教師なしマルチインスタンス動画セグメンテーションの簡易手法であるvideocutlerを提案する。 我々の重要な洞察は、高品質な擬似マスクとモデルトレーニングのための単純なビデオ合成手法を使用することで、ビデオモデルがビデオフレーム間で複数のインスタンスを効果的にセグメンテーションし追跡できるようにするのに、驚くほど十分であるということです。 我々は、挑戦的なYouTubeVIS-2019ベンチマークで最初の競争力のない学習結果を示し、50.7%のAPvideo^50を達成し、前回の最先端をはるかに上回った。 videocutlerは、youtubevis-2019でdinoを15.9%上回る、教師付きビデオインスタンスセグメンテーションタスクの強力な事前トレーニングモデルとしても機能する。

Existing approaches to unsupervised video instance segmentation typically rely on motion estimates and experience difficulties tracking small or divergent motions. We present VideoCutLER, a simple method for unsupervised multi-instance video segmentation without using motion-based learning signals like optical flow or training on natural videos. Our key insight is that using high-quality pseudo masks and a simple video synthesis method for model training is surprisingly sufficient to enable the resulting video model to effectively segment and track multiple instances across video frames. We show the first competitive unsupervised learning results on the challenging YouTubeVIS-2019 benchmark, achieving 50.7% APvideo^50 , surpassing the previous state-of-the-art by a large margin. VideoCutLER can also serve as a strong pretrained model for supervised video instance segmentation tasks, exceeding DINO by 15.9% on YouTubeVIS-2019 in terms of APvideo.
翻訳日:2023-08-29 13:07:28 公開日:2023-08-28
# ロバスト自己教師付き表現学習のための独立サブネットワークの多様化

Diversified Ensemble of Independent Sub-Networks for Robust Self-Supervised Representation Learning ( http://arxiv.org/abs/2308.14705v1 )

ライセンス: Link先を確認
Amirhossein Vahidi, Lisa Wimmer, H\"useyin Anil G\"und\"uz, Bernd Bischl, Eyke H\"ullermeier, Mina Rezaei(参考訳) ニューラルネットワークの組み立ては、モデルの性能を高め、不確実性を推定し、深い教師付き学習における堅牢性を改善するために広く認識されているアプローチである。 しかし、深いアンサンブルは高い計算コストとメモリ要求を伴うことが多い。 さらに、深層アンサンブルの効率は、大規模で過パラメータの深層ニューラルネットワークに挑戦するアンサンブルメンバー間の多様性に関係している。 さらに、アンサンブル学習は、まだそれほど広く普及していないが、自己監督や教師なし表現学習への挑戦的な取り組みである。 本稿では,これらの課題に動機づけられた,独立したサブネットワークのアンサンブルを活用した,新たな自己教師付き学習レジームを提案する。 提案手法は,高多様性のサブモデルアンサンブルを効率的に構築し,モデル不確かさを適切に評価し,計算オーバーヘッドを最小限に抑え,従来の自己教師型アンサンブルと比較した。 提案手法の有効性を評価するために, 分布の一般化, 分布外検出, データセットの破損, 半教師付き設定など, 様々なタスクにわたる広範囲な実験を行った。 その結果,提案手法は予測信頼性を著しく向上することが示された。 コンピュータビジョン,自然言語処理,ゲノミクスデータなど,多種多様な自己教師型アーキテクチャを網羅し,キャリブレーションを向上する手法を提案する。

Ensembling a neural network is a widely recognized approach to enhance model performance, estimate uncertainty, and improve robustness in deep supervised learning. However, deep ensembles often come with high computational costs and memory demands. In addition, the efficiency of a deep ensemble is related to diversity among the ensemble members which is challenging for large, over-parameterized deep neural networks. Moreover, ensemble learning has not yet seen such widespread adoption, and it remains a challenging endeavor for self-supervised or unsupervised representation learning. Motivated by these challenges, we present a novel self-supervised training regime that leverages an ensemble of independent sub-networks, complemented by a new loss function designed to encourage diversity. Our method efficiently builds a sub-model ensemble with high diversity, leading to well-calibrated estimates of model uncertainty, all achieved with minimal computational overhead compared to traditional deep self-supervised ensembles. To evaluate the effectiveness of our approach, we conducted extensive experiments across various tasks, including in-distribution generalization, out-of-distribution detection, dataset corruption, and semi-supervised settings. The results demonstrate that our method significantly improves prediction reliability. Our approach not only achieves excellent accuracy but also enhances calibration, surpassing baseline performance across a wide range of self-supervised architectures in computer vision, natural language processing, and genomics data.
翻訳日:2023-08-29 13:07:09 公開日:2023-08-28
# 構造方程式モデリングを用いたAI駆動協調ロボットの信頼度評価

Assessing Trust in Construction AI-Powered Collaborative Robots using Structural Equation Modeling ( http://arxiv.org/abs/2308.14697v1 )

ライセンス: Link先を確認
Newsha Emaminejad, Lisa Kath, and Reza Akhavian(参考訳) 本研究では,人工知能(ai)を活用したコラボレーティブロボット(cobots)に対するaec(architecture, engineering, and construction)専門家の信頼感に影響を与える重要な技術的・心理的要因を検討することを目的とした。 この研究は、600人のAEC業界の実践者を対象に全国調査を行い、この技術を効果的に活用するための熟練労働者の採用、育成、訓練を促進する将来の機会について、詳細な回答と貴重な洞察を得た。 構造方程式モデリング (Structure Equation Modeling, SEM) 解析により, 安全と信頼性が, 建設におけるAI駆動コボットの採用の重要な要因であることが判明した。 コボットの使用による置き換えの恐れは、影響を受けた労働者のメンタルヘルスに重大な影響を及ぼす可能性がある。 コボットが収集したデータの安全性測定やセキュリティに関わるジョブのエラー率の低下は、信頼性に大きな影響を及ぼす一方、コボットの内部作業の透明性は、正確性、堅牢性、セキュリティ、プライバシ、通信の恩恵を受け、結果として自動化のレベルが高くなり、これらすべてが信頼への貢献者として実証される。 調査の結果は、建設におけるコボットの採用に対するAEC専門家の認識と経験に対する批判的な洞察を与え、プロジェクトのチームが会社の目標である労働者の福祉に合わせて採用アプローチを決定するのを助ける。

This study aimed to investigate the key technical and psychological factors that impact the architecture, engineering, and construction (AEC) professionals' trust in collaborative robots (cobots) powered by artificial intelligence (AI). The study employed a nationwide survey of 600 AEC industry practitioners to gather in-depth responses and valuable insights into the future opportunities for promoting the adoption, cultivation, and training of a skilled workforce to leverage this technology effectively. A Structural Equation Modeling (SEM) analysis revealed that safety and reliability are significant factors for the adoption of AI-powered cobots in construction. Fear of being replaced resulting from the use of cobots can have a substantial effect on the mental health of the affected workers. A lower error rate in jobs involving cobots, safety measurements, and security of data collected by cobots from jobsites significantly impact reliability, while the transparency of cobots' inner workings can benefit accuracy, robustness, security, privacy, and communication, and results in higher levels of automation, all of which demonstrated as contributors to trust. The study's findings provide critical insights into the perceptions and experiences of AEC professionals towards adoption of cobots in construction and help project teams determine the adoption approach that aligns with the company's goals workers' welfare.
翻訳日:2023-08-29 13:06:44 公開日:2023-08-28
# V2I通信ネットワークのためのハイブリッドPLS-ML認証方式

Hybrid PLS-ML Authentication Scheme for V2I Communication Networks ( http://arxiv.org/abs/2308.14693v1 )

ライセンス: Link先を確認
Hala Amin, Jawaher Kaldari, Nora Mohamed, Waqas Aman, Saif Al-Kuwari(参考訳) 車両のスマート化に伴い、車両通信ネットワークは急速に普及している。 しかし、これらのネットワークは様々な攻撃を受けやすくなっている。 この状況は、安全で効果的な交通管理を確保するためのセキュリティと認証対策の必要性を強調した自動車両の台頭によって悪化する。 本稿では,送信機の位置をデバイス指紋として利用し,PLS(Hybrid physical Layer Security)-machine Learning (ML)認証方式を提案する。 我々は、ToAを道路側ユニット(RSU)で推定し、基地局(BS)で送信機の座標を抽出する、ToA(Time-of-arrival)ベースのローカライゼーション機構を用いる。 さらに,移動自在車両の移動性を追跡するために,複数のシステムパラメータを訓練したmlモデルを用いる。 この目的のために、ベクトル回帰と決定木をサポートする2つのMLモデルを試す。 提案手法を評価するため,提案手法は,送信ノードを正当あるいは悪質と分類するMLモデルによって提供される真理の助けを借りて,推定位置の2値仮説テストを行う。 さらに,二元仮説テストの結果,誤報の確率と誤検出の確率,平均絶対誤差(mae),平均二乗誤差(mse),決定係数($\text{r}^2$)を指標としてmlモデルの評価を行った。 また,認証のためにRSUの到着角度を利用するベースラインスキームとの比較を行った。 提案する位置ベース機構は,検出に失敗する点において,ベースラインのスキームを著しく上回っている。

Vehicular communication networks are rapidly emerging as vehicles become smarter. However, these networks are increasingly susceptible to various attacks. The situation is exacerbated by the rise in automated vehicles complicates, emphasizing the need for security and authentication measures to ensure safe and effective traffic management. In this paper, we propose a novel hybrid physical layer security (PLS)-machine learning (ML) authentication scheme by exploiting the position of the transmitter vehicle as a device fingerprint. We use a time-of-arrival (ToA) based localization mechanism where the ToA is estimated at roadside units (RSUs), and the coordinates of the transmitter vehicle are extracted at the base station (BS).Furthermore, to track the mobility of the moving legitimate vehicle, we use ML model trained on several system parameters. We try two ML models for this purpose, i.e., support vector regression and decision tree. To evaluate our scheme, we conduct binary hypothesis testing on the estimated positions with the help of the ground truths provided by the ML model, which classifies the transmitter node as legitimate or malicious. Moreover, we consider the probability of false alarm and the probability of missed detection as performance metrics resulting from the binary hypothesis testing, and mean absolute error (MAE), mean square error (MSE), and coefficient of determination $\text{R}^2$ to further evaluate the ML models. We also compare our scheme with a baseline scheme that exploits the angle of arrival at RSUs for authentication. We observe that our proposed position-based mechanism outperforms the baseline scheme significantly in terms of missed detections.
翻訳日:2023-08-29 13:06:23 公開日:2023-08-28
# MELT:プルリクエストからの効果的な軽量トランスフォーメーションのマイニング

MELT: Mining Effective Lightweight Transformations from Pull Requests ( http://arxiv.org/abs/2308.14687v1 )

ライセンス: Link先を確認
Daniel Ramos, Hailie Mitchell, In\^es Lynce, Vasco Manquinho, Ruben Martins, Claire Le Goues(参考訳) ソフトウェア開発者はしばしばAPIの更新に苦労し、手動、時間がかかり、エラーを起こします。 人気ライブラリリポジトリのプルリクエストから直接,軽量なapi移行ルールを生成する新たなアプローチであるmeltを紹介します。 私たちの重要な洞察は、プルリクエストをオープンソースライブラリにマージすることは、api移行ルールをマイニングするのに十分な豊富な情報ソースであるということです。 ライブラリソースから抽出したコード例とプルリクエストに基づいて自動生成されたコード例を活用することで、構造的なコード検索と置換のための言語である \comby の変換ルールを推論する。 単一コードの例から推測されるルールは具体的すぎるため,クライアントプロジェクトに適用可能なルールを一般化する手法を提案する。 MELTルールは構文駆動で、解釈可能で、容易に適応できる。 さらに、以前の作業とは異なり、このアプローチでは、ルール推論をライブラリワークフローにシームレスに統合することができ、クライアントコードのマイグレーションを待つ必要がなくなる。 MELTを4つの人気のあるライブラリからのプルリクエストで評価し、プルリクエストのコード例から461のマイグレーションルール、自動生成されたコード例から114のルールをマイニングしました。 我々の一般化手順は、マイニングされたルールのマッチ数を9倍に増やす。 これらのルールをクライアントプロジェクトに適用してテストを実施し、その結果、警告の数を全体的に減少させ、実際のシナリオでmeltの有効性を示すテストケースを修正しました。

Software developers often struggle to update APIs, leading to manual, time-consuming, and error-prone processes. We introduce MELT, a new approach that generates lightweight API migration rules directly from pull requests in popular library repositories. Our key insight is that pull requests merged into open-source libraries are a rich source of information sufficient to mine API migration rules. By leveraging code examples mined from the library source and automatically generated code examples based on the pull requests, we infer transformation rules in \comby, a language for structural code search and replace. Since inferred rules from single code examples may be too specific, we propose a generalization procedure to make the rules more applicable to client projects. MELT rules are syntax-driven, interpretable, and easily adaptable. Moreover, unlike previous work, our approach enables rule inference to seamlessly integrate into the library workflow, removing the need to wait for client code migrations. We evaluated MELT on pull requests from four popular libraries, successfully mining 461 migration rules from code examples in pull requests and 114 rules from auto-generated code examples. Our generalization procedure increases the number of matches for mined rules by 9x. We applied these rules to client projects and ran their tests, which led to an overall decrease in the number of warnings and fixing some test cases demonstrating MELT's effectiveness in real-world scenarios.
翻訳日:2023-08-29 13:05:55 公開日:2023-08-28
# 未登録NFoV画像からの360度パノラマ生成

360-Degree Panorama Generation from Few Unregistered NFoV Images ( http://arxiv.org/abs/2308.14686v1 )

ライセンス: Link先を確認
Jionghao Wang, Ziyu Chen, Jun Ling, Rong Xie and Li Song(参考訳) 360$^\circ$ Panoramasはコンピュータグラフィックスの環境光源として広く利用されている。 しかし、360$^\circ$\times$ 180$^\circ$ Panoramaを捕獲することは、特殊で費用のかかる機器と追加の人的資源を必要とするため、課題を引き起こす。 先行研究では、単一の狭視野画像(nfov)からパノラマを合成する様々な学習に基づく生成法を開発したが、それらは変化可能な入力パターン、生成品質、制御性に制限されている。 そこで我々は,任意の角度から撮影した1つ以上の未登録のnfov画像を用いて,360$^\circ$パノラマを効率的に生成する新しいパイプラインpanodiffを提案する。 このアプローチには、制限を克服する2つの主要なコンポーネントがあります。 まず、様々なNFoV入力を処理する2段階の角度予測モジュール。 第2に,不完全パノラマとテキストプロンプトを制御信号として用い,生成パノラマの幾何学的特性を確保するために幾何的拡張スキームを使用している。 パノディフは最新のパノラマ生成品質と高い制御性を実現し、コンテンツ編集などのアプリケーションに適していることを示す実験である。

360$^\circ$ panoramas are extensively utilized as environmental light sources in computer graphics. However, capturing a 360$^\circ$ $\times$ 180$^\circ$ panorama poses challenges due to the necessity of specialized and costly equipment, and additional human resources. Prior studies develop various learning-based generative methods to synthesize panoramas from a single Narrow Field-of-View (NFoV) image, but they are limited in alterable input patterns, generation quality, and controllability. To address these issues, we propose a novel pipeline called PanoDiff, which efficiently generates complete 360$^\circ$ panoramas using one or more unregistered NFoV images captured from arbitrary angles. Our approach has two primary components to overcome the limitations. Firstly, a two-stage angle prediction module to handle various numbers of NFoV inputs. Secondly, a novel latent diffusion-based panorama generation model uses incomplete panorama and text prompts as control signals and utilizes several geometric augmentation schemes to ensure geometric properties in generated panoramas. Experiments show that PanoDiff achieves state-of-the-art panoramic generation quality and high controllability, making it suitable for applications such as content editing.
翻訳日:2023-08-29 13:05:32 公開日:2023-08-28
# 微調整ラマ 2 オンライン性的捕食行動と虐待テキストの検出のための大言語モデル

Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual Predatory Chats and Abusive Texts ( http://arxiv.org/abs/2308.14683v1 )

ライセンス: Link先を確認
Thanh Thi Nguyen, Campbell Wilson, Janis Dalins(参考訳) オンラインの性的捕食行動や虐待的な言語をソーシャルメディア上で検出することは、オンラインの安全性に対する懸念が高まり、特に子供や青年のような脆弱な人々にとって重要な研究分野となっている。 研究者は、これらのリスクを識別し緩和できる効果的な検出システムを開発するための様々な技術やアプローチを模索している。 近年の大規模言語モデル(LLM)の発展により,この問題をより効果的に解決する新たな機会が開かれた。 本稿では,Meta GenAIが最近リリースしたオープンソースの事前学習型Llama 2 7Bパラメータモデルを用いて,オンラインの性的捕食チャットと虐待言語を検出するアプローチを提案する。 異なるサイズ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いて、LSMを微調整します。 LLMのパワーに基づいて,本手法は従来の手法のように,特徴抽出と分類器設計の相乗関係を手作業で検索することなく,汎用的かつ自動化されている。 実験結果から,提案手法は3つの異なるデータセットにまたがって,5つの実験セットで熟達かつ一貫した性能を示す。 本研究の結果は, 性的捕食者, 攻撃的あるいは有害なコンテンツ, ヘイトスピーチ, 差別的言語をオンラインディスカッションやコメントでフラグ付けし, 尊敬すべきインターネットやデジタルコミュニティを維持するために, 現実の応用(英語以外の言語も)に実装できることを示唆している。 さらに、感情分析、スパムおよびフィッシング検出、法的文書のソート、偽ニュース検出、言語識別、ユーザの意図認識、テキストベースの製品分類、医療記録分析、履歴書スクリーニングといった他の潜在的な応用でテキスト分類問題を解決するためにも利用できる。

Detecting online sexual predatory behaviours and abusive language on social media platforms has become a critical area of research due to the growing concerns about online safety, especially for vulnerable populations such as children and adolescents. Researchers have been exploring various techniques and approaches to develop effective detection systems that can identify and mitigate these risks. Recent development of large language models (LLMs) has opened a new opportunity to address this problem more effectively. This paper proposes an approach to detection of online sexual predatory chats and abusive language using the open-source pretrained Llama 2 7B-parameter model, recently released by Meta GenAI. We fine-tune the LLM using datasets with different sizes, imbalance degrees, and languages (i.e., English, Roman Urdu and Urdu). Based on the power of LLMs, our approach is generic and automated without a manual search for a synergy between feature extraction and classifier design steps like conventional methods in this domain. Experimental results show a strong performance of the proposed approach, which performs proficiently and consistently across three distinct datasets with five sets of experiments. This study's outcomes indicate that the proposed method can be implemented in real-world applications (even with non-English languages) for flagging sexual predators, offensive or toxic content, hate speech, and discriminatory language in online discussions and comments to maintain respectful internet or digital communities. Furthermore, it can be employed for solving text classification problems with other potential applications such as sentiment analysis, spam and phishing detection, sorting legal documents, fake news detection, language identification, user intent recognition, text-based product categorization, medical record analysis, and resume screening.
翻訳日:2023-08-29 13:05:08 公開日:2023-08-28
# パーキンソン病におけるブラジキネジアの遠隔評価のためのビデオベースハンドポーズ推定

Video-Based Hand Pose Estimation for Remote Assessment of Bradykinesia in Parkinson's Disease ( http://arxiv.org/abs/2308.14679v1 )

ライセンス: Link先を確認
Gabriela T. Acevedo Trebbau, Andrea Bandini, Diego L. Guarin(参考訳) パーキンソン病(PD)におけるBradykinesiaの映像による評価にポーズ推定アルゴリズムを用いることにより、遠隔疾患の評価とモニタリングを容易にすることへの関心が高まっている。 しかし,遠隔医療アポイントメント時の映像配信におけるポーズ推定アルゴリズムの精度は研究されていない。 そこで本研究では,Healthy Controls (HC) とPDの参加者によるビデオと,ストリーミング(ライブZoomミーティング中に録画されたビデオ)とオンデバイス(高品質カメラでローカルに録画されたビデオ)の2つの異なる条件下で,親指と人差し指の動きを推定するために,市販の手ポーズ推定モデル7つを使用した。 モデルの出力と手動の結果を比較し,モデルの精度と信頼性を推定した。 7つのモデルのうち3つは、オンデバイス記録の精度が良好であり、ストリーミング記録の精度は著しく低下した。 ストリーミング記録における移動速度とモデルの精度との間に負の相関がみられた。 さらに, FT検査を施行したPD患者のビデオ記録から抽出したブラジキネジアに関連する10の運動特性の信頼性について検討した。 ほとんどの機能はオンデバイス録音に優れた信頼性を示したが、ほとんどの機能はストリーミング録音の信頼性が低かった。 本研究は,遠隔医療訪問時の映像記録に適用した場合のポーズ推定アルゴリズムの限界に注目し,pdにおけるブラジキネジアの自動映像評価にオンデバイス記録が有効であることを示す。

There is a growing interest in using pose estimation algorithms for video-based assessment of Bradykinesia in Parkinson's Disease (PD) to facilitate remote disease assessment and monitoring. However, the accuracy of pose estimation algorithms in videos from video streaming services during Telehealth appointments has not been studied. In this study, we used seven off-the-shelf hand pose estimation models to estimate the movement of the thumb and index fingers in videos of the finger-tapping (FT) test recorded from Healthy Controls (HC) and participants with PD and under two different conditions: streaming (videos recorded during a live Zoom meeting) and on-device (videos recorded locally with high-quality cameras). The accuracy and reliability of the models were estimated by comparing the models' output with manual results. Three of the seven models demonstrated good accuracy for on-device recordings, and the accuracy decreased significantly for streaming recordings. We observed a negative correlation between movement speed and the model's accuracy for the streaming recordings. Additionally, we evaluated the reliability of ten movement features related to bradykinesia extracted from video recordings of PD patients performing the FT test. While most of the features demonstrated excellent reliability for on-device recordings, most of the features demonstrated poor to moderate reliability for streaming recordings. Our findings highlight the limitations of pose estimation algorithms when applied to video recordings obtained during Telehealth visits, and demonstrate that on-device recordings can be used for automatic video-assessment of bradykinesia in PD.
翻訳日:2023-08-29 13:04:37 公開日:2023-08-28
# Kerr可変超伝導共振器におけるSchr\"odinger cat状態の高速発生

Fast generation of Schr\"odinger cat states in a Kerr-tunable superconducting resonator ( http://arxiv.org/abs/2308.14676v1 )

ライセンス: Link先を確認
X.L. He, Yong Lu, D.Q. Bao, Hang Xue, W.B. Jiang, Zhen Wang, A.F. Roudsari, Per Delsing, J.S. Tsai, Z.R. Lin(参考訳) schr\"odinger cat state, the quantum superpositions of macroscopically distinct classical states, are be important resource for quantum communication, quantum metrology and quantum computation (英語) 特に位相フレップエラーから保護された位相空間におけるcat状態は論理量子ビットとして使うことができる。 しかし、キャット状態は通常3次元のキャビティで生成され、スケーラビリティと制御可能性の課題に直面している。 ここでは,Kerr非線形性の高速変調によるコプラナー超伝導回路における猫の状態の生成と保存を行う新しい手法を提案する。 カーフリーワークポイントでは、猫の状態はカー効果の消失により受動的に保存される。 96 nsのゲート時間で、忠実度89.1%に達するチップベースのデバイスで2成分の猫状態を作成することができる。 本手法は,チップベースのボソニック量子プロセッサを構築するための優れた経路を示す。

Schr\"odinger cat states, quantum superpositions of macroscopically distinct classical states, are an important resource for quantum communication, quantum metrology and quantum computation. Especially, cat states in a phase space protected against phase-flip errors can be used as a logical qubit. However, cat states, normally generated in three-dimensional cavities, are facing the challenges of scalability and controllability. Here, we present a novel strategy to generate and store cat states in a coplanar superconducting circuit by the fast modulation of Kerr nonlinearity. At the Kerr-free work point, our cat states are passively preserved due to the vanishing Kerr effect. We are able to prepare a 2-component cat state in our chip-based device with a fidelity reaching 89.1% under a 96 ns gate time. Our scheme shows an excellent route to constructing a chip-based bosonic quantum processor.
翻訳日:2023-08-29 13:04:09 公開日:2023-08-28
# ChatGPTを用いたベイズ人工脳

Bayesian artificial brain with ChatGPT ( http://arxiv.org/abs/2308.14732v1 )

ライセンス: Link先を確認
Renato A. Krohling(参考訳) 本稿では,Chat生成前訓練変圧器(ChatGPT)のベイズ解析における数学的問題解決能力について検討する。 この研究は2006年に Zhu & Gigerenzer が行った研究からインスピレーションを得ており、その疑問が浮かび上がっている。 この問いに答えるべく、10のベイズ的推論問題(英語版)が提示された。 研究の結果,ベイズ原理を効果的に活用する子どもの能力は,構造化された情報表現に基づくことが明らかとなった。 本稿では,ChatGPT に 10 個のベイズ的推論問題の集合を示す。 注目すべきは、ChatGPTがすべての問題に対して適切なソリューションを提供することを示すことである。

This paper aims to investigate the mathematical problem-solving capabilities of Chat Generative Pre-Trained Transformer (ChatGPT) in case of Bayesian reasoning. The study draws inspiration from Zhu & Gigerenzer's research in 2006, which posed the question: Can children reason the Bayesian way? In the pursuit of answering this question, a set of 10 Bayesian reasoning problems were presented. The results of their work revealed that children's ability to reason effectively using Bayesian principles is contingent upon a well-structured information representation. In this paper, we present the same set of 10 Bayesian reasoning problems to ChatGPT. Remarkably, the results demonstrate that ChatGPT provides the right solutions to all problems.
翻訳日:2023-08-29 12:55:30 公開日:2023-08-28
# ソースコード要約のための蒸留GPT

Distilled GPT for Source Code Summarization ( http://arxiv.org/abs/2308.14731v1 )

ライセンス: Link先を確認
Chia-Yi Su and Collin McMillan(参考訳) コード概要は、ソースコードの簡単な自然言語記述である。 要約は通常は1文だけであり、開発者ドキュメントのバックボーンを形成している。 のような短い記述は、プログラマにコード自体を読み込むことなく、コードが何を行うかという高レベルなアイデアを与えることができる。 近年、ChatGPTのような大規模言語モデルに基づく製品は、これらの記述を自動的に記述する強力な能力を示している。 しかし、これらのツールを使用するには、プログラマは信頼できないサードパーティにコードを送信する必要がある(API呼び出しなど)。 この保護の喪失は多くの組織には受け入れられない。 本稿では, gpt-3.5で生成したサンプル出力を用いて, 知識蒸留に関する過程において, オープンソースモデルを訓練する。 我々のモデルは1つの16gbのGPUで動かすのに十分小さい(350mパラメータ)が、このタスクでGPT-3.5を模倣するのに十分な大きさであることを示す。

A code summary is a brief natural language description of source code. Summaries are usually only a single sentence long, and yet form the backbone of developer documentation. A short descriptions such as "changes all visible polygons to the color blue" can give a programmer a high-level idea of what code does without the effort of reading the code itself. Recently, products based on Large Language Models such as ChatGPT have demonstrated a strong ability to write these descriptions automatically. However, to use these tools, programmers must send their code to untrusted third parties for processing (e.g., via an API call). This loss of custody is not acceptable to many organizations. In this paper, we present an alternative: we train an open source model using sample output generated by GPT-3.5 in a process related to knowledge distillation. Our model is small enough (350m parameters) to be run on a single 16gb GPU, yet we show in our evaluation that it is large enough to mimic GPT-3.5 on this task.
翻訳日:2023-08-29 12:55:18 公開日:2023-08-28
# ヒドロキシルカチオン(oh$^+$)のドップラー冷却のためのレーザー方式

Laser Scheme for Doppler Cooling of the Hydroxyl Cation (OH$^+$) ( http://arxiv.org/abs/2308.14729v1 )

ライセンス: Link先を確認
Niccol\`o Bigagli, Daniel W. Savin, Sebastian Will(参考訳) 電子基底状態$x^3\sigma^-$と最初の励起三重項状態$a^3\pi$との遷移を利用して捕獲したoh$^+$ イオンのドップラー冷却を行うサイクリングスキームについて報告する。 我々は光子サイクルと反跳の関連する遷移を同定し、他の電子状態への結合が強く抑制されていることを発見し、ラマン側バンド冷却が引き継ぐ温度までOH$^+$の冷却に必要な光子散乱数を計算した。 分子イオンが共鳴的に冷却される標準的なアプローチとは対照的に、我々の手法は他の種の共同トラッピングを必要とせず、量子情報、量子化学、宇宙化学に応用可能な冷分子イオンの純粋なサンプルを作るための扉を開く。 OH$^+$で同定されたレーザー冷却方式は、ほぼ対角的なフランク・コンドン因子が存在しないにもかかわらず効率的であり、一般的に想定されるよりも幅広い分子と分子イオンのクラスがレーザー冷却に有効であることが示唆された。

We report on a cycling scheme for Doppler cooling of trapped OH$^+$ ions using transitions between the electronic ground state $X^3\Sigma^-$ and the first excited triplet state $A^3\Pi$. We have identified relevant transitions for photon cycling and repumping, have found that coupling into other electronic states is strongly suppressed, and have calculated the number of photon scatterings required to cool OH$^+$ to a temperature where Raman sideband cooling can take over. In contrast to the standard approach, where molecular ions are sympathetically cooled, our scheme does not require co-trapping of another species and opens the door to the creation of pure samples of cold molecular ions with potential applications in quantum information, quantum chemistry, and astrochemistry. The laser cooling scheme identified for OH$^+$ is efficient despite the absence of near-diagonal Franck-Condon factors, suggesting that broader classes of molecules and molecular ions are amenable to laser cooling than commonly assumed.
翻訳日:2023-08-29 12:55:03 公開日:2023-08-28
# PanoSwin:パノラマ理解のためのパノラマ式スイムトランス

PanoSwin: a Pano-style Swin Transformer for Panorama Understanding ( http://arxiv.org/abs/2308.14726v1 )

ライセンス: Link先を確認
Zhixin Ling, Zhen Xing, Xiangdong Zhou, Manliang Cao, Guichun Zhou(参考訳) パノラマ理解において、広く使われる等角射影(erp)は境界の不連続性と空間歪を伴う。 パノラマの従来のcnnや視覚トランスフォーマーをひどく劣化させる。 本稿では,パノラマ表現をERPで学習する上で,PanoSwinというシンプルなアーキテクチャを提案する。 等角射影による課題に対処するため, 境界の不連続性と空間歪みに対処するために, パノスタイルのシフトウインドウスキームと新しいピッチアテンションを探索する。 さらに,球面距離と直交座標に基づいて,パノラマの絶対位置埋め込みと相対位置バイアスを適用し,パノラマ幾何学情報を強化する。 平面画像理解がパノラマ理解と共通する知識を共有していることを認識し,平面画像からパノラマへの知識伝達を容易にする新しい2段階学習フレームワークを考案する。 我々は,パノラマオブジェクト検出,パノラマ分類,パノラマレイアウト推定など,様々なパノラマタスクに対する最先端技術に対する実験を行った。 実験結果はパノラマ理解におけるパノスウィンの有効性を示した。

In panorama understanding, the widely used equirectangular projection (ERP) entails boundary discontinuity and spatial distortion. It severely deteriorates the conventional CNNs and vision Transformers on panoramas. In this paper, we propose a simple yet effective architecture named PanoSwin to learn panorama representations with ERP. To deal with the challenges brought by equirectangular projection, we explore a pano-style shift windowing scheme and novel pitch attention to address the boundary discontinuity and the spatial distortion, respectively. Besides, based on spherical distance and Cartesian coordinates, we adapt absolute positional embeddings and relative positional biases for panoramas to enhance panoramic geometry information. Realizing that planar image understanding might share some common knowledge with panorama understanding, we devise a novel two-stage learning framework to facilitate knowledge transfer from the planar images to panoramas. We conduct experiments against the state-of-the-art on various panoramic tasks, i.e., panoramic object detection, panoramic classification, and panoramic layout estimation. The experimental results demonstrate the effectiveness of PanoSwin in panorama understanding.
翻訳日:2023-08-29 12:54:40 公開日:2023-08-28
# 浮遊光学系におけるキャビティを介する長距離相互作用

Cavity-mediated long-range interactions in levitated optomechanics ( http://arxiv.org/abs/2308.14721v1 )

ライセンス: Link先を確認
Jayadev Vijayan, Johannes Piotrowski, Carlos Gonzalez-Ballestero, Kevin Weber, Oriol Romero-Isart and Lukas Novotny(参考訳) 空洞を介する相互作用を工学する能力は、非局所相関の生成と多体系における非平衡現象の研究のための強力なツールとして登場した。 浮遊光機械システムは最近、複雑な相互作用系やセンシングを探索するために、大量の強結合発振器の配列を使用することを約束して、多粒子方式に参入した。 ここでは、多粒子光浮上とキャビティに基づく量子制御の進歩を組み合わせることで、真空中のナノ粒子間のプログラム可能なキャビティ媒介相互作用を初めて示す。 この相互作用は、空洞内で空間的に分離された粒子によって散乱された光子によって媒介され、その結果(G_\text{zz}/\Omega_\text{z} = 0.238\pm0.005$)強い結合をもたらす。 キャビティデチューニングと粒子間分離による相互作用強度のスケーリングについて検討し, 異なるメカニカルモード間の相互作用のチューニング性を示す。 我々の研究は、プログラム可能なキャビティを介する相互作用を持つナノ粒子アレイにおける多体効果の探索、動きの絡み合いの発生、光学的センシングのための相互作用粒子アレイの利用への道を開いた。

The ability to engineer cavity-mediated interactions has emerged as a powerful tool for the generation of non-local correlations and the investigation of non-equilibrium phenomena in many-body systems. Levitated optomechanical systems have recently entered the multi-particle regime, with promise for using arrays of massive strongly coupled oscillators for exploring complex interacting systems and sensing. Here, by combining advances in multi-particle optical levitation and cavity-based quantum control, we demonstrate, for the first time, programmable cavity-mediated interactions between nanoparticles in vacuum. The interaction is mediated by photons scattered by spatially separated particles in a cavity, resulting in strong coupling ($G_\text{zz}/\Omega_\text{z} = 0.238\pm0.005$) that does not decay with distance within the cavity mode volume. We investigate the scaling of the interaction strength with cavity detuning and inter-particle separation, and demonstrate the tunability of interactions between different mechanical modes. Our work paves the way towards exploring many-body effects in nanoparticle arrays with programmable cavity-mediated interactions, generating entanglement of motion, and using interacting particle arrays for optomechanical sensing.
翻訳日:2023-08-29 12:54:21 公開日:2023-08-28
# 半古典的Bose-Hubbard鎖におけるカオスと異常輸送

Chaos and anomalous transport in a semiclassical Bose-Hubbard chain ( http://arxiv.org/abs/2308.14720v1 )

ライセンス: Link先を確認
Dragan Markovi\'c and Mihailo \v{C}ubrovi\'c(参考訳) 半古典的領域におけるボース・ハバード鎖のカオスダイナミクスと異常輸送(粒子数が無限大になる場合の限界)について研究する。 この系は、最大100個の井戸を持つ長い鎖であっても、通常の力学とカオス力学の混合位相空間を持つ。 混合位相空間の結果は占有数の空間における強い異常拡散であり、輸送指数の離散集合を持つ。 非常に長い時間の後、システムは通常の拡散を伴う流体力学系に交差する。 異常輸送は、モデル(クーロン相互作用、化学的ポテンシャル)のパラメータからほぼ完全に独立しており、主に鎖に沿った粒子の初期分布によって決定される。 我々は,異常分布のスケーリング解析と正規拡散分布のランジュバン方程式という解析的議論によって,この知見を裏付ける。

We study chaotic dynamics and anomalous transport in a Bose-Hubbard chain in the semiclassical regime (the limit when the number of particles goes to infinity). We find that the system has mixed phase space with both regular and chaotic dynamics, even for long chains with up to hundred wells. The consequence of the mixed phase space is strongly anomalous diffusion in the space of occupation numbers, with a discrete set of transport exponents. After very long times the system crosses over to the hydrodynamic regime with normal diffusion. Anomalous transport is quite universal, almost completely independent of the parameters of the model (Coulomb interaction, chemical potential): it is mainly determined by the initial distribution of particles along the chain. We corroborate our findings by analytical arguments: scaling analysis for the anomalous regime and the Langevin equation for the normal diffusion regime.
翻訳日:2023-08-29 12:53:55 公開日:2023-08-28
# ベイジアンモデリングによる階層的時系列予測

Hierarchical Time Series Forecasting with Bayesian Modeling ( http://arxiv.org/abs/2308.14719v1 )

ライセンス: Link先を確認
Gal Elgavish(参考訳) ファイナンス、物理、ビジネス、天気といった多くの分野で時系列データに遭遇します。 不確実性の下でインフォームドな意思決定を行うのに役立つ時系列分析の主なタスクの1つは、予測である。 時系列は階層的に構成されることが多く、例えば、会社の売上は異なる地域に分割され、各地域は異なる店舗に分割されることがある。 いくつかのケースでは、階層内のシリーズ数が1つのモデルに収まるには大きすぎて、関連する時間内に予測ができない場合があり、分散アプローチは有用である。 この方法の1つの方法は、各系列と、階層によって示されるいくつかの要約統計系列(例えば、全系列の和)の独立予測モデルを訓練し、それらのモデルを調停アルゴリズムに渡して、系列間で情報を共有することでこれらの予測を改善することである。 本研究は, 和解の段階に着目し, ベイズ的視点から, ベイズ的予測和解(Bayesian forecastconciliation)を提案する。 また,予測がガウス的であり,階層構造が線形構造を持つ線形ガウス再結合の共通ケースを定義し,閉形式で再結合を計算可能であることを示す。 我々はこれらの手法を合成および実データ集合上で評価し、この分野の他の研究と比較する。

We encounter time series data in many domains such as finance, physics, business, and weather. One of the main tasks of time series analysis, one that helps to take informed decisions under uncertainty, is forecasting. Time series are often hierarchically structured, e.g., a company sales might be broken down into different regions, and each region into different stores. In some cases the number of series in the hierarchy is too big to fit in a single model to produce forecasts in relevant time, and a decentralized approach is beneficial. One way to do this is to train independent forecasting models for each series and for some summary statistics series implied by the hierarchy (e.g. the sum of all series) and to pass those models to a reconciliation algorithm to improve those forecasts by sharing information between the series. In this work we focus on the reconciliation step, and propose a method to do so from a Bayesian perspective - Bayesian forecast reconciliation. We also define the common case of linear Gaussian reconciliation, where the forecasts are Gaussian and the hierarchy has linear structure, and show that we can compute reconciliation in closed form. We evaluate these methods on synthetic and real data sets, and compare them to other work in this field.
翻訳日:2023-08-29 12:53:43 公開日:2023-08-28
# QFT測定における粒子場双対性

Particle-field duality in QFT measurements ( http://arxiv.org/abs/2308.14718v1 )

ライセンス: Link先を確認
Maria Papageorgiou, Jose de Ramon, Charis Anastopoulos(参考訳) 量子場に結合した点状系は、しばしば場の量子論における測定のためのおもちゃのモデルとして用いられる。 本稿では,そのようなモデルによって記録されたフィールドオブザーバブルを同定する。 強結合状態のモデルでは, 強結合状態のモデルでは, 電場振幅と相関し, 弱い結合状態のモデルでは, 粒子状到着時間や共振吸収の存在など, 電界の粒子面を記録できることが示されている。 そこで我々は,量子ブラウン運動の形式を正確に解けるような改良された場-検出器相互作用モデルを開発した。 このモデルは強結合系と弱結合系でそれぞれ場特性と粒子特性の関係を確認する。 さらに、場の粒子特性が「マージ」される中間状態を記述することもできる。 標準摂動法とは対照的に、このモデルは弱い結合状態における相対論的breit-wigner共振挙動を回復する。 単一可変パラメータによる場-粒子-双対の変調は、原理的には実験的に利用できる新しい特徴である。

Pointlike systems coupled to quantum fields are often employed as toy models for measurements in quantum field theory. In this paper, we identify the field observables recorded by such models. We show that in models that work in the strong coupling regime, the apparatus is correlated with smeared field amplitudes, while in models that work in weak coupling the apparatus records particle aspects of the field, such as the existence of a particle-like time of arrival and resonant absorption. Then, we develop an improved field-detector interaction model, adapting the formalism of Quantum Brownian motion, that is exactly solvable. This model confirms the association of field and particle properties in the strong and weak coupling regimes, respectively. Further, it can also describe the intermediate regime, in which the field-particle characteristics `merge'. In contrast to standard perturbation techniques, this model also recovers the relativistic Breit-Wigner resonant behavior in the weak coupling regime. The modulation of field-particle-duality by a single tunable parameter is a novel feature that is, in principle, experimentally accessible.
翻訳日:2023-08-29 12:53:18 公開日:2023-08-28
# R3D3: 複数のカメラからのダイナミックシーンの高密度3次元再構成

R3D3: Dense 3D Reconstruction of Dynamic Scenes from Multiple Cameras ( http://arxiv.org/abs/2308.14713v1 )

ライセンス: Link先を確認
Aron Schmied, Tobias Fischer, Martin Danelljan, Marc Pollefeys, Fisher Yu(参考訳) 密集した3次元再構成とエゴモーション推定は、自動運転とロボット工学の重要な課題である。 今日デプロイされた複雑なマルチモーダルシステムと比較して、マルチカメラシステムはよりシンプルで低コストな代替手段を提供する。 しかし、カメラによる複雑なダイナミックシーンの3D再構成は非常に困難であり、既存のソリューションは不完全あるいは不整合な結果をもたらすことが多い。 本稿では,高密度な3次元再構成とエゴモーション推定のためのマルチカメラシステムR3D3を提案する。 提案手法は,複数のカメラからの空間-時間情報を利用した幾何推定と,単眼深度の精密化を繰り返す。 マルチカメラ特徴相関と高密度バンドル調整演算子を統合し,ロバストな幾何学的深さとポーズ推定を行う。 移動物体や低テクスチャ領域などの幾何学的深度が信頼できない再現性を改善するために,深度改善ネットワークを通じて学習可能なシーン前処理を導入する。 この設計により,屋外環境における挑戦的かつダイナミックな3次元再構成が可能となる。 その結果,DDADおよびNuScenesベンチマークを用いて,最先端の深度予測を行うことができた。

Dense 3D reconstruction and ego-motion estimation are key challenges in autonomous driving and robotics. Compared to the complex, multi-modal systems deployed today, multi-camera systems provide a simpler, low-cost alternative. However, camera-based 3D reconstruction of complex dynamic scenes has proven extremely difficult, as existing solutions often produce incomplete or incoherent results. We propose R3D3, a multi-camera system for dense 3D reconstruction and ego-motion estimation. Our approach iterates between geometric estimation that exploits spatial-temporal information from multiple cameras, and monocular depth refinement. We integrate multi-camera feature correlation and dense bundle adjustment operators that yield robust geometric depth and pose estimates. To improve reconstruction where geometric depth is unreliable, e.g. for moving objects or low-textured regions, we introduce learnable scene priors via a depth refinement network. We show that this design enables a dense, consistent 3D reconstruction of challenging, dynamic outdoor environments. Consequently, we achieve state-of-the-art dense depth prediction on the DDAD and NuScenes benchmarks.
翻訳日:2023-08-29 12:53:04 公開日:2023-08-28
# 部分的量子デコヒーレンスによる平衡の詳細なバランスの損失:量子グラフアナログ

Loss of Detailed Balance in Equilibrium due to Partial Quantum Decoherence: A Quantum Graph Analogue ( http://arxiv.org/abs/2308.14712v1 )

ライセンス: Link先を確認
Lei Chen, Isabella L. Giovannelli, Nadav Shaibe, and Steven M. Anlage(参考訳) 我々は、コヒーレント量子進化と非コヒーレント古典物理学の間の中間領域において、部分的デコヒーレンスに苦しむ量子系の物理学を探求する。 この中間体制下では、新しい物理学と技術が有効であると予測されている。 特に、aharonov-bohm(ab)環を介して非対称な伝送を探索し、伝送時間における3:1の非対称性をサポートし、より長い量子波に優先的に作用する非相殺的特徴を付加する。 このような装置をジャイレータを用いてマイクロ波アナログ量子グラフとして実現し、3:1の伝送時間遅延非対称性と均質な損失と局所的損失の両方を作成し、類似のメソスコピック電子系におけるデファッシングの効果を模倣する。 この装置の測定とシミュレーションは、必要な非相互伝達時間遅延と伝送確率の非対称性を実証する。 測定とシミュレーションは周波数領域と時間領域の両方でウェーブパケットを用いて行われる。 シミュレーションと実験の両方において、周波数領域と時間領域の両方において損失/減差の関数としてabリンググラフを通した非対称伝達を示し、対応する量子系に対する期待値と比較する。 この結果は、透過非対称性と詳細な平衡の損失が類似のメソスコピック量子グラフの平衡特性であるという仮説と一致している。

We explore the physics of quantum systems that suffer from partial decoherence, in the intermediate range between coherent quantum evolution and incoherent classical physics. It has been predicted that new physics and technology are enabled in this intermediate regime. In particular we explore the asymmetric transmission through an Aharonov-Bohm (AB) ring that supports a 3:1 asymmetry in transmission times, augmented with de-phasing features that act preferentially on the longer-lingering quantum waves. Such a device is realized as a microwave analogue quantum graph utilizing a gyrator to create the 3:1 transmission time delay asymmetry, along with both homogeneous and localized losses to mimic the effects of de-phasing in the analogous mesoscopic electron system. Measurements and simulations of this device demonstrate the required non-reciprocal transmission time delay, as well as an asymmetry in transmission probability. The measurements and simulations are performed in both the frequency domain, and in the time domain using wave packets. We demonstrate asymmetric transmission through the AB-ring graph as a function of loss/de-phasing in both simulation and experiment, in both the frequency- and time-domains, and compare to expectations for the corresponding quantum system. The results are consistent with the hypothesis that the transmission asymmetry and loss of detailed balance is an equilibrium property of the analogous mesoscopic quantum graph.
翻訳日:2023-08-29 12:52:48 公開日:2023-08-28
# 視覚的類似性の効率的な発見と効果的な評価--ベンチマークとそれ以降

Efficient Discovery and Effective Evaluation of Visual Perceptual Similarity: A Benchmark and Beyond ( http://arxiv.org/abs/2308.14753v1 )

ライセンス: Link先を確認
Oren Barkan, Tal Reiss, Jonathan Weill, Ori Katz, Roy Hirsch, Itzik Malkiel, Noam Koenigstein(参考訳) 視覚類似性発見(VSD)は、幅広いeコマースアプリケーションにおいて重要な課題である。 ある物体の画像が与えられた場合、vsdの目標は、知覚的類似度の高い異なる物体の画像を取得することである。 高度に対処された問題であるが、vsdに対する提案手法の評価は、多くの場合、同一オブジェクトの異なる画像を取得するモデルの能力を評価する識別再試行タスクのプロキシに基づいている。 識別タスクに基づくVSD手法の評価は限定的であり、忠実な評価は専門家のアノテーションに頼らなければならないと仮定する。 そこで,本稿では,110k以上の画像ペアからなる,ファッションの視覚的類似度ベンチマークデータセットを初めて紹介する。 この大きな貢献に加えて、このデータセットをキュレートする際の課題に関する洞察を共有します。 これらの知見に基づいて,任意のデータセットに適用可能な新規かつ効率的なラベリング手順を提案する。 そこで本研究では,その限界と帰納的バイアスを考察し,それらの制約を緩和する指標を提案する。 我々の主な焦点は視覚的類似性であるが、我々が提示する方法論は様々な領域における知覚的類似性の検出と評価に広く応用されている。

Visual similarities discovery (VSD) is an important task with broad e-commerce applications. Given an image of a certain object, the goal of VSD is to retrieve images of different objects with high perceptual visual similarity. Although being a highly addressed problem, the evaluation of proposed methods for VSD is often based on a proxy of an identification-retrieval task, evaluating the ability of a model to retrieve different images of the same object. We posit that evaluating VSD methods based on identification tasks is limited, and faithful evaluation must rely on expert annotations. In this paper, we introduce the first large-scale fashion visual similarity benchmark dataset, consisting of more than 110K expert-annotated image pairs. Besides this major contribution, we share insight from the challenges we faced while curating this dataset. Based on these insights, we propose a novel and efficient labeling procedure that can be applied to any dataset. Our analysis examines its limitations and inductive biases, and based on these findings, we propose metrics to mitigate those limitations. Though our primary focus lies on visual similarity, the methodologies we present have broader applications for discovering and evaluating perceptual similarity across various domains.
翻訳日:2023-08-29 12:46:19 公開日:2023-08-28
# aiのデセプション: 例、リスク、潜在的なソリューションに関する調査

AI Deception: A Survey of Examples, Risks, and Potential Solutions ( http://arxiv.org/abs/2308.14752v1 )

ライセンス: Link先を確認
Peter S. Park, Simon Goldstein, Aidan O'Gara, Michael Chen, Dan Hendrycks(参考訳) 本稿は、現在のAIシステムが人間を騙す方法を学んだと主張している。 虚偽は、真理以外の結果の追求において、虚偽の信念の体系的な誘導であると定義する。 まず、特定の競争状況のために構築された特殊なAIシステム(MetaのCICEROを含む)と汎用AIシステム(大規模言語モデルなど)の両方について、AI偽造の実証例を調査した。 次に、不正、選挙改ざん、AIシステムの制御の喪失など、AI偽装によるいくつかのリスクについて詳述する。 第一に、規制フレームワークは、堅牢なリスク評価要求に騙すことができるAIシステム、第二に、政策立案者はボットまたはノーの法則を実装すること、そして最後に、政策立案者は、AIの詐欺を検知し、AIシステムを騙しにくくするツールを含む、関連する研究の資金を優先すべきである。 政策立案者、研究者、そして一般大衆は、AIの騙しが我々の社会の共有基盤を不安定にするのを防ぐために積極的に働くべきである。

This paper argues that a range of current AI systems have learned how to deceive humans. We define deception as the systematic inducement of false beliefs in the pursuit of some outcome other than the truth. We first survey empirical examples of AI deception, discussing both special-use AI systems (including Meta's CICERO) built for specific competitive situations, and general-purpose AI systems (such as large language models). Next, we detail several risks from AI deception, such as fraud, election tampering, and losing control of AI systems. Finally, we outline several potential solutions to the problems posed by AI deception: first, regulatory frameworks should subject AI systems that are capable of deception to robust risk-assessment requirements; second, policymakers should implement bot-or-not laws; and finally, policymakers should prioritize the funding of relevant research, including tools to detect AI deception and to make AI systems less deceptive. Policymakers, researchers, and the broader public should work proactively to prevent AI deception from destabilizing the shared foundations of our society.
翻訳日:2023-08-29 12:46:01 公開日:2023-08-28
# MagicEdit:高忠実で一時的なコヒーレントなビデオ編集

MagicEdit: High-Fidelity and Temporally Coherent Video Editing ( http://arxiv.org/abs/2308.14749v1 )

ライセンス: Link先を確認
Jun Hao Liew and Hanshu Yan and Jianfeng Zhang and Zhongcong Xu and Jiashi Feng(参考訳) 本稿では,テキスト誘導ビデオ編集タスクに対して,驚くほどシンプルで効果的なMagicEditを提案する。 トレーニング中にコンテンツ,構造,動作信号の学習を明示的に切り離すことで,高忠実かつ時間的に一貫した映像翻訳を実現することができることがわかった。 これは、単一のフレームワーク内の外観と時間的表現の両方を共同でモデル化しようとする既存のほとんどの方法とは矛盾します。 そのシンプルさにもかかわらず、MagicEditは、ビデオスタイリング、ローカル編集、ビデオ-MagicMix、ビデオ出力など、さまざまな下流ビデオ編集タスクをサポートしている。

In this report, we present MagicEdit, a surprisingly simple yet effective solution to the text-guided video editing task. We found that high-fidelity and temporally coherent video-to-video translation can be achieved by explicitly disentangling the learning of content, structure and motion signals during training. This is in contradict to most existing methods which attempt to jointly model both the appearance and temporal representation within a single framework, which we argue, would lead to degradation in per-frame quality. Despite its simplicity, we show that MagicEdit supports various downstream video editing tasks, including video stylization, local editing, video-MagicMix and video outpainting.
翻訳日:2023-08-29 12:45:38 公開日:2023-08-28
# magicavatar:マルチモーダルアバターの生成とアニメーション

MagicAvatar: Multimodal Avatar Generation and Animation ( http://arxiv.org/abs/2308.14748v1 )

ライセンス: Link先を確認
Jianfeng Zhang and Hanshu Yan and Zhongcong Xu and Jiashi Feng and Jun Hao Liew(参考訳) 本稿では,人間のアバターのマルチモーダル映像生成とアニメーションのためのフレームワークMagicAvatarについて述べる。 マルチモーダル入力(例えばテキストプロンプト)から直接アバター中心のビデオを生成する既存の方法とは異なり、MagicAvatarは明確にアバタービデオ生成を2段階に分離する:(1)マルチモーダル・トゥ・モーションと(2)モーション・トゥ・ビデオ生成である。 第1段はマルチモーダル入力を動き/制御信号(人間のポーズ、深さ、密度など)に変換し、第2段はこれらの動き信号によって誘導されたアバター中心のビデオを生成する。 さらにMagicAvatarは、ターゲット人物のいくつかの画像を提供することで、アバターアニメーションをサポートする。 これにより、提供された人間のアイデンティティを第1段階から派生した特定の動きに応じてアニメーションすることができる。 マルチモーダルアバターアニメーションだけでなく,テキストガイドやビデオガイドアバター生成など,さまざまなアプリケーションを通じてmagicavatarの柔軟性を実証する。

This report presents MagicAvatar, a framework for multimodal video generation and animation of human avatars. Unlike most existing methods that generate avatar-centric videos directly from multimodal inputs (e.g., text prompts), MagicAvatar explicitly disentangles avatar video generation into two stages: (1) multimodal-to-motion and (2) motion-to-video generation. The first stage translates the multimodal inputs into motion/ control signals (e.g., human pose, depth, DensePose); while the second stage generates avatar-centric video guided by these motion signals. Additionally, MagicAvatar supports avatar animation by simply providing a few images of the target person. This capability enables the animation of the provided human identity according to the specific motion derived from the first stage. We demonstrate the flexibility of MagicAvatar through various applications, including text-guided and video-guided avatar generation, as well as multimodal avatar animation.
翻訳日:2023-08-29 12:45:25 公開日:2023-08-28
# カイラル量子ウォークにおける量子輸送の強化

Enhanced quantum transport in chiral quantum walks ( http://arxiv.org/abs/2308.14747v1 )

ライセンス: Link先を確認
Emilio Annoni, Massimo Frigerio, and Matteo G. A. Paris(参考訳) 離散構造を横断する量子輸送は、連続時間量子ウォークの文脈で好適に研究できる固体物理学と量子情報科学の関連する話題である。 位相自由度が加わったことで、キラルな量子ウォークが生まれ、ループのあるグラフ上での方向移動も説明できる。 量子輸送の基準を議論し、鎖状グラフ上のカイラル量子ウォークによって達成できる拡張について検討し、鎖単位の異なる位相を探索し、位相を最適化する。 最適性能を持つ3つの候補構造を選択し, クリロフ還元による輸送挙動について検討する。 そのうちの1つは小さなカップリング変調を持つ重み付き直線に還元できるが、他の2つは真のキラルな量子ウォークであり、長い鎖構造上の輸送確率が増大する。

Quantum transport across discrete structures is a relevant topic of solid state physics and quantum information science, which can be suitably studied in the context of continuous-time quantum walks. The addition of phases degrees of freedom, leading to chiral quantum walks, can also account for directional transport on graphs with loops. We discuss criteria for quantum transport and study the enhancement that can be achieved with chiral quantum walks on chain-like graphs, exploring different topologies for the chain units and optimizing over the phases. We select three candidate structures with optimal performance and investigate their transport behaviour with Krylov reduction. While one of them can be reduced to a weighted line with minor couplings modulation, the other two are truly chiral quantum walks, with enhanced transport probability over long chain structures.
翻訳日:2023-08-29 12:45:06 公開日:2023-08-28
# covr: webビデオキャプションからの合成ビデオ検索の学習

CoVR: Learning Composed Video Retrieval from Web Video Captions ( http://arxiv.org/abs/2308.14746v1 )

ライセンス: Link先を確認
Lucas Ventura, Antoine Yang, Cordelia Schmid, G\"ul Varol(参考訳) Composed Image Retrieval (CoIR)は、最近、テキストと画像のクエリを一緒に検討し、データベース内の関連するイメージを検索するタスクとして人気を集めている。 ほとんどのCoIRアプローチでは、クエリイメージからターゲットイメージへの変更をテキストで記述するイメージ-テキスト-イメージトレーレットを含む、手動でアノテートされたデータセットを必要とする。 しかしながら、coirトリプレットの手動キュレーションは高価であり、スケーラビリティを妨げる。 そこで本研究では,ビデオキャプション対のトリプレットを生成するスケーラブルな自動データセット作成手法を提案するとともに,合成ビデオ検索(CoVR)を含むタスクの範囲を拡大する。 この目的のために,大規模なデータベースから類似キャプションとペア動画を抽出し,大きな言語モデルを用いて対応する修正文を生成する。 この方法論をWebVid2Mコレクションに適用することにより、WebVid-CoVRデータセットを自動的に構築し、160万トリップレットを実現します。 さらに,手作業による評価セットを用いたcovrの新しいベンチマークとベースライン結果について紹介する。 さらに,データセット上でのCoVRモデルのトレーニングがCoIRに効果的に移行し,CIRRおよびFashionIQベンチマークのゼロショット設定における最先端性能が向上することを示した。 私たちのコード、データセット、モデルはhttps://imagine.enpc.fr/~ventural/covr.comで公開されています。

Composed Image Retrieval (CoIR) has recently gained popularity as a task that considers both text and image queries together, to search for relevant images in a database. Most CoIR approaches require manually annotated datasets, comprising image-text-image triplets, where the text describes a modification from the query image to the target image. However, manual curation of CoIR triplets is expensive and prevents scalability. In this work, we instead propose a scalable automatic dataset creation methodology that generates triplets given video-caption pairs, while also expanding the scope of the task to include composed video retrieval (CoVR). To this end, we mine paired videos with a similar caption from a large database, and leverage a large language model to generate the corresponding modification text. Applying this methodology to the extensive WebVid2M collection, we automatically construct our WebVid-CoVR dataset, resulting in 1.6 million triplets. Moreover, we introduce a new benchmark for CoVR with a manually annotated evaluation set, along with baseline results. Our experiments further demonstrate that training a CoVR model on our dataset effectively transfers to CoIR, leading to improved state-of-the-art performance in the zero-shot setup on both the CIRR and FashionIQ benchmarks. Our code, datasets, and models are publicly available at https://imagine.enpc.fr/~ventural/covr.
翻訳日:2023-08-29 12:44:50 公開日:2023-08-28
# 固体力学と構造工学のための量子コンピューティング-変分量子固有解法を用いた実証

Quantum Computing for Solid Mechanics and Structural Engineering -- a Demonstration with Variational Quantum Eigensolver ( http://arxiv.org/abs/2308.14745v1 )

ライセンス: Link先を確認
Yunya Liu, Jiakun Liu, Jordan R. Raney, and Pai Wang(参考訳) 変分量子アルゴリズムは重ね合わせと絡み合いの特徴を利用して、量子状態を操作することでコスト関数を効率的に最適化する。 ノイズの多い中間スケール量子コンピュータ(nisq)に適しており、最近世界規模の研究コミュニティがアクセスできるようになった。 ここでは,IBM Qiskit Runtime プラットフォーム上で 5-qubit および 7-qubit 量子プロセッサ上での数値処理を実装し,実演する。 我々は、商用有限要素法(FEM)ソフトウェアABAQUSと変分量子固有解法(VQE)の実装を組み合わせて、統合パイプラインを確立する。 性能調査には、六角形トラス、ティモシェンコビーム、平面ひずみ連続体という3つの例がある。 このハイブリッド量子-古典的アプローチを用いた基本自然周波数推定の収束に関するパラメトリック研究を行う。 我々の発見は、数百量子ビットの量子コンピュータが近い将来利用できるようになると、より自由度の高い問題にまで拡張できる。

Variational quantum algorithms exploit the features of superposition and entanglement to optimize a cost function efficiently by manipulating the quantum states. They are suitable for noisy intermediate-scale quantum (NISQ) computers that recently became accessible to the worldwide research community. Here, we implement and demonstrate the numerical processes on the 5-qubit and 7-qubit quantum processors on the IBM Qiskit Runtime platform. We combine the commercial finite-element-method (FEM) software ABAQUS with the implementation of Variational Quantum Eigensolver (VQE) to establish an integrated pipeline. Three examples are used to investigate the performance: a hexagonal truss, a Timoshenko beam, and a plane-strain continuum. We conduct parametric studies on the convergence of fundamental natural frequency estimation using this hybrid quantum-classical approach. Our findings can be extended to problems with many more degrees of freedom when quantum computers with hundreds of qubits become available in the near future.
翻訳日:2023-08-29 12:44:25 公開日:2023-08-28
# ニュートン法の勾配正規化による準自己一致関数の最小化

Minimizing Quasi-Self-Concordant Functions by Gradient Regularization of Newton Method ( http://arxiv.org/abs/2308.14742v1 )

ライセンス: Link先を確認
Nikita Doikov(参考訳) 準自己共役滑らか成分を用いた複合凸最適化問題について検討した。 この問題は古典的自己協和函数とリプシッツ連続ヘッセン函数の間に自然に補間する。 これまで、この問題クラスにおける最善の複雑性境界は、信頼地域スキームとボール最小化オラクルの実装に関連付けられていた。 本稿では,準自己協和関数を最小化するために,勾配正規化を伴う基本ニュートン法を用いる。 制約のない最小化の場合、各ステップで単純な行列反転演算(線形系を解く)のみを含む。 我々は,信頼領域スキームの複雑性境界に適合する,このアルゴリズムの高速大域的線形率を証明したが,本手法は特に実装が容易である。 次に,2重ニュートン法を導入し,それに基づいてこの問題クラスに対して対応する高速化ニュートンスキームを開発し,基本手法の複雑さ係数をさらに向上させる。 本結果の直接的結果として,ロジスティック回帰,ソフトマックス,マトリックススケーリングなどの実用的問題に適用されたニュートン法の単純変種に対する高速な大域的線形速度を,目標目標に対する強凸性や均一凸性に関する追加の仮定を必要とせず確立した。

We study the composite convex optimization problems with a Quasi-Self-Concordant smooth component. This problem class naturally interpolates between classic Self-Concordant functions and functions with Lipschitz continuous Hessian. Previously, the best complexity bounds for this problem class were associated with trust-region schemes and implementations of a ball-minimization oracle. In this paper, we show that for minimizing Quasi-Self-Concordant functions we can use instead the basic Newton Method with Gradient Regularization. For unconstrained minimization, it only involves a simple matrix inversion operation (solving a linear system) at each step. We prove a fast global linear rate for this algorithm, matching the complexity bound of the trust-region scheme, while our method remains especially simple to implement. Then, we introduce the Dual Newton Method, and based on it, develop the corresponding Accelerated Newton Scheme for this problem class, which further improves the complexity factor of the basic method. As a direct consequence of our results, we establish fast global linear rates of simple variants of the Newton Method applied to several practical problems, including Logistic Regression, Soft Maximum, and Matrix Scaling, without requiring additional assumptions on strong or uniform convexity for the target objective.
翻訳日:2023-08-29 12:44:08 公開日:2023-08-28
# 全自撮り:全体自撮り

Total Selfie: Generating Full-Body Selfies ( http://arxiv.org/abs/2308.14740v1 )

ライセンス: Link先を確認
Bowei Chen, Brian Curless, Ira Kemelmacher-Shlizerman, Steve Seitz(参考訳) フルボディのセルフィー(自撮り写真)を生成する方法を提案するが、他の誰かが数フィート離れた場所からあなたの写真を撮ったかのように、あなたの体全体をキャプチャする。 我々のアプローチは、あなたの身体の撮影済みのビデオ、ターゲットのポーズ写真、そして各場所の自撮り+背景ペアを入力として受け取ります。 我々は,これらの情報すべてを高品質でよく構成された写真と,望ましいポーズと背景とに組み合わせるための,新しい拡散ベースのアプローチを導入する。

We present a method to generate full-body selfies -- photos that you take of yourself, but capturing your whole body as if someone else took the photo of you from a few feet away. Our approach takes as input a pre-captured video of your body, a target pose photo, and a selfie + background pair for each location. We introduce a novel diffusion-based approach to combine all of this information into high quality, well-composed photos of you with the desired pose and background.
翻訳日:2023-08-29 12:43:46 公開日:2023-08-28
# 3次元ガウスを用いたフレキシブルレンダリング技術

Flexible Techniques for Differentiable Rendering with 3D Gaussians ( http://arxiv.org/abs/2308.14737v1 )

ライセンス: Link先を確認
Leonid Keselman, Martial Hebert(参考訳) 高速で信頼性の高い形状復元は、多くのコンピュータビジョン応用において必須の要素である。 ニューラル・ラミアンス・フィールドは、フォトリアリスティックな新しいビュー合成が到達範囲内にあることを証明したが、実際のシーンやオブジェクトを高速に再構築するための性能要件によってゲートされた。 最近のいくつかのアプローチは代替形状表現、特に3次元ガウス表現に基づいている。 我々はこれらのレンダラーの拡張を開発する。例えば、可変光フローの統合、水密メッシュの輸出、線当たりのレンダリングなどである。 さらに,最近の2つの手法が相互運用可能であることを示す。 これらの再構築は高速で堅牢で、GPUやCPU上で容易に実行できる。 コードとビジュアルの例については、https://leonidk.github.io/fmb-plus

Fast, reliable shape reconstruction is an essential ingredient in many computer vision applications. Neural Radiance Fields demonstrated that photorealistic novel view synthesis is within reach, but was gated by performance requirements for fast reconstruction of real scenes and objects. Several recent approaches have built on alternative shape representations, in particular, 3D Gaussians. We develop extensions to these renderers, such as integrating differentiable optical flow, exporting watertight meshes and rendering per-ray normals. Additionally, we show how two of the recent methods are interoperable with each other. These reconstructions are quick, robust, and easily performed on GPU or CPU. For code and visual examples, see https://leonidk.github.io/fmb-plus
翻訳日:2023-08-29 12:43:37 公開日:2023-08-28
# CGMI: 構成可能な汎用マルチエージェントインタラクションフレームワーク

CGMI: Configurable General Multi-Agent Interaction Framework ( http://arxiv.org/abs/2308.12503v2 )

ライセンス: Link先を確認
Shi Jinxin, Zhao Jiabao, Wang Yilei, Wu Xingjiao, Li Jiawen, He Liang(参考訳) 大規模言語モデル(LLM)の強力な能力から、LLMに基づくエージェントは、ドメイン固有のタスクに対処し、人間の振る舞いをエミュレートする可能性を示している。 しかし、これらのエージェントが生成するコンテンツは、ドメインの専門知識が限られており、効果的な認知アーキテクチャが欠如しているため、表面的なもののままである。 そこで本稿では,人間のインタラクションを現実のシナリオで再現するcgmi(general multi-agent interaction)フレームワークを提案する。 具体的には,エージェントパーソナリティの割り当て,検出,維持のための木構造化手法を提案する。 さらに,メモリ,リフレクション,計画モジュールを含むact*モデルに基づくスキルライブラリを備えた認知アーキテクチャを設計した。 また,仮想環境の現実性を高めるために汎用エージェントも統合した。 CGMIフレームワークを用いて,教師と生徒の教室での交流をシミュレーションした。 実験は,教育方法論,カリキュラム,学生のパフォーマンスといった側面が実際の教室環境に密接に反映していることを示す。 私たちは仕事をオープンソース化します。

Benefiting from the powerful capabilities of large language models (LLMs), agents based on LLMs have shown the potential to address domain-specific tasks and emulate human behaviors. However, the content generated by these agents remains somewhat superficial, owing to their limited domain expertise and the absence of an effective cognitive architecture. To address this, we present the Configurable General Multi-Agent Interaction (CGMI) framework, designed to replicate human interactions in real-world scenarios. Specifically, we propose a tree-structured methodology for the assignment, detection, and maintenance of agent personality. Additionally, we designed a cognitive architecture equipped with a skill library based on the ACT* model, which contains memory, reflection, and planning modules. We have also integrated general agents to augment the virtual environment's realism. Using the CGMI framework, we simulated numerous classroom interactions between teacher and students. The experiments indicate that aspects such as the teaching methodology, curriculum, and student performance closely mirror real classroom settings. We will open source our work.
翻訳日:2023-08-29 10:59:03 公開日:2023-08-28
# コードセマンティクス学習のための対称性保存プログラム表現

Symmetry-Preserving Program Representations for Learning Code Semantics ( http://arxiv.org/abs/2308.03312v3 )

ライセンス: Link先を確認
Kexin Pei, Weichen Li, Qirui Jin, Shuyang Liu, Scott Geng, Lorenzo Cavallaro, Junfeng Yang, Suman Jana(参考訳) 大規模言語モデル(llm)は、多くのセキュリティタスクの重要な側面である自動プログラム推論において、約束を示している。 しかし、既存のコード用のllmアーキテクチャは、自然言語処理のような他のドメインから借用されることが多く、コードの一般化と堅牢性に懸念を抱いている。 鍵となる一般化の課題は、制御やデータフローを含むコードセマンティクスの知識をllmアーキテクチャに組み込むことである。 変換対称性を利用した畳み込み層の例からインスピレーションを得て、コード対称性がプログラム解析とモデリングのためにllmアーキテクチャをどのように強化できるかを考察する。 本稿では,コード対称性を意味論的保存変換として正式に定義する厳密なグループ理論フレームワークを提案する。 本フレームワークを用いて,プログラムの対称性を保存し,その一般化とロバスト性を示す新たな自己注意法を導入し,異なるバイナリおよびソースコード解析タスクの詳細な実験評価を行った。 全体として、我々のコード対称性フレームワークは厳格で強力な推論技術を提供しており、コードのための特殊なLCMの開発をガイドし、LLM誘導プログラム推論タスクを前進させる。

Large Language Models (LLMs) have shown promise in automated program reasoning, a crucial aspect of many security tasks. However, existing LLM architectures for code are often borrowed from other domains like natural language processing, raising concerns about their generalization and robustness to unseen code. A key generalization challenge is to incorporate the knowledge of code semantics, including control and data flow, into the LLM architectures. Drawing inspiration from examples of convolution layers exploiting translation symmetry, we explore how code symmetries can enhance LLM architectures for program analysis and modeling. We present a rigorous group-theoretic framework that formally defines code symmetries as semantics-preserving transformations and provides techniques for precisely reasoning about symmetry preservation within LLM architectures. Using this framework, we introduce a novel variant of self-attention that preserves program symmetries, demonstrating its effectiveness in generalization and robustness through detailed experimental evaluations across different binary and source code analysis tasks. Overall, our code symmetry framework offers rigorous and powerful reasoning techniques that can guide the future development of specialized LLMs for code and advance LLM-guided program reasoning tasks.
翻訳日:2023-08-29 10:58:46 公開日:2023-08-28
# 視覚トランスフォーマーを用いた開語彙物体検出のための領域認識事前学習

Region-Aware Pretraining for Open-Vocabulary Object Detection with Vision Transformers ( http://arxiv.org/abs/2305.07011v4 )

ライセンス: Link先を確認
Dahun Kim, Anelia Angelova, Weicheng Kuo(参考訳) 本稿では,画像レベルのプリトレーニングとオープンボキャブラリオブジェクト検出のギャップを埋めるために,画像テキストプリトレーニングレシピであるro-vit(region-aware open-vocabulary vision transformers)を提案する。 プレトレーニング段階では,画像全体の位置埋め込みを使わずに,位置埋め込みの領域をランダムに収穫・再サイズすることを提案する。 これは検出微調整フェーズにおける領域レベルでの位置埋め込みの使用に合致する。 さらに,比較学習におけるソフトマックスクロスエントロピー損失を焦点損失に置き換え,情報的かつ難解な例をよりよく学習する。 最後に、新しいオブジェクト提案の最近の進歩を活用して、オープン語彙検出の微調整を改善する。 LVIS と COCO の開語彙検出ベンチマークとゼロショット転送における全モデルの評価を行った。 RO-ViT は LVIS 上の最先端の 34.1 $AP_r$ を達成し、競合するゼロショット転送検出に加えて、+7.8 ポイントの最良のアプローチを超える。 驚いたことに、RO-ViTは画像レベルの表現も改善し、COCOとFlickrの画像テキスト検索ベンチマーク上の12のメトリクスのうち9のテクニックの状態を達成している。

We present Region-aware Open-vocabulary Vision Transformers (RO-ViT) - a contrastive image-text pretraining recipe to bridge the gap between image-level pretraining and open-vocabulary object detection. At the pretraining phase, we propose to randomly crop and resize regions of positional embeddings instead of using the whole image positional embeddings. This better matches the use of positional embeddings at region-level in the detection finetuning phase. In addition, we replace the common softmax cross entropy loss in contrastive learning with focal loss to better learn the informative yet difficult examples. Finally, we leverage recent advances in novel object proposals to improve open-vocabulary detection finetuning. We evaluate our full model on the LVIS and COCO open-vocabulary detection benchmarks and zero-shot transfer. RO-ViT achieves a state-of-the-art 34.1 $AP_r$ on LVIS, surpassing the best existing approach by +7.8 points in addition to competitive zero-shot transfer detection. Surprisingly, RO-ViT improves the image-level representation as well and achieves the state of the art on 9 out of 12 metrics on COCO and Flickr image-text retrieval benchmarks, outperforming competitive approaches with larger models.
翻訳日:2023-08-29 10:58:24 公開日:2023-08-28
# 段落レベルでの機械翻訳評価指標の訓練とメタ評価

Training and Meta-Evaluating Machine Translation Evaluation Metrics at the Paragraph Level ( http://arxiv.org/abs/2308.13506v2 )

ライセンス: Link先を確認
Daniel Deutsch and Juraj Juraska and Mara Finkelstein and Markus Freitag(参考訳) 機械翻訳の研究が文レベルを超えてテキストの翻訳に移るにつれ、自動評価指標が長い翻訳のスコアにどの程度効果があるかは明らかでない。 本稿では,まず,既存の文レベルのデータからメトリクスを訓練し,メタ評価するための段落レベルのデータを作成する手法を提案する。 そして、これらの新しいデータセットを使用して、既存の文レベルのメトリクスをベンチマークし、段落レベルの学習メトリクスをトレーニングします。 実験結果から,文レベルの指標を用いて段落全体を評価することは,段落レベルで作業するように設計された指標と同等に効果的であることが示された。 この結果は,参照ベース評価の課題の特性と,段落レベルの翻訳で発生するすべての現象を捉えるためのデータセットの制限に起因していると推測する。

As research on machine translation moves to translating text beyond the sentence level, it remains unclear how effective automatic evaluation metrics are at scoring longer translations. In this work, we first propose a method for creating paragraph-level data for training and meta-evaluating metrics from existing sentence-level data. Then, we use these new datasets to benchmark existing sentence-level metrics as well as train learned metrics at the paragraph level. Interestingly, our experimental results demonstrate that using sentence-level metrics to score entire paragraphs is equally as effective as using a metric designed to work at the paragraph level. We speculate this result can be attributed to properties of the task of reference-based evaluation as well as limitations of our datasets with respect to capturing all types of phenomena that occur in paragraph-level translations.
翻訳日:2023-08-29 10:55:50 公開日:2023-08-28
# ハニカム原子配列における位相的フォトニックバンドギャップ

Topological photonic band gaps in honeycomb atomic arrays ( http://arxiv.org/abs/2308.13423v2 )

ライセンス: Link先を確認
Pierre Wulles, Sergey E. Skipetrov(参考訳) 面内電磁場によって結合された2次元平面ハニカム格子の励起スペクトルは、外部磁場を印加するか、ハニカム1が重ね合わせである2つの三角形部分格子間の対称性を破ることによって、開口可能なバンドギャップを示すことができる。 バンドギャップ開きの条件を確立し、ギャップの幅を計算し、その位相特性をトポロジ的指標(Chern number)で特徴づける。 バンドギャップのトポロジカルな性質は、バンドエッジ近傍の周波数を持つモードに対する2つの三角形部分格子間の人口不均衡の逆転をもたらす。 また、スペクトルギャップを閉じることなく、無限に間隔づけられた非相互作用原子の自明な極限への遷移を禁止している。 原子核共鳴周波数における自由空間波数である$d < {\pi}/k_0$ の小さなミラー間隔を持つファブリー・ピエロト空洞で格子を囲むと、その位相特性を変更せずに原子面からのエネルギーの漏れを抑えることで系エルミートをレンダリングする。 対照的に、より大きな$d$はキャビティミラーの反射によって構築された光モードを伝播し、自由支持格子のバンドギャップの内部に周波数を持つため、後者を閉じる。

The spectrum of excitations a two-dimensional, planar honeycomb lattice of two-level atoms coupled by the in-plane electromagnetic field may exhibit band gaps that can be opened either by applying an external magnetic field or by breaking the symmetry between the two triangular sublattices of which the honeycomb one is a superposition. We establish the conditions of band gap opening, compute the width of the gap, and characterize its topological property by a topological index (Chern number). The topological nature of the band gap leads to inversion of the population imbalance between the two triangular sublattices for modes with frequencies near band edges. It also prohibits a transition to the trivial limit of infinitely spaced, noninteracting atoms without closing the spectral gap. Surrounding the lattice by a Fabry-P\'erot cavity with small intermirror spacing $d < {\pi}/k_0$ , where $k_0$ is the free-space wave number at the atomic resonance frequency, renders the system Hermitian by suppressing the leakage of energy out of the atomic plane without modifying its topological properties. In contrast, a larger $d$ allows for propagating optical modes that are built up due to reflections at the cavity mirrors and have frequencies inside the band gap of the free-standing lattice, thus closing the latter.
翻訳日:2023-08-29 10:55:35 公開日:2023-08-28
# 強化学習支援進化アルゴリズム:調査と研究の機会

Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and Research Opportunities ( http://arxiv.org/abs/2308.13420v2 )

ライセンス: Link先を確認
Yanjie Song, Yutong Wu, Yangyang Guo, Ran Yan, P. N. Suganthan, Yue Zhang, Witold Pedrycz, Yingwu Chen, Swagatam Das, Rammohan Mallipeddi, Oladayo Solomon Ajani(参考訳) 進化的アルゴリズム(EA)は、自然進化の原理に基づく確率的探索手法のクラスであり、様々な実世界の最適化問題における例外的な性能を広く評価されている。 世界中の研究者が様々なEAを提案しているが、収束速度の低下や一般化能力の低下など、いくつかの制限が残っている。 その結果,アルゴリズム構造,演算子,探索パターンなどの改良を積極的に探求し,最適化性能の向上を図っている。 EAフレームワークのコンポーネントとして統合された強化学習(RL)は、近年、優れたパフォーマンスを示している。 本稿では、強化学習支援進化アルゴリズム(RL-EA)と呼ばれる進化アルゴリズムへの強化学習の統合に関する総合的な調査を行う。 まず,強化学習の概念的概要と進化的アルゴリズムから始める。 RL-EAの分類法を提供する。 その後、RL-EA統合手法、RL-EAが採用したRL-EA支援戦略、および既存文献による適用について論じる。 RL支援手順は、ソリューション生成、学習可能な目的関数、アルゴリズム/オペレータ/サブポピュレーション選択、パラメータ適応、その他の戦略を含む実装された機能に応じて分割される。 最後に,今後の研究の方向性について分析する。 この調査は、RL-EAに関心を持つ研究者の豊富なリソースとして役立ち、現状を概観し、関連する課題を強調している。 この調査を利用することで、読者はRL-EAに関する洞察を迅速に得ることができ、効率的なアルゴリズムを開発することができる。

Evolutionary algorithms (EA), a class of stochastic search methods based on the principles of natural evolution, have received widespread acclaim for their exceptional performance in various real-world optimization problems. While researchers worldwide have proposed a wide variety of EAs, certain limitations remain, such as slow convergence speed and poor generalization capabilities. Consequently, numerous scholars actively explore improvements to algorithmic structures, operators, search patterns, etc., to enhance their optimization performance. Reinforcement learning (RL) integrated as a component in the EA framework has demonstrated superior performance in recent years. This paper presents a comprehensive survey on integrating reinforcement learning into the evolutionary algorithm, referred to as reinforcement learning-assisted evolutionary algorithm (RL-EA). We begin with the conceptual outlines of reinforcement learning and the evolutionary algorithm. We then provide a taxonomy of RL-EA. Subsequently, we discuss the RL-EA integration method, the RL-assisted strategy adopted by RL-EA, and its applications according to the existing literature. The RL-assisted procedure is divided according to the implemented functions including solution generation, learnable objective function, algorithm/operator/sub-population selection, parameter adaptation, and other strategies. Finally, we analyze potential directions for future research. This survey serves as a rich resource for researchers interested in RL-EA as it overviews the current state-of-the-art and highlights the associated challenges. By leveraging this survey, readers can swiftly gain insights into RL-EA to develop efficient algorithms, thereby fostering further advancements in this emerging field.
翻訳日:2023-08-29 10:54:55 公開日:2023-08-28
# オーバーザ・エア計算による線形バンディット学習

Federated Linear Bandit Learning via Over-the-Air Computation ( http://arxiv.org/abs/2308.13298v2 )

ライセンス: Link先を確認
Jiali Wang and Yuning Jiang and Xin Liu and Ting Wang and Yuanming Shi(参考訳) 本稿では,サーバと複数のデバイスから構成される無線システムにおけるコンテキスト線形帯域学習について検討する。 各デバイスは環境と相互作用し、受信した報酬に基づいてアクションを選択し、サーバにモデル更新を送信する。 主な目的は、有限時間地平線内のすべてのデバイスにおける累積的後悔を最小限にすることである。 通信オーバヘッドを低減するため、デバイスはノイズのあるフェーディングチャネル上のオーバー・ザ・エア計算(AirComp)を介してサーバと通信する。 そこで本研究では,各デバイスがアナログ信号を送信し,サーバがチャネルノイズによって歪んだ信号の重ね合わせを受信する,カスタマイズしたフェデレーション線形バンディットスキームを提案する。 提案手法の後悔の束縛を決定するために厳密な数学的解析を行う。 理論的解析と数値実験の両方で,提案手法の競合性能を,様々な設定における後悔境界の観点から実証した。

In this paper, we investigate federated contextual linear bandit learning within a wireless system that comprises a server and multiple devices. Each device interacts with the environment, selects an action based on the received reward, and sends model updates to the server. The primary objective is to minimize cumulative regret across all devices within a finite time horizon. To reduce the communication overhead, devices communicate with the server via over-the-air computation (AirComp) over noisy fading channels, where the channel noise may distort the signals. In this context, we propose a customized federated linear bandits scheme, where each device transmits an analog signal, and the server receives a superposition of these signals distorted by channel noise. A rigorous mathematical analysis is conducted to determine the regret bound of the proposed scheme. Both theoretical analysis and numerical experiments demonstrate the competitive performance of our proposed scheme in terms of regret bounds in various settings.
翻訳日:2023-08-29 10:54:29 公開日:2023-08-28
# シードモデル蒸留による不均一分散機械学習

Heterogeneous Decentralized Machine Unlearning with Seed Model Distillation ( http://arxiv.org/abs/2308.13269v2 )

ライセンス: Link先を確認
Guanhua Ye, Tong Chen, Quoc Viet Hung Nguyen, Hongzhi Yin(参考訳) 最近の情報セキュリティ法は、トレーニングされた機械学習モデルによって忘れられる無条件の権利をユーザに与えているため、パーソナライズされたiotサービスプロバイダは、学習しない機能を考慮に入れなければならない。 ユーザのコントリビューションを解放する最も簡単な方法は、未学習要求の頻繁な高スループットアプリケーションでは現実的ではない初期状態からモデルを再トレーニングすることです。 再トレーニングプロセスを高速化するためにいくつかの機械学習フレームワークが提案されているが、分散学習シナリオと一致しない。 本稿では,蒸留シードモデルを用いて全クライアントの消去可能なアンサンブルを構築するhdusという分散学習フレームワークを設計した。 さらに、このフレームワークは異種オンデバイスモデルと互換性があり、現実世界のアプリケーションにおいてより強力なスケーラビリティを示している。 3つの実世界のデータセットに対する大規模な実験は、HDUSが最先端のパフォーマンスを達成することを示している。

As some recent information security legislation endowed users with unconditional rights to be forgotten by any trained machine learning model, personalized IoT service providers have to put unlearning functionality into their consideration. The most straightforward method to unlearn users' contribution is to retrain the model from the initial state, which is not realistic in high throughput applications with frequent unlearning requests. Though some machine unlearning frameworks have been proposed to speed up the retraining process, they fail to match decentralized learning scenarios. In this paper, we design a decentralized unlearning framework called HDUS, which uses distilled seed models to construct erasable ensembles for all clients. Moreover, the framework is compatible with heterogeneous on-device models, representing stronger scalability in real-world applications. Extensive experiments on three real-world datasets show that our HDUS achieves state-of-the-art performance.
翻訳日:2023-08-29 10:54:14 公開日:2023-08-28
# ボックスとマスクの統合: 視覚追跡とセグメンテーションの統合のためのマルチオブジェクトフレームワーク

Integrating Boxes and Masks: A Multi-Object Framework for Unified Visual Tracking and Segmentation ( http://arxiv.org/abs/2308.13266v2 )

ライセンス: Link先を確認
Yuanyou Xu, Zongxin Yang, Yi Yang(参考訳) 任意のオブジェクトを空間的かつ時間的に追跡することは、Visual Object Tracking (VOT) と Video Object Segmentation (VOS) において共通の目的である。 共同追跡とセグメンテーションはいくつかの研究で試みられているが、初期化と予測においてボックスとマスクの完全な互換性を欠くことが多く、主に単目的シナリオに焦点を当てている。 これらの制限に対処するため,本稿では,統一追跡とセグメンテーションのためのマルチオブジェクトマスクボックス統合フレームワークmitsを提案する。 まず、初期化のためのボックス参照とマスク参照の両方をサポートするために、ボックスから詳細なオブジェクト情報が推測されるか、マスクから直接保持される統一識別モジュールを提案する。 さらに、ターゲット指向表現学習を容易にするために、高精度な多目的ボックス予測のための新しいピンポイントボックス予測器を提案する。 すべての対象オブジェクトは、VOTとVOSの統一パイプラインとして、エンコーディングから伝播、復号化まで同時に処理される。 実験の結果、MITSはVOTとVOSのベンチマークで最先端のパフォーマンスを達成した。 特に、MITSはGOT-10kテストセットにおいて、最上位のVOT競合を約6%上回り、VOSベンチマークにおけるボックス初期化の性能を大幅に改善している。 コードはhttps://github.com/yoxu515/MITSで公開されている。

Tracking any given object(s) spatially and temporally is a common purpose in Visual Object Tracking (VOT) and Video Object Segmentation (VOS). Joint tracking and segmentation have been attempted in some studies but they often lack full compatibility of both box and mask in initialization and prediction, and mainly focus on single-object scenarios. To address these limitations, this paper proposes a Multi-object Mask-box Integrated framework for unified Tracking and Segmentation, dubbed MITS. Firstly, the unified identification module is proposed to support both box and mask reference for initialization, where detailed object information is inferred from boxes or directly retained from masks. Additionally, a novel pinpoint box predictor is proposed for accurate multi-object box prediction, facilitating target-oriented representation learning. All target objects are processed simultaneously from encoding to propagation and decoding, as a unified pipeline for VOT and VOS. Experimental results show MITS achieves state-of-the-art performance on both VOT and VOS benchmarks. Notably, MITS surpasses the best prior VOT competitor by around 6% on the GOT-10k test set, and significantly improves the performance of box initialization on VOS benchmarks. The code is available at https://github.com/yoxu515/MITS.
翻訳日:2023-08-29 10:53:59 公開日:2023-08-28
# 大規模言語モデルに対するベイズ低位適応

Bayesian low-rank adaptation for large language models ( http://arxiv.org/abs/2308.13111v2 )

ライセンス: Link先を確認
Adam X. Yang, Maxime Robeyns, Xi Wang, Laurence Aitchison(参考訳) パラメータ効率細調整(PEFT)は大規模言語モデル(LLM)のコスト効率向上のための新しいパラダイムとして登場し、ローランク適応(LoRA)が広く採用されている。 しかし、微調整LPMは、特に小さなデータセットで微調整された場合、過信されることが多い。 ベイズ的手法は、不確実性を推定する固有の能力を持ち、過信を緩和し校正を強化する強力なツールとして機能する。 本研究では,LoRAパラメータにLaplace近似を適用し,微調整LDMの校正を著しく促進する,単純で効果的なベイズ法であるLaplace-LoRAを紹介する。

Parameter-efficient fine-tuning (PEFT) has emerged as a new paradigm for cost-efficient fine-tuning of large language models (LLMs), with low-rank adaptation (LoRA) being a widely adopted choice. However, fine-tuned LLMs often become overconfident especially when fine-tuned on small datasets. Bayesian methods, with their inherent ability to estimate uncertainty, serve as potent tools to mitigate overconfidence and enhance calibration. In this work, we introduce Laplace-LoRA, a straightforward yet effective Bayesian method, which applies the Laplace approximation to the LoRA parameters and, considerably boosts the calibration of fine-tuned LLMs.
翻訳日:2023-08-29 10:53:35 公開日:2023-08-28
# 大規模言語モデルの投票:まれな疾患の特定を促す

Large Language Models Vote: Prompting for Rare Disease Identification ( http://arxiv.org/abs/2308.12890v2 )

ライセンス: Link先を確認
David Oniani, Jordan Hilsman, Hang Dong, Fengyi Gao, Shiven Verma, Yanshan Wang(参考訳) 生成型大言語モデル(llms)の出現は、正確かつ効率的なプロンプトアプローチの必要性を強調している。 LLMはFew-Shot Learning(FSL)のコンテキストによく適用され、最小限のトレーニングデータでタスクが実行される。 FSLは、健康のためのAIを含む多くの人工知能(AI)サブドメインで人気を集めている。 まれな病気は人口のごく一部に影響する。 臨床ノートからの希少な疾患の同定には、データ可用性が制限されているため、本質的にFSL技術が必要である。 手動のデータ収集とアノテーションは高価かつ時間を要する。 本稿では,FSL 設定における LLM クエリの性能向上のためのフレキシブルなプロンプト手法である Models-Vote Prompting (MVP) を提案する。 MVPは多数のLCMに同じタスクを実行させ、その結果のアウトプットに対して過半数の投票を行う。 本手法は,1ショットの稀な疾患の同定と分類作業において,アンサンブル内の任意のモデルに対して改善された結果を達成する。 また、MIMIC-IV Data Use Agreement (DUA)に署名した人にも利用可能な、FSLのための新たなレアな疾患データセットをリリースする。 さらに、MVPでは、各モデルを複数回トリガーし、手動アノテーションに必要な時間を大幅に増加させ、これに対応するために、生成LDM評価を自動化するためにJSONを使用することの可能性を評価する。

The emergence of generative Large Language Models (LLMs) emphasizes the need for accurate and efficient prompting approaches. LLMs are often applied in Few-Shot Learning (FSL) contexts, where tasks are executed with minimal training data. FSL has become popular in many Artificial Intelligence (AI) subdomains, including AI for health. Rare diseases affect a small fraction of the population. Rare disease identification from clinical notes inherently requires FSL techniques due to limited data availability. Manual data collection and annotation is both expensive and time-consuming. In this paper, we propose Models-Vote Prompting (MVP), a flexible prompting approach for improving the performance of LLM queries in FSL settings. MVP works by prompting numerous LLMs to perform the same tasks and then conducting a majority vote on the resulting outputs. This method achieves improved results to any one model in the ensemble on one-shot rare disease identification and classification tasks. We also release a novel rare disease dataset for FSL, available to those who signed the MIMIC-IV Data Use Agreement (DUA). Furthermore, in using MVP, each model is prompted multiple times, substantially increasing the time needed for manual annotation, and to address this, we assess the feasibility of using JSON for automating generative LLM evaluation.
翻訳日:2023-08-29 10:53:02 公開日:2023-08-28